ChatGPT训练原理——AI学渣请看

2023-3-16

背景介绍

ChatGPT太牛批引起了全球关注，不光卷AI圈内人，还连带卷了圈外人。

发展现状

ChatGPT和去年公布的InstructGPT是一对姊妹模型，有时候也被叫做GPT-3.5，是在GPT-4之前发布的预热模型，据传还未发布的GPT-4是一个多模态模型，那时ChatGPT可能不光只会理解文本回复文本，还能理解其他模态，如视频、图片、语音，让回复内容更加生动活泼。

GPT进化史

模型架构

ChatGPT和InstructGPT在模型结构、训练方式上都完全一致，即都使用了指令学习（Instruction Learning）和人工反馈强化学习（RLHF）来进行模型的训练，不同的仅仅是采集数据的方式上有所差异。但目前ChatGPT论文及代码细节尚未公布，但我们完全可以通过InstructGPT来理解ChatGPT模型及训练细节。

核心技术

指令学习（Instruct learning）：其实就是prompt learning
RLHF（Reinforcement Learning from Human Feedback）：基于人工反馈的强化学习

训练步骤

InstructGPT/ChatGPT的训练可以分成3步，分别是SFT、RM、PPO，下面分别介绍。

InstructGPT/ChatGPT模型架构

1.SFT

我们都知道ChatGPT是一个对话模型，它是如何能给出答案的呢？实现对话的第一步就需要依赖SFT，全称为Supervised FineTune，技术上是对GPT-3进行有监督的微调，本质目的是「对数据集进行优化」，用人类喜欢的答案作为训练数据，机器才能生成人类更喜欢的内容。

GPT原本是使用互联网海量语料库训练的大模型，但互联网上的语料非常杂乱，不一定是人类想要的答案，GPT依靠此数据生成的答案正确性和有用性不能保证。
在此基础上，对数据集优化，把人们喜欢的答案喂给已经训练好的GPT再次微调，这样模型可以对齐人的思考模式得到提升。可以理解成升级后的模型只订阅人们喜欢的内容。
对话机器人的雏形已经生成，它可以根据问题生成一系列的答案，但是缺陷是它不具备人的判断能力。机器生成了答案A,B,C,D，但哪个是想要的呢的答案呢？由此，引入RM奖励模型。