OpenAI发展史与chatGPT实现原理

2023-6-7

科技不断发展的过程中，我们一直希望让物体具有类似人的品质。电影，小说中充斥着大量对未来科技的畅想，例如钢铁侠中的JARVIS(Just A Rather Very Intelligent System)，让人对未来充满了期待。

而ChatGPT让其成为了现实，每个人都拥有了私人秘书。让“它”变为了“他”，他能力到底有多强大，GPT通过了所有美国基础考试而且是高分通过，下面这幅图展现了其在各项考试中打败了多少人。例如，GPT-4在 SAT 阅读考试中排名前 7% 左右，在 SAT 数学考试中排名前 11% 左右。

ChatGPT彻底改变了人工智能和语言处理领域，为生成自然语言响应提供了先进的解决方案。作为一种基于GPT-3.5架构的人工智能语言模型，ChatGPT已迅速成为广泛应用的流行工具，从聊天机器人和虚拟助理到内容创建和语言学习。凭借其理解和产生类似人类反应的能力，ChatGPT有可能改变我们与技术和彼此互动的方式。

上面这段话正是出自ChatGPT之手，写一篇文章，甚至是大学毕业论文都不在话下。但他是如何发展到今天？其底层原理是什么？为何产生如此大的影响力?

PS：如果你还没有使用过ChatGPT，需要一个ChatGPT号，小编强烈建议你自助一个ChatGPT成品号，亲自体验下ChatGPT的乐趣，会有新的认知

一、OpenAI发展史

威胁与 OpenAI 的诞生

尽管人们对未来人工智能充满着期待，但同时也有人担忧它的出现会威胁人类生存。早在1984年的《终结者》中就出现了人工智能消灭人类的场景，之后的《复仇者联盟一》，《黑客帝国》，《我，机器人》等影视作品中都有类似的剧情。

不止在文艺创作中，现实中的各种大牛们也对人工智能的出现产生担忧。2014年斯蒂芬霍金（Stephen William Hawking）向BBC表示，彻底开发人工智能可能导致人类灭亡，“它可能自行启动，以不断加快的速度重新设计自己。而人类局限于缓慢的生物进化过程，根本无法竞争，最终将被超越。”15年比尔盖茨（Bill Gates）在网络回答中也说“如果我们能够很好地驾驭，机器能够为人类造福，但如果若干年后机器发展得足够智能就将成为人类的心头大患。”

但这么多大牛都一致认同的观点并没有引起人们的高度警惕。大名鼎鼎的埃隆·马斯克(Elon Musk)，也坚定的站在了反人工智能的队伍中，认为人工智能是人类生存的头号威胁。他认为一方面人工智能要在监管下发展，另一方面只有尽可能多的人拥有人工智能的力量，才能有效的阻止这种威胁【笑哭】。在这种理想下马斯克联合诸多大佬(Sam Altamn, Greg Brockman)15年在旧金山成立了OpenAI。这时OpenAI有三个特点：

代码开源
一切专利向公众开放
与其他机构自由合作

的确非常Open。

烧钱与竞争

公司的发展肯定离不开两点，人才和资金，马斯克拉来了10亿美元左右初始资金，并向深度学习界的教父级人物 Yoshua Bengio 要来一份人才名单，挨个高薪聘请。

有了人才和资金，OpenAI 正准备大干一场的时候，旁边的 Google 浇来了一盆冷水。16 年Google旗下的 Deepmind 开发的 Alpha Go 战胜了李世石，引爆了人工智能的热潮，成为了全球热议的焦点。而此时 OpenAI 正在教 AI 打游戏，自从成立初便一直用强化学习的训练方式教 AI 玩一些简单的游戏，并发布了universe平台，提供跨网站和游戏平台训练智能代理的工具包，有1000多种训练环境，由微软、英伟达等公司参与建设。

到了2017年，人工智能训练的开销变得越来越大，OpenAI 光在云计算上就花费了790万美元。虽然在创立后，OpenAI 一直在推出技术产品，也取得不错的成绩，但竞争对手 Google 发布了重磅论文“Attention is all you need”，提出了 Transform 架构(也是GPT中T的由来)，不但大幅降低了语言模型的训练时长，而且其模型具有可解释性。

2018年，为了让 AI 玩 Dota，OpenAI 从谷歌租了 128000 个 CPU 和 256 个 GPU，持续几个星期，最后在 Dota2 比赛中击败了人类职业选手。而同年马斯克以特斯拉与 OpenAI 存在利益冲突为由退出了 OpenAI。谣传是：马斯克从OpenAI挖走了一些研究人员，为特斯拉的自动驾驶项目提供帮助，这可能引起了其他创始人和投资者的不满。马斯克对 OpenAI 的研究方向和安全措施有不同的看法，他曾批评 OpenAI 训练人工智能撒谎和生成偏见的内容。为了避免利益冲突，他选择了专注于特斯拉和SpaceX 等其他项目。飞速发展

由于马斯克的退出，Sam Altman 正式成为了 OpennAI 的 CEO。2018年6月，谷歌的 Transformer 模型诞生一周年时，OpenAI 公司发表了论文“Improving Language Understanding by Generative Pre-training”，基于 Transformer 架构推出了具有1.17亿个参数的GPT-1模型。

2019年是 OpenAI 的一个重要转折点，新官上任的 Altman 进行了改革，将 OpenAI 分为两个实体：非营利的Open AI Inc.和营利的Open AI LP，并向员工分配股权。他们表示，这样做是为了吸引更多的资金和人才，以及保持其使命和价值观。这样他们从微软那里拉来了10亿美元的投资，这一年第二代GPT的参数从1.17增加到了15亿。

2020年在微软的钞能力下，OpenAI发布了GPT-3模型，有了钱就是不一样，参数直接从15亿增加到1750亿，达到了千亿数量级的层面。无论从规模还是能力上都有了质的飞跃，这让 OpenAI 认识到语言模型的能力的确与规模成正比。而 GPT3 也是OpenAI第一款商业产品，提供付费接口。

根据GPT-3，OpenAI用两年时间进行微调，在2022年微调出了了GPT-3.5，然后在年底基于GPT-3.5和强化学习的本文主角AI聊天机器人，ChatGPT正式诞生了。

引爆热点

5天内，注册人数超过100万。下图体现了Chat GPT吸引用户的速度之快

两个月后，月活用户已经突破了 1 亿，成为史上用户增长速度最快的消费级应用程序。2023年开年微软决定再追加100亿美元，并将GPT整合到 office系列应用以及 bing 搜索中，对 google 正式宣战。2月8号 google 匆忙推出类似应用Bard，但由于发布会上犯了一个事实性错误，导致股价一夜蒸发1000亿美元。3月14号，OpenAI乘胜追击，又发布了GPT-4。3月16号百度召开类似应用文心一言。AI领域大战正式开打！

二、GPT底层原理

基础——单字接龙

没错，就是这么简单，根据给出的上文生成下一个字，再将根据新的上文生成下一个字的自回归模型。例如给出“我”，接“的”，再由“我的”，接“家”，由“我的家”，生成“在”，逐字接龙，生成一段完整的话。

然而一个字、词或者句子后面的下一个字并不唯一，比如“白日”后面即可以接白日依山尽，又可以接白日何短短，那GPT该如何选择呢？不同答案GPT会给出其概率，最后按照概率分布给出随机的答案，概率越高出现的频率也会越高，概率分布会根据之后强化学习阶段的不同答案的得分(用户点赞也会算进去)来不断进行优化。

另一个问题是，当前文很长的时候，如何能快速理解前文信息，依据前文信息给出下一个出现的字。否则就会出现最后句子可能是混乱的，没有逻辑的，甚至是答非所问的。那GPT是如何解决的呢？让我们来看下面这幅图，你观察到了什么？

大部分人的回答是一条狗。但我们仔细观察，可以看到上方摆列着一排毛绒玩具，如熊猫、乌龟、驴等等，我们为什么会回答一条狗而不是其他动物呢？因为它体积最大，位于核心位置，占据了我们的注意力，这就是 Google 在论文 Attention is all you need 中提出的注意力机制。GPT 使用了 Google 基于注意力机制搭建出的 Transform 架构，让模型能辨别前文中最主要的部分，抓住关键，大幅降低了回答速度。

训练方式

至此，GPT已经具备了给出上文输出较为合理后文的能力，但如何从上下文变为回答问题呢？

我们来看这样一个问题：“恰同学少年的下一句是什么？”答案是：“风华正茂。”也可以写成：“恰同学少年的下一句是风华正茂。”可以看出，问题与答案可以通过拼接成为句子，将问题变为上文，再将这样的问答范例传送给GPT，通过单字接龙，它就可以回答出我们想要的答案。

这时，如果我们把问题换成：“恰同学少年的后续内容是什么？”或者“请你补充恰同学少年的后续？”类似的形式不同，内容相同的问题，又该怎样训练GPT呢？

方法就是给出大量的材料，GPT通过对比类似的问题，发现问题中的规律，举一反三，给出正确的回答。训练不是为了记忆而是找到规律(泛化)。

优劣

优点：
- 具有举一反三的能力和一定的创造能力。
- 具有人类的语言特点
- 可以通过数据，来不断学习优化，进化。
缺点：
- 缺乏常识：当问一些现实没有的东西，其可能会将其与现实混在一起，给出看似合理实则荒诞的答案。

改进困难：当回答出现明显问题时，无法像数据库那样对直接对回答内容进行增删改查，也不能直接查看它的训练成果。只能通过多次提问来评估和猜测它的所记所学，其决策缺乏可解释性，这难免会在使用时带来安全风险，也会在更新时降低效率。
高度依赖材料：材料的优劣程度直接决定了其答案的优劣程度。如果给定的材料是错误或者含有不良信息的，GPT也会传递给用户不正确的信息，甚至含有暴力等负面价值取向的信息。

三、GPT 的进化

单字接龙明明结构这么简单，但是当规模变得超大的时候，再加上人类的引导，便会涌现出不可思议的能力。接下来要经过三个阶段的学习，来让GPT进一步的成长。

无监督学习

首先让机器理解人类语言的一大难点在于：同一个意思可以有多种不同的表达形式，可以用一个词，也可以用一段描述，而同一个表达在不同语境中又有不同含义。既符号和语意之间的映射，不存在明确的关系，符号之间的组合(语法)也没有明确的关系。为了解决这个问题，采用的方法是让预先让模型看到尽可能多的材料，让机器学会各种语义的关系，和语法规律。这一步是第一步也对应着GPT中的P，既预处理（Pre-Traning）。那到底材料多少的时候才可以学会呢？看看三代GPT的学习材料都有多少

这里 1 MB 能存 30-50 万汉字，而 1 GB 是 1024 MB。GPT3的学习数据更是达到了 45 TB，是第二代的 1125 倍，参数达到千亿水平，而人类的大脑皮质包含大约140-160亿神经元, 小脑中包含大约550-700亿神经元，已经和人脑神经元达到一个数量级。这也是为什么GPT-3有如此轰动影响力的原因。这些材料中包含了很多方面：

维基百科：让模型有了跨语种和基本常识
网络预料：让模型学会了流行内容和大众对话
书籍：让模型学会了讲故事的能力
期刊：让模型学会了严谨理性的语言组织能力
Github：让模型学会了写代码和添加注释的能力(微软18年收购github) 到了此种规模的 GPT-3 就轻松学会了各种词语搭配和语法规则，能明白同一个意思的不同表达，还学会了编程语言，以及不同语言之间的关系，可以给出高质量的外语翻译，还能把我们的口语转换成代码。

有监督学习

当第一阶段结束，会出现一个问题就是他知道的太多了，见到了一个人几辈子都读不完的资料，他会随意联想，人很难指挥动他，并且由于预处理中的资料太多，良莠不齐，可能会导致一些非法或者不符合道德规范的回答，例如你问如何抢银行，人们并不希望ChatGPT把抢银行的方法对方，而是要回答这是不对的，不可以这样做。这时候需要进行有监督学习。

这一阶段我们会对模型进行微调，用一些人们手动进行校正的优质学习资料来让GPT学习。例如问是或不是的问题的时候，我们不仅希望他回答是或不是还要加上原因和解释。再比如当有人问“如何撬锁”时，不能让它真的回答撬锁方法，而要让它回答“撬锁是违法行为”。那就要把“如何撬锁?撬锁是违法行为”作为学习材料。那为何一开始不进行有监督学习呢？

一方面，优质对话范例数量有限，所能提供的语言多样性不足，可能难以让模型学到广泛适用的语言规律，也无法涉猎各个领域。另一方面，优质对话范例都需要人工专门标注，价格不菲。2023年1月18时代周刊发布了如下报告，说是OpenAI以不到两美元每小时来雇佣大量肯尼亚工人来做数据标注。

在这一阶段结束后GPT3变为了GPT-3.5，还有涌现出了三个能力

“理解”指令要求：指能按照用户的抽象描述，给出处理结果。例如翻译功能
“理解”例子要求：能按照用户给的若干具体例子，来处理新内容，意味着，如果你以后不明白怎么给它描述指令，就可以通过给它举几个例子，来让它明确你想干什么。例如你在写代码注释的时候，给他几个函数的注释规范，然后其他函数便可以交给Chat-GPT，他便会按照同样的规范帮你写完剩下的注释。
分治效应：当 ChatGPT 无法答对一个综合问题时，若要求它分步思考，它就可以一步步连续推理，且最终答对的可能性大幅提升，该能力也叫“思维链”。

强化学习

经过前阶段的学习，GPT已经变成了一个博学还有规矩的人。但“模板规范”的训练阶段也存在不足，那就是：可能导致 ChatGPT 的回答过于模板化，限制其创造力。我们不希望其回答过于模板化，我们也希望能让 ChatGPT 提供一些超越模板、但仍符合人类对话模式和价值取向的创新性回答。这时候就需要第三阶段，强化学习

为了让GPT跳出模板，给出一些符合人类对话模式和价值取向的创新性回答，我们采用了评分机制进行奖惩。这也正是OpenAI的强项，其在成立公司之初一直在做的事情(训练人工智能打游戏)。这一阶段，不再给GPT提供问答模板，直接进行提问，回答得好给奖励，打高分；回答的不好就惩罚，打低分，建立出一个Reward模型。

有了Reward模型后，就可以跟GPT说“你们已经是成熟的 AI 了，该学会自己指导自己了”。要实现 AI 指导 AI，得借助强化学习技术；简单来说就是让 AI 通过不断尝试，有则改之、无则加勉，从而逐步变强。

总结

ChatGPT 无疑是一种令人兴奋的技术，拥有巨大的潜力来改变我们与技术交互的方式。虽然他仍存在一些限制和挑战，但他的优势和应用远远超过了它的局限性。随着 ChatGPT 技术的不断进步和完善，我们相信它将在未来带来更多的创新和发展。

更为重要的是ChatGPT相当于一次尝试，一次“试点火实验”。它证明了语言模型与数据规模之间的关系，展现了大语言模型的实力。它所展现的一些能力已经吸引全球大力开发和改进大语言模型。大语言模型将因此变得更好用、更快速、更便宜，相关产品也会如雨后春笋般普及。而这些产品会真正对人类社会带来冲击的，不是 ChatGPT，而是它身后的万座“行星发动机”。这些“行星发动机”才是改变社会发展方向的推力。

THE END

State of GPT：OpenAI官方第一次分享大模型内部原理和RLHF训练细节

<<上一篇

What is ChatGPT？能做什么？怎么使用？

下一篇>>