ChatGPT-4 和 GPT-5大型语言模型的工作原理：上下文学习、CoT、RLHF 和多模态预训练

菜小编

2023-4-16

数据科学及AI人工智能

老实说，ChatGPT 已经成为一种开创性的 AI 语言模型，以前所未有的方式改变了我们与机器的交互方式。它产生类似人类反应的能力吸引了全世界的想象力。

互联网上充斥着关于 ChatGPT 和 GPT-4 的文章。在这里，我们将全面而简洁地带你了解 ChatGPT 的起源、大型语言模型的内部工作原理、它们的训练方法等等。

OpenAI ChatGPT 从 GPT-3.5 到 GPT-4 和 GPT-5

OpenAI 的联合创始人兼首席执行官 Sam Altman 带领公司实现了非凡的里程碑，概述如下：

OpenAI 关键事件

ChatGPT 最初从 GPT-3.5 中汲取灵感，GPT-3.5 是一种尖端的大型语言模型，以其在编写、编码和解决复杂数学问题方面的实力以及其他令人惊叹的成就而震惊世界。

GPT-4 是 ChatGPT 的最新迭代，作为一个大规模的多模式模型，可以处理图像和文本输入以生成文本输出。尽管在某些现实世界的情况下它可能不会超越人类的能力，但 GPT-4 在一系列专业和学术基准测试中展示了人类水平的表现，提高了语言模型能力的标准。

GPT-5 将在未来几个月内推出，预计在范围、准确性和推理方面的性能会有所提高。它将是一个更全面的多模态大规模模型，支持文本、图像、视频和3D作为输入和输出。

ChatGPT的快速进步和能力不仅让人们惊叹不已，也引发了广泛关注。Elon Musk 和其他技术牛人促暂停训练比 GPT-4 更强大的人工智能系统。

ChatGPT 大型语言模型如何工作？

最新的大型语言模型几乎都是大规模预训练的基础模型，主要包括以下几个关键机制：具有自我注意机制的基于变压器的架构，具有自我监督学习的预训练，迁移学习和预训练模型的微调等。

ChatGPT 的出色性能采用了以下关键技术：上下文学习、思维链、代码、InstructGPT 和人类反馈强化学习 (RLHF)。

情境学习

上下文学习是指模型根据输入中提供的上下文理解、适应和响应新信息的过程。上下文学习是大规模预训练模型的一个基本特征，因为它允许它们在广泛的任务上表现良好而无需显式微调。

GPT-4 等模型中的上下文学习涉及在上下文窗口内处理输入，利用注意力机制关注相关信息，根据预训练的知识和上下文预测后续标记，并不断更新其理解以更好地适应任务在眼前。

GPT3.5 中的 ChatGPT 使用少样本学习器。

思路链

思维链 (CoT) 是一种从语言模型中引出解释的技术，而上下文学习是一种训练语言模型执行任务的技术。

CoT 由谷歌研究人员于 2022 年首次提出。他们发现，通过提示模型生成 CoT，他们能够提高在一系列算术、常识和符号推理任务上答案的准确性。

引出思维链推理的方法主要有两种：少样本提示和零样本提示。Few-shot 提示涉及为模型提供一个或多个与 CoT 配对的问题示例。零次提示涉及简单地在提示中附加“让我们逐步思考”一词。

以下是零样本 CoT 提示的示例：

提示：“法国的首都是哪里？”

原文回复：“巴黎”

Zero-shot-CoT 回复：“让我们循序渐进地思考。法国是欧洲的一个国家。法国首都是巴黎。”

如您所见，零样本 CoT 响应更加详细，并且对模型如何得出答案提供了更合乎逻辑的解释。

这两种方法都已被证明可有效地从模型中引出 CoT。然而，小样本提示已被证明更有效，特别是对于复杂问题。

Codex 和 InstructGPT

Codex是一个基于 GPT-3 的 LLM，将自然语言翻译成代码，而InstructGPT是一个基于 GPT-3 的 LLM，遵循自然语言的指令。

Codex 最初称为 Codex Initial，但在 2022 年更名为 Codex。更名是为了反映 Codex 不再是模型的“原型”或“初始”版本。

InstructGPT原名Codex Follow Instructions，2022年更名为InstructGPT，意思是InstructGPT是比Codex Follow Instructions更通用的模型。

InstructGPT 旨在使用自然语言理解 (NLU) 遵循输入中提供的指令，并生成详细、准确和有用的响应。

Codex 和 InstructGPT 作为单个 ChatGPT 或 GPT-4 通过多模式连接在一起。这意味着他们都可以访问相同的信息，并且可以一起工作来生成文本、翻译语言、编写不同类型的创意内容，并以信息丰富的方式回答您的问题。

从人类反馈中强化学习 (RLHF)

人类反馈强化学习 (RLHF) 将强化学习与人类反馈相结合，以提高 AI 代理的性能。它根据人类反馈训练奖励模型，然后将其用作奖励函数，通过近端策略优化等算法优化代理的策略。

这种方法在具有稀疏或嘈杂奖励功能的场景中特别有用，并且在自然语言处理任务中有应用，例如会话代理和文本摘要。

RLHF 涉及三个主要步骤：

1、以评级或排名的形式收集人类对人工智能生成输出的反馈。

2、训练奖励模型来预测人类对这些输出的评估。

3、使用奖励模型优化代理的策略以生成更高质量的输出。

尽管仍处于早期阶段，RLHF 在提高语言模型的准确性和可靠性方面显示出巨大的希望。ChatGPT 依靠 RLHF 获得高质量的相关响应。

GPT 和 GPT-4 是如何训练的？

训练 GPT 模型，如 GPT-4，涉及两步过程：预训练和微调。该过程类似于以前版本的 GPT，但可以应用于更大的模型和数据集。以下是培训过程的概述：

数据收集和预处理：从不同来源收集大型文本语料库，例如网站、书籍、文章和其他文本文档。通过删除不相关的内容、标记文本并将其拆分为更小的块或序列来预处理数据。确保数据集足够大且多样化，以捕捉语言的细微差别和结构。

预训练：初始化具有大量层、注意头和隐藏单元的基于 transformer 的神经网络架构。使用自我监督学习预训练模型，特别是掩码语言建模(MLM) 任务。在此任务中，模型经过训练以在给定周围标记的上下文的情况下预测掩码标记。在预训练期间，模型学习一般语言表示、语法、句法和语义模式。预训练阶段通常涉及在大规模计算资源（例如多个 GPU 或 TPU）上训练模型，可能需要几天或几周才能完成。

微调：在预训练阶段之后，在较小的、特定于任务的标记数据集上微调模型。微调使模型适应执行特定任务，例如文本摘要、翻译、问答或情感分析。可以使用监督学习或在某些情况下使用强化学习来进行微调，具体取决于任务和可用数据。在微调过程中，您还可以尝试不同的超参数，例如学习率、批量大小和训练周期数，以优化模型的性能。

评估和部署：使用相关指标评估微调模型的性能，例如准确性、F1 分数或 BLEU 分数。如果模型的性能令人满意，则将其部署到现实世界的应用程序中，例如聊天机器人、内容生成或文本分析。

然而，训练 GPT 模型，尤其是像 GPT-4 这样的大型模型，需要大量的计算资源和专业知识。访问高质量、多样化的数据对于实现良好的性能也至关重要。

100 亿个参数是大型语言模型的引爆点吗？

100 亿个参数是大型语言模型 (LLM) 的一个重要里程碑。正是在这一点上，法学硕士开始显示出他们理解和生成文本的能力有了显着提高。

在 100 亿参数之前，LLM 的能力仍然相对有限。他们可以生成语法正确且事实准确的文本，但他们常常难以理解人类语言的细微差别。

有了 100 亿个甚至更多的参数，LLM 能够学习更复杂的语言模式。他们可以理解上下文中单词和短语的含义，并且可以生成语法正确且语义有意义的文本。

这是 LLM 发展的一个重大转折点，很可能会导致他们在各种任务中的表现显着提高。例如，法学硕士将能够更好地理解和翻译语言，生成更具创造性和原创性的内容，甚至可以与人类进行难以区分的对话。

Capabilities vs. Scale of LLMs

但是，基于上述能力和规模之间的关系，100 亿个参数并不是一个神奇的数字。还有许多其他因素会影响 LLM 的性能，例如训练数据的质量和模型的架构。

GPT-4 是具有常识性地

ChatGPT 和 GPT-4 令人兴奋不已，但我想以一个基本主题结束：GPT-4 与人类一样具有常识基础。

以下是 GPT-4 常识基础如何用于生成文本的示例：

提示：“狗是哺乳动物，哺乳动物有毛，狗的毛是什么颜色的？”

GPT-4 回答：“狗的皮毛通常是棕色的，但也可以是黑色、白色甚至红色。”

GPT-4 常识基础增强了GPT-4模型使用常识知识推理和理解世界的能力。它通过利用预训练、微调、注意力机制、上下文理解和预测来产生更准确、更适合上下文的反应，这些反应依赖于常识知识。

微软研究公司声称，基于广泛的测试，GPT-4可以被认为是AGI的早期形式。看到未来的发展是令人兴奋的。

相关资源

OpenAI RLHF：训练语言模型，使其遵循人类反馈的指令：https://arxiv.org/abs/2203.02155

通过人类反馈(RLHF)进行强化学习的语言模型分布式训练的地址：https: //github.com/CarperAI/trlx

大型语言模型中的思维链提示推理：https://arxiv.org/abs/2201.11903

语言模型是 Few-Shot Learners：https ://arxiv.org/abs/2005.14165

大型语言模型 Zero-Shot Reasoners ：https ://arxiv.org/abs/2205.11916

Stanford DetectGPT：使用概率曲率的零样本机器生成文本检测：https://arxiv.org/abs/2301.11305

来源：PikeTalk

THE END

GitHub Copilot如何获得并结合VS Code使用？

<<上一篇

GitHub Copilot使用指南：提示工程是什么？可以自己编码吗？

下一篇>>