ChatGPT工作原理：训练

2023-5-22

现在我们已经给出了 ChatGPT 建立后的工作概要。但它是如何建立的呢？其神经网络中的 1750 亿个权重是如何确定的？基本上，它们是非常大规模的训练的结果，基于一个巨大的文本语料库 —— 网络上的、书中的等等 —— 由人类写的。

正如我们所说的，即使考虑到所有的训练数据，神经网络是否能够成功地产生 “类似人类” 的文本，这一点也不明显。而且，再一次，似乎需要详细的工程来实现这一目标。但 ChatGPT 的最大惊喜和发现是，它是可能的。实际上，一个 “只有”1750 亿个权重的神经网络可以对人类所写的文本做出一个 “合理的模型”。

在现代，有很多人类写的文本是以数字形式存在的。公共网络至少有几十亿人写的网页，总共可能有一万亿字的文本。如果包括非公开网页，这些数字可能至少要大 100 倍。到目前为止，已经有超过 500 万本数字化书籍可供使用（在曾经出版过的 1 亿本左右的书籍中），又有 1000 亿左右的文字。

作为个人比较，我一生中发表的材料总字数不到 300 万字，在过去 30 年中，我写了大约 1500 万字的电子邮件，总共打了大约 5000 万字，在过去几年中，我在直播中说了 1000 多万字。而且，是的，我将从所有这些中训练一个机器人）。

但是，好吧，鉴于所有这些数据，我们如何从中训练出一个神经网络呢？基本过程与我们在上面的简单例子中讨论的非常相似。你提出一批例子，然后你调整网络中的权重，使网络在这些例子上的误差（“损失”）最小。从错误中 “反向传播” 的主要问题是，每次你这样做，网络中的每个权重通常至少会有微小的变化，而且有大量的权重需要处理。（实际的 “反向计算” 通常只比正向计算难一个小常数）。

有了现代的 GPU 硬件，从成千上万的例子中并行计算出结果是很简单的。但是，当涉及到实际更新神经网络中的权重时，目前的方法要求我们基本上是一批一批地做。（是的，这可能是实际的大脑 —— 其计算和记忆元素的结合 —— 目前至少有一个架构上的优势）。

即使在我们之前讨论的看似简单的学习数字函数的案例中，我们发现我们经常不得不使用数百万个例子来成功训练一个网络，至少从头开始。那么，这意味着我们需要多少个例子来训练一个 “类人语言” 模型呢？似乎没有任何基本的 “理论” 方法可以知道。但是在实践中，ChatGPT 已经成功地在几千亿字的文本上进行了训练。

有些文本被多次输入，有些只有一次。但不知何故，它从它看到的文本中 “得到了它需要的东西”。但是，考虑到需要学习的文本量，它应该需要多大的网络才能 “学好”？同样，我们还没有一个基本的理论方法来说明。

最终 —— 我们将在下面进一步讨论 —— 人类语言大概有某种 “总的算法内容”，以及人类通常用它说什么。但接下来的问题是，神经网络在实现基于该算法内容的模型时将会有多大的效率。我们也不知道 —— 尽管 ChatGPT 的成功表明它的效率还算不错。

最后我们可以注意到，ChatGPT 使用了几千亿个权重 —— 与它所获得的训练数据的总字数（或令牌）相比，它所做的事情是相当的。在某些方面，也许令人惊讶的是（尽管在 ChatGPT 的小型类似物中也有经验观察），似乎工作良好的 “网络规模” 与 “训练数据的规模” 如此相似。毕竟，这肯定不是说 “在 ChatGPT 内” 所有来自网络和书籍等的文本都被 “直接存储” 了。因为在 ChatGPT 里面的实际上是一堆数字 —— 精度略低于 10 位 —— 是对所有这些文本的总体结构的某种分布式编码。

换句话说，我们可以问人类语言的 “有效信息含量” 是什么，以及通常用它说什么。这里有语言实例的原始语料库。然后是 ChatGPT 的神经网络中的表述。这个表征很可能与 “算法上最小” 的表征相去甚远（我们将在下面讨论）。但它是一个很容易被神经网络使用的表征。在这种表示法中，训练数据的 “压缩” 程度似乎很低；平均而言，似乎只需要不到一个神经网络的权重就可以承载一个词的训练数据的 “信息内容”。

当我们运行 ChatGPT 来生成文本时，我们基本上不得不使用每个权重一次。因此，如果有 n 个权重，我们有 n 个计算步骤要做 —— 尽管在实践中，许多步骤通常可以在 GPU 中并行完成。但是，如果我们需要大约 n 个字的训练数据来设置这些权重，那么从我们上面所说的，我们可以得出结论，我们需要大约 n2 个计算步骤来进行网络训练 —— 这就是为什么，用目前的方法，人们最终需要谈论数十亿美元的训练工作。

THE END