ChatGPT工作原理：概率从何而来？

菜小编

2023-5-22

数据科学及AI人工智能

ChatGPT 总是根据概率来选择下一个词。但是这些概率从何而来？让我们从一个更简单的问题开始。让我们考虑一次生成一个字母（而不是单词）的英语文本。我们怎样才能算出每个字母的概率呢？

我们可以做的一个非常简单的事情就是取一个英语文本的样本，然后计算不同字母在其中出现的频率。因此，举例来说，这是计算维基百科上关于 “猫”（cat）的文章中的字母：

而这对 “狗”（dog）也有同样的作用：

结果相似，但不一样（“o” 在 “dogs” 文章中无疑更常见，因为毕竟它出现在 “dog” 这个词本身）。尽管如此，如果我们采取足够大的英语文本样本，我们可以期待最终得到至少是相当一致的结果。

下面是我们得到的一个样本，如果我们用这些概率生成一个字母序列：

我们可以通过添加空格将其分解为 “单词”，就像它们是具有一定概率的字母一样：

我们可以通过强迫 “字长” 的分布与英语中的分布相一致，在制造 “单词” 方面做得稍微好一点：

我们在这里没有碰巧得到任何 “实际的词”，但结果看起来稍好一些。不过，要想更进一步，我们需要做的不仅仅是随机地分别挑选每个字母。例如，我们知道，如果我们有一个 “q”，下一个字母基本上必须是 “u”：

这里有一个字母本身的概率图：

这是一个显示典型英语文本中成对字母（“2-grams”）概率的图。可能的第一个字母显示在页面上，第二个字母显示在页面下：

例如，我们在这里看到，除了 “u” 行，“q” 列是空白的（概率为零）。好了，现在我们不再是一次生成一个字母的 “单词”，而是使用这些 “2-gram” 概率，一次看两个字母来生成它们。下面是一个结果的样本 —— 其中恰好包括一些 “实际的词”：

有了足够多的英语文本，我们不仅可以对单个字母或成对字母（2-grams）的概率进行很好的估计，而且还可以对较长的字母进行估计。如果我们用逐渐变长的 n-gram 概率生成 “随机词”，我们就会发现它们逐渐变得 “更现实”：

但现在让我们假设 —— 或多或少像 ChatGPT 那样 —— 我们处理的是整个单词，而不是字母。英语中大约有 40,000 个合理的常用词。通过查看大型英语文本语料库（比如几百万本书，总共有几千亿个单词），我们可以得到每个单词的常见程度的估计。利用这一点，我们可以开始生成 “句子”，其中每个词都是独立随机抽取的，其出现的概率与语料库中的相同。下面是我们得到的一个样本：

显然，这是一派胡言。那么，我们如何才能做得更好呢？就像对待字母一样，我们可以开始考虑的不仅仅是单个词的概率，还有成对的或更长的词的 n-grams 的概率。在成对的情况下，以下是我们得到的 5 个例子，所有情况都是从 “猫” 这个词开始的：

它变得稍微 “看起来很合理” 了。我们可以想象，如果我们能够使用足够长的 n-grams，我们基本上会 “得到一个 ChatGPT” —— 在这个意义上，我们会得到一些东西，以 “正确的总体论文概率” 生成论文长度的单词序列。但问题是：没有足够的英文文本可以推导出这些概率。

在网络的抓取中，可能有几千亿个单词；在已经数字化的书籍中，可能有另外几千亿个单词。但是有了 4 万个常用词，即使是可能的 2-grams 的数量也已经是 16 亿了，可能的 3-grams 的数量是 60 万亿。

所以我们没有办法从现有的文本中估计出所有这些的概率。而当我们达到 20 个字的 “文章片段” 时，可能性的数量比宇宙中的粒子数量还要多，所以从某种意义上说，它们永远不可能全部被写下来。

那么我们能做什么呢？最大的想法是建立一个模型，让我们估计序列出现的概率 —— 即使我们在所看的文本语料库中从未明确见过这些序列。而 ChatGPT 的核心正是一个所谓的 “大型语言模型”（LLM），它的建立可以很好地估计这些概率。

THE END