ChatGPT工作原理:概率从何而来?

2023-05-2219:44:51人工智能与大数据Comments707 views字数 1497阅读模式

ChatGPT 总是根据概率来选择下一个词。但是这些概率从何而来?让我们从一个更简单的问题开始。让我们考虑一次生成一个字母(而不是单词)的英语文本。我们怎样才能算出每个字母的概率呢?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

我们可以做的一个非常简单的事情就是取一个英语文本的样本,然后计算不同字母在其中出现的频率。因此,举例来说,这是计算维基百科上关于 “猫”(cat) 的文章中的字母:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

而这对 “狗”(dog) 也有同样的作用:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

结果相似,但不一样(“o” 在 “dogs” 文章中无疑更常见,因为毕竟它出现在 “dog” 这个词本身)。尽管如此,如果我们采取足够大的英语文本样本,我们可以期待最终得到至少是相当一致的结果。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

下面是我们得到的一个样本,如果我们用这些概率生成一个字母序列:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

我们可以通过添加空格将其分解为 “单词”,就像它们是具有一定概率的字母一样:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

我们可以通过强迫 “字长” 的分布与英语中的分布相一致,在制造 “单词” 方面做得稍微好一点:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

我们在这里没有碰巧得到任何 “实际的词”,但结果看起来稍好一些。不过,要想更进一步,我们需要做的不仅仅是随机地分别挑选每个字母。例如,我们知道,如果我们有一个 “q”,下一个字母基本上必须是 “u”:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

这里有一个字母本身的概率图:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

这是一个显示典型英语文本中成对字母(“2-grams”)概率的图。可能的第一个字母显示在页面上,第二个字母显示在页面下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

例如,我们在这里看到,除了 “u” 行,“q” 列是空白的(概率为零)。好了,现在我们不再是一次生成一个字母的 “单词”,而是使用这些 “2-gram” 概率,一次看两个字母来生成它们。下面是一个结果的样本 —— 其中恰好包括一些 “实际的词”:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

有了足够多的英语文本,我们不仅可以对单个字母或成对字母(2-grams)的概率进行很好的估计,而且还可以对较长的字母进行估计。如果我们用逐渐变长的 n-gram 概率生成 “随机词”,我们就会发现它们逐渐变得 “更现实”:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

但现在让我们假设 —— 或多或少像 ChatGPT 那样 —— 我们处理的是整个单词,而不是字母。英语中大约有 40,000 个合理的常用词。通过查看大型英语文本语料库(比如几百万本书,总共有几千亿个单词),我们可以得到每个单词的常见程度的估计。利用这一点,我们可以开始生成 “句子”,其中每个词都是独立随机抽取的,其出现的概率与语料库中的相同。下面是我们得到的一个样本:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

显然,这是一派胡言。那么,我们如何才能做得更好呢?就像对待字母一样,我们可以开始考虑的不仅仅是单个词的概率,还有成对的或更长的词的 n-grams 的概率。在成对的情况下,以下是我们得到的 5 个例子,所有情况都是从 “猫” 这个词开始的:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

ChatGPT工作原理:概率从何而来?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

它变得稍微 “看起来很合理” 了。我们可以想象,如果我们能够使用足够长的 n-grams,我们基本上会 “得到一个 ChatGPT” —— 在这个意义上,我们会得到一些东西,以 “正确的总体论文概率” 生成论文长度的单词序列。但问题是:没有足够的英文文本可以推导出这些概率。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

在网络的抓取中,可能有几千亿个单词;在已经数字化的书籍中,可能有另外几千亿个单词。但是有了 4 万个常用词,即使是可能的 2-grams 的数量也已经是 16 亿了,可能的 3-grams 的数量是 60 万亿。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

所以我们没有办法从现有的文本中估计出所有这些的概率。而当我们达到 20 个字的 “文章片段” 时,可能性的数量比宇宙中的粒子数量还要多,所以从某种意义上说,它们永远不可能全部被写下来。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

那么我们能做什么呢?最大的想法是建立一个模型,让我们估计序列出现的概率 —— 即使我们在所看的文本语料库中从未明确见过这些序列。而 ChatGPT 的核心正是一个所谓的 “大型语言模型”(LLM),它的建立可以很好地估计这些概率。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ai/41467.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/ai/41467.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定