ChatGPT工作原理：机器学习和神经网络的训练

菜小编

2023-5-22

数据科学及AI人工智能

目前为止，我们一直在谈论那些 “已经知道” 如何完成特定任务的神经网络。但是，神经网络之所以如此有用（估计也是在大脑中），是因为它们不仅在原则上可以完成各种任务，而且可以逐步 “根据实例训练” 来完成这些任务。

当我们制作一个区分猫和狗的神经网络时，我们实际上不需要写一个程序来（比如说）明确地找到胡须；相反，我们只需要展示大量关于什么是猫和什么是狗的例子，然后让网络从这些例子中 “机器学习” 如何去区分它们。

重点是，训练有素的网络从它所展示的特定例子中 “概括” 出来。正如我们在上面看到的，这并不是简单地让网络识别它所看到的猫咪图像的特定像素模式；而是让神经网络以某种方式设法在我们认为是某种 “一般猫性” 的基础上区分图像。

那么，神经网络的训练究竟是如何进行的呢？从本质上讲，我们一直在努力寻找能够使神经网络成功重现我们所给的例子的权重。然后，我们依靠神经网络以 “合理” 的方式在这些例子之间进行 “插值”（或 “概括”）。

让我们看看一个比上面的最近点的问题更简单的问题。让我们只尝试让一个神经网络学习函数：

对于这个任务，我们需要一个只有一个输入和一个输出的网络，比如：

但我们应该使用什么权重等？在每一组可能的权重下，神经网络都会计算出一些函数。例如，这里是它用几组随机选择的权重所做的事情：

是的，我们可以清楚地看到，在这些情况下，它甚至都没有接近再现我们想要的函数。那么，我们如何找到能够重现该功能的权重呢？

基本的想法是提供大量的 “输入→输出” 的例子来 “学习” —— 然后尝试找到能重现这些例子的权重。下面是用逐渐增多的例子来做的结果：

在这个 “训练” 的每个阶段，网络中的权重都被逐步调整 —— 我们看到，最终我们得到了一个能成功重现我们想要的功能的网络。那么，我们是如何调整权重的呢？基本的想法是在每个阶段看看我们离得到我们想要的功能 “有多远”，然后以这样的方式更新权重，使之更接近。

为了找出 “我们有多远”，我们计算通常被称为 “损失函数”（或有时称为 “成本函数”）的东西。这里我们使用的是一个简单的（L2）损失函数，它只是我们得到的值与真实值之间的差异的平方之和。

我们看到的是，随着我们训练过程的进展，损失函数逐渐减少（遵循一定的 “学习曲线”，不同的任务是不同的） —— 直到我们达到一个点，网络（至少是一个很好的近似值）成功再现了我们想要的函数：

好了，最后要解释的重要部分是如何调整权重以减少损失函数。正如我们所说，损失函数给我们提供了我们得到的值与真实值之间的 “距离”。但是 “我们得到的值” 在每个阶段都是由当前版本的神经网络和其中的权重决定的。但现在想象一下，这些权重是变量 —— 比如说 wi。我们想找出如何调整这些变量的值，以使取决于这些变量的损失最小。

例如，想象一下（对实践中使用的典型神经网络进行了不可思议的简化），我们只有两个权重 w1 和 w2。那么我们可能有一个损失，作为 w1 和 w2 的函数，看起来像这样：

数值分析提供了各种技术来寻找这样的情况下的最小值。但一个典型的方法是，从之前的 w1、w2 开始，逐步遵循最陡峭的下降路径：

就像水从山上流下来一样，所能保证的是这个过程最终会在地表的某个局部最小值（“一个山湖”）；它很可能达不到最终的全球最小值。

在 “重量景观” 上找到最陡峭的下降路径并不明显，这是不可行的。但是，微积分可以帮助我们。正如我们上面提到的，我们总是可以把神经网看作是在计算一个数学函数 —— 它取决于它的输入和权重。

但现在考虑对这些权重进行微分。事实证明，微积分的连锁法则实际上可以让我们 “解开” 神经网中连续几层所做的运算。其结果是，我们可以 —— 至少在某些局部近似中 —— “反转” 神经网的操作，并逐步找到使与输出相关的损失最小的权重。

上图显示了在只有 2 个权重的不现实的简单情况下，我们可能需要做的最小化工作。但事实证明，即使有更多的权重（ChatGPT 使用了 1750 亿个），仍有可能做到最小化，至少在某种程度上是近似的。事实上，2011 年左右发生的 “深度学习” 的重大突破与以下发现有关：从某种意义上说，当有很多权重参与时，做（至少是近似）最小化比有相当少的权重更容易。

换句话说 —— 有点反直觉 —— 用神经网络解决更复杂的问题比简单的问题更容易。其大致原因似乎是，当一个人有很多 “权重变量” 时，他有一个高维空间，有 “很多不同的方向”，可以把他引向最小值 —— 而如果变量较少，则更容易陷入一个局部最小值（“山湖”），没有 “方向可以出去”。

值得指出的是，在典型的情况下，有许多不同的权重集合，它们都能使神经网络具有几乎相同的性能。而在实际的神经网络训练中，通常会有很多随机的选择，导致 “不同但等同的解决方案”，就像这些：