大型语言模型可以做出令人瞠目结舌的事情。但没有人确切知道原因。

发布时间:2024/3/4 来源:MIT Technology Review
这是一个问题。弄清楚它是我们这个时代最大的科学难题之一,也是控制更强大的未来模型的关键一步。
A photo illustration showing speech bubbles full of data.

两年前,旧金山 OpenAI 公司的研究人员尤里·布尔达 (Yuri Burda) 和哈里·爱德华兹 (Harri Edwards) 试图找出如何才能获得执行基本算术的语言模型。 他们想知道模型需要查看多少个将两个数字相加的示例才能将他们提供的任意两个数字相加。 起初,事情进展得不太顺利。 这些模型记住了他们看到的算式,但无法解决新的算式。

意外的是,布尔达和爱德华兹让他们的一些实验运行的时间比他们预期的要长得多——几天而不是几个小时。 这些模型一遍又一遍地显示示例总和,远远超出了研究人员本来会放弃的程度。 但当两人最终回来时,他们惊讶地发现实验成功了。 他们训练了一个语言模型来将两个数字相加——它所花费的时间比任何人想象的都要多得多。

布尔达和爱德华兹对到底发生了什么感到好奇,于是与同事合作研究这一现象。 他们发现,在某些情况下,模型可能看似无法学习某项任务,但突然间就完成了,就像灯泡打开了一样。 这不是深度学习应该发挥的作用。 他们称这种行为 为“摸索”

“这真的很有趣,”蒙特利尔大学和苹果机器学习研究中心的人工智能研究员 Hattie Zhou 说,她没有参与这项工作。 “我们能否确信模型已经停止学习? 因为也许我们训练的时间还不够长。”

这种奇怪的行为引起了 更广泛的研究界 想象力 “很多人都有自己的观点,”英国剑桥大学的劳罗·兰戈斯科 (Lauro Langosco) 说。 “但我不认为人们对到底发生了什么达成共识。”

Grokking 只是让人工智能研究人员摸不着头脑的几个奇怪现象之一。 最大的模型,尤其是大型语言模型,似乎按照教科书数学所说的不应该的方式运行。 这突显了深度学习的一个显着事实,深度学习是当今人工智能热潮背后的基础技术:尽管它取得了巨大的成功,但没有人确切知道它是如何工作的,或者为什么工作。

“显然,我们并非完全无知,”加州大学圣地亚哥分校的计算机科学家米哈伊尔·贝尔金 (Mikhail Belkin) 说道。 “但我们的理论分析与这些模型的能力相差甚远。 比如,为什么他们可以学习语言? 我觉得这很神秘。”

现在最大的模型是如此复杂,以至于研究人员正在研究它们,就好像它们是奇怪的自然现象一样,进行实验并试图解释结果。 其中许多观察结果与经典统计学背道而驰,经典统计学为我们提供了预测模型行为的最佳解释。

那又怎样,你可能会说。 在过去的几周里,谷歌 DeepMind 已经 其大多数消费者应用程序中推出了 生成模型 OpenAI 以其令人惊叹的新型文本到视频模型 Sora 令人们惊叹不已。 世界各地的企业 在争先恐后地利用人工智能来满足自己的需求。 这项技术有效——这还不够吗?

但弄清楚深度学习为何如此有效不仅仅是一个有趣的科学难题。 它还可能是解锁下一代技术以及控制其 巨大风险的 关键。

“这是激动人心的时刻,”哈佛大学计算机科学家 Boaz Barak 说道,他借调到 OpenAI 的超级对齐团队 一年。 “该领域的许多人经常将其与 20 世纪初的物理学进行比较。 我们有很多我们不完全理解的实验结果,而且当你做实验时,常常会让你感到惊讶。”

旧代码,新技巧

大多数惊喜都与模型学习如何完成尚未被展示如何做的事情的方式有关。 这被称为泛化,是机器学习中最基本的思想之一,也是它最大的难题。 模型通过使用一组特定的示例进行训练来学习执行任务(识别面孔、翻译句子、避开行人)。 然而,他们可以进行概括,学习用他们以前从未见过的例子来完成这项任务。 不知何故,模型不仅会记住他们见过的模式,还会提出规则,让他们将这些模式应用到新案例中。 有时,就像摸索一样,概括会在我们意想不到的时候发生。 

特别是大型语言模型,例如 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini,具有惊人的泛化能力。 “神奇之处不在于该模型可以学习英语数学问题,然后推广到新的英语数学问题,”巴拉克说,“而是该模型可以学习英语数学问题,然后看到一些法国文献,并从中推广用法语解决数学问题。 这超出了统计数据所能告诉你的范围。”

几年前,当周开始研究人工智能时,她对老师关注“如何”而不是“原因”的方式感到震惊。 “这就像,这就是你如何训练这些模型,然后这就是结果,”她说。 “但尚不清楚为什么这个过程会产生能够做这些令人惊奇的事情的模型。” 她想了解更多,但她被告知没有好的答案:“我的假设是科学家知道他们在做什么。 就像,他们会得到理论,然后建立模型。 事实并非如此。”

过去十多年来深度学习的快速进步更多地来自于尝试和错误,而不是理解。 研究人员复制了其他人的有效方法,并进行了自己的创新。 现在有许多不同的成分可以添加到模型中,并且越来越多的食谱充满了使用它们的食谱。 “人们尝试这个、那个、所有这些技巧,”贝尔金说。 “有些很重要。 有些可能不是。”

“它有效,这太神奇了。 这些东西的威力让我们大吃一惊,”他说。 然而,尽管他们取得了巨大的成功,但这些食谱更多的是炼金术而不是化学:“我们在混合了一些成分后在午夜想出了某些咒语,”他说。

过拟合

问题在于,大型语言模型时代的人工智能似乎违背了教科书的统计数据。 当今最强大的模型非常庞大,具有多达万亿个参数(模型中在训练过程中调整的值)。 但统计数据表明,随着模型变得越来越大,它们的性能首先会提高,但随后会变得更糟。 这是因为所谓的过度拟合。

当模型在数据集上进行训练时,它会尝试使该数据适合某种模式。 想象一下图表上绘制的一堆数据点。 适合数据的模式可以在该图表上表示为穿过点的线。 训练模型的过程可以被认为是让它找到一条既适合训练数据(图表上已有的点)又适合新数据(新点)的线。

直线是一种模式,但它可能不会太准确,会丢失一些点。 连接每个点的摆动线将在训练数据上获得满分,但不会泛化。 当这种情况发生时,模型被称为过度拟合其数据。

根据经典统计,模型越大,就越容易过度拟合。 这是因为可以使用的参数越多,模型就越容易击中连接每个点的摆动线。 这表明模型要进行泛化就必须找到欠拟合和过度拟合之间的最佳平衡点。 然而,这并不是我们在大型模型中看到的情况。 最著名的例子是一种称为双重血统的现象。 

模型的性能通常用它所犯的错误数量来表示:随着性能的提高,错误率会下降(或下降)。 几十年来,人们一直认为,随着模型变大,错误率会先下降,然后再上升:想象一条 U 形曲线,泛化的最佳点位于最低点。 但在 2018 年,贝尔金和他的同事发现,当某些模型变得更大时,它们的错误率会下降,然后上升,然后再次下降(双下降或 W 形曲线)。 换句话说,大型模型会以某种方式超越最佳点并解决过度拟合问题,随着模型变大而变得更好。

一年后,巴拉克与人合着了一篇论文,表明 双重下降现象 比许多人想象的更为普遍。 这种情况不仅发生在模型变大时,而且发生在具有大量训练数据的模型或训练时间较长的模型中。 这种被称为良性过度拟合的行为仍未完全被理解。 它提出了如何训练模型以充分利用模型的基本问题。 

研究人员已经勾勒出了他们认为正在发生的事情的版本。 贝尔金认为,存在一种奥卡姆剃刀效应:适合数据的最简单模式(点之间最平滑的曲线)通常是概括性最好的模式。 更大的模型持续改进的时间比看起来应该更长的时间可能是因为更大的模型比更小的模型更有可能达到同样的曲线:更多的参数意味着在放弃最摇摆的曲线后可以尝试更多可能的曲线。 

“我们的理论似乎解释了它起作用的基本原理,”贝尔金说。 “然后人们制作了可以讲 100 种语言的模型,结果就像是,好吧,我们什么都不懂。” 他笑道:“事实证明我们还没有触及皮毛。”

对于贝尔金来说,大型语言模型是一个全新的谜团。 这些模型基于 Transformer,这是一种神经网络,擅长处理数据序列,例如句子中的单词。

贝尔金说,变压器内部有很多复杂性。 但他认为,从本质上来说,它们与一种更好理解的称为马尔可夫链的统计结构做的事情或多或少是相同的,马尔可夫链根据之前的内容预测序列中的下一个项目。 但这还不足以解释大型语言模型可以做的一切。 “直到最近,我们还认为这是行不通的,”贝尔金说。 “这意味着从根本上缺少了一些东西。 它表明了我们对世界的理解存在差距。”

贝尔金走得更远。 他认为语言中可能存在一种隐藏的数学模式,大型语言模型会以某种方式利用这种模式:“纯粹的猜测,但为什么不呢?”

“这些东西模拟语言的事实可能是历史上最伟大的发现之一,”他说。 “你可以通过用马尔可夫链预测下一个单词来学习语言——这让我感到震惊。”

从小事做起

研究人员正试图一点一点地找出答案。 由于大型模型过于复杂,无法对其进行研究,因此贝尔金、巴拉克、周和其他人对更容易理解的较小(和较旧)统计模型进行了实验。 在不同条件下使用各种数据训练这些代理并观察发生的情况可以深入了解正在发生的情况。 这有助于新理论的落地,但并不总是清楚这些理论是否也适用于更大的模型。 毕竟,许多奇怪的行为都存在于大型模型的复杂性中。     

深度学习理论即将到来吗? 哥伦比亚大学计算机科学家大卫·许 (David Hsu) 是贝尔金这篇双重下降论文的合著者之一,他并不指望很快就能得到所有答案。 “我们现在有了更好的直觉,”他说。 “但是真的能解释为什么神经网络有这种意想不到的行为吗? 我们距离做到这一点还很远。”

2016 年,麻省理工学院的张驰源和 Google Brain 的同事发表了一篇 颇具影响力的论文 ,题为“理解深度学习需要重新思考泛化”。 五年后的 2021 年,他们重新发表了这篇论文,称其为“理解深度学习(仍然)需要重新思考泛化”。 2024 年呢? “有点是又不是,”张说。 “最近取得了很多进展,尽管可能出现的问题比解决的问题还要多。”

与此同时,研究人员仍在努力研究基本的观察结果。 去年 12 月,Langosco 和他的同事在顶级人工智能会议 NeurIPS 上发表了一篇论文,他们在论文中声称,grokking 和双重下降实际上是同一现象的不同方面。 “你仔细观察它们,它们看起来有点相似,”兰戈斯科说。 他认为对正在发生的事情的解释应该解释两者。

在同一次会议上,剑桥大学研究统计学的艾丽西亚·柯斯 (Alicia Curth) 和她的同事认为,双重血统实际上是一种幻觉。 “我不太同意现代机器学习是某种魔法,它违背了我们迄今为止建立的所有法律,”柯斯说。 她的团队认为,双重下降现象(模型似乎表现得更好,然后更差,然后随着模型变得更大而再次更好)的出现是由于模型复杂性的衡量方式。 

贝尔金和他的同事使用模型大小(参数数量)作为复杂性的衡量标准。 但 Curth 和她的同事发现,参数的数量可能并不能很好地替代复杂性,因为添加参数有时会使模型变得更加复杂,有时又会降低模型的复杂性。 这取决于值是什么、它们在训练过程中如何使用以及它们如何与其他值交互——其中大部分都隐藏在模型中。 “我们的结论是,并非所有模型参数都是一样的,”Curth 说。 

简而言之,如果您使用不同的复杂性衡量标准,大型模型可能会很好地符合经典统计数据。 柯斯说,这并不是说当模型变大时我们不明白会发生什么。 但我们已经掌握了解释它所需的所有数学知识。 

我们这个时代的一大谜团

确实,这样的争论可能会陷入困境。 为什么人工智能模型是否有经典统计数据的支持很重要? 

一个答案是更好的理论理解将有助于构建更好的人工智能或使其更加高效。 目前,进展很快,但难以预测。 OpenAI 的 GPT-4 可以做的许多事情甚至让它的开发者感到惊讶。 研究人员仍在争论 它能实现什么、不能实现 什么。 “如果没有某种基础理论,我们就很难知道我们能从这些东西中得到什么,”贝尔金说。

巴拉克同意。 他说:“即使我们有了模型,事后看来,也很难准确地解释为什么某些功能会出现。”

这不仅涉及管理进度,还涉及预测风险。 许多研究深度学习背后理论的研究人员都是出于对未来模型的安全考虑。 “在我们对其进行训练和测试之前,我们不知道 GPT-5 将具有哪些功能,”Langosco 说。 “目前这可能是一个中等规模的问题,但随着模型变得更加强大,它将在未来成为一个真正的大问题。”

Barak 在 OpenAI 的超级对齐团队中工作,该团队由该公司的首席科学家 Ilya Sutskever 建立,旨在找出如何阻止 假想的超级智能失控的 方法。 “我对获得保证非常感兴趣,”他说。 “如果你能做出令人惊奇的事情,但你无法真正控制它,那么它就不那么令人惊奇了。 如果方向盘摇晃,一辆时速 300 英里的汽车有什么用呢?”

但在这一切的背后还存在着巨大的科学挑战。 “智能绝对是我们这个时代最大的谜团之一,”巴拉克说。

“我们的科学还处于起步阶段,”他说。 “这个月我最兴奋的问题可能与下个月我最兴奋的问题不同。 我们仍在发现一些事情。 我们非常需要尝试并获得惊喜。”