3万多人学习，对ChatGPT最接地气的解读 | 万维钢 × 刘江直播精选

7 月 25 日晚 8 点，科学作家、知识传播大神万维钢老师做客“图灵八点半”栏目，与图灵联合创始人刘江总编共同解读 ChatGPT，围绕 ChatGPT 的基本原理（以及当今世界“最硬核的大脑” Stephen Wolfram 的作品《这就是ChatGPT》），两位老师探讨了 GPT 预测下一个词的原理、人工智能的水平、对人类智能的思考，及 Stephen Wolfram 其人其书。

以下是本次直播的精华节选，读来字字珠玑，错过直播的小伙伴可以阅读文本深入了解，也可到图灵社区查看完整回放。

与 ChatGPT 结缘

刘江：第一个问题，我想问问万老师，您最早是什么时候关注到 ChatGPT 的？当时是什么感觉？

万维钢：我最早大概是在2020年7月份得知 GPT-3 诞生了。那个时候，GPT-3 在推特上轰动一时，引起了广泛的讨论，包括在国内也有许多人谈论这个新闻。虽然我当时没有获得账号，但我通过系统上的例子看到了别人使用 GPT-3 的情况。GPT-3 可以编程，可以根据人的描述生成网页和文章。当时，它的表现让我觉得非常神奇，因为我从未见过这样的语言模型。这也是我第一次了解到语言模型能够如此智能。尤其值得一提的是，当时正值疫情期间，许多工作都停滞了，没想到会突然冒出这样一个东西。OpenAI 这个公司的出现让我觉得非常神秘。

随后，我也看了一些相关的报道和论文，其中解释到 GPT-3 使用了 Transformer 的原理。为什么叫GPT（Generative Pre-trained Transformer，生成式预训练转换器模型）呢？基本原理就是通过预测下一个词来训练模型。你可以用各种语料喂它，给它训练。比如，你给它一篇文章的上半部分，让它来预测下半部分应该如何写。可以给它一句话，例如“一个男人领着（空格）去散步”，在空格的位置有两个选项，一个是“他的狗”，另一个是“一支牙膏”。

显然，我们可以知道，填上“他的狗”的可能性远大于“一支牙膏”。我的感觉是，通过大量的训练，模型可以从各种文本中学习到最可能出现在该位置的词是什么。将这个功能推广开来，就可以实现各种功能，甚至包括一定程度的编程功能。我觉得这非常神奇，但也可以理解。因此，当时对于这个消息并没有多么激动。

然而，到了 2022 年，许多人都可以自己测试 GPT 了。当时我也拿到一个测试账号，对它进行了测试，问了几个问题。它给出的答案让我觉得即使是自己回答，也未必能够回答得那么好。

在2022年11月底的时候，ChatGPT 突然成了热点。当时 ChatGPT 刚刚问世，它所采用的模型还不是达芬奇模型的最高版本，虽然引起了巨大轰动，但是还没有“全民皆知”。几个月过去后，GPT-4 发布了，大家的感觉完全不同了。我开始意识到自己之前的看法完全错误，现在的情况与以往截然不同。

刘江：万老师在 2020 年已经关注到 GPT-3 是非常先进的，大家要学习万老师对于前沿技术的敏感度。因为万老师各个学科都要关注，但怎么在这么多前沿里抓住真正重要的东西，这个能力是很牛的。

为什么说 ChatGPT 像人脑

刘江：GPT 非常像人脑，如果你经常使用 GPT，你可以想象一下它与人脑的相似之处。比如说有一个非常著名的问题，就是关于幻觉的。GPT 经常会胡言乱语，让人产生错觉。最近我还碰到一个事情，我编造了一个虚构的管理定律，然后问 GPT，你知道这个管理定律吗？你知道它的来源吗？结果 GPT 开始产生幻觉，非常得意地给我解释了一番。万老师，你怎么看待这个事情——如果你去造一个物理学其实没有的词儿，但是造得像一个定律去问 GPT，GPT 也会编造。而且不仅 ChatGPT 会这样，这类软件全都有编造的问题。

万维钢：对，GPT 有时候会按照自己的理解来回答问题，即使他们并不真正了解问题的背景。这与人脑也有相似之处，因为人类有时候也会记错或者误解事件的发生。这个问题可以说不是一个 bug，而是一个特性，因为它展示了 GPT 的一种行为方式。但是现在将其视为一个问题也是合理的。还有一点是，如果你追问 GPT 一些问题——比如你真的是这么想的吗？或者能否给出相关出处？它往往会反悔说自己之前说错了，不知道具体情况。这可能是因为它在后期的对齐或者其他训练过程中进行了一些调整，有时候能够自己反应过来。

刘江：刚才万老师提到了一个非常重要的点，大模型与人脑相似，特征也很相近。我们可以思考一下，人脑和传统电脑的记忆方式是不太一样的。我们可以近似认为：电脑的软件是通过专门的存储元件（主存和辅助存储器）来实现记忆的，而人脑使用神经元网络同时进行信息的理解、处理和记忆，没有专门的记忆元件。GPT 等所代表的大模型与人脑非常相似，大模型可以将计算能力、推理能力和记忆能力全部整合到了同一个模型中。

万维钢：在大模型中，当一条新的知识输入时，一开始是无法确定这个知识存储在哪个地方的，大模型通过微调所有的模型参数来记住这些知识。虽然单个参数本身没有意义，并且大模型也无法做到理解每个参数的具体含义，但是通过微调参数，大模型可以记住不同的技能和知识。这个过程跟人脑处理信息的过程很类似，可以看作是在大脑中对知识进行记忆。

刘江：ChatGPT 之所以被称为“活的”，是因为它具备一定的适应和学习能力。比如对于简单的加减法问题，初始时可能犯错，但当你告诉它要认真对待时，它会调整自己的思考方式来解决问题。此外，大模型还具有“涌现能力”，即 emergent ability（也叫突变能力），它指的是在大模型中，随着模型规模的增大，一些新的能力和特征会出现，这些特征在较小规模的模型中是不存在的。

与小型模型相比，大模型（如 GPT-3）具有更强大的能力。这种能力的发展可以类比为动物智慧的进化过程，从小型的动物逐渐演化到大脑容量更大的物种。人类具备复杂的语言能力，可以理解故事，表达各种复杂的情感等，这些能力是其他动物所不具备的。因此，大语言模型在这个层面上与人脑非常相似。

物理学家如何看待 ChatGPT 原理

刘江：万老师，您以前是物理学家。物理学更多关注的是逐步推导，是建立在数学基础之上的学科。但是这个大语言模型与传统物理学的推导方式相当不同。OpenAI 开发的 GPT 采用了预测下一个词的方法进行训练。它实际上是通过一群科学家和研究者的试错和自主尝试逐步完善的。关于这个问题，我想听听您的看法。

万维钢：我想说的第一点是，我不认为物理学家能对大模型提供任何有价值的启发，反而是大模型给物理学家带来了许多有价值的启迪。现在物理学甚至无法完全理解人脑的思维方式和智能的本质，因此存在许多争议。

举例来说，像罗杰·彭罗斯在《皇帝新脑》中写到，人的大脑是不可计算的，可能包含量子过程，但目前并没有实验证据来支持这个观点。因此，如果向物理学家请教这个问题，天马行空的答案可能更不靠谱。

我还想说的第二点，也是对我思想最大的冲击：那就是在2023年，发生了一件匪夷所思的事情：大模型竟然拥有了常识。在过去，我们认为只有那些可以书写成语言表达的知识才能用于训练大模型，因为它们都是可以用语言描述的内容。但是人类还拥有很多无法用语言表述的知识，虽然我们都明白这些知识是正确的，但没有人会将它们书写下来。比如说，每个人都有一个女性的母亲，这是显而易见的事实，但没有人会专门写书来阐述这个知识点，因为它太过普通。而像这样的知识还有无数条。包括以前的自然语言处理（NLP），也尝试将语言的语法规则和语义规则一条条写下来。

然而，现在横空出世了 GPT，它并不需要人为书写规则，只需要预测下一个词汇并自己进行学习，结果却能学到所有这些隐性知识，甚至是那些书本里从未提及的内容。它不知道为什么这些知识是正确的，但它却能学会并运用。我认为这个发现的重要性绝对不亚于人类历史上任何诺贝尔奖级别的发现，它代表着一种与相对论一样震撼的发现。目前还没有人能完全解释为什么 GPT 能取得这样的成就，因为即使人类到现在也未能完全搞清楚语法规则，更不用说语义了。然而，这样一个大模型，仅仅依靠其庞大的参数和强大的算力，就能自动掌握这些知识。这到底说明什么？我觉得太神奇了。

解读《这就是 ChatGPT》

刘江：《这就是ChatGPT》的作者Stephen Wolfram，本身是一位天才级别的物理学家，他来撰写这本非常通俗的 ChatGPT 图书，实际上是一件非常难得的事情。因此，我和万老师将会一起聊一聊其中的内容，梳理其中的一些重要观点。

万老师，我想问你一个问题，关于这本书，你在得到的课上也做了非常好的解读。你印象中最深刻的地方是什么？有哪些重要观点你认为特别值得与大家分享呢？

万维钢：印象最深的一点是，我觉得 Stephen Wolfram 在这本书中将 GPT 的神秘感合法化了。如果你没有读过这本书，可能会有一些问题不明白，或者对某些问题感到困惑。但是读完这本书之后，你会发现其实很多问题包括作者自己也不明白。例如，为什么一个语言模型能够自动掌握语法和语义，目前没有任何原理能够解释清楚。也没有人知道语言模型的参数到底有多大，才能实现这样的功能。

作者本人之前也在使用自己的模型，叫作“Wolfram Language”，这是一种以他自己名字命名的数学语言。这个语言可以回答各种问题，比如问从伦敦到纽约之间的距离有多远，它会给你提供一个非常精确的答案。他希望将所有的知识库标准化存储在这个语言中，但没想到 GPT 突然横空出世，将他的工作彻底改变了。

Wolfram 的核心思想是认为世界上的一切都可以看作计算。从物理学、生物学，包括空间本身，所有的一切都是计算。他提出了一个概念叫作“计算不可约性”，意味着尽管底层的计算规则可能很简单，但我们无法总结出一个更简便的公式来提前预测一个系统的演化，尤其是在长时间的演化中。他认为真实世界就是这样一个不可约的计算系统。

他进一步提出一切智能，包括人类的智能和 AI 的智能，都是可约化的。我们做一些事情，总是需要对世界做出预测和判断。例如，当我想拿杯子喝水时，我需要预测杯子在我伸手过去的时候不会消失。这已经跳过了底层的逻辑，进行了一种跳跃性的预测。智能就是这种预测，包括 AI 的智能也是如此。所以他认为，无论是 AI 还是人类的智能，都不能代替真实世界的反应，它们只是用一些模型来替代真实世界。

他进一步作出了推导，认为 AI 虽然可以在某些方面超越人类，但 AI 永远也无法覆盖所有人的智能。因为无论 AI 使用什么样的模型，它都会受到限制。因此，这本书对于当前 AI 讨论的最大贡献就是从原理上证明了人类不用担心有一天 AI 会完全取代我们，因为不存在一个完全万能的智能。

刘江：万老师提到的这一点确实很重要，GPT 的技术原理是通过预测下一个词（严格来说叫 token）实现的。它会接收一串词语或语言单元，并试图预测在这个序列中接下来的词是什么。它通过计算每个可能的词出现的概率来进行预测。《这就是ChatGPT》非常清楚地解释了这个过程，并配有很多图表来帮助理解。

虽然“预测下一个词”的原理看起来很简单，但它的表现确实非常出色。伊利亚（OpenAI 联合创始人和首席科学家 Ilya Sutskever）在访谈中举了一个生动的例子来说明这一点，想象阅读一本侦探小说，最后一个词就是凶手的名字，要猜出凶手是谁，我们必须先读懂整个情节，理解了才能知道凶手是谁。大家可以体会一下，绝不可小看一些看上去很简单的事情。

在不断理解 GPT 的过程中，我也在不断反思，发现我们其实可以多做些思考。我们之前认为人类的智能非常厉害，涉及很多复杂的过程，比如思考、沟通、情感和自我意识，等等，看起来都像是未解之谜，非常复杂。但是像 Wolfram 这么聪明的人，他其实意识到一点，看上去很复杂的事情不见得那么复杂。

万维钢：就像 ChatGPT 这样的模型，它似乎是等同于人类的智能降低了一些。因此，既然 GPT 能够如此轻松地模拟人类的智能，这也说明人类的智能可能并没有我们想象得那么高深复杂。

刘江：是的，所以大家反过来想，我们所谓的大脑思考，是不是某种意义上也在不断地预测下一个词？为什么预测下一个词能够反过来“逼出”理解呢？让我们思考一下，到底什么是理解？我们的思考又意味着什么？当我们阅读一本图灵的书，听万老师的课，我们所做的其实是在我们自己的脑中生成一种表示，思考本身就是一种生成过程。

万维钢：刘老师刚刚的表达也启发了我。人脑的神经网络无非是一些连接和信号的强弱构成的。而语言模型本质上都是由一组参数组成的。而人工神经网络是模拟人脑的一种方法，它输出的结果是一种连续变化的参数组合，不同于离散的语言表示。

我们的理解实际上都是一些感觉，而语言只是对这些感觉的不完备、不精确的表述，就像维特根斯坦提出的语言的局限性。但是通过使用语言模型，我们可以反过来通过语料去训练 AI，让语言模型通过感知语料抓住我们背后那些难以用语言传达的感觉。

虽然我们用语言表述的内容都是不精确的，但我们还是能够进行交流。即使是通过一个粗糙、颗粒化、不完整的界面，我们仍然能够传达意思，相互理解。这确实是一种有趣的现象，也许正是这种交流的方式让我们能够在理解和沟通上取得一定的成就。

刘江：很多事情可能看起来很复杂，但实际上在某种意义上是可以被破解的，就像 GPT 这件事情一样。《人类简史》的作者赫拉利也有类似的观点。他认为GPT实际上破解了人类的“操作系统”，就是我们人类引以为傲的语言能力。我们之所以与动物有所不同，是因为我们拥有复杂的语言系统，而语言本身是将我们的社会组织在一起的重要因素。然而，GPT 的出现证明了语言并没有我们想象得那么复杂，它的本质其实挺简单的。

人工智能本质上是抓住一些隐含的规律，它不像物理中一些显式的规律，例如 E=mc² 那样可以明确地写成公式。

万维钢：是的，比如 AI 的老本行，像 AlphaGo 这样下围棋的 AI，它们并没有一个明确的理论或规则来解释为什么要做某些决策。它们就像棋手一样，凭感觉走棋，根据训练和经验作出决策，而没有一个形式化的逻辑或规则。

现在的问题是，我们能否认为这种凭感觉的计算、这种基于经验的推理才是更基本的推理方式呢？也就是说，相比严格的学术逻辑、按照固定规则的操作，这种凭直觉的计算方式才是更自然、更本质的计算方式。这个问题确实非常有意思。

刘江：是的，是的。聊了这么多，我们简单总结以上的讨论，我们认为这个世界是多样的，大家需要接纳不同的观点。在不同的情况下，我们需要采用不同的方式来理解和解决问题。即使像爱因斯坦这样的伟人，在晚年对量子力学的认识也有局限性。随着时间的推移和科学的发展，我们认识到这些理论是非常本质和重要的。所以，我们不应该仅仅局限在生物的世界观或者物理的世界观里，而是要理解它们在不同场景下的实用性，同时保持对不同观点的开放心态，并给予尊重和接纳，这是非常重要的。