大模型的本质: 是有损压缩后的概率模型
2024年2月28日,OpenAI 的核心研发人员 Jack Rae 在参加 Stanford MLSys Seminar 的访谈时进行了一个名为 Compression for AGI 的主题分享,其核心观点为:AGI的一个关键目标是通过最小描述长度(Minimum Description Length, MDL)的原则来压缩信息。这意味着模型应该能够以最简洁的形式表达观察到的现象,从而实现对世界的深刻理解和泛化能力。尽管这种压缩方法展示了极大的潜力,Rae也指出目前的生成模型在处理复杂任务时仍然存在一定的局限性,例如在理解和处理多模态数据时的能力有限
Ilya Sutskever, OpenAI的联合创始人兼首席科学家,在多次讨论中强调了压缩与无监督学习之间的紧密关系
。他提到,一个优秀的压缩器能够识别和利用数据集中共享的模式,这与无监督学习在无标签数据中发现结构的过程非常相似。他将无监督学习视为对最优数据压缩的近似,这意味着大规模神经网络(通过梯度下降训练)实际上是在模拟这种最优的压缩器。通过这种方式,压缩不仅仅是一种技术手段,而是推动人工智能能力极限的重要原则。
举一反三,用简单的道理来描述复杂的世界
,往往是智慧的象征。
在程序员的世界里,大家都喜欢用最简短的代码来实现同样的功能,压缩率越高的代码往往意味着程序员的能力越强。同样的,我们可以类比一些经典的例子来理解压缩在科学领域的重要性。比如,在计算1加到10000的总和时,我们可以采用逐一相加的方法,但这显然效率低下。而通过高斯求和公式,我们可以直接得出结果:(1+10000)×10000/2,这种方法通过公式化的压缩,极大地提高了计算的效率,也代表了人类高级智慧的结晶。
🔵 有损压缩(信息的模糊和还原):
这一类压缩常见于图像和视频领域,例如将高分辨率图像压缩为体积更小的低分辨率图像。类似地,大语言模型在生成文本时可能也在进行某种形式的有损压缩,以提高生成速度和效率,但代价是潜在信息的丢失。
🔵 无损压缩(从现象总结为规律,再到推演预测):
无损压缩的经典例子是将文本文件压缩为ZIP文件,压缩后的数据可以完全恢复原状。学者们发现,通过大语言模型进化的压缩算法可以实现更高效的压缩效果,这表明这些模型在本质上是一种高级的无损压缩器,能够捕捉和保留数据中的重要结构和模式。
同样的,通过对事务的初始状态、数学公式、物理规律和逻辑推导,来预测事务的变化,也属于无损压缩的范畴
。牛顿在发现万有引力定律时,将复杂的天体运动现象压缩为一个简单的公式,认为这个定律可以解释和预测宇宙中的一切现象。他坚信,通过他的数学公式和物理定律,所有自然现象都可以被精确地计算和预测。
🔵 大模型为什么做不到极限的无损压缩呢?
下图展示了常见大模型的参数量与其训练数据量之间的关系。从中可以看出,不同模型的压缩率存在显著差异,尤其是一些参数量较小的模型,往往表现出更高的压缩率。这意味着,较小的模型通常使用更模糊和抽象的概率分布来模拟原始信息。
由于这些模型在参数量有限的情况下进行信息压缩,它们在试图还原训练数据中的细节时,准确性往往会降低。这种高压缩率虽然有助于提高模型的效率,但也不可避免地导致信息的丢失,使得模型在处理复杂或细节丰富的任务时,表现出一定的局限性。这表明,虽然有损压缩可以提高模型的处理速度和存储效率,但在保持信息完整性方面仍存在挑战,也就不可能达到100%的准确率。
我们常常会发现,大模型在处理事实性问题时容易出错,例如关于某年某月的新闻事件,或者某个名人的出生年月日及其人物关系。这是因为这些事实性内容往往是高度具体的事实性内容,很难通过压缩算法进行有效的处理。例如,每一个人物的姓名与身份证号码的匹配关系,具有高度的信息量和唯一性,这样的内容几乎不可能被压缩
,只能通过逐一记忆来实现。
但是我们目前给大模型训练的数据往往是这些具体而又很难被压缩的信息!这些看起来信息量很高的数据对于逻辑推理和寻找规律来说,都是垃圾数据
,因为其无法被进一步抽象。
提示:说明需要要逻辑推理强,对事实性的内容要少,现在的大模型训练过程还是太粗糙。
第一语料粗糙,第二是压缩的模型效率还需要提升。因为需要超大算力。
有三个方面可以做工作。1、推理能力和事实能力有在模型里要区分开来,事实性知识进行编码压缩就好。推理规律能力需要压缩,也就是人类大脑的分区,现在的LLMS还是太粗糙了。2、要对语料提高质量,类似于用好的老师教大模型。3、压缩比提高效率,像这样烧算力,烧电力的智慧不可持续。也就是模型结构,损失函数创新。