(1)
很多人以为大模型的参数量大是因为数据多。
其实大模型的参数量和超参数的配置相关。主要的超参数有下面几个:
词表大小:Vocab_Size
最大位置编码大小:Max_Position_embeddings
隐层节点数大小:Hidden_Size
隐层数:Num_Hidden_Layer
注意力头数:Num_Attention_Heads
这些都在每个模型的配置文件中(一般都是Config.json)
很多人连大模型的原理都不知道,既不看论文,也不看源代码,就一顿瞎逼逼大模型,瞎幻想。
(2)
很多人以为大模型聪明是因为数据量大。
其实数据量大并不能决定大模型有多聪明。
海量的、高质量的这些咱们人类产生的数据(如人写的文章、人拍的照片、人设计的视频),其价值就是让模型通过最大概率统计自动地得到结构性的特征标签,免去咱们人类对数据进行特征手工标注,就这个价值。
你再想想一个异曲同工的事:咱们搞企业信息化,不就是业务活动在现实里发生了,录入员在自己脑子里回忆了回忆、思考了思考,然后按照屏幕上的结构性的离散字段一个个录入,就特征表示了这个物理世界发生的连续的业务活动。本质上,这个录入员录入字段,其实就是在做数据的特征手工标注。
(3)
很多人以为大模型之所以聪明,就是因为它模仿了人的大脑结构。这有点像中国人老爱蛇蛇蝎蝎搞的所谓的:以形补形。
其实大模型的结构和人的大脑结构、大模型使用的神经网络结构和人的大脑中的神经网络结构,根本长得不一样,就是用了同一个名字,结构根本没啥相似性。
很多人对ChatGPT能像咱们日常人一样理解、回答,感觉很神奇。其实这有啥神奇啊,不就是因为ChatGPT是大量的人工专家进行了四道Post PreTrain Fine-Tuning、Prompt-Tuning、Instruction-Tuning、RLHF么,它当然像人了啊,因为它就是人工调的嘛。
(4)
很多人对中国人蛇蛇蝎蝎搞的所谓针灸、点穴、经络很神奇。其实这有啥神奇啊。
神经系统本质就是个人体信息高速公路,用生物电进行信息传输,道理和咱们家使用的上网光纤一个原理。
你所谓的猛击一下点穴或者针灸,不外乎就是阻断神经毛细,所以信息无法做到下行和上行畅通,所以大脑指挥和躯干反馈进行了分离。
(5)
很多人对做梦也觉得很神奇。其实这有啥神奇啊。
大脑前额本质就是个非常快速处理但容量较小的内存。你天天接受外界的信息,到了晚上就得腾清,从热存储转移到冷存储上。
有些信息是你天天日常接受的,那就不再重复转移,而是给你天天日常使用的信息不断一票票加权重,这和搜索引擎的Page Rank是一个道理。
有些信息是新的信息,大脑会把新的信息和老的信息做相似度度量,根据度量进行自动分类或聚类,然后进行新老信息链接,这也和搜索引擎或者和全连接网络很相似。
如果有些信息对于你来说太新太陌生,你的大脑怎么也无法和你已经存在的信息做链接,大脑这时候就开始使坏了。要么你的大脑太笨,它就扔掉了这个信息,所以你经历过一些新事但是忘记了,本质就是这个。或者你的大脑不太笨,它就开始瞎编造,根据信息相似度进行硬怼硬连接,这时候就是你的做梦,你在梦境中会感觉这个场景既熟悉又陌生,本质就是这样。所以大家现在看到大模型胡编乱造,其原理和做梦一个道理。
(6)
很多人惊叹要到科幻电影终结者的时代呀。而且把人类自己想象定义的蛇蛇蝎蝎的一些概念也迁移到了大模型身上,比如什么:理解、逻辑、推理、顿悟、涌现...。
这都是什么脑子啊。
我曾经在知乎上看过一段,我给copy过来,原理其实很简单:
记忆是一阶从原始数据到表征数据的相关性连接。
推理规则和推理方法本身是二阶记忆内部的相关性连接
小规模模型在二阶链接上的密度是稀疏的,特定大规模建模可以在二阶连接上超过50%,形成具有连通性的通路,就形成了似乎具备推理能力。
过去所谓的逻辑和原理都是人通过先验知识赋予的似乎不证自明的假设,但是在LLM中,这部分是可以产生的,当然需要正确的调教方法。这挑战了人类几百年来认为是不可动摇的归纳和演绎方法,现在看来归纳和演绎规则并非真正原理,这些其实都是可以解释和可以构造的。
总结一下,就是过去的调教和模型规模,导致其在高阶连接上是稀疏的,而GPT3.5以后高阶相关性的密度达到了全局性联通的边界。所以GPT让人产生了其可以逻辑推理和长程对话的感觉,这是一种表征而已。侧面证明了人类崇拜几千年的逻辑、公理、假设、真理、意义这类东西其实都是语言层面的,不过是形而上学。
所以,把原理本质讲透了,很多事情本来很简单。但你不打破砂锅问到底老想囫囵吞枣,那就容易蛇蛇蝎蝎形成神化、崇拜化。