今天看到“腾讯科技”昨晚发表的“陆奇最新演讲实录:我的大模型世界观”,其中对“信息”及“信息搬运”的说法促使笔者撰写本文。
陆奇先生在展示“三位一体结构演化模式”时说明,“任何复杂体系,包括一个人、一家公司、一个社会,甚至数字化本身的数字化体系,都是复杂体系。“三位一体”包括:“信息”系统(subsystem of information),从环境当中获得信息;“模型”系统(subsystem of model),对信息做一种表达,进行推理和规划;“行动”系统(subsystem of action),我们最终和环境做交互,达到人类想达到的目的。” [1] 关于复杂系统及其三个子系统,怎么定义是陆奇的自由,不在本文讨论范围之内。但是,陆奇接着说道,“基于此,我们可以得出一个简单结论。今天大部分数字化产品和公司,包括 Google、微软、阿里、字节,本质是信息搬运公司。一定要记住,我们所做的一切,一切的一切,包括在座的大部分企业都在搬运信息。Nothing more than that,You just move bytes(仅此而已,你只是移动字节)。” [1] 陆奇的这个说法似乎就有问题了,“信息”和“数据”在概念上应该是不同的,数字化产品和公司所搬运的到底是什么?是“信息”?还是仅仅是“数据”?实际上,因为“字节”并非“信息”,所以,陆奇的说法自身在逻辑上就有不一致之处。
笔者多少年来在给学生们上计算机科学引论尤其是信息安全性课程时,首先要让学生们理解的就是“数据”和“信息”在概念上的本质不同。
“数据”是记录事物的符号的集合,只有当它们被解释之后,才能代表某些意义(信息)。
“信息”是一个只有在有接收者的情况下才成立的概念,即以接收者的存在为前提的概念。“信息”对接收者有某些确定的意义,因此,它是一个与接收者的价值观密切相关并依赖于接收者价值观的概念。
“数据”与“信息”在概念上的本质不同在于,接收者的存在与否以及具体解释。“信息”要求接收者存在,并且依赖于接收者的价值观,而“数据”则可以不需要接收者而客观存在。“信息”的含义取决于接受者的价值观,如果接受者不能理解它,它就没有任何意义;“数据”如果不进行解释,则没有意义,并且同样的“数据”通过不同的解释可能具有不同的含义(对不同的接受者形成不同的“信息”)。
典型事例:加密通信将试图传送给合法接收者的信息(以数据为载体)加密成为数据后传输给合法接收者,合法接受者将收到的数据解密后获得信息,数据盗窃者如果没有解密手段,则无法获得信息。
伴随着 AIGC 工具们持续地生成大量输出,如何正确地预测及评估它们以及它们的输出(输出的究竟是什么?这是本文的要点)对于人类社会的影响已经是一个相当紧迫的问题。(请参阅笔者前文:“以 ChatGPT 为代表的无偿式概率式自动生成工具之滥用将给人类社会带来什么后果?”以及“论‘创造/创作/创新’及 AIGC 工具的‘创造性’”)
笔者把我们人类社会文化中历史上、现今以及今后产生的一切原生数据及知识通过数字化方法(包括各种标注方法)输入到互联网上的数据统称为“原始数据”,把以原始数据为资源使用 AIGC 工具自动生成的数据统称为“衍生数据”。 [2]
显然,无论是原始数据还是衍生数据,对于人类社会中每个个体或者群体,未必都能够成为有用的信息。
上个世纪50年代前的前计算机时代,人类必须从以文字、图像、声音等方式所表达的原始数据中费力搜寻出对自己有用的信息;尽管原始数据中也掺杂有虚假数据,但是似乎在数量级上还在人类可以驾驭的数量级范围之内。到了计算机时代,大量原始数据已经被数字化(当然也会包含虚假或者错误),尤其是搜索引擎等自动化工具的出现,使得当今时代的人类几乎都是通过使用自动化工具来从原始数据中搜寻信息了。计算机科学(人工智能)的一个子领域,“信息检索(information retrieval)”(并非“数据检索”!),就是研究这方面的理论、方法论以及工具的。数字化产品和公司搬运的都是数据而不是信息,它们不过是在帮助人类更便捷地从数据中获取信息。
我们权且认为人类社会已经进入了 AIGC 工具时代,那么我们面临着什么问题?
毋庸置疑,尽管今后原始数据还会不断地增加,但是伴随着计算机硬件技术的发展,超大规模数据的存储和加工,超大规模的算力,超大模型的研发,AIGC 工具的超大规模使用,迟早有一个时间点(或许眼下的现在已经过了此时间点也未可知),衍生数据量将超越原始数据量,并且在超越之后两者间的数量差距更会急速增大,直到原始数据量和衍生数据量相比显得微乎其微。[2]
问题一,人类社会的认知逻辑准则何在?[2]
问题二,由于 AIGC 工具(及其使用者)即便不是有意,也会输出大量并非确凿的衍生数据。当从衍生数据中获取的信息有误造成损失时,其经济、法律、道义责任何在?
问题三,任何工具都是双刃剑,AIGC 工具们也不会是例外。AIGC 工具一定会使得数据造假甚至数据攻击也进入高度自动化时代,造成衍生数据的污染,并且污染的传播速度将非常快。人类如何对处这种新的信息真实性/安全性问题?
问题四,AIGC 工具们把无偿地使用属于全人类的原始数据生成的衍生数据有偿地提供给终端客户,是否会造成人类社会群体之间在信息获取机会上的不平等(在搜索引擎时代,世界上已经有人提出过此类公平性问题)?
问题五,到目前为止,搜索引擎给人类带来的是信息检索的便捷(笔者认为如此)。AIGC工具呢?它们最终给人类带来的是便捷多余麻烦,还是相反?就算是便捷多余麻烦,利大于弊,如果某些“麻烦”或者“弊”对人类社会是严重的,是否需要在 AIGC 工具的生成内容和使用方法上施与法律性节制?
(2023年4月24日记)
参考文献
[1] 张小珺,“陆奇最新演讲实录:我的大模型世界观”,腾讯新闻《潜望》,微信公众号“腾讯科技”,2023年4月23日。
[2] 程京德,“以ChatGPT为代表的无偿式概率式自动生成工具的滥用将给人类社会带来什么后果?”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月6日。