知识是人类对客观世界的认识和经验,人类通过语言来表示知识,句子是语言的基本单位,一句话往往包含主谓宾,主语和宾语可被称为实体,谓语表示了主语宾语间的关系。所以,世界在人类大脑中,就是无数个实体,以及这无数个实体之间的关系。
似乎实体、关系(也可以称为节点和连接)这种简化模型就是世界的本来面目:
- 人类社会:人是实体,人和人之间的关系(如亲子、上下级、官与民)是关系
- 互联网物联网:电脑、服务器、手机等是实体,局域网、互联网和5G网络是关系
- ChatGPT:ChatGPT 是人工神经网络,神经元是实体,神经元间的连接是关系
- 节点和连接
语言
人类的语言是一种编码和约定,世上没有天然的语言,一个从未听人说话的孩子是不可能会说话的。动物们只能使用动作、面部表情进行交流,而人类具有清晰的发音系统和发达的大脑,可以将世界万物映射成发音,并且生活在群体中的人都认可、并能记住和固化这些发音,于是人类语言就产生了。
语言是人类进化的产物。幼儿在学会说话之前,已经有了许多手势语,到了一岁左右,开始说单词句,后来说双词句,到了三岁左右就可以进行日常生活的交际,在学龄前就基本掌握了口语系统。
语言和文字是外部世界在人类大脑中的一种映射和编码,计算机通过0/1对万物进行编码和表示。例如 ChatGPT 中,一个单词可以表示成一个向量(专业说法叫词表示,Word Embedding),GPT-3 中词向量的长度大约是 13000。
一切都是编码和映射
一切都是编码和映射,人类用不同的语音语调、不同的文字符号表示世间万物,对应的计算机用一长串数字给世间万物编码。这番操作后,万物就成了大脑可以加工的实体和关系,万物也成了计算机可以加工的实体和关系。
存储
知识和数据必须存储起来,否则无法沿着时间和空间在群体中传播。汉朝之前古人把文字刻画书写在甲骨和简帛上面,或铸造在青铜器上面。竹简分量重,帛价格贵,人们使用起来受到很大限制。当时皇帝批阅竹简奏折是个体力活,成捆的竹简由太监用车拉来,抬着放到御案前堆积成山。之后蔡伦改进了造纸术,使用廉价原料降低了造纸成本,生产的纸张平滑光洁适宜书写,在公元 3至4世纪,纸基本取代简牍绢帛,成为中国唯一的书写材料。
计算机上数据的储存也是一个演化过程。20 世纪 60年代,人们使用打孔纸带来存储数据,后来储存介质变为磁带、光盘、硬盘。直到现在,个人电脑常用的存储是 DDR 内存条和固态硬盘。
知识可由实体和关系表示,存储时既要保存实体又要保存关系。计算机的文件系统并不能很好的表示关系,于是发展出了关系型数据库(Orcale、Access、MySQL 数据库等)。关系数据库的理论基础是集合论和谓词逻辑,数据库表中每行每列都可以认为是一个实体,主键和同一行各列之间是属性关系、两个表间的外键也表示着同一、包含等关系。
知识存储
关系型数据库还是设计过于复杂,不适合超大规模的数据。于是产生了新的数据库,键值数据库和图数据库是最常用的NoSQL数据库。键值数据库中键和值(Key 和 Value)是实体,把两个实体存放放在一起就暗含了他们间是关联的,例如存储 <身份证号,姓名> 这组数据,本身就声明了个人身份证和姓名之间的关系。图数据库(如Neo4j)中,使用节点来存储数据实体,使用边来存储实体之间的关系。
类比于人类社会,所有知识不可能存放在某一个人的大脑里,而是分散在地球上所有人的大脑里。随着数据规模的增大,计算机数据存储也只能是分布式的。区块链可以认为是一个去中心化的分布式的数据库,数据按时间顺序打包成块并附上数字签名等,一个个块串起来,就形成了可追溯防篡改的分布式账本。
神经网络
如果说文件、数据库和区块链倾向于存储实体、以及实体间确定性的关系,那么ChatGPT之类的神经网络可以认为存储了实体间的隐含关系。一个用于车牌识别的神经网络,可以认为实体是一张张图片,和一串串数字,这个神经网络存放的是从图片实体到一串数字实体间的关系。英文 - > 中文翻译的深度网络也是如此,它存储了从英文词句空间到中文词句空间的所有关系。
总结
- 世界在人类大脑中,就是无数个实体,以及这无数个实体之间的关系
- 一切都是编码和映射,人类的语言是一种编码和约定
- 知识必须存储起来,否则无法沿着时间和空间在群体中传播
- 文件、数据库和区块链倾向于存储实体、以及实体间确定性的关系
- 神经网络可以认为存储了实体间的隐含关系