人工智能的一个重要方面是人机交互智能,人机交互智能的核心在于机器对自然语言的理解,而机器翻译是衡量这种理解的有效方式。
按照目前LLM的技术路线,仅仅靠计算语言形式的概率能否产生人类式理解还是未知,但我们知道人类式理解是能够反语言形式概率的,这可以作为LLM是否理解语言的评估标准,也可以作为图灵测试的评估标准。
反概率的一种表现形式是,人类具有质疑自己所相信的并将注意力重新聚焦到与第一印象不相符的部分的能力。
下面就是一个典型的反语言形式概率的翻译错误案例。
全国“江”姓比“楚”姓的人口多几百万,上面的江大桥市长即使小学生都能理解的非常准确,因为人类式理解是能轻松反语言形式概率的。而google翻译,微软翻译,百度翻译等都不能准确翻译,即使最新的大型语言模型chatGPT也没有表现出任何明显的改善,不理解发表讲话的含义,还错误地纠错“北京市市”, 也要翻译为 “长江大桥”。
下图是ChatGPT问答的截图
从训练数据中的先验概率来讲,要想让系统自动纠正 “长江大桥” 的巨大权重的确是不容易的,需要理解上下文才能做到,而各种深度学习或大模型技术在反概率的上下文理解上还没有显现出任何能力,何谈AGI呢?
还可以设计各种反概率的测试用例,例如“如果汁一样好喝”,"如果"的巨大权重也会导致翻译或理解出错。只要是需求和问题中含有反概率时GPT就一定会出错,这是因为基于概率计算的GPT只能做出概率式理解。截图如下:
通过设计各种测试,还会发现GPT在从前向后顺序理解的表现比传统翻译要好一些,这也正符合GPT的从前向后的解码训练机制,说明GPT的概率计算策略在从前向后的概率式理解上还是取得了一些效果。
语言是形式与思想的交融,目前的机器学习模型包括大语言模型能力仍局限于形式语言方面,而这些能力的形塑基础就是语言形式的频率和概率。
语言形式只包含给定语言规则和模式的知识,语言功能则需要在现实世界中理解和使用语言所需的一系列认知,这些认知涵盖了几乎所有的人类思想领域,如形式推理、世界知识、情态建模和社会认知。
基于语言形式的概率计算能产生人类式的理解吗?这在今天已经完全成为了一门实验科学。
基于注意力机制的概率计算使得GPT表现出了很强的语义理解能力,尽管不同于人类式基于概念认识的理解方式,但形式不同,并不妨碍目标一致。 并且理论上的多注意力机制是有可能做到反概率理解的。
希望2023年LLM能反概率理解一个句子内的上下文,在这之前,所有在语言形式概率之内的上下文理解都可能是假象。
还希望我们能发现超越概率的可计算基础,而不是只依赖改进概率计算的策略。