构建经典知识数据库是类ChatGPT产品发展不可或缺的关键阶段。这一阶段的重要性在于为类ChatGPT产品打下基础,为自然语言大模型提供坚实可靠的文献资源,成为其最终的依据。
经典文献知识数据库与人工智能的结合将发挥独特的重要作用。实际上,它代表的是一种新型的知识获取模式,本质上是一种文化模型。它充分利用了人工智能技术与经典人文知识之间的可合作性,造成了以往学科边界的进一步模糊化,从而在跨学科研究与教学活动中自然而然地发展起来。经典文献知识特别是人文知识与人工智能技术本具有截然不同的特点,前者充满了主观性、模糊性、情景性、情感性和偶然性,因此以质性研究为主导,而后者则以标准化、结构化、规律性和消除不确定性为基础,擅长于进行量化处理,这两者在当下的结合,使质性可以令人信服地被量化,从而推动各种层面上的融通,包括跨越学科界限的融通,跨越纯理论与应用,以及理论与实践之间的融通等。这种融通实际上正成为一条全球性路径。
1、语义定义
类ChatGPT产品:指的是利用人工智能技术和思维方式,创建能够全面主动为人类提供自然语言和编程语言数据的产品。类ChatGPT产品具备以下几个特点:知识权威性,建立可信赖的知识标准;知识广泛性,生成以人类为尺度的知识群体;知识精准性,调用完全满足使用者即时需求的知识点阵。
文献经典知识数据库(专门数据库):是指以明确定义的标准,收集符合标准的文献所组成的专门知识数据库。该数据库旨在提供经典文献知识,以满足特定标准的要求。与铺设铁轨需要统一的度量衡、铸造金属需要磅值系统以及电信技术发展初期需要统一的电报编码等需求一样,经典文献在知识体系中具有创立“标准”的重要地位。这是指:一方面,文献作为独特的标准,可以直接为我们的各类人生问题提供答案,因为经典文献就像路标一样,是先哲们的智慧总结,是经过时间检验的人生指南。另一方面,我们理解世界需要一个前理解结构,而经典文献不断帮助我们建立和修正这个前理解结构。前理解结构与答案路标自本自根,映射出我们大脑的知识系统的可靠性。
2、知识库服务于人的四个阶段
类ChatGPT产品可以看作是一种泛知识库,这类产品隐藏了信息理解、匹配和寻找的过程,直接理解和整合用户的需求,给出回答。除了泛知识库,还有专门知识库,知识库总共有以下四个阶段服务于人:
第一阶段:泛知识库阶段
定义:在这个阶段,经典文献的知识以非系统化的方式为使用者提供模糊的参考信息。特征:语义生成的自我演化与迭代;可信赖的互联网知识中心的建立。功能:为部分重复性高的劳动建立范式与工作标准文件,替代部分人力工作。
第二阶段:专门知识库阶段
定义:在这个阶段,系统建构的经典文献知识群落有意识地为使用者提供系统的背景与专业知识支持。特征:专门知识库中的知识数据化;基于人工智能原理的库中数据自我迭代;专门知识库中的知识数据形成封闭与垄断。功能:专门知识库的建设基于社会需求的业务;为用户提供深度知识服务,包括摘要、问答式检索、讨论环境、排序、计算、倾向性分析、热点发现、聚类搜索、分类等。
第三阶段:专门知识库融入泛知识库阶段
定义:在这个阶段,专门知识主动有序覆盖泛知识库中的同类知识,提升泛知识库的专业性以获得普遍公信力。特征:专门知识库中数据全面有序迭代进入泛知识库;专门知识以公众所需的形态有序解析。功能:公众能够掌握专门知识中的架构、范式、标准等部分。
第四阶段:专门知识库在泛知识库中的融通阶段
定义:在这个阶段,泛知识库中的专门知识有序融通,实现深度知识共享,为解决更广泛而深刻的人类问题建立共同的原理、方法和路径。特征:专门知识库中的知识数据编码公开并互通。功能:在AI知识系统中处理“新”的更广泛而深刻的人类问题。
经典知识数据库可以被看作是一种专门知识库,它存储和提供经典文献的知识。在这个四阶段的描述中,经典知识库可以在第二阶段作为专门知识库的一部分,为用户提供系统的背景和专业知识支持。随着时间的推移,经典知识库可以在第三和第四阶段与泛知识库进行融合和融通,实现深度知识共享,为解决更广泛而深刻的人类问题提供共同的原理、方法和路径。因此,经典知识数据库在这个描述中扮演着促进知识库发展和知识共享的重要角色,更加专业的满足主动式信息获取的需求。
3、经典知识数据库的构建建议
筛选经典文献:市面上文献鱼龙混杂,需要建立一套评价标准进行评估,根据文献的权威性和影响力,筛选出其中的经典文献。
确立分类:重新确定学科分类体系,参考国内外顶尖大学的学科体系将学科进行划分归类。
提炼主题:需要总结经典文献涉及的主题,为文本赋予意义,主题要涵盖各个方向。
构建体系和标注:以分类和主题为基础构建体系(框架),并设置标签,对经典知识进行标注。
选择问题和解决方案:建立遴选问题的标准,因选择当前大众所关注且迫切需要解决的问题,并将其分类归入学科体系,作为最基础问题的解决方案,贴近用户需求。
解构经典知识:将内容进行拆解和整合,形成文本宇宙,并为自然语言轴进行编码。
构建数据库:将问答形式的卡片和原文献中的箴言整合起来,构建一个经典知识数据库,形成知识大厦或知识宇宙。
4、经典知识数据库对于类ChatGPT产品的帮助
经典知识数据库(专门数据库)为类ChatGPT产品提供了可靠、准确和专业的知识基础,帮助它在各个领域和话题上提供更深入和高质量的回答,更有价值的信息和见解。
在这个不断涌现政治和文化事件的世界中,数字平台上的快速交流不停“刷新”着人们的观点、观念和结论,而亟待借助既有知识形式与内容判断这些观点、观念和结论的人们却发现,传统的知识往往源自研讨室,与大众文化相脱节。经典知识数据库能使大型模型成为一个富有拓展性的知识体系,塑造出一个真正多元的宇宙。从而通过将经典知识数据库与人工智能技术结合来极大地扩大享用知识的人群范围,并最大程度与普通大众产生交集。即使在不断更新的专业知识领域,经典知识数据库可以利用最佳的众包技术来处理、分析和发布包含多样人类文化记录的材料。它为业余学者提供了一个平台,使人文研究成为一个全球范围内可参与和相关的新型多人在线游戏。通过手机和其他移动设备,经典知识以分散的形式渗入日常生活,对人类历史或文化遗产进行解释,并将丰富的可信赖人文知识引向大众。
5、总结
已有研究证明,专注于优化数据而不仅仅是模型本身往往能取得更好的效果。经典知识数据库可以显著提升类ChatGPT产品的权威性和影响力。OpenAI公司也曾与高校合作,通过师生整理各种类型问答知识来提升数据质量。这一次,人类文化极深邃宽广的内容全貌,也许第一次能以系统的方式被呈现出来。这是可以媲美历史上伟大文化转型的那类事件,总是使人不由自主联想起从卷轴书到翻页书的演进,或活字印刷术的发明。
作者:
赵雪波 万象界知识工作室 重庆文理学院教授
李兆兴 万象界知识工作室
邮箱:lizhaoxing.lzx@qq.com