大语言模型也是知识库:基于知识的对话大模型综述

ed2da3532e282fc52979155408f25aec.gif

©PaperWeekly 原创 · 作者 | 缥缈孤鸿影

b2f63ae8a504f62227228e16d5941aa7.png

引言

ChatGPT 的横空出世,在整个自然语言处理乃至人工智能领域均掀起波澜。不同于普通的闲聊式机器人和任务型智能客服仅局限于固定场景,ChatGPT 具有相当丰富的知识储备,对于很多冷门的知识,它亦能对答如流,堪称当代“百晓生”。因此,将语言模型与知识结合具有很高的研究价值,更强的知识性也标志着模型更加智能。本文先讲述预训练语言模型与知识的关系,再阐述在对话系统中引入外部知识的原因和做法等方面,对基于知识的对话模型作简单综述。

0a6097c6e111dc1e92fb1d592be824f7.png

海纳百川——大语言模型也是知识库

一个知识库通常包含结构化或半结构化数据,例如实体、属性和关系,在人工构造知识库时往往也需要繁琐的工程技术和人工标注。相比之下,语言模型是基于自然语言文本的统计模型,只需投入大量无标签文本语料就可以学习语言的规律和模式,然后利用这些规律和模式来生成文本或者回答关于文本的问题。

现在百花齐放的大语言模型如 BERT,GPT 等,都是在大量的文本数据上预训练过的,这已成为主流范式。维基百科,Reddit、知乎等论坛,推特、微博等媒体,都提供了海量的文本数据,语言模型把这些文本信息以参数化的形式存储。文章 [1] 以完形填空的形式对语言模型包含的知识进行探索,如下图所示,在实体-属性-关系形式的三元组数据集上验证,得出语言模型学习到并存储了一些事实知识。

尽管语言模型不能像知识库那样提供明确的实体、属性和关系等结构化信息,但它们可以通过学习文本信息来获取知识,比如学习单词之间的语义关系,理解句子的结构和含义,识别实体和事件等。再将这样的知识库应用于下游任务,相比传统方法得到显著提升。

d5b3ca39d3acb50ca342a8b242ce3c27.png

▲ Figure 1: 语言模型中的事实知识在填空任务的表现 [1]

2.1 语言模型学到了哪些知识

语言模型从海量文本语料中学习了大量知识,文章 [1] 指出语言模型除了学习到语言学知识外,还学到了大量世界性知识(或称事实知识)。

语言学知识主要包括单词之间的语义关系(比如词法、词性等),以及句子的结构和语法规则,从而理解自然语言。同图像领域中低层的神经网络通常学习轮廓等低维通用特征一样,Transformer 为基础的大语言模型也是在低层存储这些语言学知识,这也是将预训练模型在下游任务上微调时将 Adapter 等结构加到上层网络的缘故。

世界性知识就是我们通常认定的一些客观事实,比如实体和事件的识别,语言模型可以学习到如何识别文本中的人名、地名、时间、事件等实体信息;也比如一些抽象的情感特征,文本分类和主题模型等,在新闻摘要、产品评论分类、社交媒体评论分类等任务上均可胜任。

目前的大语言模型在语言学知识上的表现已相当成熟,只需要借助少量的语料数据就能生成流畅连贯,语法正确的句子 [2],但是事实知识的学习是一个动态的过程,我们只能通过增加训练语料来让模型学习更多的世界知识,并且更新起来如果涉及模型微调相当麻烦,例如 ChatGPT 只能回答截止到训练时相关知识的问题,超过这一时间点就束手无策,这也是目前 ChatGPT 待解决的问题之一。

ba34def4285918b130074404c7cf27b2.png

▲ Figure 2: ChatGPT 无法获取即时信息

2.2 如何将语言模型用作知识库

如前文所说,语言模型通常不能像传统的知识库一样提供结构化的实体、属性和关系等信息,但是,针对不同的子任务,只要设计良好的提示模板 Prompt,就可以提取出模型中的知识,提示学习 Prompt Learning 也是当前的主流方法。

关于将语言模型用作知识库(Language Model as Knowledge Base)这一范式,也有很多研究工作,文章 [3] 提出模型在进行预训练时使用到的无监督文本语料非常庞大,因此很难保证模型将这些知识全部存储在参数中并且之后可以准确提取,于是尝试通过加入有关的上下文信息,在实体识别等任务上均提升了模型提取知识的准确率;

而在 [4] 中通过对 prompt 重新构造进行集成和组合,在问答测试等问题取得一定提升;在 [5] 中通过在预训练时加入一个检索模块,使模型能够以更加具备解释性和模块化的来获取文本中的知识,将外部知识作为 Prompt 激发语言模型的知识能力。虽然语言模型区别于传统的知识库,但是可以通过各种方式将其应用于类似于知识库的任务中,提供类似于知识库的信息。

f3ad133b1b3cd9c662e7561befcb579b.png

学海无涯——对话系话为何引入外部知识

对话系统引入外部知识可以生成信息更丰富的回复,利用外部知识库中的术语来生成更专业的表达式。外部知识对于消除模型幻觉”Hallucination” 一直都具备重要意义,语言模型受限于训练语料本身存储的知识有限,对于很多场景的任务均需要外部知识辅助,不然本身容易生成具有事实性错误的内容,如下图所示。

此外,一些事实性知识在训练语料中出现频率较少,在生成回复时并不能很好利用,这时引入外部知识就可以作为一种提示,激发语言模型本身的知识用于回复生成。

744de1e3002cdabf991365182866bd23.png

▲ Figure 3: 引入外部知识的对话模型

5529fc8e5bb1c04708c41d596c0a6aad.png

学以致用——对话模型如何利用外部知识?

许多研究人员致力于构建以知识为基础的对话系统。对话系统可以利用外部知识来增强其对话能力,使得其可以回答更加复杂和多样化的用户问题,如下图所示。其中的关键问题就在于如何把外部知识引入到对话模型中,一般来讲,包括将知识库以某种形式存储供模型调用,或者使用外部检索从海量文本中查找需要的知识。

76557e2d49e9c3dc138af16a0c7997f7.png

▲ Figure 4: 基于知识的对话模型 [6]

4.1 记忆网络

记忆网络是一种常用于对话模型中的网络结构,它可以用来增强对话模型记忆历史对话内容以及其他外部知识。知识为基础的系统使用记忆网络存储外部知识,生成器在生成阶段从中检索相关知识事实 [6]。

对话模型可以使用记忆网络来检索外部知识库中的信息,从而使回复更具知识性,能够解决用户需求,也可以使用记忆网络来记录对话历史,以便更好地理解用户的意图和回答用户的问题,同时也避免在长对话历史场景中发生上下文不一致的问题,在特定话题以及人设对话场景中都非常重要,以更好地理解用户意图并生成自然回复。

4.2 文本知识检索

对话模型也可以直接检索外部知识文档来辅助生成回复,外部知识文档可以是类似于 Wikipedia 这样的知识库,文档包含大量知识事实,但它们有一个缺点,即它们通常太长而无法从中检索有用的信息 [7,8]。

对话系统使用检索算法在外部知识库中寻找与用户输入相关的信息,检索算法可以使用基于文本相似度的方法,如词袋模型、tf-idf 模型、文本向量化模型等;通常将对话上下文作为查询语句进行检索,也有工作进行一种后验选择,先将对话上下文作为输入并生成回复,再利用回复和上下文一块来检索文档 [7]。这也意味着需要对生成的多个回复进行过滤和排序,返回最相关和准确的信息。

由于文本知识检索不需要改变模型参数就可以结合最新知识,这也是非常有前景的研究方向;区别于传统的文本检索。

4.3 知识图谱

知识图是外部信息的另一个来源,由于其实体-属性-关系的结构化特性,它在以知识为基础的系统中越来越受欢迎。随着图神经网络的发展,很多研究都侧重从知识图谱中获取更强的信息表征然后应用到对话任务 [9]。知识图谱为模型提供了全面、丰富的实体特征和关系,模型在存储知识时也更倾向于这种实体关系的映射,所以知识图谱往往更容易增强了模型的知识性和鲁棒性,而对话任务由于经常有多轮交互,涉及通过上下文在知识图谱上转移到更有意义的节点。

94925349c87945a7b72f297b26662714.png

大道行思——知识对话模型的未来展望

随着 ChatGPT 的大获成功,知识对话模型也受到越来越多的关注,在很多方向上都具备很高的研究价值:可以将图像、视频等多模态信息融入对话模型中,可以进一步提高对话的自然度和实用性;未来的知识对话模型将更加注重对用户个性化需求的满足,包括对用户的历史对话记录、兴趣爱好等信息的建模和利用,以实现更自适应和个性化的对话服务;

此外,微软最近将 ChatGPT 与 Bing 结合一改搜索引擎的范式,通过对话查询的形式返回最新的网页链接,这又是对传统文档检索的一次突破;未来对话模型也会更注重对话策略和生成算法的智能优化,以提高对话的质量和效率,包括如何更好地利用对话历史和上下文信息,以及如何更好地生成自然、连贯的对话文本。

outside_default.png

参考文献

outside_default.png

[1] F.Petroni,T.Rocktäschel,S.Riedel,P.Lewis,A.Bakhtin,Y.Wu,andA.Miller,“Language models as knowledge bases?” in Proceedings of the 2019 Conference on Empirical Meth- ods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019, pp. 2463–2473. 

[2] Y. Zhang, A. Warstadt, X. Li, and S. Bowman, “When do you need billions of words of pretraining data?” in Proceedings of the 59th Annual Meeting of the Association for Com-

putational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2021, pp. 1112–1125. 

[3] F. Petroni, P. Lewis, A. Piktus, T. Rocktäschel, Y. Wu, A. H. Miller, and S. Riedel, “How context affects language models’ factual predictions,” in Automated Knowledge Base Con- struction. 

[4] Z.Jiang,F.F.Xu,J.Araki,andG.Neubig,“Howcanweknowwhatlanguagemodelsknow?”Transactions of the Association for Computational Linguistics, vol. 8, 2020. 

[5] K. Guu, K. Lee, Z. Tung, P. Pasupat, and M.-w. Chang, “Realm: Retrieval-augmented lan- guage model pre,” Training, 2020. 

[6] M. Ghazvininejad, C. Brockett, M.-W. Chang, B. Dolan, J. Gao, W.-t. Yih, and M. Galley, “A knowledge-grounded neural conversation model,” in Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence, 2018, pp. 5110–5117. 

[7] Z. Li, C. Niu, F. Meng, Y. Feng, Q. Li, and J. Zhou, “Incremental transformer with delib- eration decoder for document grounded conversations,” in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 12–21. 

[8] K. Shuster, S. Poff, M. Chen, D. Kiela, and J. Weston, “Retrieval augmentation reduces hallucination in conversation,” in Findings of the Association for Computational Linguistics: EMNLP 2021, 2021, pp. 3784–3803. 

[9] J. Jung, B. Son, and S. Lyu, “Attnio: Knowledge graph exploration with in-and-out attention flow for knowledge-grounded dialogue,” in Proceedings of the 2020 Conference on Empiri- cal Methods in Natural Language Processing (EMNLP), 2020, pp. 3484–3497. 

8596d9fdbb7a3add49eb043e05ba6bae.jpeg

更多阅读

a99838e1b25496a2237a0920b6d6f6e2.png

02401650fe1b9230f371284b3b888801.png

fb08c4c86b35787965f53ecf79a6a296.png

50461c32584b201859152b0a1c2e080d.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

c6297d6b8be824e84d0643ed8d9ee249.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

d1e2fc0a48d0841e67ade1dcaf82ab07.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44166.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SSM电器维修小程序 毕业设计-附源码60664

摘 要 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,电器维修小程序被用户普遍使用,为方便用户能够…

SSM电器维修小程序 计算机毕设源码60664

摘 要 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,电器维修小程序被用户普遍使用,为方便用户能够…

实训一

16012112 ,16012119 码云地址:https://gitee.com/iseekun99/training_a_golden_point 黄金点 阿超的课都是下午两点钟,这时班上不少的同学都昏昏欲睡,为了让大家兴奋起来,阿超让同学玩一个叫“黄金点”的游戏: N个同学…

实训二--博客二

GIT : https://gitee.com/iseekun99/word_frequency_count 16012112曲梦16012115白惠民16012119胡文媛16012121齐洪飞 团队编程的过程性照片 wf 词频统计的主要代码 import javax.swing.*; import java.awt.*; import java.io.BufferedReader; import java.io.FileReader; im…

实训二--博客一

16012112 曲梦、16012115白惠民、16012119胡文媛、16012121齐洪飞 团队作业的GIT地址 https://gitee.com/iseekun99/word_frequency_count 博客地址 http://www.cnblogs.com/iseekun/ 快乐小组:快乐参与,快乐成长。 团队项目: 词频统计(引自…

开展计算机课程的目的,计算机系开展说课程线上教研活动

课程是人才培养的核心要素,课程质量直接决定人才培养质量。为了客观、全面地了解课程建设的现状和课程教学质量,及时发现问题,进一步促进课程建设,提高教学质量与教学效果,按照学院和计算机系的统一部署,我…

开展922绿色出行活动 加强城市绿色交通安全管理

9月11日,中国城市规划设计研究院和宇恒可持续交通研究中心联合召开“2018年922绿色出行活动公益服务发布会”,正式发布《2018年922绿色出行活动城市工具书》、《绿色出行与安全——2018年922绿色出行活动市民手册》和“路见”微信小程序。 中国城市规划设…

(附源码)python办公数据分析系统 毕业设计 021836

Python办公数据分析系统 摘 要 现代办公通过办公自动化系统可以大大提高的效率、节省成本、规范业务和流程,辅助提升管理水平。办公系统在单位信息化中占有非常重要的地位,涉及到单位的各个部门及绝大多数人员,流程和协作方面要求非常强。 办…

【20保研】暨南大学关于举办2019年优秀大学生暑期学术夏令营活动的公告

点击文末的阅读原文或者公众号界面左下角的保研夏令营或者公众号回复“夏令营”是计算机/软件等专业的所有保研夏令营信息集合,会一直更新的。 为让更多优秀大学生了解暨南大学,选择暨南大学,学校将于2019年7月8日—11日举办优秀大学生暑期学…

基于Android的驾照(驾校)考试系统的设计与实现

系统使用uni-app实现,会简单的HTML和PHP基础知识即可看懂: 代码: public class DBHelper {private ConnDB db null;// 声明连接对象private Connection conn null;// 获取连接private PreparedStatement state null;/*** 插入数据到表* *…

为什么你的大多数监控策略都失败了

未经验证的可观察性和随时待命的团队总会不可避免地遇到反应中断,而要想减少中断是很痛苦的,因为这就像蒙住双眼在大海捞针。我之所以知道这些,是因为我曾稳定了经历过混乱的团队。 未检测到的降级导致用户感到痛苦。无休止的、海啸般的嘈杂警…

【你绝对想不到】我用Bard和ChatGPT对话,结果发现了

我用Bard和ChatGPT对话,结果发现了一个惊人的秘密,你绝对想不到! 今天我想和大家聊聊谷歌的最新语言模型PaLM 2和它的聊天机器人Bard。这两个产品在最近的谷歌I/O大会上引起了很多人的关注,因为它们不仅能够处理多种文本任务&…

Python将图片转化成文字

我们之前学过词云能将数据变成图片展示出来,那么今天我们就来看个不同的,将图片变成字符输出。 看个效果图: 文字输出: 那么下面我们来看看代码吧! import argparsefrom PIL import Image# 命令行输入参数处理parser …

毕业设计之 --- 微信小程序开发

简介 近期有不少同学毕设涉及微信小程序开发, 但是基础的环境部署都不会, 面对一大堆资料无从下手, 希望学长能出一篇文章介绍一下微信小程序开发的基础知识. 准备工作 申请账号 进入小程序注册页 根据指引填写信息和提交相应的资料,就可以拥有自己的小程序帐号…

1.项目介绍——毕业设计之论坛项目

1.项目介绍 本项目为CMS类型的项目,前端使用vue框架搭建(已开发完成),后端使用Tornado框架搭建。本次的主要内容就是开发接口,将原先写好的静态页面转换成动态的。 CMS的意思是Content Management System,…

毕业设计-基于微信小程序的工单智能管理系统

目录 前言 课题背景与简介 实现设计思路 一、微信小程序 二、系统设计 三、系统功能 四、总结 实现效果样例 更多帮助 前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个…

python毕业设计项目源码选题(13)在线图片分享平台系统毕业设计毕设作品开题报告开题答辩PPT

python毕业设计项目源码选题(13)在线图片分享平台系统毕业设计毕设作品开题报告开题答辩PPT 用户注册:填写手机账号和密码,注册新用户 登录功能:注册普通账号登录;登录后可以修改用户的基本信息&#xff0…

【winform毕业设计】人事管理系统(项目展示)

文章目录 前言项目一角项目介绍演示 登录权限登录进入项目读入数据功能点解析结尾 前言 本文介绍了个人的毕业设计《人事管理系统》的基本使用和功能点的介绍,虚心接受各位的意见,欢迎在评论区提出宝贵的意见 提示:以下是本篇文章正文内容&a…

最新通信工程毕设项目推荐

文章目录 1前言2 如何选题3 通信工程选题方向3.1 移动通信方向3.2 嵌入式开发方向3.3 人工智能方向3.4 物联网方向3.5 算法研究方向3.6 移动应用开发方向3.7 网络通信方向3.8 学长作品展示 1前言 🥇 近期不少学弟学妹询问学长关于单片机和嵌入式相关的毕设选题&…

计算机毕业设计分享 40个高质量计算机毕设项目分享【源码+论文】(八)

文章目录 前言 题目1 : ssm在线医疗诊断跟踪系统 <br /> 题目2: 基于SSM的大学生兼职跟踪系统 <br /> 题目3 : 基于SSM的大学生就业企业推荐系统 <br /> 题目4 : 基于SSM的在线电影售票系统 <br /> 题目5 : 基于SSM的毕业设计管理系统 <br /> 前…