清华ACL 2023最新长文 | WebCPM:首个联网支持中文问答开源模型

46a999a359cc3a02169945cd1fe98f11.gif

2021年12月 WebGPT 的横空出世标志了基于网页搜索的问答新范式的诞生,在此之后,New Bing 首先将网页搜索功能整合发布,随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。大模型在联网功能的加持下,回答问题的实时性和准确性都得到了飞跃式增强。

近期,面壁智能联合来自清华、人大、腾讯的研究人员共同发布了中文领域首个基于交互式网页搜索的问答开源模型框架 WebCPM,相关工作录用于自然语言处理顶级会议 ACL 2023。

WebCPM 是面壁智能自研大模型工具学习引擎 BMTools 的首个成功实践,其特点在于其信息检索基于交互式网页搜索,能够像人类一样与搜索引擎交互从而收集回答问题所需要的事实性知识并生成答案。WebCPM 背后的基础模型 CPM 是由面壁智能与 OpenBMB 开源社区开发的百亿参数中文语言模型,占据多个中文领域语言模型排行榜前列。

beb671271c77ce77996a54e4aca112d3.jpeg

WebCPM 论文链接:

https://arxiv.org/abs/2305.06849

WebCPM 数据与代码链接:

https://github.com/thunlp/WebCPM


806080637acae2eaeaffdf1a7170337d.png

WebCPM 研究背景

在当今信息化时代,人们在日常生活和工作中,需要不断地获取各种知识和信息,而这些信息往往分散在互联网上的海量数据中。如何快速、准确地获取这些信息,并且对这些信息进行合理的整合,从而回答复杂、开放式问题,是一个极具挑战性的问题。长文本开放问答(Long-form Question Answering, LFQA)模型就是为了回答这种复杂的问题而设计的。

目前的 LFQA 解决方案通常采用检索-综合范式,包括信息检索和信息综合两个核心环节。信息检索环节从外部知识源(如搜索引擎)中搜索多样化的相关支持事实,信息综合环节则将搜集到的事实整合成一个连贯的答案。

然而,传统的 LFQA 范式存在一个缺陷:它通常依赖于非交互式的检索方法,即仅使用原始问题作为查询语句来检索信息。相反,人类能够通过与搜索引擎实时交互来进行网页搜索而筛选高质量信息。

对于复杂问题,人类往往将其分解成多个子问题并依次提问。通过识别和浏览相关信息,人类逐渐完善对原问题的理解,并不断查询新问题来搜索更多样的信息。这种迭代的搜索过程有助于扩大搜索范围,提高搜索结果质量。总体而言,交互式网页搜索不仅为我们提供了获取多样化信息来源的途径,同时也反映了人类解决问题的认知过程,从而提高了可解释性。

899a06d3a7c98d22023f29311dc02cce.png

▲ 微软整合OpenAI ChatGPT搭建新必应系统

2021年12月 OpenAI 发布 WebGPT,这是支持 LFQA 的交互式网页搜索的一项先驱性工作。作者首先构建了一个由微软必应搜索(Bing)支持的网页搜索界面,然后招募标注员使用该界面收集信息来回答问题。之后,他们微调 GPT-3 模型,让其模仿人类的搜索行为,并将收集到的信息整理成答案。实验结果显示,WebGPT 在 LFQA 任务具备出色的能力,甚至超过了人类专家。而 WebGPT 也正是微软近期推出的 New Bing 背后的新一代搜索技术。

尽管效果十分惊人,但 WebGPT 、New Bing 对学术圈和工业界来说仍然充满神秘感。这是因为 WebGPT 的相关细节并未完全公开,其核心设计元素的工作原理也不透明。鉴于当前交互式网页搜索的重要价值,我们迫切需要一个标准数据集与相关的开源模型以支持后续研究。

74cecf823b7f27ded4a6413f14c07783.png

WebCPM 搜索交互界面和数据集

0d5e9613fa282c8880105c86b0f1fe36.png

▲ WebCPM搜索交互界面

为推动相关领域发展,这篇 ACL 论文的研究团队首先构建了一个开源的交互式网页搜索界面,用于记录人类为开放式问题收集相关信息时的网页搜索行为。该界面底层调用必应搜索 API 支持网页搜索功能,囊括 10 种主流网页搜索操作(如点击页面、返回等等)。

在这个界面中,用户可以执行预定义的操作来进行多轮搜索和浏览。在找到网页上的相关信息时,他们可以将其作为支持事实记录下来。当收集到足够的信息后,用户可以完成网页搜索,并根据收集到的事实来回答问题。同时,界面会自动记录用户的网页浏览行为,用于构建 WebCPM 数据集。

972936fa7424e5b00cc1cc4a11744f9f.png

▲ WebCPM数据集与相关问答数据集的比较

基于这个界面,作者构建了中文领域首个基于交互式网页搜索的 LFQA 数据集。它包含 5,500 对高质量的问题-答案对以及十万多条真实用户网页搜索行为。与现有的中文问答数据集相比,WebCPM 的问题、支持事实和答案都更长,体现了其问题的复杂性和答案内容的丰富性。

37312288887cf51f0179375c3e0fb4c3.png

WebCPM 模型框架

作者提出了的 WebCPM 框架包括:(1)搜索模型与(2)答案综合模型。

e6723c79ef6adcdd76723685dc326c78.png

▲ WebCPM模型框架


搜索模型:
该模型模仿人类网页搜索行为、与搜索引擎交互并进行信息检索。作者将网页搜索任务划分为 3 个子任务:搜索行为预测(action prediction)、查询语句生成(search query generation)和支持事实摘要(supporting fact extraction)。搜索行为预测模块在每一步决定执行哪个具体的搜索行为。该模块可以调用其它两个模块来生成下一步查询语句或摘录重要信息。每个子任务都基于生成式中文大模型来训练。

通过组合 3 个训练得到的模块,该模型能够在搜索引擎界面上执行一系列操作以收集与问题相关的信息。每个模块在当前界面状态 的条件下执行推理。 包括原始问题 、当前搜索的查询语句 、历史操作序列 ,上一个窗口和当前窗口中显示的内容 和 、当前已经摘录的支持事实 。
答案综合模型

该模型根据原问题与收集到的事实生成连贯的答案。然而与人类不同,经过训练的搜索模型偶尔会收集到不相关的噪声,这将影响生成答案的质量。为了解决这一问题,作者在答案综合模型的训练数据中引入噪声,使其具备一定的去噪的能力,从而忽略不相关的事实,只关注重要的事实以生成答案。

f50c8d2f1fb7f063382377b337247701.png

WebCPM 实验评测

作者首先对每个子模块分别评估,然后,将所有模块组合起来形成整体的 pipeline,并测试其效果。最后,作者对每个模块的性能进行深入分析。

ac7e4857b942a38c31524bf0c2ffe19f.png

单个子任务的性能评估结果,作者测试了包括 CPM 模型在内的多个有代表性的中文大模型。

3.1 单个子任务评估

作者测试了多个有代表性的中文大模型,并得出以下结论(结果如上图所示):不同模型在四个子任务上的性能各有优劣。例如在搜索行为预测、查询语句生成和支持事实摘要中,mT0 的表现优于 mT5,但在综合信息方面表现较差。此外,CPM 系列模型的性能随着模型参数量的增加也不断提高。得益于 scaling law ,更大的模型通常拥有更强的理解和生成能力,能表现出更好的下游任务性能。

3.2 整体pipeline评测

对于每个测试问题,作者比较了模型(CPM 10B 模型)和人类用户使用搜索引擎回答问题和做相同任务的表现,并进行人工评测。具体而言,给定一个问题和模型与人类分别给出的答案,标注员将根据多个因素(包括答案整体实用性、连贯性和与问题的相关性)决定哪个答案更好。

从下图(a)的结果可以得出以下结论:模型生成的答案在 30%+ 的情况下与人写的答案相当或更优。这个结果表明整个问答系统的性能在未来仍有巨大的提升空间(例如训练性能更加强大的基底模型);当将人工收集的事实应用于信息综合模型时,性能提高到了 45%,这可以归因于收集的事实质量的提高。

80fc8f798ab01751ffc4e79b7c6937e5.png

▲ 整体pipeline评测效果,作者测试了WebCPM数据集和DuReader数据集

此外,作者也将整体 pipeline 应用于 DuReader 中文 QA 数据集(包含 Zhidao 和 Search 两个子数据集),并比较了模型生成的答案和人工标注的答案,从上图(b)可以观察到模型生成的答案比 DuReader 标注答案更好的情况接近 50%,这反映了该模型强大的泛化能力,体现了 WebCPM 数据标注的高质量


405bd22478d96982b5429a9ae6942079.png

WebCPM案例分析

为了探究查询模块所学习到的人类行为,作者抽样不同测试问题生成的查询语句来进行案例分析。下图展示了部分结果,以研究查询模块的性能。可以看出,该模块已经学会了复制原始问题,将问题分解为多个子问题,用相关术语改写问题等多种人类搜索策略。这些策略使查询语句更加多样化,有助于从更多的来源收集更丰富的信息。

0352e7bd601265094825e63625c54fe6.png

d837a5b52bfc651da38a4a01bcd901f3.png

WebCPM成功实践BMTools

731b915ca3e6d93f8657ea81b12b7442.png

近年来,大模型在诸多领域展现出惊人的应用价值,持续刷新各类下游任务的效果上限。尽管大模型在很多方面取得了显著的成果,但在特定领域的任务上,仍然存在一定的局限性。这些任务往往需要专业化的工具或领域知识才能有效解决。因此,大模型需要具备调用各种专业化工具的能力,这样才能为现实世界任务提供更为全面的支持。

最近,新的范式大模型工具学习(Tool Learning)应运而生。这一范式的核心在于将专业工具与基础模型的优势相融合,以在问题解决方面达到更高的准确性、效率和自主性,工具学习极大地释放了大模型的潜力。

9e16beb2e4a50503822330497e36ece8.png

在应用方面,ChatGPT Plugins 的出现补充了 ChatGPT 最后的短板,使其可以支持连网、解决数学计算,被称为 OpenAI 的 “App Store” 时刻。然而直到现在,它仅支持部分 OpenAI Plus 用户,大多数开发者仍然无法使用。为此,面壁智能前段时间也推出了工具学习引擎 BMTools,一个基于语言模型的开源可扩展工具学习平台,它将是面壁智能在大模型体系布局中的又一重要模块。

研发团队将各种各样的工具(例如文生图模型、搜索引擎、股票查询等)调用流程都统一到一个框架上,使整个工具调用流程标准化、自动化。开发者可以通过 BMTools,使用给定的模型(ChatGPT、GPT-4)调用多种多样的工具接口,实现特定功能。此外,BMTools 工具包也已集成最近爆火的 Auto-GPT 与 BabyAGI。

BMTools 工具包:

https://github.com/OpenBMB/BMTools

工具学习综述链接:

https://arxiv.org/abs/2304.08354

工具学习论文列表:

https://github.com/thunlp/ToolLearningPapers

WebCPM 是 BMTools 的一次成功实践,相信在不断发展和完善大模型工具学习技术的过程中,面壁智能将让大模型落地赋能更多产业。期待大模型在更多领域展现出令人惊喜的应用价值。

面壁智能

面壁智能是一家人工智能大模型技术创新与应用落地赋能公司,宗旨为“让大模型飞入千家万户”。公司依托 OpenBMB 开源社区打造大规模预训练模型库与相关工具,并整合高校科研力量加速百亿级以上大模型的训练、微调与推理,推进大模型技术标准化,降低大模型使用门槛,致力于构建智能时代大模型基础设施。CPM大模型是面壁团队根据多年的大模型训练经验自研的预训练语言大模型。公司创始团队来自于清华大学计算机系自然语言处理与社会人文计算实验室,并由知名清华大学教授担任首席科学家。公司目前已完成数千万元天使轮融资,并与知名机构与公司达成战略合作。

079210fc23547c425270b17103b0db97.png

面壁智能整合顶尖高校学术研究力量(清华大学自然语言处理与社会人文计算实验室)并持续打造运营大模型开源社区OpenBMB,搭建业界需求、算法开源和产业落地三者的闭环“产学研”通道,竭力促进国产大模型领域的前沿研究、应用研发和产业发展。

面壁官网:https://www.modelbest.cn

商务合作:business@modelbest.cn

加入面壁:career@modelbest.cn

想获取更多AI大模型最前沿、最硬核的资讯,推荐关注面壁智能和 OpenBMB公众号↓

更多阅读

31e75b731510e607e8edde2cf0948ed4.png

05ae330ea28dcdbbb80c8ff51057c14d.png

84d9c5b33fe78aef272319e4af3113cf.png

0e61dfae11f43e9f7960d956fd20bc9e.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

665104f4a7e6f0c0da2ad323e630cc99.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

c287b39edb7d0473603443fdefdc66f9.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22831.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

忆享聚焦|人工智能、元宇宙、云计算、5G基站…近期热点资讯一览

“忆享聚焦”栏目第十二期来啦!本栏目汇集近期互联网最新资讯,聚焦前沿科技,关注行业发展动态,筛选高质量讯息,拓宽用户视野,让您以最低的时间成本获取最有价值的行业资讯。 目录 行业资讯 1.ChatGPT火爆全…

中国开源项目迈向全球化!

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 中国开源正在登上全球化舞台,成为一股不容忽视的中坚力量。在国际开源领域,ant-design、vue-element-admin 等热门开源跻身前列;阿里巴巴、腾讯、华为、字节跳动、百…

大模型狂潮:各大厂纷纷亮剑,谁能笑傲江湖?

引言:四月AI大模型潮流来袭 假如我们站在未来回首往事,或许会惊讶地发现,这个春意融融的四月,竟是中国AI史上的一个重要节点。百度、阿里、腾讯、字节、商汤、京东、华为、360等科技巨头纷纷亮出底牌,推出各自的AI大语…

数据库领域3月大事件

本文整理2023年3月份最新数据库厂商、数据库领域的行业动态、以及各家云数据库厂商的产品动态。 本文主要整理了数据库领域的最新动态: 数据库厂商的重磅事件; 各数据库的产品更新。 一、重磅事件 ▋《数字中国建设整体布局规划》发布 近日,中…

GPT生成精美Echarts图表

【需求】:我想要用 echarts V5 来开发一个【柱状图表】 【输入文本】:我想用echarts开发一个【条形图】,目标帮我分析1-3天内每天访问我网站的用户数趋势,1-3天的用户数分别为20,50,60,请帮我生…

【花雕学AI】ChatGPT的50种神奇用法:让你的聊天更有趣,更有用,更有创意

【花雕学AI】是一个普通人学习AI的专栏(于2023年3月29日开始),由驴友花雕撰写,主要介绍了人工智能领域的多维度学习和广泛尝试,目前已包含七十多篇文章,分别介绍了ChatGPT、New Bing和Leonardo AI等人工智能…

AI 大战高考作文!实测 ChatGPT、文心一言、通义千问等 8 款“神器”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 今天中午十一点半,2023 年高考作文题目火热出炉,其中全国甲卷作文题引人深思: 人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。 身处技…

chatgpt最强平替国内可用免费开源llama2模型下载使用

1,github下载llama2项目 打开下面的项目地址: GitHub - facebookresearch/llama: Inference code for LLaMA models 下载项目代码: GitHub - facebookresearch/llama: Inference code for LLaMA models 2,填写申请信息申请授权 https://…

探究 ChatGPT 4 的优势:基于 GPT-3.5 架构的大型语言模型

随着人工智能技术的不断发展,自然语言处理领域也取得了巨大的进展。其中,GPT(Generative Pre-trained Transformer)模型系列是自然语言处理领域的重要里程碑之一。而 ChatGPT 4 则是基于 GPT-3.5 架构的大型语言模型,相…

60行NumPy手搓GPT

本文约24000字,建议阅读30分钟 本文我们将仅仅使用60行Numpy[6],从0-1实现一个GPT。 本文原载于尹志老师博客:https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/[1]。 本文还是来自Jay Mody[2],那篇被Andrej Karpathy手…

GPT4.0一句话实现各类图表制作,让数据可视化变得更简单!类图、流程图、ER图.....

不知道大家有没有被ER建模工具复杂的操作按钮给困扰过。在作者学习ER建模时,曾希望能直接画出类图,但最终还是不得不学习繁琐的操作流程。然而,随着GPT的出现,AI现在也可以绘制UML图了!今天要向大家分享一个AI工具&…

当ChatGPT遇到网络安全】

ChatGPT:是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。GPT 是 …

重塑底层逻辑,涅槃重生继续远航

背景介绍 从贫困县爬出来本硕均为211学校,在机械专业学习7年,有4年的时间热衷于编程学习。因此一路跨行到IT行业。 履历介绍 从毕业后一直在AI算法行业研究,呆过初创公司,目前在上市公司上班。尝尽IT的苦也吃过IT的甜。从毕业一…

如何为 Kubernetes 集群快速部署一个 ChatGPT 人工智能聊天机器人

公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 今天我想分享一个有趣的项目叫做 “K8s ChatGPT Bot[1]”。该项目的目的是为 K8s 集群部署一个 ChatGPT 机器人。我们可以询问 ChatGPT 帮助我们解决 Prometheus 的警报&#xff0c…

ChatGPT进一步联网,距离成为超级流量入口还有多远?

备受瞩目的ChatGPT联网功能又更进一步。 继三月首次推出插件功能(Plugin)后,本周ChatGPT再次更新,将向Plus用户开放约70个第三方插件,覆盖购物、餐饮、旅行、天气、运算、翻译、分析数据等多种功能。 一个多月前&…

新闻 | 华院计算入选中国科技产业智库AIGC产业图谱

4月,中国科技产业智库甲子光年发布《AIGC应用与实践研究展望报告》及AIGC产业图谱,面向AIGC技术创新者、产业参与者、资本机构和政府等各方展现AIGC产业的整体生态环境和行业发展。华院数智人凭借其在生成式AI技术、人机交互能力和市场应用优势入选该图谱…

强化学习分类与汇总介绍

1.强化学习(Reinforcement Learning, RL) 强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当…

【大讨论】“ChatGPT用户增长乏力,为什么?”

云创大数据总裁刘鹏老师发起的“大模型研发技术交流群”太给力了!昨天群里发起了“ChatGPT用户增长乏力,为什么?”的大讨论。 今年1月,ChatGPT的环比增长率为131.6%,2月份为62.5%,3月份为55.8%,…

又整新活,AI 杀麻了!

来源|OSC开源社区(ID:oschina2013) 这几天,ChatGPT不得不说是真火啊,在科技圈也是引起了不少的讨论。问答、聊天、讲故事、写代码、分析代码、找bug,写文章...等等都不在话下,妥妥滴整活大师了。 ChatGPT由人工智能研究公司OpenAI…

QWidget代码设置样式表探讨

前言 众所周知,在QT中修改部件样式,是通过样式表的方式来设置的。而设置样式表,一般常用就两种方式,分别为QT Designer界面直接右击设置样式表,以及代码设置样式表。 正常情况下都是可以成功的,但是在某种…