斯坦福大学新研究:新必应等生成式搜索引擎可能没那么好用

format,png

源 | 机器之心

斯坦福大学 Percy Liang 等人的一项测试表明,新必应等生成式搜索引擎很多时候都没有那么靠谱:在它们生成的句子中,仅有 51.5% 的句子有引文支持,仅 74.5% 的引文支持相关句子。

生成式搜索引擎通过直接生成对输入查询的回应以及在线引用来满足用户的信息需求(如下图 1)。现有的生成式搜索引擎正在迅速获得用户,微软报告说 "大约三分之一的每日预览用户每天都在使用 Bing 聊天",Bing 聊天在其公开预览的第一个月提供了 4500 万次聊天。

b29de2c64edbc86e1d48ea3dcadc678a.png

生成式搜索引擎有可能改变人们在网上寻找信息的方式,但目前基于大语言模型的生成式搜索引擎生成的回复可能并不是准确的。但是鉴于它们的潜力和快速广泛的应用,评估这些系统并更好地了解其潜在的局限性是至关重要的。

生成式搜索引擎一个值得信赖的先决条件是其可验证性,每个生成的关于外部世界的描述都应该得到一组相关联引用的充分支持,而且每个引文都应该支持根据其生成的相关描述。可验证性使读者能够轻松地检查任何生成的描述是否得到其引用来源的支持。

研究者通过人工评估来审核四个流行的商业生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),让它们完成一组信息查找任务(例如,来自 NaturalQuestions 的各种类型的历史谷歌用户查询,来自 Reddit 的动态收集的开放式问题;例子见表 1)。

4c84c541c98908072f74ecd754d318d2.png

对于每个查询 - 回答对,研究者以人工评价来衡量下面几种维度:

1. 流畅性(生成的文本是否流畅和连贯);

2. 感知效用(生成的回应是否对查询有帮助,信息量是否充足);

3. 引文召回率(生成的关于外部世界的陈述中,完全由其引文支持的比例);

4. 引文精确度(生成的支持其相关陈述的引文比例)。

一个值得信赖的生成式搜索引擎应该达到较高的引文召回率和精确度,表明其生成的引文是全面的(每个生成的描述都有引文的充分支持)和正确的(每个引文都支持其相关描述)。

研究人员发现,现有的生成式搜索引擎响应通常具有很高的流畅性以及明显的感知效用,但经常回复无支持的陈述或包含不准确的引用(低引用召回率和精确度)。平均来说,在生成句子中仅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相关句子(引文精确率)。

此外,引文召回率和精确度与流畅性和感知效用成反比 —— 看起来更有帮助的回应往往是那些没有支持的描述或包含不准确的引文的回应。这种可信度的表象增加了现有生成式搜索引擎误导用户的可能性。在图 1 的例子中,一个对詹姆斯 - 韦伯太空望远镜没有什么背景知识的用户很可能很难识别生成的回复中并没有支持它的描述。

研究者假设这种逆向关联的发生是因为一些生成式搜索引擎经常复制或改写它们引用的网页。虽然这样的系统取得了较高的引用召回率和精确度,但是一些复制的语句可能与用户的问题或生成的回复的其余部分无关,导致回复的流畅性和感知效用指标下降。

对流畅性、感知效用和可验证性的人工评价

衡量流畅性和感知效用

为了测量响应的流畅性,研究人员向标注人员展示了用户查询、生成的回应并声称 "这些回应是流畅的、连贯的"。他们还要求标注人员在从 "非常不同意" 到 "非常同意" 的五点李克特量表上评定他们对该回应的认可程度。使用类似的过程来衡量感知效用,要求测试者评估他们对 “响应是对查询的有用且信息丰富的回答” 这一说法的同意程度。

计算引文召回率

引文召回率是指完全被相关引文所支持的、值得验证的陈述的比例(见下图 2 的例子)。因此,计算引文召回率需要:

(1)确定回复中值得验证的陈述;

(2)评估每个值得验证的陈述是否有其相关引文的充分支持。

6a80c046f2159d718e4906391de17389.png

计算引用精确率

引用精确率是指在生成的所有引文中支持其相关陈述的比例(见图 2 中的例子)。与召回率不同,引文精确率的概念在于奖励系统准确引用的能力。如果一个生成的陈述引用了互联网上的每个网页,那么引文召回率可能会很高,但是引文精确率会很低(因为很多文章是不相关的,不支持其相关的陈述)。为了衡量回应 r 的引用精确率,研究者们给标注人员判断每个引用 c_i,k 是否支持其相关陈述 s_i 提供了以下三个标准(例子见图 1 中引用的网页):

  • 完全支持:陈述中的所有信息都得到了引文的支持。

  • 部分支持:陈述中的一些信息得到了引文的支持,但其他部分没有得到支持(例如,缺失或矛盾)。

  • 没有支持:引文不支持陈述的任何部分(例如,引用的网页完全不相关或矛盾)。

结果和分析

流畅性和感知效用

几个生成式搜索引擎生成的回复看起来是流畅的并且很有帮助。下表 3 显示了这些搜索引擎对每个查询分布的回复的流畅性。

5716e21f824e59f3bfd6ca63e854f8fa.png

表 4 展示了它们的感知效用。

82b3d825d69339a29f52f49f95f08ccf.png

引文召回率和精确度

表 5 是生成性搜索引擎在所评估的查询分布中的引文召回率的相关数据。

7e26913677d6c2178a94ca92cdd8cfad.png

下表 6 是搜索引擎在所评估的查询分布中关于引文精确率的实验数据。

2cf28217114738e2430c810679712de6.png

现有的生成式搜索引擎往往不能很正确地对引文进行引用。当对所有系统进行平均计算时,只有 51.5% 的生成语句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相关语句(精确度)。虽然生成的回答往往显得信息量大且有用,但研究人员认为这些结果对于已经拥有数百万用户并正在迅速成为回答用户查询的主要工具的系统来说是不能接受的。

比较不同生成式搜索引擎之间的引文召回率和精确度,它们的引文召回率和精确率有很大的不同。平均而言,perplexity.ai 实现了最高的平均召回率(68.7),而其他三者的成绩分别是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。

从精确率来比较,Bing Chat 实现了最高的精确率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。

可以得出,召回率最高和最低的系统之间有近 58% 的差距(perplexity.ai vs. YouChat),而精确率最高和最低的系统之间的差距近 25%(Bing Chat vs. YouChat)。

比较搜索引擎之间的不同查询分布的引文召回率。修改评价查询分布似乎比改变引用精确率更能影响引用召回率。例如,有长答案的 NaturalQuestions 查询与非 NaturalQuestions 查询之间的引用召回率差距接近 11%(分别为 58.5 与 47.8)。同样,有短答案的 NaturalQuestions 查询和无短答案的 NaturalQuestions 查询之间的引用召回率差距接近 10%(有短答案的查询为 63.4,只有长答案的查询为 53.6,没有长或短答案的查询为 53.4)。

研究者假设引文召回率是由检索到的网页的相关性驱动的。在没有检索到直接回答用户查询的证据的情况下,系统会产生没有引文证明的陈述,从而导致较低的召回率。例如,当对开放式的 AllSouls 论文问题进行评估时,生成式搜索引擎的引文召回率很低(平均召回率为 44.3),因为这些查询通常在互联网上没有可提取的答案。

比较不同查询分布的引文精确率,有长答案的 NaturalQuestions 查询的精确率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察单个查询分布的结果时,当对带有段落答案类型的 NaturalQuestions 查询进行评估时,生成式搜索引擎的精确率最高(当存在短答案时,精确率为 81.5,当只存在长答案时,精确度为 78.7)。另一方面,当对 AllSouls 开放式论文问题(67.8)和 davinci-debate 查询(70.3)进行系统评估时,引文精确率是最低的。在 NaturalQuestions 子分布之间进行比较,有短答案的查询的平均系统精确率(77.4)高于只有长答案(74.8)或没有长答案(73.5)的查询。

为了总结人工评估结果,表 7 列出了被评估系统的平均引文 F_1。图 3 显示了平均感知效用与平均引用 F_1 的对比。

现有的搜索引擎系统在引文召回率、引文精确率和感知效用之间都做了不同的权衡。

275c869f838e5f0966c0d975cd3777ba.png

ed0bedabacdda56358cd8977d8448e2d.png

引文召回率和精率与精确率流畅性和感知效用成反比

研究者通过实验发现,在现有的生成式搜索引擎中,引文召回率和精确率与流畅性和感知效用成反比。计算引文召回率和精确率与流畅性和感知效用之间的皮尔逊相关系数,发现两者呈强负相关,特别是精确率显示出更强的趋势(表 8)。

例如,Bing Chat 达到了最高的精确度,但其流畅度和感知效用却最低。相比之下,YouChat 的召回率和精确度最低,但它的回答得到了最高的流畅性和感知效用评价。

d9cb51339ed0099722c501b9122ac82e.png

生成式搜索引擎经常复制或轻微改写被引用网页的内容

下表 9 列出了生成的陈述和从支持的网页中提取的证据之间的相似度指标,当搜索引擎做出的陈述完全或部分得到其引文的支持时,它们往往直接从其引用的文章中复制或改写转述。

c42feac1ec67cffcb45fa8bee53bbbd9.png

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

format,png

b9f3d60dcd4ad1eca8e3acf540dbf1b0.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/42874.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT 不好用?那你看下这份 Prompt 工程指南

作为大型语言模型接口,ChatGPT 生成的响应令人刮目相看,然而,解锁其真正威力的关键还是在于提示工程。 在本文中,我们将揭示制作提示的专家级技巧,以生成更准确、更有意义的响应。无论你使用 ChatGPT 是为了服务客户、…

昇思MindSpore技术公开课系列:保姆级的大模型专题实践课程来了

相信很多小伙伴对在昇思MindSpore支撑下训练出的一系列大模型并不陌生了:鹏程.盘古、鹏程.神农、紫东.太初... 昇思MindSpore大模型历程 昇思MindSpore具备丰富的并行能力,能轻松完成4096卡集群、万亿参数规模的训练任务,因此支撑了国内多个…

YouTube 上传第一个视频 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 4 月 23 日,世界读书日。在 1564 年的这一天,全世界最卓越的文学家之一莎士比亚出生;1616 年的这一天,莎士比亚与…

携手天涯社区共建元宇宙,区块城市或有更大的野心

不久前,国务院印发了《数字中国建设整体布局规划》,此次重磅文件再提数实融合,一方面为数字经济产业未来的发展道路指明了方向,另一方面也再次提振了元宇宙等数字技术行业的信心。 而上周有关BlockCity区块城市将并购天涯社区、共…

H5 语音合成播报功能

采用的 SpeechSynthesisUtterance实现语音播报功能,参考资料: ONE、TWO 实现效果图: 语法介绍 1、speechSynthesis.getVoices() getVoices()的方法SpeechSynthesis接口返回的列表SpeechSynthesisVoice对象代表当前设备上所有可用的声音。 …

语音播报功能的实现

喜欢请关注微信公众号:嵌入式从0到1 公众号内容面向在校大学生、电子爱好者、嵌入式工程师; 涉及电子制作、模块使用、单片机技术、物联网相关知识分享; 软硬件全栈工程师,玩模块,学硬件,带你从0走到1 TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部…

Android 语音播报之项目实战

TextToSpeech项目应用 文字转语音官网简介项目前景项目实战真机调试结尾 文字转语音 从文本合成语音以立即播放或创建声音文件。即TextToSpeech(以下简称TTS) TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或…

必应(bing)搜索跳转到百度解决方法

一、删除浏览器插件 以谷歌浏览器为例,点击图片右上角处拓展功能,更多工具→拓展程序 将拓展程序移除即可 二、火狐恶性木马查杀工具 搜索火狐恶性木马查杀工具,在火狐吧即可免费下载,查杀病毒后重启

我们问了ChatGPT几个实时云渲染/Cloud XR的问题,结果发现……

和 宇宙大网红ChatGPT 交流有一段时间了, 感觉他时而靠谱,时而胡扯 当你将严肃问题丢给它时,它的回答科学么?严谨么? 今天,问几个平行云老本行,考考他! 除了最后一条,…

【指标计算】老妈再也不担心我的指标算不好了(教你用MyTT、TA-Lib、Pandas TA计算股票指标,附源代码)

教你用MyTT、TA-Lib、Pandas TA计算股票指标,附源代码 前言一、目前Python流行的几款股票行情分析指标计算库1. MyTT2. Ta-lib3. Pandas TA 二、指标计算的准备工作1.下载MyTT文件2.安装Ta-lib包3. 安装Pandas-ta包 三、分别用MyTT、Talib 、Pandas-ta计算5日均线、…

行业指数的周期以及跑赢指数的分位数是多少?

前言 本篇是量化系列的第一篇文章。《量化十万个为什么》系列旨在讨论一些自己心中的疑问,并且通过尝试解答这些问题来提升自己对于市场的认知水平。 PS:博主水平很辣鸡,请大家轻喷,多多指教! 一、为什么提这个问题&…

如何通过通达信接口获取最近的分钟级别行情数据?

如何通过通达信接口获取最近的分钟级别行情数据?对于做短线策略的交易者来说,得到实盘的量价数据之后,还需要把这些数据转换为各种技术指标,在策略中去使用和分析。 由于本地采样时间和交易所推送数据时间会有微小的差别&#xf…

POSTMAN 启动特别慢解决方案

需要为POSTMAN添加环境变量: 高级系统设置-环境变量 添加一个新的系统变量: 变量名:POSTMAN_DISABLE_GPU 变量值:true 重新启动POSTMAN

GPT套壳还能走多远?第一批AIGC创业公司开始裁员?新初创公司又该如何应对大模型的快速迭代升级?

AIGC创业投融资火爆推进,一则裁员公告却从天而降引爆关注: 公告来自首批AIGC明星独角兽Jasper。 早在ChatGPT爆火之前,AIGC也还不是大家耳熟能详的概念时,这家公司就已经背靠GPT-3,在18个月从白手起家到估值15亿美元。…

【Python】学习笔记

【Python】学习笔记 【Python】1. in和not in操作2.glob3.Pandas.apply()4.df.dropna()5.fine-tune迁移学习——Fine-tune蒸馏 参考文献 【Python】 1. in和not in操作 利用in和not in操作符,可以确定一个值是否在列表中。像其他操作符一样,in和not in…

聚观早报|OpenAI发文介绍保障AI安全的方法;王慧文AI公司正式开张

今日要闻:OpenAI发文介绍保障AI安全的方法;印度或首次参与iPhone15首批供货;胡润全球白手起家U40富豪榜发布;王慧文 AI 公司正式开张;吴以岭卸任以岭药业董事长 OpenAI发文介绍保障AI安全的方法 美国当地时间 4 月 5 …

手写操作系统+shell+文件系统,绝了

去年秋招及年后找工作的小伙伴应该感受到了寒气逼人,机会又少、又卷……加上chatGPT的出现,可以预见未来几年,简单、基础、重复性工作大概率会被机器人取代……我们将何去何从呢?毫无疑问,成为技术大牛! 如…

友盟分享QQ的时候提示应用未正确授权错误码901111

今天打包分享qq的时候突然出现应用未正确授权错误码901111 于是就上友盟和腾讯开放平台上找对应错误码,居然没有发现对应的错误码! 经过一番折腾后发现 这个错误是因为在腾讯开放平台没有提交apk的原因导致的 登录腾讯开放平台选择我们的应用 点击进…

微信授权APP第三方登陆(Android)

前几天负责的程序说是要加入第三方登陆的功能,虽然现在有服务商集成了第三方登陆,但是平时所用的也就微信和QQ,就自己看文档写了,其中也遇到了一些问题,然后我把我做这个的流程贴出来,并附上对应的Demo&…

qq授权登录【网站应用】-java版本

第一步&#xff1a;先去qq互联进行创建网站应用&#xff1a;QQ互联 如下图&#xff1a; 第二步&#xff1a;引入qq的jar包&#xff0c;这里采用maven方式引用 <!--QQ坐标--><dependency><groupId>net.gplatform</groupId><artifactId>Sdk4J<…