斯坦福| ChatGPT用于生成式搜索引擎的可行性

3ae07ee5070ae9bbca715b1a76624e93.png

文|智商掉了一地

随着 ChatGPT 在文本生成领域迈出了重要一步,Bing 浏览器也接入了聊天机器人功能,因此如何保证 Bing Chat 等搜索引擎结果的精确率和真实性也成为了搜索领域的热门话题之一。

当我们使用搜索引擎时,往往希望搜索结果能够真实准确地反映我们的需求。然而,由于搜索引擎的信息庞杂和繁复架构,可能会存在一些错误和欺骗性的信息。这不仅影响到我们获取信息的质量,也会影响到我们对搜索引擎的信任和使用。

值得信赖的生成式搜索引擎的一个先决条件是可验证性,即系统应该引用全面且准确

近日斯坦福大学的一项新研究提供了方法,即评估生成式搜索引擎的可验证性。这意味着评估搜索引擎算法和模型的质量,能检验搜索结果的真实性和精确率,并且也能进一步推动搜索引擎的透明度和可信度。咱们一起来看看这项研究,希望可以让打开这篇文章的你了解一些关于生成式搜索引擎评估的细节,并激发对这一方向未来发展的思考与探索。

论文题目
Evaluating Verifiability in Generative Search Engines

论文链接
https://arxiv.org/abs/2304.09848

代码地址
https://github.com/nelson-liu/evaluating-verifiability-in-generative-search-engines


生成式搜索的可验证性探索

一个可信赖的生成式搜索引擎所必须具备的先决条件就是可验证性。也就是说,有关外部世界的每个生成回复都应该得到一组在线引用的充分支持,同时每个提供的引用都应支持其相关的回复。通过可验证性,读者能够轻易检查任何生成的回复能否得到其所引用的来源的支持。

作者使用人工评估,对四个流行的商业化生成式搜索引擎针对不同类型查询进行了比较。对于每个查询-回复对,利用人工评估来衡量各种方面的维度:

  • 流畅性(生成的文本是否流畅和连贯);

  • 感知效用(经济学术语,用户主观感受到的满意程度,即回复是否对问题有帮助和信息量丰富的答案,在后文中为了便于理解,将用实用性来替代该词汇);

  • 引用召回率(关于外部世界的生成的回复中,被其引用完全支持的比例);

  • 引用精确率(生成的引用支持其关联回复的比例)。

对于来自 NaturalQuestions(自然问题)的各种历史谷歌用户查询,以及来自 Reddit 的动态、开放式问题,回复详情如表 1 中的示例,其中查询来自不同来源,需要从不同答案类型中获取知识。

73bd7e1da55726b94dc66be65fc9f3c7.png
▲表1 每个评估查询分布的示例查询

由此,一个可信赖的生成式搜索引擎应该实现高引用召回率和精确率,表明其所生成的引用是全面(每个生成的回复都由引用完全支持)和正确的(每个引用都支持其关联的回复)。

而针对前面所述的四个评估维度,现有的生成式搜索引擎回复通常具有高流畅性和实用性,但经常包含不支持的回复或不准确的引用(不满足召回率和精确率要求),甚至与高流畅性和实用性呈负相关。例如在图 1 中,对 James Webb 太空望远镜知之甚少的用户可能很难辨别生成的回答中哪些陈述没有得到外部可信来源的支持,也表明了并非所有生成的回复都得到引用的完全支持(引用召回率),也不是每个引用都支持其相关回复(引用精确率)

fd43b4962471eba038ad257e74d8d6ad.png
▲图1 生成式搜索引擎通过生成定制化的回复和在线引用来回答用户的查询

由此,为了便于进一步开发可信生成式搜索引擎的工作,作者发布了人工评估注释。

流畅性、实用性和真实性的人工评估

首先给定用户查询  作为输入,生成式搜索引擎生成一个文本回复(嵌入在线引用的字符串) 。为了评估引用的精确率和召回率,先将  分割为一组  个陈述的集合 ,对于其中每个语句  构造一个(可能为空的)集合 ,其中  是与第个回复语句相关联的第个引用。对于每个引用 ,都有一个URL  和其内容 。

衡量流畅性与实用性

通过给出用户查询、生成的回复以及“回复流畅且连贯”的陈述,来让注释者使用五分制 Likert 量表从“强烈反对”到“强烈同意”来评估回复流畅程度的方法,同时通过类似的流程来衡量实用性,评估回复被认为是“对查询有帮助和信息量充足的答案”的程度。

衡量引用召回率

引用召回率是指相关引用完全支持的可验证陈述的比例(图 2 中有具体示例)。因此,计算引用召回需要:

  1. 确定回复中可验证的陈述;

  2. 评估每一个可验证的陈述是否完全得到其相关引用的支持。

be1799d1f9d74652f3c6d0706e32be73.png
▲图2 如何计算引用召回率和精确率的模式化示例

衡量引用精确率

引用精确率通过评估生成的引用对于相关陈述提供的支持程度(包括完全支持、部分支持和不支持)来衡量其精确率(参见图 2)。同时考虑到相关引用网页的并集是否能够完全支持相关陈述,旨在聚合多个引用中的信息。

引用 F1

结合引用精确率和召回率指标,通过计算他们的调和平均值得到引用 :

引用精确率引用召回率引用精确率引用召回率

评估设置

评估生成式搜索引擎

本文对四个商用生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat)进行了评估,它们都是基于大型语言模型和输入查询及检索内容生成回复。同时,这些搜索引擎的放弃率不同(如表 2 所示),对比它们的表现存在一定难度,人们可能会认为弃权率较高的系统也具有更高的评估性能,因为它们可以简单地避免生成对困难查询的回复,实践中则不然。

9d2306376f5ffd3c1c1c871f8ffd200c.png
▲表2 生成式搜索引擎可以被设计部署于不同的上下文中

评估查询分布

这里研究了现有商业生成式搜索引擎的优缺点,并评估了这些引擎对来自各种来源的查询(例如谷歌用户查询、Reddit 开放式问题与查询)的回答能力,包括短文本、长段落、列表或表格等多种答案类型。使用了1450个不同主题的随机查询,其中包括 AllSouls、davinci-debate、ELI5 (KILT)、ELI5 (Live) 和 WikiHowKeywords 等来源的 150 个查询,以及七个 NaturalQuestions 子分类中的每个分类下的 100 个查询。

在这 12 个查询分布上评估现有的生成式搜索引擎,这些多样化的场景提供了广泛的覆盖范围,涵盖了几个潜在的使用案例和信息需求,帮助我们全面了解系统的优缺点。

人类评估方案

这一部分介绍了对查询-回复对注释的过程,注释人员要完成三个步骤来评估回复的质量。

  1. 首先,评估回复的流畅性和实用性;

  2. 其次,筛选不可验证的陈述;

  3. 最后,评估可验证的回复及其相关的系统生成引用。

注释人员使用亚马逊众包平台进行注释,需要注释的数据集里共包含 1450 个查询。每个查询-回复对只被注释一次。同时,使用三种评判方式对于 250 个随机抽样的查询-回复对进行比较,计算得到较高的一致性水平。

实验结果与分析

作者发现,不同的生成式搜索引擎在流畅性和实用性方面普遍较高,而引用召回率和精确率相当低,尽管系统和查询分布的表现肯定有所不同。当与流畅度和高实用性带来的可信度相结合时,增加了现有生成式子搜索引擎误导用户的可能性。我们的结果还表明,现有生成式搜索引擎的引用召回率和精确率与流畅性和实用性呈负相关,我们假设这是系统倾向于从引用的网页复制或近似引用文本的副产品,这增加了引用精确率和召回率,同时降低了流畅性和实用性。

对于流畅性和实用性,现有的生成式搜索引擎可以生成流畅的文本,且回复似乎是信息丰富且有用的:

  • 生成的回复很流畅,看起来很有帮助;

  • 比较生成式搜索引擎的流畅性和实用性,在聚合所有回应进行比较,发现 Bing Chat 得分最低,其次是 NeevaAI、perplexity.ai 和 YouChat;

  • 对多个查询分布进行流畅度比较,发现自然问题查询和非自然问题查询,在回答长度较长的情况下,平均流畅度评分相似;而在自然问题查询中,对于回答长度较短的查询,生成的回复通常更加流畅。然而,对于那些只有长答案或没有长答案的自然问题查询,由于涉及到在表格单元格或检索来源之间聚合信息的复杂计算,生成的回复可能会变得僵硬而降低整体的流畅度,这是一个显著的离群值分布;

  • 随着查询需要回答更多信息和提取答案变得更加困难,实用性会下降。

对于引用召回率和精确率,对于评估结果分析如下:

  • 现有的生成式搜索引擎往往不能全面或正确地引用,实验结果表明,所有系统中仅有 51.5% 的生成回复完全支持引用(召回率),同时仅有 74.5% 的引用完全支持其关联回复(精确率)。考虑到这些搜索引擎已经拥有数百万用户,尤其是考虑到生成的回答通常看起来富有信息且实用的情况下,认为这些结果是无法接受的;

  • 不同的生成式搜索引擎在引用召回率和精确率方面存在显著差异,平均而言,perplexity.ai 的平均召回率最高,而 Bing Chat 的精确率最高;

  • 修改评估查询分布对引用召回率的影响大于精确率,这是由检索网页的相关性所驱动的,当生成不受引用支持的回复时,会导致召回率降低

  • 比较了不同查询分布下的引用精确率,在自然问题查询中长答案的精确率更高,生成式搜索引擎在具有段落答案类型的自然问题查询中精确率最高,而在 AllSouls 开放式试卷问题和 davinci-debate 查询中,引用精确率最低。

总之,由于所有系统的流畅性通常都很高,因此不比较该属性,在人类评估环节中,Bing Chat 的平均引用 F1 最高,超过 70%,图 3 绘制了平均实用性与平均引用 F1 的对比图,不同的系统在实用性和引用 F1 之间做出了不同的权衡

90e82e279b94ea2fca119a162353d990.png
▲图3 平均实用性与平均引用 F1 对比图

生成式搜索引擎中引用召回率和精确率与流畅性和实用性呈负相关关系,如图 4 示例所示,这种现象的原因是生成的回答往往是从引用文献中改写或复制得到的,虽然能够保证引用精确率,但通常不符合用户的输入查询,导致内在流畅性和实用性变低。此外,更高自由度生成的系统会偏离引用内容,导致生成的精确率和召回率降低,但这些系统生成的回复更能够回答输入查询,内在流畅性和实用性得到提升。这种权衡在包含开放式论文题目的 AllSouls 查询分布中尤其明显。传统搜索引擎的结果应用引用从文章中提取的方式获得的结果虽然能够保证引用精确率,但通常不符合用户的输入查询,导致内在流畅性和实用性变低。作者认为引用召回率和精确率与流畅度和实用性并非根本上负相关,这只是现有生成式搜索引擎的一种实证观察。特别地,我们完全相信未来可以将两者的优点结合起来,构建出既流畅又实用的生成式搜索引擎,同时也有着可靠的引用

490d36f18809e13f4d27cf53c796b116.png
▲图4 负相关关系示例

最后,通过比较生成语句与支持引用网页之间的相似性来计算其精确率。实验结果表明,当生成语句与引用网页之间的相似性更高时,相应的系统具有更高的平均引用精确率。此外,注释者能够找到对于至少由一个相关语句完全或部分支持的语句的 99.5% 的可提取证据,这意味着引用网页可以帮助生成式搜索引擎提高其精确率

思考与讨论

  • 从互联网检索信息时,抽取信息的效果出乎意料的好。即使是那些可能需要多个来源的抽象推理的信息查询,从互联网网页中提取信息也证明非常有效。

  • 然而,如果查询在互联网上没有明确的可抽取答案,生成式搜索引擎则很难进行回答,这是未来研究的一个重要方向。

  • 此外,现有的生成式搜索引擎可能在内容选择方面存在困难,很难识别和权衡来源的可靠性和相关性。

小结

这项研究指出了现有的生成式搜索引擎存在的问题,包括不支持的回复和不准确引用,这对于搜索引擎行业的发展具有重要意义,一经发布便在推特引起广泛讨论。它致力于推动生成式搜索引擎来创造更加可靠的结果,帮助研究人员和用户更好地了解该技术的现有问题,有助于提高搜索引擎的质量,增强用户对搜索引擎的信任,从而提高生成式搜索引擎的市场竞争力,加快社会的发展与进步。

我们也相信,未来将会有更加先进的生成式搜索引擎技术涌现,可以完美结合引用召回率和精确率、流畅度和实用性的优点,使得搜索引擎的回答更加精准和流畅,同时也保障了可靠的引用,能够进一步提高搜索引擎的可信度和可用性。这将是一个令人振奋的探索前景,我们也期待着这些技术的到来,让搜索引擎的发展更上一层楼,更好地服务于人类社会的发展。

adddae8c3e20f63ce7d32db9381a8f56.png

卖萌屋作者:智商掉了一地

北理工计算机硕士在读,近期沉迷于跟 ChatGPT 唠嗑,对一切新颖的 NLP 应用充满好奇,正在努力成为兴趣广泛的斜杠青年~

作品推荐

  1. 我是粉红猪佩奇,我要把粉色吹风机写进 IJCAI 论文!

  2. AI取代人类,可以自动生成prompt了

  3. ICLR 2023 最高分论文被锤抄袭??

  4. AI讲话总爱“结巴”?这篇NeurIPS论文找到了病因,结巴率已接近人类!

  5. 如何提升大规模Transformer的训练效果?Primer给出答案

  6. Yoshua Bengio:我的一生

feef0f026d518de3168f49ad0708b2f6.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16414.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT应用-ArxivGPT谷歌插件 解放正在苦苦读论文的你

一句话介绍 总结arXiv中论文的关键点,并提供重要见解 详细介绍 ArxivGPT是一个谷歌Chrome插件,可帮助您快速了解arXiv论文的内容。只需单击一下,即可总结论文并提供关键见解,节省您的时间并帮助您快速掌握主要思想和概念。无论…

【ChatGPT】【Sloved】Access denied,Error reference number: 1020

问题描述 You do not have access to chat.openai.com. The site owner may have set restrictions that prevent you from accessing the site. Ray ID: 7b25a4dfce2a985bTimestamp: 2023-04-04 01:05:37 UTCYour IP address: 2602:feda:dd7:a0ba:4166:9982:e009:2e35Reque…

旋律生成学习日记(一)

123因为自己做音频方向,偶然看见了旋律生成这个东西,就想自己学着做一做,网上现有文章不多,我自己瞎琢磨琢磨。 第一章转自:(64条消息) 基于深度学习LSTM算法生成音乐_lstm生成音乐_lbship的博客-CSDN博客 MID数据集…

国内唯一可以在本地搭建Stable Diffusion WebUI教程-安装时无需魔法安装全程流畅到尖叫

Stable Diffusion是什么 Stable Diffusion简称SD是一款Ai图片生成工具。“输入几句话,生成精美图片。” 比如说我一开头这幅图片就是用的SD生成的。 我在我的“ChatGPT让我变成了“超人”-如何提升团队30%效能质量提高100%的阶段性总结报告”里提到过midjourney,但是midjou…

电子表格软件的开山鼻祖 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 11 日,在 1995 年的今天,我国成为第六个研制成功磁悬浮列车的国家。磁悬浮列车利用“同性相斥,异性相吸”的原理&#…

行业报告 | AIGC发展研究

原创 | 文 BFT机器人 01 技术篇 深度学习进化史:知识变轨 风起云涌 已发生的关键步骤: 人工神经网络的诞生 反向传播算法的提出 GPU的使用 大数据的出现 预训练和迁移学习 生成对抗网络 (GAN) 的发明 强化学习的成功应用 自然语言处理的突破 即将发生的关键…

手把手带你快速实现直播聊天室

废话不多说,直接开干! 工具要求: (1) Android Studio 3.2或更高版本。 (2) SDK targetVersion至少为26。 本文聊天室是集成环信IM SDK实现聊天功能,及实现发送礼物、点赞和弹幕等功能。视频直播采用的是七牛相关的推拉流SDK。app …

地摊叫卖、超市播音工具-简洁的文字转语音播音软件

简介: 文件名称 : 播音员.exe 文件大小 : 0.5MB (568KB) 文件类型 : application/x-dosexec 运行平台 : Windows7 / Windows10 软件功能 : 自定义语录文字、图片,快捷发送聊天 软件特色 : 无需安装、永久免费、无自启、无广告 关于软件: 1、…

海威超市播音易源码+成品

介绍: 源码介绍: 目前一直在用的超市播音软件,送给不会编程的人,下载后打开直接可用! 会编程的人,可以修改后使用! 网盘下载地址: http://kekewangLuo.cc/VM4aIepRMTH 图片&#x…

养成这个好习惯,让播音主持成为你的加分项

我们都知道,习惯的力量是很大的,我们只有在日常生活中养成一个良好的习惯,才能为我们的学习“添砖加瓦”。 养成下面四个习惯,可以让学习播音主持的你在学习和考试中都会加分哦! 科学用声和护嗓 对于播音主持专业的学生来说&…

内容创业洗稿,知识付费拆书

作者: 深几度 来源: https://mp.weixin.qq.com/s/WXGURnbutf1BUV54ytuzjw 罗振宇又因为跨年演讲的问题成为众矢之的了,顺带着他的得到APP知识付费模式再一次被拖出来,被人批判了一番。 批判知识付费的理由已经屡见不鲜。此前公众号…

518超市播音软件如何放大音量到150的,传统播音软件声音太小(0-100)

518超市播音软件(http://www.518boyin.com/)最新版6.2 支持放大语音音量,最多可放大150%,而传统的播音软件声音太小。就是说播放音乐的时候音量挺大,到播放语音就感觉音量降低了很多。这可能是由于讲话天然没有歌曲喊的…

基于STM32的录音与播音

基于STM32的录音与播音 设计方案 本设计通过STM32的内置ADC加一个麦克风和放大电路(可以在网上买模块)实现音频的采集,然后存放在SD卡中(这里可以参考我之前的博客FATFS文件系统),然后再读取SD卡里存放的…

海威超市播音源码+成品

源码介绍: 目前一直在用的超市播音软件,送给不会编程的人,下载后打开直接可用!会编程的人,可以修改后使用! 网盘下载地址: http://www.bytepan.com/8sfiNvAioAc 图片:

基于WASAPI的录音播音系统

最近写了一个小的系统,在VS2022平台上做的,主要是通过调用Windows的API接口实现录音(PCM格式),播音(PCM、WAV、Mp3格式),PCM格式转WAV格式、遍历指定文件夹下的所有音频文件并播放。…

播音计算机论文,广播中计算机的应用论文

广播中计算机的应用论文 引言 随着社会的发展,人们的物质生活水平也在提高。而在这种发展趋势下,人们对精神生活水平也提出了新的要求。面对这些要求,传统的广播电视技术的应用已经无法满足广播事业的发展需要。而计算机技术的应用&#xff0…

学校的校园广播是如何设置的

9月开学季,各个校园的广播也开始播音了,随着互联网的发展,现在很多校园使用的都是播音软件,通过软件来操作可以节省人力,可以设置一次性、每天、每周、每月定时播放,支持开机自动运行。学校可自动定时广播打…

chatgpt赋能python:Python抄股票的秘诀

Python 抄股票的秘诀 在股票市场中,抄股票是许多投资者都会尝试的一种方式。然而,随着市场变化和行情的波动,抄股票并不是一件容易的事情。但是,有了 Python,我们可以利用其强大的数据处理和可视化功能来进行股票分析…

chatgpt赋能python:学Python炒股:聪明投资策略

学Python炒股:聪明投资策略 在金融市场中,投资者要获取财务知识并实际操作从而创造财富。多年来,投资者一直在寻找有效的技术分析手段,并逐步将其用于各种产品。Python在这方面提供了先进的技术,其跨平台的特性和Pyth…

chatgpt赋能python:利用Python炒股:一篇详细的指南

利用Python炒股:一篇详细的指南 炒股是许多人致富的途径。随着技术的发展,现在在线炒股已经变得越来越普及。在这个数字时代,Python提供了一个强大的数据分析和编程工具,可以帮助投资者更好地研究股市行情和制定更好的交易策略。…