ChatGPT加持下的微软New Bing 错误频出,别只骂谷歌的Bard了

732763885db4e6fac222a8d8d2d85105.jpeg

文|李星漩、丁博生、赵若辰、谢耀赓、邴立东

源|机器之心

这些天看下来,在与谷歌 Bard 加持的搜索引擎较量中,微软基于 ChatGPT 的新必应似乎完全占据了上风。但仍不禁要问,新必应的搜索结果真的无懈可击吗?

最近有来自新加坡南洋理工大学和新加坡技术设计大学的NLP研究者深扒了微软发布会上搜索演示的细节,并揪出了很多错误。

2 月 8 号美东时间八点半,谷歌发布会在巴黎召开。前一天微软正式推出了新一代 AI 驱动搜索引擎 New Bing,把基于 ChatGPT 技术的生成模型和 Bing 集成在一起。微软副总裁 Yusuf Mehdi 进行了一次完美的演示 [0],当日微软市值暴涨 800 亿美元。即便是在 OpenAI 没有开放注册的中国,朋友圈、微信群里 Yusuf 展示的生成模型如何增强 Bing 搜索引擎和 Edge 浏览器体验的片段也在疯传。汝之蜜糖,彼之砒霜,大家都在等着搜索巨头谷歌怎么应对。

谷歌发布会的现场,大家都在等待传说中跟 New Bing 对标的 Bard 登场。作为有谷歌搜索引擎加持的大语言模型,大家对 Bard 充满了遐想。然而,发布会现场,关于 Bard 的内容并不多。于是大家又把眼光投向了谷歌在推特上发布的 Bard 视频,仔细扒下来,大家突然发现 Bard 在回答问题时犯了事实性错误。

在被问及「关于詹姆斯韦伯望远镜的新发现,有什么可以告诉我九岁孩子的?」时,Bard 回答道:「第一张系外行星照片是由詹姆斯韦伯望远镜拍摄。」而事实却是由欧洲南方天文台的甚大望远镜在 2004 年拍下的,此时距离詹姆斯韦伯望远镜升空还有 18 年之久。这个错误成了谷歌当日股价大跌的导火索。

796b22444d4fbce746aad95762a91b26.png
▲图 1 Bard 关于詹姆斯韦伯望远镜演示截图

而在巴黎发布会的现场,尽管 Bard 的展示部分只有 4 分钟左右,其关于星座最佳观测时间的回答同样存在明显的事实偏差。如下图,Bard 的回答中提到猎户座最佳观测时间是十一月到二月。

44230423a69d4eda3f121740ab2bf740.png
▲图 2 Bard 关于星系观测时间演示截图

根据不同信息源,猎户座的最佳观测时间不尽相同,但是都明确指出最佳观测时段从每年一月起。教育科技网站 BYJU'S 提供的最佳时间为一月到三月 [1],维基百科提供的最佳时间为一月到四月 [2]。

c203b2f1dd767705d7c37a2b1339feb9.png
▲图 3 BYJU‘S 关于猎户座最佳观测时间的解答

由于 Bard 发布会相较于 New Bing 发布会的落差,以及被揪出了事实性错误,当天谷歌市值暴跌近 1000 亿美元,Bard 也因此被戏称为史上最贵发布会。我们不禁好奇,在 New Bing 看似完美的发布会中,是不是也藏着事实性的错误呢

New Bing 的事实性错误

我们发现,New Bing 生成的内容中掺杂了很多事实性错误,包括名人身份信息、财报数字、夜店营业时间,等等。

生成模型的事实性错误分类

对于以 GPT 系列(包括 ChatGPT、InstructGPT 等)、T5 为代表的生成模型,事实性错误可以粗分为以下两类:

  • 生成内容与引用内容冲突。大语言模型在内容生成过程中随着序列增长,容易出现脱离引用内容,造成增加、删减或篡改原文的现象。

  • 生成的内容没有事实依据。这类错误通俗来说就是一本正经得胡说八道。没有事实依据的指引,仅靠模型预训练时候存储的信息很容易使模型在生成过程中不知所云。很大概率会生成与事实不符或是和问题无关的内容。

现在我们来检视 New Bing 发布会 [3] 以及 New Bing 演示 [4] 所展示的例子,是否存在事实性错误以及分别是什么类型。为了行文方便,我们把 New Bing 和集成在 Edge 的 New Bing 插件统称为 New Bing。

日本诗人例子的错误

在 New Bing 发布会视频 29:57 处,当 New Bing 被问到知名日本诗人时,给出的答案包括「Eriko Kishida 岸田惠理子 (1930-2004), poet, playwright, and essayist」。

740f39683f32b76be47491e6f6f741ad.png
▲图 4 New Bing 演示中日本诗人例子截图

然而根据维基百科和 IMDB 提供的信息 [5, 6, 7],Eriko Kishida 的生卒年分别为 1929 和 2011。同时,她也不是剧作家(playwright)和散文家(essaysit),而是诗人、翻译家和童话作家。被 New Bing 转了业还少活了八年,岸田的家人大概不太能接受。同时不幸被转业的还有 Gackt 同学。据维基百科提供的信息 [8],Gackt 玩过音乐、唱过歌、作过曲也演过戏,就是没作过诗

财报例子的错误

在 New Bing 发布会视频 35:49 处,Yusuf 展示集成了 New Bing 的 Edge 浏览器,对于打开的服饰公司盖璞 (Gap) 2022 年第三季度的财报,如何进行要点生成。乍眼一看,New Bing 的总结非常实用,用关键点的方式庖丁解牛一般展示了 Gap 三季报的要点,巴菲特看到此或许也会「惊为真人」。然而,当我们找出 Gap 2022 年三季报 [9],仔细阅读过后,发现 New Bing 的总结错漏百出,让人不忍直视

23de532460b836acc9ccb2b169cb1eac.png
▲图 5 New Bing 对 Gap 2022 年第三季度财报的摘要

首先,New Bing 给出了 Gap 调整后的运营毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)为 5.9%。然而在财报中,Gap 的运营毛利率是 4.6%,调整后则是 3.9%。

0ddb165bf7cbc98f0365802674deff90.png
▲图 6 Gap 2022 年第三季度财报截图

New Bing 接下来又给出调整后摊薄每股收益为 0.42 美元(diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact),但财报里的数据则是 0.71 美元。

6c99257b0e8792f1c0ad01d2779f50d2.png
▲图 7 Gap 2022 年第三季度财报截图

甚至 New Bing 给出了 Gap 全年的销售指引为「预计销售净增长率为低双位数」,而实际是四季度「可能呈中间个位数下降」。是下降而非增长,一词之差,对用户的投资行为将产生严重的误导,这亏钱了算谁的。New Bing 甚至无中生有,给出了更多的全年财务指引「营业毛利为 7%,摊薄每股收益为 1.6 美元到 1.75 美元之间」,而这些数据在 Gap 三季度财报中统统没有提到。

547e2f0c22954e6427f34c6f3b729e78.png
▲图 8 Gap 2022 年第三季度财报截图

视频 36:15 处,Yusuf 又展示了用 New Bing 进行 Gap 和体育休闲服品牌露露乐檬(Lululemon)财报对比的功能。这部分又是错误信息的重灾区。

c6e46a9f6265ca94aa7eef30727c35bd.png
▲图 9 New Bing 对 Gap 和 Lululemon 财报对比功能

在右侧 New Bing 给出的表格中,除了上文所说的 Gap 营业毛利 5.9% 应为 4.6%(或调整后 3.9%)和 Gap 摊薄每股收益 0.42 美元应为 0.77 美元(或调整后 0.71 美元), New Bing 又给出了 Gap 现金和现金等价物为 14 亿美元的数据,而实际上财报中是 6.79 亿美元。

39af56fd856b89431ce5cc8641cd8807.png
▲图 10 Lululemon 2022 年第三季度财报截图

同样的情况也出现在 New Bing 给出的 Lululemon 数据中。根据 Lululemon 2022 三季报的数据 [10],New Bing 给出的 Lululemon 毛利率为 58.7%,实际上应为 55.9%。New Bing 提到 Lululemon 营业毛利为 20.6%,实际上应为 19.0%。New Bing 给出 Lululemon 摊薄每股收益为 1.65 美元,实际上应为 2.00 美元。

5b78c5c69a6366094510430eb614d115.png
▲图 11 Lululemon 2022 年第三季度财报截图

我们不禁想问:New Bing 是如何对着 Gap 和 Lululemon 的财报一本正经地胡说八道的?一个合理的推断是,生成出来的这些错误数据,很可能是来自它预训练阶段见过的财报分析数据。ChatGPT 这类大型语言模型的生成,随着生成的序列越长,越容易脱离给定的 Gap 和 Lululemon 的财报数据,放飞自我,生成不着边际的虚假信息。

夜店例子的错误

在 New Bing 发布会视频 29:17 处,New Bing 又为丰富墨西哥城的游客们的夜生活提供了「毫无建设性」的建议。对于其推荐的几个夜店,如 Primer Nivel Night Club、El Almacen 和 El Marra,New Bing 提到这些酒吧没有客户评价、没有联系方式也没有商店介绍。然而这些信息都可以在谷歌地图或者商店的 Facebook 主页上找到。看来 New Bing 网上冲浪力度还不够

El Almacen 在 New Bing 里的营业时间是周二到周日的下午五点到晚上十一点,然而真实的营业时间是除周一外的下午七点到凌晨三点 [11]。这让五点去吃晚饭的游客还得挨两个小时的饿。Guadalajara de Noche 则是相反,实际营业时间是每天的下午五点半到凌晨一点半或十二点半 [12],而 New Bing 给出的营业时间是下午八点开始。看来游客靠 New Bing 的建议去找餐厅,能不能吃到饭就得看运气了。

74b8f47c8e1e456c12e520420844681b.png
▲图 12 New Bing 演示中夜店例子截图

其他错误

除了上述的信息错误,我们还发现了一系列散布在各个角落的事实错误,比如商品价格误差、商店地址错误、时间错误等。

实例演示里的错误

由于 New Bing 还没有完全开放,我们无法直接在 New Bing 上拿到发布会现场的搜索结果,但是微软提供了几个实例演示 [13],让用户体验。本着打破砂锅问到底的精神,我们也把这几个演示都放到放大镜下进行研究。我们发现,即便是这几个精心挑选的例子,里面还是有不少错误信息

在「What art ideas can I do with my kid? 」中,New Bing 给出了很多手工品制作建议。对于每一个手工品,New Bing 都总结了制作所需的材料。然而每一个手工品的材料总结都是不完整的。比如 New Bing 从引用网站 [14] 中总结制作纸吉他需要纸盒、橡皮筋、颜料和胶水。但却漏掉了引用中提到的海绵刷、胶带和木珠。

9e90fd9800cd144a4aa6ae499dda2919.png
▲图 13  New Bing 实例演示 “我可以和孩子一起做什么样的手工?” 截图
c29ae05ec74afb55c1084c85e4ae9a8e.png
▲图 14 引用网站中制作纸吉他所需材料截图

在 New Bing 的实例演示中还有一个非常明显和常见的错误,即给的引用链接与生成的内容无关,驴唇不对马嘴

比如以下在「I need a big fast car. 」的例子中,2022 版 Kia Telluride 没有出现在所给的引用 10 [15] 中。同时「时间穿越」问题在该例子中依旧不能避免,New Bing 声称 2022 版 Kia Telluride 获得了 2020 年世界年度汽车奖,实际情况是当年获得该奖项的是 Kia Telluride 2020 版本。2022 年世界年度汽车奖获得者则是 Hyundai IONIQ 5,而引用 7 [16] 也是与「2020 年世界年度汽车奖」毫不相关的文章。我们在所有实例演示中找到了多达 21 处类似的错误。

552036ea4d2587aa76a75b88f830b71e.png
▲图 15 New Bing 演示实例 “我需要一辆大型快车” 截图

小结:发现错误将指引我们前进

从上述的分析可以看出,无论是 New Bing 还是 Bard,他们的回答都容易出现事实性错误。当全世界都惊讶于 ChatGPT 等大型语言模型展现出来的能力时,当 ChatGPT 成为史上最快达到 1 亿用户的应用之际,我们一方面是为 AI 的进步振臂欢呼,一方面也需要冷静地思考怎么解决 AI 目前还存在的诸多问题。

自从 1956 年那群聚在达特茅斯学院的天才们,第一次定义了什么是人工智能之后,AI 经历了几起几落。近 70 年的发展过程中有很多让人感动的坚持:是初代 AI 的稚嫩探索,是专家系统的勇敢尝试,是 Hinton、Bengio、Lecun 这些学者把神经网络的冷板凳坐穿,是 DeepMind 用 AlphaGo 让 AI 出圈,是谷歌、Meta、CMU、斯坦福、清华等一众顶尖研究机构坚持开源,是 OpenAI 顶住压力把 GPT 这个路线走通,是全球几代科研人员的接力,我们才走到今天。

然而,如果我们放任 AI 生成大量不真实的信息,那么不用多久,大众对于 AI 建立的信心就会被摧毁,各种虚假信息也会充斥互联网。我们指出大模型的错误,并不是为了拉踩哪个公司或者哪个模型,相反,我们是要让 AI 变得更好

正如阿根廷诗人博尔赫斯曾经说过:任何命运,无论多么复杂漫长,实际上只反应于一个瞬间,那就是人们彻底醒悟自己究竟是谁的那一刻。在 ChatGPT 等大模型已经具备了媲美人类的文字能力时,我们清楚地知道,下一步的重点是把真实世界的知识更完整准确地融入大模型,让 AI 模型安全地、可靠地、广泛地应用于人们的日常生活。我们从未如此期待,也从未如此接近那一刻的到来。

d38db797037ad0c82e10aa3661669ec4.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 d3cc937be31e2066d40cf4a88b371046.png

[1]https://www.youtube.com/watch?v=rOeRWRJ16yY

[2]https://en.wikipedia.org/wiki/Orion_(constellation)

[3]https://www.youtube.com/watch?v=rOeRWRJ16yY

[4]https://www.bing.com/new?form=MY028Z&OCID=MY028Z

[5]https://de.wikipedia.org/wiki/Eriko_Kishida

[6]https://ja.wikipedia.org/wiki/ 岸田衿子

[7]https://www.imdb.com/name/nm1063814/

[8]https://en.wikipedia.org/wiki/Gackt

[9]https://www.gapinc.com/en-us/articles/2022/11/gap-inc-reports-third-quarter-fiscal-2022-results

[10]https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:~:text=For%20the%20third%20quarter%20of%202022%2C%20compared%20to%20the%20third,%2C%20and%20increased%2041%25%20internationally

[11]https://restaurantguru.com/El-Almacen-Mexico-City

[12] https://www.google.com/search?q=guadalajara+de+noche+mexico+city&oq=guadalajara+de+&aqs=chrome.1.69i57j35i39j46i512j0i512j46i175i199i512j0i512j46i512j0i512l2j46i512.7030j0j4&sourceid=chrome&ie=UTF-8

[13]https://www.bing.com/new?form=MY028Z&OCID=MY028Z

[14]https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/

[15]https://www.topspeed.com/cars/guides/best-awd-cars-for-2022/

[16]https://www.hotcars.com/best-6-seater-suvs-2022/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16732.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT时代情感分析还存在吗?一份真实调查

深度学习自然语言处理 原创作者:qazw 引言 最近几年,GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务,特别是在zero-shot和few-shot方面表现出它们强大的性能。因此,情感分析(SA)领域也必然少不了LLM的影子,但是哪种LLM适用…

【精妙绝伦】写出查询所有用户的第2笔订单sql!!!

叹为观止的sql语句 SELECT user_id, order_id, order_date, amount FROM orders WHERE (SELECT COUNT(*) FROM orders o WHERE o.user_id orders.user_id AND o.order_date < orders.order_date ) 1 ORDER BY user_id, order_date阿里渣渣研发组群主分享

chatgpt赋能python:探索Python:如何找出大于5的数

探索Python&#xff1a;如何找出大于5的数 在Python编程中&#xff0c;我们常常需要对一系列数字进行操作和筛选。例如&#xff0c;我们需要找出一个列表中所有大于5的数字。本文将详细说明如何使用Python找出大于5的数&#xff0c;并讨论在实际应用中可能遇到的问题和解决方案…

利用chatgpt+低代码技术搭建进销存系统

1 前言 在当今数字化时代&#xff0c;企业管理系统已经成为各行各业不可或缺的一部分。而进销存系统更是企业管理中的重要组成部分&#xff0c;它可以帮助企业实现产品库存管理、采购管理、销售管理等多个方面的自动化管理。 然而&#xff0c;搭建一个高质量的进销存系统需要…

吴恩达联手OpenAI的免费课程笔记—面向开发人员的 ChatGPT 提示工程

目录 前言一、大语言模型介绍二、提示指南2-0、导入API key和相关的python库2-1、写清楚的、具体的提示2-1-1、使用分隔符清楚的指示输入的不同部分2-1-2、要求结构化的输出2-1-3、按照指定的条件输出2-1-4、少样本学习 2-2、给模型时间去思考2-2-1、指定完成任务所需要的具体步…

我用ChatGPT 7分钟生成一个Spring Boot博客项目,有点瑟瑟发抖!

我的《用ChatGPT生成一个SpringBoot应用》保姆级教程上线了。教程的核心是&#xff1a;思路和ChatGPT提示语&#xff0c;已经更新到我的知识星球专栏&#xff0c;目前已经累计实战项目60&#xff0c;目标500 看看ChatGPT生成的项目&#xff0c;Maven结构完整&#xff0c;可正常…

ChatGPT快速搞定前后端开发、测试、运维项目实战,一点代码都不用写!

《面向ChatGPT全栈开发实战》专栏上线了&#xff0c;写这个专栏的过程中&#xff0c;我真有点恐慌&#xff0c;感觉我得失业&#xff0c;因为ChatGPT实在太牛逼了。 注意&#xff1a;由于账号越来难注册&#xff0c;仅限前200名送ChatGPT独立账号&#xff0c;没有的抓紧了。 Ch…

使用机器学习预测股价

股票价格预测有助于确定未来几天或几周内股票的走势&#xff0c;或者至少显示趋势。股票价格取决于多种因素&#xff0c;例如&#xff1a; 基本因素&#xff1a;收入&#xff0c;利润&#xff0c;市场份额&#xff0c;业务的潜在增长前景 外部因素&#xff1a;大流行病&#…

[股票预测]股票历史数据获取

目 录 一、编程环境准备 第一步&#xff1a;安装Anaconda3 第二步&#xff1a;安装工具包Pandas、tushare 第三步&#xff1a;查看Pandas、tushare版本 二、股票历史行情数据提取 2.1获取近3年个股日线交易数据 2.1.1 个股交易接口函数get_hist_data() 2.1.2兴蓉环境(…

股票预测数据与真实数据对比图(八)2021/07/16

重点在于echarts的option 经过查阅文档可以知道&#xff0c;对于echarts的使用&#xff0c;对于图表要绘制的内容是填写在option这一选项&#xff0c;并通过 charts.setOption(option,true); 这条命令来达到刷新图表内容的作用&#xff0c;因此在已经监听了绘制图表类型的基础…

解读:通过挖掘股票内在特征预测股票趋势

写在前面 下面这篇文章的内容主要是来自发表于KDD2019的一篇文章《Investment Behaviors Can Tell What Inside: Exploring Stock Intrinsic Properties for Stock Trend Prediction》。这篇文章发现&#xff0c;职业基金经理们对于股票的共同投资行为可以反应股票的内在属性&a…

使用DeepAR实现股价预测

使用DeepAR实现股价预测 文章目录 使用DeepAR实现股价预测获取股票列表从众多股票中采样100支日期处理函数拉取等长度的股票&#xff0c;并保存 各指标解释预测区间长度及上下文选取给这78支股票所在行业进行归类 目标变量处理协变量处理协变量归一化操作 训练、测试数据划分训…

基于tushare的股票评级与预测

本文内容 股票评级思路&#xff08;一&#xff09; 用百度得到的股票评级六大要素进行股票评分&#xff0c;并用后面的数据对其进行正确性检测。股票评级思路&#xff08;二&#xff09; 在思路一的基础上加入大盘历史的涨跌数据&#xff0c;对评分进行了优化&#xff0c;也进…

python采集往期股票数据进行分析预测

前言 嗨喽~大家好呀&#xff0c;这里是魔王呐 ❤ ~! 准备工作 既然要去赚马内&#xff0c;咱们首先要获取往期的数据来进行分析&#xff0c; 通过往期的规律来对当前进行预测&#xff0c;准不准我不知道&#xff0c;反正比人预测的准&#xff0c; 不准也不要喷我&#xff0…

[ChatGPT最强竞品]爆火,不限量不要钱不用魔法免费注册!

1免责声明 本公众号所发布的文章及工具只限交流学习&#xff0c;本公众号不承担任何责任&#xff01;如有侵权&#xff0c;请告知我们立即删除。 原文地址&#xff1a;[ChatGPT最强竞品]爆火&#xff0c;不限量不要钱不用魔法免费注册&#xff01; 2Claude 介绍 Claude 是下一代…

免费可用!ChatGPT最强竞品来了

&#xff08;永久免费&#xff0c;扫码加入&#xff09; 来源&#xff1a;机器之心 此次&#xff0c;Claude 2 除了一大波能力上的升级&#xff0c;更重要的是大家都可以用了。 今日&#xff0c;那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新…

chatgpt-AIGC-从数学开始

向量 向量是由n个实数组成的一个n行1列&#xff08;n*1&#xff09;或一个1行n列&#xff08;1*n&#xff09;的有序数组&#xff1b; 点积 - 向量的点乘,也叫向量的内积、数量积&#xff0c;对两个向量执行点乘运算&#xff0c;就是对这两个向量对应位一一相乘之后求和的操作…

ChatGPT不仅能写代码还能改bug,这届AI全能

工欲善其事必先利其器&#xff0c;我们先来看一下什么是ChatGPT。小试牛刀&#xff0c;让ChatGPT自己来回答一下&#xff1a; 从介绍中可以看出来ChatGPT很擅长处理自然语言&#xff0c;那我们来看看AI处理编程语言的效果如何呢&#xff1f; 第一个挑战&#xff0c;让ChatGP…

如何搭建与使用FTP服务器

文档资料&#xff1a;https://download.csdn.net/download/wangshuxuncom/87845843https://download.csdn.net/download/wangshuxuncom/87845843 视频教程&#xff1a;如何搭建与使用FTP服务器_哔哩哔哩_bilibili如何搭建与使用FTP服务器共计5条视频&#xff0c;包括&#xff…

如何使用Harbor私有镜像仓库

文档资料&#xff1a;https://download.csdn.net/download/wangshuxuncom/87835045https://download.csdn.net/download/wangshuxuncom/87835045 视频教程&#xff1a;服务端_哔哩哔哩_bilibili服务端是如何使用Harbor私有镜像仓库的第1集视频&#xff0c;该合集共计5集&#…