别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

2acf5f38cc3c7b61b0decc92bb768072.png

来源:机器之心
本文约4200字,建议阅读8分钟
ChatGPT加持的新必应没有想象中那么完美。

这些天看下来,在与谷歌 Bard 加持的搜索引擎较量中,微软基于 ChatGPT 的新必应似乎完全占据了上风。但仍不禁要问,新必应的搜索结果真的无懈可击吗?最近有来自新加坡南洋理工大学和新加坡技术设计大学的NLP研究者深扒了微软发布会上搜索演示的细节,并揪出了很多错误。

2 月 8 号美东时间八点半,谷歌发布会在巴黎召开。前一天微软正式推出了新一代 AI 驱动搜索引擎 New Bing,把基于 ChatGPT 技术的生成模型和 Bing 集成在一起。微软副总裁 Yusuf Mehdi 进行了一次完美的演示 [0],当日微软市值暴涨 800 亿美元。即便是在 OpenAI 没有开放注册的中国,朋友圈、微信群里 Yusuf 展示的生成模型如何增强 Bing 搜索引擎和 Edge 浏览器体验的片段也在疯传。汝之蜜糖,彼之砒霜,大家都在等着搜索巨头谷歌怎么应对。

谷歌发布会的现场,大家都在等待传说中跟 New Bing 对标的 Bard 登场。作为有谷歌搜索引擎加持的大语言模型,大家对 Bard 充满了遐想。然而,发布会现场,关于 Bard 的内容并不多。于是大家又把眼光投向了谷歌在推特上发布的 Bard 视频,仔细扒下来,大家突然发现 Bard 在回答问题时犯了事实性错误。

在被问及「关于詹姆斯韦伯望远镜的新发现,有什么可以告诉我九岁孩子的?」时,Bard 回答道:「第一张系外行星照片是由詹姆斯韦伯望远镜拍摄。」而事实却是由欧洲南方天文台的甚大望远镜在 2004 年拍下的,此时距离詹姆斯韦伯望远镜升空还有 18 年之久。这个错误成了谷歌当日股价大跌的导火索。

47b3705ec0d3c1a8c8c9371990c02ce0.png图 1 Bard 关于詹姆斯韦伯望远镜演示截图

而在巴黎发布会的现场,尽管 Bard 的展示部分只有 4 分钟左右,其关于星座最佳观测时间的回答同样存在明显的事实偏差。如下图,Bard 的回答中提到猎户座最佳观测时间是十一月到二月。

7fe4b44b63e15df111cef6252d02a57d.png图 2 Bard 关于星系观测时间演示截图

根据不同信息源,猎户座的最佳观测时间不尽相同,但是都明确指出最佳观测时段从每年一月起。教育科技网站 BYJU'S 提供的最佳时间为一月到三月 [1],维基百科提供的最佳时间为一月到四月 [2]。

206afd7b6b42f3d6a54ed85002abb8a0.png

图 3 BYJU‘S 关于猎户座最佳观测时间的解答

由于 Bard 发布会相较于 New Bing 发布会的落差,以及被揪出了事实性错误,当天谷歌市值暴跌近 1000 亿美元,Bard 也因此被戏称为史上最贵发布会。我们不禁好奇,在 New Bing 看似完美的发布会中,是不是也藏着事实性的错误呢

New Bing 的事实性错误

我们发现,New Bing 生成的内容中掺杂了很多事实性错误,包括名人身份信息、财报数字、夜店营业时间,等等。

生成模型的事实性错误分类

对于以 GPT 系列(包括 ChatGPT、InstructGPT 等)、T5 为代表的生成模型,事实性错误可以粗分为以下两类:

  • 生成内容与引用内容冲突。大语言模型在内容生成过程中随着序列增长,容易出现脱离引用内容,造成增加、删减或篡改原文的现象。

  • 生成的内容没有事实依据。这类错误通俗来说就是一本正经得胡说八道。没有事实依据的指引,仅靠模型预训练时候存储的信息很容易使模型在生成过程中不知所云。很大概率会生成与事实不符或是和问题无关的内容。

现在我们来检视 New Bing 发布会 [3] 以及 New Bing 演示 [4] 所展示的例子,是否存在事实性错误以及分别是什么类型。为了行文方便,我们把 New Bing 和集成在 Edge 的 New Bing 插件统称为 New Bing。

日本诗人例子的错误

在 New Bing 发布会视频 29:57 处,当 New Bing 被问到知名日本诗人时,给出的答案包括「Eriko Kishida 岸田惠理子 (1930-2004), poet, playwright, and essayist」。

7cf807858af1abc18758ee2371e0bc1f.png图 4 New Bing 演示中日本诗人例子截图

然而根据维基百科和 IMDB 提供的信息 [5, 6, 7],Eriko Kishida 的生卒年分别为 1929 和 2011。同时,她也不是剧作家(playwright)和散文家(essaysit),而是诗人、翻译家和童话作家。被 New Bing 转了业还少活了八年,岸田的家人大概不太能接受。同时不幸被转业的还有 Gackt 同学。据维基百科提供的信息 [8],Gackt 玩过音乐、唱过歌、作过曲也演过戏,就是没作过诗。

财报例子的错误

在 New Bing 发布会视频 35:49 处,Yusuf 展示集成了 New Bing 的 Edge 浏览器,对于打开的服饰公司盖璞 (Gap) 2022 年第三季度的财报,如何进行要点生成。乍眼一看,New Bing 的总结非常实用,用关键点的方式庖丁解牛一般展示了 Gap 三季报的要点,巴菲特看到此或许也会「惊为真人」。然而,当我们找出 Gap 2022 年三季报 [9],仔细阅读过后,发现 New Bing 的总结错漏百出,让人不忍直视。

ffda6ccbdde973aaa989aedd5d644e5e.png

图 5 New Bing 对 Gap 2022 年第三季度财报的摘要

首先,New Bing 给出了 Gap 调整后的运营毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)为 5.9%。然而在财报中,Gap 的运营毛利率是 4.6%,调整后则是 3.9%。

691a2d1d039c4d8cac150db2272e8bad.png

图 6 Gap 2022 年第三季度财报截图

New Bing 接下来又给出调整后摊薄每股收益为 0.42 美元(diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact),但财报里的数据则是 0.71 美元。

972ccb8fe3ec1b11bdb77c31729af92f.png

图 7 Gap 2022 年第三季度财报截图

甚至 New Bing 给出了 Gap 全年的销售指引为「预计销售净增长率为低双位数」,而实际是四季度「可能呈中间个位数下降」。是下降而非增长,一词之差,对用户的投资行为将产生严重的误导,这亏钱了算谁的。New Bing 甚至无中生有,给出了更多的全年财务指引「营业毛利为 7%,摊薄每股收益为 1.6 美元到 1.75 美元之间」,而这些数据在 Gap 三季度财报中统统没有提到。

3b4adc5403510d71e9a937efa30df498.png

图 8 Gap 2022 年第三季度财报截图

视频 36:15 处,Yusuf 又展示了用 New Bing 进行 Gap 和体育休闲服品牌露露乐檬(Lululemon)财报对比的功能。这部分又是错误信息的重灾区。

d144e4e6d621da808a82eb5e859bb4c7.png

图 9 New Bing 对 Gap 和 Lululemon 财报对比功能

在右侧 New Bing 给出的表格中,除了上文所说的 Gap 营业毛利 5.9% 应为 4.6%(或调整后 3.9%)和 Gap 摊薄每股收益 0.42 美元应为 0.77 美元(或调整后 0.71 美元), New Bing 又给出了 Gap 现金和现金等价物为 14 亿美元的数据,而实际上财报中是 6.79 亿美元。

7b0cb23ed348ed216bb81245b25a5009.png

图 10 Lululemon 2022 年第三季度财报截图

同样的情况也出现在 New Bing 给出的 Lululemon 数据中。根据 Lululemon 2022 三季报的数据 [10],New Bing 给出的 Lululemon 毛利率为 58.7%,实际上应为 55.9%。New Bing 提到 Lululemon 营业毛利为 20.6%,实际上应为 19.0%。New Bing 给出 Lululemon 摊薄每股收益为 1.65 美元,实际上应为 2.00 美元。

498b13a6056c4b7cb55481ecca371a9d.png

图 11 Lululemon 2022 年第三季度财报截图

我们不禁想问:New Bing 是如何对着 Gap 和 Lululemon 的财报一本正经地胡说八道的?一个合理的推断是,生成出来的这些错误数据,很可能是来自它预训练阶段见过的财报分析数据。ChatGPT 这类大型语言模型的生成,随着生成的序列越长,越容易脱离给定的 Gap 和 Lululemon 的财报数据,放飞自我,生成不着边际的虚假信息。

夜店例子的错误

在 New Bing 发布会视频 29:17 处,New Bing 又为丰富墨西哥城的游客们的夜生活提供了「毫无建设性」的建议。对于其推荐的几个夜店,如 Primer Nivel Night Club、El Almacen 和 El Marra,New Bing 提到这些酒吧没有客户评价、没有联系方式也没有商店介绍。然而这些信息都可以在谷歌地图或者商店的 Facebook 主页上找到。看来 New Bing 网上冲浪力度还不够。

El Almacen 在 New Bing 里的营业时间是周二到周日的下午五点到晚上十一点,然而真实的营业时间是除周一外的下午七点到凌晨三点 [11]。这让五点去吃晚饭的游客还得挨两个小时的饿。Guadalajara de Noche 则是相反,实际营业时间是每天的下午五点半到凌晨一点半或十二点半 [12],而 New Bing 给出的营业时间是下午八点开始。看来游客靠 New Bing 的建议去找餐厅,能不能吃到饭就得看运气了。

e635cc3d9d3ff6a51dad218cf0f04d17.png

图 12 New Bing 演示中夜店例子截图

其他错误 

除了上述的信息错误,我们还发现了一系列散布在各个角落的事实错误,比如商品价格误差、商店地址错误、时间错误等。

实例演示里的错误

由于 New Bing 还没有完全开放,我们无法直接在 New Bing 上拿到发布会现场的搜索结果,但是微软提供了几个实例演示 [13],让用户体验。本着打破砂锅问到底的精神,我们也把这几个演示都放到放大镜下进行研究。我们发现,即便是这几个精心挑选的例子,里面还是有不少错误信息。

在「What art ideas can I do with my kid? 」中,New Bing 给出了很多手工品制作建议。对于每一个手工品,New Bing 都总结了制作所需的材料。然而每一个手工品的材料总结都是不完整的。比如 New Bing 从引用网站 [14] 中总结制作纸吉他需要纸盒、橡皮筋、颜料和胶水。但却漏掉了引用中提到的海绵刷、胶带和木珠。

58ad76bda6db1f74d3c17e502e15a01e.png

图 13  New Bing 实例演示 “我可以和孩子一起做什么样的手工?” 截图 

73c3bbddf4cc5233d588acf6e3f86e61.png

图 14 引用网站中制作纸吉他所需材料截图

在 New Bing 的实例演示中还有一个非常明显和常见的错误,即给的引用链接与生成的内容无关,驴唇不对马嘴。

比如以下在「I need a big fast car. 」的例子中,2022 版 Kia Telluride 没有出现在所给的引用 10 [15] 中。同时「时间穿越」问题在该例子中依旧不能避免,New Bing 声称 2022 版 Kia Telluride 获得了 2020 年世界年度汽车奖,实际情况是当年获得该奖项的是 Kia Telluride 2020 版本。2022 年世界年度汽车奖获得者则是 Hyundai IONIQ 5,而引用 7 [16] 也是与「2020 年世界年度汽车奖」毫不相关的文章。我们在所有实例演示中找到了多达 21 处类似的错误。

7de0484481f2dae8f694636324655c37.png

图 15 New Bing 演示实例 “我需要一辆大型快车” 截图

小结:发现错误将指引我们前进

从上述的分析可以看出,无论是 New Bing 还是 Bard,他们的回答都容易出现事实性错误。当全世界都惊讶于 ChatGPT 等大型语言模型展现出来的能力时,当 ChatGPT 成为史上最快达到 1 亿用户的应用之际,我们一方面是为 AI 的进步振臂欢呼,一方面也需要冷静地思考怎么解决 AI 目前还存在的诸多问题。

自从 1956 年那群聚在达特茅斯学院的天才们,第一次定义了什么是人工智能之后,AI 经历了几起几落。近 70 年的发展过程中有很多让人感动的坚持:是初代 AI 的稚嫩探索,是专家系统的勇敢尝试,是 Hinton、Bengio、Lecun 这些学者把神经网络的冷板凳坐穿,是 DeepMind 用 AlphaGo 让 AI 出圈,是谷歌、Meta、CMU、斯坦福、清华等一众顶尖研究机构坚持开源,是 OpenAI 顶住压力把 GPT 这个路线走通,是全球几代科研人员的接力,我们才走到今天。

然而,如果我们放任 AI 生成大量不真实的信息,那么不用多久,大众对于 AI 建立的信心就会被摧毁,各种虚假信息也会充斥互联网。我们指出大模型的错误,并不是为了拉踩哪个公司或者哪个模型,相反,我们是要让 AI 变得更好。

正如阿根廷诗人博尔赫斯曾经说过:任何命运,无论多么复杂漫长,实际上只反应于一个瞬间,那就是人们彻底醒悟自己究竟是谁的那一刻。在 ChatGPT 等大模型已经具备了媲美人类的文字能力时,我们清楚地知道,下一步的重点是把真实世界的知识更完整准确地融入大模型,让 AI 模型安全地、可靠地、广泛地应用于人们的日常生活。我们从未如此期待,也从未如此接近那一刻的到来。

参考文献

[0]https://www.youtube.com/watch?v=rOeRWRJ16yY

[1]https://byjus.com/question-answer/in-which-season-of-the-year-is-the-constellation-orion-visible-in-the-sky/

[2]https://en.wikipedia.org/wiki/Orion_(constellation)

[3]https://www.youtube.com/watch?v=rOeRWRJ16yY

[4]https://www.bing.com/new?form=MY028Z&OCID=MY028Z

[5]https://de.wikipedia.org/wiki/Eriko_Kishida

[6]https://ja.wikipedia.org/wiki/ 岸田衿子

[7]https://www.imdb.com/name/nm1063814/

[8]https://en.wikipedia.org/wiki/Gackt

[9]https://www.gapinc.com/en-us/articles/2022/11/gap-inc-reports-third-quarter-fiscal-2022-results

[10]https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:~:text=For%20the%20third%20quarter%20of%202022%2C%20compared%20to%20the%20third,%2C%20and%20increased%2041%25%20internationally

[11]https://restaurantguru.com/El-Almacen-Mexico-City

[12]https://www.google.com/search?q=guadalajara+de+noche+mexico+city&oq=guadalajara+de+&aqs=chrome.1.69i57j35i39j46i512j0i512j46i175i199i512j0i512j46i512j0i512l2j46i512.7030j0j4&sourceid=chrome&ie=UTF-8

[13]https://www.bing.com/new?form=MY028Z&OCID=MY028Z

[14]https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/

[15]https://www.topspeed.com/cars/guides/best-awd-cars-for-2022/

[16]https://www.hotcars.com/best-6-seater-suvs-2022/

编辑:于腾凯

校对:林亦霖

5d15c89c60214fdbe28fd6fadb0886d4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11963.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

挑战ChatGPT,谷歌正式发布Bard,CEO亲自下场邀请测试

源|机器之心 虽然完成仍需要「几周时间」,但产品已经邀请测试了。 我们可能正在见证科技领域前所未有的变革。 北京时间2月7日凌晨,谷歌CEO桑达尔皮查伊(Sundar Pichai)在人们的预料之外突然发布了谷歌的下一代对话AI系…

谷歌全面反攻 ChatGPT!PaLM 2、Gemini 双杀,Bard 正式开放

这是 Google 不能输的战役,也是全面 AI 的时刻,一场演讲,Google CEO Sundar Pichai 提了不下 25 次的「AI」。 作者 | 袁滚滚 责编 | 唐小引 出品 | CSDN(ID:CSDNnews) 前几日,在 Google 官方发…

ChatGPT 竞争对手 谷歌 Bard 开始小范围公测

简介 我们早就看到了通过对话式 AI 使信息和计算更容易获得的潜力。两年前,我们推出了LaMDA(对话应用程序语言模型),这是一种能够进行流畅、多轮对话的对话式 AI 模型,去年,我们推出了AI Test Kitchen&…

集 8 万员工之力, Google 开放 Bard,我们将它和 ChatGPT 正面 PK 了一下

整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 2023 年的科技狂欢是 AI 给的,AI 的新闻头条是一个接着一个:Google 开放 Bard;NVIDIA推出了云工具,用于生成式人工智能;Adobe发布 Fir…

正面刚ChatGPT,谷歌发布Bard! AI们要battle起来了?

面对ChatGPT的步步紧逼,谷歌终于做出了回应,选择了正面刚。 北京时间2月7日凌晨,谷歌CEO桑达尔皮查伊(Sundar Pichai)宣布谷歌推出了下一代对话AI系统Bard。 消息一出,自然引起广泛讨论,ChatGP…

谷歌推出与 ChatGPT 竞争的 AI 产品:Bard

谷歌首席执行官桑德尔・皮查伊 (Sundar Pichai) 今天宣布,他们将在未来几周内面向公众推出由 LaMDA 提供支持的实验性对话式 AI 服务,称为 Bard —— 与当前流行的 ChatGPT 展开直接竞争。在公开发布之前,目前 Bard 仅开放给受信任的测试人员…

Google发布ChatGPT竞品Bard

北京时间2月7日凌晨,谷歌CEO桑达尔皮查伊(Sundar Pichai)在万众瞩目之下突然发布了谷歌的下一代对话AI系统Bard(https://blog.google/technology/ai/bard-google-ai-search-updates/)。 从博客中可以看出,此…

马斯克:“坦率地说,我不想成为任何公司的 CEO”

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) “坦率地说,我不想成为任何公司的 CEO”,作为专注于「天上飞」的火箭研发之 SpaceX、「地上跑」的自动驾驶汽车之特斯拉、「穿梭地下」的超回路列车之 Boring 公司、「入侵大脑」…

马斯克刚砍掉网络安全部,Twitter就出事儿了!

自从马斯克收购了Twitter之后,就像是个网红一样,频频出现在科技版和程序员的头条。 一会儿是裁员了,一会儿又请被裁的人回来,一会儿又要检查代码 有消息看到,马斯克要把Twitter网络安全部门整个给裁掉,一…

马斯克让位?特斯拉中国一把手被曝将接任全球CEO,内部回应:您觉得是真的吗?...

鱼羊 Alex 发自 凹非寺量子位 | 公众号 QbitAI 马斯克让位,决定任命朱晓彤为特斯拉全球CEO。 如此消息一经曝出,迅速引爆舆论。 据品玩爆料,马斯克已确认,特斯拉现任全球副总裁、大中华区CEO朱晓彤(Tom Zhu&#xff09…

马斯克:可以骂我一整天,但要交8美元

推特的新老板埃隆马斯克 (Elon Musk) 针对推特用户需每月支付8美元获得蓝V认证 (blue tick) 的新政策,用一句话回应批评与争议: 可以骂我一整天,但你得交8美元 Trash这里作动词,表示蓄意攻击某人,用英文解释就是&…

埃隆·马斯克成立 xAI 公司研究宇宙挑战 ChatGPT

大家好,我是Yuan,今天给大家介绍埃隆马斯克 (Elon Musk) 最新成立的人工智能 xAI 公司。 介绍 特斯拉 (Tesla) 和 SpaceX 等公司背后的富有远见的企业家埃隆马斯克 (Elon Musk) 再次将目光投向人工智能 (AI) 领域。马斯克最近宣布成立一家名为 xAI 的新…

马斯克官宣 TruthGPT,正面硬刚 ChatGPT。。。

点击上方“Java基基”,选择“设为星标” 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络应…

马斯克:若竞品够好,我不介意特斯拉破产

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 试问:哪位 CEO 会说出“我不介意公司破产”这句话? 答:特斯拉 CEO 马斯克。 本周二,特斯拉独立董事、前日本政府养老基金首席投资官水野弘道&#xff0…

马斯克官宣:卸任推特CEO,继承者是她,网友:不会是女版的你吧!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 推特公司 CEO 马斯克周四在推特上宣布:为 X/Twitter 公司聘请到了一位新 CEO ,她将在大约 6 周后入职工作,但没有透露新 CEO 的具体姓名,…

2023雅虎邮箱不能注册?别急,这份教程教你成功注册雅虎邮箱

这几年,跨境电商的迅猛发展,越来越多人加入这片蓝海,跨境人拥有一个专业的邮箱账户显得尤为重要,它是商业交流和日常工作的必备工具。因此,雅虎邮箱成为了许多人的首选,全球范围内使用雅虎邮箱的人数是非常…

阿里版ChatGPT 进入内部测试!或4月开放,中文聊天截图曝光!

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:量子位 | 公众号 QbitAI 谷歌硬刚ChatGPT消息一出,科技圈全坐不住了。 就在昨晚,阿里百度网易京东一众公司全宣布要推出类ChatGPT新产品,战况那叫一…

科创板来了

今天的话题热点不少。 官方昨天在进博会上正式宣布,将在上海证券交易所设立科创板并试点注册制。 资本市场欢呼声一片,中国的纳斯达克资本盛宴开场,春天又要来了。 浸淫股市多年的老韭菜应该还记得,2014年推出的新三板&#xff0c…

创业之路 - 上市公司包括哪几种,创业板、新三板、科创版 区别?

中国的上市公司股票有A股、B股、H股、N股、S股等的区分。这一区分主要依据股票的上市地点和所面对的投资者而定。 以下为各股的含义: A股的正式名称是人民币普通股票。它是由中国境内的公司发行,供境内机构、组织或个人(不含台、港、澳投资者…

九龙证券|次新股叠加智慧交通+信创+数字经济概念,开盘冲涨停!

核算机板块1月以来跑赢上证指数;才智交通、成绩高增及严重财物重组个股登上涨停榜。 证券时报•数据宝核算,1月19日,沪深两市收盘涨停股35只,其中ST股6只。群众交通、长久科技两股一字板强势涨停,潞安环能、跃岭股份收…