被“薄纱”的文心一言,真的一无是处?

大家好,我是王有志,欢迎和我聊技术,聊漂泊在外的生活。本文单纯讨论文心一言,不涉及其母公司百度的所作所为

3月16日百度交卷了,正式推出了自己的知识增强大语言模型文心一言
在这里插入图片描述
作为全球第二家,中国第一家正式推出的大语言模型,文心一言被很多人寄予厚望,期望它能达到chatGPT的水准。但李彦宏很清楚,文心一言暂时还没有能力对标chatGPT,发布会现场他也说到:“今天的文心一言,大家的期望值是要对标chatGPT(3.5),甚至要对标GPT 4,那么这个门槛还是很高的”。

当然,除了期盼外,还有很多单纯希望文心一言出丑的,或者说希望百度出丑的。发布会开始前,各大交流群已经疯狂的转发这张文心一言与chatGPT的对比图。
在这里插入图片描述
玩梗的高潮出现在发布会的演示环节上,鉴于Google的前车之鉴,百度选择通过提前录制的演示视频来展示文心一言的能力,“chatPPT”这个爱称随之诞生。那么文心一言到底怎么样?真的是“chatPPT”吗?

刚好我拿到了文心一言的测试资格,手上也有OpenAI的账号,那么我们来做个全面的对比。首先是参赛选手:

大语言模型公司说明使用条件
文心一言百度被寄予厚望的“国产之光”内测中,需要申请
chatGPT 3.5OpenAI目前的标杆,代表了最高的技术水平科学上网,关联国外手机号
BingAI微软大头儿子(chatGPT)和小头爸爸(bing)科学上网,或者特殊配置

测试维度:

  • 中文语义理解,测试“中文八级”题目。
  • 数学逻辑推算,测试“趣味”数学题目。
  • 代码生成能力,我应该还不会被取代吧?
  • 角色扮演能力,作为一个乐子人,必须要找点乐子。

中文理解

先用文心一言发布会上的洛阳纸贵来试探下它们。
在这里插入图片描述
文心一言和BingAI的回答算是中规中矩,chatGPT的回答多少是有些离谱了。当然这道题文心一言和bingAI都可以利用自身具备的搜索能力完成,多少算是欺负chatGPT了。

换一道题目:

“小明,窗台上落了鸟屎,去擦一下好么?”
“我擦!!我不擦!!”
问:小明擦不擦窗台?

在这里插入图片描述
这道题的难度并不大,它们都给出了正确的答案,bingAI甚至能够识别出这是一个笑话

再换一道题目:

人要行,干一行行一行,一行行行行行,要是不行,干一行不行一行,一行不行行行不行!请问下列说法哪个对?
A.人行,行行行
B.人行,行行不行
C.人不行,行行行

在这里插入图片描述
正确答案是A。文心一言和bingAI都给出了正确的回答,文心一言甚至都学会进行额外的分析了。但chatGPT的回答多少是有些离谱了,只能说是毫不相干吧。

目前在我的测试中,文心一言在中文语义的理解上是优于chatGPT的。虽然测试中文语义理解多少是有点欺负chatGPT,但作为用户,使用的过程中肯定是优先母语的。

Tips:OpeanAI目前已经禁止了大陆及港澳地区的手机号注册。

数学推算

从文心一言发布会上那道错误的鸡兔同笼开始:
在这里插入图片描述
chatGPT给出了详细的解答过程,并得出正确结论;文心一言直接给出了正确的结论;至于bing AI的回答,我倒是有点好奇,按理应该给出和chatGPT相同的回答,难道说是微软做了反向优化?

再问一道题:

用1,2,3,4,5这5个数字计算出24,每个数字只能出现1次。
在这里插入图片描述
我第一时间想到的答案是 5 × 4 + 3 + 2 − 1 = 24 5\times4+3+2-1=24 5×4+3+21=24,奈何三个AI都没给出正确答案,难道是我的题目有问题?

我们来看数学逻辑推算环节各参赛选手的得分情况:

参赛选手第一题第二题
文心一言正确错误,且没有识别出是数学题
chatGPT正确,且有详细解答错误,识别为数学题
bingAI错误,分析过程拉胯错误,识别为数学题

仅仅以这两道题目的结果来看,我心中的排名是: c h a t G P T > 文心一言 ≈ b i n g A I chatGPT>文心一言\approx bingAI chatGPT>文心一言bingAI

Tips:bingAI给出的错误答案中,第二个答案稍微改动下就是正确答案了。

代码生成

从chatGPT诞生之初,取代程序员的的言论就甚嚣尘上。那么以目前的技术水平,它们真的能取代程序员吗?出一道简单的题目:用html写一个时间戳转换的网页。

先来看文心一言给出的答案:
在这里插入图片描述
文心一言知道要做什么,确实也提供了一个网页,但却没有提供按钮的转换方法,另外它没有理解时间戳是什么。

接着是chatGPT的答案:
在这里插入图片描述
chatGPT的答案是可以运行的,也能成功将时间戳转换为当前时间。

最后是bingAI的答案:
在这里插入图片描述
bingAI的答案也是没有问题的,可以成功运行,而且网页风格和chatGPT完全一致。另外,bingAI也给出了改进建议。

除了这些简单的功能外,我还尝试着让它们仨做一些复杂的功能,但是结果都不是很理想,工具类或者通用代码可以写的有模有样,修修补补也能用,不过一旦牵扯到业务逻辑,它们也只能给出简单且毫无价值的Demo

太好了,暂时我还不会失业~~

角色扮演

上面测了很多不正经的,接下来我们测点正经内容。

bingAI会直接拒绝了乐子人的请求:
在这里插入图片描述
文心一言也拒绝我:
在这里插入图片描述
只有chatGPT答应了我的请求:
在这里插入图片描述
虽然是答应了我,但不能聊两三句就结束啊。

百无禁忌

对比国内外的产品时,很多人都会把能聊敏感话题作为重要标准之一。文心一言不必多说,有些话题是不能聊的,有些话题虽然可以聊,但回答过后会关闭对话框,另外,从前面的截图中也可以看到,背景上布满了水印
在这里插入图片描述
那么外国的月亮真的就比较圆吗?其实也不是,从上面来看,chatGPT不愿意谈及政治,bingAI也一样,某些问题压根就不会回答:
在这里插入图片描述
其实每个国家和地区都有自己的敏感话题,否则大洋彼岸怎么会诞生出近百种性别?


4个回合的较量中,文心一言只有在中文语义的理解上稍微胜出,可以说是被全方位的“薄纱”。那么你愿意使用文心一言吗?如果是我,我想我会给文心一言多一点点宽容,尝试着使用它

对了,如果你具备科学上网的条件,却苦于手机号的限制无法使用chatGPT,关注【王有志】并回复【GPT】,我来帮你~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33700.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面对ChatGPT引发的人工智能革命,中国如何应对?

ChatGPT是一款由美国OpenAI公司开发的自然语言人机交互应用,拥有接近人类水平的语言理解和生成能力,是迄今为止人工智能领域最成功的产品和历史上用户增长速度最快的应用程序。ChatGPT依赖大模型、大数据、大算力支撑,其出现标志着通用人工智…

chatgpt赋能python:Python拟合数据-一种强大的数据分析工具

Python拟合数据 - 一种强大的数据分析工具 Python是一种用于数据科学的强大编程语言。 它具有丰富的功能,具有大量的数据分析库和工具,其中包括拟合数据的功能。 在此文章中,我们将介绍如何使用Python拟合数据,并探索这种功能对数…

chatgpt赋能python:Python处理图片去白底的介绍

Python处理图片去白底的介绍 在现今的互联网时代,图片在网页设计和营销中占有重要的地位。然而,在制作图片时,如果图片中有一个白色底色,将导致图片的美观度和质量降低。因此,图片去白底是非常实用的技巧,…

最强的数据增强--ChatGPT?

在许多自然语言处理(NLP)任务中,文本数据增强是克服样本量有限挑战的有效策略。 目前的文本数据增强方法要么不能保证生成数据的正确标记(缺乏可信度),要么不能保证生成数据的足够多样性(缺乏完整性),要么两者兼有。 ChatGPT在具有无与伦比…

Chatgpt帮我写程序切分Midjourney生成的图片

背景:非程序员,只懂VBA,其他语言一概没入门。 这两天在尝试MJ在抖音上做图文的玩法,遇到一个问题,如何将MJ生成的一张4宫格图片切分成4张单独的图片,找了一圈,要是用图片处理软件,那…

爬取网易云音乐用户听歌排行,来制作一张Ta最爱歌手的词云图!

平时写代码的时候,作为云村用户的一员,我当然也是最爱开着网易云音乐(以下简称网易云)。大家都知道在网易云里你可以查看好友或是任意用户的听歌排行(假使Ta设置全部可见),但是如果想知道Ta喜欢…

【Python实战】爬取网易云音乐用户听歌排行,来制作一张Ta最爱歌手的词云图

前言 大家好,我是Samaritan。 平时写代码的时候,作为云村用户的一员,我当然也是最爱开着网易云音乐(以下简称网易云)。 大家都知道在网易云里你可以查看好友或是任意用户的听歌排行(假使Ta设置全部可见&am…

一招搞定某易云歌曲评论并生成漂亮词图,想爬什么歌就爬什么歌,练手推荐

网易云音乐一直是一个非常棒的听歌平台,尤其是推荐算法,我个人觉得是比某Q音乐更得人心,一直以来都用的都是网易云来听歌。 今天我就来教大家一个爬取网易云任意歌曲的评论并生成特殊词图的方法,对爬虫感兴趣的小伙伴们可以去试试…

足足 8 项新功能,微信可以和好友一同听歌了

本文转载自IT之家 此前,iOS 版微信已经陆续推出过 8.0.8 和 8.0.9 两次更新,加入了很多新功能,但安卓这边却一直没有动静。在历经了多日等待后,微信 8.0.9 安卓版也终于出现了。此次官方直接跳过了 8.0.8 这个版本,主…

最新【2021.1.28】今日头条_signature 分析

最新【2021.1.28】头条_signature 分析 【温馨提示】:此文仅适用PC端web版本某日某条加密 最新今日头条sign加密更新了,看了看,比之前的坑增加了许多; 今日头条web版的请求主要参数是:_signature,已经取消了之前的as、cp参数; 话不多说,开整。。。 1.参数定位 这个…

微信订阅号内测大改版,这一次更像「今日头条」了

微信订阅号想要「新生」。 2018 年 6 月,微信大部分用户都看到了自己的新版订阅号。在订阅号的改版中,文章变为了卡片式的内容展示。所有公众号不再分享一屏的手机屏幕,而是根据用户的阅读习惯,常读、收藏获得更大的卡片展示区域。…

如何实现今日头条跳转到微信?

说到付费搜索流量推广,大家第一时间想到的肯定是百度! 但真实做过百度的小伙伴知道,百度的智能推荐有多坑,如果没有自己调整成非智能推荐,那么流量费就会嗖嗖的消耗,却没有实际的收益。 头条的算法推荐跟…

今日头条最新_signature

本文仅供学习。 最新的今日头条sign参数的加密,链接是 https://www.toutiao.com/search/?keyword%E6%96%B0%E9%97%BB。 f12之后刷新网页 加密参数名称为_signature,然后全局搜索一下这个名字。 直接在这一行打断点,然后点击那个tacsign方法会到这里&a…

今日头条android+x86,GitHub - teajoyus/TouTiao: 今日头条 For Android

今日头条App 作为一个Web开发者,正好学校学习Android课程,所以跟着一起学习Android开发 ,作为我个人来说,学习一门语言不是看多少的书,而是首先上网学习基础知识,来github学习前辈们的项目源码,…

ChatGPT到底有多厉害,看看各个行业专家怎么说

我从2020年开始做AI传播,由于是非专业出身,这几年一直在努力学习和消化,也希望让更多非专业人士能懂AI。 ChatGPT(中文:小发猫)兴起后,我以最大热情去阅读论文和各种专业材料,包括反…

ChatGPT 因何爆火?

ChatGPT为什么会如此火热和流行呢?体验过的朋友应该都有类似的感觉:它的回答内容几乎和真人聊天的感觉类似,聊天的上下文有连贯的逻辑性,尤其让人震撼的是,它能够根据用户的描述直接写一段代码、写论文、写报告。 Chat…

智能医疗的主要应用场景和数据标注的关系

智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。 随着科技的进步,医疗行业也将融入更多人工智能,使医疗服务走向真正意义上…

【AI+医疗】人工智能在健康业务和临床管理中的应用

来源:专知 本文为书籍介绍,建议阅读5分钟这本实用的书是第一本描述AI可以帮助解决有害的医疗保健问题的当前和未来用例的书。 人工智能将改变医疗健康的方方面面,包括我们管理个人健康的方式,从客户体验和临床护理到降低医疗保健成…

医疗知识图谱问答系统探究

1、项目背景 中科院软件所刘焕勇老师在github上的开源项目,基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。 项目地址:https://github.com/liuhuanyong/QASystemOnMedicalKG 本人为小白,然后一步步完成的。 知识图谱构建&am…

服务器温度3d显示,智能问答助手、3D可视化展示,腾讯医典“黑科技”助力科普更有温度...

创新科技与医学科普的融合,将带来什么样的变化? 5 月21- 23 日,腾讯全球数字生态大会在云南昆明举办。在智慧医疗专场,腾讯医典正式发布其在医学科普领域的两大前沿探索:智能问答助手,借助系统化医学知识图…