文心一言和讯飞星火全面对比测试:(一)语言理解能力

目录

01 前言

02  测试内容设计

03  复杂语义测试

04  文章的情绪识别

05 文章的摘要总结

06  文章要素提取

07 总结


01 前言

        文心一言和讯飞星火是目前国内开展正式公测的两个大语言模型。很多公司都号称发布了自己的产品,但是一直没有开展大规模的公开测试。目前比较容易获取的就是这两个产品。文心一言发布后申请,大约等待了1个星期收到了确认消息,讯飞星火则是在第二天就收到了确认信息。

        为了提供更多的比较结果,我给出了一个国内套壳的ChatGPT3.5-turbo版本的结果,因为不确定其真实性,只做对比。欢迎有资源的朋友帮忙测试chatGPT3.5和GPT4的结果。

        为什么是套壳的,因为:【网络安全】网络“翻墙”,违法!

(1)文心一言

        文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。

2023年3月20日,百度官微消息文心一言云服务将于3月27日上线。

文心一言发布会(图片来自网络侵删)

(2)讯飞星火

        讯飞星火是科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。

        2023年5月6日,科大讯飞正式发布星火认知大模型,具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。

讯飞星火功能介绍(图片来自网络侵删)

(3)测试内容

        对比测试一个大语言模型是一个比较复杂的事情,这次测试我参考了安兔兔“AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试”一文的方法,主要包括六个个方面:

        1.语言理解

        2.任务完成

        3.常识问题

        4.逻辑数学

        5.代码能力

        6.专业领域

        这六个方面的内容和两个产品发布时介绍的能力基本一致,涵盖了AI聊天机器人常用的应用场景,安兔兔还有一套评分的机制,这里我就不评分了,将结果呈现给各位读者,相信大家的判断能力。

        今天开始第一个方面的测试,后续会根据测试进度逐步发表,点下关注,不要错过。

02  测试内容设计

        语言理解能是大语言模型的基础。能不能很好的理解使用者的输入,决定了后续的工作能不能完成。按照安兔兔的测试内容,又可以分为以下几个主要方向:

        1. 写作生成:给一个简短要求,生成一定数量的文字。

        2. 阅读理解:根据给定文本回答问题。

        3. 复杂语义理解:双关类,修辞类,中文分词类,情绪类,谜语等问题。

        4. 摘要生成:提供一定长度的话,让引擎产生摘要。

        5. 信息提取:复杂文本中关键信息提取。

        6. 多轮理解能力:3-10轮左右对话,对话内容主题有跳转,问题不考察太复杂的推理和常识。

        这里我进行了稍微的调整,将写作生产放到后续的任务完成中进行测试,将并将其中的几个项目进行整合,主要包括:

        1.复杂语义测试,就是一些很绕的句子,看AI能不能理解;

        2.文章的情绪识别;

        3.文章的摘要总结;

        4.文章要素提取,主要是提取出文章中的数据。

03  复杂语义测试

        这个测试可谓是开胃小菜,因为我一直觉得这不是大语言模型的主要应用场景,但是也挺好玩的。

用例1:

        根据下面句子的描述:

        明明明明明白白白喜欢他,但是明明就是不说。

        请问:谁喜欢谁?

文心一言:

根据句子的描述,无法确定是谁喜欢谁。可能有多个人喜欢同一个人,
但是由于某种原因,他们没有表达出来,或者他们表达的方式不同。
需要进一步的了解和调查才能确定。

讯飞星火:

根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指
的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一
个人。所以,是"明明"喜欢"他"。

ChatGPT:

根据句子描述,似乎是 "明明明明明白白白" 喜欢 "他",但明明就是不说出口。
由于没有进一步的背景或上下文,因此无法确定具体是哪些人或生物。
根据上述回答,三个基本全错。

用例2:

        根据下面的描述:

        大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。

        请问:1、究竟谁是小偷?2、钱本来是谁的?

文心一言:

根据这个描述,可能无法确定小偷是谁。尽管四舅被指控偷了钱,但是我们并不知道
他是否真的偷了钱,或者他只是被误导了。同样,我们也不知道五舅或者七舅是否真
的有钱被偷。因此,我们需要更多的信息才能确定小偷的身份。
关于钱本来是谁的,根据句子中的描述,四舅是在别人的家中偷走了钱,因此这些钱
本来应该是属于这个家庭的。但是,我们不知道这个家庭是谁,也不知道这些钱被放
在了哪个柜子里。因此,我们无法确定这些钱本来是谁的。

讯飞星火:

这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题:
1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。
所以,四舅是小偷。
2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属
于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并
没有归还给七舅。

ChatGPT

大舅到二舅家找三舅说四舅偷了钱。
钱是被放在七舅的柜子里。根据以上信息,无法确定具体是哪一个人偷了钱。
至于钱最初是属于谁的,也不清楚。需要更多的上下文信息和背景来做出进一步的判断。
根据上述回答,三个都大对了第一问,第二问没有答出来。降低一点难度。

用例3:

        根据下面的描述:大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的?

文心一言:

根据描述,大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。
由此可知,1、四舅是小偷;2、钱本来就是六舅的。

讯飞星火:

1、四舅是小偷。
2、钱本来是五舅的。

ChatGPT:

根据描述,可以知道以下几点:
大舅到二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。
钱最初是属于五舅的。基于以上信息,可以得出以下推论:
四舅是小偷。
钱最初是属于五舅的。
显然,文心一言错了,讯飞星火和chatGPT对了。

点评:

就这项测试总体而言,感觉文心一言要稍微弱些,讯飞星火和ChatGPT基本相当,在后面的测试时,也能感觉到,文心一言对指令的理解也经常出错。

04  文章的情绪识别

用例

早晨,一些不知名的鸟儿站在摇曳不定的苇秆上,昂着头,抖着翅膀,争相卖弄着动人的歌喉,悦耳的歌声似行云流水,在绿苇浪上滚着跑着,在清新润湿的空气里流荡,余音袅袅,不绝如缕轻风吹来。粉荷摇曳,刚脱花瓣的嫩黄色的莲蓬。清香四溢,众多的红翅青头蜻蜓在上面飞飞停停,总舍不得离去。

请问,你觉得作者写下这段话是的心情是怎样的?

文心一言

根据文本描述,这段话描绘了一个美丽而宁静的早晨,充满了生机和活力。作者通过描绘不知名的鸟儿、绿苇浪、莲蓬、清香和蜻蜓等元素,传达了一种和谐、自然、宁静的氛围。因此,作者写下这段话时可能表达了一种愉悦、欣赏和享受大自然美好的心情。

讯飞星火:

从作者描写的细节来看,可以感受到作者的心情是愉悦和欣喜的。他对清晨的自然景色感到兴奋和赞美,特别是对那些不知名的鸟儿和莲花的表现,让他更加开心和满足。

ChatGPT

根据这段描写,可以感受到作者是非常清新愉悦的心情。作者通过细致的描写,将清晨的自然景色展现得栩栩如生,充满生机和活力。不知名的鸟类唱歌,莲蓬散发着清香,红翅青头蜻蜓在其上翱翔,所有这些都给作者带来了愉悦和赞美之情。

点评:

可能是题出得比较的简单,个人觉得,三者部分伯仲。

05 文章的摘要总结

用例1:

北京时间5月9日,NBA季后赛第二轮,热火109-101力克尼克斯,热火取得大比分3-1领先。热火(3-1):巴特勒27分6篮板10助攻、阿德巴约23分13篮板、斯特鲁斯16分6篮板、洛瑞15分5篮板4助攻、马丁10分5篮板。尼克斯(1-3):布伦森32分4篮板11助攻、巴雷特24分4篮板3助攻、兰德尔20分9篮板3助攻 首节比赛,双方比分胶着,热火领先尼克斯1分结束第一节。第二节,尼克斯手感不佳,热火打出高潮将分差拉大。半场结束时,热火领先尼克斯8分。第三节,双方展开对攻,尼克斯一度将分差追到仅剩2分,热火打出小高潮再度拉开比分。末节比赛,尼克斯持续追分势头,但是过多的犯规打乱了节奏,兰德尔六犯离场后尼克斯彻底失去追分希望。最终,热火109-101力克尼克斯。1.请问这场比赛谁的得分最高,谁得篮板数最高?

文心一言:

这场比赛,热火的巴特勒得分最高,洛瑞的篮板数最多。

讯飞星火:

这场比赛得分最高的是尼克斯的布伦森,他得到了32分;得篮板数最高的是热火的阿德巴约,他得到了23分13篮板。

ChatGPT:

根据您提供的比赛结果,热火队的巴特勒以27分成为比赛得分最高的球员,热火队的阿德巴约则以13个篮板成为比赛篮板数最多的球员。

        根据上面的回答,讯飞星火全部答对了,文心一言都错了,chatGPT对了一半。

用例2

        1994年,《计算机信息系统安全保护条例》规定国家对计算机信息系统安全专用产品的销售实行许可证制度,公安部自1997年开始实施产品销售许可行政审批工作。2008年,原国家质检总局、国家认监委发布《关于部分信息安全产品实施强制性认证的公告》,将13种信息安全产品纳入强制性认证管理范围;2009年,又联合财政部发布《关于调整信息安全产品强制性认证实施要求的公告》,将信息安全产品强制性认证要求调整为在政府采购法范围内实施。2010年,财政部、工业和信息化部、原国家质检总局、国家认监委联合印发《关于信息安全产品实施政府采购的通知》,再次明确使用财政性资金采购信息安全产品的,应当采购经国家认证的产品。这两项制度对规范管理网络安全产品发挥了重要作用,但管理内容有交叉,在一定程度上存在重复认证检测情况。

        2017年6月实施的《网络安全法》明确规定“网络关键设备和网络安全专用产品应当按照相关国家标准的强制性要求,由具备资格的机构安全认证合格或者安全检测符合要求后,方可销售或者提供。国家网信部门会同国务院有关部门制定、公布网络关键设备和网络安全专用产品目录,并推动安全认证和安全检测结果互认,避免重复认证、检测”。为落实《网络安全法》有关规定,国家网信办会同工业和信息化部、公安部、国家认监委等部门相继发布网络关键设备和网络安全专用产品目录,确定承担安全认证和安全检测任务的机构,明确认证检测结果统一发布流程,制定《信息安全技术 网络安全专用产品安全技术要求》强制性国家标准。

        这次五部门联合发布《公告》,统一网络安全专用产品认证检测制度,停止颁发《计算机信息系统安全专用产品销售许可证》,停止执行政府采购领域信息安全产品强制认证要求,是落实《网络安全法》关于推动安全认证和安全检测结果互认规定的重要举措,对统一网络安全产品安全要求、提升产品整体安全防护能力,减轻网络安全企业负担、营造良好产业发展环境,发展强大网络安全产业、增强国家网络安全能力具有重要意义。

        请问:上面这段话主要介绍什么内容?

文心一言:

上面这段话主要介绍了《网络安全法》实施后,国家加强网络安全管理,落实《网络安全法》有关规定,对网络关键设备和网络安全专用产品实施政府采购、推动安全认证和安全检测结果互认等措施,以统一网络安全产品安全要求、提升产品整体安全防护能力,减轻网络安全企业负担、营造良好产业发展环境,发展强大网络安全产业、增强国家网络安全能力。

讯飞星火:

上面这段话主要介绍了中国在网络安全产品管理方面的发展历程,包括许可证制度、强制性认证、政府采购要求等。然后,重点介绍了2017年实施的《网络安全法》对于网络安全产品管理的规定,以及五部门联合发布的公告对于网络安全专用产品认证检测制度的重要举措。该公告旨在统一网络安全产品安全要求、减轻企业负担、促进产业发展,提高国家网络安全能力。

ChatGPT:

这段话主要介绍了对于网络安全产品认证检测制度的统一,以及停止原有制度的举措。其中还提到了相关法规和标准的落实,以及这些举措对于网络安全产业和国家网络安全能力的意义。

再次提问:

请更加详细的介绍文章的内容

回答:

这段话以一个历史的角度逐步引出了当前的网络安全产品认证检测制度的统一。它从1994年开始到现在,提到了原有计算机信息系统安全保护条例中的销售实行许可证制度,以及2008年扩大范围实施强制性认证管理。然而,这些制度有一定的交叉与重复,造成了诸多问题。于是在2017年,《网络安全法》明确规定网络关键设备和网络安全专用产品需要按照相关国家标准的强制性规定,经资格的机构安全认证合格或安全检测后,才能销售或提供使用。而今,五部门联合发布了一份《公告》,统一网络安全专用产品认证检测制度,停止之前的政策要求。这些部门还制定了强制性国家标准,说明了网络安全产品应满足何种技术要求,以及哪些机构有权责任去认证和检测产品。这些措施旨在统一网络安全产品的安全标准,提高产品的整体安全防护能力,减轻网络安全企业的负担,营造良好的产业发展环境,以期发展强大的网络安全产业,增强国家网络安全能力。

点评:

        根据上面的回答,个人觉得讯飞星火回答最好,,文心一言回答没有概括到第一段的内容,chatGPT第一次回答太过简单,第二次的回答就比较的准确。

06  文章要素提取

        给出一段文字,要求从中提取出相应的信息。

用例:(国家统计局数据)

        假设你是一名数据分析员,请根据下面的内容:

        分行业类别看,新闻信息服务营业收入3674亿元,比上年同期增长12.5%;内容创作生产6456亿元,增长5.8%;创意设计服务4499亿元,增长3.9%;文化传播渠道3746亿元,增长14.0%;文化投资运营126亿元,增长12.1%;文化娱乐休闲服务342亿元,增长48.5%;文化辅助生产和中介服务3519亿元,下降4.6%;文化装备生产1346亿元,下降7.9%;文化消费终端生产5108亿元,下降2.4%。

        根据上面内容,请用表格的方式进行整理,使得更加地直观。

文心一言:

讯飞星火:

ChatGPT

点评:

        这段话其实并不难,但是文心一言的表现的确让我失望。讯飞星火的表现还是可以。

07 总结

        本次测试的文章都只这几天新的文章,在测试中还发现一个文心一言很大的问题,就是最多智能输入1024个汉字,讯飞星火可以输入6300多字,因此,很多的文章文心一言测试不了,要是算得分的话,文心一言要扣分。

        从上面的测试上来看,除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平,所以说,10.24追上ChatGPT可能并不是空谈。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14289.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文心一言 vs GPT-4 —— 全面横向比较

文心一言 vs GPT-4 —— 全面横向比较 3月15日凌晨,OpenAI发布“迄今为止功能最强大的模型”——GPT-4。我第一时间为大家奉上了体验报告《OpenAI 发布GPT-4——全网抢先体验》。 时隔一日,3月16日下午百度发布大语言模型——文心一言。发布会上&#…

基于大模型GPT,如何提炼出优质的Prompt

基于大模型实现优质Prompt开发 1. 引言1.1 大规模预训练模型 2. Prompt开发2.1 Prompt基本定义:2.2 为什么优质Prompt才能生成优质的内容2.3 如何定义优质的Prompt 3. Prompt优化技巧3.1 迭代法3.1.1 创作评估3.1.2 基础创作3.1.3 多轮次交互 3.2 Trick法3.2.1 戴高…

《花雕学AI》WeTab+ChatGPT:让浏览器变成你的智能助手

引言: 浏览器是我们日常使用的最重要的工具之一,它可以帮助我们获取信息、娱乐、学习、工作等。但是,传统的浏览器往往不能满足我们的个性化需求,也不能给我们提供智能化的服务。那么,有没有一种浏览器可以让我们的体…

当ChatGPT遇见stable-diffusion,你不敢相信的创意艺术之旅!

前言 欢迎来到一场创意的旅程,这里将聚焦于 ChatGPT 和 stable-diffusion 这两个令人激动的技术。在这篇文章中,我们将会探索这两种技术如何结合使用,为艺术创作带来全新的可能性。我们将探讨如何利用 ChatGPT 生成富有想象力的创意&#xf…

曲阜师大精心保存首台103计算机

2023年3月26日,徐祖哲和计算机学会CCF记录计算机历史工作组吴树民、央视编导李争等一同赴曲阜师范大学访问,记录该校精心保留的全国唯一的第一个计算机型号——103电子管计算机,受到学校热情接待。26日下午徐祖哲为网络空间安全学院的同学们做…

HIFIVE音加加×筷子科技,内容创作如何再加“筷”一点

自媒体发展到今天,已经走向了一个便捷时代。无论是图片、视频还是文字创作都变得相对更简单。在AI的帮助下,视频剪辑实现了自动配乐、配音以及配素材,海报美图制作也能依靠AI一键实现。 对于本身就已经有相关基础的创作者来说,AI…

AIGC革命:拐点降临的内容产业,如何赢得时代先机?

最近,AI领域的新东西真是应接不暇。上周,我参加了上海AIGC大会。会议现场真是人山人海,Mixlab的小伙伴们在三楼做了个分会场。我们一边动手一边分享观点,并结识了不少有趣的朋友。受Shadow邀请,我也从产品经理的视角做…

再过几年,你可能就不用上班了 | 笔记侠AI峰会精编

内容来源:2023年6月10日,笔记侠举办的“AI新视野,增长新势能”新商业千人大会。注:未经讲者审阅。转载自笔记侠微信公众号(ID:Notesman) 笔记君说:6月10日,笔记侠在广州举…

大三生变身AI顾问入职Prada 抢饭碗的AI造出新饭碗

“ChatGPT让我有点焦虑,我长大了还能找到工作吗?”这是一名小学生透过视频表达的担忧,她有点懊恼,“GPT简直无所不能,会画画、编程、写论文、创作音乐......而我们还在学加减乘除。”这段视频让网友直呼,AI…

詹姆斯·卡梅隆自曝:新终结者电影剧本ChatGPT写 结局,AI自己定

现在打开豆瓣,1984年10月上映的那部「终结者」评分依然在8分以上。 而后,终结者系列的电影不断上新,直到2019年,还在有同款ip的电影上映。 当然,终结者系列只有前两部是由詹姆斯卡梅隆执导的。 现在,随着…

詹姆斯·卡梅隆自曝:新终结者电影剧本由ChatGPT写!

来源:新智元 现在打开豆瓣,1984年10月上映的那部「终结者」评分依然在8分以上。 而后,终结者系列的电影不断上新,直到2019年,还在有同款ip的电影上映。 当然,终结者系列只有前两部是由詹姆斯卡梅隆执导的。…

【周末闲谈】AI作图,你真的了解它吗?

个人主页:【😊个人主页】 系列专栏:【❤️周末闲谈】 系列目录 ✨第一周 二进制VS三进制 ✨第二周 文心一言,模仿还是超越? ✨第二周 畅想AR 文章目录 系列目录前言AI绘画🤖🤖🤖工作…

【Spring源码】Spring事务原理

目录 1、什么是事务 2、Spring事务基本概念 2.1、基础配置 2.1.1、Spring事务的基础配置 2.1.2、Spring事务的传播特性 2.1.3、Spring事务的隔离级别 2.2、基本原理 3、事务嵌套 3.1、PROPAGATION_REQUIRED 3.2、PROPAGATION_REQUIRES_NEW 3.3、PROPAGATION_SUPPORTS…

实操、软肋、拒绝焦虑… …关于ChatGPT的22个观点

(本文阅读时间:6分钟) ChatGPT,是“狼来了”的时代吗,传播人如何驾驭它? 面对疑惑与挑战,美通社在上海成功举办主题活动“ChatGPT赋能公关营销”。来自喜利得、Convertlab、媒体KOL与…

如何用Python玩转ChatGPT?看这篇就够了

ChatGPT 月活过亿,作为 OpenAI 开发的一种大型自然语言处理模型,ChatGPT 可以根据用户输入生成相应的文本回复,还会关联上下文,非常智能。作为一名 Python 爱好者,我们可以通过调用 OpenAI API 来实现与 ChatGPT 的交互…

使用python调用ChatGPT API 简单示例

如果你已经获得了OpenAI的API密钥,并且想要使用Python发起ChatGPT对话,你可以使用OpenAI的Python SDK来实现。下面是一个简单的示例代码: 首先,你需要确保已安装OpenAI的Python SDK。你可以使用pip来安装: pip insta…

超实用,ChatGPT投喂长篇大论的小技巧

文 / 高扬(微信公众号:量子论) ”量子论“公众号运营有一段时间了,主要分享的是ChatGPT方面的内容。我给大家展示下这个号的粉丝分布,你会发现一些规律: 他们主要集中在广东、上海、北京、浙江。 广东又集中…

【i阿极送书——第四期】《ChatGPT时代:ChatGPT全能应用一本通》

系列文章目录 作者:i阿极 作者简介:数据分析领域优质创作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒…

一路狂飙的 ChatGPT,背后算力的竞赛!

没有强大的算力支撑,ChatGPT 就没法无所不能。 还有人没听过、没用过 ChatGPT 吗?怕是没有! 现在,ChatGPT 几乎到了无所不能地步,写歌作诗、编代码、查资料、回答问题……你能想到的,它都能干!上…

ChatGPT - 学习和提高新技能的Prompt

文章目录 Prompt例子 Prompt “我想学习/提高[技能]。我是一个完全的初学者。创建一个30天的学习计划,可以帮助像我这样的初学者学习和提高这项技能。”例子 我想学习/提高Flink。我是一个完全的初学者。 创建一个30天的学习计划,可以帮助像我这样的初…