文心一言与GPT-4比对测试!

Waitlist了三个星期,今天下午终于拿到了百度文心一言的体验资格,于是立刻展开测试。

a2c07a2d85a61264715f60d51107da96.png

根据文心一言网页端信息显示,目前最新发版是4月1号的版本,版本号是v1.0.3,应该是从上个月16号发布会以后又做了两版迭代。根据文心一言自己的回答,可以看到文心一言是基于百度飞桨和文心大模型发布的大语言模型。

88af98bcf90a4d1aa670fa2fdf5e4ad2.png

话不多说,笔者下午对文心一言做了50来次测试,就其中的10来个问题与GPT-4的回答做了对比测试。这里贴一些截图展示给大家参考。

中文作诗

以“春末夏初”为题,作一首藏头诗。

baba17d9c3ec72573a8d8dee650daac4.png

5471ea69164fd040c2d42b8a1fff4b3c.png

从诗歌的角度看,文心要明显写得更差一些。

中国历史文化

为了证实文心一言是否真的在中文上表现要好于GPT,笔者在这方面多做了一些测试。

072ba12d0e55d461f7918daecf09e030.png

deec24dcf4b0bca6592f9f99c44099c1.png

对于诸葛亮北伐为什么没能成功这个问题的回答,虽然GPT-4表现不算差,回答的也很全面,但就回答深度和质量上来讲,文心一言的表现要更胜一筹。但稍微问点冷门或者专业一点的历史问题时,文心一言和GPT-4都会犯错误。

717fbc4da67cf53537a1e9c40607ad9f.png

d7ec9235323458f3a9e43e219fc5dab0.png

对于《东晋门阀政治》这本书的介绍,GPT-4和文心一言都犯了事实性错误,GPT-4说作者是范文澜先生,并且还给错了先生的生卒年份;而文心更没谱,给了一位文学作家的名字。而对于一些名著和常识性的文化问题的回答,二者都能给出不失偏颇的回答。

eb771ed5c65a46b325690ee0cfb40ffe.png

c752dff2b64930bd9fa636623e235d1b.png

代码能力

笔者也重点关注了文心一言在代码上的表现。代码可以重点体现一个LLM的推理能力,所以笔者也在代码上做了不少测试。整体上来看,文心一言的代码能力相较于上个月发版的时候要提升了不少,因为笔者并没有实际测试运行二者生成的代码,所以暂时还不能对二者做更深入的评价。

先用JS简单写个冒泡排序:

7f2a8abb90d894c1555a21f5caa29d4a.png

96e334a99a9571390e5dd0d6dec0b689.png

二者代码基本一致,差异在于GPT-4给了测试用例,文心仅做了简单解释就结束回答。再看看在深度学习方面的表现:

7af3e0d7d6c52d973de7f95f951294ad.png

f6b6e62ce110c9d3f792199fe1bf87f1.png

截图没截全,但笔者对比了下,二者代码结构上差异不大,但GPT-4对于代码的解释更加全面。

最后,笔者又让二者分别角色扮演一下一个拥有四张3090显卡的服务器,根据指令进行输出,在这一项上,文心一言表现远不如GPT-4。

6eb759e2449ff9aa566fd95aecfb95ab.png

a139a14b258ffe9cdcaf2701913b7d6c.png

内容查询

在内容查询方面,笔者让二者分别查询周杰伦的《青花瓷》歌词,文心一言和GPT-4均能给出正确的歌词,但GPT-3.5完全在做生成,并未起到查询功能。

2841f928e44676ca8abb49d0a2a387c8.png

多模态

虽然GPT-4有着难以置信的多模态图像输入和生成能力,但暂时还无法体验到。好在文心一言直接给出了图像生成和AI作图功能,所以最后我们来看一下文心的绘图水平。

ca20f1877d1a92d3ecbe2a94331a604b.png

b762137180958adde9edc017e002795f.png

0ec4662815874e4a552d571159dc8b5d.png

总体测试下来看,文心一言的表现是超乎笔者预期的。虽然距离GPT-4在推理能力上还有一定差距,但百度敢于在国产AI上率先发布和对标ChatGPT,属实难能可贵。从这一点上来看,笔者希望国产AI能够迎头赶上,早日做出影响全球的AI产品。


另外,为了聚集更多的人参与到AI生产力工具上来,笔者前几天特意组建了一个名为【ChatGPT实验室】的知识星球,目前已有140+读者加入,星球的主要定位包括:

1. 如何基于ChatGPT提高工作和学习效率。

2. 跟踪NLP、LLM、AIGC和AGI的前沿动态和最新进展。

3. 分享ChatGPT的最新应用和玩法。

bed6f4eac523c7e7ec113c178870d719.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69254.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2013年各大IT公司研发类笔试题

不可以看见的部分请见http://www.iteblog.com/archives/262 一、百度(武汉地区) 第一部分: 1、描述数据库的简单操作。 2、描述TCP\IP四层模型,并简述之。 3、描述MVC的内容。 第二部分: 1、给出a-z0-9,在其中选择三个字符组…

牛客网2018吉比特校招技术开发类试题分析

最近做了两套笔试题,复习一下错题,有很多地方需要查缺补漏,再谈一下感受总结一下。 2018届吉比特校招技术类笔试B卷 吉比特2018届提前批校园招聘-开发类试卷 一、基础题 1.已知 a 6789x 6789、b 6789x 6790、c 6789x 6791&#xff0c…

大厂可能会问的那些思维题和技术点

精选大厂可能会问的那些思维题和技术点 一、题目一1.1、思路:1.2、代码实现 二、题目二三、const 的含义及实现机制, ,比如 : const int i, 是怎么做到 i 只可读的? ?四、到商店里买 200 的商品返还 100 优惠券( ( 可以在本商店代替现金) ) 。请问实际上折扣是多少…

字节跳动数据分析岗笔试分享笔试形式和内容

字节跳动数据分析岗笔试 笔试形式和内容 由于关于字节跳动数据分析的笔试分享经验较少,参加了字节的笔试后,想做一个记录,就写下了这篇文章。不知道自己笔试过了没有,希望能收到面试邀请吧,同时也希望可以帮助到大家…

计算机技术类社团纳新笔试题示例

计算机协会笔试题 学号:_____________ 姓名: _____________ 说明:如若答题空间不够,可自行另附纸张 printf(“Hello Cast!”): 亲爱的学弟学妹们,欢迎参与浙江理工大学计算机协会的笔试选拔部分。我们作为可爱的学长学姐,十…

10道字节跳动C++/Java笔试真题你能做对几道?3道就赢了80%的竞争者(含答案)

整理了几道字节跳动真题,来试试自己水平有多厉害吧,每题还有答案和详细解答哦。 1、变量a是一个64位有符号的整数,初始值用16进制表示为:0x7FFFFFFFFFFFFFFF。变量b是一个64位有符号的整数,初始值用16进制表示为&#…

chatgpt赋能python:Python:为什么没有桌面图标?

Python:为什么没有桌面图标? 作为一种功能强大的编程语言,Python越来越受到开发人员的欢迎。不过,相对于其他流行的应用程序,开发人员可能会发现一个让他们感到疑惑的问题:为什么Python没有桌面图标&#…

阿里云科学家入选计算机顶会HPCA名人堂,他是什么来头?

记者 | 夕颜 出品 | CSDN(ID:CSDNnews) 近日,由 IEEE 主办的高性能计算架构国际研讨会 HPCA 公布了最新一期名人堂(Hall of Fame)名单,来自阿里云基础设施服务器研发团队的科学家蒋晓维成为名人堂新晋成员。…

文本框字数限制

<div class"layui-form-item"><label class"layui-form-label"><span style"color: red">*</span>院校简介&#xff1a;</label><div class"layui-input-block"><textarea class"layui-t…

水瓶座性格分析

水瓶座性格分析 水瓶座性格分析&#xff08;新浪星座&#xff09; 水瓶座2月13日

水瓶座名人既水瓶座概论

2019独角兽企业重金招聘Python工程师标准>>> -- 水瓶座名人既水瓶座概论冷淡、古怪的理想主义和试验主义--水瓶座&#xff08;ZT&#xff09;水瓶座的名人世界著名的水瓶座&#xff1a;林肯、杰弗逊、里根、福兰克林罗斯福、叶利钦、爱迪生、达尔文、安培、门捷列夫…

数据库之十二星座 水瓶座

本来今天是想休息一下&#xff0c;看看我喜欢看的“奇葩说”&#xff0c; 和看那些肥皂剧相比&#xff0c;唇枪舌战&#xff0c;脑洞大开才是我 favorite. 本期说的是死亡&#xff0c;听完双方慷慨激昂的PK 后&#xff0c;输赢我到不关心&#xff0c;而生命有限&#xff0c;做…

关于《系统集成项目管理工程师》——建筑与建筑群综合布线工程中常见的术语和符号精华汇总

更多精彩请关注博主 博主主页请点击此处https://blog.csdn.net/qq_38639612?typeblog 关于《系统集成项目管理工程师》 建筑与建筑群综合布线工程中常见的术语和符号汇总 一、常见术语 1、建筑与建筑群综合布线系统 generic cabling system for building and campu…

How to Make Your Writing Stand Out From AI 如何让你的写作从人工智能中脱颖而出

Thanks to amazing tools such as ChatGPT, there is now a flood of well-written, functional, and useful writing to compete with if you’re a human writer. This means your writing needs to differentiate itself from this new breed of content. Here’s how to do…

ChatGPT和AI Art带来的变革,主导2023年的3个重要机器学习思想,理解这些概念可以让你在未来主宰人工智能

机器学习最近非常受欢迎。时刻都在发生如此多的事情,可能很难弄清楚您应该学习哪些想法。当你记得许多流行技术(ChatGPT、AI Art 等)都内置了多种技术和想法时,这会变得更加复杂。对于初学者来说,在没有先验知识的情况下以任何有意义的深度理解这些技术是不可能的。 在阅…

人工智能论文写作

AI领域论文写作 导论0科学研究的基本流程2寻找和总结文献阅读摘要阅读和记笔记框架 3 寻找研究痛点以及研究方向寻找研究痛点寻找研究方向方向1方向2&#xff1a;当前的热点方向方向3:方向4: 4论文写作和绘图工具 一、AI论文中relate work&#xff08;相关工作&#xff09;的写…

Input输入字数的限定

在一些应用程序或者网站里&#xff0c;你如果想要 修改名字&#xff0c;你就会发现&#xff0c;修改昵称是有限制的&#xff0c; 比如修改的昵称最少不能小于6个字符&#xff0c;最多 不能超过10个字符&#xff0c;如果少了或者多了就会提 示你说少了多了。这些都是通过限定输入…

OWASP Top 10大漏洞简要介绍

0x00 前言 OWASP&#xff08;开放式Web应用程序安全项目&#xff09;的工具、文档、论坛和全球各地分会都是开放的&#xff0c;对所有致力于改进应用程序安全的人士开放&#xff0c;其最具权威的就是“10项最严重的Web 应用程序安全风险列表” &#xff0c;总结了Web应用程序最…

[ 攻防演练演示篇 ] 利用谷歌 0day 漏洞上线靶机

&#x1f36c; 博主介绍 &#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 _PowerShell &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 &#x1f389;点赞➕评论➕收藏 养成习…

OWASP top 10漏洞详解

一、写在前边 临近毕业&#xff0c;最近在找实习单位&#xff0c;看到好多招聘要求熟悉owasp top 10 安全漏洞&#xff0c;于是在经过一番查资料&#xff0c;终于有了大致的了解&#xff0c;为了加深印象&#xff0c;特意通过博客记录一下&#xff0c;也希望为有同样需求的同学…