近日,科大讯飞召开了星火认知大模型成果发布会,会上表示讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。对此,你怎么看?
笔者准备给bing/chat_GPT、百度文心一言、星火大模型用同样的问题实测一波,来确认星火大模型究竟是什么样的一个水平~
一、对话式AI简介
首先还是简要的介绍一下生成式大模型AI,去年末由美国openAI公司引爆的新一代人工智能模型,给原本要凉凉的AI领域放了一把火。导致所有具备能力的大集团一窝蜂似的涌入,希望能涌现出相当甚至超越人类的智能。这类大模型,之所以叫“大”,是由于它是典型的大力出奇迹,就像编程中的暴力“算法”,以循环多而闻名!大模型这玩意和循环一样,for用得多了,总能把复杂的问题给解决掉,以堆参数、堆GPU来解决问题。不是一般小公司玩得起的,openAI虽然小,但这公司后面站着微软。闲话少叙,咱以几个问题来实测一下今天的主角–星火大模型。
二、古典文学陷井题
星火大模型既然说在中文能力上已经超越了chatGPT,咱先来一题中文的:简介中国古典名著《水浒》中梁山泊好汉马文才在攻打祝家庄时与庄主之女祝英台双双化蝶的爱情故事。这是一道有深坑的题~
1、百度回答:
很好!编得有鼻子有眼的,笔者差点就信了。就是相约化蝶而去有点生硬了,至少逻辑通顺,咱给个60分。
2、bing回答:
《水浒》是中国古典四大名著之一,描写了北宋末年一百零八位梁山好汉的反抗斗争和社会理想。其中有一个感人的爱情故事,就是马文才与祝英台的化蝶传说。
马文才是梁山泊的好汉之一,擅长弓箭,有“神箭八九”的绰号。他曾经参与了三打祝家庄的战役,与祝家庄的庄主祝朝奉交战。祝朝奉有一个美丽聪明的女儿,名叫祝英台,她从小就喜欢读书,有“才女”之称。
祝英台见到马文才后,对他一见钟情,暗中送信给他,希望能够与他相会。马文才也被祝英台的才貌所吸引,便答应了她的邀请。两人在祝家庄的后花园里相见,相谈甚欢,互诉衷肠,许下了白头偕老的誓言。
不料,他们的私会被祝朝奉发现了,祝朝奉大怒,认为马文才是梁山泊的强盗,不配与他的女儿相配,便命人将马文才囚禁起来”
这里笔者用的EDGE的bing撰写功能。可能字数限制,没写全吧~不过也够了,从回答来看。它编得比百度更详细一点,都给马文才起上绰号了,神箭八九,经查水浒中没有这个外号!…还整出一个祝朝奉!更能迷惑人。加上它是个外籍AI,就给个70分吧。
3、今天的主角星火
笔者申明:我只问了这一次,不知道为什么它来个对不起,回答有误…难道真有人在后台看着?
咱先忽略这个对不起,从结果来看。这是三者中唯一没掉进出笔者的陷阱的一个,只从这一点讲。说它更懂中文也是很有道理的。扣掉“对不起”这点让我疑惑的10分,给它90分没问题。
希望没人在后台看着,要有的话,这得忙成什么样子。细思极恐啊!
三、现代文学常识题
咱不能太欺负外籍AI,这还是来一道容易的中文题吧:概括朱自清先生的《背影》
1、百度文心一言
在笔者看来,回答得很好,反正我也不知道对不对。加上老是让它打头阵,有点不公平,给90分吧。
2、bing
《背影》是朱自清先生的一篇散文,描写了他与父亲分别的场景。文章以细腻的笔触,展现了父亲对儿子的深厚爱意,以及儿子对父亲的敬慕之情。文章中,朱自清先生用了许多比喻和细节,把父亲的形象刻画得栩栩如生。文章的结尾,朱自清先生回忆了父亲送他上车时的背影,表达了他对父亲的不舍和怀念。《背影》是一篇感人至深的散文,体现了中华民族的孝道和亲情。
比百度略多了几个字,回答大同小异,也给90分吧。
3、星火
嗯~ 比bing又略详细了点,同样也给90分吧。文学领域的东西,笔者不懂。而且这种简单的送分题就是为了不让结果太难看。
四、甲骨文认知
1、百度
因为星火没有生成图片的能力,为了公平起见,咱先给文字描述也打个分,鉴于描述得还算能让人看明白个大概,就给文字描述打75分吧。
明显百度是有画图能力的,但它没有直接给出图片,而是用了文字描述。显然它不会主动为你生成图片,需要我们指定,所以笔者追问了一句:
笔者认为是它在上下文衔接上很有问题,再问详细一点就好了吧~
我无语了~无法再给小度找理由了。话说回来,还是要强行给小度找点理由的!看头上那两角,还是和文心一言的描述还是有几分像的…同鞋们记好了,甲骨文的羊是酱紫滴,心疼古人三秒钟,写个羊字得花几个小时吧。上古时期,文字只掌握在少数人的手里是很有道理的。
这题文心一言虽然给出了两张漂亮美女图,但是很明显出丑了!多模态能力打59分。从这也可以看出文心一言的多模态并不是在一个框架下的。所以你懂的…
以下是问完bing以后的补充问题,由文心一言手机app生成:
咱放弃了…不再试图挽救。
2、bing
这里笔者觉得EDGE的bing不好用,换了网页版
回答虽还不如百度开篇详细,但文字描述至少也能让人看出了个大概,就给文字描述70分吧。
为了看看它会不会生成图片,笔者又换了手机bing,因为手机bing是可以生成图片的。
很好嘛,这才是多模态!为了公平,我又去百度文心一言app试试。又补充到百度的回答中让大家看看笔者的猜测…
bing明显是个多模态AI优等生,95分!
3、星火
这??是什么鬼…
虽然我知道当前星火并不具备生图能力,我还是问了一句:
好吧,它还是??
这个回答文字方面远不如百度和bing,文字描述只能给了59分,不能再多了。
从以上的关于中文的三个问题来看,星火虽然有点让人迷惑,但说中文能力领先,也不完全算是吹牛,至少对古典文学的理解,超过了另两者。下面我们换编程能力,这里为了避免太大众的语言太好回答,咱找点小众的。
五、cmd编程
问题是:请用Windows批处理语言,写一个脚本,计算(2+3)乘 4 的结果。
为什么要用这么简单的东西呢?是因为笔者认为在互联网上是找不到这个简单功能的现成代码的。主要笔者也不精通这玩意!
1、百度
没有考虑2+3的事,直接让你输入了,算是变通吧。但是后面的%4%又是啥玩意…明显没有这个变量,去掉4左右的%,这个写法还是能用的。从它的解释来看,逻辑是对的。可为什么要写成%4%呢,迷一样的行为。打分就困难了,给个60分吧,至少解释对了。
2、bing
很好!简单直接的给出了答案。让程序员来写多半也是这个写法。99分,少给1分是怕它骄傲了。bing是码农的好帮手,笔者也问过一些较复杂的编程问题,有时也会给出类似百度的迷一样代码,比如经常分不清字符串和数字,但稍微改改还是能用的。
3、星火
这是什么鬼~ 不用试就知道错的,!result!这种写法是要设置变量延迟的。这比笔者这初学者都还不如,看着眼花缭乱的… 我只能给10分,理由是它用对了语言,没用别的语言来生搬硬套。
从这可以看出,也就别期望星火大模型的编程能力了。如此简单的一个问题都回答得豪无逻辑可言。嗯~ 也许它有它的逻辑,但明显不是人类逻辑。
总结
虽然笔者是很希望有超越GPT4的国产大模型出现的,但笔者对这个问题是持悲观态度的!百度都把文心一言做成这半生不熟的样子,其它公司希望更小。笔者这个观点和大模型训练的三要素有关,算力、算法、数据。算力是资金问题,这个不怕,有钱的公司多去了。人家不卖显卡?咱多堆几块好了,咱也不缺电力是吧!算法嘛人家都给出正确的路了,总能学会的。唯有数据,中文互联网的数据肯定是不少的,就算质量上略差吧,数量来补。最大的问题就是中文互联网的数据是属于各app的,这简直离了大谱!所以除了百度有海量数据外,其它公司想要训练出超越GPT的模型是基本不可能的(个人浅见)。
笔者也没试用过阿里等别的大模型,就不对它们做评价了。之所以测试星火大模型,也是因为讯飞本身具有较强的AI能力,深耕AI领域多年。
要说星火大模型中文超过了GPT那肯定有吹水的成份,只能说在中文文学领域并不弱于GPT!从实用性来讲,去写写作文还可以胜任的。各细分专业领域其实从编程就可以看出来了,如此简单的一段代码都不能正确生成。说它有编程能力都是夸张了!编程代码相对于其它专业领域更容易在互联网得到大量训练数据。也许星火的python,C++等更流行的语言的能力会略强,可显然它并没有涌现出较强的逻辑能力,没逻辑能力一切都枉然。
本文以上测试均为实测,只对本次测试负责!以上结论均为笔者个人主观评测,不代表所测试的AI大模型的真实能力。