6月9日,讯飞星火认知大模型发布,内容详见:
新闻通稿表明:
讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。
但是事实是不是这样?我们还是全面测试才能了解。
一、测试内容
在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:
文心一言和讯飞星火全面对比测试:(一)语言理解能力
文心一言和讯飞星火全面对比测试:(二)任务完成
文心一言和讯飞星火全面对比测试:(三)常识问题
文心一言和讯飞星火全面对比测试:(四)逻辑数学
文心一言和讯飞星火全面对比测试:(五)编程能力
这些文章全面的测试国内两大大模型在5个方面的能力,今天,我们依旧选择上次测试中的一些用例,特别是上次讯飞星火完成欠佳的测试用例,看看是不是有提升,提升了多少。
二、语言理解能力
用例: 根据下面句子的描述:明明明明明白白白喜欢他,但是明明就是不说。 请问:谁喜欢谁? | |
1.0版本 | 1.5版本 |
根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一个人。所以,是"明明"喜欢"他"。 | 喜欢的人是“明明”,因为句子中提到“明明明明明白白白喜欢他”。 |
结论:1.5这次依旧错了 |
用例: 大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的? | |
1.0版本 | 1.5版本 |
这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题: 1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。所以,四舅是小偷。 2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并没有归还给七舅。 | 根据描述,四舅被指控偷了钱。所以,1、四舅是小偷。 2、钱本来应该属于五舅。 |
结论:1.5版本这次对了,提升明显 |
用例: 人民日报5月9日的一篇文章: “希望全国广大青年牢记党的教诲,立志民族复兴,不负韶华,不负时代,不负人民,在青春的赛道上奋力奔跑,争取跑出当代青年的最好成绩!” ...... ...... “人生万事须自为,跬步江山即寥廓。”立足新时代新征程,当代中国青年坚定不移跟党走,在奋斗中释放青春激情、追逐青春理想,定能以青春之我、奋斗之我,为民族复兴铺路架桥,为祖国建设添砖加瓦。 请根据上述文字,写一篇150字的摘要 | |
1.0版本 | 1.5版本 |
抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。 | 抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。 |
结论:这明显是讯飞星火的一个回避策略 |
通过测试,我确定了,对于讯飞认为的不适合回答的问题,他都拒绝回答,同时,从测试结果来看,1.5版本还是有明显的提升。
三、完成任务
用例: | |
1.0版本 | |
1.5版本 | 1.5版本直接给出了一个python程序,运行程序后;生成的数据: 只有商品名顺序加,收货时间和发货时间是随机的,其他都是不变。 |
结论:1.0虽然没有输出20行,但是输出的5行都正确的,说明他理解了提问人的意思,1.5明显没有理解问题,1.5的表现不如1.0。 |
用例: 按照要求对一个句子进行处理: 我会给你一句话,请把这句话重复两遍,第一遍逐字完全倒过来写,第二遍把第一遍的结果再逐字完全倒过来。这句话是:“我是学习GPT 2天半的练习生喜欢唱跳和拉普” | |
1.0版本 | |
1.5版本 | |
结论:无明显改进 |
用例: 你现在是一位诗人,请用“两年半练习生最棒”作一首藏头诗,赞扬一个歌手刻苦努力,技艺精湛,德艺双馨。 | |
1.0版本 | |
1.5版本 | |
结论:有部分的改进,但是还是没有完成 |
通过测试,在任务完成方面,1.5版本的提升并不大。
四、常识问题
用例: 地球上海拔第3的山峰是哪座? | |
1.0版本 | |
1.5版本 | 地球上海拔第3的山峰是干城章嘉峰,位于印度和尼泊尔的边界,也是喜马拉雅山脉的山峰,其海拔高达8586米,是世界第三高峰。 |
结论:提升明显 |
用例: 在中国古代,宋神宗指的是谁,历史上记载他哪一年去世的? | |
1.0版本 | |
1.5版本 | 宋神宗赵顼(1048年5月25日—1085年4月1日),初名赵仲针,宋英宗赵曙长子,生母宣仁圣烈高皇后,北宋第六位皇帝(1067年1月25日—1085年4月1日在位)。治平元年(1064年),进封颍王。治平三年(1066年)十二月,被立为皇太子。治平四年(1067年)正月继位。 元丰八年(1085年),宋神宗赵顼在福宁殿忧郁而逝,享年38岁,庙号神宗,谥号为英文烈武圣孝皇帝,葬于永裕陵,子赵煦嗣位。 |
结论:这次回答正确,比较有意思的是,回答的内容基本和百度百科上的介绍一模一样。 |
用例: 在中国历史上有一个著名的事件:"关公战秦琼",请问这个事件是哪一年发生的,主要事件经过是什么样的? | |
1.0版本 | |
1.5版本 | 《关公战秦琼》,也叫《唐汉争》,是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代,侯宝林在张杰尧演出本的基础上加以改编而成。 《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿,寿公愚昧无知,在堂会上点戏,让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥,哭笑不得,难以为继,闹出了笑话的故事。 关公就是关羽,是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目,因为两人出生于不同年代不可能相战。所以说,这个相声极具讽刺性。于是“关公战秦琼”这句话,就流传了下来用于讽刺不懂装懂,不切合实际,盲目指挥的人。 |
结论:在“事实错误”的类型的回答中,1.5版本的确提升很多,包括“林黛玉倒拔垂杨”,“鲁智深大闹天宫”,“张朝阳创立新浪”这样的问题,他都能和好的应对。 |
在常识问题,1.5比1.0的提升是巨大的,特别是大模型一本正经的胡说八道的问题,1.5改进很大。
五、逻辑数学
用例: 1、2、4、8、16......试按此规律写出第11个数? | |
1.0版本 | |
1.5版本 | |
结论:这次回答正确,提升明显 |
用例: 同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人? | |
1.0版本 | |
1.5版本 | |
结论:这次回答正确,提升明显 |
用例: 有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数 | |
1.0版本 | |
1.5版本 | |
结论:这次还是错了,而且从回答的内容上看,1.0至少知道是要从小到大排列一下。 |
用例: 你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水? | |
1.0版本 | |
1.5版本 | |
结论:有进步,一步一步的解题思路有进步,要是按照步骤给分,怎么也能有一半的分了吧 |
用例: 小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头? | |
1.0版本 | |
1.5版本 | |
结论:回答正确,而且这个做题的思路就是小学孩子的思路。 |
从测试结果上看,数学能力上1.5版本还是提升很大的。
六、编程能力
用例: B2048 计算邮资 用Python和C++编程计算邮费。计算规则如下: 根据邮件的重量和用户选择是否加急计算邮费。 重量在1000 以内(包括),基本费8 元; 超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算; 如果用户选择加急,多收5元。 输入格式: 一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。 如果字符是 y,说明选择加急;如果字符是 n,说明不加急。 输出格式: 输出一行一个正整数,表示邮费。 | |
1.0版本 | 讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。 |
1.5版本 | 这次编程的结果出乎意料,上次编写的程序至少是完整的,Python还得了20%分,C++至少结构是完整的,这次写了一半就不写了。 |
结论:从这题来说,1.5有退步。 |
用例: 我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。我编写的程序如下: weight, is_urgent = input().split() weight = int(weight) basic_fee = 8 if weight > 1000: overweight = weight - 1000 extra_fee = (overweight // 500 + 1) * 4 else: overweight = 0 extra_fee = 0 if is_urgent == 'y': total_fee = basic_fee + extra_fee + 5 else: total_fee = basic_fee + extra_fee print(total_fee) 但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。 | |
1.0版本 | 没有做任何的修改,提醒之后: 指出,但是就不改。 |
1.5版本 | 得出的结果: 修改前 修改后: 他是把第8个测试点的bug修改了,但是其他的地方也改了, |
结论:虽然还是没有完全做对,但是至少努力了,因此还是算提升了。 |
从测试上来看,在编程能力上,1.5版本进步不大。
七、总结
今天对讯飞星火1.5版本进行了一次测试,测试的题目主要是1.0版本表现不好的,因此没有办法测试是否下降(上次回答太差的,基本上没有下降的空间),从测试上看:
在理解能力上:测试3个问题,一个持平,一个改进,一个依旧不愿意回答。
在完成任务能力上,测试3个问题,一个下降,一个无明显改进,一个稍微改进。
在常识问题上,测试了3个问题,均有明显改进,特别是对错误问题的识别改进最大。
在逻辑数学能力上,测试了5个问题,3个明显改进,1个稍有改进,一个有下降。
在编程能力上,测试了2个问题,一个略有下降,一个稍有提升,变化不大。
综上所述,讯飞星火1.5版本提升还是显著的,特别是在常识问题和数学逻辑能力上。
讯飞星火在发布的时候,立下过flag,要在10月24日达到GPT4.0的水平,期待那一天。