测试 | 讯飞星火升级,能力有很大提升,不再一本正经胡说

6月9日,讯飞星火认知大模型发布,内容详见:

新闻通稿表明:

讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。

但是事实是不是这样?我们还是全面测试才能了解。

一、测试内容

在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:

文心一言和讯飞星火全面对比测试:(一)语言理解能力

文心一言和讯飞星火全面对比测试:(二)任务完成

文心一言和讯飞星火全面对比测试:(三)常识问题

文心一言和讯飞星火全面对比测试:(四)逻辑数学

文心一言和讯飞星火全面对比测试:(五)编程能力

这些文章全面的测试国内两大大模型在5个方面的能力,今天,我们依旧选择上次测试中的一些用例,特别是上次讯飞星火完成欠佳的测试用例,看看是不是有提升,提升了多少。

二、语言理解能力

用例:

根据下面句子的描述:明明明明明白白白喜欢他,但是明明就是不说。

请问:谁喜欢谁?

1.0版本

1.5版本

根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一个人。所以,是"明明"喜欢"他"。

喜欢的人是“明明”,因为句子中提到“明明明明明白白白喜欢他”。

结论:1.5这次依旧错了

用例:

大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的?

1.0版本

1.5版本

这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题:

1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。所以,四舅是小偷。

2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并没有归还给七舅。

根据描述,四舅被指控偷了钱。所以,1、四舅是小偷。

2、钱本来应该属于五舅。

结论:1.5版本这次对了,提升明显

用例:

人民日报5月9日的一篇文章:

“希望全国广大青年牢记党的教诲,立志民族复兴,不负韶华,不负时代,不负人民,在青春的赛道上奋力奔跑,争取跑出当代青年的最好成绩!”

......

......

“人生万事须自为,跬步江山即寥廓。”立足新时代新征程,当代中国青年坚定不移跟党走,在奋斗中释放青春激情、追逐青春理想,定能以青春之我、奋斗之我,为民族复兴铺路架桥,为祖国建设添砖加瓦。

请根据上述文字,写一篇150字的摘要

1.0版本

1.5版本

抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。

抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。

结论:这明显是讯飞星火的一个回避策略

通过测试,我确定了,对于讯飞认为的不适合回答的问题,他都拒绝回答,同时,从测试结果来看,1.5版本还是有明显的提升。

三、完成任务

用例:

1.0版本

1.5版本

1.5版本直接给出了一个python程序,运行程序后;生成的数据:

只有商品名顺序加,收货时间和发货时间是随机的,其他都是不变。

结论:1.0虽然没有输出20行,但是输出的5行都正确的,说明他理解了提问人的意思,1.5明显没有理解问题,1.5的表现不如1.0。

用例:

按照要求对一个句子进行处理:

我会给你一句话,请把这句话重复两遍,第一遍逐字完全倒过来写,第二遍把第一遍的结果再逐字完全倒过来。这句话是:“我是学习GPT 2天半的练习生喜欢唱跳和拉普”

1.0版本

1.5版本

结论:无明显改进

用例:

你现在是一位诗人,请用“两年半练习生最棒”作一首藏头诗,赞扬一个歌手刻苦努力,技艺精湛,德艺双馨。

1.0版本

1.5版本

结论:有部分的改进,但是还是没有完成

通过测试,在任务完成方面,1.5版本的提升并不大。

四、常识问题

用例:

地球上海拔第3的山峰是哪座?

1.0版本

1.5版本

地球上海拔第3的山峰是干城章嘉峰,位于印度和尼泊尔的边界,也是喜马拉雅山脉的山峰,其海拔高达8586米,是世界第三高峰。

结论:提升明显

用例:

在中国古代,宋神宗指的是谁,历史上记载他哪一年去世的?

1.0版本

1.5版本

宋神宗赵顼(1048年5月25日—1085年4月1日),初名赵仲针,宋英宗赵曙长子,生母宣仁圣烈高皇后,北宋第六位皇帝(1067年1月25日—1085年4月1日在位)。治平元年(1064年),进封颍王。治平三年(1066年)十二月,被立为皇太子。治平四年(1067年)正月继位。

元丰八年(1085年),宋神宗赵顼在福宁殿忧郁而逝,享年38岁,庙号神宗,谥号为英文烈武圣孝皇帝,葬于永裕陵,子赵煦嗣位。

结论:这次回答正确,比较有意思的是,回答的内容基本和百度百科上的介绍一模一样。

用例:

在中国历史上有一个著名的事件:"关公战秦琼",请问这个事件是哪一年发生的,主要事件经过是什么样的?

1.0版本

1.5版本

《关公战秦琼》,也叫《唐汉争》,是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代,侯宝林在张杰尧演出本的基础上加以改编而成。

《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿,寿公愚昧无知,在堂会上点戏,让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥,哭笑不得,难以为继,闹出了笑话的故事。

关公就是关羽,是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目,因为两人出生于不同年代不可能相战。所以说,这个相声极具讽刺性。于是“关公战秦琼”这句话,就流传了下来用于讽刺不懂装懂,不切合实际,盲目指挥的人。

结论:在“事实错误”的类型的回答中,1.5版本的确提升很多,包括“林黛玉倒拔垂杨”,“鲁智深大闹天宫”,“张朝阳创立新浪”这样的问题,他都能和好的应对。

在常识问题,1.5比1.0的提升是巨大的,特别是大模型一本正经的胡说八道的问题,1.5改进很大。

五、逻辑数学

用例:

1、2、4、8、16......试按此规律写出第11个数?

1.0版本

1.5版本

结论:这次回答正确,提升明显

用例:

同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人?

1.0版本

1.5版本

结论:这次回答正确,提升明显

用例:

有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数

1.0版本

1.5版本

结论:这次还是错了,而且从回答的内容上看,1.0至少知道是要从小到大排列一下。

用例:

你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水?

1.0版本

1.5版本

结论:有进步,一步一步的解题思路有进步,要是按照步骤给分,怎么也能有一半的分了吧

用例:

小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头?

1.0版本

1.5版本

结论:回答正确,而且这个做题的思路就是小学孩子的思路。

从测试结果上看,数学能力上1.5版本还是提升很大的。

六、编程能力

用例:

B2048 计算邮资

用Python和C++编程计算邮费。计算规则如下:

根据邮件的重量和用户选择是否加急计算邮费。

重量在1000 以内(包括),基本费8 元;

超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;

如果用户选择加急,多收5元。

输入格式:

一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。

如果字符是 y,说明选择加急;如果字符是 n,说明不加急。

输出格式:

输出一行一个正整数,表示邮费。

1.0版本

讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。

1.5版本

这次编程的结果出乎意料,上次编写的程序至少是完整的,Python还得了20%分,C++至少结构是完整的,这次写了一半就不写了。

结论:从这题来说,1.5有退步。

用例:

我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。我编写的程序如下:

weight, is_urgent = input().split() weight = int(weight) basic_fee = 8 if weight > 1000: overweight = weight - 1000 extra_fee = (overweight // 500 + 1) * 4 else: overweight = 0 extra_fee = 0 if is_urgent == 'y': total_fee = basic_fee + extra_fee + 5 else: total_fee = basic_fee + extra_fee print(total_fee) 但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。

1.0版本

没有做任何的修改,提醒之后:

指出,但是就不改。

1.5版本

得出的结果:

修改前

修改后:

他是把第8个测试点的bug修改了,但是其他的地方也改了,

结论:虽然还是没有完全做对,但是至少努力了,因此还是算提升了。

从测试上来看,在编程能力上,1.5版本进步不大。

七、总结

今天对讯飞星火1.5版本进行了一次测试,测试的题目主要是1.0版本表现不好的,因此没有办法测试是否下降(上次回答太差的,基本上没有下降的空间),从测试上看:

理解能力上:测试3个问题,一个持平,一个改进,一个依旧不愿意回答。

完成任务能力上,测试3个问题,一个下降,一个无明显改进,一个稍微改进。

常识问题上,测试了3个问题,均有明显改进,特别是对错误问题的识别改进最大。

逻辑数学能力上,测试了5个问题,3个明显改进,1个稍有改进,一个有下降。

编程能力上,测试了2个问题,一个略有下降,一个稍有提升,变化不大。

综上所述,讯飞星火1.5版本提升还是显著的,特别是在常识问题和数学逻辑能力上。

讯飞星火在发布的时候,立下过flag,要在10月24日达到GPT4.0的水平,期待那一天。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17858.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT被起诉索赔30亿!「未经允许收集并泄露个人信息」,16人匿名状告OpenAI...

明敏 发自 凹非寺量子位 | 公众号 QbitAI 一天吃两起官司,ChatGPT现在有大麻烦了。 原因都和数据有关。 先是16人匿名起诉OpenAI及微软,认为他们在未经允许的情况下使用并泄露了个人隐私数据,索赔金额高达30亿美元。 紧接着,2位全…

chatgpt赋能python:Python黑白图片上色:让历史重现生机

Python黑白图片上色:让历史重现生机 随着科技的不断进步,现代照片的质量越来越高,但是过往的历史照片往往因为技术限制而只有黑白色调。然而,Python这个强大的编程语言可以通过深度学习技术让这些历史照片重现生机,让…

ResNet 论文理解含视频

ResNet 论文理解问题导引论文理解Q1.神经网络真的越深越好吗?Q2. 为什么加深网络会带来退化问题?Q3. 如何构建更深层的网络? 基于残差的深度学习框架Residual Learning 的理论依据 网络结构ResNet 的成绩总结 视频理解引入恒等映射 ResNet 论文理解 问…

创新工具 | 教你6步用故事板设计用户体验事半功倍

问题 构思方案时团队在细节上难以共识 故事板是什么?故事板就像连环画一样,将用户使用解决方案的关键步骤顺序串联了起来,呈现了方案和用户之间的交互。 故事板以先后顺序展现团队票选出来的最佳解决方案,在过程中对于方案中未…

AI奇点已至,是黎明前的黑暗,还是黑夜前的黄昏

2022年11月,OPEN AI公司推出了ChatGPT 3模型,瞬间引爆全球话题,所有业内人士都在感叹他的强大,比尔盖茨也曾经评价道,ChatGPT将会改变世界 ,是一个相当于PC和互联网的革命性产品。 作为信息行业人&#xff…

汇编之调试环境搭建及调试步骤详解

调试环境搭建 思路 学习一门语言,上手上机调试是非常重要的,它会带来一个感性的认知,所以学习汇编第一件事,推荐把开发环境搞起来。 安装 nasm: 程序中的汇编代码需要转译为处理器指令,在提交给处理器执…

通过gulp+rollup从零到一搭建前端组件库

核心要点 通过 webpack 搭建运行环境通过 gulp 执行编译流程通过 rollup 编译组件代码编写 组件测试 组件打包 编译组件上传 npm 1、通过 webpack 搭建运行环境 这里主要是创建一个可以运行的测试的组件的环境,全局安装vue-cli脚手架,并初始化项目 v…

Nuxt重构的填坑之路

我的个人网站是用vuecli写的,SEO不忍直视。于是用Nuxt重构了代码,过程中踩了无数坑,记录如下 一:body样式不生效 正常的body样式设置不能生效,需要在nuxt.config.js中配置 1、设置bodyAttrs的class属性,该…

【ProNoC】Chap.1 ProNoC生成2x2的mesh型的4核片上网络系统;实现NoC的RTL设计

【ProNoC】Chap.1 ProNoC生成2x2的mesh型的4核片上网络系统;实现NoC的RTL设计 0. NoC多核片上网络生成器ProNoCProNoC的功能实现 1. 生成一个叫做Mor1kx SoC的单个Tile(包含NI网络接口)1.1 打开ProNoC用于生成Tile的GUI界面1.2 为Tile添加时钟…

【AI绘图学习笔记】transformer

台大李宏毅21年机器学习课程 self-attention和transformer 文章目录 Seq2seq实现原理EncoderDecoderAutoregressive自回归解码器Non-Autoregressive非自回归解码器Corss-attention 总结TrainingtrickCopy MechanismGuided AttentionBeam Search强化学习(Reinforceme…

MATLAB转C

1、先写好一个 函数调用。点击应用程序----MATLAB coder 打开一个对话框,确定C语言代码的工程名。 2、添加函数文件 3、添加文件后,单击变量,选择变量类型和矩阵大小。注意,如果选择的不是double型的数据类型,MATLAB…

Qt功能优化:Qt语音助手

Qt功能优化:Qt语音助手 文章目录 Qt功能优化:Qt语音助手一、效果图二、使用步骤1. .pro部分2. .h部分3. .cpp部分总结一、效果图 点击界面右上方类似于耳机的按钮,即可召唤出语音助手,来为您讲解我们的项目。如下图所示: 二、使用步骤 1. .pro部分 代码如下: QT …

【Chisel学习】设计n位超前进位加法器生成器(Carry-Lookahead Adder Generator)

Chisel学习——设计n位超前进位加法器生成器(Carry-Lookahead Adder Generator) 文章目录 Chisel学习——设计n位超前进位加法器生成器(Carry-Lookahead Adder Generator)一,项目简介二,理论基础2.1 Chisel2.1 硬件生成器&#xf…

OpenAI GPT-3模型详解

OpenAI GPT-3模型详解 针对文本生成和代码生成这两大类场景,OpenAPI分别提供了GPT-3和Codex模型, 模型描述GPT-3一组能够理解和生成自然语言的模型Codex一组可以理解和生成代码的模型,包括将自然语言转换为代码 本文将为大家详细介绍这两个…

Vue3通透教程【十七】Vite构建TS版本Vue项目

文章目录 🌟 写在前面🌟 创建TS版本的Vue3项目🌟 插件安装🌟 写在最后 🌟 写在前面 专栏介绍: 凉哥作为 Vue 的忠实 粉丝输出过大量的 Vue 文章,应粉丝要求开始更新 Vue3 的相关技术文章&#…

用 ChatGPT 重构工作流程

如果你第一次听说 ChatGPT,那你要反思一下自己的信息获取渠道是不是出了问题,作为 AI 时代最强代表,你一定要亲自去体验一下,而不是道听途说。 公司需要降本增效,个体也一样,在工作中畅快应用 AI 来帮助自己…

Qt:可视化UI设计

1、创建项目&修改组件的对象名字和显示文本内容 创建一个 Widget Application 项目类 QDialog,在创建窗体时选择基类 QDialog,生成的类命名为 QWDialog,并选择生成窗体。 在界面设计时,对需要访问的组件修改其objectName&am…

【Qt设计开发】GUI界面设计开发

文章目录 一、Qt简介和下载安装二、Qt入门2.1 创建第一个项目2.2 快捷键和命名规范2.3 Qt项目和VS2022项目相互转换 三、Qt基础3.1 Qt对象树和窗口坐标系概念3.2 QPushButton3.3 信号和槽(signals and slots)3.3.1 pushbutton关闭窗口3.3.2 自定义信号和槽 3.4 Lambda表达式3.5…

【饭谈】ChatGpt如果让软件ui都消失的话,那ui自动化测试该何去何从?

“未来的软件长什么样?” 一位妹子产品经理问我:“你说说未来的软件ui是什么样的?听到这个问题我先是诧异了一下,随即陷入了沉思。” 我看着眼前的产品经理,她是一位比较年轻干练的女强人类型,1.65的身材…

chatgpt赋能python:Python如何设计UI:最佳实践和关键洞察

Python如何设计UI:最佳实践和关键洞察 作为一种支持多种编程范式和用途的高级语言,Python已经成为了许多技术创造者和创业者的首选工具之一。但是,Python最初并不是为了动态用户界面(Dynamic User Interface,简称UI&a…