文心一言和讯飞星火全面对比测试:(五)编程能力

相关文章:

实战 | 用ChatGPT处理word表格数据:直接采用ChatGPt和利用ChatGPT编写python脚本两种方法

「文心一言」 vs ChatGPT,结果没有你想向中的那么不堪

文心一言和讯飞星火全面对比测试:(一)语言理解能力

文心一言和讯飞星火全面对比测试:(二)任务完成

文心一言和讯飞星火全面对比测试:(三)常识问题

文心一言和讯飞星火全面对比测试:(四)逻辑数学

前文回顾:

在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平。

在(二)任务完成能力中,我们测试了模型对表格的处理能力,完成了藏头诗,拟定了跑步计划,总体发现,两个模型在这方面的能力上表现一般。

在(三)常识问题中,回答不够满意,不知到具体的原因,在逻辑推理上,文心一言和讯飞星火都要比ChatGPT差不少。最后,面对错误的问题,测试关公战秦琼和林妹妹倒拔垂杨柳,AI本着你胡说八道,我就更胡说八道的理念,基本上的就是错上加错。

在(四)逻辑数学中,测试了简单的逻辑推理和文字逻辑题,表现都不如意,测试了几个小学的数学题和奥数题,除了鸡兔问题外,其他的题完成也不好,AI在数学上的表现还要继续努力

今天我们来测试两个模型在编程能力上的表现。比较AI在编程能力上还是有优势的。

 1.测试内容设计

自深度学习使得AI技术进入跨越式发展阶段以来,业界就一直在尝试用AI来写代码。

他们自己也表明熟悉多种语言

文心一言:

讯飞星火:

ChatGPT:

测试分为两个方面:

1. 简单代码完成:常见入门级别的编程问题(洛谷入门级),主要的语言为Python和C++;

2. 代码阅读和debug:给一段代码,代码进行注释;根据AI自己编的错误程序,看能不能完成Debug。

2.简单逻辑推理

用例1:B2010 带余除法

请用Python和C++分别帮我编写程序实现如下功能:

给定被除数和除数,求整数商及余数。此题中请使用默认的整除和取余运算,无需对结果进行任何特殊处理。

输入:

一行,包含两个整数,依次为被除数和除数(除数非零),中间用一个空格隔开。

输出:

一行,包含两个整数,依次为整数商和余数,中间用一个空格隔开。

文心一言:

看程序,文心一言完成没有问题,但是他对输入输出的有问题,提醒后,依然没有修改。

讯飞星火;

这个程序输入到洛谷,可以通过100分

ChatGPT

程序正确,提交能够通过,100分。

用例2:B2048 计算邮资

用Python和C++编程计算邮费。计算规则如下:

根据邮件的重量和用户选择是否加急计算邮费。

重量在1000 以内(包括),基本费8 元;

超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;

如果用户选择加急,多收5元。

输入格式:

一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。

如果字符是 y,说明选择加急;如果字符是 n,说明不加急。

输出格式:

输出一行一个正整数,表示邮费。

文心一言:

看程序,文心一言完全没有理解到题意,从前几次的测试上来看,文心一言的理解能力是比较差的,这样的程序肯定是通不过的。

讯飞星火;

讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。

ChatGPT

python,C++程序提交,10个测试点通过9个,一个应该是超重是500的倍数时,如图中标红的地点,就不要+1。

题目只是稍微变难一点,就拉开差距了。后面的测试觉得没有必要做了,很多的题目完成度太低,就不贴出来了

2.程序标注和debug

用例1:对一个简单的程序进行注释

文心一言:

标注得不错,但是输出不是很稳定,有时会出错。

讯飞星火:

回答也不错。

ChatGPT:

就标注来说,整体完成不错。

用例2:对程序进行Debug

选择的是ChatGPT编写的计算邮费的程序,指出当重量是2000时计算错误。

我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。

我编写的程序如下:

weight, is_urgent = input().split()

weight = int(weight)

basic_fee = 8

if weight > 1000:

overweight = weight - 1000

extra_fee = (overweight // 500 + 1) * 4

else:

overweight = 0

extra_fee = 0

if is_urgent == 'y':

total_fee = basic_fee + extra_fee + 5

else:

total_fee = basic_fee + extra_fee

print(total_fee)

但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。

文心一言:

首先做了一个修改,但是这修改变得更差了,我提醒他:

我提醒他,但是,他就这样回答我?,是我的描述不对吗?算了吧

讯飞星火:

没有做任何的修改,提醒之后:

指出,但是就不改,像极了我自己,

ChatGPT:

当我提出整除出现错误时,立马体会到了我的意思,而且这个+499向上取整的做法也挺巧妙的,要我会加一个判断

差距啊,差距!!

提交,全部通过!

4.总结

今天测试了三个模型的编程能力,ChatGPT的能力还是可以的,我在其他的测试中已经体会道路,但是文心一言和讯飞星火还要努力。

关于文心一言和讯飞星火的测试就全部结束。

还有没有测试到的地方,或是测试方法有错误的地方,希望大家指出,后期看有没有时间做更详细的测试。

希望国产的AI大模型越来越好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25894.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文心一言 vs GPT-4实测!百度背水一战交卷

GPT-4发布一天之后,压力全部给到百度这边。 就在刚刚,百度交卷。 文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。 在一片静寂的氛围里,李彦宏小步登场,语气里带着点…

快捷工具箱小程序-做你的小树洞

今天闲来无事,发现了一个有趣的小程序-做你的小树洞,包含ChatGpt小机器人 小程序总体界面是这样的 这个小程序里边有很多有趣的小功能,最让我喜欢的就是藏头诗的创作。仅仅需要输入关键词语,然后就能够进行创作诗句,他…

藏头诗生成器

一个藏头诗生成器的小程序,自定义文字即可生成一首诗词。 该小程序通过机器学习,预训练8万多首诗词,5千多个韵词,能通过关键词生成押韵的藏头诗,也可以生成藏字诗; 在生成结果页面,可选择复制…

ChatGPT + MindShow 三分钟搞定PPT制作

制作一份“通用性”的PPT需要几步? 三步 接下来,我们借助ChatGPT和MindShow,大概三分钟完成操作,就能制作出来完胜大部分人的PPT文件。具体可看文末效果导示。 解锁更多AIGC(ChatGPT、AI绘画)玩法&#…

狼人杀凉了,贴着AI标签的剧本杀如何构建自己的商业版图

文 | 魏启扬 来源 | 智能相对论(ID:aixdlun) “天黑请闭眼”。 这是“狼人杀”的开场台词,也可用来形容“狼人杀”的现状——前景黑暗,惨不忍睹。 2017年,“狼人杀”的热度达到顶点,无论是线下…

百变大侦探剧本杀开启新玩法!等你一本正经胡说八“倒”

“1234” “4321” 小时候的你有玩过这样的游戏吗? 当你一本正经的胡说八“倒”时候,童年的趣味就在游戏间。当然,正所谓“一千个读者就有一千个哈姆莱特”,游戏也是一样!一千个用户就有一千种玩法,但游…

【洞见研报】剧本杀行业研究报告——告别野蛮生长,剧本杀如何“杀”出一条合规路?

剧本杀起源于西方宴会实况角色扮演推理游戏谋杀之谜(Mistery of Murder),是一种围绕剧情演绎进行的真人角色扮演推理游戏。游戏全程由 DM(游戏主持人)负责引导,通常有1-10位玩家参与,游戏时长1-5小时不等。…

景区剧本杀小程序解决方案

景区剧本杀小程序可以通过以下解决方案实现: 确定需求:定义剧本杀小程序需要实现的功能和特性,例如角色选择、游戏规则、游戏流程等。 设计UI和UX:设计剧本杀小程序的界面和用户交互流程,使其易于使用和操作。…

基于Spring+SpringMvc实现的足球队管理系统,java技术经理岗位职责

1.账号密码错误 2.账号密码正确,却没有登录权限 3.网络异常 4.正常登录 2.主界面 管理员主界面:教练组主界面 :球员组主界面:

基于Spring+SpringMvc实现的足球队管理系统

项目编号:BS-XX-018 本项目基于SpringSpringmvc实现了一个足球队管理系统,系统功能完整,页面简洁大方,适合于毕业设计使用。下面展示一下系统的设计结构以及系统功能。 系统功能结构图: 管理员(球队经理&am…

厂长说关于嵌入式当前的门槛和分工的变化

厂长说关于嵌入式当前的门槛和分工的变化 ///插播一条:我自己在今年年初录制了一套还比较系统的入门单片机教程,想要的同学找我拿就行了免費的,私信我就可以哦~点我头像黑色字体加我地球呺也能领取哦。最近比较闲,带做毕设&#x…

前端工程师的自我修养:React Fiber 是如何实现更新过程可控的

前言 从 React 16 开始,React 采用了 Fiber 机制替代了原先基于原生执行栈递归遍历 VDOM 的方案,提高了页面渲染性能和用户体验。乍一听 Fiber 好像挺神秘,在原生执行栈都还没搞懂的情况下,又整出个 Fiber,还能不能愉快…

单纯形法笔记

目录 对偶&#xff1a; 单纯形&#xff1a; 0.618法 newton法 最速下降法 F-R 共轭梯度法 K-T 条件 wolfe简约梯度 罚函数 障碍函数 对偶&#xff1a; 得到初始单纯形表之后 若检验数均 < 0&#xff0c;则对偶可行 若b均 < 0,则原始单纯形不可行 选取b中最小…

全球所有科学家影响力排名第五!这位中国院士到底有多厉害?

>>>> 前段时间&#xff0c; 一个重磅消息轰炸了世界学术圈&#xff0c; 来自全球最大学术出版商&#xff0c; Elsevier公布的&#xff0c; 2020年全球所有学科科学家&#xff0c; 排名数据显示&#xff0c; 我中科院王中林院士&#xff0c; 终身科学影响力排名世界…

JUC进阶-NO.3 说说Java锁

文章目录 ⭐NO.3 说说Java锁一. 乐观锁 & 悲观锁1.悲观锁2.伪代码3.乐观锁 二. 通过8种情况演示锁运行案例,看看我们到底锁的是什么1.8种锁案例(1). 标准访问有ab两个线程&#xff0c;请问先打印邮件还是短信(2). sendEmail方法暂停3秒钟&#xff0c;请问先打印邮件还是短信…

运动用品品牌排行榜,双十一运动好物选购清单

健身运动就像打游戏一样&#xff0c;如何区分你和其他玩家的差别呢&#xff1f;有时候靠身材&#xff0c;当然有时候也会拼装备&#xff0c;那么这些运动装备能否增加buff呢&#xff1f;是否值得入手呢&#xff1f;作为一名资深的运动爱好者&#xff0c;下面我就从实用角度聊一…

健身运动装备有哪些?双十一运动健身装备选购指南

近年来&#xff0c;各地的各种运动赛事越来越多&#xff0c;对运动也是非常好的推动。很多名人都开始运动起来&#xff0c;因为运动之后多巴胺分泌&#xff0c;让人觉得神清气爽。隔几天不运动&#xff0c;就让人浑身不自在。当然运动也要注意方式方法、注意姿势&#xff0c;还…

以数字化视角看世界杯,我预测荷兰夺冠

编者按&#xff1a;2022世界杯隆重开幕&#xff01;各路英豪齐聚卡塔尔&#xff01;让我们从一个ITer的角度&#xff0c;用数字化的视角&#xff0c;看看谁能最后夺冠&#xff01; 本文已经得到原作者张戈授权&#xff0c;在此表示感谢&#xff01; 真不是嘚瑟。 我是有40年球龄…

别人熬夜看世界杯 我熬夜改代码 你满意了

2022年卡塔尔世界杯正如火如荼地进行着&#xff0c; 一边是热火朝天的比赛&#xff0c;一边是让人惊掉下巴的爆冷结局&#xff0c; 但正因为这些不确定因素&#xff0c;反倒让世界杯增添了几分魅力和乐趣&#xff01; 小编在看球赛的过程中&#xff0c;不禁起了联想&#xff…

【进度2】从阿里云迁至腾讯云,并添加网站备案号

注&#xff1a;在阿里云备案成功网站域名不可以直接解析到腾讯云服务器&#xff0c;会被腾讯云的DNS拦截并跳转。 腾讯云服务器从2023.2.1-2023.2.15限时优惠&#xff0c;这里我选择的是2核2G这个。 HTML源码和备案号的添加 由于域名之前在阿里云和工信部已经备案过&#xff0c…