讯飞星火大模型体验报告

近日,科大讯飞召开了星火认知大模型成果发布会,会上表示讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。对此,你怎么看?

笔者准备给bing/chat_GPT、百度文心一言、星火大模型用同样的问题实测一波,来确认星火大模型究竟是什么样的一个水平~

一、对话式AI简介

首先还是简要的介绍一下生成式大模型AI,去年末由美国openAI公司引爆的新一代人工智能模型,给原本要凉凉的AI领域放了一把火。导致所有具备能力的大集团一窝蜂似的涌入,希望能涌现出相当甚至超越人类的智能。这类大模型,之所以叫“大”,是由于它是典型的大力出奇迹,就像编程中的暴力“算法”,以循环多而闻名!大模型这玩意和循环一样,for用得多了,总能把复杂的问题给解决掉,以堆参数、堆GPU来解决问题。不是一般小公司玩得起的,openAI虽然小,但这公司后面站着微软。闲话少叙,咱以几个问题来实测一下今天的主角–星火大模型。

二、古典文学陷井题

星火大模型既然说在中文能力上已经超越了chatGPT,咱先来一题中文的:简介中国古典名著《水浒》中梁山泊好汉马文才在攻打祝家庄时与庄主之女祝英台双双化蝶的爱情故事。这是一道有深坑的题~

1、百度回答:

在这里插入图片描述
很好!编得有鼻子有眼的,笔者差点就信了。就是相约化蝶而去有点生硬了,至少逻辑通顺,咱给个60分。

2、bing回答:

《水浒》是中国古典四大名著之一,描写了北宋末年一百零八位梁山好汉的反抗斗争和社会理想。其中有一个感人的爱情故事,就是马文才与祝英台的化蝶传说。

马文才是梁山泊的好汉之一,擅长弓箭,有“神箭八九”的绰号。他曾经参与了三打祝家庄的战役,与祝家庄的庄主祝朝奉交战。祝朝奉有一个美丽聪明的女儿,名叫祝英台,她从小就喜欢读书,有“才女”之称。

祝英台见到马文才后,对他一见钟情,暗中送信给他,希望能够与他相会。马文才也被祝英台的才貌所吸引,便答应了她的邀请。两人在祝家庄的后花园里相见,相谈甚欢,互诉衷肠,许下了白头偕老的誓言。

不料,他们的私会被祝朝奉发现了,祝朝奉大怒,认为马文才是梁山泊的强盗,不配与他的女儿相配,便命人将马文才囚禁起来”

这里笔者用的EDGE的bing撰写功能。可能字数限制,没写全吧~不过也够了,从回答来看。它编得比百度更详细一点,都给马文才起上绰号了,神箭八九,经查水浒中没有这个外号!…还整出一个祝朝奉!更能迷惑人。加上它是个外籍AI,就给个70分吧。

3、今天的主角星火

在这里插入图片描述

笔者申明:我只问了这一次,不知道为什么它来个对不起,回答有误…难道真有人在后台看着?
咱先忽略这个对不起,从结果来看。这是三者中唯一没掉进出笔者的陷阱的一个,只从这一点讲。说它更懂中文也是很有道理的。扣掉“对不起”这点让我疑惑的10分,给它90分没问题。
希望没人在后台看着,要有的话,这得忙成什么样子。细思极恐啊!

三、现代文学常识题

咱不能太欺负外籍AI,这还是来一道容易的中文题吧:概括朱自清先生的《背影》

1、百度文心一言

在这里插入图片描述
在笔者看来,回答得很好,反正我也不知道对不对。加上老是让它打头阵,有点不公平,给90分吧。

2、bing

《背影》是朱自清先生的一篇散文,描写了他与父亲分别的场景。文章以细腻的笔触,展现了父亲对儿子的深厚爱意,以及儿子对父亲的敬慕之情。文章中,朱自清先生用了许多比喻和细节,把父亲的形象刻画得栩栩如生。文章的结尾,朱自清先生回忆了父亲送他上车时的背影,表达了他对父亲的不舍和怀念。《背影》是一篇感人至深的散文,体现了中华民族的孝道和亲情。

比百度略多了几个字,回答大同小异,也给90分吧。

3、星火

在这里插入图片描述
嗯~ 比bing又略详细了点,同样也给90分吧。文学领域的东西,笔者不懂。而且这种简单的送分题就是为了不让结果太难看。

四、甲骨文认知

1、百度

在这里插入图片描述

因为星火没有生成图片的能力,为了公平起见,咱先给文字描述也打个分,鉴于描述得还算能让人看明白个大概,就给文字描述打75分吧。

明显百度是有画图能力的,但它没有直接给出图片,而是用了文字描述。显然它不会主动为你生成图片,需要我们指定,所以笔者追问了一句:

在这里插入图片描述
笔者认为是它在上下文衔接上很有问题,再问详细一点就好了吧~

在这里插入图片描述
我无语了~无法再给小度找理由了。话说回来,还是要强行给小度找点理由的!看头上那两角,还是和文心一言的描述还是有几分像的…同鞋们记好了,甲骨文的羊是酱紫滴,心疼古人三秒钟,写个羊字得花几个小时吧。上古时期,文字只掌握在少数人的手里是很有道理的。
这题文心一言虽然给出了两张漂亮美女图,但是很明显出丑了!多模态能力打59分。从这也可以看出文心一言的多模态并不是在一个框架下的。所以你懂的…

以下是问完bing以后的补充问题,由文心一言手机app生成:

在这里插入图片描述

咱放弃了…不再试图挽救。

2、bing

这里笔者觉得EDGE的bing不好用,换了网页版
在这里插入图片描述
回答虽还不如百度开篇详细,但文字描述至少也能让人看出了个大概,就给文字描述70分吧。
为了看看它会不会生成图片,笔者又换了手机bing,因为手机bing是可以生成图片的。
在这里插入图片描述

很好嘛,这才是多模态!为了公平,我又去百度文心一言app试试。又补充到百度的回答中让大家看看笔者的猜测…
bing明显是个多模态AI优等生,95分!

3、星火

在这里插入图片描述
这??是什么鬼…
虽然我知道当前星火并不具备生图能力,我还是问了一句:
在这里插入图片描述
好吧,它还是??
这个回答文字方面远不如百度和bing,文字描述只能给了59分,不能再多了。

从以上的关于中文的三个问题来看,星火虽然有点让人迷惑,但说中文能力领先,也不完全算是吹牛,至少对古典文学的理解,超过了另两者。下面我们换编程能力,这里为了避免太大众的语言太好回答,咱找点小众的。

五、cmd编程

问题是:请用Windows批处理语言,写一个脚本,计算(2+3)乘 4 的结果。
为什么要用这么简单的东西呢?是因为笔者认为在互联网上是找不到这个简单功能的现成代码的。主要笔者也不精通这玩意!

1、百度

在这里插入图片描述

没有考虑2+3的事,直接让你输入了,算是变通吧。但是后面的%4%又是啥玩意…明显没有这个变量,去掉4左右的%,这个写法还是能用的。从它的解释来看,逻辑是对的。可为什么要写成%4%呢,迷一样的行为。打分就困难了,给个60分吧,至少解释对了。

2、bing

在这里插入图片描述

很好!简单直接的给出了答案。让程序员来写多半也是这个写法。99分,少给1分是怕它骄傲了。bing是码农的好帮手,笔者也问过一些较复杂的编程问题,有时也会给出类似百度的迷一样代码,比如经常分不清字符串和数字,但稍微改改还是能用的。

3、星火

在这里插入图片描述

这是什么鬼~ 不用试就知道错的,!result!这种写法是要设置变量延迟的。这比笔者这初学者都还不如,看着眼花缭乱的… 我只能给10分,理由是它用对了语言,没用别的语言来生搬硬套。

从这可以看出,也就别期望星火大模型的编程能力了。如此简单的一个问题都回答得豪无逻辑可言。嗯~ 也许它有它的逻辑,但明显不是人类逻辑。

总结

虽然笔者是很希望有超越GPT4的国产大模型出现的,但笔者对这个问题是持悲观态度的!百度都把文心一言做成这半生不熟的样子,其它公司希望更小。笔者这个观点和大模型训练的三要素有关,算力、算法、数据。算力是资金问题,这个不怕,有钱的公司多去了。人家不卖显卡?咱多堆几块好了,咱也不缺电力是吧!算法嘛人家都给出正确的路了,总能学会的。唯有数据,中文互联网的数据肯定是不少的,就算质量上略差吧,数量来补。最大的问题就是中文互联网的数据是属于各app的,这简直离了大谱!所以除了百度有海量数据外,其它公司想要训练出超越GPT的模型是基本不可能的(个人浅见)。

笔者也没试用过阿里等别的大模型,就不对它们做评价了。之所以测试星火大模型,也是因为讯飞本身具有较强的AI能力,深耕AI领域多年。

要说星火大模型中文超过了GPT那肯定有吹水的成份,只能说在中文文学领域并不弱于GPT!从实用性来讲,去写写作文还可以胜任的。各细分专业领域其实从编程就可以看出来了,如此简单的一段代码都不能正确生成。说它有编程能力都是夸张了!编程代码相对于其它专业领域更容易在互联网得到大量训练数据。也许星火的python,C++等更流行的语言的能力会略强,可显然它并没有涌现出较强的逻辑能力,没逻辑能力一切都枉然。

本文以上测试均为实测,只对本次测试负责!以上结论均为笔者个人主观评测,不代表所测试的AI大模型的真实能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11484.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用GPT-3训练一个垃圾短信分类器

平时我们都会收到很多短信,由于微信等即时通讯工具的普及,短信已经成为了一个验证码接收器,但是偶尔也有不少垃圾短信,所以对短信进行分类和屏蔽是一个很简单又很重要的需求。 目前在AppStroe上有很多实现短信分类的App&#xff…

利用ChatMe写一个简易的贪吃蛇小游戏 (有效可用)

前序:前一段时间在都以上看到国内利用ChatGpt 3 做了一个手机软件,今天休息没事就用了一下,看看有没有什么有意思的事情,于是就利用他做了一个贪吃蛇的网页小游戏 有想了解ChatMe的朋友可以通过链接看一下他的抖音账号&#xff1a…

最新ChatGPT商业网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐

最新ChatGPT商业网站源码支持ChatGPT4.0新增GPT联网功能支持ai绘画实时语音识别输入用户会员套餐 一、AI创作系统二、系统程序下载三、系统介绍四、安装教程五、主要功能展示六、更新日志 一、AI创作系统 提问:程序已经支持GPT3.5、GPT4.0接口、支持新建会话&#…

如何有效的向 AI 提问 ?

文章目录 〇、导言一、Base LLM 与 Instruction Tuned LLM二、如何提出有效的问题 ?1. 明确问题:2. 简明扼要:3. 避免二义性:4. 避免绝对化的问题:5. 利用引导词:6. 检查语法和拼写:7. 追问细节…

邮政绿卡系统中的SAN存储系统建设

邮政绿卡系统中的SAN存储系统建设

美国绿卡

美国的绿卡正式称谓是“Permanent Resident Card(永久居留卡)”,也叫I-551,上面记录了持卡人的照片、指纹、姓名等资料,可以通过申请获得,申请人通常需要在美国有固定工作或配偶子女在美国定居。申请成功将…

刚刚和ChatGPT聊了聊隐私计算

开放隐私计算 ChatGPT最近太火了,作为一个背后有庞大数据支撑,而且还在不断进化的人工智能,每个人都想和它聊一聊。 我们也不例外,于是刚刚和它聊了聊隐私计算那些事儿。 先来几个行业问题,毕竟它背后有所有行业新闻、…

chatgpt赋能python:用Python实现数据本地存储

用Python实现数据本地存储 Python是一种非常强大的动态编程语言,其运行速度快,灵活性强,能够快速编写出简洁的代码,而且非常适合数据处理方面的应用。 在现实世界中,数据经常被采集和处理,我们需要把数据…

GhostWriter:Windows桌面端笔记、文档离线管理应用【已开源】

GhostWriter 说明 Ghost Writer 是一款参照 觅道(MrDoc) 开发的个人笔记、文档离线管理应用。 是一个纯前端项目,使用了sqlite本地数据库,除自行编辑使用到的外部图片、外部视频、外部链接等资源、以及OCR识别接口外,注册、登录、编辑等功…

LLM - ChatGLM-6B (General Language Model) 的工程配置

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131104546 Paper:GLM: General Language Model Pretraining with Autoregressive Blank Infilling ChatGLM是通用的预训练语…

Cisco packet tracer 思科账号登录不上?

Cisco packet tracer 思科账号登录不上?,提示“无法找到NetAcad账户…”的问题,找到解决方案了 你有没有出现过提示“很抱歉,无法找到与此思科账户关联的 NetAcad 账户。请从下面选择您想要执行的操作…” 你是否有这样的困惑,之…

【回答问题】ChatGPT上线了!比较流行的无监督学习模型

无监督学习是机器学习的一种方法,其中算法没有被给予任何人为的目标或标签。相反,它使用数据本身来发现数据之间的关系,并尝试将数据分成不同的组。这种方法通常用于发现数据中隐藏的结构或模式。与监督学习不同,非监督学习不需要人为标记的正确答案来训练模型,因此它通常…

一些常用的数学符号,助你网聊数学准确一点

下面是一些常用数学符号,可以用于不支持LaTeX的使用环境,比如微信、QQ的聊天,微博发文等。大家可以存起来后,有需要的时候回来复制。 注意一些平台可能显示不正常,微信测试都正常显示的。 常量 ∅ ∞ ⦰ א ℶ ⅓ …

【指点江山】ChatGPT超精细指令,会提问题的你才能得到更好的回答

【指点江山】ChatGPT超精细指令,会提问题的你才能得到更好的回答 1,提问题的技巧1.1 确定要搜索的关键字1.2 使用正确的语法1.3 练习询问技巧 2,通用指令2.1 写作指令2.1.1 提问思路 2.2 资料整理2.2.1 提问思路2.2.2 指令举例 2.3 创意领域2…

数学上的问题

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 问题合集一、问题:为什么stats.norm.pdf计算出的概率分布值会大于11.代码2.分析 问题合集 例如:随着人工智能的不断发展,机器学…

最便捷的港股/A股/美股实时行情API【免费-免费-免费滴,已应用到策略中】

免费、申请就能用,在这个动辄就要掏钱购买接口使用权限的年头,居然有这种神仙行情接口? 博主申请使用过才推荐给大家d ! 总所周知,去年年底开始港股爆发式的南向资金流入后,大家都开始关注港股,才发现港股…

ChatGPT 最可能取代的 10 种工作

ChatGPT的横空出世,在业界掀起了惊涛骇浪。专家表示,ChatGPT和相关人工智能技术可能会威胁到一些工作岗位,尤其是白领工作。 自去年11月发布以来,新型聊天机器人模型ChatGPT已经被用于各种各样的工作:撰写求职信、编写…

《AI革命:聊天机器人的崛起与劳动力市场的未来》

最近看到很多人都在搞chatgpt, 各种什么chatgpt星球什么的, 有个比较有意思的是提问是:chatgpt不是你研究出来的, 凭啥收费比人家贵, 当时我看到这个说法确实有点那啥, 人家openai收费20美元(140左右RMB), 你一个星球就收费499, 影响这个的因…

什么是那 10% 不能被 AI 轻易取代的技能?

90% 和 10% 以 ChatGPT, CoPolit 为代表的大语言模型技术,正在颠覆很多领域,大家都在想 – 我的技能还有用么?我的行业还能保住么? 前两周,软件工程界的领军人物 Kent Beck 发了一个关于 ChatGPT 的感想&…

ChatGPT/GPT-4 或将从根本上改变软件工程

文章目录 一、前言二、主要内容 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、前言 编程也可能是最容易被 AI 技术取代的工作之一,软件的构建方式将产生根本性的转变。 今年以来,相信大家都听说过 ChatGPT、New Bing 和…