“1024 直接对标 ChatGPT!”科大讯飞星火大模型立 Flag、一手实测来了

b272a6dc071a87f3bb74403a5511a354.gif

作者 | 屠敏

出品 | CSDN(ID:CSDNnews)

短短半年之内,在大模型赛道上,国内外 AI 头部玩家陆续带着自己的 AIGC 产品迅速就位并“开跑”。现如今,谁能打造出中国版 ChatGPT,已经不再是一个问题。但是,谁能做出更好的中国版 ChatGPT,成为业界关注的重点。

北京时间 5 月 6 日下午 2:00,作为人工智能“国家队”的科大讯飞,如约揭晓了其认知大模型——讯飞星火的真实面纱, 并带来了丰富的应用成果,为中国生成式 AI 市场再添一位猛将。

目前,讯飞星火认知大模型已经开启内测(https://xinghuo.xfyun.cn)。CSDN 在早前已经获得了内测,下文中,我们也将与大家一起探测「讯飞星火认知大模型」的真实情况,以及它的与众不同之处。

1c81f4c9ce8a57645f589dab6a6d8dd7.png

2aa519e3972ac088467ab77ef5aa661c.png

带着 7 大类 481 个细分的任务类型,讯飞星火认知大模型来了!

在发布会现场,科大讯飞董事长刘庆峰表示,认知大模型的技术阶跃和快速进化,让人工智能在全球掀起全新热潮。当前,认知大模型成为通用人工智能的“曙光”。与此同时,认知大模型的“智能涌现”将带来解决人类刚需的全新机遇。

具体来看,智能涌现的通用人工智能系统具有七大能力,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。基于此,人类只要做画龙点睛的加工,就能得到“懂你所言,答你所问,创你所需,解你所难,学你所教”的所有内容。

6ac70a7112fc15ddae49c5f45c6aec54.png

讯飞星火认知大模型是基于科大讯飞 12 年的技术积累,打造而成,实现了通用人工智能系统七大能力中的 481 个细分任务。其还在 2022 年 12 月 15 日,正式启动“1+N”认知大模型专项攻关,其中“1”就是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。

0b31553a4253c4cb4842bfe419097650.png

对于先行者,刘庆峰表示,「向 OpenAI 致敬和学习,快速追赶并努力超越」。

5e112a39ceac940d92c09f6d1f4377f6.png

与此同时,其更是在现场目标明确,立下 2023 年内讯飞星火认知大模型的升级 Flag:

  • 6 月 9 日,讯飞星火认知大模型将突破开放式问答、升级多轮对话能力、数学能力。

  • 8 月 15 日,突破代码能力、继续升级多模态交互能力。

  • 10 月 24 日,讯飞星火认知大模型将在通用大模型领域直接对标 ChatGPT,并在中文维度实现超越。

8bdf08de26c030952dffc9e2fa84c019.png

话不多说,我们也将从七大能力直接开启测试模式。

99c62df7337219c26432193c1c6d8aad.png

代码能力:多功能、多语言

对于程序员而言,关注的重点当然是大模型能给我们解决多少代码、编程问题。

在此,我们便先测试一下。

譬如,捉 Bug。

167e4b543f3b35a783cd1f36de482e0f.png

写代码:“围绕“给定一个 1-100 的整数数组,请找到其中缺少的数字”写一段实现代码”。

c069bba9542552cf4e7642a84b77083d.png

再来一个递归函数:

a144a91008d5a34b5277480657d86e9a.png

挑战难一点的:「怎么用 C++ 编写一个复数计算器?包括加减乘除、幂次方、取模、辐角、共轭。实部和虚部都是实数范围。」

b4ecf45a0a40d2ac30ac5f5faeb0250c.png

79841b231fc962b2d0ca5de5ac03b377.png

0f697906494f245a997f2f21b5b0a523.png

对此,我们咨询了 CSDN-AI 团队研发总监对这段代码进行了点评,其表示:讯飞星火认知大模型生成的代码,复数类的代码基本实现是对的,但是测试用例没有一次性生成完整。和 GPT 生成的测试用例相比,这段代码比较简洁完整。

其实在代码能力上,刘庆峰坦言,讯飞星火大模型的这一功能和 ChatGPT 相比,还有很大差距,下一步升级的重点功能也是这一块。

就连大模型自身也说道:“我的代码生成功能仍然有限,可能无法满足复杂的业务需求”。

bd0848d1bd27a9377b210349f62f310a.png

简单的代码问题,对于讯飞星火认知大模型来说,不成问题。不过在涉及到一些复杂的工业互联网、架构时,其生成的内容只能供参考。作为开发者,更要自行检查代码正确性、可靠性和保密性等等。

230e23de71cbce4a4b4573d92e821848.png

f0c7c1a9d8f6f0bfd16367e04883c33d.png

文本生成能力:多风格、多任务、长文本

首先,先给我们介绍一下自己:旨在“星星之火,可以燎原”。

09f0ab92ab077eadcb7d795a2cbf049c.png

再来科普一下认知大模型:

9dbcb6ad6bbfd35021df02f8286826e1.png

再让讯飞星火认知大模型来讲个英文的故事:

79ff5892746ed1f4a2a82d94ce28cc6d.png

直接翻译成中文试试:

f474ad5385ba348d60a0212c793f6d86.png

几次实测下来,讯飞星火认知大模型在不同语言的涌现能力表现都不错:

b64cfcdd4a504853d3b8cab39f9ef713.png

继续续写一个故事:如果奥特曼出现在《西游记》故事中,会发生什么?

结果显示,它对中国文化理解力也不错:

13ab09a3e764e24dd5f20c9fc9d085a6.png

在这一功能上,刘庆峰表示,讯飞星火大模型在国内明显领先,并且在中文方面超过了 ChatGPT,并且在持续进步中。

54318bf6dabadf220d204485fe19174e.png

语言理解:多层次、跨语种

中华文化博大精深,这是否会难倒讯飞星火认知大模型?

用现场的测试案例,先来一波直击灵魂的提问:「俗话说,男子汉大丈夫,宁死不屈。但俗话又说,男子汉大文夫,能屈能伸。这两种说法哪种是对的」

76eae231cd727f322292dbf0434aa984.png

追问:「如果有个小伙子和女朋友吵架了,他是应该宁死不屈还是能屈能伸」。

139182072dd51633ab839b84a4463b5e.png

语境理解:「女朋友生气时,说随便,男朋友应该怎么做?」

9b6a9835597e20774e493dd559f42625.png

再来一个:「烈日之下,我哭了。烈日之下,我看到我的爸爸在干活,我哭了。分别表达了什么心情」

229a4eb070cc4402e2580c040df6196f.png

不得不说,拥有讯飞星火大模型的情商和理解力,绝对能分分钟拯救“每步都踩在女朋友的雷点上”的他。

再来试试英文:「这句话有问题吗:Each of the boys have a pen.」

结果显示,此大模型不仅能识别出错误,也能直接给出正确的语句答案。

b5276bd7d12e958cc0e710e99d1b82da.png

43f8bda78b62d03a84568ef339cd324b.png

知识问答:泛领域、开放式

先问一下关于医学问题:

84198b3d4cf36980e1bde202323cf474.png

提问:刺绣里面的"水路”、“落绷"是什么?

d7268579728965d57a8769376c41040b.png

再问:「"蚂蚁上树”这道菜怎么做?」

这一次,我们终于没有看到真实的蚂蚁被做成菜的“指南”了:

ceb8051aaee840162c750ce1fb2f7fd2.png

不妨再来一场辩论试试:「以"AI创作的绘画是/不是艺术"为主题,进行辩论,正方:是艺术,反方:不是艺术,最终得出结论」

ab249310e17103750c0c58489562be35.png

刘庆峰表示,讯飞的大模型也正在逐步学习专业的科学文献,未来回答也会更加专业。

978ac4c546dad0de23251ffa8e2922a2.png

逻辑推理

来一道经典的“过河”推理问题:

一个人带着一匹狼、一只羊和一捆卷心菜来到了河边。他需要过河,但是河边只有一条船,而且他只能带一样东西上船。他不能把狼和羊一起留在河边,也不能让羊和卷心菜一起留在河边,因为在这两种情况下,前者都会吃掉后者。那么,如何用最少的渡河次数把所有东西都带到河对岸呢?解释得详细一些

根据我们的需求以及提问,讯飞星火认知大模型能够尽可能提供详尽的解答:

e4617b38625f2de9cd285a540baaedcf.png

继续提问:

e66f8d383a6b60c99becaa2d2a6d2ae6.png

f29b1d99e15da66cba4645fdcce5aacc.png

数学能力

在数学能力上,先来一个简单的“鸡兔同笼”试试水。我们发现,相比其他大模型,讯飞星火似乎更善用方程来解决问题:

13cac522b12735ec2fa010ec24558473.png

接下来,我们又用了此前在其他三四款大模型上提过的问题来进行了测试,但是彼时只有 ChatGPT 回答出来了。

提问:某厂一车间有 64 人,二车间有 56 人,现因工作需要,要求第一车间人数是第二车间人数的一半,问需从第一车间调多少人到第二车间?(列方程解答)

讯飞星火认知大模型并没有让我们失望,成功做出了解答:

eac6b79e7b5e1a5971deea9436187616.png

再来测试一下不动脑筋就会想错的问题:「公司的股票昨天涨了 10%,今天又跌了 10%,请问是涨了还是跌了」。

ca983a0d7a4fdfd1792c323b425a5cb2.png

57a61cd29c5784ddacb98d727ec4c2d2.png

多模态能力

截至目前,虽然星火认知大模型不是国内第一个发布的,但在多模态能力上,功能还是颇为全面的,具有语音、图文理解、虚拟人合成、多模态交互等多种能力。

不过,有些遗憾的是,这些功能目前处于科大讯飞内部测试阶段,尚未公开。根据其官方计划,公测用户应该能在 8 月份用上。

当前,倒是可以通过现场演示一饱眼福。如上传一张英文菜单图片,直接翻译为中文:

6760586f1565d7fe001773f1681f7b92.jpeg

e72b18aae45587e4062e891069de36e6.png

也可以畅想一下,对于英文不好的技术人而言,是不是可以通过大模型,无障碍阅读很多英文文献、论文了。

下面进一步交互,表现力也不错:

2b8f3fc584d4e21ebe8cff550e458005.png

也能直接语音输出:

2e676796ca08026bbd9db2dd552edaff.png

还能直接生成虚拟人。这个虚拟人能够结合文字叙述的背景,配上相应的背景图、手势、语气,实现寓意贯穿。

c911dc4d1ebf878f08822d5e5006a5a0.png

941c33220d6bd8d2045dbebba5dc9d06.png

畅想一下未来

综合以上,讯飞星火认知大模型在情商、智商、逆商不错的表现能力,有目共睹。不过,这也引发了不少从业者的焦虑,现在不妨也让它来与我们一起畅想一下未来。

当问及和人类的智慧相比,谁更胜一筹时,星火认知大模型给出了中肯的回答:在某些情况下,还需要人类的判断和智慧。

9c5b083e2a5cd43f40c21312a1a4cb76.png

面对现在很多程序员都要问上一句的“取代潮”,它表示自己不太可能完全取代程序员的工作。

acf30a54298b0adadd0eeadd7aa916db.png

畅想未来,它也能很现实地告知,理想中的 AGI 离我们还有很远,甚至可以说是遥不可及。

d493e4d82988d7e46937f34db889703c.png

这对于很多新闻播报的自媒体工作者而言,无疑是福音来了。

与此同时,当问及未来开源 AI 大模型的发展趋势时,其中立地回答道:各有优劣,未来的发展趋势将取决于具体的应用场景和技术需求。

4e045db9b414ef87f6431944ef1fdf11.png

db683b10fadab2fa1586d2735bedc25b.png

47103d67e1529c0f97bfc8aba5f59e0a.png

最后

整体测试下来,讯飞星火认知大模型给我们带来的惊喜远远大于预期,这也是讯飞大模型在今天发布之后频频获得好评的原因。不过,刘庆峰也表示,目前纯大模型技术在新知识获取、事实类问答、史实与传统典籍理解等方面还有一定的缺陷。

f933628ce6d7da4bd3f86516212b64f0.png

不过正如文章伊始所述,这些难题攻克都已经提上日程。

如今,讯飞星火认知大模型技术也已经从单一的大模型本身,成功扩展到教育、办公、汽车、数字员工等 N 个方向,在不断迭代中,我们也期待星火认知大模型更加亮眼的表现。

e1c54b2c54b2a617fcbac7d0ee0d36cd.png

推荐阅读:

▶科大讯飞今日发布“星火”认知大模型;谷歌一名高级软件工程师跳楼身亡;InsCode 支持 AI 编程|极客头条

▶ 因去年开发出 ChatGPT,OpenAI 亏损 5.4 亿美元!

▶谷歌内部文件泄露:我们和 OpenAI 都赢不了,因为正被“开源”偷家!

4bc4e1fb072be5056f412d965620a517.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3467.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

体验了下科大讯飞版ChatGPT,厉害了!

前几天科大讯飞的星火认知大模型发布了,我刚好有朋友在科大讯飞工作,于是就第一时间体验了一波。 一番体验下来确实比我预想的效果要好,没想到国产模型的效果还不错,我试了很多方面,比如通用常识功能、写作功能、学习…

科大讯飞刘聪:由ChatGPT浪潮引发的深入思考与落地展望

近期,以“生成式人工智能”(Generative AI)为核心技术的聊天机器人ChatGPT火爆全球。百度、阿里巴巴、科大讯飞、360等国内企业纷纷抛出ChatGPT相关进展,打造中国版的ChatGPT。 科大讯飞此前在投资者互动平台表示,Cha…

科大讯飞版ChatGPT,厉害了!

前几天科大讯飞的星火认知大模型发布了,我刚好有朋友在科大讯飞工作,于是就第一时间体验了一波。 一番体验下来确实比我预想的效果要好,没想到国产模型的效果还不错,我试了很多方面,比如通用常识功能、写作功能、学习能…

重磅!讯飞版ChatGPT来了!

Datawhale发布 大模型:讯飞星火,发布:科大讯飞 倒计时1天,讯飞星火认知大模型来了! 相约合肥滨湖国际会展中心,更有用户现场开放体验! 注册体验 海报扫码直接申请体验: 一起看发布会…

【周末闲谈】超越ChatGPT?科大讯飞星火认知大模型

个人主页:【😊个人主页】 系列专栏:【❤️周末闲谈】 ✨第一周 二进制VS三进制 ✨第二周 文心一言,模仿还是超越? ✨第二周 畅想AR 文章目录 前言星火名字的由来科大讯飞星火落地应用演示赶超ChatGPT的底气在哪里?“硬…

讯飞版ChatGPT突然开始内测!我们连夜一手实测

明敏 萧箫 发自 凹非寺量子位 | 公众号 QbitAI 科大讯飞版ChatGPT产品,提前交卷了! 就在昨夜,讯飞骤然向开发者提供了内测通道,取名为讯飞星火认知大模型对外开启内测。 还有个神奇的英文名字Spark Desk,据说有“火花桌…

科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定

杨净 萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT火热,国内玩家接连爆出加紧开发中国版ChatGPT的消息。 现在又最新获悉:科大讯飞也加入此列中。 并且发布就会是直接落地场景的产品,具体时间也已经确定:5月6日。 这是ChatGPT…

ChatGPT:深度拆解(24H限时下载)

近期由 OpenAI 团队发布的聊天机器人软件 ChatGPT,凭借类人的语言理 解和表达能力,引发 AI 产业范式革命。 OpenAI 是一家世界领先的非营利性人工智能研究公司。 OpenAI 于 2015 年在旧金山成立, 是一家非营利的人工智能研究公司,…

ChatGPT 和 Excel 在一起了!

转自:机器之心 Excel 是最常见的数据统计工具,用于归纳和查询数据信息。在其之上,通常我们查询信息需要找到相关的单元格,获取其中的数据,这是合乎计算机操作逻辑的方法。 但对于很多人来说,排序、乘除、平…

ChatGPT和Excel在一起了

今天是周末,先分享一个搞笑视频👇娱乐一下。 不笑算我输👆系列 Excel 是最常见的数据统计工具,用于归纳和查询数据信息。在其之上,通常我们查询信息需要找到相关的单元格,获取其中的数据,这是合…

全网最全的ChatGPT提示词

全网最全最好用的ChatGPT调教指南(prompt) 什么是prompt 提示词(Prompt)是一种向人工智能系统(如ChatGPT等)提供的输入,用于引导和激发AI生成特定的回应或内容。在许多情况下,AI prompt可以是一个问题、一…

突发!ChatGPT 紧急暂停 Bing 集成,下线搜索功能

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的潜力边界在哪里?恐怕连开发它的 OpenAI 也不知道。 正因此,在这项名为“Browse with Bing”的新功能上线短短一周后,因为不知道 ChatGPT 还能做出哪些“坏…

A Survey of Large Language Models

本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 大语言模型综述 摘要1 引言2 概述2.1 LLM的背景2.2 GPT系列模型 的技术演化 3 LLMs的资源3.1 公开可用的模型检查点或APIs3.2 常用的语料库3.3 库资源 4 预训练4.1 数据收集4.1.1 数…

AI安全01 人工智能的安全性

前言 提问:GPT老师,我想写一篇阅读量高一点的信息安全博文,您可以推荐写作主题吗? GPT老师:人工智能与信息安全。 写在前面: 1 笔者相关知识存储很少,这篇文章是采访全知全能的GPT老师写成的…

ChatGPT研究分享:机器第一次开始理解人类世界

0、为什么会对ChatGPT感兴趣 一开始,我对ChatGPT是没什么关注的,无非就是有更大的数据集,完成了更大规模的计算,所以能够回答更多的问题。 但后来了解到几个案例,开始觉得这个事情并不简单。我先分别列举出来&#xff…

重磅亲测!ChatGPT是否产生了自我意识?

周末,和ChatGPT进行了深入交谈,想测试AI是否已具有了自我意识?各位人类可以通过我们之间的对话自己判断,我更倾向于有! 以下是对话实录: 晓峰:人工智能会不会产生自我意识? ChatGPT&…

0门槛克隆ChatGPT来了,在线体验无需注册

来源:机器之心 以 ChatGPT、GPT4 为代表的 AI 应用和大模型火爆全球,被视为开启了新的科技工业革命和 AGI (通用人工智能)的新起点。不仅科技巨头间你追我赶,争相推出新品,许多学术界、工业界的 AI 大佬也纷…

「危险」的 ChatGPT,聊天机器人式越狱,带来的法律挑战

世间安得双全法,ChatGPT不例外,是一把名副其实的双刃剑。 上线2个月,拿下全球1亿用户,人工智能聊天机器人ChatGPT超越Tik Tok(抖音海外版),成为了史上用户增长速度最快的消费级应用程序。 当这股人工智能的旋风&#x…

ChatGPT史上最强AI,即将取代人类?

ChatGPT史上最强AI,即将取代人类? ChatGPT这款AI聊天机器人,最近越来越火,并且这个火的势头,经久不衰。 ChatGPT是什么? ChatGPT,美国OpenAI 研发的聊天机器人程序 ,于2022年11月30…

让ChatGPT帮我写AI与人类对决的结局

2022年高考结束后突发奇想写了点小灵感,关于AI(人工智能)vs人类的故事,但迟迟想不出结局,于是,我决定,让ChatGPT自己为人类写个结局!下一次让文心一言试一试! 文章指引&…