科大讯飞交卷,实测星火大模型

作者 | 辰纹

来源 | 洞见新研社

星星之火,可以燎原。

5月6日,讯飞星火认知大模型揭开神秘面纱。

发布会上,科大讯飞董事长刘庆峰、研究院院长刘聪现场实测了星火大模型七大核心能力,并发布基于该大模型的教育、办公、汽车和数字员工等多个领域的相关产品。

与此同时,刘庆峰还给出了讯飞星火的迭代时间表及每阶段目标:

第一阶段:6月9日,突破开放性问答,如实时问答;多轮对话能力再次升级;数学能力再上台阶;

第二阶段:8月15日,突破代码能力;多模态交互能力正式开放给客户;

第三阶段:10月24日,在通用大模型领域对标ChatGPT,其中中文能力超越后者,英文能力与后者相当。

“当前,在文本生成、知识问答、数学能力三大能力上,讯飞星火认知大模型已超ChatGPT”,刘庆峰表示,认知大模型成为通用人工智能的曙光,科大讯飞有信心实现“智慧涌现”。

在星火认知大模型之前,百度文心一言、华为盘古、阿里通义千问、京东灵犀、商汤日日新等科技大厂的大模型先后发布,加上美团联合创始人王慧文、搜狗创始人王小川、出门问问创始人李志飞等科技大佬重出江湖,并且带动了一批资金,也参与到大模型方向的再创业中,以至于有专业人士用“百模大战”来形容当前行业竞争的激烈程度。

此时问题来了,刘庆峰为何如此有信心,星火认知大模型实力又到底如何,凭什么能够超越ChatGPT,实现“智慧涌现”?

01到底行不行,结果说话

光说不练假把式,我们直接对星火认知大模型进行一场测试,验验“成色”,是否真如刘庆峰说的那样“对答如流”。

1、文本生成

发布会现场,刘聪展示了星火大模型的文本生成能力,不但可以现编“故事”,还会撰写新闻稿,然而,通过我们后续的测试发现,星火大模型的文本生成能力远远不止这两项,根据场景的不同,还能衍生出更多的能力。

比如,可以请大模型担任编辑助手,根据用户提供的文本段落进行修改并提出写作技巧上的改进建议。

比如,请大模型帮忙润色群聊通知,甚至还可要求大模型加上emoji表情。

至于将口语转换成书面语,或是与大模型进行英文陪练,不在话下。

甚至要求大模型制作旅游指南,或是设计一份幼儿园大班体育游戏活动的计划,也能很好的完成任务。

点评:很显然星火大模型的文本生成能力长文本、短文本都能来者不拒,还具备多种风格、多种任务、跨语言等能力,实测结果显示,刘庆峰所说这一功能“星火大模型在国内明显领先,并且在中文方面超过ChatGPT”并不是吹牛自大。

2、语言理解

理解问题是解答的第一步,而中文又博大精深,星火大模型能准确理解不同语境下的语义吗?

我们先看看发布会现场的测试案例:“俗话说,男子汉大丈夫,宁死不屈。但俗话又说,男子汉大文夫,能屈能伸。这两种说法哪种是对的”?

然后追问:“如果有个小伙子和女朋友吵架了,他是应该宁死不屈还是能屈能伸”。

如果女朋友生气时,说随便,在这个语境下,男朋友应该怎么做呢?

对时下流行的热点,星火大模型掌握的怎样?

将问题再深入一些,代入到心理治疗的特定场景中,大模型又会给出怎样的答案呢?

点评:由于有深厚的知识积累,讯飞星火大模型的情商和语义理解能力在很多情况下甚至超过了个别人类,这也是科大讯飞一贯以来的强项,表现突出并不意外。

3、数学能力

数理能力一定程度代表一个大模型的聪明程度,刘庆峰在发布会上就表示,讯飞星火大模型的数学能力很强,能够达到ChatGPT的水平,现场测试中,刘聪出了一个计算三类花朵数量的题目,大模型用三元一次方程顺利解出了答案。

这个问题不算难,接着我们设计了一个根据“三个点的坐标,如何计算三角形面积”的问题,大模型除了给出正确答案外,还能解释和列出具体的分步步骤,显示格式也非常友好。

点评:数学能力是体现大模型通用水平的重要能力之一,而在统一大模型框架下也是非常难以实现的,大量测试证明ChatGPT在这一块也很容易出错,因为不是大家原来理解的规则性的输入输出(例如平常的直接调用计算器能力),而是在统一框架下用文本生成的方式来输出每一个字符。

因此在这个框架之下也不是大家通常理解的难的数学题难做,简单的数学题就好做。整体来说,星火大模型在解决综合性数学问题的效果上,目前是很领先的(综合评价比ChatGPT 3.5效果好,差于GPT 4),但是在各类题型的整体覆盖上,还要持续去优化。

4、逻辑推理

逻辑推理与语义理解强关联,科大讯飞在这方面继续延续着自己的技术优势。

我们先用一个日常生活中不是很常见的促销套路来探路,看看大模型能否理解其中的意思。

很可惜,大模型中了圈套,没能识破文字陷阱,不过话说回来,人类在这个问题上,如果稍不注意,也会翻车,换位思考下,对大模型的疏漏也就可以理解了。

我们换一个经典的“过河”推理问题再测一次。

这次大模型的表现很棒,知无不言,言无不尽,回答的非常详细。

接着,我们再问一个“探宝”的推理问题。

点评:星火大模型在逻辑推理上的表现整体不错,特别是一些复杂的推理问题,表现出非常强的逻辑性,在这方面,大大强于一般人类的表现。

5、泛领域知识问答

我们先来一个生活常识,铁锅炒菜能补铁吗?

再问一个科学知识,为什么自拍总是比他拍更好看?哪个更接近自己真实的样子?

如果将大模型模拟成一名育儿专家,将生活常识、科学知识等进行融合,它又会如何作答呢?

再来一个有关文言文学习的提问,模拟一个苦于学习文言文的高中生,向大模型求教有关文言文字句和语法的疏通,主要内容,以及作者想要表达的含义和文字艺术之美。

点评:通过这项能力的展现,我们第一次了解到科大讯飞在泛领域知识数据上的积累完全不输其他科技大厂,通过与文本生成能力相融合,形成了科大讯飞在中文能力上的特有优势,也使得大模型更加接近个人助手的形态。

6、代码能力

在官方介绍中,星火认知大模型不仅可以生成代码,还可以修改、理解、编译代码,并且还具备Python、Java等多语言能力。

发布会现场,科大讯飞研究院院长刘聪就演示了用Python生成一段简单代码的能力,我们在后续测评中,星火大模型对找Bug以及类似数据抽取、条件筛选等方向的代码生成的表现都还不错。

下面是要求星火大模型对一段代码进行修改与改良的实例。

我们请教了一名资深程序员,对星火大模型的上述工作进行评价,星火大模型基本上完成了任务要求,经程序员检查,星火大模型在将boxes的数字转换成整数的过程中还是存在小小的瑕疵,漏掉了path节点。

事实上,刘庆峰在发布会上也承认星火大模型的代码能力与ChatGPT相比,存在一定差距,下一步升级的重点功能也是这一块。

大模型自己也说:“我的代码生成功能仍然有限,可能无法满足复杂的业务需求”。

点评:目前星火认知大模型对于简单的代码问题不大,但在涉及到一些复杂问题,架构时,则需保持警惕,其生成内容只能作为参考,站在开发者的角度,需要自行检查代码的正确性、可靠性和保密性等等。

02大模型竞速,落地为王

通过上文的实测,星火大模型的表现已经很好的回答了文章开头的提问,也确实具备与头部大模型掰掰手腕的实力,在各项能力中,如刘庆峰所说的,文本生成、知识问答、数学能力这三项表现出有别于友商竞品的长板。

除此之外,星火大模型的差异性还体现在商业化的落地实践,表现出更强的进攻性。

科大讯飞之所以能够突然爆发,给到行业惊喜,其实是从诞生之时起就开始进行铺垫了。

24年前,6个中科大在校学生喊出,“要把中文语音做到世界最好”,这也成了科大讯飞创业的初心。

2011年,科大讯飞承建语音及语言信息处理国家工程实验室,跻身人工智能“国家队”,提出“让机器像人一样能听会说。” 

2014年,科大讯飞推出“讯飞超脑计划”,明确提出:让机器像人一样能理解会思考。

2022年,又升级为“讯飞超脑2030计划”,提出让懂知识、善学习、能进化的通用人工智能技术成为每个人未来发展的重要机会,让机器人走进家庭。

从学界到产届,从输入法到翻译机,科大讯飞一直深耕于语音语义领域,继而形成了对认知智能的独到理解和布局。

算法上,科大讯飞经验丰富,尤其擅长认知智能,仅去年就获得了常识阅读理解挑战赛OpenBookQA等13项世界冠军,开源了六个大类,超过40个通用领域的系列中文预训练语言模型。

数据上,在多年认知智能系统研发推广中积累了超过50TB的行业语料和每天超10亿人次用户交互的活跃应用。

算力上,讯飞总部有自建的数据中心,在工程技术方面实现了百亿参数大模型推理效率的近千倍加速,同时还与华为合作,大模型建立在安全可靠的国产算力平台之上。

所以,星火大模型发布的时间虽然较晚,但技术储备的时间却非常的长,继而由模型到产品落地的速度反而跑到了前面。

对于当前大模型的“涌现”,很多行业人士都旗帜鲜明的表率,大模型的应用不应只停留在人机对答的自我娱乐,而应与产业融合才能产生更大的价值。

刘庆峰也强调,“一个大模型系统到底好不好,首先要看它是不是能解决刚需、是不是真的有用,而不是一个简单的单点测试。”

因而星火大模型很大一个特点是,一方面不忌讳自己的缺陷和不足,勇于面向公众大规模开放,这也显示出科大讯飞超强的技术自信。

另一方面,实现了大模型在应用和产品层面的率先落地,通过学习机、智能办公本、汽车座舱交互系统、讯飞听见、数字员工等一系列产品,打通了“大模型+产品”的生态闭环,在数据和模型之间形成正向反馈循环的“涟漪效应”。

星火大模型落地的上述产品本身就拥有数量庞大的用户群体,自然而然会产生大量数据,数据反馈给模型后,在“涟漪效应”下,将推动模型的迭代更新,变得越来越强。

星火大模型的率先落地,表面上看以提升用户体验的方式,提高了讯飞产品的竞争力,特别是像学习机和智能办公本,几乎变成了完全不同的产品,更深层次的影响或将改变行业生产协同的行为模式。

03结语

科大讯飞是人工智能国家队,自身也有非常强的AI标签,因而在拥抱大模型这件事情上,一定比像百度、华为这类拥有多条业务线,更多方向选择的科技巨头更加坚定。

在中国率先实现“智慧涌现”之前,科大讯飞还得对照着人工智能红利兑现的三大标准:“有没有看得见摸得着的真实应用案例,有没有能够规模化推广应用的产品,有没有统计数据能够证明的应用成效”,继续夯实科研、产品和服务这些基础工作,这样才能经得住时间的考验,真正迎来星火燎原。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16177.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

直连Colab,支持20种编程语言:谷歌版ChatGPT代码水平反杀了?

视学算法报道 编辑:泽南、小舟 Bard 现在可以生成代码、Debug、并帮你解释代码。 虽然过去十几年里一直引领全球 AI 进步,谷歌在过去的几个月却只能努力追赶微软和 OpenAI 的步伐,为此这个星期甚至还把谷歌大脑和 DeepMind 合并到了一起。 去…

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型...

来源 :机器之心 大语言模型「七雄争霸」,看谁拔得了头筹。 大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。然而,聊天机器人是出了名的难以…

用文心一言把欧小鹏里常问的问题问了一遍

个人主页 | OpenI注册地址 | Github主页 欧小鹏, 针对LLM的社群机器人. 行外人觉得特简单, 一般化; 行内人觉得有特殊价值, 还可以. 要不要给欧小鹏换个头像: 这是换, 还是不换啊? 一直关注, 十分期待 昨天, 对于曾经在百度开源社区有着不深刻的"从业经验&…

多模态推荐系统最新进展总结

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年1月份热门报告合集 ChatGPT团队背景研究报告 ChatGPT的发展历程、原理、技术架构及未来方向 ChatGPT使用总结:150个ChatGPT提示此模板 ChatGPT数据集之谜 …

LLM总结(持续更新中)

最新的参见LLM-Summary 引言 当前LLM模型火出天际,但是做事还是需要脚踏实地。此文只是日常学习LLM,顺手整理所得。本篇博文更多侧重对话、问答类LLM上,其他方向(代码生成)这里暂不涉及,可以去看综述来了…

清华发布首个最全大模型安全评测系统,ChatGPT登榜首!

夕小瑶科技说 原创作者 | 天于刀刀 Python当前大型语言模型的火爆程度我们不用再进行赘述了,伴随着百度文心一言打响国内商业大模型第一枪,华为盘古,阿里通义千问,智谱ChatGLM,科大讯飞星火等国内公司纷纷开始布局。 另一方面由于…

360+ChatGLM联手研发中国版“微软+OpenAI”

文章目录 人工智能福利文章前言360与智谱AI强强联合什么是智谱AI360智脑360GLM与360GPT大模型战略布局写在最后 ✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入:全栈弄…

45岁当打之年再创业,剑指中国版ChatGPT,这位美团联合创始人能否圆梦?

文 BFT机器人 “即便只有一个人,我也要出发。” 这是45岁的前美团联合创始人王慧文再次冲上创业沙场的“征战”宣言,这一次他的梦想是“组队拥抱新时代,打造中国OpenAI”。 01 当打之年, AI新梦再起航 “我的人工智能宣言&…

一支不足百人的团队创造了 ChatGPT :90 后挑大梁,应届生 11 人,华人抢眼

让全网沸腾的 ChatGPT,其背后团队不足百人。ChatGPT 发布以来,在短短 2 个月时间月活破亿,成为历史上用户增长最快的消费应用。有分析机构感叹:“在互联网领域发展 20 年来,我们想不出有哪个消费者互联网应用比它上升速…

ChatGLM2-6B本地部署

ChatGLM2-6B本地部署 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性: 更强大的性能:基于 ChatGLM 初代模型的开…

ChatGLM-6B 本地部署指南!

Datawhale干货 作者:宋志学,Datawhale成员 注意事项-写在最前 显卡需要至少6GB的显存使用GPU部署模型需要自行安装torch和与自己显卡匹配的CUDA、cudnn 下载ChatGLM-6B 在GitHub上下载chatglm-6b的源码,地址如下 https://github.com/THUDM/C…

如何在本地部署运行ChatGLM-6B

在本篇技术博客中,将展示如何在本地获取运行代码和模型,并配置环境以及 Web GUI,最后通过 Gradio 的网页版 Demo 进行聊天。 官方介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM)…

统计行业板块内涨停板数量,跟踪热点板块!股票量化分析工具QTYX-V2.6.0

前言‍‍ QTYX系统结构如下所示: 功能概述 目前A股市场的股票每天是有限制最大涨幅的,也就是涨停的概念。比如主板个股最大涨幅是10%,创业板个股最大涨幅是20%等。 对于个股而言并不是随随便便就能被推到涨停板的,它的背后是主力资…

股票数据分析

股票数据分析 前面我们介绍了Spark 和 Spark SQL,今天我们就使用 Spark SQL来分析一下我们的数据,今天我们主要分析一下股票数据 数据准备 这里郑重申明,我们的全部数据来自tushare, tushare 是一个免费提供各类金融数据 , 助力智能投资与…

华为版 ChatGPT“盘古 Chat”2023年7月7日正式发布

据某些媒体称,华为公司将发布一款直接对标 ChatGPT 的多模态千亿级大模型产品,名为“盘古 Chat”。 据介绍,盘古大模型于 2020 年 11 月在华为云内部立项成功。这款“盘古 Chat ”预计将于今年 7 月 7 日举行的华为云开发者大会 (HDC.Cloud …

苹果上演“无间道”?故意泄露假消息“钓鱼”,成功抓获 iOS 17 内部爆料者...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在今年 3 月底,苹果预告了 WWDC23 大会的时间:北京时间 6 月 6 日至 10 日。据外媒预测,iOS 17、新款 MacBook Air 和 M3 芯片都有可能在本次大会中亮相。 然而对于…

被 Google 裁掉的 Golden 12K:开源开发者成重灾区,61 岁再求职!

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 2022 被视为全球经济的低谷期,如今 2023 新一年的到来,被众人赋予了很高的期望。 然而,新年伊始,全球科技巨头之一的 Google 最新宣布大规模裁员的消息&a…

简单聊聊工程质量中研发需要关心的点

一、背景 作为程序猿,工程质量是我们逃不开的一个话题,工程质量高带来的好处多多,我在写这篇文章的时候问了一下CHATGPT,就当娱乐一下,以下是ChatGPT的回答: 1、提高产品或服务的可靠性和稳定性。高质量的系…

ChatGPT不会很快接管人类工作,AI也不会免费打工

ChatGPT 等大模型的相继发布,让很多人倍感压力,害怕 AI 会很快接管他们的工作。对此,OpenAI 也曾发表过一项研究,表明 ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。事实到底如何呢? …

AI辅助编程实践-Copilot

引言 在ChatGPT的浪潮下,当前大模型普遍引入了编程问题平台以及大量代码数据来训练逻辑和问答能力,同时大模型本身具备的自然语言理解和处理能力,使得我们可以与大模型进行代码编程上的交流与咨询,大大减少我们在一些琐碎事务上的…