IDC权威评测出炉,破解文心大模型3.5“大满贯”密码

作者 | 曾响铃

文 | 响铃说

12项指标中,7个满分,其中整体总分、算法模型、行业覆盖三大指标获得唯一的5分,绝对的行业第一。

这是IDC最新发布的《AI大模型技术能力评估报告,2023》中,百度文心大模型3.5取得的成绩。

近乎“大满贯”的表现,全景展现了文心大模型3.5从基础技术到产业应用的能力与行业地位。

百模大战背景下,这是第一次有来自权威机构的评测为业界进行大模型能力与价值的系统梳理。

7月初,百度方面就透露文心大模型已经迭代到3.5版本,实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,在能力效果上累计提升超过50%,训练速度提升了2倍,推理速度提升高达30倍,此外在内容安全性方面也得到了很大的提升。

现在,第三方机构又给出了全面而客观的评价,文心大模型坐实国内第一已经没有疑问。

那么,文心大模型3.5凭什么取得这样的成绩,凭什么得到这样的高度认可?

这一切,要从业界对大模型的根本诉求谈起。

“AI原生应用”才是大模型竞逐落脚点,业界呼唤权威评测一锤定音

“新的国际竞争战略关键点,不是一个国家有多少个大模型,而是你的大模型上有多少原生的AI应用,这些应用在多大程度上提升了生产效率。”

百度创始人、董事长兼首席执行官李彦宏在6月底世界互联网大会的一次演讲中指出。

大模型浪潮之所以广泛而深入,关键原因还在于各行各业都在期待大模型对原本的业务进行一次广泛而深刻的变革。

这种变革与过去AI应用只是“辅助”传统业务线不同,它是彻底再造。

例如,百度自己就宣布要在未来要把所有业务都围绕大模型重构,并已经在一些场景和应用上着手行动。

因此,尽管大模型浪潮汹涌,各种玩家纷纷入场,市面上大模型数量繁多,但最终能决定大模型价值的,一定是其能够催生和支撑多少深入产业的AI原生应用,能够多大程度上去改变产业、改变时代。

这时候,市场呼唤的就不只是大模型,而应该是能够达到这种预期的大模型。

问题来了,这么多的大模型,谁才是“值得信任和托付”的那个?谁才能真正推动AI原生应用?

过去,很多大模型的发布也伴随着某种“自我评价”,用一套自创的体系来给自己打个领先的分数。

现在,国际知名数据公司IDC在全面剖析AI大模型发展情况的提前下,选取中国市场14家大模型技术厂商进行综合评估,无疑成为当下最权威的评价参考。

有了权威评测一锤定音,谁最能符合AI原生应用的时代要求,也就有了可信的参考。

而文心大模型3.5的凸显,就是基于这个行业大背景,在多个维度实现了行业领先。

文心大模型3.5“大满贯”,行业第一背后是三大维度的领先

先用一个图直观感受下文心大模型3.5的“大满贯”:

此次IDC将大模型分为产品技术、服务生态以及行业应用三个层面进行测评,主要考察算法模型、通用能力、创新能力、平台能力、安全可解释、行业覆盖、生态合作、服务能力等指标。

文心大模型3.5在雷达图上处在绝对领先的地位,是技术突破者和产业应用引领者。

细化拆解IDC报告,可以发现文心大模型3.5事实上完成了三个维度的领先,它们共同坐实了文心大模型3.5“行业第一”的地位。

1、多维能力完备且深入:成为从技术到应用的“全能型选手”

大模型始于技术创新但终于全面的行业落地,一个优质的大模型首先需要在各个相关维度都做到出色,才能最终赢得市场选择、创造时代价值。

这体现在IDC报告中由三个层面、多个维度评价分数共同构成的整体总分上。

文心大模型3.5获得整体总分绝对第一,不仅没有“木桶短板”,更在每个维度环节上都领先行业,做到了“长木板”的全面配置。

例如,要产品能力,文心大模型3.5在算法模型、通用能力、创新能力、平台能力等维度全面领先;

要具体的应用落地,文心大模型3.5既有产业覆盖的广度,又有能源、金融等领域介入的深度,等等。

凡是大模型创新关联的维度所需要的,文心大模型3.5都以行业领先的姿态完全具备,成为领先的“全能型选手”。

2、单项能力扛鼎:在关键环节突破、掌握绝对话语权

在总体上“一个都不能少”后,考验大模型价值的,是特定的优秀单项能力。

满分的7项核心指标,文心大模型3.5获得了国内大模型“算法模型”维度评价唯一的满分,在技术上处在领先地位。

大模型最直接、最核心的能力来源是“算法模型”,它决定了大模型的效果、效率、成本乃至最终应用的价值。

“算法模型”的唯一满分,表明文心大模型3.5在数据、算法模型结构创新性、训练/推理成本优化等方面都做到了行业领先,将最终推动各行各业以更低门槛享受优质大模型的时代红利。

而宏观来看,算法的突破向来是大模型的竞争核心所在,文心大模型3.5获得IDC唯一满分的评价,某种程度上也表明其代表整个行业进行着能力的突围,在技术上引领国内大模型算法的发展,承载着行业发展的使命。

3、应用价值引领:应用深入融合一线业务

只有能够在具体产业场景中产生广泛而深度的价值,大模型自身的意义才能得以彰显。而评价大模型行业应用能力最直接的指标,是到底覆盖了多少行业,以及在行业中是否做到了与业务的深度融合、创造现实价值。

文心大模型3.5做到了行业覆盖绝对第一,这背后是百度在过去长期服务政企数智化转型过程中积累的“懂行”特性,推动文心大模型3.5已经提前进入广泛的产业落地探索阶段。

百度文心已经联合联合国家电网、浦发银行、泰康、吉利、哈尔滨市、深圳燃气、TCL、上海辞书出版社等企业单位,合作发布了11个行业大模型。

以能源电力为例,在全球最大的公用事业企业——国家电网有限公司,面向复杂电网的专业场景,基于百度文心大模型,百度与智研院联合训练电力行业大模型,在电网设备、客服等实际业务场景进行试点验证,可以显著增强电网运营的精细化、自动化、智能化水平。百度也和深圳燃气联合发布了燃气行业大模型,破解燃气企业运营场景繁杂、安全风险识别困难等难题。

目前,文心大模型已经拥有中国最大的产业应用规模,有15万家企业申请接入文心一言测试,百度智能云也与300多家生态伙伴在超过400个场景中取得相当不错的大模型应用测试效果。

未来,料想文心大模型还将在更多产业场景进行更深度的业务需求融合,如李彦宏所言,催生大量“AI原生应用”,切实“提升生产效率”。

回过头来看,文心大模型3.5引领大模型赛道的行业覆盖广度,与其在算法模型能力扛鼎又有直接的关联,后者支撑前者不断拓展,前者为后者提供持续的实践反哺,一个持续迭代提升的飞轮就此形成。

可以说,文心大模型3.5在这两个指标上的唯一满分,表达出“产品技术最为领先”、“行业应用最为广泛深入”二者相辅相成的关系,也为文心大模型3.5构建起牢不可破的护城河。

文心稳坐国内第一后,大模型产业生态“一超多强”格局已现

事实上,除了IDC报告,很多其他的专业评测也在佐证文心大模型的行业地位。

不久前,中国科学报公布了一项综合了AGIEval、C-Eval、MMLU三大权威基准测试的评测结果,显示文心大模型3.5在多个测试集的得分已超过ChatGPT,且中文能力超越GPT-4。

文心大模型3.5不仅在国内绝对领先,也实现了对国际主流大模型的超越,可以与当下最前沿的大模型掰手腕。

文心大模型3.5之所以能够做到这样的成绩,与百度过去的积累直接相关。

基于长期的AI创新与实践,在2019年,百度就开始深耕预训练模型研发,先后发布知识增强文心系列模型。

大模型是技术发展的一大步,却某种程度上只是AI的一小步,在这里不存在所谓“黑马”,能够凸显的只有那些长期在AI领域耕耘与实践的绩优“白马”。

百度已经实现了“芯片-框架-模型-应用”人工智能四层技术栈的独特优势,是全球为数不多的拥有全栈布局的科技公司,而且在每个层面都具备了领先的自研产品和技术。

特别是框架层的飞桨和模型层的文心实现了联合优化,前者最先进的大模型训练和推理部署技术能够帮助后者实现快速迭代,并实现效率和效果的提升。

现在,文心大模型还在不断发展。

例如,3.5版本新增的插件机制直接扩增了大模型的能力边界,在文心一言中,“百度搜索”插件让其具备生成实时准确信息的能力,长文本摘要和问答插件“ChatFile”插件则支持超长文本输入和摘要生成。下一阶段,文心一言还会发布更多优质官方插件和第三方插件,并将开放插件生态给第三方开发者。

今天的中国大模型赛道上,可以说,文心大模型3.5诠释了“比你厉害的还比你更努力”这句话。

面向未来,大模型的高入门门槛与能力差距的不断拉大,将逐步改变当下的百模竞逐行业格局。

未来的市场,只会留下那些能够完整、深度支撑AI原生应用的厂商,百度等少数玩家将形成一个个的生态核心,与垂直领域的生态伙伴一起赋能千行百业。

在这个过程中,稳坐国内第一、冲击全球领先的文心大模型将成为超级一极,与其他几个强力玩家一起以“一超多强”的格局推动繁荣的大模型时代到来。

*本文图片均来源于网络

*此内容为【响铃说】原创,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

#响铃说 Focusing on企业数字化与产业智能化升级,这是关注一切与创业、产业和商业相关的降本增效新技术、新模式、新生态 NO.351深度解读

【完】

曾响铃

1钛媒体、品途、人人都是产品经理等多家创投、科技网站年度十大作者;

2 虎啸奖评委;

3 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;

4 《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;

5 钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;

6 “脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;

7 腾讯全媒派荣誉导师、多家科技智能公司传播顾问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37374.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型对世界的改变,从一时一地,到无处不在、无时不有

作者 | 曾响铃 文 | 响铃说 大模型正在中国遍地开花,做过的没做过的都要过来参合一下。 汹涌浪潮中,不免有更多人开始关注那个最先发布的文心一言。 全球科技大厂中第一个发布GPT大模型产品的百度,在刚刚的中关村论坛上透露了一些文心一言…

服务器告别“独奏”时代 联想奏响“交响乐”

作者 | 曾响铃 文 | 响铃说 1964年,IBM发布了第一台真正意义上的服务器。 从此以后,服务器的发展与信息化、数字化、智能化的一波波浪潮同步,开启了超过半个世纪的悠久历程,见证时代的一次次巨变。 巨资砸技术创新&#xff0c…

商业智能上阵,城商行突围数字经济时代

作者 | 曾响铃 文 | 响铃说 ChatGPT爆火,究竟带来了什么? 有人说,它以一种面向C端的直观方式,让普罗大众第一次直观感受到“智能化”的能力和价值。 只要大胆“提出要求”,一个智能化的应用就能够“给出回应”&…

巴比特 | 元宇宙每日必读:马斯克指控微软非法使用推特数据训练其AI模型,数据所有权将成为AIGC热潮中的新“战场”?...

摘要:据财联社报道,推特现任老板埃隆马斯克周三(4月19日)指控微软公司非法使用推特的数据来训练其人工智能(AI)模型,还警告要起诉这家软件巨头。马斯克的诉讼警告反映了AI领域中的一个趋势&…

大模型混战,最先实现“智慧涌现”的会是谁?

作者 | 曾响铃 文 | 响铃说 几秒钟写出了一篇欢迎词; 小说人物乱入现实,快速创作不重样的故事; 鼠标一点,一封英文工作沟通邮件撰写完成; 准确解出数学应用题,还给出解题步骤; 甚至还能理…

三款AI工具分享,总有一款适合你

人工智能技术的发展已经改变了我们的生活,越来越多的AI工具正在被广泛应用于各个领域。ChatGPT这样的代表性AI模型正在大放异彩,为我们带来了无数的便利和惊喜。这些工具不仅提高了效率和准确性,还让我们深刻感受到AI技术在我们日常生活中的影…

三个既实用又便捷的AI工具,快来体验吧(中)

人工智能正在改变技术领域,而像OpenAI的ChatGPT这样的创新表明,它的影响力只会不断增长。然而,随着越来越多的个人和企业转向AI工具以提高生产力,处理不断增长的用户需求的可扩展解决方案的需求变得至关重要。 尽管存在这些挑战&…

除了ChatGPT,Openai旗下的这几个ai工具你必须知道

在正式发布仅 2 个月后,OpenAI 旗下的 ChatGPT 注册用户已经突破 1 亿。国内外巨头陆续准备发布类似 ChatGPT 的 AI 服务,一些掌握信息和技术的用户,正在探索基于 OpenAI 或者 ChatGPT 的衍生服务和项目,用户则是纷纷注册和探索 C…

三个既实用又便捷的AI工具,快来体验吧(下)

人工智能正在改变技术领域,而像OpenAI的ChatGPT这样的创新表明,它的影响力只会不断增长。然而,随着越来越多的个人和企业转向AI工具以提高生产力,处理不断增长的用户需求的可扩展解决方案的需求变得至关重要。 尽管存在这些挑战&…

利用AIGC生成软件的设计文档

文档撰写是程序员的另一个最大痛点,许多程序员宁愿写更多的代码也不愿写一行文档。 这可能是跟人脑的工作方式有关,写程序是利用左脑,注重逻辑思维,而写文档则是利用右脑,注重发散思维。这截然不同的思维方式是很多程…

微信销售技巧和话术

微信销售的过程就是将意向客户转化为成交客户的过程,最有效的方法就是抓住客户的心理需求,运用一些技巧和话术促成成单。 前言 微信销售话术,其实就是说服技巧,说服有意向客户转化为成交客户,这其中需要销售人员向客户…

10秒开场打动客户!外贸电话营销攻略和话术请查收

在外贸业务工作当中,电话是一个非常重要也非常有效的沟通手段。开场白目的是为了争取到沟通的机会。销售人员要在10秒内,引起客户的兴趣,否则客户就会走神和不耐烦,甚至直接挂断电话。短短的10秒,要说点什么&#xff0…

ChatGPT python 实现水环境可视化

在水环境实际分析中,往往要对采样数据进行可视化,方便分析判断。 现在有了chatgpt 可以更快更好的完成这一任务。 监测数据如下: 将数据直接发给chatgpt 提出需求,越精细越好。 他回答并返回结果: import pandas as…

chatgpt赋能python:Python动态实时轨迹绘图:让数据可视化更生动

Python 动态实时轨迹绘图:让数据可视化更生动 数据可视化是现代数据分析中不可或缺的一部分。在Python语言中,有许多工具和库可以帮助我们将数据转化为可视化的图表。然而,有些情况下,静态图表难以准确有效地展现数据的变化趋势和…

个人电子邮箱你都有哪个?微信能收发邮件吗?

每个人至少有一个属于自己的私人邮箱,像我的邮箱有qq、163、TOM VIP、gmail、yahoo等,每个都有不同的用途。我是不会一个个登陆查收邮件的,我常用的是无限容量的TOM VIP邮箱,而且我会把所有邮箱都绑定到客户端,统一收取…

如何通过微信上发送邮件呢,有用过的吗?

近几年,PC端的办公场景越来越多的被移动端所替代,移动化办公早已成为新的潮流趋势,电子邮箱同样不例外,除了目前已知的客户端APP外,基于微信平台的收发邮件是更“酷”的一种潮流选择。今天要分享下很多朋友提出的疑问如…

如何在微信收发邮件,邮箱品牌有哪些?

出差在外,面对紧急要处理,没有电脑极其不便。若有一款能在微信收发邮件的便捷产品,走到哪里,随时随地快速编辑传输,办公效率会大大提升。笔者最近发现TOM VIP邮箱的移动办公小助手,几乎集合了邮箱中所有便捷…

解决微信公众号注册提示“邮箱已被占用”(亲测)

背景 需要做第三方登录,微信扫码登录 需求分析 https://open.weixin.qq.com/ 前往注册 微信公众号注册提示“邮箱已被占用” 解决方案 用你QQ邮箱不同的名字注册(在邮箱设置-账户查看)

常用VIP邮箱有哪些功能?微信能接收邮件吗?

邮箱是人们日常生活的宠儿,免费邮箱几乎每个人都拥有。但是,容量小,传不了超大附件,时而接收不到消息,限制了很多人的使用。TOM VIP邮箱,众多功能,让您收发更无忧! 1、大空间无限容…

微信的“QQ邮箱提醒”接收发往网易163邮件

笔者想在微信实现163邮件提醒功能。搜寻网易163的公众号和小程序,都不能实现邮件提醒。后来发现可以在qq邮箱中设置接收发往163的邮件,然后在微信的“QQ邮箱提醒”提醒出来。 实现效果如下:(效果不是很明显,但可以在发…