IDC权威评测出炉，破解文心大模型3.5“大满贯”密码

作者 | 曾响铃

文 | 响铃说

12项指标中，7个满分，其中整体总分、算法模型、行业覆盖三大指标获得唯一的5分，绝对的行业第一。

这是IDC最新发布的《AI大模型技术能力评估报告，2023》中，百度文心大模型3.5取得的成绩。

近乎“大满贯”的表现，全景展现了文心大模型3.5从基础技术到产业应用的能力与行业地位。

百模大战背景下，这是第一次有来自权威机构的评测为业界进行大模型能力与价值的系统梳理。

7月初，百度方面就透露文心大模型已经迭代到3.5版本，实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，在能力效果上累计提升超过50%，训练速度提升了2倍，推理速度提升高达30倍，此外在内容安全性方面也得到了很大的提升。

现在，第三方机构又给出了全面而客观的评价，文心大模型坐实国内第一已经没有疑问。

那么，文心大模型3.5凭什么取得这样的成绩，凭什么得到这样的高度认可？

这一切，要从业界对大模型的根本诉求谈起。

“AI原生应用”才是大模型竞逐落脚点，业界呼唤权威评测一锤定音

“新的国际竞争战略关键点，不是一个国家有多少个大模型，而是你的大模型上有多少原生的AI应用，这些应用在多大程度上提升了生产效率。”

百度创始人、董事长兼首席执行官李彦宏在6月底世界互联网大会的一次演讲中指出。

大模型浪潮之所以广泛而深入，关键原因还在于各行各业都在期待大模型对原本的业务进行一次广泛而深刻的变革。

这种变革与过去AI应用只是“辅助”传统业务线不同，它是彻底再造。

例如，百度自己就宣布要在未来要把所有业务都围绕大模型重构，并已经在一些场景和应用上着手行动。

因此，尽管大模型浪潮汹涌，各种玩家纷纷入场，市面上大模型数量繁多，但最终能决定大模型价值的，一定是其能够催生和支撑多少深入产业的AI原生应用，能够多大程度上去改变产业、改变时代。

这时候，市场呼唤的就不只是大模型，而应该是能够达到这种预期的大模型。

问题来了，这么多的大模型，谁才是“值得信任和托付”的那个？谁才能真正推动AI原生应用？

过去，很多大模型的发布也伴随着某种“自我评价”，用一套自创的体系来给自己打个领先的分数。

现在，国际知名数据公司IDC在全面剖析AI大模型发展情况的提前下，选取中国市场14家大模型技术厂商进行综合评估，无疑成为当下最权威的评价参考。

有了权威评测一锤定音，谁最能符合AI原生应用的时代要求，也就有了可信的参考。

而文心大模型3.5的凸显，就是基于这个行业大背景，在多个维度实现了行业领先。

文心大模型3.5“大满贯”，行业第一背后是三大维度的领先

先用一个图直观感受下文心大模型3.5的“大满贯”：

此次IDC将大模型分为产品技术、服务生态以及行业应用三个层面进行测评，主要考察算法模型、通用能力、创新能力、平台能力、安全可解释、行业覆盖、生态合作、服务能力等指标。

文心大模型3.5在雷达图上处在绝对领先的地位，是技术突破者和产业应用引领者。

细化拆解IDC报告，可以发现文心大模型3.5事实上完成了三个维度的领先，它们共同坐实了文心大模型3.5“行业第一”的地位。

1、多维能力完备且深入：成为从技术到应用的“全能型选手”

大模型始于技术创新但终于全面的行业落地，一个优质的大模型首先需要在各个相关维度都做到出色，才能最终赢得市场选择、创造时代价值。

这体现在IDC报告中由三个层面、多个维度评价分数共同构成的整体总分上。

文心大模型3.5获得整体总分绝对第一，不仅没有“木桶短板”，更在每个维度环节上都领先行业，做到了“长木板”的全面配置。

例如，要产品能力，文心大模型3.5在算法模型、通用能力、创新能力、平台能力等维度全面领先；

要具体的应用落地，文心大模型3.5既有产业覆盖的广度，又有能源、金融等领域介入的深度，等等。

凡是大模型创新关联的维度所需要的，文心大模型3.5都以行业领先的姿态完全具备，成为领先的“全能型选手”。

2、单项能力扛鼎：在关键环节突破、掌握绝对话语权

在总体上“一个都不能少”后，考验大模型价值的，是特定的优秀单项能力。

满分的7项核心指标，文心大模型3.5获得了国内大模型“算法模型”维度评价唯一的满分，在技术上处在领先地位。

大模型最直接、最核心的能力来源是“算法模型”，它决定了大模型的效果、效率、成本乃至最终应用的价值。

“算法模型”的唯一满分，表明文心大模型3.5在数据、算法模型结构创新性、训练/推理成本优化等方面都做到了行业领先，将最终推动各行各业以更低门槛享受优质大模型的时代红利。

而宏观来看，算法的突破向来是大模型的竞争核心所在，文心大模型3.5获得IDC唯一满分的评价，某种程度上也表明其代表整个行业进行着能力的突围，在技术上引领国内大模型算法的发展，承载着行业发展的使命。

3、应用价值引领：应用深入融合一线业务

只有能够在具体产业场景中产生广泛而深度的价值，大模型自身的意义才能得以彰显。而评价大模型行业应用能力最直接的指标，是到底覆盖了多少行业，以及在行业中是否做到了与业务的深度融合、创造现实价值。

文心大模型3.5做到了行业覆盖绝对第一，这背后是百度在过去长期服务政企数智化转型过程中积累的“懂行”特性，推动文心大模型3.5已经提前进入广泛的产业落地探索阶段。

百度文心已经联合联合国家电网、浦发银行、泰康、吉利、哈尔滨市、深圳燃气、TCL、上海辞书出版社等企业单位，合作发布了11个行业大模型。

以能源电力为例，在全球最大的公用事业企业——国家电网有限公司，面向复杂电网的专业场景，基于百度文心大模型，百度与智研院联合训练电力行业大模型，在电网设备、客服等实际业务场景进行试点验证，可以显著增强电网运营的精细化、自动化、智能化水平。百度也和深圳燃气联合发布了燃气行业大模型，破解燃气企业运营场景繁杂、安全风险识别困难等难题。

目前，文心大模型已经拥有中国最大的产业应用规模，有15万家企业申请接入文心一言测试，百度智能云也与300多家生态伙伴在超过400个场景中取得相当不错的大模型应用测试效果。

未来，料想文心大模型还将在更多产业场景进行更深度的业务需求融合，如李彦宏所言，催生大量“AI原生应用”，切实“提升生产效率”。

回过头来看，文心大模型3.5引领大模型赛道的行业覆盖广度，与其在算法模型能力扛鼎又有直接的关联，后者支撑前者不断拓展，前者为后者提供持续的实践反哺，一个持续迭代提升的飞轮就此形成。

可以说，文心大模型3.5在这两个指标上的唯一满分，表达出“产品技术最为领先”、“行业应用最为广泛深入”二者相辅相成的关系，也为文心大模型3.5构建起牢不可破的护城河。

文心稳坐国内第一后，大模型产业生态“一超多强”格局已现

事实上，除了IDC报告，很多其他的专业评测也在佐证文心大模型的行业地位。

不久前，中国科学报公布了一项综合了AGIEval、C-Eval、MMLU三大权威基准测试的评测结果，显示文心大模型3.5在多个测试集的得分已超过ChatGPT，且中文能力超越GPT-4。

文心大模型3.5不仅在国内绝对领先，也实现了对国际主流大模型的超越，可以与当下最前沿的大模型掰手腕。

文心大模型3.5之所以能够做到这样的成绩，与百度过去的积累直接相关。

基于长期的AI创新与实践，在2019年，百度就开始深耕预训练模型研发，先后发布知识增强文心系列模型。

大模型是技术发展的一大步，却某种程度上只是AI的一小步，在这里不存在所谓“黑马”，能够凸显的只有那些长期在AI领域耕耘与实践的绩优“白马”。

百度已经实现了“芯片-框架-模型-应用”人工智能四层技术栈的独特优势，是全球为数不多的拥有全栈布局的科技公司，而且在每个层面都具备了领先的自研产品和技术。