国内首个大模型评测数据集（MMCU）问世加速完善国产AI产业图谱

在当下人工智能领域，大语言模型将为各行各业带来颠覆性的效率革命和体验升级，这已经成为了业界共识。借此，一场由ChatGPT引发的“百模大战”早已轰轰烈烈地拉开序幕，纵观整个科技圈，几乎所有高科技公司都在打造自己的大语言模型，更有专家断言，不出意外，将很快升级为“千模大战”。

面对国内大语言模型万箭齐发的局面，如何更好地提升大语言模型对中文的理解能力，更好地服务于全球的中文用户，甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding，简称MMCU)的大规模的多任务测试数据集，填补了中文大语言模型能力测试缺失的一大空白。5月20日，一场以“大模型实际应用与场景化落地”为主题的研讨沙龙暨“超越”MMCU测试数据集产品发布会在甲骨易第三空间拉开序幕。

本次沙龙由甲骨易AI研究院主办，来自中科院、北京大学、北京外国语大学、哈萨克恩斯坦国立大学等学术界代表，中关村软件园、小米、咪咕、快手、商汤、霖珑云、博思众智、智谱华章、中航出版传媒等产业界代表以及多家科技媒体代表出席了本次沙龙活动，并针对大语言模型的数据量与评价标准等相关话题，畅所欲言，展开了热烈的讨论。

迈向认知智能演进的过程

在本次沙龙活动中，北京外国语大学人工智能与人类语言重点实验室主任、多语自然语言处理研究中心主任李佐文进行了精彩的开场致辞。李佐文认为，语言智能包括对人类语言机理的研究以及对自然语言的技术处理研究两大板块，这两个领域都应深入研究，并肩发展，机器方能有望像人一样理解自然的语言，生成自然的语言。来自甲骨易的数据服务事业部负责人王敏在致辞中提及，甲骨易创始之初正是为了搭建人与人之间的沟通交流，跨越语言跨越文化之间的障碍，而当下正是要搭建人与机器，甚至是机器与机器之间的沟通桥梁——这也正是甲骨易AI研究院成立的初心。

图1：北京外国语大学人工智能与人类语言重点实验室主任李佐文致辞

图2：甲骨易数据服务事业部负责人王敏致辞

众所周知，人工智能技术在飞速演进。沙龙上，来自小米公司的大模型数据负责人彭力进行了以《小米遇上大模型》为主题的精彩演讲，他介绍了业界中定义的人工智能产业发展演变的四个层面：第一层叫运算智能层（早已实现），第二层叫感知智能层（目前已在多领域接近人类水平），第三层是认知智能（尚在推进中），第四层才是通用智能层（尚有距离）。其中，第三层的认知智能指的是在感知智能的基础上进一步的理解、思考和解释。他指出，我们正在向通用人工智能演进，而大语言模型则可以加速人工智能演进的进程与当前面临的技术难点，并展示了小米在大语言模型领域的最新进展。

图3：小米大模型数据负责人彭力发言

实际上，ChatGPT最早主要是针对文本语料进行大规模的学习，后来数据参数达到了数千亿量级，便有了大语言模型的说法。彭力表示，在训练大语言模型的过程中，诸如广告等噪声数据，以及大量的同质化语料等因素都会影响训练的效果，甚至还会面临数据版权的风险。来自北京外国语大学的李佐文则在分享中直言，业界通过自然语言处理等办法，竭尽全力想让机器理解人类的语言，依旧是挑战重重。

国产中文大语言模型体系亟待完善

我们需要看清这样的现实，国内大语言模型和国际一流仍有差距，超越并非一朝一夕就可以实现。当下，国内厂商往往采取的是模仿与跟随策略，尽管未来有望弯道超车，甚至后来者居上，但当下就有一些厂商宣称将实现通用模型对标ChatGPT，中文大模型能够超越ChatGPT的当前版本，与之旗鼓相当，并在多领域做到业界领先，无疑这样的说辞，也只是停留在口号之上，尚未经过实践验证。

尽管对标ChatGPT等豪言壮语已响彻耳畔，但只凭借厂商只言片语的宣传描述，以及对特定数据评测案例的展示，其数据样本远远不足以及掺入了厂商的主观意愿，导致现有数据资料不足以展现各大厂商之间大模型技术能力之间的差异性，也使得用户很难真正了解各家技术能力的优势所在。在这样的背景之下，许多优秀的国产大模型被淹没在这种噪声当中，严重制约了国产大模型乃至人工智能产业的发展。因此，如何发现大模型的缺陷，以及如何更好地理解包括中文在内的人类语言文本？.....这一系列问题摆在了当下以ChatGLM、 MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型厂商面前。

鉴于国外率先开启了大模型研究，针对英文大语言模型已经有较为完善的评测方式，如2021年由Dan Hendrycks等人发布的MMLU。然而针对中文大语言模型，却仍处于空白。需要指出的是，国外的很多机构研究发现，数据量与分布对于训练模型的配比方式非常重要，Common crawl这种大数据集语言分布是不均匀的，英文占了46%，中文只占了5%。这样配比导致后续的大模型进行参照训练时，会发现在中文语料缺失的情况下，中文的理解能力是欠缺的，国内研究机构和人工智能企业都在去增补这些中文语料来提升中文能力。

与此同时，对理解中文的大语言模型及时加以客观公正的评价，使其“越”来越强大，也成为了当务之急。因此，甲骨易推出“超越”MMCU数据集恰逢其时，通过综合评估模型在多个学科上的知识广度和深度，能够帮助研究者更精准地找出模型的缺陷，并对模型的能力进行打分。

“把大模型当成一个真正的人类”

在分享过程中，来自甲骨易AI研究院的首席研究员Felix坦言，要评价这些大语言模型的基础能力，实际上是一个非常难以解决的问题。甲骨易凭借多年数据服务行业探索的技术优势，率先推出的针对于中文预训练大模型的大规模多任务评测数据集以及相应的评测方法，旨在衡量中文大模型在处理众多任务上的准确度，主要覆盖医疗、法律、心理学和教育四大领域，题目形式涵盖单项选择和多项的选择题，共包含11900个问题。

图4：甲骨易AI研究院 Felix发言

“我们是把大模型当作一个真正的人类来看待，”Felix如是说，测试集之所以涉及语、数、物理、化学这些科目，因为人工智能必须像人类一样，具备对于世界的基础的认知；而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。通过对多领域知识广度与深度的测试，甲骨易AI研究院可以帮助技术研发人员发现大语言模型在哪些领域有缺陷，或者说可能在其整体上都有缺陷。

沙龙上，中国科学院大学网络数据重点实验室的咸宁先生则针对MMCU测试集的使用情况进行分享，解释了测试数据集的分析原理，对几大模型的测试成果进行了展示与客观分析，并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题。

图5：中国科学院大学网络数据重点实验室咸宁发言

通过发布会召开前开展的大模型测试发现，在本应有明显优势的语文科目中，国产大模型的表现却差强人意。Felix指出，现在很多模型评估还是处于人工评估阶段，甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差，但未来还将持续优化评测方式并扩充评测领域。

携手共建，未来可期

自ChatGPT的惊艳亮相，人类生活的方方面面已发生了巨变。大模型仍有许多难关亟待解决，借助超越MMCU评测数据集，一举打破市面上所有的大语言模型只能基于英文数据集去进行测试的现状，中文大语言模型将有望构建起一个完善的评测的体系，通过发现提升大语言的缺陷提升大语言模型对于中文的理解能力，更好地服务于全球的中文用户。