国内首个大模型评测数据集(MMCU)问世加速完善国产AI产业图谱

在当下人工智能领域,大语言模型将为各行各业带来颠覆性的效率革命和体验升级,这已经成为了业界共识。借此,一场由ChatGPT引发的“百模大战”早已轰轰烈烈地拉开序幕,纵观整个科技圈,几乎所有高科技公司都在打造自己的大语言模型,更有专家断言,不出意外,将很快升级为“千模大战”。

面对国内大语言模型万箭齐发的局面,如何更好地提升大语言模型对中文的理解能力,更好地服务于全球的中文用户,甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding,简称MMCU)的大规模的多任务测试数据集,填补了中文大语言模型能力测试缺失的一大空白。5月20日,一场以“大模型实际应用与场景化落地”为主题的研讨沙龙暨“超越”MMCU测试数据集产品发布会在甲骨易第三空间拉开序幕。

 

本次沙龙由甲骨易AI研究院主办,来自中科院、北京大学、北京外国语大学、哈萨克恩斯坦国立大学等学术界代表,中关村软件园、小米、咪咕、快手、商汤、霖珑云、博思众智、智谱华章、中航出版传媒等产业界代表以及多家科技媒体代表出席了本次沙龙活动,并针对大语言模型的数据量与评价标准等相关话题,畅所欲言,展开了热烈的讨论。

向认知智能演进的过程

在本次沙龙活动中,北京外国语大学人工智能与人类语言重点实验室主任、多语自然语言处理研究中心主任李佐文进行了精彩的开场致辞。李佐文认为,语言智能包括对人类语言机理的研究以及对自然语言的技术处理研究两大板块,这两个领域都应深入研究,并肩发展,机器方能有望像人一样理解自然的语言,生成自然的语言。来自甲骨易的数据服务事业部负责人王敏在致辞中提及,甲骨易创始之初正是为了搭建人与人之间的沟通交流,跨越语言跨越文化之间的障碍,而当下正是要搭建人与机器,甚至是机器与机器之间的沟通桥梁——这也正是甲骨易AI研究院成立的初心。

                   图1:北京外国语大学人工智能与人类语言重点实验室主任 李佐文致辞

 

图2:甲骨易数据服务事业部负责人 王敏致辞

众所周知,人工智能技术在飞速演进。沙龙上,来自小米公司的大模型数据负责人彭力进行了以《小米遇上大模型》为主题的精彩演讲,他介绍了业界中定义的人工智能产业发展演变的四个层面:第一层叫运算智能层(早已实现),第二层叫感知智能层(目前已在多领域接近人类水平),第三层是认知智能(尚在推进中),第四层才是通用智能层(尚有距离)。其中,第三层的认知智能指的是在感知智能的基础上进一步的理解、思考和解释。他指出,我们正在向通用人工智能演进,而大语言模型则可以加速人工智能演进的进程与当前面临的技术难点,并展示了小米在大语言模型领域的最新进展。

图3:小米大模型数据负责人 彭力发言

实际上,ChatGPT最早主要是针对文本语料进行大规模的学习,后来数据参数达到了数千亿量级,便有了大语言模型的说法。彭力表示,在训练大语言模型的过程中,诸如广告等噪声数据,以及大量的同质化语料等因素都会影响训练的效果,甚至还会面临数据版权的风险。来自北京外国语大学的李佐文则在分享中直言,业界通过自然语言处理等办法,竭尽全力想让机器理解人类的语言,依旧是挑战重重。

国产中文大语言模型体系亟待完善

我们需要看清这样的现实,国内大语言模型和国际一流仍有差距,超越并非一朝一夕就可以实现。当下,国内厂商往往采取的是模仿与跟随策略,尽管未来有望弯道超车,甚至后来者居上,但当下就有一些厂商宣称将实现通用模型对标ChatGPT,中文大模型能够超越ChatGPT的当前版本,与之旗鼓相当,并在多领域做到业界领先,无疑这样的说辞,也只是停留在口号之上,尚未经过实践验证。

尽管对标ChatGPT等豪言壮语已响彻耳畔,但只凭借厂商只言片语的宣传描述,以及对特定数据评测案例的展示,其数据样本远远不足以及掺入了厂商的主观意愿,导致现有数据资料不足以展现各大厂商之间大模型技术能力之间的差异性,也使得用户很难真正了解各家技术能力的优势所在。在这样的背景之下,许多优秀的国产大模型被淹没在这种噪声当中,严重制约了国产大模型乃至人工智能产业的发展。因此,如何发现大模型的缺陷,以及如何更好地理解包括中文在内的人类语言文本?.....这一系列问题摆在了当下以ChatGLM、 MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型厂商面前。

鉴于国外率先开启了大模型研究,针对英文大语言模型已经有较为完善的评测方式,如2021年由Dan Hendrycks等人发布的MMLU。然而针对中文大语言模型,却仍处于空白。需要指出的是,国外的很多机构研究发现,数据量与分布对于训练模型的配比方式非常重要,Common crawl这种大数据集语言分布是不均匀的,英文占了46%,中文只占了5%。这样配比导致后续的大模型进行参照训练时,会发现在中文语料缺失的情况下,中文的理解能力是欠缺的,国内研究机构和人工智能企业都在去增补这些中文语料来提升中文能力。

与此同时,对理解中文的大语言模型及时加以客观公正的评价,使其“越”来越强大,也成为了当务之急。因此,甲骨易推出“超越”MMCU数据集恰逢其时,通过综合评估模型在多个学科上的知识广度和深度,能够帮助研究者更精准地找出模型的缺陷,并对模型的能力进行打分。

“把大模型当成一个真正的人类”

在分享过程中,来自甲骨易AI研究院的首席研究员Felix坦言,要评价这些大语言模型的基础能力,实际上是一个非常难以解决的问题。甲骨易凭借多年数据服务行业探索的技术优势,率先推出的针对于中文预训练大模型的大规模多任务评测数据集以及相应的评测方法,旨在衡量中文大模型在处理众多任务上的准确度,主要覆盖医疗、法律、心理学和教育四大领域,题目形式涵盖单项选择和多项的选择题,共包含11900个问题。

图4:甲骨易AI研究院 Felix发言

“我们是把大模型当作一个真正的人类来看待,”Felix如是说,测试集之所以涉及语、数、物理、化学这些科目,因为人工智能必须像人类一样,具备对于世界的基础的认知;而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。通过对多领域知识广度与深度的测试,甲骨易AI研究院可以帮助技术研发人员发现大语言模型在哪些领域有缺陷,或者说可能在其整体上都有缺陷。

沙龙上,中国科学院大学网络数据重点实验室的咸宁先生则针对MMCU测试集的使用情况进行分享,解释了测试数据集的分析原理,对几大模型的测试成果进行了展示与客观分析,并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题。

图5:中国科学院大学网络数据重点实验室 咸宁发言

通过发布会召开前开展的大模型测试发现,在本应有明显优势的语文科目中,国产大模型的表现却差强人意。Felix指出,现在很多模型评估还是处于人工评估阶段,甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差,但未来还将持续优化评测方式并扩充评测领域。

携手共建,未来可期

自ChatGPT的惊艳亮相,人类生活的方方面面已发生了巨变。大模型仍有许多难关亟待解决,借助超越MMCU评测数据集,一举打破市面上所有的大语言模型只能基于英文数据集去进行测试的现状,中文大语言模型将有望构建起一个完善的评测的体系,通过发现提升大语言的缺陷提升大语言模型对于中文的理解能力,更好地服务于全球的中文用户。

 

图6:大模型实际应用与场景化落地沙龙现场

“大模型的训练以及大规模评估需要大量算力。”甲骨易AI研究院最后表示,愿与业界更多机构联手,一道携手推进大模型的发展,加速人工智能技术的产学研用进程。超越评测数据集的发布,只是起点,甲骨易还将大有可为。更多精彩,敬请期待甲骨易第三空间未来更多活动。

MMCU论文链接:https://arxiv.org/abs/2304.12986 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57488.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你是想被ChatGPT改变,还是改变软件开发的未来?丨IDCF

星标关注,第一时间获取IDCF社区资讯,了解活动动态,福利多多不容错过! 人工智能技术的发展,正在深刻地改变着我们的生活和工作方式。在软件工程领域,ChatGPT作为一种新兴的人工智能技术,正在逐渐…

libphonenumber:Google的公共电话号码解析库

前言 以前在项目中碰到一个问题,测试提了个需求:接听接话使,皮套界面要能解析号码的来源地,并且要和系统的语言保持一致。这个问题说难不难,但是也不简单,一般情况下,我们可能会想到建立一个数…

有AI助手帮你,刷任何题都不吃力!

Rider如何配置AI助手? 前言:一、选择AI助手二、如何在Rider中配置CodeWhisperer三、使用方法四、分享你的AI解决方案 明明自觉学会了不少知识,可真正开始做题时,却还是出现了“一支笔,一双手,一道力扣&…

拒绝 AI 招聘、未来 20 年 AI 将产生重大影响?上万名“打工人”这么说……

整理 | 陈静琳 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 随着 ChatGPT 等相关 AI 系统的迅速发展,AI 技术已经在工作场所被广泛地运用,甚至某些老板在招聘和工作决策中也使用人工智能,不过,…

微信小程序开发template模板使用

在小程序开发过程中,一个项目需要在多处页面使用类似的模块,就需要创建模板减少代码量,同时提高代码复用度。小程序通过template 标签使用模板,template 标签的 is 属性与模板的 name 属性对应,data 属性代表传入模板的…

微信小程序-template模板使用

如下图,我在做华企商学院小程序的时候,课程搜索结果页和课程列表页结构是完全一样的,这时就非常适合使用模板来完成页面搭建。实现一次定义,到处使用。 模板 一、定义模板 1、新建一个template文件夹用来管理项目中所有的模板…

微信小程序模板template的使用

1、通过创建一个template的wxml 来写一个模板name是引用一个模板的入口 如在另一个wxml引入之后通过调用模板isname 就可以找到某个模板 2、模板的数据变化 模板内设置数据的时候如{{age}}此时别处调用模板的地方 data对象的key值必须是模板内的age 不然不会生效。 3.模板内也…

模板:微信小程序商城模板

该商成包含:首页、分类、拼团、个人中心及相关子页面,您只需申请相关appid填入相关位置即可使用,部分页面截图如下: 下载地址:

微信小程序模板信息【详】

前段时间做毕设用到过,怕以后会忘记,特地记录下,主要是发送模板信息和批量收集formid 一.发送模板信息 效果图 首先小程序发送模板信息需要以下几样参数 1.access_token 2.模板id 3.openid 4.formid 官方文档 https://developers.weix…

微信小程序的模板(template)使用详解

效果图 以MUI的实例首页和列表页面为实例 通过上图&#xff0c;可以看出两个页面的列表部分很相近&#xff0c;以每行作为单元制作模板。 template模板 1、模板存放的位置以及使用模板页面存放的位置 template模板的WXML <!--右侧无箭头 --> <template name"…

微信小程序 模板类 template实例

模板 WXML提供模板&#xff08;template&#xff09;&#xff0c;可以在模板中定义代码片段&#xff0c;然后在不同的地方调用。接下来博主将会以图文讲解&#xff0c;然后最后发出源码供大家参考。 文件结构 本文使用的模板类和模板结构如下&#xff1a; 定义模板 temp…

微信小程序开发之——模板

一 概述 WXML提供模板&#xff08;template&#xff09;&#xff0c;可以在模板中定义代码片段&#xff0c;然后在不同的地方调用定义模板时&#xff1a;使用 name 属性&#xff0c;作为模板的名字。然后在<template/>内定义代码片段导入模板&#xff1a;使用import导入…

【微信小程序模板直接套用】微信小程序制作模板套用平台

微信小程序模板直接套用是小程序制作的好工具&#xff0c;特别是对于没有太多代码基础的企业。下面我分享一个微信小程序模板直接套用平台&#xff0c;超60个行业的微信小程序制作模板套用&#xff0c;页面内容丰富样式多样的微信小程序制作模板套用。 微信小程序制作模板套用…

分享400个微信小程序模板和小程序设计模板

微信小程序模板和小程序设计模板介绍&#xff1a; 分享的微信小程序模板和小程序设计模板&#xff0c;涵盖各行各业的微信小程序功能界面设计模板&#xff0c;也有各种小程序开发的一些特效模板&#xff0c;一共400个&#xff0c;有需要的自取。 微信小程序模板和小程序设计模…

微信小程序----模板(template)

效果体验二维码 如果文章对你有帮助的话&#xff0c;请打开微信扫一下二维码&#xff0c;点击一下广告&#xff0c;支持一下作者&#xff01;谢谢&#xff01; DEMO下载 效果图 以MUI的实例首页和列表页面为实例 通过上图&#xff0c;可以看出两个页面的列表部分很相近&…

全网最详细中英文ChatGPT-GPT-4示例文档-表格智能生成从0到1快速入门——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门表格智能生成应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人&#xff0c;它能够理解图片和文字…

1 常见的HTTP股票数据接口整理 腾讯 新浪 网易 2019-08-02

写在前面 1 个股&#xff1a;作为量化投资的用户来说&#xff0c;个股K线一定只能使用复权数据来分析&#xff0c;比如说前复权。不然股票一旦分红&#xff0c;派发&#xff0c;不复权数据就会严重失真。 2 指数&#xff1a;指数可以理解成没有复权数据&#xff08;分红按自然…

腾讯控股2020研报部分内容

腾讯控股2020 前言 之前在写《腾讯2020年第三季度财报在哪看》的时候在萝卜投研下载了一份关于腾讯产业构成和战略研报。看完之外我就叹为观止&#xff0c;之后又反复看了七八次&#xff0c;虽然有收获&#xff0c;但是那毕竟是别人的研报&#xff0c;数据如何获取&#xff1…

〖产品思维训练白宝书 - 核心竞争力篇⑨〗- 产品经理核心竞争力解读之产品经理的规划能力对普通人的启发

说明&#xff1a;该文属于 产品思维训练白宝书&#xff0c;目前阶段免费开放&#xff0c;购买任意白宝书体系化专栏可加入TFS-CLUB 私域社区。福利&#xff1a;除了通过订阅"白宝书系列专栏"加入社区获取所有付费专栏的内容之外&#xff0c;还可以通过加入星荐官共赢…

〖全域运营实战白宝书 - 高转化文案速成篇③〗- 高打开率标题型文案的10大黄金法则

大家好&#xff0c;我是 哈士奇 &#xff0c;一位工作了十年的"技术混子"&#xff0c; 致力于为开发者赋能的UP主, 目前正在运营着 TFS_CLUB社区。 &#x1f4ac; 人生格言&#xff1a;优于别人,并不高贵,真正的高贵应该是优于过去的自己。&#x1f4ac; &#x1f4…