“超越”(MMCU)中文通用大语言模型测试集预发布

近期,中文大语言模型蓬勃发展,但却一直没有出现可应用于评测大模型能力的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配测试中文大模型的数据集,并将其命名为“超越”

数据集的测试内容涵盖四大领域医疗、法律、心理学和教育。通过综合评估模型在多个学科上的知识广度和深度,能够帮助研究者更精准地找出模型的缺陷,并对模型的能力进行打分。

简介

自ChatGPT发布以来,大语言模型(LLMs)保持着在计算机科学技术与自然语言处理领域的热度,并且仍不断升温。ChatGLM、 MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型也接连发布。这些模型有着庞大的数据规模,通过广泛的预训练以达到能够正确理解人类话语和指令并生成类似人类语言的文本的能力。

目前,针对英文大语言模型已经有较为完善的评测方式,如2021年由Dan Hendrycks等人发布的MMLU。然而,针对中文大语言模型能力的测试仍然缺失,推出高质量中文评测数据集已经迫在眉睫。

于是,甲骨易AI研究院制作了一个大规模的多任务测试数据集——“超越”(Massive Multitask Chinese Understanding)。“超越”的意义是希望中文大语言模型“超”出多数模型只能基于英文数据集测试的现状,通过发现大模型的缺陷,从而促进大模型理解中文语言的能力,使其“越”来越强大。

“超越”所包含的题目由来自不同知识分支的单项和多项选择题组成。数据集中的问题是由专业人员从公开免费资源中收集,覆盖学科面广,专业知识难度高,适合用来评估大模型的综合能力。

为了测试数据集的可行性和效果,甲骨易AI研究院在正式公开前已经使用其对目前开源的大模型进行了评测。“超越”数据集预计于2023年5月20日正式公开发布获取方式,具体发布相关信息详见文末。

接下来,将对“超越”数据集(MMCU)中所收录的题目进行介绍,并基于测试结果分析数据在语言模型训练过程中的重要性。

多任务测试

“超越”数据集(MMCU)的测试内容来自医疗、法律、心理学和教育四个大类的题目,包含单项选择和多项选择题,目的旨在使测试过程中模型更接近人类考试的方式。

数据集共收集了11900个问题,将其分成 few-shot开发集和一个测试集。few-shot开发集每个主题有5个问题,共有55个问题;测试集共有11845个问题。

下面分别对不同领域测试题目的学科和子任务示例进行展示。

医疗

医疗类题目来自大学医学专业考试,包括医学三基、药理学、护理学、病理学、临床医学、传染病学、外科学、解剖学等,共有2819个问题。

示例:

首次急性发作的腰椎间盘突出的治疗方法首选:

A. 绝对卧床休息,3 周后戴腰围下床活动

B. 卧床休息,可以站立坐起

C. 皮质类固醇硬膜外注射

D. 髓核化学溶解

法律

法律类题目来自国家统一法律职业资格考试,包括中国特色社会主义法治理论、宪法、中国法律史、国际法、刑法、民法、知识产权法、商法、经济法、劳动与社会保障法等,共有3695个问题。

示例:

根据法律规定,下列哪一种社会关系应由民法调整?

A. 甲请求税务机关退还其多缴的个人所得税

B. 乙手机丢失后发布寻物启事称:“拾得者送还手机,本人当面酬谢” 

C. 丙对女友书面承诺:“如我在上海找到工作,则陪你去欧洲旅游”

D. 丁作为青年志愿者,定期去福利院做帮工

心理学

心理学类题目来自心理咨询师考试和研究生入学考试心理学专业基础综合考试,包括心理学概论、人格与社会心理学、发展心理学、心理咨询概论、心理评估、咨询方法等,共有2000个问题。

示例:

把与自己本无关系的事情认为有关,这种临床表现最可能出现于:

A. 被害妄想

B. 钟情妄想

C. 关系妄想

D. 夸大妄想

教育

教育学题目来自中国普通高等学校招生全国统一考试(中国高考),包括语文、数学、物理、化学、政治、历史、地理、生物,共有3331个问题。

示例:

若圆锥的侧面积等于其底面积的3倍,则该圆锥侧面展开图所对应扇形圆心角的度数为( )。

A. 60°

B. 90°

C. 120°

D. 180°

评测过程

依靠以上获取到的优质数据,可以开始对大模型的能力评测。下面将介绍本次评测的一些模型和评测方式。

评测模型:

Bloom系列:bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt

清华大学知识工程和数据挖掘小组:ChatGLM 6B

复旦大学:MOSS 16B

OpenAI:GPT-3.5-turbo

评测方式:zero-shot和few-shot

zero-shot模式:题目直接输入到模型以获取答案并计算准确率。

few-shot模式:先给模型提供5个问题和答案的例子,再附上问题让模型给出答案。

相关测试代码见:github.com/Felixgithub2017/MMCU

评测结果

通过比较各个模型的 zero-shot准确率(如图1和表1),GPT-3.5-turbo在四个领域的正确率都遥遥领先;MOSS 16B模型虽然有160亿参数,但准确率却只接近随机准确率(大约25%);bloomz_560m 模型的参数量最小,表现却超越了参数量更大的模型。评测结果体现了大模型的参数量不是评价大模型的唯一标准,在训练过程中数据的质量也应得到重视。

 测试结果还表明,所有模型在few-shot模式下都有不同程度的性能下降。例如,与 zero-shot 准确率相比,GPT-3.5-turbo 在语文、化学、政治子任务上的few-shot 准确率都有下降(见表2和表3)。

 表2 所有模型在教育子任务上的few-shot准确率

 表3 所有模型在教育子任务上的zero-shot准确率

结论

大模型训练通常采用海量互联网公开数据,因此数据高效筛选以及垂直领域高质量数据的标注也非常重要。通过测试发现,在四大领域中,所有模型的平均zero-shot的准确率均未超过0.5,这就证明了目前所有模型的中文训练数据还存在明显不足。

测试的结果表明,更大的模型参数量不一定带来更好的性能,而训练方式和所用数据质量也是至关重要的,需要得到更多的重视。研究者们应该考虑如何设计更好的建模方式以便更好地学习文本数据中蕴含的知识,并且思考如何准备或者标注优质的数据集,去使中文大模型获得更准确的理解能力和文本生成能力。

写在最后

综上,就目前而言,用于评测大模型的高质量中文数据集仍是稀缺资源,但行业内却亟需一种公开、科学的方式来测试大模型的能力。甲骨易AI研究院率先提出要制作出一套高质量的中文数据集,并迅速搜集整合数据资源完成了“超越”数据集,成为国内首家制作中文专门领域多任务数据集的研究单位。

甲骨易AI研究院致力于推动计算机信息科技与自然语言处理领域的发展,希望扩大中文语言在大模型中的应用,促进中文大语言模型的理解力与生成力。“超越”数据集(MMCU)正是为了帮助每一位正在LLMs和NLP方向研究的学者、专家以及工程师,携手促进中文大语言模型向着更准确、更智能、更优质的方向发展。后续,甲骨易AI研究院也依旧会根据反馈持续优化“超越”数据集。

甲骨易AI研究院预计于2023年5月20日14点甲骨易第三空间举办“超越”数据集发布会,我们诚挚地邀请您莅临。

如果您对该测试集感兴趣,可直接与小编联系 13552301021(微信同号)。

发布会报名链接:https://jinshuju.net/f/ig5SQP

报名二维码:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25715.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI挑战高考作文-实测ChatGPT、Bing、文心一言

这两天高考逐渐落下了帷幕,对于普通人来说,高考仍然是为数不多的,可以改变命运的机会。想起自己的高考,已经是好多年前,那时候一个人去市里面参加考试,第一次睡在不熟悉的床上,痒了一晚上&#…

企业寻求并购股权转让过程中,这些问题其实可以避免

股权融资是指企业的股东愿意让出部分企业所有权,通过企业增资的方式引进新的股东的融资方式,总股本同时增加,股权融资所获得的资金,企业无需还本付息,但新股东与老股东同样企业的赢利与成长。在企业试图通过股权交易促…

大童保险发生工商变更:安信信托彻底退出,德弘资本晋升为大股东

近期,安信信托(600816.SH)所持大童保险销售服务有限公司(下称“大童保险”)的全部股权冻结被悉数解除,涉及的冻结权益数额为4978.1344万元,解冻日期为2021年11月24日。 据了解,这部分…

2021年度并购重组中介机构排名(独立财务顾问/律所/审计/评估)

2021年,证监会并购重组委召开了34次会议,上会公司共计41家,审核通过了36家公司的并购重组项目,其中无条件通过18家,有条件通过18家,未通过5家;创业板并购重组委召开了2次会议,审核的…

WPS事件是扼杀国产软件的阴谋?支持国产化,别让信创无路可走

编者按:WPS事件让信创国产化的重要性再一次暴露出来。本文通过WPS事件分析了发展软件国产化的重要性,并介绍了老厂商天翎低代码平台是如何在国产化这块实践的。 近日,“WPS 被曝会删除用户本地文件”事件甚嚣尘上,多数人都在指责W…

两大行业领导者合并,索理思以46亿美元完成收购泰华施

美通社消息,索理思,一家全球领先的水资源密集型行业特种化学品制造商,之前宣布对泰华施控股有限公司的收购,以约46亿美元全现金交易的形式完成,于7月5日生效。泰华施是一家领先的卫生、感染预防和清洁产品及解决方案供…

去年今日我凭借这份文档,摇身一变成了被BAT看中的幸运儿

我足够努力,当然也足够幸运。现在把这份文档和这份幸运分享给你们。 JVM 线程 JVM内存区域 JVM运行时内存 垃圾回收与算法 JAVA 四种引用类型 GC分代收集算法 VS 分区收集算法 GC垃圾收集器 JAVA IO/NIO JVM 类加载机制 由于篇幅限制小编,细节内…

《花雕学AI》24:如何用万能Prompt公式与ChatGPT进行高效的对话测试

引言 你是否想要与人工智能进行有趣、有价值、有说服力的对话?你是否想要使用ChatGPT这个强大而灵活的对话生成器来创造出任何类型和主题的对话?如果是这样,那么你需要了解一个简单而强大的工具,就是万能Prompt公式。 万能Promp…

【自然语言处理】【大模型】LaMDA:用于对话应用程序的语言模型

LaMDA:用于对话应用程序的语言模型 《LaMDA: Language Models for Dialog Applications》 论文地址:https://arxiv.org/abs/2201.08239 相关博客 【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型 【自然语言处理】【大模…

微软开源 Visual ChatGPT,五天斩获两万 stars

除了大力投资 Open AI ,微软还亲自下场大搞 AI 。5 天前,微软开源了 Visual ChatGPT ,这个软件可以连接 ChatGPT 和一系列视觉模型,以实现在 ChatGPT 的聊天过程中发送和接收图像。 众所周知,尽管 ChatGPT 的功能非常强…

大模型混战,阿里百度华为谁将成就AI时代的“新地基”?

从算力基础到用户生态,群雄逐鹿大模型 自2022年stable diffusion模型的进步推动AIGC的快速发展后,年底,ChatGPT以“破圈者”的姿态,快速“吸粉”亿万,在全球范围内掀起了一股AI浪潮,也促使了众多海外巨头竞…

大模型竞逐,再造AI新格局

作者 | 辰纹 来源 | 洞见新研社 “面对AI时代,所有产品都值得用大模型重做一次。” 这是阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在2023阿里云峰会上对AIGC(生成式AI)进化的判断,在这背后则是由ChatGPT为起始点&…

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办!

第六届云安全联盟大中华区大会:数字技术引领数字安全生态建设,成功举办! 更多大会详情可微信搜索“国际云安全联盟公众号” 2023年4月13日,第六届云安全联盟大中华区大会(The 6th CSA GCR Congress)在上海…

语言大模型的进化轨迹

ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。 ChatGPT及相关LLM模…

GPT-4 遭投诉要求禁用,OpenAI 为何成为众矢之的?

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT、GPT-4 的迅速“出圈”,让 OpenAI 一战成名,外界对这家公司的关注度达到了前所未有的高度。 然而, 欲戴王冠,必承其重。在如此前沿的技术到来之际…

无法拥抱新技术?吴 军:ChatGPT不算新技术革命,带不来什么新机会

转载自 | 学人Scholar 吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。 4月3日晚上,得到直播间邀请到了计算机科学家、自然语言模型专家吴…

ChatGPT 未来会拥有自我情感和思维吗?

目前人工智能领域的专家和学者普遍认为,即使在未来,也很难确切地预测人工智能是否会产生真正的自我情感和思维。虽然人工智能系统可以在某些任务上表现出人类智能的某些方面,但是它们仍然无法像人类一样真正地感受情感或自主思考。 在目前的…

微软受冷落:遭遇传统合作伙伴“大叛逃”

关于微软即将升级到win8.1系统是不是微软承认了自身的win8系统的失败的讨论还未远去。但是这根微软的PC合作伙伴的关系却貌似不怎么大。 虽然微软不管是传统PC还是移动互联领域都积极布局,但是依然遭遇传统合作伙伴的“叛逃”。 对于微软而言,未来可能没…

微软CEO发话:今年停止加薪并减少奖金,网友:总比失业好!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 5 月 10 日,据 CNBC (美国消费者新闻与商业频道)报道 ,微软 CEO Satya Nadella 的一封电子邮件告知员工:微软今年不会为全职员…

微软推进万人裁员计划,砍掉 AI 部门整个道德和社会团队!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 自去年起至今,硅谷科技公司掀起“瘦身”潮可谓是一波接着一波。 据裁员数据统计网站统计,截止去年 11 月,美国科技行业裁员人数突破 10 万人&#xf…