【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

在这里插入图片描述

文章目录

  • 概述
    • 申请后直接使用大模型
    • 开源可本地部署
  • 通识数据集测评(C-Eval 、AGIEval、MMLU、SuperCLUE)
    • 自媒体报道
    • SuperCLUE:中文通用大模型综合性基准
    • C-Eval:中英测评(清华上交提出)
      • 当前排名(23.06.27)
      • 数据集内容
        • 具体的科目 如下图:
        • 数据量与试题示例
      • 论文中的测评结果
    • AGIEval:微软 中英文评测
      • 数据集内容
      • 人类与国外主流模型差异
    • MMLU : 英文试题
      • 部分测评结果
      • 试题内容

概述

中文英文模型,GPT-4性能是当着无愧的王者,但无法使用。中文评测平台榜单比较混乱,看个人使用习惯。
模型汇总: https://github.com/wgwang/LLMs-In-China

申请后直接使用大模型

  • 遇事不决- ChatGPT: https://chat.openai.com/
  • 百度-文心一言:https://yiyan.baidu.com/
  • 360智脑:https://chat.360.cn/
  • 阿里-通义千问:https://qianwen.aliyun.com/
  • 清华-chatGLM:chatglm.cn
  • 科大讯飞-星火:https://xinghuo.xfyun.cn/

开源可本地部署

中文:清华60亿参数 ChatGLM2-6B : https://github.com/THUDM/ChatGLM2-6B

通识数据集测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

自媒体报道

百度文心大模型3.5(ERNIE 3.5)
中文能力突出,部分超过 GPT-4 的表现;综合能力稍逊于GPT-4,但是平均能力超过chatgpt

在这里插入图片描述

SuperCLUE:中文通用大模型综合性基准

评测地址:https://github.com/CLUEbenchmark/SuperCLUE
在这里插入图片描述

C-Eval:中英测评(清华上交提出)

论文:一个用于基础模型评估的多层次多学科的中文评估套件
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

当前排名(23.06.27)

该榜展示了,GPT-4在困难问题, 科学技术工程数学(STEM)上的强大准确的回答能力。
而chatglm在人文和社会科学方面遥遥领先。
在这里插入图片描述

数据集内容

具体的科目 如下图:

4个圈分别表示:
人文学科(humanities)
社会科学(Social Science)
STEM是科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)四门学科英文首字母的缩写。
这些科目的不同颜色表示四个难度水平:中学、高中、大学和专业水平(professional)。
在这里插入图片描述

数据量与试题示例

在这里插入图片描述

论文中的测评结果

测评方式,API或者开源模型(weights)
在这里插入图片描述

AGIEval:微软 中英文评测

论文:AGIEval(一个以人为本的): A Human-Centric Benchmark for Evaluating Foundation Models.

该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试、包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛等

数据集内容

律师资格考试 (lawyer qualification exams)、
国家公务员考试 (civil servant exams)
GRE(Graduate Record Examination)是美国研究生入学考试)
GMAT(Graduate Management Admission Test)是经企管理类研究生入学考试)。
在这里插入图片描述

人类与国外主流模型差异

GPT-4
在这里插入图片描述

MMLU : 英文试题

测量大规模多任务语言理解:2009. Measuring Massive Multitask Language Understanding
该测试涵盖了57个任务,包括基础数学(elementary mathematics)、美国历史、计算机科学、法律等等。
用以测量模型是否,具备广泛的世界知识和问题解决能力

部分测评结果

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
在这里插入图片描述

试题内容

图来自论文
STEM是科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)四门学科英文首字母的缩写。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40387.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CnOpenData电商平台交易数据数据

一、数据简介 电子商务是网络化的新型经济活动,是推动“互联网+”发展的重要力量,是新经济的主要组成部分。通过电商平台获取的电商交易平台数据可以及时统计、监测数据,全方位跟踪分析电子商务市场的发展情况和发展环境&#xff…

chatgpt赋能python:Python如何关闭对话框?

Python如何关闭对话框? 如果你是一名Python编程经验丰富的工程师,你一定已经遇到过需要在Python中关闭对话框的场景。在这篇文章中,我将详细介绍如何处理这个问题,并提供一些有用的技巧和建议。 什么是对话框? 在编…

chatgpt赋能python:Python如何点击按钮关闭所有窗口

Python如何点击按钮关闭所有窗口 Python是一种高级编程语言,提供了各种编程功能和库,让程序员能够快速而有效地完成任务。在GUI编程中,关闭所有窗口是一项常见的任务。在本文中,我们将介绍如何使用Python点击按钮关闭所有窗口。 …

chatgpt赋能python:Python教程:如何关闭窗口

Python教程:如何关闭窗口 作为一门著名的编程语言,Python正日益成为越来越多开发者的首选。其简洁易读的语法和强大的功能,已经在各行各业的应用中占据了重要地位。 本篇SEO文章将会教您如何使用Python关闭一个窗口, 附有详细的代码示例。 …

chatgpt赋能python:Python怎么关闭运行窗口

Python怎么关闭运行窗口 在Python编程中,经常需要在运行代码后关闭窗口或是退出程序。本文将介绍几种方法来完成这个任务。 方法一:使用sys.exit() sys.exit()函数可以让Python程序立即退出。你可以在需要退出的时候调用这个函数。 import sys# 在代…

chatgpt赋能python:关于Python如何关闭窗口

关于Python如何关闭窗口 Python是一种广泛使用的编程语言,被越来越多的开发者采用。在Python开发中,窗口关闭是一个常见问题。以下是详细介绍如何关闭Python窗口的方法。 关闭Python窗口的方法 在Python中,有几种方法可以关闭窗口。以下是…

AI领域“百模大战”开始了!其中,这100家AI大模型最值得大家关注……

AI领域“百模大战”开始了!其中,这100家AI大模型最值得大家关注…… 中国进入“百模大战”,未来机会在哪?百模大战:最值得关注的100家AI大模型 有了产品就有了市场,有了江湖就有了竞争。 移动互联网时…

华东师范大学副校长周傲英:未来,中国需要什么样的数据库?

本文为华东师范大学副校长,CCF 会士周傲英教授在第一届 OceanBase 开发者大会带来的分享。欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/ 3 月 25 日,第一届 OceanBase 开发者大会在北京举行,华东师范大学副校…

2023世界人工智能大会开幕,马斯克、杨立昆等大佬又说了什么?

今年世界人工智能大会(WAIC)开幕说了些什么? 每年世界人工智能大会,行业大佬们都会带着不同的角色、身份与立场对AI这一颠覆性的概念发表看法。我们从今年人工智能大会开幕的4组发言和对话中总结出3个可能的趋势: 其…

5款“真香”AI工具推荐

工欲善其事,必先利其器。如何更好利用AI辅助学习,工作,搞钱,好用的AI工具必不可少。 推荐5个非常好用的AI工具,也是我目前使用频率比较高和准备使用的工具,很香。 Chatgpt不在此推荐中啊,在目…

九龙证券|美股止步三连涨!纳指下挫2.48%,中概股普跌

美东时刻周三,美股三大股指低开低走,止步三日连涨。道指跌646.89点,跌幅为1.95%,报32513.94点;纳指跌263.02点,跌幅为2.48%,报10353.18点;标普500指数跌79.54点,跌幅为2.…

第二证券|鲍威尔发声:释放重磅信号,美股大涨!中概股狂涨

大家早上好!昨夜今晨又有许多大事产生:美联储主席鲍威尔证明,12月开端或许放缓加息;微软涨逾1100亿美元,美股进入技能型牛市;小鹏轿车昨日暴升近50%,中概股11月涨逾40%;法、德不满美…

不知道如何录音转文字?分享两个实用方法

相信大家都有遇到过这种类似的经历——在会议上做记录,有时内容太多,记录的速度跟不上领导讲的速度。通常情况下,我们会选择录音的方式,将会议全程录下来,回去的时候再慢慢整理。但是回放录音的过程也会耗费我们很多时…

会议录音转文字(PC版)

如何将会议录音快速转换成文字 录音转文字的方法有很多种,下列分享其中一种: 所需软件: 1.剪映(pc) 2.办公软件wps(office)3.会议录音文件 剪映PC下载地址:https://lv.ulikecam.c…

Bing Speech微软必应语音认知服务-文字语音互转

本项目使用 Bing Speech API, Bot Framework, LUIS 实现在Unity内的中文语音文字互转,还可以在UWP应用完成语义分析。 1.添加必应语音 API 到你的订阅,地址 ,点击创建,并获取API密钥; 2.修改 SpeechManager.cs的Subscr…

怎么把录音转成文字?试试这几个录音转文字软件

在工作学习中,我们常常会将一些比较重要的事项录音下来,方便后续的整理记录。借助录音转文字软件,将录音内容快速转换识别为文字,可以让我们省时省力、提高工作效率。那有哪些录音转文字软件呢?今天就给大家介绍几款录…

知乎热议 如何利用ChatGPT搞科研?

学术志 2023-05-27 21:15 发表于北京 来源:QbitAI、量子位、知乎 编辑:学妹 △ 扫码加老师进入【AI学术交流群】 这位研究僧,GPT-4都发布了,你还在纯人工搞科研吗? 已经有人实测: ChatGPT科研全流程都能用…

WormGPT: 「邪恶版」ChatGPT的道德问题和威胁

WormGPT: 「邪恶版」ChatGPT的道德问题和威胁 摘要 本论文讨论了一款名为WormGPT的「邪恶版」ChatGPT的出现,并探讨了这种恶意AI模型所带来的道德问题和数据安全威胁。WormGPT是一个由黑客设计的,能够生成恶意软件的聊天机器人。该论文着重于分析WormGP…

贡献度分析

由来:依据帕累托分析中的帕累托法则(有兴趣的话可以自己百度一下)。在公司运营中,80%的利润常常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润。 因此,要想提高利润的话就要从80%那一大部分的利…