【Datasets】LLM数据集总结

【Datasets】LLM数据集总结

news/2024/10/28 20:20:12/文章来源:https://blog.csdn.net/yiqiedouhao11/article/details/143307550

本文旨在介绍多个用于测试大模型能力的数据集，包括数据集内容、数据量、格式、题型和链接

1. MMLU (Massive Multitask Language Understanding)

内容：涵盖57个主题，从高中到专业水平，涉及科学、人文、历史等，测试模型的广泛知识和推理能力。
数据量：57个主题共计14,000多道多选题。
格式：多选题，每题包含四个选项。
题型：多选题。
URL：MMLU on GitHub

2. C-Eval (Chinese Evaluation)

内容：专为测试中文语言模型设计，涉及基础学科、应用学科和通用知识，涵盖52个学科，适用于小学到本科层次。
数据量：共13,948个问题。
格式：多选题，每题有四个选项。
题型：多选题。
URL：C-Eval on GitHub

3. GSM8k

内容：包含小学数学的文本题目，测试模型的数理逻辑和推理能力。
数据量：8,000道题目。
格式：开放性题目，答案为纯数字或简短文本。
题型：填空题或解答题。
URL：GSM8k on GitHub

4. Math

内容：该数据集包含数学难题，覆盖从基础到高等数学领域，用于测试模型的数学推理和计算能力。
数据量：12,500道题目。
格式：开放性题目，答案通常为一个数值或方程解。
题型：填空题或解答题。
URL：Math Dataset

5. BBH (Big-Bench Hard)

内容：Big-Bench Hard 是一系列高难度语言任务的集合，挑战模型的复杂推理和知识能力。
数据量：涵盖数十个高难度任务，问题数量和内容随具体任务而不同。
格式：多种格式，包括多选题、填空题和生成式问题。
题型：混合题型。
URL：Big-Bench on GitHub

6. HumanEval

内容：由Python代码问题组成，测试模型的代码生成和编程能力。
数据量：164道编程题。
格式：编程题，要求输出正确的代码。
题型：代码编写题。
URL：HumanEval on GitHub

7. MBPP (Mostly Basic Programming Problems)

内容：基础编程问题，测试模型编程和代码生成的基本能力。
数据量：500道编程问题。
格式：编程题，要求模型生成正确的代码。
题型：代码编写题。
URL：MBPP on GitHub

8. AGIEval

内容：涵盖了GRE、SAT等标准化考试的题目，测试模型的学术知识水平和理解能力。
数据量：包含多个标准化考试的子集。
格式：多选题和填空题。
题型：多选题和填空题。
URL：AGIEval on GitHub

9. GaoKao-Bench

内容：中国高考题目，涵盖数学、语文、英语等多个科目，测试模型的知识储备和应用能力。
数据量：包含从多份高考试卷中整理的题目。
格式：多种题型，包括选择题、填空题、解答题等。
题型：多种题型。
URL：GaoKao-Bench on GitHub

备注

个人水平有限，有问题随时交流~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/458629.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Hive的数据存储格式

Hive的数据存储格式

目录一、前言二、存储格式 2.1、文本格式（TextFile） 2.1.1、定义与特点 2.1.2、存储与压缩 2. 1.3、使用场景 2.2、行列式文件（ORCFile） 2.2.1、ORC的结构 2.2.2、ORC的数据类型 2.2.3、ORC的压缩格式 2.2.3、ORC存储…

阅读更多...

LVGL移植教程（超详细）——基于GD32F303X系列MCU

LVGL移植教程（超详细）——基于GD32F303X系列MCU

版本：LVGL Kernel V8.3.0，运行压力测试Demo Stress首先放一张最终Stress Demo 运行图： 一、准备 1. GD32 Keil工程准备任意一个屏幕可以正常显示的GD32工程： 2. LVGL源码最新版现在已经是V9.2了，这里我选择了…

阅读更多...

XQT_UI 组件｜03 ｜加载组件 XQtLoading

XQT_UI 组件｜03 ｜加载组件 XQtLoading

XQtLoading 使用文档简介 XQtLoading 是一个自定义的加载动画组件，旨在为用户提供可配置的旋转花瓣动画效果。它可以在应用程序中用于指示加载状态，提升用户体验。特征可配置性：用户可以根据需求调整旋转周期、缩放周期、最大/最小缩放…

阅读更多...

Bi-LSTM-CRF实现中文命名实体识别工具(TensorFlow)

Bi-LSTM-CRF实现中文命名实体识别工具(TensorFlow)

项目源码获取方式见文章末尾！ 回复暗号：13，免费获取600多个深度学习项目资料，快来加入社群一起学习吧。 **《------往期经典推荐------》**项目名称 1.【MobileNetV2实现实时口罩检测tensorflow】 2.【卫星图像道路检测DeepLabV3P…

阅读更多...

关于嵌入式学习的一些短浅经验

关于嵌入式学习的一些短浅经验

一、写在前面感谢在 10.23，各位大佬对我进行的模拟面试，我也发现了我对知识的不熟练的部分，比如 IPC 方法和线程同步方法的知识。模拟面试第四期-已经拿到大厂 OFFER 的研究生大佬-LINUX 卷到飞起_哔哩哔哩_bilibili 然后，沈阳…

阅读更多...

uniapp+uniCloud前端独立开发全栈项目Vue3版本学习路线，轻松开发H5、微信小程序、APP

uniapp+uniCloud前端独立开发全栈项目Vue3版本学习路线，轻松开发H5、微信小程序、APP

概述嗨，大家好，我是爱搞知识的咸虾米，这个学习路线是uniappuniCloud生态开发微信小程序、H5、APP等实战项目，从零基础开始到各种类型的项目案例，使用比较新的vue3语法糖版本，通过前端的技术可以轻松开发上…

阅读更多...

微信小程序——消息订阅

微信小程序——消息订阅

首先用到的就是wx.requestSubscribeMessage接口。注意：用户发生点击行为或者发起支付回调后，才可以调起订阅消息界面 requestSubscribeMessage() {uni.requestSubscribeMessage({tmplIds: [],//需要订阅的消息模板的id的集合，一次调用最多可…

阅读更多...

Docker 常用命令全解析：提升对雷池社区版的使用经验

Docker 常用命令全解析：提升对雷池社区版的使用经验

Docker 常用命令解析 Docker 是一个开源的容器化平台，允许开发者将应用及其依赖打包到一个可移植的容器中。以下是一些常用的 Docker 命令及其解析，帮助您更好地使用 Docker。 1. Docker 基础命令查看 Docker 版本 docker --version查看 Docker 运行…

阅读更多...

向量检索学习记录

向量检索学习记录

1、Faiss Faiss是一个用于高效相似搜索和密集向量聚类的库；（支持单个/多个GPU）官方文档：Home facebookresearch/faiss Wiki GitHub 安装（如果编译有问题，有些选项需要关下，比如GPU, Python&a…

阅读更多...

从 Hadoop 迁移到数据 Lakehouse 的架构师指南

从 Hadoop 迁移到数据 Lakehouse 的架构师指南

从 Hadoop 到数据湖仓一体架构的演变代表了数据基础架构的重大飞跃。虽然 Hadoop 曾经以其强大的批处理能力统治着大数据领域，但如今的组织正在寻求更敏捷、更具成本效益和现代化的解决方案。尤其是当他们越来越多地开始实施 AI 计划时。根本没有办法让 Hadoop 为 A…

阅读更多...

【福建医科大学附属第一医院-注册安全分析报告】

【福建医科大学附属第一医院-注册安全分析报告】

前言由于网站注册入口容易被黑客攻击，存在如下安全问题： 暴力破解密码，造成用户信息泄露短信盗刷的安全问题，影响业务及导致用户投诉带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞 …

阅读更多...

微信机器人自动回复了解下

微信机器人自动回复了解下

现在使用微信来做私域营销和维护客户的非常多，在工作上会频繁地遭遇客户提出的相同问题，当我们的好友数量众多时，手动逐个回复可能会耗费大量的时间。幸运的是，多微管理系统的自动回复功能为我们带来了福音。帮助咱们解决这一难…

阅读更多...

原创作品——GIS和监控软件设计

原创作品——GIS和监控软件设计

这套数据可视化大屏软件UI设计旨在提供一个直观、高‌‌效且易于理解的界面，用于展示和分析大量的能源数据和信息。以下是关于该系统UI设计的详细介绍： 整体布局与设计风格： 界面以蓝色调为主，代表冷静、专业和科技的氛围。布…

阅读更多...

VisualStudio2022配置2D图形库SFML

VisualStudio2022配置2D图形库SFML

文章目录 1. 下载安装SFML库2. 创建C项目并配置SFML配置include目录和库目录链接SFML库配置动态链接库 3. 测试 1. 下载安装SFML库 SFML（Simple and Fast Multimedia Library）C库，适合2D游戏和图形界面，提供了以下模块&#xff1…

阅读更多...

通过conda install -c nvidia cuda=“11.3.0“ 安装低版本的cuda，但是却安装了高版本的12.4.0

通过conda install -c nvidia cuda=“11.3.0“ 安装低版本的cuda，但是却安装了高版本的12.4.0

问题直接通过 conda install -c nvidia cuda"11.3.0"安装得到的却是高版本的不清楚原理解决方法不过我们可以分个安装 runtime toolkit 和 nvcc 安装指定版本的 cudatoolkit 和 nvcc conda install -c nvidia cuda-cudart"11.3.58" conda instal…

阅读更多...

电机学习-SVPWM合成原理

电机学习-SVPWM合成原理

一、核心理论 SVPWM 算法的理论基础是平均值等效原理 ，即在一个开关周 T s T_s Ts内通过对基本电压矢量加以组合，使其平均值与给定电压矢量相等。引用于《现代永磁同步电机控制原理及MATLAB仿真》二、合成原理在扇区 I 为例： 矢量 U o…

阅读更多...

【实用知识】Spring Boot 优雅捕捉异常的几种姿势

【实用知识】Spring Boot 优雅捕捉异常的几种姿势

👉博主介绍： 博主从事应用安全和大数据领域，有8年研发经验，5年面试官经验，Java技术专家，WEB架构师，阿里云专家博主，华为云云享专家，51CTO 专家博主 ⛪️ 个人社区&#x…

阅读更多...

【损害和风险评估＆坑洼】路面坑洼检测系统源码＆数据集全套：改进yolo11-DCNV3

【损害和风险评估＆坑洼】路面坑洼检测系统源码＆数据集全套：改进yolo11-DCNV3

改进yolo11-DLKA等200全套创新点大全：路面坑洼检测系统源码＆数据集全套 1.图片效果展示项目来源人工智能促进会 2024.10.24 注意：由于项目一直在更新迭代，上面“1.图片效果展示”和“2.视频效果展示”展示的系统图片或者视频可…

阅读更多...

【OpenAI】第五节（图像生成）利用 OpenAI 的 DALL·E 实现自动化图像生成：从文本到图像的完整教程

【OpenAI】第五节（图像生成）利用 OpenAI 的 DALL·E 实现自动化图像生成：从文本到图像的完整教程

引言 OpenAI 推出的 DALLE 工具因其能够生成令人惊叹的艺术作品而备受瞩目。DALLE 不仅能够生成静态图像，还能根据用户的需求进行风格化处理，创造出独特的艺术作品。通过 OpenAI 的 API，你可以轻松将 DALLE 的强大功能集成到你的 Python 程序…

阅读更多...

单反相机内存卡误删照片怎么办？别急，这里有恢复方法

单反相机内存卡误删照片怎么办？别急，这里有恢复方法

在摄影的世界里，单反相机无疑是众多摄影爱好者与专业摄影师的首选工具。它不仅能够捕捉细腻丰富的画面细节，还提供了高度的操作灵活性和可扩展性。然而，在使用单反相机的过程中，我们难免会遇到一些技术上的困扰，其中之…

阅读更多...

最新文章

推荐文章