COIG:首个大规模、可商用的中文开源指令数据!

2901903b1aa27660d3dccd17e13f7656.png

文 | ZenMoore

ChatGPT 出现后的这几个月,整个学界和业界的疯狂想必大家都已经看到了。

然而,在背各种各样的动物还有山海经怪兽的英语单词的时候,其实不妨停下来想一想复现中文 ChatGPT 到底缺什么?缺大模型吗?缺工程经验吗?缺 trick 吗?缺算力吗(确实缺...)?

先来看看比较火的那些“动物”做了什么:Alpaca[1](羊驼)用语言模型生成了一些指令数据,Baize[2](白泽)用 ChatGPT 生成了一些对话数据,Vicuna[3](小羊驼)用 ShareGPT 数据 (ChatGPT 用户分享的对话记录) 复现了不少 ChatGPT 效果......

种种迹象表明,数据还是那个最珍贵的资源。那什么样的数据更重要呢?

再来看看 ChatGPT 的关键几步:(1)大规模语料预训练;(2)监督指令精调(Supervised Instruction Fine-Tuning);(3)基于人类反馈的强化学习(RLHF)

对于(1)来说,中文其实不缺,从互联网上爬就是了;对于(3)而言,人工打分标注的成本相对而言低一些。所以,主要是指令数据的稀缺,导致语言模型精调的时候无法获得足够的监督训练,而且,还影响了后续 RLHF 的输入指令集的筹备。要知道,指令精调给模型带来的指令遵循能力,是具有很强的泛化性的,这样模型才能够更好地泛化到用户多种多样的指令上去(参考[4])。

可惜的是,相比于英文来说,开源的、大规模的中文指令数据实在是太少了......

因此,本文给大家推荐这么一批珍贵的中文数据:Chinese Open Instruction Generalist(COIG)第一期!

第一期总共发布了 5 个子数据集,包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令,总计 191k  数据,聚焦中文语料、数据类型多样、经过了人工质检与修正、数据质量可靠,而且可以商用。

论文标题:
Chinese Open Instruction Generalist: a Preliminary Release

论文机构:
北京智源人工智能研究院等

论文链接:
https://arxiv.org/pdf/2304.07987.pdf

数据链接:
https://huggingface.co/datasets/BAAI/COIG

经过人工验证的翻译通用指令(67,798)

作者对三个数据集进行了翻译工作,包括具有1,616个任务描述和示例的Super-Natural Instructions数据集,175个种子任务的Self-Instruct数据集,以及66,007个指令的Unnatural Instructions数据集。整个翻译过程分为自动翻译、人工验证和人工修正三个阶段,以确保翻译结果的准确性和可靠性。

在自动翻译阶段,作者将指令和实例的输入输出组合在一起,然后使用 DeepL 进行翻译。

在人工验证阶段,作者为注释者定义了四个标签,根据指令是否可用和需要的修正程度进行分类。作者使用两阶段质量验证方法进行人工验证,第一阶段由经验丰富的质量检查员进行验证,只有正确率超过95%的案例才能进入第二阶段。在第二阶段,专家质量检查员从总语料库中随机抽取200个案例进行验证。

在人工修正阶段,注释者需要将翻译后的指令和实例纠正为正确的中文三元组{指令,输入,输出},而不仅仅是保持翻译的准确性。这是因为在 unnatural instructions 中存在事实错误,这可能会导致LLMs出现 hallucination. 作者同样使用两阶段质量验证方法进行人工修正,第一阶段的正确率为97.24%。

人工注释的考试指令(63,532)

中国的高考、中考和公务员考试题目中包含各种问题类型和详细的分析,这些考试可以用来构建思维链(CoT)语料库用于增强模型推理能力。作者从这些考试中提取了六个信息元素,包括指令、问题背景、问题、答案、答案分析和粗粒度学科。这些语料库中的六个主要学科是语文、英语、政治、生物、历史和地质。数学、物理和化学问题很少在语料库中出现,因为这些问题通常包含难以注释的复杂数学符号。

7745962c3ab94ccf29a59a29462aecbe.png

人类价值观对齐指令(34,471)

为了尊重和反映不同文化背景所带来的主要差异,COIG数据集中的价值观对齐数据被分为两个独立的系列:

一组展示中文世界共享人类价值观的样本。作者选择了50个指令作为扩充种子,并使用中文世界通用的价值观对齐样本,生成了3,000个结果指令。另外一些展示特定区域文化或国家特定人类价值观的样本集。以下是数据示例:

658dfbceb1249fe02beff738d7d558df.png

反事实修正多轮聊天(13,653)

反事实修正多轮聊天数据集(CCMC)是基于CN-DBpedia知识图谱数据集构建的,旨在解决当前LLM中出现的幻觉和事实不一致的问题。数据集包含约13,000个对话,每个对话平均有5轮,共约65,000轮聊天。这些对话是在学生和教师之间进行的角色扮演聊天,他们在对话中参考相关的知识。77799add174ebba997500992d28ef72e.png

Leetcode 指令(11,737)

考虑到与代码相关的任务可能有助于LLM能力的涌现,作者从CC-BY-SA-4.0许可下的2,589个编程问题中构建Leetcode指令。这些问题包含问题描述、多种编程语言和解释(其中 834个问题尚没有解释)。编程语言分类统计如下图所示:

6720df3f931a17bb197e8f138e01f9f0.png

结语

COIG 是目前首个指令类型丰富且可商用的中文指令集,作者欢迎大家加入共建,一起扩充指令数据集类型和规模!

dcf6db47d2a094f98e8deb1cbbe0fe28.jpeg卖萌屋作者:ZenMoore

智源实习生🧐,爱数学爱物理爱 AI🌸 想从 NLP 和 System-2 出发探索人工认知的奥秘🧠🤖!即将进入 PhD 申请季,微信📩 zen1057398161 嘤其鸣矣,求其友声✨!

作品推荐

  1. 一文跟进Prompt进展!综述+15篇最新论文逐一梳理

  2. 图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

  3. 以4%参数量比肩GPT-3!Deepmind 发布检索型 LM,或将成为 LM 发展新趋势!?

a3b0c39e260a32e38c28337178033689.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 926af9ed919a03467c3c6bae50e7a811.png

[1] Alpaca: https://github.com/tatsu-lab/stanford_alpaca

[2] Baize: https://arxiv.org/pdf/2304.01196.pdf

[3] Vicuna: https://vicuna.lmsys.org/

[4] https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14826.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从GPT-1到GPT-4,再到未来的GPT-5,一文带你了解GPT的前世今生和未来!

原文:从GPT-1到GPT-4,再到未来的GPT-5,一文带你了解GPT的前世今生和未来! - 腾讯云开发者社区-腾讯云 引言 ChatGPT爆火的余热还没退去,GPT-4又横空出世,各大媒体都争相报道,朋友圈也在不断刷屏&#xff…

5张图看完《西游记》| 经典名著思维导图分享

📕四大名著之一《西游记》是家喻户晓的名著经典 📕被拍成电视剧后更是老少都爱 🖊作为中考名著,它的重要性就不用过多强调了 🖊今天奇奇就给大家整理了《西游记》的思维导图 - 💯包含有人物特点、人物经历…

云从大模型现场真机演示!考中考堪比ChatGPT,还秀了一波代码能力,创始人周曦:三种递进方式颠覆传统交互...

杨净 发自 凹非寺量子位 | 公众号 QbitAI 云从大模型,来了! AI四小龙最年轻的一个,交出了AI 2.0时代下的首份答卷。 大模型取名从容,结果在发布会现场,它直接与ChatGPT、GPT-4一较高下。 据称,最终评分结果…

清华博士、人大附中高级教师和渊:ChatGPT时代,孩子需要培养哪些能力?

5 月 13 日晚 20 点,清华大学理学博士、中国人民大学附属中学高级教师和渊老师,与图灵联合创始人刘江总编就“人工智能时代,孩子要如何做好准备”这一主题,进行了长达 2 个小时的深刻对谈。 和渊老师基于多年的教学经验&#xff0…

目标检测算法——收藏|小目标检测解决方案(三)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 一、数据增强策略 二、多尺度学习 三、上下文学习 四、生成对抗学习 五、无锚机制 在计算机视觉领域中&#xff0c;小目标检测是经常会遇到且令人头疼的问题。本期小海带简要介绍了5个提高小目标检测…

目标检测算法——医学图像开源数据集汇总(附下载链接)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 1.血细胞图像数据 2.眼病深度学习数据集 3.皮肤病数据集 4.膝关节 X 射线图像数据集 小海带整理不易&#xff0c;小伙伴们记得一键三连喔&#xff01;&#xff01;&#xff01; >>>一起交流…

目标检测算法——YOLOv5/YOLOv7改进之结合​RepVGG(速度飙升)

>>>深度学习Tricks,第一时间送达<<< 目录 RepVGG——极简架构,SOTA性能!!! (一)前沿介绍

目标检测算法——YOLOv5/YOLOv7改进之结合NAMAttention(提升涨点)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 NAMAttention&#xff0c;一种新的注意力计算方式&#xff0c;无需额外的参数&#xff01; &#xff08;一&#xff09;前沿介绍 1.NAM结构图 2.相关实验结果 &#xff08;二&#xff09;YOLOv5/YO…

目标检测算法——YOLOv5/YOLOv7改进之结合ConvNeXt结构(纯卷积|超越Swin)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 论文题目&#xff1a;A ConvNet for the 2020s 论文地址&#xff1a;https://arxiv.org/abs/2201.03545 源代码&#xff1a;https://github.com/facebookresearch/ConvNeXt 纯卷积主干网络&#xff01;可与…

​目标检测算法——YOLOv5/YOLOv7改进之结合​SOCA(单幅图像超分辨率)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 CVPR19 单幅图像超分辨率来了&#xff01;&#xff01;&#xff01; &#xff08;一&#xff09;前沿介绍 论文题目&#xff1a;Second-order Attention Network for Single Image Super-Resolution …

目标检测算法——3D公共数据集汇总(附下载链接)

​ >>>深度学习Tricks&#xff0c;第一时间送达<<< &#x1f680;&#x1f680;&#x1f680;近期&#xff0c;小海带在空闲之余&#xff0c;收集整理了一批3D公共数据集供大家参考。 整理不易&#xff0c;小伙伴们记得一键三连喔&#xff01;&#xff01;&…

人工智能前沿——未来AI技术的五大应用领域

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 一、航空航天 二、医疗保健 三、建筑行业 四、能源领域 五、供应链 未来人工智能技术发展的五大应用领域&#xff1a;航空航天、医疗保健、建筑行业、能源领域以及供应链。 一、航空航天 航空航天领…

目标检测算法——人脸识别数据集汇总(附下载链接)

>>>深度学习Tricks&#xff0c;第一时间送达<<< &#x1f384;&#x1f384;近期&#xff0c;小海带在空闲之余&#xff0c;收集整理了一批人脸识别数据集供大家参考。 整理不易&#xff0c;小伙伴们记得一键三连喔&#xff01;&#xff01;&#xff01;&am…

论文投稿指南——中文核心期刊推荐(机械、仪表工业2)

【前言】 &#x1f680; 想发论文怎么办&#xff1f;手把手教你论文如何投稿&#xff01;那么&#xff0c;首先要搞懂投稿目标——论文期刊 &#x1f384; 在期刊论文的分布中&#xff0c;存在一种普遍现象&#xff1a;即对于某一特定的学科或专业来说&#xff0c;少数期刊所含…

论文投稿指南——中文核心期刊推荐(计算机技术)

>>>深度学习Tricks&#xff0c;第一时间送达<<< &#x1f680; 写在前面 &#x1f431;‍&#x1f3cd; 本期开始&#xff0c;小海带会定期推荐各专业领域的中文核心期刊及论文投稿网址&#xff0c;供大家交流参考 ~ 《中文核心期刊要目总览》——是学术界…

论文投稿指南——中文核心期刊推荐(电子、通信技术)

【前言】 &#x1f680; 想发论文怎么办&#xff1f;手把手教你论文如何投稿&#xff01;那么&#xff0c;首先要搞懂投稿目标——论文期刊 &#x1f384;&#x1f388; 核心期刊在国内的应用范围非常广&#xff0c;核心期刊发表很多是国内作者晋升中的硬性要求&#xff0c;在…

改进YOLOv5/YOLOv7——魔改YOLOv5/YOLOv7提升检测精度(涨点必备)

&#x1f496;&#x1f496;>>>加勒比海带&#xff0c;QQ2479200884<<<&#x1f496;&#x1f496; &#x1f3c6;&#x1f3c6;>>>【YOLO魔法搭配&论文投稿咨询】<<<&#x1f3c6;&#x1f3c6; &#x1f431;‍&#x1f3cd;&…

论文投稿指南——中国(中文EI)期刊推荐(第1期)

&#x1f680; EI是国际知名三大检索系统之一&#xff0c;在学术界的知名度和认可度仅次于SCI&#xff01;&#x1f384;&#x1f388; 【前言】 想发论文怎么办&#xff1f;手把手教你论文如何投稿&#xff01;那么&#xff0c;首先要搞懂投稿目标——论文期刊。其中&#xf…

论文投稿指南——中国(中文EI)期刊推荐(第5期)

&#x1f680; EI是国际知名三大检索系统之一&#xff0c;在学术界的知名度和认可度仅次于SCI&#xff01;&#x1f384;&#x1f388; 【前言】 想发论文怎么办&#xff1f;手把手教你论文如何投稿&#xff01;那么&#xff0c;首先要搞懂投稿目标——论文期刊。其中&#xf…

目标检测算法——车辆牌照识别数据集汇总 2(附下载链接)

&#x1f384;&#x1f384;近期&#xff0c;小海带在空闲之余收集整理了一批车辆牌照识别数据集供大家参考。 整理不易&#xff0c;小伙伴们记得一键三连喔&#xff01;&#xff01;&#xff01;&#x1f388;&#x1f388; 目录 一、伊朗车牌数据集 &#x1f384;&#x1f3…