国内独家首发 | OpenCSG开源中文版fineweb edu数据集

01

背景

近年来,人工智能(AI)技术,特别是自然语言处理(NLP)的飞速发展深刻影响着各个行业。从智能客服到内容生成,从语音识别到翻译工具,NLP的应用已经无处不在。在这一领域中,预训练模型(Pre-trained Models)逐渐成为核心技术,它们通过在大规模语料库上进行训练,学习到丰富的语言知识和语义表达,为后续的下游任务提供了强大的支持。

预训练模型的效果在很大程度上依赖于其所使用的数据集,高质量的数据集能够让模型学习到更加准确和全面的语言特征,从而在各种应用场景中表现出色。然而,目前市面上大多数高质量的预训练数据集主要集中在英文领域,针对中文的高质量数据集则相对匮乏。虽然国内外一些公司和研究机构已经开始着手构建中文数据集,但数量有限,且数据质量参差不齐,难以满足快速发展的中文NLP应用需求。

在此背景下,OpenCSG算法团队决定发起一个重要项目:中文版Fineweb Edu数据集。Huggingface Fineweb Edu数据集在国际上已经有一定的知名度,其英文版本被广泛应用于教育领域的自然语言处理任务。然而,针对中文语言环境,仍然缺乏一个能够与之媲美的高质量数据集。为了弥补这一空白,OpenCSG的团队将Fineweb Edu数据集的构建经验引入中文领域,并根据中文的语言特点和教育需求进行了本地化的调整与优化。

此次发布的中文版Fineweb Edu数据集不仅填补了中文预训练数据集的空白,还标志着OpenCSG开源社区在推动中文NLP技术发展方面迈出了重要的一步。这一数据集的发布,将为国内外研究人员提供一个强大的工具,帮助他们在教育领域的NLP任务中取得更好的成果。OpenCSG作为国内大模型开源社区的代表,致力于将更多高质量的数据和模型资源带给全球的AI研究人员与开发者,以此促进AI技术的持续进步和广泛应用。

图片


02 

Huggingface Fineweb数据集介绍

Huggingface的FineWeb数据集在2024年5月31日首次发布,是一个面向大型语言模型(LLMs)预训练的大开源数据集,旨在推动自然语言处理领域的研究与应用。该数据集集合了来自CommonCrawl的96个快照数据,总共包含超过15万亿个token,占据44TB的磁盘空间。这些数据涵盖了从2013年至2024年的网页内容,通过精心设计的处理流程,FineWeb提供了丰富且多样的高质量语料资源,为训练更强大、更精确的语言模型提供了高质量数据。

图片

FineWeb数据集的构建不仅依赖于庞大的数据量,更在于其精细的处理过程。首先,在数据提取和清洗环节,Huggingface团队采用了先进的过滤策略来保证数据的质量。例如,他们使用了语言分类、URL过滤等方法去除非英语文本和不合适的内容,并应用了启发式过滤器来删除过度重复的内容或那些未能正确结束的文档。这些措施确保了数据集在保持规模的同时,拥有高质量的内容。

为了进一步提升模型的训练效果,FineWeb在去重处理上采用了MinHash模糊哈希技术。通过这项技术,团队能够高效地移除数据中的重复部分,从而降低了模型对重复内容的记忆,这对于提高模型在多样化文本理解上的表现至关重要。具体而言,FineWeb的数据去重过程包括逐个快照的去重和全局去重,这种多层次的去重策略确保了数据集的独特性和质量。

此外,FineWeb还推出了一个专门针对教育内容的子集——FineWeb-Edu。这个子集通过Llama-3-70B-Instruct模型生成的合成注释进行分类和过滤,最终形成了一个1.3万亿token的教育类数据集,特别适合用于教育领域的基准测试,如MMLU、ARC和OpenBookQA等。

图片

数据集链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu


03 

国内主流开源预训练数据集介绍

在构建高质量的中文预训练模型时,数据集的选择至关重要。以下是一些与我们数据来源相关的国内主流开源预训练数据集的介绍,这些数据集虽然提供了大量的中文数据,但其质量和处理方法各有不同,质量参差不齐。

1. CCI2-Data

为了解决中文高质量安全数据集的稀缺问题,BAAI于2023年11月29日开源了CCI(Chinese Corpora Internet)数据集,并在此基础上进一步扩展数据来源,采用更严格的数据清洗方法,完成了CCI 2.0数据集的构建。CCI 2.0由来自可靠互联网来源的高质量数据组成,经过严格的清洗、去重和质量过滤处理。数据处理包括基于规则的关键词和垃圾信息过滤、基于模型的低质量内容筛选,以及数据集内部和之间的去重处理。最终发布的CCI 2.0语料库总容量为501GB,是一个高质量且可靠的中文安全数据集。

2. SkyPile-150B

SkyPile-150B是一个专为大规模语言模型预训练设计的综合性中文数据集,涵盖了来自广泛的公开中文互联网网页的数据。为了确保数据质量,SkyPile-150B经过了严格的过滤、广泛的去重以及全面的敏感数据过滤处理。还使用了先进的工具,如fastText和BERT,来过滤低质量数据。该数据集的公开部分包含约2.33亿个独特的网页,每个网页平均包含超过1000个汉字。整个数据集共计约1500亿个tokens,纯文本数据的总容量达620GB,全部为中文数据。

3. IndustryCorpus

IndustryCorpus 是一个由BAAI发布的多行业中文预训练数据集,旨在提升行业模型的性能。该数据集总量约为3.4TB,涵盖了包括医疗、教育、法律、金融等在内的18个行业的数据。IndustryCorpus的数据来自Wudao等多个大型数据集,并经过22个行业特定数据处理操作的精细清洗和过滤,最终生成了1TB的高质量中文数据和2.4TB的英文数据。由于其丰富的行业覆盖和严格的数据处理流程,该数据集特别适用于行业特定的语言模型训练,已经在医学领域的模型训练中展示了显著的性能提升。

4. Tele-AI

TeleChat-PTD是一个从电信星辰大模型TeleChat预训练语料中抽取出的综合性大规模中文数据集,数据集的原始大小约为1TB,经过压缩后为480GB,共分为189个文件。该数据集的数据主要来源于网页、书籍和官方媒体等多种渠道。采用了规则和模型结合的方式对数据进行了相关的过滤,并进行了相似性去重,但要训练好的模型还需要更高质量的处理。

5. MAP-CC

MAP-CC(Massive Appropriate Pretraining Chinese Corpus)是一个规模庞大的中文预训练数据集,专为训练中文大模型而设计。该数据集包含800亿个Token,由多个子集组成,每个子集都来自不同的数据源,如:博客、新闻文章、中文百科全书、中文学术论文、中文图书等。尽管MAP-CC进行了一系列的去重处理和低质量数据筛除,但以客观的眼光来看数据质量还是偏低,往往需要进一步筛选才能用于训练。


04 

Chinese Fineweb Edu 数据集构建方法

数据集简介

Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。

图片

下载地址:

OpenCSG社区:https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu

huggingface社区:https://huggingface.co/datasets/opencsg/chinese-fineweb-edu

筛选方法

在数据筛选过程中,Chinese Fineweb Edu 数据集采用了与 Fineweb-Edu 类似的筛选策略,重点关注数据的教育价值和内容质量。具体筛选步骤如下:

  1. 教育价值评估:首先使用csg-wukong-enterprise打分模型对样本的教育价值进行评估,模型会根据样本内容的相关性和质量给出0-5的评分。在初步筛选阶段,我们选取了约100k条评分较高的数据。

  2. 打分模型训练:利用这100k条样本数据训练了一个BERT模型,用于对更大规模的预训练数据集进行文本打分。这一步确保了模型能够有效地识别出具有高教育价值的内容。

  3. 数据筛选:接下来,使用训练好的BERT模型对原始数据进行全面打分,仅保留得分大于4的数据。这一筛选过程极大地提高了数据集的质量和相关性,确保了其在教育领域的应用价值。

  4. MinHash去重:为避免重复内容对模型训练的负面影响,数据集采用MinHash算法对所有数据进行了去重处理。这种方法确保了数据的独特性,同时保留了多样化的教育内容。

图片

原始数据来源

Chinese Fineweb Edu 数据集的原始数据来源广泛,涵盖了多个国内主流的中文预训练数据集。这些数据集虽然在规模和覆盖领域上各有不同,但通过精细筛选和处理,最终为Chinese Fineweb Edu 数据集提供了坚实的基础。主要数据来源包括:

  • CCI2-Data:经过严格的清洗、去重和质量过滤处理,一个高质量且可靠的中文安全数据集。

  • SkyPile-150B:一个来自中国互联网上的1500亿token大规模数据集,经过复杂的过滤和去重处理

  • IndustryCorpus:一个涵盖多个行业的中文预训练数据集,包含1TB的中文数据,特别适合行业特定的模型训练

  • Tele-AI:一个从电信星辰大模型TeleChat预训练语料中提取出的高质量大规模中文数据集,包含约2.7亿条经过严格过滤和去重处理的纯中文文本。

  • MAP-CC:一个规模庞大的中文预训练语料库,结合了多种来源的高质量数据,特别针对中文语言模型的训练进行了优化

图片

这些多样化的数据来源不仅为Chinese Fineweb Edu 数据集提供了丰富的内容基础,还通过不同领域和来源的数据融合,提升了数据集的广泛适用性和全面性。这种数据整合方式确保了模型在面对多样化的教育场景时,能够保持卓越的表现和高质量的输出。

图片

打分模型

我们使用OpenCSG的csg-wukong-enterprise企业版大模型作为打分模型,通过设计prompt,让其对每一条预训练样本进行打分,分数分为0-5分共6个等级:

0分:如果网页没有提供任何教育价值,完全由无关信息(如广告、宣传材料)组成。

1分:如果网页提供了一些与教育主题相关的基本信息,即使包含一些无关或非学术内容(如广告和宣传材料)。

2分:如果网页涉及某些与教育相关的元素,但与教育标准不太吻合。它可能将教育内容与非教育材料混杂,对潜在有用的主题进行浅显概述,或以不连贯的写作风格呈现信息。

3分:如果网页适合教育使用,并介绍了与学校课程相关的关键概念。内容连贯但可能不全面,或包含一些无关信息。它可能类似于教科书的介绍部分或基础教程,适合学习但有明显局限,如涉及对中学生来说过于复杂的概念。

4分:如果网页对不高于中学水平的教育目的高度相关和有益,表现出清晰一致的写作风格。它可能类似于教科书的一个章节或教程,提供大量教育内容,包括练习和解答,极少包含无关信息,且概念对中学生来说不会过于深奥。内容连贯、重点突出,对结构化学习有价值。

5分:如果摘录在教育价值上表现出色,完全适合小学或中学教学。它遵循详细的推理过程,写作风格易于理解,对主题提供深刻而全面的见解,不包含任何非教育性或复杂内容。

我们记录了100k条数据及其得分,形成fineweb_edu_classifier_chinese_ data。将数据集中的得分作为文本打分的标签,我们训练了一个中文Bert模型 fineweb_edu_classifier_chinese,此模型能够为每条输入文本给出0-5分的得分。我们会进一步优化这个打分模型,未来,OpenCSG算法团队将开源fineweb_edu_classifier_chinese_data数据集以及fineweb_edu_classifier _chinese打分模型,以进一步推动社区的发展和交流。该数据集包含了经过精细标注打分的教育领域文本数据,能够为研究人员和开发者提供高质量的训练数据。

消融实验

经过精心设计的消融实验,我们旨在对比 Chinese-fineweb-edu 数据集与传统中文预训练语料的效果差异。为此,我们从 CCI2-Data、SkyPile-150B、TeleChat-PTD、IndustryCorpus 和 MAP-CC 这五个数据集中,随机抽取了与 Chinese-fineweb-edu 数据比例相同的样本,构建了一个对比数据集chinese-random-select

实验中,我们使用了一个 2.1B 参数规模的模型,预训练了 65k 步。在训练过程中,我们定期保存模型的 checkpoint,并在中文评测基准 CEvalCMMLU 数据集上进行了验证。下图展示了这两个数据集在评测任务中的表现变化趋势。

从结果可以清晰看出,使用 Chinese-fineweb-edu 训练的数据集在两个评测任务中均显著优于 chinese-random-select 数据集,特别是在训练到后期时表现出极大的优势,证明了 Chinese-fineweb-edu 在中文语言任务中的有效性和适配性。这一实验结果也进一步表明,数据集的选择和构建对模型的最终性能有着关键性的影响。

图片

图片

通过实验结果可以发现,在训练的靠后阶段,可能是由于进入了第2个epoch,且学习率进入快速下降阶段,训练的效果开始逐渐涌现,此时,使用chinese-fineweb-edu训练的模型,准确率有了明显的上升,而使用随机抽取的数据训练,则一直处于较低水平。这证明了chinese-fineweb-edu有更高的数据质量,适合作为模型预训练数据,在同样训练时间下,能够更快的提升模型能力。这一结果与英文版的fineweb-edu一致。

我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区,共同推动技术的进步。敬请期待数据集的开源发布!

消融模型链接

csg-wukong-ablation-chinese-random:

OpenCSG:https://opencsg.com/models/OpenCSG/csg-wukong-ablation-chinese-random

Hugging Face:https://huggingface.co/opencsg/csg-wukong-ablation-chinese-random

csg-wukong-ablation-chinese-fineweb-edu:

OpenCSG:https://opencsg.com/models/OpenCSG/csg-wukong-ablation-chinese-fineweb-edu

Hugging Face:https://huggingface.co/opencsg/csg-wukong-ablation-chinese-fineweb-edu


参考链接

  1. CCI2-DATA: 

    https://huggingface.co/datasets/BAAI/CCI2-Data

  2. IndustryCorpus:

    https://huggingface.co/datasets/BAAI/IndustryCorpus

  3. MAP-CC:https:

    https://huggingface.co/datasets/m-a-p/MAP-CC

  4. SkyPile-150B:

     https://huggingface.co/datasets/Skywork/SkyPile-150B

  5. TeleChat-PTD:

    https://huggingface.co/datasets/Tele-AI/TeleChat-PTD

作者及单位

原文作者:俞一炅、戴紫赟、Tom Pei      

单位:OpenCSG LLM  Research Team    

图片

欢迎加入OpenCSG开源社区

OpenCSG作为一家大模型开源社区,基于线上线下一体的CSGHub平台上开源了丰富的训练数据资产、模型资产可以供广大的爱好者免费获取。其中OpenCSG的 Open是开源开放;C 代表 Converged resources,整合和充分利用的混合异构资源优势,算力降本增效;S 代表 Software Refinement,重新定义软件的交付方式,通过大模型驱动软件开发,人力降本增效;G 代表 Generative LM,大众化、普惠化和民主化的可商用的开源生成式大模型。OpenCSG的愿景是让每个行业、每个公司、每个人都拥有自己的模型。我们坚持开源开放的原则,将OpenCSG的大模型软件栈开源到社区。欢迎使用、反馈和参与共建,欢迎关注和Star⭐️

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/416469.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Datawhale X 李宏毅苹果书 AI夏令营】深度学习自适应学习率(AdaGrad/RMSProp/Adam)及其调度

1、自适应学习率 理论上:在训练一个网络,训练到现在参数在临界点附近,再根据特征值的正负号判断该 临界点是鞍点还是局部最小值实际上:①在训练的时候,要走到鞍点或局部最小值非常困难;②多数还未走到临界…

一次性了解Neo4j图形数据库

Neo4j高性能的NoSQL图形数据库 它将结构化数据存储在网络(从数学角度叫做图)上而不是传统的表格中。 Neo4j是一个嵌入式的、基于磁盘的、具备完全事务特性的Java持久化引擎。 但它在数据表示上采用了图形模型,即数据以节点(Nod…

基于Yolov5_6.1、LPRNet、PySide6开发的车牌识别系统

项目概述 项目背景 随着车辆数量的不断增加,车牌识别系统在交通管理、停车场自动化等领域变得越来越重要。本项目利用先进的深度学习技术和现代图形用户界面框架来实现高效的车牌识别功能。 项目特点 高效识别:采用 YOLOv5_6.1 进行车牌定位&#xff…

【Day08】

目录 MySQL-多表查询-概述 MySQL-多表查询-内连接 MySQL-多表查询-外连接 MySQL-多表查询-[标量、列]子查询 MySQL-多表查询-[行、表]子查询 MySQL-多表查询-案例 MySQL-事务-介绍与操作 MySQL-事务-四大特性 MySQL-索引-介绍 MySQL-索引-结构 MySQL-索引-操作语法 …

Datawhale X 李宏毅苹果书 AI夏令营-深度学习入门task3:实践方法论

在应用机器学习算法时,实践方法论能够帮助我们更好地训练模型。 1.模型偏差 模型偏差可能会影响模型训练。举个例子,假设模型过于简单,即使找到的最好的函数也不能满足需求。这种情况就是想要在大海里面捞针(一个损失低的函数&am…

2023 ICPC 江西省赛K. Split

K. Split time limit per test: 3 seconds memory limit per test: 512 megabytes You are given a positive integer n and a non-increasing sequence ai of length n , satisfying ∀i∈[1,n−1],. Then, you are given a positive integer m, which represents the tot…

传统CV算法——背景建模算法介绍

帧差法 由于场景中的目标在运动,目标的影像在不同图像帧中的位置不同。该类算法对时间上连续的两帧图像进行差分运算,不同帧对应的像素点相减,判断灰度差的绝对值,当绝对值超过一定阈值时,即可判断为运动目标&#xf…

HarmonyOS开发实战( Beta5版)小程序场景性能优化开发指导

简介 小程序是一种轻量级的应用,它不需要下载、安装即可使用,用户可以通过扫描二维码或者搜索直接打开使用。小程序运行在特定的平台上,平台提供了小程序的运行环境(运行容器)和一些基础服务(小程序API&am…

Linux学习笔记5 值得一读,Linux(ubuntu)软件管理,搜索下载安装卸载全部搞定!(上)

本文记录Ubuntu操作系统的软件包管理。 一、背景 整个Linux系统就是大大小小的软件包构成的,在linux系统中,软件的管理非常重要,与其他操作系统不同,linux的软件包管理比较复杂,有时还需要处理软件包之间的冲突。本文…

【电池专题】软包电池封装工序

铝塑膜成型工序冲坑 铝塑膜成型工序,软包电芯可以根据客户的需求设计成不同的尺寸,当外形尺寸设计好后,就需要开具相应的模具,使铝塑膜成型。 成型工序也叫作冲坑,顾名思义,就是用成型模具在加热的情况下,在铝塑膜上冲出一个能够装卷芯的坑,具体的见下图。 …

使用VM创建centos7环境

目录 1、安装VMware Workstation1.1安装VMware Workstation pro 161.2激活VMware Workstation pro 16 2. 创建centos7虚拟机2.1 点击创建新的虚拟机2.2 配置iso镜像2.3开启虚拟机,安装centos7系统 3. 配置网络方法1:方法2:配置静态IP地址 4. …

js逆向--绕过debugger(一)

js逆向--绕过debugger 一、禁用断点二、一律不在此处暂停三、文件替换四、安装最新版火狐浏览器一、禁用断点 首先说明,以下所说的任意一种方法并不适用于所有情况,需要灵活使用。以网站(https://antispider8.scrape.center/page/1)为例,在开发者工具调试区点击停用断点按…

六、桥接模式

桥接模式(Bridge Pattern)是一种结构型设计模式,旨在将抽象与实现分离,使得两者可以独立变化。通过使用桥接模式,可以避免在多个维度上进行继承,降低代码的复杂度,从而提高系统的可扩展性。 组成…

STM32常用C语言知识总结

目录 一、引言 二、C 语言基础 1.数据类型 2.变量与常量 3.控制结构 4.数组与指针 5.字符串 6. extern变量声明 7.内存管理 三、STM32 中的 C 语言特性 1.位操作 2.寄存器操作 一、引言 STM32 作为一款广泛应用的微控制器,其开发离不开 C 语言的支持。C …

若依系统的学习

若依环境 介绍 ‌若依是一款快速开发平台(低代码),用于快速构建企业级后台管理系统,它提供了许多常用的功能模块和组件,包括权限管理、代码生成、工作流、消息中心等 官方地址: https://www.ruoyi.vip/ ‌基于Spring Boot和Spring Cloud‌…

vue axios发送post请求跨域解决

跨越解决有两种方案,后端解决,前端解决。后端解决参考Django跨域解决-CSDN博客 该方法之前试着可以的,但是复制到其他电脑上报错,所以改用前端解决 1、main.js做增加如下配置 import axios from axios Vue.prototype.$axios a…

入门数据结构JAVA DS——如何实现简易的单链表(用JAVA实现)

前言 链表(Linked List)是一种线性数据结构,它由一系列节点组成,每个节点包含两个部分:存储数据的部分和指向下一个节点的指针(或引用)。链表的结构使得它能够动态地增长和收缩,适合…

【c++】常量周边之const应用:常变量

【c】常量周边:常量概念及定义 承接上文,我们学习了常量的基础知识,在此基础上,本篇文章对于宏定义 #define 和常量 const进行深入学习。 目录 #define 预处理器 const:在常量方面应用 使用技巧 const与指针的结合 const 与 …

我的电脑/资源管理器里无法显示新硬盘?

前情提要 我新!买了一个京东京造的SATA3硬盘,一个绿联的SATA3转USB读取 现在我的电脑里只能显示我本地的C盘和D盘,不能显示这个接入的SATA盘。 系统环境:windows11 问题描述 在我的电脑里,只能看到我原本的C和D&…

民宿酒店预订系统V1.0.8

多门店民宿酒店预订管理系统,快速部署属于自己民宿酒店的预订小程序,包含预订、退房、WIFI连接、吐槽、周边信息等功能。提供全部无加密源代码,支持私有化部署。 V1.0.8修复房间预订状态无法筛选的问题 修复房间预订状态无法筛选的问题 修复…