大语言模型训练的数据集从哪里来？

大语言模型训练的数据集从哪里来？

news/2025/1/25 8:02:02/文章来源:https://blog.csdn.net/m0_66899341/article/details/145031343

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业，再谈谈大语言模型预训练数据集的优化思路。

1. GPT2使用的数据集是WebText，该数据集大概40GB，由OpenAI创建，主要内容爬取自Reddit平台的出站网络链接对应的网站，每个链接要至少有三个赞，以保障数据质量。

2. 但是WebText数据集不公开，仅OpenAI自己能使用，于是OpenWebText数据集（OpenWebText数据集）应运而生，该数据集搜集超过23亿个链接，大于WebText数据集。

3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等（纽约时报的新闻大概也被爬取了，所以有了后来的诉讼），大概570GB。

4. 以下是llama开源模型早期版本的预训练数据集来源，来源于多个数据集，大概4.8TB，比GPT3多了Github、ArXiv（开放的学术论文分享平台，Kaggle上也有它的数据集）还有StackExchange。

5. 写到这里可以说明为什么说互联网的数据没有被耗尽：

许多网站的数据是不可爬取的，有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右
封闭APP的数据不可爬取，以中文互联网为例，现在APP的数据要远大于PC互联网数据了，最典型比如微信、小红书等这些APP的数据非常多、非常有价值，但是无法获取
互联网数据在实时更新，不断有新的数据进来

6. 进一步，企业的私有数据没有被用来训练。

7. 再进一步，物理世界的许多数据并没有被捕获，比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据，未来AR眼镜如果能普及将会是一个更大的数据来源。

8. 所以预训练用的数据集其实还可以优化，还有以下思路可以参考：

预训练的数据集来源优化，获取更高质量的数据集
模型训练的时候为了节省资源会对原数据进行压缩降维，如果数据集高质量点但小点，可以给减小压缩空间

参考来源：
大语言模型（LLM）预训练数据集调研分析

大模型训练数据集分析：多样性和挑战-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/176.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Unity Burst详解

Unity Burst详解

【简介】 Burst是Unity的编译优化技术，优化了从C#代码编译成Native代码的过程，经过编译优化后代码有更高的运行效率。在Unity中使用Burst很简单，在方法或类前加上[BurstCompile]特性即可。在构建时编译代码的步骤，Burst编译器会…

阅读更多...

【经典神经网络架构解析篇】【1】LeNet网络详解：模型结构解析、优点、实现代码

【经典神经网络架构解析篇】【1】LeNet网络详解：模型结构解析、优点、实现代码

《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

阅读更多...

数据结构之双向链表

数据结构之双向链表

目录双向链表的基本概念和结构初始化尾插头插尾删头删查找在指定位置之后插入删除指定位置节点判空销毁完整代码测试代码双向链表的基本概念和结构双向链表（Doubly Linked List）‌是一种链式存储结构，每个节点除…

阅读更多...

[程序设计]—代理模式

[程序设计]—代理模式

[程序设计]—代理模式👳 本文章记录学习于——52.面向切面：AOP-场景模拟_哔哩哔哩_bilibili 最近闲来无事，在学习Spring的源码： 后面慢慢更新源码系列blog，希望多多关注🙏🙏 目前已经总结的b…

阅读更多...

网易云音乐登录两部手机：IP属地归属何方？

网易云音乐登录两部手机：IP属地归属何方？

在数字化生活日益普及的今天，音乐平台成为了我们日常娱乐不可或缺的一部分。网易云音乐，作为众多音乐爱好者的首选，其丰富的音乐资源和个性化的推荐算法深受用户喜爱。然而，随着多设备登录成为常态，一个问题也随之浮现…

阅读更多...

spark汇总

spark汇总

目录描述运行模式1. Windows模式代码示例 2. Local模式3. Standalone模式 RDD描述特性RDD创建代码示例（并行化创建）代码示例（读取外部数据）代码示例（读取目录下的所有文件） 算子DAGSparkSQLSparkStreaming…

阅读更多...

SQL多表联查、自定义函数（字符串分割split）、xml格式输出

SQL多表联查、自定义函数（字符串分割split）、xml格式输出

记录一个报表的统计，大概内容如下： 多表联查涉及的报表有：房间表、买家表、合同表、交易表、费用表、修改记录表注意：本项目数据库使用的是sqlserver（mssql），非mysql。难点1:业主信息&#…

阅读更多...

实用操作系统学习笔记

实用操作系统学习笔记

第1章操作系统概述操作系统基本概念【基础知识】操作系统：控制和管理整个计算机系统的硬件和软件资源，合理地组织、调度计算机的工作与资源的分配，进而为用户和其他软件提供方便接口与环境的程序集合。操作系统是计算机系统中最基本的…

阅读更多...

硬件设计-齐纳管

硬件设计-齐纳管

目录摘要详情齐纳管的工作电流、摘要齐纳管（Zener Diode）是一种特殊的二极管，它能够在特定的反向电压下保持电流稳定。正常情况下，二极管只允许正向电流通过，而阻止反向电流流过。而齐纳管在一定的反向电压下可…

阅读更多...

linux网络 | https前置知识 | 数据加密与解密、数据摘要

linux网络 | https前置知识 | 数据加密与解密、数据摘要

前言:本节内容讲述https的相关内容。 https博主会着重讲解https如何让一个请求和一个响应能够安全的进行交互。 https博主将用两篇文章进行讲解。本篇是两篇中第一篇。会把http的安全问题引出来， 然后说一下https的基本解决方法。下面废话不多说， 开始我…

阅读更多...

小目标检测难点分析和解决策略

小目标检测难点分析和解决策略

目录一、背景二、检测难点三、主流改进方法 3.1 基于改进数据增强的小目标检测算法 3.1.1 监督数据增强方法 3.1.2 无监督数据增强方法 3.2. 基于改进特征提取的小目标检测算法 3.2.1. 扩张卷积 3.2.2. 特征增强 3.2.3. 多尺度特征提取 3.2.4. 注意力机制 3.3 基…

阅读更多...

Java 继承

Java 继承

目录 1. 继承概述 2. 继承好处 3. 继承格式 4. 继承规定 5. debug 调试 6. 方法重写 6.1 概述 6.2 规定 7. super 关键字 7.1 概述 7.2 使用 7.3 在构造器中使用 8. 子类对象实例化的全过程 9. 练习 1. 继承概述举例：Person 类中有name&#xff0c…

阅读更多...

CES Asia 2025科技盛宴，AI智能体成焦点

CES Asia 2025科技盛宴，AI智能体成焦点

2025第七届亚洲消费电子技术展（CES Asia赛逸展）将在北京拉开帷幕，AI智能体有望成为展会的核心亮点。深圳市人工智能行业协会发文表示全力支持CES Asia 2025（赛逸展），称其为人工智能领域的创新发展提供了强…

阅读更多...

HTMLHTML5革命：构建现代网页的终极指南 - 0. 课程目录设计

HTMLHTML5革命：构建现代网页的终极指南 - 0. 课程目录设计

结构清晰，层层递进课程从基础知识（如HTML学前必知）开始，逐步深入到高级应用（如PWA配置和WebApp优化）。每个模块都有明确的目标，适合零基础学员逐步掌握HTML。覆盖范围广这套课程涵盖了HTM…

阅读更多...

大型语言模型（LLM）中的tokens是什么

大型语言模型（LLM）中的tokens是什么

大型语言模型（LLM）中的tokens是什么在大型语言模型（LLM）中，tokens是文本处理的基本单位，它可以是一个单词、一个字符、一个标点符号，或者是一个特殊的标记。以下是关于tokens的详细介绍及举例：一、tokens的定义和作用定义：tokens是将文本分割成的一个个有意义的…

阅读更多...

嵌入式C语言：二维数组

嵌入式C语言：二维数组

目录一、二维数组的定义二、内存布局 2.1. 内存布局特点 2.2. 内存布局示例 2.2.1. 数组元素地址 2.2.2. 内存布局图（简化表示） 2.3. 初始化对内存布局的影响三、访问二维数组元素 3.1. 常规下标访问方式 3.2. 通过指针访问 3.2.1. 指向数…

阅读更多...

Java进阶-在Ubuntu上部署SpringBoot应用

Java进阶-在Ubuntu上部署SpringBoot应用

随着云计算和容器化技术的普及，Linux 服务器已成为部署 Web 应用程序的主流平台之一。Java 作为一种跨平台的编程语言，具有广泛的应用场景。本文将详细介绍如何在 Ubuntu 服务器上部署 Java 应用，包括环境准备、应用发布、配置反向代理&#…

阅读更多...

node-sass@4.14.1报错的最终解决方案分享

node-sass@4.14.1报错的最终解决方案分享

输入npm i全安装文件所需的依赖的时候，博主是使用sass去书写的，使用的是node-sass4.14.1和sass-loader7.3.1的版本的，安装的时候老是出现错误， node-sass4.14.1版本不再被支持的原因 node-sass 是一个基于 LibSass 的 Node.js 绑…

阅读更多...

Java设计模式 —— 【行为型模式】命令模式（Command Pattern）详解

Java设计模式 —— 【行为型模式】命令模式（Command Pattern）详解

文章目录模式介绍优缺点适用场景结构案例实现注意事项模式介绍有时候需要向某些对象发送请求，但是并不知道请求的接收者是谁，也不知道被请求的操作是什么。此时希望用一种松耦合的方式来设计程序，使得请求发送者和请求接收者能够消除彼此…

阅读更多...

Vue3初学之组件通信

Vue3初学之组件通信

一起进行学习： 在 Vue 3 中，组件通信是一个非常重要的概念，它决定了如何在父子组件之间、兄弟组件之间以及跨层级组件之间传递数据和事件。以下是 Vue 3 中常见的组件通信方式： 父子组件通信 1.1 父组件向子组件传递数据&#x…

阅读更多...

最新文章

推荐文章