AI大模型需要什么样的数据?

数据将是未来AI大模型竞争的关键要素

人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT与GPT-3的模型架构类似,并使用RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。
在这里插入图片描述

人工智能领域以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。
图片以数据为中心的 AI:模型不变,通过改进数据集质量提升模型效果
AI大模型需要高质量、大规模、多样性的数据集

1)高质量:高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。
2)大规模:OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的“伸缩法则”(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。
3)丰富性:数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。
图片

数据集如何产生

建立数据集的流程主要分为 1)数据采集;2)数据清洗:由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题;3)数据标注:最重要的一个环节;4)模型训练:模型训练人员会利用标注好的数据训练出需要的算法模型;5)模型测试:审核员进行模型测试并将测试结果反馈给模型训练人员,而模型训练人员通过不断地调整参数,以便获得性能更好的算法模型;6)产品评估:产品评估人员使用并进行上线前的最后评估。
数据采集
采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据。数据采集目前常用的有三种方式,分别为:1)系统日志采集方法;2)网络数据采集方法;3)ETL。
图片
数据清洗
数据清洗是提高数据质量的有效方法。由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,故需要执行数据清洗任务,数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI 算法的有效性。
图片
数据标注
数据标注是流程中最重要的一个环节。管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,一个标注任务将会分配给多个标注员完成。
图片
图片
模型训练与测试
最终通过产品评估环节的数据才算是真正过关。产品评估人员需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估。
图片
主要大语言模型数据集
参数量和数据量是判断大模型的重要参数。2018 年以来,大语言模型训练使用的数据集规模持续增长。2018 年的 GPT-1 数据集约 4.6GB,2020 年的 GPT-3 数据集达到了 753GB,而到了 2021 年的 Gopher,数据集规模已经达到了 10,550GB。总结来说,从 GPT-1 到LLaMA 的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit 链接、CommonCrawl 和其他数据集。

维基百科

维基百科是一个免费的多语言协作在线百科全书。维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编写和维护。截至2023年3月,维基百科拥有332种语言版本,总计60,814,920条目。其中,英文版维基百科中有超过664万篇文章,拥有超4,533万个用户。维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。

图片

书籍

书籍主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括ProjectGutenberg和Smashwords(TorontoBookCorpus/BookCorpus)等。ProjectGutenberg是一个拥有7万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的Smashwords。

期刊

期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。美国国家卫生研究院是美国政府负责生物医学和公共卫生研究的主要机构,支持各种生物医学和行为研究领域的研究,从其官网的“研究&培训”板块能够获取最新的医学研究论文。

WebText(来自Reddit链接)

Reddit链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站,注册用户可以将文字或链接在网站上发布,使它成为了一个电子布告栏系统。WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

Commoncrawl/C4

Commoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织,致力于为互联网研究人员、公司和个人免费提供互联网副本,用于研究和分析,它的数据包含原始网页、元数据和文本提取,文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。

其他数据集

ThePile数据集:一个825.18GB的英语文本数据集,用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成,包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外,ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。其他数据集包含了GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集等。

多模态数据集

模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,包括文本、图像、视频、音频等。多模态大模型需要更深层次的网络和更大的数据集进行预训练。过去数年中,多模态大模性参数量及数据量持续提升。

语音+文本

SEMAINE数据集:创建了一个大型视听数据库,作为构建敏感人工侦听器(SAL)代理的迭代方法的一部分,该代理可以使人参与持续的、情绪化的对话。高质量的录音由五台高分辨率、高帧率摄像机和四个同步录制的麦克风提供。录音共有150个参与者,总共有959个与单个SAL角色的对话,每个对话大约持续5分钟。固体SAL录音被转录和广泛注释:每个剪辑6-8个评分者追踪5个情感维度和27个相关类别。

图像+文本

COCO数据集:MSCOCO的全称是MicrosoftCommonObjectsinContext,起源于微软于2014年出资标注的MicrosoftCOCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。图像包括91类目标,328,000张图像和2,500,000个label。ConceptualCaptions数据集:图像标题注释数据集,其中包含的图像比MS-COCO数据集多一个数量级,并代表了更广泛的图像和图像标题风格。通过从数十亿个网页中提取和过滤图像标题注释来实现这一点。

ImageNet数据集:建立在WordNet结构主干之上的大规模图像本体。ImageNet的目标是用平均5,001,000张干净的全分辨率图像填充WordNet的80,000个同义词集中的大多数。这将产生数千万个由WordNet语义层次结构组织的注释图像。ImageNet的当前状态有12个子树,5247个同义词集,总共320万张图像。

LAION-400M数据集:LAION-400M通过CommonCrawl提取出随机抓取2014-2021年的网页中的图片、文本内容。通过OpenAI的Clip计算,去除了原始数据集中文本和图片嵌入之间预先相似度低于0.3的内容和文本,提供了4亿个初筛后的图像文本对样本。

图片

LAION-5B数据集:包含58.5亿个CLIP过滤的图像-文本对的数据集,比LAION-400M大14倍,是世界第一大规模、多模态的文本图像数据集,共80T数据,

图片

LanguageTable数据集:Language-Table是一套人类收集的数据集,是开放词汇视觉运动学习的多任务连续控制基准。

IAPRTC-12数据集:IAPRTC-12基准的图像集合包括从世界各地拍摄的2万张静态自然图像,包括各种静态自然图像的横截面。这包括不同运动和动作的照片,人物、动物、城市、风景和当代生活的许多其他方面的照片。示例图像可以在第2节中找到。每张图片都配有最多三种不同语言(英语、德语和西班牙语)的文本标题。

视频+图像+文本

YFCC100数据集:YFCC100M是一个包含1亿媒体对象的数据集,其中大约9920万是照片,80万是视频,所有这些都带有创作共用许可。数据集中的每个媒体对象都由几块元数据表示,例如Flickr标识符、所有者名称、相机、标题、标签、地理位置、媒体源。从2004年Flickr成立到2014年初,这些照片和视频是如何被拍摄、描述和分享的,这个集合提供了一个全面的快照。

图像+语音+文本

CH-SIMS数据集:CH-SIMS是中文单模态和多模态情感分析数据集,包含2,281个精细化的野外视频片段,既有多模态注释,也有独立单模态注释。它允许研究人员研究模态之间的相互作用,或使用独立的单模态注释进行单模态情感分析。

视频+语音+文本

IEMOCAP数据集:南加州大学语音分析与解释实验室(SAIL)收集的一种新语料库,名为“上的二元会话,这些标记提供了他们在脚本和自发口语交流场景中面部表情和手部动作的详细信息。语料库包含大约12小时的数据。详细的动作捕捉信息、激发真实情绪的交互设置以及数据库的大小使这个语料库成为社区中现有数据库的有价值的补充,用于研究和建模多模态和富有表现力的人类交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/389648.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++11深度剖析

目录 🚀 前言:C11简介 一: 🔥 统一的列表初始化💫 2.1 {}初始化 二: 🔥 std::initializer_list 💫 2.1 std::initializer_list是什么类型💫 2.2 s…

正则采集器之三——前端搭建

前端使用有名的饿了么管理后台,vue3版本vue3-element-admin,首先从gitee中克隆一个vue3-element-admin模板代码vue3-element-admin: Vue3 Element Admin开箱即用的中后台管理系统前端解决方案,然后在此基础上进行开发。 1、修改vite.config.…

【C++】初识类和对象

本篇介绍一下C的自定义类型,类和对象。 1.类的定义 1.1 类定义格式 class 为定义类的关键字,Stack为类的名字,类名随便取,{}中为类的主体,类定义结束时后面的分号不可省略。类主体中内容称为类的成员:类中…

C++开源界面库duilib的使用细节与实战技巧总结(实战经验分享)

目录 1、使用CEditUI编辑框 2、使用CLabelUI或CTextUI的Html文本效果 3、使用CTextUI控件对文字宽度自适应的特性 4、CRichEditUI富文本控件使用注意点 4.1、指定CRichEditUI加在2.0版本的Riched20.dll库 4.2、解决向CRichEditUI中插入文字后显示空白的问题 5、设置窗口…

STL——栈和队列和优先队列

栈和队列和优先队列 概述std::堆栈核心函数和操作成员函数示例注意事项 std::队列核心函数和操作成员函数示例注意事项 std::优先队列底层实现原理效率分析deque双端队列原理块结构:指针管理&am…

企业源代码加密软件|6款好用的源代码加密软件推荐

在软件开发领域,源代码作为企业最核心的资产之一,其安全性直接关系到企业的技术竞争力和商业机密保护。因此,选择一款高效、可靠的源代码加密软件对于企业来说至关重要。以下是企业源代码加密软件的六款推荐,每款软件均具备其独特…

【Android】系统架构、四大组件、结构目录

文章目录 Android系统架构Android四大组件ActivityServiceBroadcast ReceiverContent Provider 两大视图主要结构目录 Android系统架构 linux内核层 为设备的各种硬件提供了底层的驱动,如显示驱动等 系统运行库层 通过C/C库来为android提供主要的特性支持。如SQLit…

普元Devops学习笔记-devops对接jenkins提示crumb不可用问题

前言 普元devops需要对接jenkins,对接jenkins后,devops会调用jenkins的提供的API。 问题 新版本的jenkins提供跨域保护,即大名鼎鼎的CSRF问题。 因此,普元devops调用jenkins的时候,会出现跨域问题。 后台报错信息如…

【kubernetes】kubeadm部署k8s集群

1、环境准备 master01: 192.168.10.25master02: 192.168.10.26master03: 192.168.10.27node01: 192.168.10.28node02: 192.168.10.29负载均衡器1:192.168.10.30负载均衡器2:192.168.10.31 //所有节点,关闭防火墙规则,关闭selinu…

大型语言模型入门

大型语言模型ChatGPT 快速、全面了解大型语言模型。学习李宏毅课程笔记。 ChatGPT 目前由OpenAI公司发明的非常火的人工智能AI应用ChatGPT,到底是什么原理呢? G:Generative(生成) P:Pre-trained(预训练) T:Transform…

2024年7月25日(Git gitlab以及分支管理 )

分布式版本控制系统 一、Git概述 Git 是一种分布式版本控制系统,用于跟踪和管理代码的变更。它是由Linus Torvalds创建的,最 初被设计用于Linux内核的开发。Git允许开发人员跟踪和管理代码的版本,并且可以在不同的开 发人员之间进行协作。 Github 用的就是Git系统来管理它们的…

【Unity编辑器拓展】GraphView自定义可视化节点

1、创建节点区域脚本 其中的new class UxmlFactory,可以让该元素显示在UI Builder中,我们就可以在Library-Project中看到我们新建的这两个UI元素,就可以拖入我们的UI窗口编辑了 public class NodeTreeViewer : GraphView {public new class…

一文了解一下 MindSpeed,MindSpeed 是专为华为昇腾设备设计的大模型分布式加速套件。

https://gitee.com/ascend/MindSpeed Gitee Ascend/MindSpeed 项目,MindSpeed 是针对华为昇腾设备的大模型加速库。 MindSpeed 是专为华为昇腾设备设计的大模型加速库,旨在解决用户在大模型训练过程中遇到的显存资源不足等挑战。该库借鉴了 Megatron、D…

福建聚鼎:现在的装饰画还赚钱不

在轻风拂面的清晨,或在星光璀璨的夜晚,人们常常沉浸于对艺术的思考。装饰画作为艺术的一种表现形式,既丰富了人们的精神世界,又装点了生活的每一个角落。但在这个快速变化的时代,一个引人深思的问题浮出水面&#xff1…

前端-如何通过docker打包Vue服务成镜像并在本地运行(本地可以通过http://localhost:8080/访问前端服务)

1、下载安装docker,最好在vs code里安装docker的插件。 下载链接:https://www.docker.com/products/docker-desktop 🎉 Docker 简介和安装 - Docker 快速入门 - 易文档 (easydoc.net) 2、准备配置文件-dockerfile文件和nginx.conf文件 do…

postman查询单条数据Get方法,无任何输出,idea后端也没有任何数据和提示的解决方法

问题描述: 正常使用postman测试,输入内容没有错误,但是却没有任何消息 后端也是,没有任何消息: 解决方法: 问题的原因主要是因为postman: 我们只需要新建一个页面,把刚才的查询语…

《C语言程序设计 第4版》笔记和代码 第十二章 数据体和数据结构基础

12.1从基本数据类型到抽象数据类型 1 所有的程序设计语言都不能将所有复杂数据对象作为其基本数据类型,因此需要允许用户自定义数据类型,在C语言中,就存在构造数据类型(复合数据类型)。 2 结构体是构造数据类型的一种…

记录|如何统一管理多个同一个对象?

目录 前言一、对象就用对象数组管理更新时间 前言 自己的感想 一开始,自己没弄懂C# winform中的testBox是什么,导致创建多个testBox的时候要用很笨的方法来进行管理。 就是下面这种:用数组一个一个掉用里面的单独属性。 string[] str new …

芋道以开源之名行下作之事 恬不知耻 标榜自己开源 公开源码+sql 不用再加入知识星球

资源 链接: https://pan.baidu.com/s/1TeuxbAUfLQ5_BqMBF1kniQ?pwdcqud 提 取码: cqud 依次为后端、补充版的sql、前端 此文档内安装部署等一应俱全

反序列化靶机serial漏洞复现 超详细教程

环境搭建 漏洞环境:https://www.vulnhub.com/entry/serial-1,349/ 下载后使用Vmware打开 创建新的虚拟机: 选择客户机版本为Ubuntu 64位: 一直下一步,知道选择使用现有磁盘: 选择下载的vmdk磁盘文件: 开机…