LLaMA 数据集

LLaMA的训练数据集来源多样,涵盖了多个不同的数据集和预处理步骤。以下是详细的描述:
在这里插入图片描述

公开数据来源和预处理

  1. CommonCrawl [67%]

    • 使用CCNet管道(Wenzek等人,2020年)对2017年至2020年间的五个CommonCrawl转储进行预处理。
    • 删除行级别的数据,使用fastText线性分类器进行语言识别,以去除非英语页面。
    • 用n-gram语言模型过滤低质量内容。
    • 训练一个线性模型来对维基百科中用作参考文献的页面与随机抽样的页面进行分类,并丢弃未被分类为参考文献的页面。
  2. C4 [15%]

    • 使用多样化的预处理CommonCrawl数据集提高性能。
    • 公开的C4数据集(Raffel等人,2020年)包含重复数据删除和语言识别步骤。
    • 与CCNet的主要区别在于质量过滤,主要依赖于标点符号的存在或网页中的单词和句子的数量等判例。
  3. Github [4.5%]

    • 使用谷歌BigQuery上的GitHub公共数据集。
    • 只保留在Apache、BSD和MIT许可下发布的项目。
    • 用基于行长或字母数字字符比例的启发式方法过滤低质量的文件,并用正则表达式删除模板,如标题。
    • 在文件层面上对结果数据集进行重复计算,并进行精确匹配。
  4. 维基百科 [4.5%]

    • 包括2022年6月至8月期间的维基百科转储,涵盖20种使用拉丁字母或西里尔字母的语言。
    • 对数据进行处理,以删除超链接、评论和其他格式化的模板。
  5. 古腾堡和Books3 [4.5%]

    • 包括Gutenberg项目和ThePile(Gao等人,2020年)的Books3部分。
    • 在书籍层面上进行重复数据删除,删除内容重叠度超过90%的书籍。
  6. ArXiv [2.5%]

    • 处理arXiv的Latex文件,将科学数据添加到数据集中。
    • 按照Lewkowycz等人(2022年)的做法,删除第一节之前的所有内容,以及书目。
    • 删除.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。
  7. Stack Exchange [2%]

    • 包括Stack Exchange的转储,涵盖不同领域的高质量问答网站。
    • 保留28个最大网站的数据,重新将HTML标签从文本中移出,并将答案按分数(从高到低)排序。

LLaMA的特点总结

  • 多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。
  • 高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。
  • 覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。

LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。以下是详细的说明:

模型架构和预训练设置

  • 基础架构:LLaMA 2采用标准的Transformer架构(Vaswani等人,2017年)。
  • 预归一化:使用RMSNorm进行预归一化(pre-normalization)(Zhang和Sennrich,2019年)。
  • 激活函数:采用SwiGLU激活函数(Shazeer,2020年)。
  • 位置嵌入:使用旋转位置嵌入(RoPE,Su等人,2022年)。

主要改进

  • 上下文长度增加:与LLaMA 1相比,LLaMA 2增加了上下文长度,使得模型能够处理更长的输入序列。
  • 分组查询注意力(GQA):引入了分组查询注意力机制,这是一种改进的注意力机制,有助于提高模型的效率和性能。

总结

LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。这些改进使得LLaMA 2在处理长文本和提高计算效率方面表现更佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/380837.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大模型】FAISS向量数据库记录:从基础搭建到实战操作

文章目录 文章简介Embedding模型BGE-M3 模型亮点 FAISS是什么FAISS实战安装faiss加载Embedding模型创建FAISS数据库搜索FAISS数据删除FAISS数据保存、加载FAISS索引 总结 本人数据分析领域的从业者,拥有专业背景和能力,可以为您的数据采集、数据挖掘和数…

基于java的设计模式学习

PS :以作者的亲身来看,这东西对于初学者来说有用但不多,这些东西,更像一种经验的总结,在平时开发当中一般是用不到的,因此站在这个角度上用处不大。 1.工厂模式 1.1 简单工厂模式 我们把new 对象逻辑封装…

FastAPI 学习之路(五十九)封装统一的json返回处理工具

在本篇文章之前的接口,我们每个接口异常返回的数据格式都不一样,处理起来也没有那么方便,因此我们可以封装一个统一的json。 from fastapi import status from fastapi.responses import JSONResponse, Response from typing import Unionde…

java项目(knife4j使用,静态资源未放在static资源包下,公共字段自动填充,Spring Cache与Spring Task)

Knife4j(生成接口文档) 使用swagger你只需要按照它的规范去定义接口及接口相关的信息,就可以做到生成接口文档,以及在线接口调试页面。官网:https://swagger.io/ Knife4j是为Java MVC框架集成Swagger生成Api文档的增强解决方案。…

huawei USG6001v1学习----NAT和智能选路

目录 1.NAT的分类 2.智能选路 1.就近选路 2.策略路由 3.智能选路 NAT:(Network Address Translation,网络地址转换) 指网络地址转换,1994年提出的。NAT是用于在本地网络中使用私有地址,在连接互联网时转而使用全局…

[GIS实验]居住环境适宜性评价

目的: 拟购买住宅,需在现有条件下,基于地理空间分析方法和空间认知模型对居住环境进行综合评价。通过该实验掌握基于GIS的地理空间认知方法及土地适宜性评价基本原理与方法。 数据: (1)人口调查图&#…

arcgis怎么选取某个指定区域地方的数据,比如从全国乡镇数据选取长沙市乡镇数据

一共5个步骤,没一句废话,耐心看完。 1、如图,先将数据加载到arcgis里面,我们要选取里面长沙市的范围数据。 2、选取长沙市的语句 “市” like ‘长沙%’ 切记,切记,切记。所有符号要在 输入法英文状态…

FPGA:二选一选择器

1、需求 使用XILINX的XC7A35TFFG484-2开发板,完成二选一选择器的设计。 2、分析 二选一选择器如下所示: 观察可知有三个输入端,一个输出端,其逻辑原理为:当sel为高电平时,outa,当sel为低电平…

深入理解Linux网络(三):TCP对象创建

深入理解Linux网络(三):TCP对象创建 TCP对象创建inet_createsock_init_data TCP对象创建 常见的三句TCP编程: int main() {int sk socket(AF_INET, SOCK_STREAM, 0);connect(sk, ...)recv(sk, ...) }简单的两三⾏代码&#xff…

深度学习程序环境配置

深度学习环境配置 因为之前轻薄本没有显卡跑不起来,所以换了台电脑重新跑程序,故记录一下配置环境的步骤及常见错误 本人数学系,计算机部分知识比较匮乏,计算机专业同学可以略过部分内容 深度学习环境配置 深度学习环境配置 CUD…

组内第一次会议

会议内容 1、科研平台使用 增删改查对文件 cp -r /root/mmdetection/dataset/ /root/user/wbzExperiment/mmdetection/ rm -r /root/user/yolov5-master tar -czvf test03.tar.gz test03/ unzip abc.zip 上传文件、解压文件:要在自己的目录中,进入…

2-38 基于matlab的蚁群算法优化无人机uav巡检

基于matlab的蚁群算法优化无人机uav巡检,巡检位置坐标可根据需求设置,从基地出发,返回基地,使得路径最小。可设置蚁群数量,信息素系数。输出最佳路线长度。程序已调通,可直接运行。 2-38 蚁群算法优化无人…

springcloud-config客户端启用服务发现报错找不到bean EurekaHttpClient

背景 在对已有项目进行改造的时候,集成SpringConfigStarter,编写完bootstrap.yml,在idea 启动项中编辑并新增VM options -Dspring.cloud.config.discovery.enabledtrue,该版本不加spring不会从configService获取信息,…

深入理解Android中的缓存与文件存储目录

🌟 引言 在Android应用开发中,合理管理应用的数据存储至关重要。应用可能需要保存各种类型的数据,从简单的配置信息到多媒体文件,甚至是缓存数据以提高性能和用户体验。Android提供了多个内置目录来满足这些需求,但它…

《JavaSE》------20.语法实践项目【图书管理系统】

目录 前言 一、图书管理系统成果展示 1.1 管理员: 1.2 普通用户: 二、 图书管理系统框架的搭建 2.1 book包 2.1.2 BookList类 2.2 operation包 2.2.0 IOperation接口 2.2.1 AddOperatoon类 2.2.2 FindOperation类 2.2.3 DelOperation类 2.2…

前端基础之JavaScript学习——函数的使用

大家好我是来自CSDN的前端寄术区博主PleaSure乐事,今天我们继续有关JavaScript的学习,使用的编译器为vscode,浏览器为谷歌浏览器。 函数的声明与使用 声明 在JavaScript当中函数的声明和其他语言类似,使用如下格式即可声明&…

语义分割——为什么单通道8bit灰度图像能显示多种色块???

目录 一、问题二、解答2.1 标签图的实际存储格式2.2 标签图的显示颜色2.3 颜色映射示例 三、应用颜色映射3.1 OpenCV显示标签图3.2 Matplotlib显示标签图 四、总结 一、问题 大家在做语义分割时不知道有没有这样的疑惑,使用打标签工具后,标签图是单通道…

基于Python+Django,开发的一个在线教育系统

一、项目简介 使用Python的web框架Django进行开发的一个在线教育系统! 二、所需要的环境与组件 Python3.6 Django1.11.7 Pymysql Mysql pure_pagination DjangoUeditor captcha xadmin crispy_forms 三、安装 1. 下载项目后进入项目目录cd Online-educ…

Bubbliiiing 的 Retinaface rknn python推理分析

Bubbliiiing 的 Retinaface rknn python推理分析 项目说明 使用的是Bubbliiiing的深度学习教程-Pytorch 搭建自己的Retinaface人脸检测平台的模型,下面是项目的Bubbliiiing视频讲解地址以及源码地址和博客地址; 作者的项目讲解视频:https:…

【网络安全科普】勒索病毒 防护指南

勒索病毒简介 勒索病毒是一种恶意软件,也称为勒索软件(Ransomware),其主要目的是在感染计算机后加密用户文件,并要求用户支付赎金以获取解密密钥。这种类型的恶意软件通常通过电子邮件附件、恶意链接、下载的软件或漏洞…