使用LLaMA-Factory微调时的数据集选择

使用LLaMA-Factory微调时的数据集选择

news/2024/11/26 7:10:25/文章来源:https://blog.csdn.net/jining11/article/details/144040870

LLamaFactory提供的默认数据集涵盖了自然语言处理领域中常见的多种任务，包括：

指令跟随（Instruction Following）： Alpaca, GLaIVE, LLaMA, MathInstruct, WebInstruct, AgentInstruct, Evol-Instruct 等。这些数据集主要用于训练模型遵循人类指令并生成文本。
强化学习自人类反馈（RLHF）： DPO, UltraFeedback, RLHF-V, VLFeedback, Orca Pairs, HH-RLHF, Nectar RM 等。这些数据集用于训练模型，使其生成的文本更符合人类偏好。
知识密集型任务： WikiQA, WebQA, Cosmopedia, STEM-ZH, Ruozhiba GPT-4, FineWeb, FineWeb-Edu 等。这些数据集包含大量事实性知识，用于训练知识问答等任务。
代码和文本： CodeAlpaca, The Stack, StarCoder Python 等。这些数据集包含代码和文本，用于训练代码生成等任务。
通用文本： Alpaca-ZH, GLaIVE-ZH, UltraChat-ZH, Belle, OpenPlatypus, Firefly, Wikipedia-EN

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/478296.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Otter 安装流程

Otter 安装流程

优质博文：IT-BLOG-CN 一、背景随着公司的发展，订单库的数据目前已达到千万级别，需要进行分表分库，就需要对数据进行迁移，我们使用了otter，这里简单整理下，otter 的安装过程，希望对…

阅读更多...

Web3 游戏周报（11.17 - 11.23）

Web3 游戏周报（11.17 - 11.23）

回顾上周的区块链游戏概况，查看 Footprint Analytics 与 ABGA 最新发布的数据报告。【11.17 - 11.23】Web3 游戏行业动态： 加密游戏开发商 Gunzilla Games 发推表示，其已与 Coinbase Ventures 达成合作并获得其投资。国际足联将与 Mythica…

阅读更多...

【linux学习指南】初识Linux进程信号与使用

【linux学习指南】初识Linux进程信号与使用

文章目录 📝信号快速认识📶⽣活⻆度的信号📶 技术应⽤⻆度的信号🌉 前台进程（键盘）🌉⼀个系统函数 📶信号概念📶查看信号 🌠 信号处理🌉 忽略此信…

阅读更多...

3DEXPERIENCE软件是干什么的—3DE软件代理商微辰三维

3DEXPERIENCE软件是干什么的—3DE软件代理商微辰三维

在当今数字化转型浪潮席卷全球各个行业的大背景下，3DEXPERIENCE 软件宛如一颗璀璨的明星，闪耀在产品设计、制造以及协同创新等诸多领域。它是由达索系统公司推出的一款综合性的、功能强大的商业软件平台，为企业的整个产品生命周期管理带来了前…

阅读更多...

【大数据学习 | Spark-Core】广播变量和累加器

【大数据学习 | Spark-Core】广播变量和累加器

1. 共享变量 Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）。累加器用来对信息进行聚合，相当于mapreduce中的counter；而广播变量用来高效分发较大的对象&#xff0c…

阅读更多...

STM32编程小工具FlyMcu和STLINK Utility 《通俗易懂》破解

STM32编程小工具FlyMcu和STLINK Utility 《通俗易懂》破解

FlyMcu FlyMcu 模拟仿真软件是一款用于 STM32 芯片 ISP 串口烧录程序的专用工具，免费，且较为非常容易下手，好用便捷。注意：STM32 芯片的 ISP 下载，只能使用串口1（USART1），对应的串口…

阅读更多...

MTK主板_安卓主板方案_MTK联发科主板定制开发

MTK主板_安卓主板方案_MTK联发科主板定制开发

联发科(MTK)主板以其强大的性能和多样化的功能而受到广泛关注。该平台包括多个型号，例如MT6761、MT8766、MT6762、MT6765、MT8768和MT8788等，均配置了四核或八核64位处理器，主频可高达2.0GHz。采用先进的12nm工艺，搭载Android 11.…

阅读更多...

信息收集（1）

信息收集（1）

学习视频引路信息收集（1）_哔哩哔哩_bilibili View信息收集（1） 分享一个漏洞挖掘平台：补天以吉林通用航空职业技术学院|官网 (jlthedu.com)为目标第一步：查看cdn和域名被注册的信息可以查询域名信息的…

阅读更多...

React（六）——Redux

React（六）——Redux

文章目录项目地址基本理解一、配置Redux store二、创建slice配置到store里并使用三、给Slice配置reducers，用来修改初始值项目地址教程作者：教程地址： 代码仓库地址： 所用到的框架和插件： dbt airflow基本理解 s…

阅读更多...

uniapp 地图移入的快，高亮显示两个

uniapp 地图移入的快，高亮显示两个

解决：

阅读更多...

如何利用ATECLOUD平台来实现数据报告的导出和数据分析？-纳米软件

如何利用ATECLOUD平台来实现数据报告的导出和数据分析？-纳米软件

1.数据报告导出选择报告模板：ATECLOUD 平台通常会提供多种预设的数据报告模板，这些模板是根据不同的测试场景和需求设计的。例如，在电源模块测试中，有针对输出电压、电流、功率等基本参数的报告模板，也有包含纹波系数…

阅读更多...

[ZJCTF 2019]NiZhuanSiWei

[ZJCTF 2019]NiZhuanSiWei

[ZJCTF 2019]NiZhuanSiWei 上面代码，使用get上传了三个参数，在text者用力恒等于，然后就输出，接着第二个参数中出现flag就输出not now，接着第三个参数是反序了一下输出。 ?textdata://text/plain,welcome to the zjct…

阅读更多...

JSONCPP 数据解析与序列化

JSONCPP 数据解析与序列化

常用类接口 Json::Value 类用于存储 JSON 数据的核心类。它支持将数据解析为对象、数组或基本类型（如字符串、数值等） 赋值操作符：Value& operator(Value other); 用于将一个 JSON 值赋给另一个 JSON 值 Json::Value value; value &…

阅读更多...

40分钟学 Go 语言高并发：【实战】并发安全的配置管理器（功能扩展）

40分钟学 Go 语言高并发：【实战】并发安全的配置管理器（功能扩展）

【实战】并发安全的配置管理器（功能扩展） 一、扩展思考分布式配置中心实现配置的集中管理支持多节点配置同步实现配置的版本一致性配置加密敏感配置的加密存储配置的安全传输访问权限控制配置格式支持支持YAML、TOML等多种格式配置格式自动…

阅读更多...

ChatGPT 桌面版发布了，如何安装？

ChatGPT 桌面版发布了，如何安装？

本章教程教大家如何进行安装。一、下载安装包官网地址地址：https://openai.com/chatgpt/desktop/ 支持Windows和MacOS操作系统二、安装步骤 Windows用户下载之后，会有一个exe安装包，点击运行安装即可。注意事项，如果Windows操…

阅读更多...

【Electron学习笔记（二）】基于Electron开发应用程序

【Electron学习笔记（二）】基于Electron开发应用程序

基于Electron开发本地应用程序基于Electron开发本地应用程序前言正文1、创建 pages 目录2、创建 index.html 文件3 、创建 html.css 文件4 、main.js里引入页面5 、运行 start 命令6 、启用开发者模式7 、解决内容安全策略8、完善窗口行为9、配置自动重启，保存后自…

阅读更多...

力扣--LCR 154.复杂链表的复制

力扣--LCR 154.复杂链表的复制

题目请实现 copyRandomList 函数，复制一个复杂链表。在复杂链表中，每个节点除了有一个 next 指针指向下一个节点，还有一个 random 指针指向链表中的任意节点或者 null。提示： -10000 < Node.val < 10000 Node.random 为…

阅读更多...

windows server 2019 启动 nginx 报错

windows server 2019 启动 nginx 报错

环境 ：windows server 2019 ，nginx-1.19.7 背景： 自己经常用这个 nginx 包作为 web 服务器。今天发现部署到 server 2019 上直接报错了。这可是原生的包，我啥也没改，怎么可能报错。而且之前在其他服务器用都没问题…

阅读更多...

在ASP.NET Core WebAPI 中使用轻量级的方式实现一个支持持久化的缓存组件

在ASP.NET Core WebAPI 中使用轻量级的方式实现一个支持持久化的缓存组件

前言在 WebAPI 开发中，缓存是一种常用的优化手段。Redis 是广泛使用的缓存解决方案，但在某些场景下，我们可能不希望引入第三方依赖，而是希望使用轻量级的方式实现一个支持持久化的缓存组件，满足以下需求：…

阅读更多...

【区块链】深入理解椭圆曲线密码学(ECC)

【区块链】深入理解椭圆曲线密码学(ECC)

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈｜ 炫酷HTML | JavaScript基础 💫个人格言: "如无必要，勿增实体" 文章目录深入理解椭圆曲线密码学(ECC)1. 概述2. 椭圆曲线的数学基础2.1 基本定义2.2 有限…

阅读更多...

最新文章

推荐文章