指令微调数据集整理

文章目录

  • 开源指令数据集
    • 斯坦福数据
    • 链家数据
    • Baize(基于少量种子问题的对话数据)
  • 垂直领域数据集
    • 医疗领域的英文数据
    • 医疗领域的中文数据
    • 法律领域中文数据
  • COIG数据集(可商用的中文数据集)

开源指令数据集

斯坦福数据

斯坦福52K英文指令数据:https://github.com/tatsu-lab/stanford_alpaca
52K 条指令中的每一条都是唯一的,答案由text-davinci-003模型生成得到的。

斯坦福52K中文指令数据:https://github.com/carbonz0/alpaca-chinese-dataset
与原始alpaca数据json格式相同,数据生成的方法是机器翻译和self-instruct。

斯坦福52K中文指令数据:https://github.com/hikariming/alpaca_chinese_dataset
经过人工精调的中文对话数据集,加入除了alpaca之外的其他中文聊天对话 人工微调,部分并不中文化的问题,我们将重新询问chatgpt或文心一言,重新获取回答并覆盖掉alpaca的回答.

基于GPT4的斯坦福英文数据及中文数据
基于GPT4生成的斯坦福52K指令数据,后用ChatGPT翻译得到的中文数据:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

链家数据

BELLE Group Dataset:https://huggingface.co/datasets?sort=downloads&search=BELLE+Group
链家基于ChatGPT用self-instruct生成的中文指令数据集,其中还包括中文数学题数据和多轮对话数据。由于数据是模型生成的,未经过严格校验!

BELLE项目生成的中文指令数据:https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
生成方式基于种子prompt,调用openai的api生成中文指令。包含了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。数据分布如下图所示:
在这里插入图片描述
https://huggingface.co/datasets/BelleGroup/train_0.5M_CN
包含约50万条由BELLE项目生成的中文指令数据。

多轮对话:https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M

Baize(基于少量种子问题的对话数据)

Baize:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队把使用此法收集的数据集开源。
https://github.com/project-baize/baize-chatbot

垂直领域数据集

医疗领域的英文数据

chatDoctor:https://github.com/Kent0n-Li/ChatDoctor
HealthCareMagic-100k:来自 HealthCareMagic.com的患者和医生之间的 100k 真实对话。

icliniq-10k:来自icliniq.com的 10k 患者和医生之间的真实对话。

5K生成数据:5k 从 ChatGPT生成的GenMedGPT-5k和疾病数据库生成患者和医生之间的对话。

医疗领域的中文数据

Med-ChatGLM:https://github.com/SCIR-HI/Med-ChatGLM/tree/main/data
通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集。

法律领域中文数据

中国法律数据资源,由上海交大收集和整理:https://github.com/pengxiao-song/awesome-chinese-legal-resources

COIG数据集(可商用的中文数据集)

https://hub.baai.ac.cn/view/25750
第一期总共发布了 5 个子数据集,包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令,总计 191k 数据,聚焦中文语料、数据类型多样、经过了人工质检与修正、数据质量可靠,而且可以商用。
论文标题:
Chinese Open Instruction Generalist: a Preliminary Release
论文机构:
北京智源人工智能研究院等
论文链接:
https://arxiv.org/pdf/2304.07987.pdf
数据链接:
https://huggingface.co/datasets/BAAI/COIG

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40897.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux下使用Samba做域控

AI画妹子的工作先暂告一段落。毕竟戗行也是要有门槛的。 企业中使用Windows Server使用活动目录集中管理PC、服务器是很成熟的方案。突然想到,如果有一天出于某种原因不再使用微软方案了,AD该如何替代?问了一下chatGPT,它说&…

LINUX下设置postgresql的登录密码

1、postgresql登录密码主要是修改2个方向:首先用户有密码,其次是在配置文件中设置登录的限制参数 2、修改密码: alter role postgres with password Postgres; 提示面修改完成 3、修改配置文件pg_hub.conf,在IPV4下或者本地local下&#x…

获取 Panabit Linux 版 root 密码

面包多 - Panabit - root 密码重置工具https://mbd.pub/o/bread/mbd-Y5yTk5hx 可以重置 Panabit Linux 版本的 root 密码,直接获取 root 权限。 下载并在 Panabit 应用商店手动安装后就能看到列表中有新增 root 密码重置工具 打开 工具页面就可以对 root 密码进行重…

PostgreSQL数据库设置登录数据库密码

PostgreSQL数据库安装完以后会默认创建一个管理员的账号postgres用户,默认登录时是不需要密码验证就可以直接登录的 修改用户登录认证密码有两种方式: 1、用命令行的sql语句来进行修改 登录到PostgreSQL数据库里 [rootnode1 ~ 10:51:32]# su postgres b…

phpMyAdmin中config.inc.php设置密码和修改密码的方法

phpMyAdmin有3种授权模式: 1. cookie: 显示一个web登录页面,输入mysql的用户名和密码,然后进入管理界面。 $cfg[Servers][$i][auth_type] cookie; /* Server parameters */ $cfg[Servers][$i][host] localhost; $cfg[Servers][$i][connect_…

使用pgAdmin 4来修改PostgreSQL中的用户密码

参考博客: https://blog.csdn.net/solocoder/article/details/100593380 1、首先是打开我们的软件:pgAdmin 4.app运行起来 2、浏览器会默认打开一个界面如下: 3、然后是依次找到如下的 Servers-> PostgreSQL 11->Login/Group Roles-&…

ChatGPT一出,这10大职业可能先丢饭碗

转自:新智元 编辑:David 【导读】ChatGPT一出,很多人害怕自己的工作会被AI取代。最近,有外媒盘点了最可能被ChatGPT取代10大高危职位。 自从去年11月发布以来,OpenAI的ChatGPT已经被用来写求职信,创作儿童读…

Langchain-agent入门笔记(1)

LangChain里的Agent实现 官方模块介绍文档:Agents — 🦜🔗 LangChain 0.0.191 官网API文档:Agents — 🦜🔗 LangChain 0.0.191 核心要点: (1)需要依赖于用户输入的未…

5分钟带你了解Android Room

1、前言 最近在开发中,Room用的比较多,时不时要查资料,干脆写一篇Room的使用和Room的封装。如果写的不好,或者有错误之处,恳请在评论、私信、邮箱指出,万分感谢🙏 2、添加依赖 dependencies …

AI自动生成代码,是时候冷静下来思考如何保障代码安全了

HDC期间可参与华为开发者大会Check新人抽奖活动,活动链接在文末。 华为开发者大会2023将于7月7日与各位开发者进行见面,本次大会的主题演讲内容为:AI重塑千行百业。 自从AI聊天被推出之后,其热度就一直是高居不下。身边的小伙伴们…

如何将数据表格快速转换成LaTeX格式?

1.首先,在这个网站Comprehensive TEX Archive Network中下载宏文件。不要担心内存问题,很小的,下载后只有几百k。 2.其次,打开你的excel,将下载后的文件直接拖拽到excel表中,excel表格顶部会出现加载项这个…

油猴Tampermonkey及脚本使用

用Chrome浏览器的应该都知道,Chrome的优势之一就是有各种拓展的插件,使得我们浏览,工作效率都更高。 今天给大家推荐的一款”神器插件”叫 油猴,英文为 Tampermonkey 油猴是什么 Tampermonkey 是一款浏览器脚本管理插件&#x…

油猴(Tampermonkey)使用教程

油猴有很大的可玩性,里面只有你想不到的,没有他做不到的。下面是油猴的安装步骤以及使用方法~~ 安装 1.win10系统下,打开“开始”,找到微软的商店 2.打开之后,右上角搜索Tampermonkey。 3.安装油猴APP。&#xff08…

超简单安装油猴(tampermonkey)脚本及使用教程

超简单的油猴安装教程 第一步第二步第三步 第一步 下载Tampermonkey.crx (1.24MB) 提取码:nb1l 第二步 点击谷歌浏览器右上角,找到更多工具,然后点击拓展程序。 打开开发者模式 第三步 简单拖拽,把下载好的文件拖拽进第二步…

Chrome油猴(Tampermonkey)脚本使用及常用脚本分享

在我们使用浏览器的时候总是抱怨他的功能不够强大,缺少这个缺少那个,那么好,浏览器支持的一强大的功能-----扩展,也就是我们常说的插件,在这里我要介绍的是一款特别好用的插件,用来管理用户的脚本&#xff…

油猴脚本手机版|油猴tampermonkey手机版

手机浏览器中的功能太少,想下载一些插件?那么推荐你先安装个油猴脚本手机版,也就是油猴tampermonkey手机版,这是备受大家喜欢的一款类似电脑浏览器中的油猴一样的手机插件脚本,相信在电脑中使用过该插件的小伙伴们都知…

最简单的油猴(tampermonkey)脚本安装及使用教程-2023

1.下载压缩包 链接:https://pan.baidu.com/s/1JwPMWa8ZWh54VTC4Iopm2w?pwda0fi 提取码:a0fi 2.下载好的文件解压 3.点击谷歌浏览器右上角,找到更多工具,然后点击拓展程序。 4.加载已解压程序 5.成功

油猴使用教程

如何使用油猴脚本 安装脚本管理器安装脚本使用脚本 安装脚本管理器 方式一(推荐): GreasyFork官方网址 进入官网根据自己的浏览器下载对应的脚本管理器,下面以Microsoft Edge为例安装脚本管理器。 根据提示安装即可(…

油猴脚本安装以及使用方法

使用油猴脚本。首先得在Edge浏览器中安装油猴的拓展。打开到如上图所示的加载项页面。然后搜索Tampermonkey,图中所示的第三个,点击获取安装成功油猴了。接下来步骤,打开拓展显示→点击获取新脚本→搜索优学院→第一个安装显示出来的脚本安装…

Tampermonkey(油猴)脚本编写快速入门

目录 油猴脚本概述 脚本注释/注解 脚本权限 grant 添加新脚本 自定义网页倒计时 网页浏览离开黑屏保护 微博视频下载助手 华为云工作项列表突出展示工作项 Greasy Fork 发布脚本 油猴脚本概述 Tampermonkey 是一款免费的浏览器扩展和最为流行的用户脚本管理器&#…