数据开源 | Magic Data大模型高质量十万轮对话数据集

数据开源 | Magic Data大模型高质量十万轮对话数据集

news/2024/12/26 10:12:03/文章来源:https://blog.csdn.net/weixin_47718443/article/details/140321981

能够自然的与人类进行聊天交谈，是现今的大语言模型 (LLM) 区别于传统语言模型的重要能力之一，近日OpenAI推出的GPT-4o给我们展示了这样的可能性。

对话于人类来说是与生俱来的，但构建具备对话能力的大模型是一项不小的挑战，收集高质量的多轮对话训练数据则是其中关键一环。

为了能够让AI开发者们有效的推动多轮对话大模型的构建，晴数智慧首发推出了：LLM多领域超自然SFT多轮对话文本数据集！本数据集由晴数智慧Magic Data制作，总量数千万轮次。多样性，表现力，逻辑性，以及知识性都做到了极高品质，得到国内外大模型客户的认可。

大模型多轮对话SFT数据集_中文

为了能够让大家更好的理解我们的多轮对话数据集，我们选取了十万轮作为本次开源的“大模型多轮对话SFT数据集_中文”，其来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。本次开源的部分数据，由来自中国的644名不同ID的采集人独家贡献，北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开，上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力，以及端到端对话大模型。

数据统计

1、数据组成

“大模型多轮对话SFT数据集_中文”包含97184轮中文自然对话句子，涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样，也可以单独抽取相关领域的数据进行领域SFT。

数据集下载

https://magichub.com/datasets/magicdata-clam-conversation_cn/

2、数据样例

游戏主题：

旅行主题：

3、数据处理

（1）数据分布设计

“大模型多轮对话SFT数据集_中文”由晴数智慧数据专家设计数据分布，数据语料多样化的领域内容，采集人多样化，为大模型多轮对话能力的泛化和可迁移性提供了可能性。

（2）数据处理

“大模型多轮对话SFT数据集_中文”采用Human-in-the-loop的数据处理方式，即机器自动化数据清洗结合人工干预的方式，通过人机协作多轮处理，使得数据更加满足高品质要求。

（3）数据合规措施

“大模型多轮对话SFT数据集_中文”处理过程遵循完整的晴数智慧数据合规保障机制，确保数据版权完整。

4、数据特点

（1）语料真实，情感丰富

“大模型多轮对话SFT数据集_中文”源自真实的人类自然交谈，语言表达自然且丰富，充满了个人特色，情感表达也非常自然。这使得在训练大模型SFT时，能够更加拟人化，提高对话的质量和真实感。

（2）领域相关

在每一组多轮对话，两位说话人围绕一个主题开展自然对话，能帮助模型学习并掌握人类的领域知识和逻辑，从而实现更精准的对齐。语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近15个领域

（3）高表现力

贴合场景的自由对话赋予了数据极高的表现力，高表现力的数据带来的丰富信息维度能够使得模型更容易学到人类自然交谈的特点，从而实现更强大、泛化能力更好的模型性能。

数据集下载

https://magichub.com/datasets/magicdata-clam-conversation_cn/

如果您想了解更多晴数智慧的对话数据集详情，欢迎咨询business@magicdatatech.com

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/373527.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

three-platformize 微信小程序 uniapp 使用截图功能

three-platformize 微信小程序 uniapp 使用截图功能

最近需要将3d场景进行截图，但是网上的各种各样，看的我一团乱麻，因此在解决完后就将这些简单的分享一下； 原理：将3维场景的那个canvas中的像素提取出来，找一个空的canvas二维画布放上去，然后用二…

阅读更多...

【鸿蒙学习笔记】Stage模型

【鸿蒙学习笔记】Stage模型

官方文档：Stage模型开发概述目录标题 Stage模型好处Stage模型概念图ContextAbilityStageUIAbility组件和ExtensionAbility组件WindowStage Stage模型-组件模型Stage模型-进程模型Stage模型-ArkTS线程模型和任务模型关于任务模型，我们先来了解一下什么是…

阅读更多...

Pearson 相关系数的可视化辅助判断和怎么用

Pearson 相关系数的可视化辅助判断和怎么用

Pearson 相关系数的可视化辅助判断和怎么用 flyfish Pearson 相关系数是一种用于衡量两个连续型变量之间线性相关程度的统计量。其定义为两个变量协方差与标准差的乘积的比值。公式如下： r ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i −…

阅读更多...

RK3568平台（opencv篇）opencv处理图像视频

RK3568平台（opencv篇）opencv处理图像视频

一.读取图像文件并展示灰度图像： 灰度图需要用 8 位二进制来表示，取值范围是 0-255。用 0 表示 0（黑色）， 用 255 表示 1（白色），取值越大表示该点越亮。 RGB 彩色图像：…

阅读更多...

计算机网络浅谈—什么是 OSI 模型？

计算机网络浅谈—什么是 OSI 模型？

开放系统通信（OSI）模型是一个代表网络通信工作方式的概念模型。思维导图什么是 OSI 模型？ 开放系统互连 (OSI) 模型是由国际标准化组织创建的概念模型，支持各种通信系统使用标准协议进行通信。简单而言，OSI 为保证…

阅读更多...

【问题记录】VsCode中以管理员权限运行Powershell

【问题记录】VsCode中以管理员权限运行Powershell

问题展示今天在尝试运行nodemon命令的时候出问题，显示没法识别，经过分析发现是管理员权限的问题，由于是在vscode里面进行开发，因此特此进行配置。方法一直接在vscode命令行中输入如下命令： Start-Process powers…

阅读更多...

如何查询并下载韩国签证

如何查询并下载韩国签证

登录大韩民国签证门户网站（https://www.visa.go.kr），点击“查询/签发”- “办理进度查询及打印”。 2) 输入护照号码、英文姓名及出生日期后点击查询。 3) 若签证通过，办理状态信息栏下面会显示签证信息。 4）点击“签证…

阅读更多...

人生苦短，我用Python+Docker

人生苦短，我用Python+Docker

今天用一个简单的例子，介绍下如何使用Docker进行Python部署。前期准备本地需要有Python环境； 一个Linux的服务器并已经装好Docker ； 能把代码上传到服务端的工具。本文的本地环境是Win10Python3.12，服务器使用Ubuntu的云服…

阅读更多...

springboot通江银耳销售管理系统-计算机毕业设计源码15998

springboot通江银耳销售管理系统-计算机毕业设计源码15998

摘要随着人们健康意识的增强，银耳这种传统的中药食材备受关注。而通江银耳是四川省通江县特产，中国国家地理标志产品。四川省通江县是银耳的发源地，中国银耳之乡，通江银耳因主产于此而得名，以其独到的质厚、肉嫩、易炖…

阅读更多...

Objective-C 中的 isa 不再是简单的结构体指针

Objective-C 中的 isa 不再是简单的结构体指针

了解 Objective-C 中的 isa 指针内存结构在 Objective-C 中，isa 指针是对象和类之间的重要桥梁。它不仅帮助运行时系统识别对象的类型，还参与了一些内存和性能优化。本文将深入讲解 isa 指针的内存结构，包括其在早期和现代实现中的演变。 …

阅读更多...

彩虹小插画：成都亚恒丰创教育科技有限公司

彩虹小插画：成都亚恒丰创教育科技有限公司

彩虹小插画：色彩斑斓的梦幻世界在繁忙的生活节奏中，总有一抹温柔的色彩能悄然触动心弦，那就是彩虹小插画带来的梦幻与宁静。彩虹，这一自然界的奇迹，被艺术家们巧妙地融入小巧精致的插画之中，不仅捕捉了瞬…

阅读更多...

侯捷C++面向对象高级编程（下）-3-pointer-like classes

侯捷C++面向对象高级编程（下）-3-pointer-like classes

1.智能指针 2.迭代器

阅读更多...

海外金融机构银行保险证券数字化转型营销销售数字化成功案例讲师培训师讲授开户销售营销客户AI人工智能创新思维

海外金融机构银行保险证券数字化转型营销销售数字化成功案例讲师培训师讲授开户销售营销客户AI人工智能创新思维

金融机构需要数字营销的主要原因数字银行、直接存款和移动网络的兴起让客户无需前往当地分行即可轻松办理银行业务。这些举措不仅提升了用户体验，也迫使银行向数字化世界迈进。金融服务公司需要在数字营销渠道上保持稳固的地位，以免落后于大型机构。…

阅读更多...

man手册的安装和使用

man手册的安装和使用

man手册 - HQ 文章目录 man手册 - HQ[toc]man手册的使用Linux man中文手册安装man中文手册通过安装包安装通过apt安装配置man中文手册README使用说明配置步骤 man手册的使用首先man分为八个目录，每个目录用一个数字表示 1.可执行程序2.系统调用3.库函数4.特殊文…

阅读更多...

2024亚太杯中文赛数学建模B题word+PDF+代码

2024亚太杯中文赛数学建模B题word+PDF+代码

2024年第十四届亚太地区大学生数学建模竞赛（中文赛项）B题洪水灾害的数据分析与预测：建立指标相关性与多重共线性分析模型、洪水风险分层与预警评价模型、洪水发生概率的非线性预测优化模型，以及大规模样本预测与分布特征分析模型 …

阅读更多...

[Linux]安装+使用虚拟机

[Linux]安装+使用虚拟机

首先下载（提取码 ： ssjf）虚拟机（应该是必须要下载17的了 ， 我刚开始下载了15,16的在解决了不兼容的问题后频繁出现蓝屏的 ） 刚开始我遇见了小问题 --》在查看了以下两篇blog就解决了虚拟机无法打开,…

阅读更多...

防火墙安全策略用户认证综合实验

防火墙安全策略用户认证综合实验

基础配置 1，交换机配置（LSW5） 划分vlan10和vlan20，将g0/0/1与与防火墙化为trunk干道，使用防火墙路由模式（子接口），g0/0/2和g0/0/3化为access链路，分别连接生产区&#xf…

阅读更多...

nginx的重定向（rewrite）

nginx的重定向（rewrite）

1、location 匹配 location匹配的就是后面的URL，对访问的路径做访问控制或者代理转发共有三个匹配：精确匹配、正则匹配、一般配 a、精确匹配格式：location/ 对字符串进行完全匹配，必须完全合 c、正则匹配 ^~：前…

阅读更多...

【ARMv8/v9 GIC 系列 5.6 -- GIC 超优先级中断详细介绍】

【ARMv8/v9 GIC 系列 5.6 -- GIC 超优先级中断详细介绍】

请阅读【ARM GICv3/v4 实战学习】文章目录 Interrupt superpriority超优先级中断的特性和应用Physical interface interrupt signalsPhysical Group 1 Non-NMI for Current Security StatePhysical Group 1 for Other Security State, or a Group 0 Non-NMIPhysical Group 1 …

阅读更多...

微软发布Win11 21H2七月更新补丁KB5040431，快来体验！

微软发布Win11 21H2七月更新补丁KB5040431，快来体验！

系统之家于7月10日发出最新报道，微软为Win11 21H2用户发布了七月的安全更新补丁KB5040431。用户升级系统后，会发现版本号升至22000.3079。此次更新针对远程桌面MultiPoint Server在争用条件会导致服务停止响应等多个问题进行修复。接下来跟随小编看看此次…

阅读更多...

最新文章

推荐文章