数据开源 | Magic Data开源基于ChatGPT的可扩展的对话数据集

在过去的一月里,人工智能领域中最火的话题莫过"ChatGPT"。ChatGPT是OpenAI于11月30日发布最新作品聊天机器人,开放公众免费测试。聊天机器人是一种软件应用程序,根据用户的提问做出回应、模仿人类的对话方式。目前,ChatGPT的用户量已经超过一百万。它既能完成包括写代码,修bug(代码改错),翻译文献,写小说,写商业文案,创作菜谱,做作业,评价作业等一系列常见文字输出型任务,而且在和用户对话时,能记住对话的上下文,反应非常逼真。连马斯克都在推特上称赞道,“ChatGPT真是惊人的好。我们离危险的强大人工智能不远了”: 

甚至有人传言下一代GPT4可能可以取代Google、百度等传统搜索引擎。让世界科技大佬都称赞的ChatGPT,到底是如何对答如流的呢?

ChatGPT技术框架

据OpenAI报道,ChatGPT模型是“从人类反馈中强化学习”(RLHF)的机器学习技术训练的。RLHF可以模拟对话,回答衍生问题,承认错误,质疑不正确的前提,并且拒绝不适当的请求。其底层结构仍然是基于自我注意力机制(self-attention)的transformer模型。该模型能够同时并行进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。

与所有大数据模型一样,ChatGPT同样也是经过“预训练+微调”的过程,但是OpenAI这次在数据收集上设置上有了细微的差别。结合人类反馈信息来训练语言模型使其能理解指令,也就是模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。通过公测形式可以积累大量用户反馈数据继续优化ChatGPT的性能。引入“人工标注数据+强化学习“来不断Fine-tune预训练语言模型,主要目的是让LLM模型学会理解人类的命令指令的含义,其训练步骤分为三部:

第一阶段:首先会从测试用户提交的prompt(就是指令或问题)中随机抽取一批,靠专业的标注人员,给出指定prompt的高质量答案,然后用这些人工标注好的数据来Fine-tune GPT 3.5模型。第二阶段:通过人工标注训练数据,来训练回报模型。第三阶段:采用强化学习来增强预训练模型的能力。基于上述算法和训练技巧,相对以往的人机对话模型来说,ChatGPT可以非常好地模拟人类的聊天行为,理解能力和交互性表现也更强,并能精准地回答用户提问,将大幅提升用户使用体验。

智能 or 智障

尽管ChatGPT对大部分问答回复的都非常完美,但是,ChatGPT本质上和传统的聊天机器人并没有分别——它并不理解自己所说的话,有时回答内容还是会犯一些低级错误。一段“网友调教这只AI”的聊天记录,让人不禁质疑AI是否真的鄙人聪明,对于27是质数与否为题回答有误,也表明了人工智能“智障”的一面。

 

Magic Data 数据开源

ChatGPT的智能是以大量对话数据的训练为基石,“智障”是由于数据不完备造成。据统计,从ChatGPT进化到ChatGPT-3的过程相当烧数据—参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB。尽管如此吃数据,仍没成长为全面人工智人。可见需要源源不断的真实场景数据的训练,才会让ChatGPT越来越好。

但是对话数据的采集成本较高,需要专业的数据公司团队采集、清洗、标注。作为全球领先AI数据解决方案提供商,Magic Data的对话式AI数据集可以为类似ChatGPT的大模型提供各类垂直场景下的对话语料,帮助机器学习模型性能定向调优,拓展其特定场景下的对话式AI交互能力。

Magic Data旗下MagicHub数据开源社区已开源部分基于ChatGPT的可扩展的对话数据集,包括:

教育客服文本数据集

样例:

金融客服文本数据集

样例:

医疗客服文本数据集

样例:

中文日常聊天文本数据集

样例:

即刻前往MagicHub数据开源社区,免费下载使用!

中文教育客服文本数据集

NLP-CEduCusSerC: A Chinese Education Customer Service Corpus - MagicHub

中文金融客服文本数据集

NLP-CFinCusSerC: A Chinese Finance Customer Service Corpus - MagicHub

中文医疗客服文本数据集

NLP-CHealCusSerC: A Chinese Healthcare Customer Service Corpus - MagicHub

中文日常聊天文本数据集

Chinese Conversational Text Corpus - Daily Life - MagicHub

更多开源数据,欢迎访问 

MagicHub 开源社区 MagicHub - Datasets Download | Open-Source Datasets  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7569.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python的玩法

Python的玩法 Python作为一种高级编程语言,在计算机编程领域非常流行。它是一种自由软件,可以在多种平台上运行。Python在数据科学、机器学习等土地居功无比,但它的应用除了这些重磅级领域,还有很多有趣的玩法。 编写游戏 Pyth…

教你轻松玩转-ChatGPT或生成类大模型--助你成为未来高端黄金职业人

文章目录 1、前言2、大模型--巴拉巴拉小魔仙3、巴拉巴拉小魔仙-指导方向3、二次元美女或科幻图-魔法4、Cosplay-魔法5、魔法师5.1、系统消息5.2、小样本学习5.3、非对话场景5.4、使用明确的指令5.5、最后重复一遍指令5.5、对输出的操作5.6、添加语法5.7、把任务分解5.8、思维链…

海外ChatGPT专题

作为AIGC领域顶尖的模型,ChatGPT有望对现有生产力工具进行变革,引领赛道发展。海外ChatGPT专题_up.pdf: https://url39.ctfile.com/f/2501739-805099789-098b62?p2096 (访问密码: 2096) 参考文献: [1]海外ChatGPT专题_up.pdf: https://url39…

浅谈 ChatGPT —— 现代巴别塔

theme: nico 一、用 ChatGPT 一搜就到你这了 ChatGPT 在去年 11 月发布以后,上线 5 天后就有了 100 万用户,上线两个月后已有上亿用户,可谓一炮而红。起初我对 ChatGPT 是没有什么感知的,我单纯认为人工智能还没有发展到完全超越人…

“我们聘请 ChatGPT,让它当了一天 ML 工程师”

随着 ChatGPT 的爆火,许多人提出疑问:它究竟是否可以取代人类?于是,面对众说纷纭的答案,本文作者决定:让 ChatGPT 当一天的机器学习工程师,毕竟实践出真理。 原文链接:https://encor…

Twitter崩了,马斯克:代码太烂,全部重写!

上一篇:高校教师“夸”女学生「睡衣好看」「含苞欲放」被投诉,校方回应 本来有很多人非常好奇,自去年 10 月底,马斯克掌管 Twitter 之后,便大刀阔斧的改革,尤其是对于员工数量从彼时的 7500 名员工骤减到了…

【Python|从0到1】小白的学习之旅:跟chatgpt学python(1)

软件:pycharm3.3 插件:NexChatGPT 今日学习成果: 文件的输入与输出 我宣布chatgpt就是我的亲妈呜呜呜!还有谁会这么耐心细致地给PS讲这么简单但是我死活搞不明白的东西!!! PS:先帝创业未半而中…

利用chatgpt实现三分钟快速制作自定义PPT

目录 利用ChatGPTMindShow三分钟生成PPT 机器人 道合顺 莓用ai 百晓生 aichat 结合提词器以达到更好地提问效果: 更好地提问ChatGPT_常用prompt表_小黄同学LL的博客-CSDN博客 举个栗子: 利用ChatGPTMindShow三分钟生成PPT 提词:…

吵完架后,总感觉没发挥好?让ChatGPT教你如何科学吵架!

最近ChatGPT的热度正如火箭般飞升,朋友圈每天都能看到朋友们晒和ChatGPT聊天的图片。 ChatGPT不仅可以跟你有来有回的对话聊天,甚至能编代码、做图等等。除此之外,它还会道歉,学习,情商可能比一些人都高。人性化的感觉…

ChatGPT的技术逻辑及演进

完整PDF文件点这里可以下载

ChatGPT 发展历程、原理、技术架构详解

△点击上方“Python猫”关注 ,回复“1”领取电子书 大家好,我是猫哥。最近 ChatGPT 的内容铺天盖地,话题热度全网第一,我们想不注意它都不可能。去年 12 月份的时候,ChatGPT 横空出世,我当时就体验过&#…

ChatGPT原理与技术演进剖析

—— 要抓住一个风口,你得先了解这个风口的内核究竟是什么。本文作者:黄佳 (著有《零基础学机器学习》《数据分析咖哥十话》) ChatGPT相关文章已经铺天盖地,剖析(现阶段或者只能说揣测)其底层原…

分享github上比较热门的ChatGPT项目,值得收藏

🔗 运行环境:chatGPT 🚩 撰写作者:左手の明天 🥇 精选专栏:《python》 🔥 推荐专栏:《算法研究》 #### 防伪水印——左手の明天 #### 💗 大家好🤗&#x1f9…

领导都被你镇住的公文金句-写作文稿

领导都被你镇住的公文金句 1.把转变作风、提振状态作为提升质量效率、推动全局工作的突破口,发扬真抓实干的作风,激励争先进位的精神,砥砺攻坚克难的勇气。 2.对标对表、加压奋进,久久为功、日日做功,努力实现从“追…

公文写作素材:工作落实类过渡句50例

1.再美的发展蓝图,如果不能落到实处,都是纸上谈兵;再大的奋进决心,如果没有实际行动,对工作毫无益处。 2.会议提出的任务再明确不落实只是纸上谈兵,会议出台的措施再可行不担当只是空中楼阁。 3.既要有不…

怎么提高公文写作水平?原来这就是公文写作通知类模板

最近突然想到公文写作这个话题,虽然在后台问过这个问题的粉丝不多,但毕竟不知不觉收集了不少这方面的资源,所以干脆就花时间整理一下吧 今天要分享的内容,可以解决各位公文写作时缺少参考素材、缺少参考提纲、缺少参考范文、校稿不…

chatgpt赋能python:Python安装配置教程

Python安装配置教程 Python是一种功能强大、易于学习和免费的编程语言。它广泛应用于Web开发、科学计算、人工智能、数据分析、自动化等领域。在本文中,我们将教你如何在Windows、Mac和Linux操作系统上安装和配置Python。 安装Python Python最新版本是Python 3&a…

IDE装上ChatGPT,一天开发一个系统

昨天白天在写代码,晚上看了一场直播,是两个技术的直播: 一个是技术总监,一个是号称Java之父的余**。 结果Java之父被技术总监吊打。然后匆匆下播。 技术这玩意,真的就是真的! 白天我开发了一个系统&…

ChatGPT 桌面应用程序 for macOS, Linux, Windows v0.10

请访问原文链接:https://sysin.org/blog/chatgpt/,查看最新版。原创作品,转载请保留出处。 作者主页:www.sysin.org ChatGPT 是什么 ChatGPT 是 OpenAI 公司开发的一种基于对话优化的语言模型。用俗话说就是“人工智障”聊天机器…

ChatGPT背后的核心技术

源自:机器人大讲堂 导 语 缘 起 论文介绍 这两个向量存在于两个不同的向量空间,主要的区别就是前者多了一个向量特征:“年薪”。可以思考一下如果判断一个人的信用额度,“年薪”是不是一个很重要的影响因子? 以上例…