wkhtmltox 中文显示一半_中文GPT闲聊对话生成模型 开源工作 包括 GPT和GPT2

bojone/CDial-GPT-tf​github.com
87692e34a6a6831247403f0bd96b03a0.png

今天发现有一个朋友的github更新了一个新的项目,于是我点进去扫了两眼。首先必然还是把两个预训练语言模型的压缩包下载下来。跟随者这个项目的步伐我发现了一个超级厉害的项目。

thu-coai/CDial-GPT​github.com
dc1731892a8735115d401e8372643fad.png

在项目介绍中描述到。本项目提供了一个大规模中文对话数据集,并提供了在此数据集上的中文对话预训练模型(中文GPT模型)。

大概就是用了很多的开源的对话语聊训练了一个中文版本的GPT闲聊对话模型。

我应该吧GPT简单的介绍一下。

GPT(Generative Pre-Training),是OpenAI在2018年提出的模型,利用Transformer模型来解决各种自然语言问题,例如分类、推理、问答、相似度等应用的模型。GPT采用了Pre-training + Fine-tuning的训练模式,使得大量无标记的数据得以利用,大大提高了这些问题的效果。
GPT就是利用Transformer进行自然语言各种任务的尝试之一,主要有以下三个要点

  • Pre-Training的方式
  • 单向Transformer模型
  • Fine-Tuning与不同输入数据结构的变化

如果已经理解了Transformer的原理,那么只需要再搞懂上面的三个内容就能够对GPT有更深的认识。
作者:Ph0en1x
链接:https://zhuanlan.zhihu.com/p/69290203
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

嗯这个解释还是比较言简意亥的。

so 我们开始玩一玩。怎么去在这个代码的基础之上继续进行预训练。很不幸我没看到版本的要求。就是所应用的深度学习计算框架的版本在readme中并没有体现。按照代码的指示首先常规操作

pip install -r requirements.txt

安装过程中看到了thu-coai/CDial-GPT的版本是pytorch 1.4.0版本的。这里面还是建议在安装之前就进行pytorch的安装。

karll:Centos 7 conda安装特定CUDA版本的Pytorch 1.4.0 和 Apex​zhuanlan.zhihu.com
537b1924bf533ed9ad24184f9d431094.png

可以参考这个教程进行 pytorch的 1.4.0版本的安装。

我们来看看官方给出的数据集是什么格式的

0cab91a85e9ced4a5261d0af1798faa6.png
数据集格式

首先需要把数据集给解压然后放在一个目录之下嗯 按照下面这个写法来看更清晰一些 开源的代码是可以单机多显卡跑任务的。

python train.py --pretrained --model_checkpoint 模型目录/ --data_path 数据集目录/STC.json  # 使用单个GPU进行训练

172c9b90f0f51dc46d9d5c04e49d282e.png
训练过程的截图

启动的时候数据集预处理的时间还是挺长的 ,然后就变成了这个样子了。pytorch并不是很熟悉。今天阿里源应该是出现了一些问题,转到清华源会好很多。

然后我就想造一个 自己的数据集。于是我找了一些对话的数据。两万条非重复数据 五千条 验证 五千条测试 一万五千条 训练。在cpu上面进行训练。因为机器坏掉了,所以只能在cpu上面凑活跑一下。

0c6ca1509f67ca61f3a43fa161b26f2a.png

一个 epoch上面大概 六个小时

6d1449b8309fc414747fe0174decdb88.png

另外一点就是根据readme中的描述 base的数据质量回比large版本的数据质量更高一些

https://miao-picture.oss-cn-shanghai.aliyuncs.com/GPT_LCCC-base-tf.zip​miao-picture.oss-cn-shanghai.aliyuncs.com

贡献一下自己的OSS支持大家快速进行预训练模型的下载。

看到了评论区的提问,之前bert也很大,但是现在很多公司的bert已经是炉火纯青了。所以开源才是深度学习前进的最大动力呀。本地采用的是单卡2080ti进行的模型训练。现在 30系列的显卡出来了。看参数,20系列真的是整体去世了。

对于这个模型我认为是一个辅助发现问答对的好模型,还没有经历过预测的测试。在这个参数之下,响应速度应该会受到一定的影响。模型内部的数据流程也是下一阶段主要探索的点。新开源工作就像新大陆一样。总会有着惊喜,相信美好的事情即将发生。

(一下信息来自实习生 杨红文编辑)

GPT 调研报告

对于 https://github.com/thu-coai/CDial-GPT 数据结构及模型有以下调研:

提出了一个清洁中文会话数据集 LCCC(其中包含基本版本(680 万对话)和

大型版本(1200 万对话))的模型。该数据集的质量是通过严格的数据清理管道

来确保的,该管道基于一组规则和在手动注释的 110K 对话对上训练的分类器而

构建。 并用对话生成预训练模型(GPT),分别在基于 LCCC-base 和 LCCC-large

上进行了训练。

清理后的数据集和预训练模型将有助于短文本对话建模的研究。

一、 数据集

1 数据获取

数据集主要是基于公共资源进行抓取的,其来源包含电影脚本、社交媒体

(twitter、reddit、weibo 以及技术论坛等)。这些从公共资源抓取的数据集通常是

大规模的,因为公共资源的语料库很丰富。

但也包含很多噪音,需要仔细清洁。

首先从微博抓取了 79M 条对话。 通过严格的清理过程,构建了清理后的微

博数据集(LCCC-base)。 然后,将 79M 条会话与几个公共中文会话数据集混

合,并通过更宽松的清洁条件获得更大的中文会话数据集(LCCC-large)。 清洗

过程包括基于规则的过滤和基于分类的过滤。

LCCC-base: 两阶段数据收集方案用于构建我们的原始对话。 在第一阶段,收集

了一组种子用户。 即手动选择了一批遵循专业大众传媒致力于发布新闻的微博

帐号。 然后,我们将在这些新闻下发表评论的用户视为“高质量”用户(因为机

器人帐户通常不会过多关注这些日常新闻。)在第二阶段,我们收集了这些种子

用户的对话。 这些用户的微博帖子与以下注释(以树结构组织)一起收集。 请

注意,从根到叶的任何路径都可以视为对话会话。 我们使用“深度优先搜索”流

程重建了这些会话,并构建了 7,900 万个原始会话。 然后,使用情节方法清洁数

据构建了一个清洁的微博数据集。

LCCC-large: 从多个开源存储库中收集了语料库,包括中国 Chatterbot 语料库,

PTT 闲话语料库,字幕语料库和小黄集语料库。这些数据集与 Qingyun 语料库和

Tieba 语料库一起被清理并处理为单个回合对话数据.此外,还收集了多回合对话

数据,包括豆瓣对话语料库,电子商业对话语料库和中文聊天语料库。然后,我

们将这些数据集与 7900 万对话进行了混合。 使用相同的清洗过程,但通过放宽

下面描述的分类器的阈值,我们获得了较大版本的数据集(LCCC-barge)。

2 清洁过程

基于规则的噪声过滤是通过规则过滤出多种类型的噪声,包括:(1)在对话

框中删除平台标签;(2)从文字中删除网址字符串;(3)将会话数超过 30 的会话

拆分为多个会话数少于 30 的会话;(4)在一个句子中仅保留重复超过 6 次的短

语或单词的副本; (5)如果回答太长或太短,则删除对话; (6)如果将响应

标识为广告,则删除对话; (7)如果响应中 90%的三元组是高频三元组,则删

除对话; (8)如果响应具有某些特定形式的通用响应,则删除对话; (9)删

除回复与帖子相同的对话。

其次,还构建了包含以下噪声的黑名单:(1)脏话,敏感词和方言; (2)

特殊主题词,如左氧氟沙星; (3)名称,称谓和未知缩写; (4)特殊符号和

表情符号; (5)平台标志,例如与广告,图片和视频相关的单词。 如果对话

中包含出现在黑名单中的单词,则该对话将被删除。

基于分类器的过滤是就语义和语法而言,许多类型的噪声,以及某些与上下文相关的对话,很难用规则过滤。因此,我们建立了两个 BERT 分类器,以进行

更精细的过滤。我们用不同的置信度分数评估了准确性,召回率和 F 分数,以选

择最佳置信度阈值。第一个 BERT 分类器接受了手动标记的 100,000 个对话的培

训。如果对话具有上述噪声或以下噪声,则标记为嘈杂:(1)响应不流畅或句子

中存在严重错别字;(2)响应信息不完整;

(3)对话的主题是时间敏感的,(4)

帖子中未提及的节日,地点,性别和时间出现在回复中(5)帖子和回复无关。

表 1 中显示了某些情况(底部)。测试集的分类精度达到 73.76%。在社交媒体中,

许多对话不可避免地依赖于文本之外的外部上下文[27,33],从而使其难以理解[9]。

为了减轻这个问题,第二个 BERT 分类器在包含 10,000 个语音的手动标记数据

集上进行了训练。测试集的分类精度达到 77.60%。

二、模型

GPT 模型主要是使用 transformer 的 decoder 结构,并对 transformer decoder

结构进行改进,原本的 decoder 包含两个 multi-head attention 结构,GPT 只保留

了 mask multi-hesd attention 结构.GPT 使用句子序列预测下一个单词,因此采用

采用 multi-head attention 对下文进行遮挡,防止信息泄露。GPT 在训练时时利用

上文预测下一个单词,Bert 时根据上下文预测单词,因此在很多 NLU 任务上,

GPT 的效果较 BERT 要差。但 GPT 更适合用于文本生成的任务,因为文本生成

通常时基于当前已有的信息,生成下一个单词。

(来自实习生 杨红文编辑)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3219.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker部署Mysql数据库详解

目录 1. Docker部署Mysql 1.1 Mysql容器 1.1.1 创建Mysql容器 1.1.2 进入Mysql容器并登录Mysql 1.1.3 持久化数据 1.2 远程登录Mysql 1.2.1 修改root加密方式 1.2.2 在容器启动时配置加密方式为mysql_native_password 1.3 Mysql编码 1.3.1 Mysql编码问题 1.3.2 Mysql编码…

ChatGPT扩展系列之ChatHub解决被OpenAI 封号的终极解决方案

ChatGPT扩展系列之ChatHub解决被OpenAI 封号的终极解决方案 本节介绍了一个解决ChatGPT在中国大陆无法使用和担心被封号的问题的方法。近期有很多亚洲用户被封号,原因是有人滥用API接口或者批量注册账号,不符合官方规定。对于这个问题,提出了一个解决方法,可以在中国大陆无…

Docker系列 基于OpenAI API自建ChatGPT

转自我的博客文章https://blognas.hwb0307.com/linux/docker/4201,内容更新仅在个人博客可见。欢迎关注! 前言 我用帐号/密码使用chatGPT已经有一段时间。但是,我有几个私交较密的朋友,他们并不具备使用chatGPT的条件&#xff1b…

从开发到上线,三分钟拥有自己的 ChatGPT !

OpenAI 已经公布了 ChatGPT 正式版 API,背后的新模型是 gpt-3.5-turbo,这是 OpenAI 目前最先进的模型,响应速度更快,价格更便宜。 作为开发人员,我们还是希望通过 API 将 ChatGPT 和相关模型集成到自己的产品和应用中&…

基于Tushare量化分析示例

1. 量化神器Tushare介绍 大家都知道量化分析离不开数据支撑,那下面就简单说一下一个简单好用的量化神器——Tushare。 Tushare 提供免费的数据接口,包含沪深股票数据、财务报表数据、指数、基金、期权、期货、港股、美股、宏观经济等数据,甚…

零代码量化投资:用ChatGPT获取新浪财经上的股票实时行情

现在很多免费的股票数据库,比如akshare,其实是从新浪财经或者东方财富网站上爬取下来的。如果能直接从新浪财经或者东方财富网站上爬取数据,可以获取更全面更即时的信息。 可以在ChatGPT中输入提示词如下: 写一段Python代码&…

ChatGPT:搞『量化投资』我是认真的!

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾…

如何利用ChatGPT学习量化投资?

引言 最近,ChatGPT持续火了很长时间,占领各大热点和头版头条,成为A股开年以来最大的热点之一。ChatGPT是OpenAI开发的一种语言生成模型,可以理解为智能问答机器人。最近围绕量化投资在上面试了很多问题,大部分回答还是…

ChatGPT在社工攻击和反钓鱼中的应用

概述 ChatGPT是一种基于神经网络的自然语言处理模型,可以生成自然流畅的文本或对话。在钓鱼攻击中,攻击者可以使用ChatGPT生成虚假电子邮件或消息,更好地伪装成受害者所信任的个人或组织,从而获取受害者的个人信息。这种行为对个…

看ChatGPT这形势,留给我们开发人员的时间不多了

程序员一直所做的工作是什么?恐怕想到最后,每个努力的程序员都是在让自己努力的走向失业。最近ChatGPT爆火,他能做什么?能写文章,写的很好,可以代替你发邮件,一直到发现OpenAI的深度加持&#x…

ChatGPT其实并不想让开发人员做这5件事情

前言 ChatGPT已经火爆了快半年了吧,紧接着国内也开始推出了各种仿制品,我甚至一度怀疑,如果人家没有推出ChatGPT,这些仿制品会不会出现。而很多人也嗨皮得不行,利用各种方法开始科学上网,用ChatGPT做各种觉…

让ChatGPT连接进互联网世界

大家知道ChatGPT是没有链接到互联网的,所以只能回答2021年之前的知识,对于这么强劲的大脑这有点可惜了,现在有办法了: 使用WebChatGPT插件(chrome) 安装插件: 上图是安装前 安装后的效果&…

chatGPT打不开问题(个人亲测有效)

chatGPT打不开问题(个人亲测有效) ChatGPT打不开 Access denied !Access denied !Access denied !相信今天很多国内的小伙伴们打开 Open AI ChatGPT 都会出现:“Access denied You do not have access to …

小狐狸ChatGPT付费创作系统V2.1.0独立版 +WEB端+ H5端 + 小程序端安装教程

播播资源针对ChatGPT付费创作系统V2.1.0提供最新的对应版本小程序端全套测试,上一版本增加了PC端绘画功能,绘画功能采用其他绘画接口-意间AI,本版新增了百度文心一言接口。后台一些小细节的优化及一些小BUG的处理,前端进行了些小细…

ChatGPT 官方 API 来了,价格直接打骨折,未来……

大家好,我是校长。 ChatGPT 自去年年底公布以来,最近这几个月一直处于火热的状态当中,堪称引起了人工智能旋风。 01 官方 API 来了 昨天凌晨 2 点左右(美西时间 3 月 1 日(周三)),Op…

2023年ChatGPT商业版免授权源码/AI绘画/付费系统

正文: 2023 最新 ChatGPT商业版源码,该产品支持用户付费套餐,AI 绘画,支付对接,卡密购买兑换等功能,并且可以免费使用,同时附带详细的教程文档。 AI程序采用NUXT3LARAVEL9开发 字节网盘&#…

小狐狸ChatGPT付费创作系统1.6.1独立开源版 + 小程序VUE前端

小狐狸GPT付费体验系统最新版系统是一款基于ThinkPHP框架开发的AI问答小程序,是基于国外很火的ChatGPT进行开发的Ai智能问答小程序。小程序版本,包含全插件,开源可二开!接口模型升级至GTP3.5,修复一句可能会出bug的代码…

小狐狸ChatGPT付费创作系统1.8.9独立版源码,H5端 + 小程序端

v1.8.9 1、增加后台手动加绘画次数 2、增加新用户送绘画次数 3、云存储改成在超管后台配置 4、修复H5首次进入会弹网络错误的问题 5、修复其他几个小问题

重磅!阿里版本【ChatGPT】开放测评!

前两天突然爆出惊人消息:阿里版ChatGPT开放测评了! 在本月初,已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。 数日前,首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”,凭借其出色的表现吸…

阿里版 ChatGPT 突然官宣!我们用 16 个提问,火速进行了测评……

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 平地一声雷!今天中午阿里版类 ChatGPT 「通义千问」突然官宣: 没错,就这 3 行简短介绍 1 个官网地址,再无其他“剧透”。 好在,CSDN 有幸拿…