NLP领域中文对话系统数据集总结(有下载地址)

一、豆瓣多轮对话数据集

1、简介:

测试数据包含 1000 个对话上下文,对于每个上下文,创建 10 个响应作为候选。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大多数标签被视为最终决定。

2、数据格式:

标签 \t 对话话语(由 \t 分割)\t 响应

3、下载

https://github.com/MarkWuNLP/MultiTurnResponseSelection

二、KdConv

1、清华 ACL 2020 论文:https://arxiv.org/abs/2004.04100

2、简介:KdConv是中文多领域知识驱动对话数据集。KdConv 包含来自三个领域(电影、音乐和旅行)的4.5K对话和86K话语,平均轮数为19.0。这些对话包含对相关主题的深入讨论和多个主题之间的自然过渡,同时语料库还可以用于探索迁移学习和领域适应。

3、下载:

https://github.com/thu-coai/KdConv

三、zhdd

1、简介:

  • zhddline: 中文对话数据集, 从 DailyDialog 数据集翻译而来(基于搜狗翻译API),短文本。

  • zhdd: zhddline的会话版,每一个会话被拼接为一个文档,长文本。共有12336个文档。.

  • 涉及领域:日常生活的各种话题

2、下载链接

https://github.com/zll17/Neural_Topic_Models#datasets

四、2018-2019年京东对话挑战赛数据集

京东对话挑战赛对话数据集主要是客服对话数据

1、2018年

数据集说明:

(1).原训练语料, path:data/chat.txt

(2).数据清洗之后的训练语料:train.enc、train.dec、test.enc、test.dec

(3).测试模型数据,测试问题test.txt和输出结果result.txt,path:data/test/

2、2019年:

数据各字段属性的解释 (1)会话编号:每个会话都会有唯一的编号,可以以此区分会话。 (2)顾客ID:每位顾客都会有唯一的ID,已脱敏。 (3)SKU:商品的编号。每个商品都有唯一的编号。若SKU的值为NULL,则表示该会话不涉及具体商品

数据的规模 开发集和测试集均包含52个会话。

3、下载:

2018年:https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq

2019年:https://github.com/EndlessLethe/jddc2019-3th-retrieve-model

五、淘宝客服对话数据

又名:E-commerical Conversation Corpus

1、简介:

电子商务对话语料库,包括基于检索的聊天机器人的训练数据集、开发集和测试集。电子商务会话语料库统计如下表所示。

2、数据格式:

跟豆瓣多轮对话数据集一样

3、下载:

https://github.com/cooelf/DeepUtteranceAggregation

六、chatterbot-corpus-chinese

1、简介:

ChatterBot Corpus 中包含的数据文件使用YAML语法进行格式化。按类型领域分类,质量较高。

涉及领域:历史、电影、食物等十几种类型,每一类型一个yml文件

缺点:每一类型的对话数量很少

2、下载:

https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese

七、天池中文医疗数据集CMDD

1、简介:

本数据集CMDD由好大夫和圣地亚哥大学提供。可基于数据集进行学习、科学研究

2、下载:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=92110b

八、天池中文医疗数据集Toyhom

1、简介

中文医疗对话数据集由792099个问答对组成。 本数据集共有6个文件,包括男科、内科、妇产科、肿瘤科、儿科和外科。

2、下载:

Chinese Medical Dialogue Dataset 中文医疗对话数据集_数据集-阿里云天池

九、Ubuntu对话语料库

1、简介:

Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话,用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮,至少3轮。所有对话均以文本形式(而非音频)进行。

完整的数据集包含93万个对话和超过1亿个单词。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本,分布超过了2600万圈。

2、下载:

Ubuntu对话语料库 2600万次自然的两人对话_数据集-阿里云天池

十、百度DuConv

1、简介

训练集样例数量开发集样例数量测试集样例数量单/多轮领域
1985820005000多轮电影、明星

2、下载:

https://github.com/Cindy-xdZhang/ACL-duconv

3、论文:

Proactive Human-Machine Conversation with Explicit Conversation Goals

十一、百度DuRecDial

1、简介:

DuRecDial包含多种类型的对话(推荐对话、闲聊、任务导向对话和QA),来自7个领域(电影、明星、音乐、新闻、食物、poi和天气)的10.2k对话,以及156K个utterances。

2、下载:

https://baidu-nlp.bj.bcebos.com/DuRecDial.zip

3、论文:

https://arxiv.org/pdf/2005.03954.pdf

十二、清华LCCC

1、简介:

所提供的数据集LCCC(Large-scale Cleaned Chinese Conversation)主要包含两部分: LCCC-base 和 LCCC-large,属于开放域对话数据集。

2、下载:

https://github.com/thu-coai/CDial-GPT

十三、PTT 中文語料

1、简介:

台湾PTT论坛繁体字八卦版,单轮对话,文本噪声比较大。

有两份数据:Gossiping-QA-Dataset.txt 和 Gossiping-QA-Dataset-2_0.csv

2、下载:

https://github.com/zake7749/Gossiping-Chinese-Corpus

十四、Subtitle Corpus

1、简介:

电视剧对白语料,来自爬取的电影和美剧的字幕。有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)。

2、下载:

https://github.com/aceimnorstuvwxz/dgk_lost_conv

十五、青云语料库

1、简介:

来源于聊天机器人交流群。开放域。12万条对话。

2、下载:

https://drive.google.com/file/d/1So-m83NdUHexfjJ912rQ4GItdLvnmJMD/view?usp=sharing

十六、weibo微博语料

1、简介:

来自华为的paper,443W条对话。

2、下载:

https://drive.google.com/file/d/1So-m83NdUHexfjJ912rQ4GItdLvnmJMD/view?usp=sharing

十七、贴吧论坛回帖语料

1、简介:

来源于贴吧论坛回帖,是多轮对话数据集。存在有噪音。

2、下载:

https://github.com/codemayq/chinese_chatbot_corpus

十八、腾讯NaturalConv

1、简介:

NaturalConv是腾讯2021年发布的中文对话数据集,是基于话题驱动的中文对话生成,它更接近于类人对话,具有自然属性,包括场景假设、自由话题扩展、问候等。它更接近于类人对话,具有自然属性,包括场景假设、自由话题扩展、问候语等完整的自然环境。它包含约400K语句和19.9K对话,涉及多个领域(包括但不限于体育、娱乐、科技)。平均轮数为20,明显长于其他语料库。

2、下载:

Dialogue Research-Tencent AI Lab

3、论文:

https://arxiv.org/pdf/2103.02548.pdf

十九、Crosswoz数据集

1、简介:

2020年由清华大学人工智能研究院发布的CrossWOZ包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁、出租)。平均每个对话涉及 3.2 个领域,远超之前的多领域对话数据集,增添了对话管理的难度。

截至2020年,是第一个大规模中文对话数据集。可以用于研究任务型对话系统中各个方面,比如NLU、DST、对话策略学习、NLG都可以,也可以用于对话上下文补全的研究。

2、论文:知乎 - 安全中心

3、下载:

https://github.com/thu-coai/CrossWOZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56792.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

肠道病毒组识别早产儿坏死性小肠结肠炎发病前的特异性病毒特征

期刊:Nature microbiology 影响因子:30.964 发表时间:2022 样本类型:粪便样本 研究背景 坏死性小肠结肠炎(NEC)是早产的严重后果,通常与肠道细菌微生物群的改变有关。然…

新型病毒来了【PcaPatchDbTask】

急报!!新型病毒来了【PcaPatchDbTask】 1.什么是PcaPatchDbTask PcaPatchDbTask是一种新型的木马 2.PcaPatchDbTask的危害 【1】他会劫持你的浏览器主页 【2】他会读取你的键盘信息 【3】他会获取你电脑的联系人菜单 【4】它甚至不会被安全软件查杀 3.…

Nature Reviews:给医生的菌群分析指南(下)

本文转载自“态昌基因”,己获授权。 Nature Reviews:给医生的菌群分析指南(上),主要从实验阶段介绍了以下7方面,不清楚的请点击链接跳转原文阅读。 1. 样本选择 2. 样本的采集 3. 样本的保存与保护剂 4. DNA提取 5.我到…

关于儿童急性感染性腹泻

腹泻是一种常见的症状,可导致儿童生长发育迟滞和营养不良。根据世界卫生组织(WHO)发布的数据显示,急性腹泻在5岁以下儿童死亡原因中排第二位,仅次于肺炎。引起儿童腹泻的原因包括感染和非感染因素,后者主要…

MPO抗体对丨CalBioreagents 中英文说明书

艾美捷CalBioreagents MPO抗体对英文参数说明: CATALOG NUMBER: M684 PRODUCT DESCRIPTION: Mouse Monoclonal anti-human Insulin IMMUNOGEN: Purified human MPO IMMUNOGLOBULIN ISOTYPE: IgG1 PURIFICATION: Purified by DEAE chromatography. BUFFER: Sup…

PICRUSt2菌群功能预测分析

生科云网址:https://www.bioincloud.tech 01 课程简介 PICRUSt2的原理是基于已测微生物基因组的序列,推断它们的共同祖先的基因功能谱,对数据库中其它未测物种(基因组未知)的基因功能谱进行推断,构建微生物…

病毒组学数据分析 -03 CheckV病毒序列识别

CheckV 是一个完全自动化的命令行管道,用于评估单重叠群病毒基因组的质量,包括识别集成原病毒的宿主污染、估计基因组片段的完整性以及识别封闭基因组。 管道可以分为4个主要步骤:A:去除原噬菌体上的宿主污染 根据与自定义 HMM 数…

新冠病毒分型和突变分析(SARS-CoV2_ARTIC_Illumina)

SARS-CoV2_ARTIC_Illumina新冠病毒分型和突变分析 一. 本文适用于使用Artic扩增子扩增,Illumina双端测序,用于分析新冠病毒突变及分型鉴定 二. 概览:按照惯例,先上一张概览图 流程输入SRR22216743_1.fastq.gz SRR22216743_2.fas…

还真不错,今天 Chatgpt 教会我如何开发一款小工具开发(Python 代码实现)

上次使用 Chatgpt 写爬虫,虽然写出来的代码很多需要修改后才能运行,但Chatgpt提供的思路和框架都是没问题。 这次让 Chatgpt 写一写GUI程序,也就是你常看到的桌面图形程序。 由于第一次测试,就来个简单点的,用Python…

Android中文图混排时文图的居中对齐

http://www.jianshu.com/p/2650357f7547 先上效果图 看订阅号时间发现的,前一阵子项目要做一个比较复杂的图文混排,但是最后没有做,今天看到,回过头来学习下 代码还是他们的代码,我就不复制了 下来说一下这种形式…

赢在微点答案专区英语_掌握这一招!快速提高英语阅读理解成绩(终生受益)...

一、经常有学生向老师倒苦水,说学英语花了很多时候,总是提不高英语成绩?为什么? 你是否还在为英语阅读成绩而烦恼呢? 你的阅读成绩是否还总是提不高呢? 你的阅读速度是不是还很慢呢? 你阅读的准…

Android中文图混排时文图的居中对齐 FontMetrics以及自定义ImageSpan实现

文章转自:http://www.sohu.com/a/150059234_611601 本文作者CnPeng的博客地址: http://www.jianshu.com/p/2650357f7547 这个标题有点长,乍一看这么个标题你可能没明白啥意思,且听我慢慢道来。 公司的项目中新增了一个“心动”…

实战 | Android中文图混排时文图的居中对齐 FontMetrics以及自定义ImageSpan实现

这个标题有点长,乍一看这么个标题你可能没明白啥意思,且听我慢慢道来。 公司的项目中新增了一个“心动” 的功能,用户初次使用时需要给一个引导页,就是下面图中的这个样子(这就是做完之后的效果了)。 在上图…

英文期刊论文翻译格式要求和文献要求

英文期刊论文翻译格式要求和文献要求 一、全文翻译,句式尽量简单易懂(借助谷歌有道,同时借鉴前人文献写法)1、论文的翻译不能直译。 二、套入模板,调整格式(文章、参考文献)1、论文直接粘贴到模…

时文直播:2015年通信运营业统计公报

2015年,我国通信运营业认真贯彻落实中央各项政策措施,围绕实施网络强国战略,推动网络提速降费,提升4G网络和宽带基础设施水平,积极推动移动互联网、IPTV等新型信息服务普及,全面服务国民经济和社会发展&…

FontMetrics以及自定义ImageSpan实现TextView中文图混排时文图的居中对齐

这个标题有点长,乍一看这么个标题你可能没明白啥意思,且听我慢慢道来。 公司的项目中新增了一个“心动” 的功能,用户初次使用时需要给一个引导页,就是下面图中的这个样子(这就是做完之后的效果了)。 Paste_Image.png 在上图中整体…

单词测试通关学英语的软件,推荐5款最火的英语学习类app

学习英语很累很吃力吗?小编推荐5款最火的英语学习类app,希望对你有所帮助。 如果你是高中生的话,蝶变高中是你必备的app,里面除了正常的励志电台和各科知识点外,还有历年的高考英语听力真题、高中英语课文音频、以及很多英语美文的音频。 1、推荐5款最火的英语学习类app:…

计算机专业英语邱仲潘版英语翻译,计算机英语邱仲潘

本书共分为20章,每章由正文、难句解释、关键词、练习和课外阅读等部分组成,此外,每章还提供了参考译文。本书由一线教师编写,其了解学生的知识水平、接受能力和需求点,而且翻译过大量计算机图书,有丰富的翻…

新编计算机英语,新编计算机英语

《新编计算机英语》以计算机和IT领域的*英语时文和经典原版教材为基础,通过精心挑选难度适中的新闻记者材料和悉心编写的学习指南,配以详尽的注释和练习,使读者能够快速掌握计算机英语的一般特点和大量专业词汇,并提高阅读和检索计…

快讯 | OpenAI 推出漏洞赏金计划,奖励最高 2 万美元;马斯克被曝明面上呼吁暂停 AI 研究,暗中却购买上万个 GPU 推进 AIGC 项目

一分钟速览新闻点 复旦大学与阿里云共建中国高校最大的科研智算平台 科大讯飞将于 5 月 6 日发布讯飞预训练大模型的详细信息 国家网信办就《生成式人工智能服务管理办法(征求意见稿)》公开征求意见 毫末智行正式发布自动驾驶生成式大模型DriveGPT O…