知识类问答数据集资源对外开放:百万级百度知道、社区问答及六大领域级小规模语料概述

随着chatgpt的火热,中文知识类问答数据集由收到诸多关注,其作为高质量的QA数据,可以用于SFT阶段以及pretrain预训练阶段。

本文主要介绍目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。

本项目充分借鉴了两个项目的工作,供大家一起参考。

一、147万百度知道知识类数据集

百度知道数据集含有1470142个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。

{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。

数据样例

{"qid": "qid_6610724023825624555","category": "娱乐-度假旅游","title": "请问这起交通事故是谁的责任居多?小车和摩托车发生事故,在无红绿灯 ", "desc": "小车和摩托车发生事故,在无红绿灯的十字路口,小停车看看左右,在觉得安全的情况下刹车慢慢以时速10公里左右的速度靠右行驶过路口,好没有出到十字路口正中时,被左边突然快速行驶过来的摩托车撞在车头前,  摩托车主摔到膝盖和檫伤脸部,请问这起交通事故是谁的责任居多。如果双方都有责任的话,大概各占几成?~\r",   "answer": "通过没有信号控制的十字路口,应该减速慢性,让右边的车先行,按你说的,摩托车好像在汽车的左边,所以严格来说可能摩托车全责。当然还要看汽车是否证照齐全,是否饮酒等。具体由交警调查后认定。"
},
{"qid": "qid_9099219392179923453",  "category": "教育/科学-理工学科-数学","title": "一元一次方程!车间有28名工人,生产一种螺栓和螺帽,一个螺栓的两 ", "desc": "车间有28名工人,生产一种栓和螺帽,一个螺栓的两头各套上一个螺帽配成一套,每人每天可以生产螺栓12个或螺帽18个,问多少个工人生产螺栓,多少个工人生产螺帽,才能使一天所生产的螺栓和螺帽刚好配套??(要求用一元一次方程解)快!!","answer": "设X人生产螺栓,那么生产螺帽的人就是28-X,\r\nX人可生产螺栓12X个,28-X人可生产螺帽18*(28-X)个,因为两个螺帽和一个螺栓配成一套,那么可列方程\r\n12X=18(28-X)/2\r\n12X=(504-18X)/2\r\n12X=252-9X\r\n12X+9X=252\r\n21X=252\r\nX=252/21=12人\r\n那么生产螺帽的就是28-X=28-12=16人。"
},
{"qid": "qid_3769366928615670292","category": "生活-购物", "title": "开办网上购物网站,需要办理哪些手续?我想开办一个网上购物的网站, ", "desc": "我想开办一个网上的网站,请问需要办理哪些手续?","answer": "你的购物网站肯定要挂靠在公司下面\r\n先注册一个公司去吧"
}
{"qid": "qid_6490739535150628080","category": "游戏-完美游戏-诛仙","title": "08年28号新诛仙有电信新区吗?我想问下08年28号的新诛仙六道 ", "desc": "我想问下08年28号的新六道轮回会不会开电信新区啊?御剑飞行系统是什么样的?", "answer": "这个没有御剑飞行,好东西完美会慢慢出的。。。据说飞行速度比坐骑慢,不过是直线距离,还是划算,空中会有怪可以打。。坐骑嘛,完美这个钱还是要赚,所以他的速度应该会比飞行快,而且新出的会有属性加成。"
}

下载地址: https://pan.baidu.com/s/1XK3G8A3du2pme2-N5rtUVw 提取码: fgtf

二、425万社区问答webtext2019zh知识类数据集

社区问答webtext2019zh知识类数据集含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。

{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>
}

其中:

qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;
topic是问题所属的话题,star是该回复的点赞个数,content是回复的内容;
answer_id是回复的ID,answerer_tags是回复者所携带的标签。

数据样例

{"qid": 20619381,"title": "张献忠血洗四川是否属实?","desc": "", "topic": "明朝", "star": 3, "content": "四川人历史上有三次大灭绝,现在的川人基本都是湖广填四川填过来的,所以我认为这个基本属实。","answer_id": 17447047,"answerer_tags": "如是我闻"
},
{"qid": 36651654, "title": "你发现了哪些基于个人经验的神秘规律?","desc": "One 里看到的,看看问答社区的朋友们有什么更加有趣的规律。","topic": "经验","star": 22,"content": "去吃饭的路比吃饭回来的路长","answer_id": 112831136,"answerer_tags": "大盈若冲"},{"qid": 20801703, "title": "为什么大多数楼盘的名字俗到不行?","desc": "国内很多楼盘的名字都非常俗,像什么", "topic": "房地产", "star": 7,"content": "房子是卖给大众的,不是专卖给诗人文青的,我见过几个取的很雅的楼盘名字提案,都被毙掉了,因为你要解释这个名字就得一堆文字,不能给大众直观的感觉。另,现在觉得俗是因为见的多了。。。","answer_id": 16245275, "answerer_tags": "九丰投资"}

下载地址1:链接: https://pan.baidu.com/s/1V2iCtzX-XOuL1Mu1GbRCpA 提取码: n3r7

下载地址2:https://drive.google.com/u/0/uc?id=1u2yW_XohbYL2YAK6Bzc5XrngHstQTf0v&export=download

三、六大细分领域小规模知识问答数据集

当然,出了大规模数据集外,还有较小规模的数据集,包括8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据。

1、8000条保险行业问答数据

下载地址: https://pan.baidu.com/s/1cgYeIrJHAgb8D33H09Zc5w

2、15.6万条电信问答数据

下载地址: https://pan.baidu.com/s/1nrg5SRU3Xy1VN85dd85-vg

3、77万条金融行业问答数据

下载地址: https://pan.baidu.com/s/1z1Rnnk-ubRSvzDu4UvLlIw

4、3.6万条法律问答数据

下载地址: https://pan.baidu.com/s/18Lwq16VBo6wBD_qLb3i33g

5、20.3万条联通问答数据 

下载地址: https://pan.baidu.com/s/1oYi9SfbXpnvreJYGV837Nw

6、4万条农业银行问答数据

 下载地址: https://pan.baidu.com/s/1n-jT9SKkt6cwI_PjCd7i_g

总结

本文主要介绍了目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。

知识类QA数据集对于训练一个生成式的QA来说,具有一定的借鉴意义,大家可以基于该数据做更多尝试。

参考文献

1、https://github.com/brightmart/nlp_chinese_corpus
2、https://github.com/SophonPlus/ChineseNlpCorpus/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10409.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样一元钱部署自己的AI网站

前段时间我开发了一个简洁的AI问答网站&#xff0c;好多朋友感兴趣&#xff0c;因此我将网站代码在github上开源&#xff0c;并编写此教程&#xff0c;帮助大家快速部署自己的AI网站&#xff0c;会编程的朋友们也可在此基础上定制开发。 前提条件&#xff1a;有自己的ChatGPT账…

NLP(五十六)LangChain入门

LangChain简介 背景 由于ChatGPT的发行&#xff0c;大模型&#xff08;Large Language Model, LLM&#xff09;已经变得非常流行了。也许你可能没有足够的资金和计算资源从头开始训练大模型&#xff0c;但你仍然可以使用大模型来做一些比较酷的事情&#xff0c;比如&#xff1…

大致聊聊ChatGPT的底层原理,实现方法

文目录 深度学习基础ChatGPT的本质ChatGPT原理详解 一、深度学习基础 — 深度学习是什么&#xff1f;如何理解神经网络结构&#xff1f; 关于生物神经网络结构如下&#xff1a; 神经网络介绍 人工神经网络&#xff08; Artificial Neural Network, 简写为ANN&#xff09;也…

互发短信之SmsManager

短信管理器 : SmsManager 1. 在 Android 2.0 以前 应该使用 android.telephony.gsm.SmsManager 之后应该用 android.telephony.SmsManager; 2. 获取系统默认的短信管理器 SmsManager smsManager = SmsManager.getDefault(); 3. 按照每条短信最大字数来拆分短信 List<S…

手机号短信验证码接口

1.1 注册账号 https://www.yuntongxun.com/user/login 1.2 登录即可看到开发者账号信息 1.3 添加测试账号 2.使用容联云发送代码测试 1. 安装容联云sdk pip install ronglian_sms_sdk # 免费测试文档地址:https://doc.yuntongxun.com/p/5a531a353b8496dd00dcdfe22. 短信发送…

sms收发手机短信

这几天在试VS2005里面的SerialPort 类,这个类主要功能是串口通信,以前没接触串口这方面的知识,一开始还比较吃力,还好现在清楚了大半利用这个类做了一个sms收发手机短信的demo,我又重新把这个类封装了下,里面增加了PDU编码和解码的方法,这样可以直接调用封装后的类发送和接收中…

Android SMS —— 读取短信 联系人

Android SMS&#xff08;一&#xff09; —— 读取短信 分类&#xff1a; Android 2012-03-07 12:49 9551人阅读 评论(9) 收藏 举报 sms android integer string date 数据库 Android SMS Read [java] view plain copy print ? package com.homer.sms; import java.…

Android 实现手机号短信验证码

使用mob第三方平台提供的免费短信验证码服务SMSSDK。 在Mob官网中注册登录并创建应用&#xff0c;获取相应的App key和App Secret。 在线安装&#xff0c;免下载SDK&#xff08;官网介绍&#xff09; 在根目录下的build.gradle文件中添加内容 在app目录下的build.gradle文件…

Android手机中获取手机号码和运营商信息

代码如下&#xff1a; package com.pei.activity;import android.app.Activity; import android.os.Bundle; import android.view.View; import android.view.View.OnClickListener; import android.widget.Button; import android.widget.TextView;/*** class name&#xff1a…

Android Contacts(二)—— SMS 短信 与 Contacts 联系人关联

Android 的SMS读取短信&#xff0c;可以获取发信人/收信人的手机号码&#xff08;address&#xff09;&#xff0c;Contacts的联系人&#xff0c;可以过滤手机号码&#xff08;address&#xff09;&#xff0c;因此SMS可以通过手机号码&#xff08;address&#xff09;关联到Co…

在 Linux 终端上使用 ChatGPT, 轻松提高生产力

随着NFT和元宇宙的流行逐渐消退&#xff0c;人工智能已成为技术领域的新热词。ChatGPT及其替代品在互联网上蓬勃发展&#xff0c;帮助用户轻松完成日常任务。很多文章都介绍了如何开始制作类似ChatGPT的聊天机器人以及如何在任何浏览器中使用Bing AI等指南。但是&#xff0c;如…

大家查找医疗英文文献都去哪个网?

文献阅读是每一个医学科研人都逃脱不了且贯穿整个科研生涯的需求&#xff0c;尤其是英文文献的检索与阅读&#xff0c;我们不得不承认医疗类国际前沿与热点的文章都普遍为英文文献。那么拥有一个使用起来得心应手的文献检索网站就是非常必要的&#xff0c;毕竟巧妇难为无米之炊…

哪些平台可以查看医学类文献?

世上文献检索千千万&#xff0c;医学文献检索选哪站&#xff1f;下面我就为大家总结了8个检索医学类期刊的文献检索网站&#xff01; 目录 1. 中国知网全文数据库(CNKI) 2. 掌桥科研 3. SinoMed中国生物医学文献数据库(CBM) 4. 中华医学期刊全文数据库 5. JAMA Netw…

如何着手写一篇医学综述?

各位医学研究生&#xff0c;研0的时候是不是导师都已经把综述布置下来作为你的第一份作业呀&#xff1f;对于医学生们来说&#xff0c;不管你是本科就已经开始接触科研还是研究生开始才接触科研&#xff0c;反正在你开始阅读文献的时候开始一篇综述总是逃不过的。鉴于有综述任务…

【学习】ChatGPT对问答社区产生了哪些影响?

引用 StackExchange 社区 CEO Prashanth Chandrasekar 的一篇博客标题 “Community is the future of AI”&#xff0c;引出本文的观点&#xff0c;即ChatGPT对问答社区产生了颠覆性影响&#xff0c;问答社区必须釜底抽薪、涅槃重生&#xff0c;但我们必须坚信“社区才是AI的未…

你想要的宏基因组-微生物组知识全在这(2023.5)

欢迎点击上方蓝色”宏基因组”关注我们&#xff01; 宏基因组/微生物组是当今世界科研最热门的研究领域之一&#xff0c;为加强宏基因组学技术和成果交流传播&#xff0c;推动全球华人微生物组领域发展&#xff0c;中科院青年科研人员创立“宏基因组”公众号&#xff0c;联合海…

2023年第二十届ChinaJoy新闻发布会 十大亮点解读

5月29日&#xff0c;2023年第二十届中国国际数码互动娱乐展览会&#xff08;ChinaJoy&#xff09;新闻发布会&#xff0c;在上海浦东嘉里大酒店召开&#xff0c;宣布本届ChinaJoy将于7月28日至7月31日&#xff0c;在上海新国际博览中心举办。 中国音像与数字出版协会第一副理事…

BFT 最前线 | 王小川:2033机器智慧将超人类;扎克伯格财富暴涨;哈工大:能跳跃的昆虫机器人;北京支持“1+4”机器人领域

原创 | 文 BFT机器人 名人动态 CELEBRITY NEWS 01 王小川&#xff1a;10年后机器智慧将超过人类 年底将推出对标GPT-3.5的模型 科技预言大师雷库兹韦尔说人工智能的奇点&#xff0c;机器智慧超过人类会发生在2045年&#xff0c;王小川的判断比这更激进&#xff0c;他认为这一…

开启单细胞及空间组学行业发展黄金时代!首届国际单细胞及空间组学大会在穗闭幕

2023年4月16日&#xff0c;首届TICSSO国际单细胞及空间组学大会圆满闭幕&#xff0c;本次大会吸引了2000余位来自产、学、研、资、医、政、媒等业界人士齐聚羊城&#xff0c;注册总人数5398人&#xff0c;网络播放总量达548245人次&#xff0c;网络观看覆盖美国、德国、日本、澳…

聚集十二罗汉,探索宇宙本质,马斯克神秘的xAI

作者 | 德新编辑 | 王博 马斯克组团入局通用人工智能。 7月12日&#xff0c;马斯克发推官宣成立新的公司xAI。据官网介绍&#xff0c;这是一家试图「探索理解宇宙本质」的公司。 新公司公布了12名首批成员&#xff0c;除了马斯克外&#xff0c;他们曾经在「AlphaStar、AlphaCod…