随着chatgpt的火热,中文知识类问答数据集由收到诸多关注,其作为高质量的QA数据,可以用于SFT阶段以及pretrain预训练阶段。
本文主要介绍目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。
本项目充分借鉴了两个项目的工作,供大家一起参考。
一、147万百度知道知识类数据集
百度知道数据集含有1470142个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。
数据样例
{"qid": "qid_6610724023825624555","category": "娱乐-度假旅游","title": "请问这起交通事故是谁的责任居多?小车和摩托车发生事故,在无红绿灯 ", "desc": "小车和摩托车发生事故,在无红绿灯的十字路口,小停车看看左右,在觉得安全的情况下刹车慢慢以时速10公里左右的速度靠右行驶过路口,好没有出到十字路口正中时,被左边突然快速行驶过来的摩托车撞在车头前, 摩托车主摔到膝盖和檫伤脸部,请问这起交通事故是谁的责任居多。如果双方都有责任的话,大概各占几成?~\r", "answer": "通过没有信号控制的十字路口,应该减速慢性,让右边的车先行,按你说的,摩托车好像在汽车的左边,所以严格来说可能摩托车全责。当然还要看汽车是否证照齐全,是否饮酒等。具体由交警调查后认定。"
},
{"qid": "qid_9099219392179923453", "category": "教育/科学-理工学科-数学","title": "一元一次方程!车间有28名工人,生产一种螺栓和螺帽,一个螺栓的两 ", "desc": "车间有28名工人,生产一种栓和螺帽,一个螺栓的两头各套上一个螺帽配成一套,每人每天可以生产螺栓12个或螺帽18个,问多少个工人生产螺栓,多少个工人生产螺帽,才能使一天所生产的螺栓和螺帽刚好配套??(要求用一元一次方程解)快!!","answer": "设X人生产螺栓,那么生产螺帽的人就是28-X,\r\nX人可生产螺栓12X个,28-X人可生产螺帽18*(28-X)个,因为两个螺帽和一个螺栓配成一套,那么可列方程\r\n12X=18(28-X)/2\r\n12X=(504-18X)/2\r\n12X=252-9X\r\n12X+9X=252\r\n21X=252\r\nX=252/21=12人\r\n那么生产螺帽的就是28-X=28-12=16人。"
},
{"qid": "qid_3769366928615670292","category": "生活-购物", "title": "开办网上购物网站,需要办理哪些手续?我想开办一个网上购物的网站, ", "desc": "我想开办一个网上的网站,请问需要办理哪些手续?","answer": "你的购物网站肯定要挂靠在公司下面\r\n先注册一个公司去吧"
}
{"qid": "qid_6490739535150628080","category": "游戏-完美游戏-诛仙","title": "08年28号新诛仙有电信新区吗?我想问下08年28号的新诛仙六道 ", "desc": "我想问下08年28号的新六道轮回会不会开电信新区啊?御剑飞行系统是什么样的?", "answer": "这个没有御剑飞行,好东西完美会慢慢出的。。。据说飞行速度比坐骑慢,不过是直线距离,还是划算,空中会有怪可以打。。坐骑嘛,完美这个钱还是要赚,所以他的速度应该会比飞行快,而且新出的会有属性加成。"
}
下载地址: https://pan.baidu.com/s/1XK3G8A3du2pme2-N5rtUVw 提取码: fgtf
二、425万社区问答webtext2019zh知识类数据集
社区问答webtext2019zh知识类数据集含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>
}
其中:
qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;
topic是问题所属的话题,star是该回复的点赞个数,content是回复的内容;
answer_id是回复的ID,answerer_tags是回复者所携带的标签。
数据样例
{"qid": 20619381,"title": "张献忠血洗四川是否属实?","desc": "", "topic": "明朝", "star": 3, "content": "四川人历史上有三次大灭绝,现在的川人基本都是湖广填四川填过来的,所以我认为这个基本属实。","answer_id": 17447047,"answerer_tags": "如是我闻"
},
{"qid": 36651654, "title": "你发现了哪些基于个人经验的神秘规律?","desc": "One 里看到的,看看问答社区的朋友们有什么更加有趣的规律。","topic": "经验","star": 22,"content": "去吃饭的路比吃饭回来的路长","answer_id": 112831136,"answerer_tags": "大盈若冲"},{"qid": 20801703, "title": "为什么大多数楼盘的名字俗到不行?","desc": "国内很多楼盘的名字都非常俗,像什么", "topic": "房地产", "star": 7,"content": "房子是卖给大众的,不是专卖给诗人文青的,我见过几个取的很雅的楼盘名字提案,都被毙掉了,因为你要解释这个名字就得一堆文字,不能给大众直观的感觉。另,现在觉得俗是因为见的多了。。。","answer_id": 16245275, "answerer_tags": "九丰投资"}
下载地址1:链接: https://pan.baidu.com/s/1V2iCtzX-XOuL1Mu1GbRCpA 提取码: n3r7
下载地址2:https://drive.google.com/u/0/uc?id=1u2yW_XohbYL2YAK6Bzc5XrngHstQTf0v&export=download
三、六大细分领域小规模知识问答数据集
当然,出了大规模数据集外,还有较小规模的数据集,包括8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据。
1、8000条保险行业问答数据
下载地址: https://pan.baidu.com/s/1cgYeIrJHAgb8D33H09Zc5w
2、15.6万条电信问答数据
下载地址: https://pan.baidu.com/s/1nrg5SRU3Xy1VN85dd85-vg
3、77万条金融行业问答数据
下载地址: https://pan.baidu.com/s/1z1Rnnk-ubRSvzDu4UvLlIw
4、3.6万条法律问答数据
下载地址: https://pan.baidu.com/s/18Lwq16VBo6wBD_qLb3i33g
5、20.3万条联通问答数据
下载地址: https://pan.baidu.com/s/1oYi9SfbXpnvreJYGV837Nw
6、4万条农业银行问答数据
下载地址: https://pan.baidu.com/s/1n-jT9SKkt6cwI_PjCd7i_g
总结
本文主要介绍了目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。
知识类QA数据集对于训练一个生成式的QA来说,具有一定的借鉴意义,大家可以基于该数据做更多尝试。
参考文献
1、https://github.com/brightmart/nlp_chinese_corpus
2、https://github.com/SophonPlus/ChineseNlpCorpus/