NLP聊天机器人的搭建(chatbot)(一)

        最近在学习研发QA系统,本人单纯想记录一下。项目源码和思路主要参考知乎专栏:

PyTorch搭建聊天机器人(一)词表与数据加载器 - 知乎

PyTorch搭建聊天机器人(二)定义seq2seq网络前向逻辑 - 知乎

PyTorch搭建聊天机器人(三)训练与评估 - 知乎

 

        知乎大佬的思路还是很清晰的。词表和数据加载器使用的数据集本人改用json格式的sogou和web的数据集,这个数据还需要自己处理一下,有些问题没有答案,但是有问答的相关信息(这个文本太长了),为了方便训练,而筛除没有答案的问题,然后做好标签。

 

 json数据获取

#读取json文件内容
sogou_data = json.load(open("qa_datasets/SogouQA.json", 'r', encoding='utf-8'))
web_data = json.load(open("qa_datasets/WebQA.json", 'r', encoding='utf-8')) 
question_list = []
answer_list = []
#获取json字段的相应内容
for i in range(len(sogou_data)):if sogou_data[i]['passages'][0]['answer'] != "":question_str = ""answer_str = ""for j in range(len(sogou_data[i]['question'])):question_str += sogou_data[i]['question'][j] + " "question_list.append(question_str)for j in range(len(sogou_data[i]['passages'][0]['answer'])):answer_str += sogou_data[i]['passages'][0]['answer'][j] + " "answer_list.append(answer_str)
for i in range(len(web_data)):if web_data[i]['passages'][0]['answer'] != "":question_str = ""answer_str = ""for j in range(len(web_data[i]['question'])):question_str += web_data[i]['question'][j] + " "question_list.append(question_str)for j in range(len(web_data[i]['passages'][0]['answer'])):answer_str += web_data[i]['passages'][0]['answer'][j] + " "answer_list.append(answer_str)
for i in range(len(question_list)):self.addSentence(question_list[i].strip())self.addSentence(answer_list[i].strip())pairs.append([question_list[i], answer_list[i]])

词表和数据加载器和参考知乎大佬的源代码!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/72308.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全国大学生英语竞赛培训:听力、词汇语法、完形填空、阅读理解、翻译、改错、IQ题、大小作文、语法等部分快速得分、备战策略和获奖技巧讲解!

目 录 大学生英语竞赛培训——介绍、学习网址 PPT课件、视频——下载 【2020-04-05】P1 如何准备大学生英语竞赛才能拿奖?2:27:54【竞赛简介vs赛前准备】 【2020-04-11】P2 如何快速搞定大英赛大小作文?2:06:18【大小作文,快速表达~】 …

【情态动词练习题】 May 与 might

1. May 1.Sarah may be ill 2.We may not go out. 3.It may not rain. 4.We may buy a car. 5.Joe may not be at home 6.Anna may need help. 注:情态动词一定要加上动词原型 7.The baby may be hungry. 8.I may not change my job. 9.She may be married. 10.He…

初中七年级上计算机试题答案,人教版初中英语七年级英语上册期中模拟试题检测(含答案)...

原标题:人教版初中英语七年级英语上册期中模拟试题检测(含答案) 七年级英语期中测试题 1、 单项选择(10分) ( ) 1. 下列单词中含有相同元音因素的是_____. A that; these B thank; that C this; those ( ) 2. --________, Gina! --Good morning, Bob! A Good aftern…

初中七年级下英语期中备考单选题(外教出题并附助教经典解析)

1. My sister bought a present _______ her best friends birthday. A. for B. of C. about D. to 选出正确的介词,完成句子。问题: 我妹妹买了一份礼物给她最好的朋友庆祝生日。 答案:A 解析:在这个句子中,“fo…

ChatGPT 爆火 小扎、马斯克纷纷迎战ChatGPT

ChatGPT爆火,直接改变了整个硅谷大厂的格局。近日,马斯克、小扎也纷纷下场,正式对ChatGPT宣战!据The Information报道,马斯克最近几周与一直在于AI研究人员接洽,希望组建一个新的研究实验室,以开…

百度「文心一言」阿里「通义千问」腾讯的AI将会叫什么呢

阿里于昨天2023.4.7下午上线通义千问,与ChatGPT类似,同样是基于语言模型训练的人工智能聊天平台。通义千问的核心功能分为四个大类:撰写短文、职场助理、电影脚本和写封邮件。 通义千问通义千问https://tongyi.aliyun.com/ 首页如下&#xf…

ChatGPT Chat Assist: 职场智能利器,提升工作效率

在当今快节奏的职场生活中,高效率是每位职场人士追求的目标。而现代科技的进步,尤其是人工智能的快速发展,为我们带来了前所未有的便利。ChatGPT作为一款智能核心,推出了Chat Assist插件,成为职场中的得力助手&#xf…

ChatGPT通过图灵测试,图灵测试要重写

近日《Nature》在一篇文章中称,ChatGPT 已经攻破了图灵测试,是时候要启用其他新的方法来评估人工智能技术了。 图灵测试(Turing Test)是著名计算机科学家阿兰图灵在1950年提出的一个测试,用于判断机器是否能展现出与人类智能相当的能力。其测试方法是: 让…

亚马逊云科技X创业邦:专访图灵量子创始人金贤敏

假设你现在正准备去相亲,走进了一家坐满人的咖啡厅。你拿着Ta的照片,一个个地审视着每一个人,看谁对得上号,结果找了半个小时也没找到和照片相似的那个人。这时候,相亲对象给你打来了电话,告诉你Ta正坐在靠窗的角落里,你的目光顺着ta的指引,一下子就找到了Ta。 验证一个问题的答…

马斯克与马云对谈:一场科技乐观主义者的尬聊

硅谷Live / 实地探访 / 热点探秘 / 深度探讨 即使同为技术信徒,话不投机也在所难免。 本文由极客公园原创,阅读更多内容请关注极客公园微信公众号(ID:GeekPark) 在昨天开幕的 2019 世界人工智能大会上,阿里…

马斯克:我抽大麻、藐视SEC,但我是个好CEO

原文:CBS《60分钟》编译:新浪科技 樵夫 导语:特斯拉CEO马斯克(Elon Musk)被人称为天才,人们都认为他非常具有远见卓识。 但是今年,相比于他的卓越才华,人们似乎更加关注他的行为&…

马云对话马斯克:福报变成了一周工作12小时?

燃财经(ID:rancaijing)整理 作者 | 刘景丰 编辑 | 魏佳 8月29日,2019世界人工智能大会(WAIC)在上海举行。开幕式后,美国卡内基梅隆大学计算机学院院长汤姆米切尔(Tom Mitchell)、腾讯…

Vicuna:斯坦福开源一个性能相当于90%ChatGPT的聊天机器人

自从Meta公司发布LLaMA以来,围绕它微调和开发的模型越来越多,这得益于它的性能和效果,2023年3月份发布的草泥马(Alpaca)是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5…

3万多人学习,对ChatGPT最接地气的解读 | 万维钢 × 刘江直播精选

7 月 25 日晚 8 点,科学作家、知识传播大神万维钢老师做客“图灵八点半”栏目,与图灵联合创始人刘江总编共同解读 ChatGPT,围绕 ChatGPT 的基本原理(以及当今世界“最硬核的大脑” Stephen Wolfram 的作品《这就是ChatGPT》&#…

chatgpt赋能python:Python电影:了解Python编程语言的最佳电影

Python电影:了解Python编程语言的最佳电影 Python编程语言在IT行业中广为人知。它常被用于数据分析、人工智能、Web开发等领域。但是你知道吗?Python还成为了一种电影的主题。在这篇文章中,我们将介绍一些关于Python的最佳电影,并…

Spark综合练习——电影评分数据分析

文章目录 引言ChatGPT生成测试数据:今天给大家带来一个Spark综合练习案例--电影评分补充: 采用DSL编程的详尽注释版总结 引言 大家好,我是ChinaManor,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人。 …

女儿米菲儿的照片

2011年3月26日,我们的宝贝女儿出生啦。 女儿非常乖而且聪明,出生第三天我就抓拍到一种微笑表情的照片。 小米菲儿出生第三天的照片: 小米菲儿出生第九天的照片:

游戏公司奇葩富豪身家仅次许家印,征集长腿美女生娃,女友房产超百套

2018年6月,多益网络在香港联交所递交了招股书。这是一个令人瞠目结舌的巨兽,背后传奇老板徐波也浮出水面。 招股书显示,多益网络在最近三年的营业收入分别达到16.29亿元、15.52亿元和19.34亿元,最后一年涨幅达到24.6%。换言之&…

超级玛丽——请你用字符画的形式输出超级玛丽中的一个场景。

#include<stdio.h> int main() {printf( " *****\n" " ****\n" " ####…#.\n" " #…###…##…\n" " ###…###### ### ### \n" " … #…# #…#\n" " ######### #.#.# #.#.#\n" " ########## …

1751 - 快乐的马里奥

马里奥是一个快乐的油漆工人&#xff0c;这天他接到了一个油漆任务&#xff0c;要求马里奥把一个 nn 行 mm 列的矩阵每一格都用油漆标记一个数字&#xff0c;标记的顺序按照广度优先搜索的方式进行&#xff0c;也就是他会按照如下方式标记&#xff1a; 1、首先标记第 11 行第 …