【自然语言处理】基于python的问答系统实现

一,文件准备

        该问答系统是基于已知的问题和其一一对应的答案进行实现的。首先需要准备两个文本文件,分别命名为“question.txt”和“answer.txt”,分别是问题文件和答案文件,每一行是一个问题以及对应的答案。

        问题文件:

                中国的首都是哪个城市?

                今天气温多少度?

                天津距离北京有多远?

                小明正在干什么?

        答案文件:

                北京市

                26度

                135公里

                在上课

二,实现原理

(1)导入模块

import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

(2)读取数据集:输入为文件名,输出为列表

def read_corpus(file):lt = []with open(file, 'r', encoding='utf-8') as f:for line in f:lt.append(line.strip())
return lt

执行结果:

>>> q_list = read_corpus("questions.txt")

>>> q_list

['中国的首都是哪个城市?', '今天气温多少度?', '天津距离北京有多远?', '小明正在干什么?']

>>> a_list = read_corpus("answers.txt")

>>> a_list

['北京市', '26度', '135公里', '在上课']

(3)分词

def preprocess_text(q_list):lt = []for q in q_list:q = word_segment(q)lt.append(q)
return lt

preprocess_text()函数将列表q_list中的句子逐个切词,并放入lt列表中。

在preprocess_text()函数调用word_segment()函数。

def word_segment(sentence):
return ",".join(jieba.cut(sentence))

>>> s = "今天气温多少度?"

>>> word_segment(s)

'今天,气温,多少度,?'

将(2)中的q_list作为参数,传递给preprocess_text(),执行结果如下:

>>> q_list = preprocess_text(q_list)

>>> q_list

['中国,的,首都,是,哪个,城市,?', '今天,气温,多少度,?', '天津,距离,北京,有多远,?', '小明,正在,干什么,?']

4)将问题列表q_list向量化,计算每一个特征的权重

def convert2tfidf(q_list):vectorizer, q_tfidf = calc_tfidf(q_list)
return vectorizer, q_tfidfdef calc_tfidf(q_list, ngram_range=(1, 1)):# 实例化一个tfidf对象vectorizer = TfidfVectorizer(min_df=1, norm='l2', \smooth_idf=True, \use_idf=True, \ngram_range=ngram_range)# 计算每个词的tfidf值features = vectorizer.fit_transform(q_list)
return vectorizer, features

将(3)中的问题列表q_list作为参数,传递给convert2tfidf()函数

>>> vectorizer, q_tfidf = convert2tfidf(q_list) # vectorizer是一个向量化器

>>> type(q_tfidf) # q_tfidf是一个稀疏矩阵

<class 'scipy.sparse.csr.csr_matrix'>

>>> q_tfidf.toarray().round(2) # 将稀疏矩阵转化为普通矩阵,保留两位小数

array([[0.5, 0., 0., 0.5, 0.5, 0., 0., 0., 0., 0., 0., 0., 0., 0.5],

[0., 0.58, 0., 0., 0., 0.58, 0., 0., 0., 0., 0., 0.58, 0., 0.],

[0., 0., 0.5, 0., 0., 0., 0.5, 0., 0., 0.5, 0., 0., 0.5, 0.],

[0., 0., 0., 0., 0., 0., 0., 0.58, 0.58, 0., 0.58, 0., 0., 0.]])

>>> q_tfidf.toarray()[0] # 查看q_tfidf矩阵的第一行

array([0.5, 0. , 0. , 0.5, 0.5, 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0.5])

上述矩阵就是问题“中国的首都是哪个城市?”向量化后的结果。

>>> vectorizer.vocabulary_ # 向量化器vectorizer的词典

{'中国': 0, '首都': 13, '哪个': 3, '城市': 4, '今天': 1, '气温': 11, '多少度': 5, '天津': 6, '距离': 12, '北京': 2, '有多远': 9, '小明': 7, '正在': 10, '干什么': 8}

由上述可知,向量的第一个特征是“中国”,第二个特征是“今天”,第三个特征是“北京”,依次类推其他特征。

(5)响应用户的“查询”

def answer(query):query = word_segment(query)				# 对查询语句进行切词query = vectorizer.transform([query])		# 将查询语句向量化best_idx = idx_of_largest_sim(query, q_tfidf)	# 得到与查询语句最相似问题的下标
return a_list[best_idx]						# 返回与best_idx下标对应的答案
def idx_of_largest_sim(query, q_tfidf): 			# 下标idx = indexlt = []# 将query由稀疏矩阵转为普通矩阵,并取其第1行,此处目的是将其转为一维矩阵。query = query.toarray()[0]  				# 其实query二维矩阵只有一行for q in q_tfidf:q = q.toarray()        				# 将q由稀疏矩阵转换为普通矩阵num = float(np.matmul(q, query))    	# 计算矩阵的点积denom = np.linalg.norm(q) * np.linalg.norm(query)	if denom == 0:cos = 0.0else:cos = num / denom				# 规范化,denom分母lt.append(cos)best_idx = lt.index(max(lt))return best_idx						# 返回值是与查询语句最相似的问题下标
np.linalg.norm(q)是问题向量的长度:

>>> np.linalg.norm([1, 3, 2])

3.7416573867739413

上述代码计算了1的值

np.linalg.norm(q)是查询向量的长度

三,完整代码

import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizerdef read_corpus(file):lt = []with open(file, 'r', encoding='utf-8') as f:for line in f:lt.append(line.strip())return ltdef preprocess_text(q_list):lt = []for q in q_list:q = word_segment(q)lt.append(q)return lt# 度量查询query与问题库中各个问题的相似程度similarity
def idx_of_largest_sim(query, q_tfidf): # idx = indexlt = []# 将query由稀疏矩阵转换为普通矩阵,并取其第1行query = query.toarray()[0]  for q in q_tfidf:q = q.toarray()         # 将q由稀疏矩阵转换为普通矩阵num = float(np.matmul(q, query))    # 计算矩阵的点积denom = np.linalg.norm(q) * np.linalg.norm(query)if denom == 0:cos = 0.0else:cos = num / denomlt.append(cos)best_idx = lt.index(max(lt))return best_idxdef calc_tfidf(q_list, ngram_range=(1, 1)):# 实例化一个tfidf对象vectorizer = TfidfVectorizer(min_df=1, norm='l2', \smooth_idf=True, \use_idf=True, \ngram_range=ngram_range)# 计算每个词的tfidf值features = vectorizer.fit_transform(q_list)return vectorizer, featuresdef convert2tfidf(q_list):vectorizer, q_tfidf = calc_tfidf(q_list)return vectorizer, q_tfidfdef word_segment(sentence):return ",".join(jieba.cut(sentence))def answer(query):query = word_segment(query)query = vectorizer.transform([query])best_idx = idx_of_largest_sim(query, q_tfidf)return a_list[best_idx]if __name__ == "__main__":q_list = read_corpus("questions.txt")    # 问题列表a_list = read_corpus("answers.txt")      # 答案列表# 分词后的问题列表,每个问题的分词字符串为一个列表元素q_list = preprocess_text(q_list)vectorizer, q_tfidf = convert2tfidf(q_list)flag = Truewhile flag:print("\n请输入查询,输入结束后按回车键:")query = input()if query.lower() == 'q':breakprint("正在为您查询,请稍后!")print("查询结果:", answer(query), sep="")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/185629.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue前端实现多个url下载并合并为zip文件

一、安装 npm install jszip npm install file-saver 二、引入 import axios from axios import JSZip from "jszip"; import FileSaver from "file-saver"; 三、核心代码 videoData:[/video/26519f026fc012521605563015227403.mp4,/video/f7b9cdae14…

运营商大数据精准获客:我们提供精准客源渠道的最大资源体?

运营商大数据精准营销 谈起精准获客&#xff0c;竞争对手永远是为我们提供精准客源渠道的最大资源体&#xff01; 最新的获客方式&#xff0c;就是从竞争对手的手中把他们的精准客户资源变为自己的。 今年最火的运营商大数据精准营销是拒绝传统营销方式的烧钱推广&#xff0…

无人机航迹规划:七种智能优化算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划--提供MATLAB代码

一、七种算法&#xff08;DBO、LO、SWO、COA、LSO、KOA、GRO&#xff09;简介 1、蜣螂优化算法DBO 蜣螂优化算法&#xff08;Dung beetle optimizer&#xff0c;DBO&#xff09;由Jiankai Xue和Bo Shen于2022年提出&#xff0c;该算法主要受蜣螂的滚球、跳舞、觅食、偷窃和繁…

【STM32】TIM2的PWM:脉冲宽度调制

PWM是一种周期固定&#xff0c;脉宽可调整的输出波形。 0.通用寄存器输出 1.捕获/比较通道1的主电路--中间部分 2.捕获/比较通道的输出部分--输出 3.通用定时器输出PWM原理 PWM波周期或者频率由ARR&#xff08;就是要进递增/递减的值&#xff09;决定&#xff0c;PWM波占空比由…

力扣每日一题 ---- 2906. 构造乘积矩阵

这题很简单(一下就能想到是前缀和的提米)&#xff0c;但是在处理12345上面需要仔细一点&#xff0c;本来我最开始想到的时候全部累乘在除掉当前数&#xff0c;但是这样就没有把12345考虑进去&#xff0c;如果他本身是12345的话&#xff0c;那么除他以外的乘积并不一定是0&#…

前端缓存机制——强缓存、弱缓存、启发式缓存

强缓存和弱缓存的主要区别是主要区别在于缓存头携带的信息不同。 强缓存&#xff1a; 浏览器发起请求&#xff0c;查询浏览器的本地缓存&#xff0c;如果找到资源&#xff0c;则直接在浏览器中使用该资源。若是未找到&#xff0c;或者资源已过期&#xff0c;则浏览器缓存返回未…

Pytest插件

官方文档&#xff1a;API Reference — pytest documentation BaseReport 定义Case结果输出 >>> from _pytest.reports import TestReport >>> test TestReport(1,1,1,pass,,running) >>> print(dir(test)) [__annotations__, __class__, __delatt…

基础课26——业务流程分析方法论

基础课25中我们提到业务流程分析方法包括以下几种&#xff1a; 价值链分析法&#xff1a;主要是找出或设计出哪些业务能够使得客户满意&#xff0c;实现客户价值最大化的业务流程。要进行价值链分析的时候可以从企业具体的活动进行细分&#xff0c;细分的具体方面可以从生产指…

UserAgent使用隧道HTTP代码示例

首先&#xff0c;我们需要安装一个Perl模块来处理HTTP请求&#xff0c;然后&#xff0c;我们需要配置代理信息&#xff0c;如proxy_host和proxy_port。接下来&#xff0c;我们可以使用正则表达式来解析网页内容并提取我们需要的信息。最后&#xff0c;我们可以将这些信息存储到…

基于DevEco Studio的OpenHarmony应用原子化服务(元服务)入门教程

一、创建项目 二、创建卡片 三、应用服务代码 Index.ets Entry Component struct Index {State TITLE: string OpenHarmony;State CONTEXT: string 创新召见未来&#xff01;;build() {Row() {Column() {Text(this.TITLE).fontSize(30).fontColor(0xFEFEFE).fontWeight(…

java版本转换小工具

工作之余写了一个转换小工具&#xff0c;具有以下功能&#xff1a; 时间戳转换Base64编码/解码URL编码/解码JSON格式化 时间戳转换 package org.binbin.container.panel;import javax.swing.*; import java.awt.*; import java.text.DateFormat; import java.text.SimpleDat…

【pytest】html报告修改和汉化

前言 Pytest框架可以使用两种测试报告&#xff0c;其中一种就是使用pytest-html插件生成的测试报告&#xff0c;但是报告中有一些信息没有什么用途或者显示的不太好看&#xff0c;还有一些我们想要在报告中展示的信息却没有&#xff0c;最近又有人问我pytest-html生成的报告&a…

[论文阅读]PV-RCNN++

PV-RCNN PV-RCNN: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection 论文网址&#xff1a;PV-RCNN 论文代码&#xff1a;PV-RCNN 简读论文 这篇论文提出了两个用于3D物体检测的新框架PV-RCNN和PV-RCNN,主要的贡献如下: 提出P…

Figma转Sketch文件教程,超简单!

相信大家做设计的都多多少少听过一点Figma和Sktech&#xff0c;这2个设计软件是目前市场上很受欢迎的专业UI设计软件&#xff0c;在全球各地都有很多粉丝用户。但是相对来说&#xff0c;Figma与Sketch只支持iOS系统有所不同&#xff0c;Figma是一个在线设计软件&#xff0c;不限…

IBM Qiskit量子机器学习速成(一)

声明&#xff1a;本篇笔记基于IBM Qiskit量子机器学习教程的第一节&#xff0c;中文版译文详见&#xff1a;https://blog.csdn.net/qq_33943772/article/details/129860346?spm1001.2014.3001.5501 概述 首先导入关键的包 from qiskit import QuantumCircuit from qiskit.u…

HackTheBox-Starting Point--Tier 2---Base

文章目录 一 题目二 过程记录2.1 打点2.2 权限获取2.3 横向移动2.4 权限提升 一 题目 Tags Web、Vulnerability Assessment、Custom Applications、Source Code Analysis、Authentication、Apache、PHP、Reconnaissance、Web Site Structure Discovery、SUDO Exploitation、Au…

lua脚本实现redis分布式锁(脚本解析)

文章目录 lua介绍lua基本语法redis执行lua脚本 - EVAL指令使用lua保证删除原子性 lua介绍 Lua 是一种轻量小巧的脚本语言&#xff0c;用标准C语言编写并以源代码形式开放&#xff0c; 其设计目的是为了嵌入应用程序中&#xff0c;从而为应用程序提供灵活的扩展和定制功能。 设…

Ubuntu 创建用户

在ubuntu系统中创建用户&#xff0c;是最基本的操作。与centos7相比&#xff0c;有较大不同。 我们通过案例介绍&#xff0c;讨论用户的创建。 我们知道&#xff0c;在linux中&#xff0c;有三类用户&#xff1a;超级管理员 root 具有完全权限&#xff1b;系统用户 bin sys a…

split() 函数实现多条件转为数据为数组类型

使用 split() 函数并传递正则表达式 /[,;.-]/ 作为分隔符来将字符串按照逗号、分号和破折号进行拆分&#xff0c;并将结果赋值给 splitArray 数组。下面是一个示例代码&#xff1a; 在上面的示例中&#xff0c;我们使用 split() 函数将 inputString 字符串按照逗号、分号和破折…