【自然语言处理】实验三:新冠病毒的FAQ问答系统

目录

前言

1.新建data_process.py

1.1导入包并定义功能模块1用来读取问题和答案FAQ的文件

1.2功能模块2:进行问题/问题列表处理(正则化,分词)

1.3功能模块3:处理输入的问题

1.4功能模块4:计算输入问题与问题列表之间的余弦相似度,选出相似度最大的问题的索引

2.新建faq_test.py

2.1获取问题列表和答案列表并对问题列表进行预处理

2.2进行FAQ问答系统测试

2.3结果展示

总结


🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。

💡本文由Filotimo__✍️原创,首发于CSDN📚。

📣如需转载,请事先与我联系以获得授权⚠️。

🎁欢迎大家给我点赞👍、收藏⭐️,并在留言区📝与我互动,这些都是我前进的动力!

🌟我的格言:森林草木都有自己认为对的角度🌟。

前言

在信息时代,智能问答系统的应用越来越广泛,尤其是在疫情信息传播中,这类系统的作用尤为重要。


实验步骤:(新冠病毒的FAQ问答系统源码以及配套文件资源已上传)

1.新建data_process.py

1.1导入包并定义功能模块1用来读取问题和答案FAQ的文件
import re
import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
def read_corpus(file):with open(file, encoding='utf-8') as f:list = []lines = f.readlines()for i in lines:list.append(i)return list

`read_corpus` 函数负责从指定的文件中读取问题或答案。我们利用 `open` 函数打开文件,并逐行读取内容。每行内容被添加到列表中并最终返回。这一模块的功能比较简单,但它为后续的数据处理奠定了基础。

1.2功能模块2:进行问题/问题列表处理(正则化,分词)
def get_question_list(questions):if len(questions) == 1:  new_sent = re.sub(r'[^\w]', '', questions[0])new_sent = ''.join(e for e in new_sent if e.isalnum())new_sent = ' '.join(jieba.lcut(new_sent))return new_sentelse:question_list = []for sentence in questions:  new_sent = re.sub(r'[^\w]', '', sentence)new_sent = ''.join(e for e in new_sent if e.isalnum())seg_list = ' '.join(jieba.lcut(new_sent))question_list.append(seg_list)return question_list

`get_question_list` 函数负责对问题进行正则化和分词处理。正则化过程主要是去除标点符号和非字母数字字符。分词则是将连续的文本拆分成有意义的词汇,这里使用了 `jieba` 库进行中文分词处理。根据输入的参数,函数可以处理单个问题或多个问题列表。

1.3功能模块3:处理输入的问题
def input_question_process(questions_list, input_ques):questions_list_use = questions_list.copy()input_ques = [input_ques]input_question = get_question_list(input_ques)questions_list_use.append(input_question)vectorizer = TfidfVectorizer()vectorizer_related_ques = vectorizer.fit_transform(questions_list_use)return vectorizer_related_ques

在 `input_question_process` 函数中,我们首先将用户输入的问题与已有的问题列表进行整合。然后使用 `TfidfVectorizer` 将文本转化为 TF-IDF 向量表示。TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征提取方法,它可以反映词汇在文档中的重要性。

1.4功能模块4:计算输入问题与问题列表之间的余弦相似度,选出相似度最大的问题的索引
def ques_idx_cosine_sim(input_ques, questions):score = []input_ques = (input_ques.toarray())[0]for question in questions:question = question.toarray()num = float(np.matmul(question, input_ques))denom = np.linalg.norm(question) * np.linalg.norm(input_ques)cos = num / (denom + 1e-3)score.append(cos)if max(score) < 0.1:print('对不起,本FAQ库中暂时没有与您的提问相关的内容,我们将努力改进!')else:best_idx = score.index(max(score))return best_idx

`ques_idx_cosine_sim` 函数计算用户输入的问题与问题列表中所有问题之间的余弦相似度。余弦相似度是衡量两个向量相似度的一种方法,它值域在 [-1, 1] 之间,值越大表示相似度越高。我们使用 `numpy` 库中的线性代数操作计算相似度,并从中选择最相似的问题索引。

2.新建faq_test.py

在faq_test.py部分,会将前面的功能模块整合,完成了一个简单的 FAQ 问答系统。系统的运行步骤如下:

1. 从文件中读取问题和答案。
2. 对问题进行预处理,得到处理后的问题列表。
3. 循环接收用户输入的问题,对输入问题进行处理,并计算其与 FAQ 问题的相似度。
4. 根据相似度选择最匹配的问题,并输出对应的答案。

2.1获取问题列表和答案列表并对问题列表进行预处理
questions = read_corpus('./data/questions.txt')
answers = read_corpus('./data/answers.txt')questions_list = get_question_list(questions)
2.2进行FAQ问答系统测试
print('欢迎您使用FAQ问答系统...')
while True:input_ques = input('请输入您需要了解的新冠病毒问题(输入q退出系统):\n')if input_ques == 'q':print('谢谢您的关注!')breakelse:ques_process = input_question_process(questions_list, input_ques)print('正在FAQ库中寻找答案,请稍等...')answer_idx = ques_idx_cosine_sim(ques_process[-1], ques_process[0:-1])if answer_idx is not None:print('亲,我们给您找到的答案如下: \n', answers[answer_idx])print('FAQ库中相似的问题:', questions[answer_idx])
2.3结果展示


总结

通过此次实验,我们成功构建了一个基于 Python 的新冠病毒 FAQ 问答系统。该系统实现了文本预处理、向量化、相似度计算等核心功能,能够有效地为用户提供相关的答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/424846.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于双向RRT算法的三维空间最优路线规划matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 单向RRT算法 4.2 双向RRT算法 5.完整程序 1.程序功能描述 基于双向RRT&#xff08;Randomly Exploring Random Trees, 随机探索随机树&#xff09;算法的三维空间最优路径规划是一种解…

Java | Leetcode Java题解之第406题根据身高重建队列

题目&#xff1a; 题解&#xff1a; class Solution {public int[][] reconstructQueue(int[][] people) {Arrays.sort(people, new Comparator<int[]>() {public int compare(int[] person1, int[] person2) {if (person1[0] ! person2[0]) {return person2[0] - perso…

【目标检测数据集】锯子数据集1107张VOC+YOLO格式

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;1107 标注数量(xml文件个数)&#xff1a;1107 标注数量(txt文件个数)&#xff1a;1107 标注…

什么是java的spi?

Java SPI&#xff08;Service Provider Interface&#xff09;是一种提供服务发现机制的设计模式&#xff0c;允许在运行时动态地发现、加载和替换服务的实现。SPI机制的核心思想是&#xff1a;通过接口定义服务&#xff0c;并且使用外部的实现类来提供该服务的具体功能。 目录…

Github 2024-09-16 开源项目周报 Top14

根据Github Trendings的统计,本周(2024-09-16统计)共有14个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目4TypeScript项目2Go项目2JavaScript项目2Shell项目2Rust项目2C++项目2Jupyter Notebook项目1C#项目1React: 用于构建用户界面的JavaS…

[数据集][目标检测]智慧交通铁轨裂缝检测数据集VOC+YOLO格式4类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;2709 标注数量(xml文件个数)&#xff1a;2709 标注数量(txt文件个数)&#xff1a;2709 标注…

Java开发与实现教学管理系统动态网站

博主介绍&#xff1a;专注于Java .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设&#xff0c;从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的可以…

量化交易backtrader实践(一)_数据获取篇(3)_爬取数据

这一节实践其实是在上一节之前进行的&#xff0c;背景原因是因为tushare.pro的积分不够高&#xff0c;当时还没有接触到使用akshare等其他接口&#xff0c;因此对于全股票列表用的是去网页上爬的方式获得的&#xff0c;也就借此机会&#xff0c;再复习了一遍爬虫的相关知识。 …

Mybatis中Like模糊查询三种处理方式

目录 Mybatis中Like模糊查询三种处理方式 1.通过单引号拼接${} 1&#xff09;mapper接口 2&#xff09;Mapper.xml 3&#xff09;测试代码 4) 测试结果 2.通过concat()函数拼接(个人推荐使用这种) 1&#xff09;mapper接口 2&#xff09;Mapper.xml 3&#xff09;测试代码 4) 测…

寄存器的位数据调测方法(摩尔信使MThings)

图中是一种典型MODBUS寄存器位数据定义方式&#xff0c;这种数据定义主要基于数据紧凑设计原则&#xff08;精确位宽分配&#xff09;&#xff0c;将明确含义&#xff08;取值范围&#xff09;的字段分配最小必要的数据长度&#xff0c;进而减少寄存器总数&#xff0c;提升数据…

基于AgentUniverse在金融场景中的多智能体应用探索

基于AgentUniverse在金融场景中的多智能体应用探索 1.基于大模型智能体超级状态机 智能体、多智能体都是当下的技术热点,但作为一个技术人应该理解,所有的技术都有自己所针对的问题、及其能力边界,并不存在普适的、放诸业务场景皆 work 的技术方案。在这里尝试区分,从大模…

Blender/3ds Max/C4D哪个软件好?

在3D建模和动画制作领域&#xff0c;Blender、3ds Max和Cinema 4D&#xff08;C4D&#xff09;都是备受赞誉的软件。每个软件都有其独特的优势和特点&#xff0c;选择哪个软件取决于用户的具体需求和个人偏好。今天&#xff0c;成都渲染101云渲染就来分析一些这三款软件的情况&…

【嵌入式硬件开发基础】Arduino板常用外设及应用:MPU6050空间运动传感器(简介,类库函数,卡尔曼滤波),继电器(原理介绍,含应用实例/代码)

当一个人不能拥有的时候,他唯一能做的便是不要忘记。 🎯作者主页: 追光者♂🔥 🌸个人简介: 📝[1] CSDN 博客专家📝 🏆[2] 人工智能领域优质创作者🏆 🌟[3] 2022年度博客之星人工智能领域TOP4🌟 🌿[4] 2023年城市之星领跑者TOP1(哈尔滨…

初识C++(二)

一、函数重载 C⽀持在同⼀作用域中出现同名函数&#xff0c;但是要求这些同名函数的形参不同&#xff0c;可以是参数个数不同或者 类型不同。这样C函数调⽤就表现出了多态行为为&#xff0c;使用更灵活。C语言是不支持同⼀作用域中出现同 名函数的。 函数重载的基本规则 1.…

Docker基本使用(持续更新中)

1 常用命令 1.1保存镜像到本地 命令如下: docker save -o nginx.tar nginx:latest 举例 结果&#xff1a;在当前目录下多了一个nginx.tar的包 1.2加载本地镜像 命令如下&#xff1a; docker load -i nginx.tar 举例&#xff1a; 查看当前镜像是没有nginx的 加载本地镜…

Linux基础-Makefile的编写、以及编写第一个Linux程序:进度条(模拟在 方便下载的同时,更新图形化界面)

目录 一、Linux项目自动化构建工具-make/Makefile ​编辑 背景&#xff1a; makefile小技巧&#xff1a; 二、Linux第一个小程序&#xff0d;进度条 先导&#xff1a; 1.如何利用/r,fflush(stdout)来实现我们想要的效果&#xff1b; 2.写一个倒计时&#xff1a; 进度条…

c++ 红黑树(带头结点)

想必在看到这篇文章的时候&#xff0c;你一定是带着问题去搜索的&#xff0c;一定是对红黑树已经有了初步大致的认识&#xff0c;已经知道了红黑树的性质与普通红黑树的功能与如何代码实现&#xff0c;但是莫一天突然看到了带头结点的红黑树&#xff0c;肯定是对此有一些疑惑的…

匹配行最大值替换为最小值公式

好的!我们一步一步详细讲解这个公式的作用和如何实现你想要的功能。 ### 数据结构假设: - 你的数据在 A、B、C 列中,每一行都有值。 - 需要在 A 列和 B 列相同的行中,找到 C 列中的最大值,将其替换为最小值,其他值保持不变。 ### 公式: ```excel =IF(C2=MAX(IF(($A$2:$…

Clickhouse使用笔记

clickhouse官方文档&#xff1a;https://clickhouse.com/docs/zh/sql-reference/data-types/decimal 一&#xff0c;建表 create table acitivity_user_record ( id String DEFAULT generateUUIDv4(), -- 主键自增 activityId String, userId String, userName Nullable(Strin…

Git之误执行git rm -r解决方案(六十七)

简介&#xff1a; CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布&#xff1a;《Android系统多媒体进阶实战》&#x1f680; 优质专栏&#xff1a; Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a; 多媒体系统工程师系列【…