使用 PyTorch 构建 NLP 聊天机器人

一、说明

        聊天机器人提供自动对话,可以帮助用户完成任务或寻求信息。随着深度学习的最新进展,聊天机器人正变得越来越具有对话性和实用性。这个全面的教程将利用 PyTorch 和 Python 从头开始构建聊天机器人,涵盖模型架构、数据准备、训练循环、评估和部署。

查看 JavaScript 中的自然语言处理 (NLP)(系列)

二、设置 Python 环境

我们首先需要一个环境来运行我们的聊天机器人代码。本指南使用 Python 3.8 和 PyTorch 1.12:

# Create conda env 
conda create -n chatbot python=3.8
conda activate chatbot
# Install PyTorch 
pip install torch==1.12.0+cpu torchvision==0.13.0+cpu torchaudio===0.12.0 -f https://download.pytorch.org/whl/torch_stable.html
# Check installs 
python -c "import torch; print(torch.__version__)"

这为我们提供了用于机器学习工作的最新 PyTorch 版本。

三、聊天机器人模型架构

模型架构定义了生成聊天机器人响应的数据流和计算。我们将使用基于 LSTM 的编码器-解码器架构,该架构通常用于序列到序列任务。

编码器将输入语句(例如,“天气预报是什么?”)映射到固定长度的矢量表示形式中。解码器将此表示映射到自然语言响应(例如,“今天天气晴朗,25摄氏度”)。

import torch
import torch.nn as nn
class EncoderLSTM(nn.Module):def __init__(self, input_size, hidden_size):super().__init__()  self.lstm = nn.LSTM(input_size, hidden_size)def forward(self, input):_, (hidden, cell) = self.lstm(input)  return hidden, cell
class DecoderLSTM(nn.Module): def __init__(self, input_size, hidden_size):super().__init__()self.lstm = nn.LSTM(input_size, hidden_size)def forward(self, input):outputs, _ = self.lstm(input)return outputs
class Seq2Seq(nn.Module):def __init__(self, encoder, decoder): super().__init__()self.encoder = encoderself.decoder = decoder

我们实例化编码器和解码器,并将它们组合成一个 Seq2Seq 模型。我们将对此进行端到端的训练。

四、准备训练数据

我们需要一个对话示例数据集来训练我们的模型。导入数据集后,我们将文本标记为整数序列:

Kaggle 托管对话语料库,如 Ubuntu 对话语料库、句子释义集合和每日对话数据集,它们提供 100k+ 对话交流。这些是免费下载和使用的。

data = load_dataset("daily_dialog")
def tokenize(text):return [vocab[token] for token in text.split(" ")] 
vocab = {"hello": 1, "what": 2, "is": 3, ...}
tokenized_data = data.map(tokenize)

我们可以将其拆分为训练集和验证集:

from sklearn.model_selection import train_test_split
train_data, val_data = train_test_split(tokenized_data)

五、训练循环

        准备好数据后,我们定义模型、损失准则和优化器,然后循环示例:

embed_size = 128
hidden_size = 512
model = Seq2Seq(encoder=EncoderLSTM(embed_size, hidden_size),decoder=DecoderLSTM(embed_size, hidden_size))
criterion = nn.NLLLoss()
optimizer = torch.optim.Adam(model.parameters())
for epoch in range(10):for input, target in train_data:output = model(input)  loss = criterion(output, target)loss.backward()  optimizer.step()optimizer.zero_grad()

        通过反复计算损失和反向传播,我们的模型学习了生成逻辑。

六、模型评估

        我们使用困惑度和 BLEU 分数等指标评估我们训练有素的聊天机器人的验证数据:

from transformers import GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
scores = evaluate(model, val_data, tokenizer)  
print(f"Perplexity score: {scores['perplexity']}")
print(f"BLEU score: {scores['bleu']}")

        这些度量检查模型生成的流畅性、合理性和准确性。

七、部署

        一旦我们有了一个高性能模型,我们就使用 FastAPI 将其打包到 API 中:

import fastapi
app = fastapi.FastAPI()
@app.post("/chat")
def chat(input: str):input = tokenize(input) output = model(input)return {"bot": output}

API 获取输入文本,将其馈送到我们的模型以生成机器人响应,并返回预测。

八、结论

        有了它,我们在 Python 中拥有了一个功能齐全的深度学习聊天机器人,可以响应消息并进行对话!我们学习了如何对模型进行排序,例如擅长文本数据的 LSTM,在 PyTorch 中训练聊天机器人模型,并了解如何优化、改进和部署我们的创作。

        还有很多事情可以做,比如添加个性化、链接 API 数据源以获取新鲜事实、集成翻译功能等等——聊天机器人的工作永远不会完成!我喜欢指导您完成本教程,并希望您能使用这些新技能来构建您的智能聊天应用程序。

九、常见问题解答

  • 为什么 PyTorch 更适合聊天机器人而不是 TensorFlow 或其他库?

我不会说它一定更好,但 PyTorch 的急切执行(动态计算而不是静态图)可以使迭代和调试更容易。所有主要框架都有其优势。选择你喜欢与之合作的人!

  • 我需要多少数据来训练一个好的聊天机器人?

没有硬性门槛,但一般来说,对话数据越多越好。数十万到数百万个对话示例对于生成类似人类的响应并非不切实际。利用预先训练的语言模型检查点也有帮助。

  • 需要什么样的硬件计算能力?我可以在本地或笔记本电脑上运行复杂的模型吗?

建议使用 GPU 加速,以获得除最基本原型之外的所有原型的良好性能。如果您没有认真的硬件,云服务提供 GPU 甚至量子加速训练!但要开始在本地进行试验,稍后再扩大规模。

  • 除了聊天机器人,我还可以使用 PyTorch 探索哪些其他 NLP 应用程序?

吨!文本分类、语义搜索、语法校正、预测类型、文档摘要、语言翻译......天空是无限的!PyTorch 拥有出色的文本支持和活跃的开发人员社区。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/252097.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

认识Tomcat (一)

认识Tomcat (一) 一、服务器 1.1 服务器简介 ​ 硬件服务器的构成与一般的PC比较相似,但是服务器在稳定性、安全性、性能等方面都要求更高,因为CPU、芯片组、内存、磁盘系统、网络等硬件和普通PC有所不同。 ​ 软件服务器&…

初始数据库

华子目录 什么是数据库DBMS(数据库管理系统)数据库系统和文件系统的区别文件系统数据库系统对比区别优缺点总结 常见数据库关系型数据库ACID原则关系型数据库的优缺点优点缺点 非关系型数据库存储方式常见的非关系型数据库非关系型数据库的优缺点优点缺点…

BUU UPLOAD COURSE 1

进去之后是一个上传页面 尝试上传一句话木马的php代码&#xff0c;保存为一个1.php&#xff0c;然后上传 <?php eval($_POST[1]);?>发现后缀名被改为jpg了 访问一下 http://a82bcc09-b809-42c9-b5ad-5406b72e5707.node5.buuoj.cn:81/uploads/65bfa77eab1f6.jpg发现可…

代码生成器(新):mybatis-plus-generator使用指南

代码生成器&#xff08;新&#xff09;官网 后端代码&#xff1a;点击查看 LearnElementUiAndSpringBoot 提醒&#xff1a;LearnElementUiAndSpringBoot下载完后&#xff0c;在运行调试 Main.java里的main方法之前&#xff0c;除了utils包和Main.java文件&#xff0c;其他包需…

异地办公必不可缺的远程控制软件,原理到底是什么?

目录 引言远程桌面连接软件的作用与重要性 基本概念与架构客户端-服务器模型网络通信协议 核心技术组件图形界面捕获与传输输入转发会话管理 性能优化策略带宽优化延迟优化 引言 远程桌面连接软件的作用与重要性 在当今这个高度数字化和网络化的时代&#xff0c;远程桌面连接软…

红队渗透靶机:LORD OF THE ROOT: 1.0.1

目录 信息收集 1、arp 2、nmap 3、knock 4、nikto 目录探测 1、gobuster 2、dirsearch WEB sqlmap 爆库 爆表 爆列 爆字段 hydra爆破 ssh登录 提权 信息收集 内核提权 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# arp-scan -l Interface: eth0, ty…

U形金属卡

方管不锈钢防盗网挂勾&#xff0c;没找到合适的&#xff0c;自己设计一个。 difference(){ cube([43,20,27]);translate([2,-1,2]) cube([42,29,23]);translate([32,10,-1]) cylinder(50,3,3,$fn360); }if(1){ color("gray") translate([2,-20,2]) cube([23,60,23])…

JAVA中的object类

一、equals方法 1.和equals的比较 既可以判断基本类型有可以判断引用类型 如果判断基本类型&#xff0c;判断的值是否相等 int num1 10; double num2 10.0; System.out.println(num1 num2); 如果判断引用类型&#xff0c;判断的地址是否相等&#xff0c;即判断是不是同一…

myql 项目数据库和表的设计

1.表的设计和创建 2.在navicate运行这些代码 create table user(id int not null auto_increment primary key,name varchar(50) not null unique,password varchar(50) not null,state enum(online,offline) default offline ); create table friend(userid int not null,…

HomeAssistant系统添加HACS插件商店与远程控制家中智能家居

文章目录 基本条件一、下载HACS源码二、添加HACS集成三、绑定米家设备 ​ 上文介绍了如何实现群晖Docker部署HomeAssistant&#xff0c;通过内网穿透在户外控制家庭中枢。本文将介绍如何安装HACS插件商店&#xff0c;将米家&#xff0c;果家设备接入 Home Assistant。 基本条件…

【初中生讲机器学习】5. 从概率到朴素贝叶斯算法,一篇带你看明白!

创建时间&#xff1a;2024-02-04 最后编辑时间&#xff1a;2024-02-05 作者&#xff1a;Geeker_LStar 你好呀~这里是 Geeker_LStar 的人工智能学习专栏&#xff0c;很高兴遇见你~ 我是 Geeker_LStar&#xff0c;一名初三学生&#xff0c;热爱计算机和数学&#xff0c;我们一起加…

[C++]继承(续)

一、基类和派生类对象赋值转换 在public继承时&#xff0c;父类和子类是一个“is - a”的关系。 子类对象赋值给父类对象/父类指针/父类引用&#xff0c;我们认为是天然的&#xff0c;中间不产生临时对象&#xff0c;也叫作父子类赋值兼容规则&#xff08;切割/切片&#xff…

工作与生活平衡:在生活中寻找和谐

工作和生活是我们生活中不断交织的两个重要方面。对许多人来说&#xff0c;找到两者之间的完美平衡已经成为一个持久的挑战。然而&#xff0c;与其专注于平衡&#xff0c;更重要的是要认识到工作和生活并不是可以相互平衡的两个分离实体&#xff0c;而是一个相互影响的循环。正…

服务器和云服务器哪个更安全?

随着云计算技术的不断发展&#xff0c;越来越多的企业开始选择使用云服务器来存储和处理数据。然而&#xff0c;对于一些企业来说&#xff0c;他们可能更倾向于使用传统的服务器。在这种情况下&#xff0c;安全性成为了一个重要的考虑因素。那么&#xff0c;服务器和云服务器哪…

普通编程,机器学习与深度学习

普通编程&#xff1a;基于人手动设置规则&#xff0c;由输入产生输出经典机器学习&#xff1a;人手工指定需要的特征&#xff0c;通过一些数学原理对特征与输出的匹配模式进行学习&#xff0c;也就是更新相应的参数&#xff0c;从而使数学表达式能够更好的根据给定的特征得到准…

windows10忘记密码的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

【iOS ARKit】3D 人体姿态估计

与基于屏幕空间的 2D人体姿态估计不同&#xff0c;3D人体姿态估计是尝试还原人体在三维世界中的形状与姿态&#xff0c;包括深度信息。绝大多数的现有3D人体姿态估计方法依赖2D人体姿态估计&#xff0c;通过获取 2D人体姿态后再构建神经网络算法&#xff0c;实现从 2D 到 3D人体…

LeetCode 热题 100 | 链表(中下)

目录 1 19. 删除链表的倒数第 N 个节点 2 24. 两两交换链表中的节点 3 25. K 个一组翻转链表 4 138. 随机链表的复制 菜鸟做题第三周&#xff0c;语言是 C 1 19. 删除链表的倒数第 N 个节点 到底是节点还是结点。。。 解题思路&#xff1a; 设置双指针 left 和 ri…

聊聊比特币----比特币地址

⽐特币地址是⼀个标识符&#xff08;帐号&#xff09;&#xff0c;地址可以以QR码形式表⽰&#xff0c;是匿名的&#xff0c;不包含关于所有者的信息。 ⼤多数⽐特币地址(P2PKH,P2SH)是34个字符。它们由随机数字和⼤写字母及⼩写字母组成&#xff0c;除了⼤写字母“O”&#x…

前端复杂 table 渲染及 excel.js 导出

转载请注明出处&#xff0c;点击此处 查看更多精彩内容 现在我们有一个如图&#xff08;甚至更复杂&#xff09;的表格需要展示到页面上&#xff0c;并提供下载为 excel 文件的功能。 前端表格渲染我们一般会使用 element-ui 等组件库提供的 table 组件&#xff0c;这些组件一般…