机器学习 - 词袋模型(Bag of Words)实现文本情感分类的详细示例

 为了简单直观的理解模型训练,我这里搜集了两个简单的实现文本情感分类的例子,第一个例子基于朴素贝叶斯分类器,第二个例子基于逻辑回归,通过这两个例子,掌握词袋模型(Bag of Words)实现文本情感分类的基本原理,加深对机器学习的理解。

示例一

一、任务目标

使用词袋模型(BoW),将文本转化为数值向量,训练一个情感分类模型,判断句子是“积极”还是“消极”。

二、示例数据集

假设我们有以下4条标注好的训练数据:

1. "这个电影太棒了!"           → 积极
2. "剧情糟糕,浪费时间。"        → 消极
3. "演员演技非常好,推荐!"     → 积极
4. "特效差,不建议观看。"       → 消极

三、实现原理

词袋模型的核心思想
将文本看作一个“装满单词的袋子”,忽略词序和语法,只统计每个单词出现的次数。

四、实现步骤

1. 文本预处理
  • 分词:将句子拆分为单词(中文需分词工具,英文按空格拆分)。

  • 去除停用词:过滤无意义的词(如“的”、“了”、“,”)。

  • 统一小写:英文需统一为小写,中文无需此步骤。

1. ["电影", "太棒"]
2. ["剧情", "糟糕", "浪费", "时间"]
3. ["演员", "演技", "非常", "好", "推荐"]
4. ["特效", "差", "建议", "观看"]

2. 构建词袋(词汇表)

收集所有训练数据中的唯一单词,构建词汇表:

词汇表 = ["电影", "太棒", "剧情", "糟糕", "浪费", "时间", 
        "演员", "演技", "非常", "好", "推荐", "特效", "差", "建议", "观看"]

3. 文本向量化

将每个句子转换为一个向量,表示词汇表中每个单词的出现次数。

示例向量化结果

1. "电影太棒"        → [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
2. "剧情糟糕浪费时间" → [0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
3. "演员演技非常好推荐" → [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0]
4. "特效差建议观看"   → [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]

4. 训练分类模型

使用朴素贝叶斯分类器(适合文本分类)进行训练:

5. 使用模型预测新句子

示例输入"特效很棒但演员差"

步骤

  1. 预处理:分词 → ["特效", "很棒", "演员", "差"]

  2. 向量化:根据词汇表生成向量:

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0]
(词汇表中"特效"=位置11,"演员"=位置6,"差"=位置12,其他词未出现)

    3.预测

五、通俗解释

  1. 词袋模型:像把句子里的单词倒进一个袋子,只数每个单词出现的次数,不管顺序。

  2. 训练过程:模型通过统计哪些词常出现在“积极”句,哪些词常出现在“消极”句,学习判断规律。

  3. 预测过程:新句子被拆解为单词后,模型根据学到的规律,计算属于“积极”或“消极”的概率。

六、完整代码示例(Python)

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 训练数据
sentences = [
    "这个电影太棒了!",
    "剧情糟糕,浪费时间。",
    "演员演技非常好,推荐!",
    "特效差,不建议观看。"
]
labels = [1, 0, 1, 0]  # 1=积极,0=消极

# 1. 文本向量化(自动处理分词和停用词需中文分词工具,此处简化手动处理)
# 手动定义词袋向量(实际应使用CountVectorizer)
X_train = [
    [1,1,0,0,0,0,0,0,0,0,0,0,0,0,0],  # 电影太棒
    [0,0,1,1,1,1,0,0,0,0,0,0,0,0,0],  # 剧情糟糕浪费时间
    [0,0,0,0,0,0,1,1,1,1,1,0,0,0,0],  # 演员演技非常好推荐
    [0,0,0,0,0,0,0,0,0,0,0,1,1,1,1]   # 特效差建议观看
]

# 2. 训练模型
model = MultinomialNB()
model.fit(X_train, labels)

# 3. 预测新句子
new_sentence = "特效很棒但演员差"
# 手动向量化(实际需自动分词和映射)
new_vector = [0,0,0,0,0,0,0,0,0,0,0,1,1,0,0]  # 特效、演员、差
prediction = model.predict([new_vector])
print("预测结果:", "积极" if prediction[0] == 1 else "消极")  # 输出:消极

七、总结

  • 词袋模型优点:简单易实现,适合小规模数据。

  • 缺点:忽略词序和语义(如“好不”和“不好”会被视为相同)。

  • 进阶方向:TF-IDF、N-gram、词嵌入(Word2Vec)等更复杂的文本表示方法。

示例二

词袋模型(BoW)是一种将文本转化为数值表示的常见方法,用于文本分类任务。首先,我们从一组文本中提取词汇,例如,句子“我喜欢读书”和“我讨厌读书”,得到词汇表:“我”、“喜欢”、“读书”、“讨厌”。接着,将每个句子转化为向量,每个维度对应一个词,表示该词在句子中是否出现或出现的频率。接下来,我们可以使用逻辑回归等分类器训练模型,最后用训练好的模型来预测新文本的情感。

一、基本原理

词袋模型的思想:
词袋模型将文本看作一个“词袋”,忽略单词之间的顺序,只关注每个单词出现的频率。这样,每篇文本就可以表示为一个向量,向量的每个维度对应一个词汇表中的词,其值为该词在文本中出现的次数(或经过其他处理后的权重,如TF-IDF)。

情感分类任务:
在情感分类任务中,我们希望根据文本的内容判断其情感倾向(例如正面或负面)。利用词袋模型,将文本转化为数值特征后,可以用常见的监督学习算法(如逻辑回归、朴素贝叶斯、支持向量机等)进行分类。

二、具体例子

假设我们有下面两个简单的训练文本,每个文本都有标注的情感标签:

  1. 文本1:"我 喜欢 读书" —— 正面情感
  2. 文本2:"我 讨厌 读书" —— 负面情感

1. 构建词汇表

首先,从训练数据中提取所有出现的词语。对于这两个文本,提取到的词汇有:

  • "我"
  • "喜欢"
  • "讨厌"
  • "读书"

因此,我们可以构建词汇表(Vocabulary)为:

Vocabulary={"我","喜欢","讨厌","读书"}

2. 文本向量化

接下来,将每个文本转换为向量,每个向量的维度对应词汇表中的一个词,值为该词出现的次数。

  • 文本1:"我 喜欢 读书"

    • “我”出现1次
    • “喜欢”出现1次
    • “讨厌”出现0次
    • “读书”出现1次
      得到向量:
    v1=[1, 1, 0, 1]
  • 文本2:"我 讨厌 读书"

    • “我”出现1次
    • “喜欢”出现0次
    • “讨厌”出现1次
    • “读书”出现1次
      得到向量:
    v2=[1, 0, 1, 1]

这些向量就是文本的数值化表示,它们捕获了文本中各单词的出现情况。

3. 训练分类模型

利用上述向量作为输入特征,并结合相应的情感标签(例如正面情感标记为1,负面情感标记为0),我们可以训练一个简单的分类模型。这里以逻辑回归为例:

训练步骤:
  1. 准备数据:
    将训练样本构建成特征矩阵 X 和标签向量 y:

    其中第一行对应“我 喜欢 读书”(正面),第二行对应“我 讨厌 读书”(负面)。

  2. 模型建立:
    逻辑回归模型假设预测概率为:

    其中,w 是权重向量,b 是偏置项。

  3. 训练过程:
    采用梯度下降等优化方法,调整 w 和 b 使得模型在训练数据上损失函数(例如交叉熵损失)最小。

  4. 模型评估:
    利用训练数据或独立的验证集,计算模型的预测准确率,调整超参数以获得更好的效果。

4. 模型使用

假设训练完成后,我们得到了最优参数 w^* 和 b^*。

如何使用训练好的模型:

  • 新文本的向量化:
    对于一个新文本,如“我 喜欢 电影”,首先根据之前的词汇表进行向量化:

    • 假设词汇表仍为 {"我","喜欢","讨厌","读书"}
    • “我”出现1次,“喜欢”出现1次,“讨厌”出现0次,“读书”出现0次,因此向量为:

    注意:新文本中的“电影”不在词汇表中,因此在简单词袋模型中会被忽略(这也是词袋模型的一个局限)。

  • 预测:
    将新文本的向量 vnew 代入逻辑回归模型,计算:

    然后通过 sigmoid 函数转换为概率:

    如果该概率大于某个阈值(例如0.5),则模型预测文本为正面情感;否则预测为负面情感。

总结

  1. 原理
    词袋模型将文本转换为不考虑词序的词频向量,通过这些向量来捕捉文本的内容信息。

  2. 过程

    • 构建词汇表
    • 将文本向量化
    • 利用标注数据训练分类模型(例如逻辑回归)
    • 评估和调整模型
  3. 使用
    训练好的模型可用于对新文本进行向量化和情感预测,进而进行分类任务。

这种方法虽然简单,但能有效展示如何从原始文本到数值表示,再到利用机器学习模型进行情感分类的全过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16307.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

没有服务器和显卡电脑如何本地化使用deepseek|如何通过API使用满血版deepseek

目录 一、前言二、使用siliconflow硅基流动 API密钥1、注册硅基流动2、创建API密钥3、下载AI客户端4、使用API密钥5、效果演示 三、使用deepseek官方API密钥1、创建API密钥2、使用API密钥3、效果演示 四、总结 一、前言 上篇文章我介绍了如何通过云服务器或者显卡电脑来本地化…

算法学习笔记之贪心算法

导引(硕鼠的交易) 硕鼠准备了M磅猫粮与看守仓库的猫交易奶酪。 仓库有N个房间,第i个房间有 J[i] 磅奶酪并需要 F[i] 磅猫粮交换,硕鼠可以按比例来交换,不必交换所有的奶酪 计算硕鼠最多能得到多少磅奶酪。 输入M和…

oracle执行grant授权sql被阻塞问题处理

一 问题描述 执行普通的grant授权sql(grant select,update on 表名 to 用户名)好几分钟都没反应,跟被阻塞了似的。 二 问题排查 #排查是否有阻塞 用OEM可以看到阻塞信息: 点‘性能’-‘阻塞会话’: 下面那个会话2958是我执行grant sql的…

SSM仓库物品管理系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.用户登录代码:2.保存物品信息代码:3.删除仓库信息代码: 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SSM框架开发的仓库…

Deepseek 接入Word处理对话框(隐藏密钥)

硅基流动邀请码:1zNe93Cp 邀请链接:网页链接 亲测deepseek接入word,自由调用对话,看截图有兴趣的复用代码(当然也可以自己向deepseek提问,帮助你完成接入,但是提问逻辑不一样给出的答案是千差万…

Docker Compose介绍及安装使用MongoDB数据库详解

在现代容器化应用部署中,Docker Compose是一种非常实用的工具,它允许我们通过一个docker-compose.yml文件来定义和运行多容器应用程序。然而,除了Docker之外,Podman也提供了类似的工具——Podman Compose,它允许我们在…

IntelliJ IDEA Console控制台输出成json的配置方式

【IntelliJ IDEA Console控制台输出成json的配置方式】 1.帮助->查找操作 2.搜索注册表 3.ctrlf 搜索pty 控制台右键 结果

基础入门-HTTP数据包红蓝队研判自定义构造请求方法请求头修改状态码判断

知识点: 1、请求头&返回包-方法&头修改&状态码等 2、数据包分析-红队攻击工具&蓝队流量研判 3、数据包构造-Reqable自定义添加修改请求 一、演示案例-请求头&返回包-方法&头修改&状态码等 数据包 客户端请求Request 请求方法 …

react redux用法学习

参考资料: https://www.bilibili.com/video/BV1ZB4y1Z7o8 https://cn.redux.js.org/tutorials/essentials/part-5-async-logic AI工具:deepseek,通义灵码 第一天 安装相关依赖: 使用redux的中间件: npm i react-redu…

机器学习 - 线性回归(最大后验估计)

最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合,我们可以给参数加上一些先验知识. 一、先从最大似然估计的一个缺点入手 最大似然估计(MLE)在处理小样本数据时,容易发…

2025.2.8——二、Confusion1 SSTI模板注入|Jinja2模板

题目来源:攻防世界 Confusion1 目录 一、打开靶机,整理信息 二、解题思路 step 1:查看网页源码信息 step 2:模板注入 step 3:构造payload,验证漏洞 step 4:已确认为SSTI漏洞中的Jinjia2…

Moretl 增量文件采集工具

永久免费: <下载> <使用说明> 用途 定时全量或增量采集工控机,电脑文件或日志. 优势 开箱即用: 解压直接运行.不需额外下载.管理设备: 后台统一管理客户端.无人值守: 客户端自启动,自更新.稳定安全: 架构简单,兼容性好,通过授权控制访问. 架构 技术架构: Asp…

基于STM32的ADS1230驱动例程

自己在练手项目中用到了ADS1230&#xff0c;根据芯片手册自写的驱动代码&#xff0c;已测可用&#xff0c;希望对将要用到ADS1230芯片的人有所帮助。 芯片&#xff1a;STM32系列任意芯片、ADS1230 环境&#xff1a;使用STM32CubeMX配置引脚、KEIL 部分电路&#xff1a; 代码…

HarmonyOS 5.0应用开发——NodeContainer自定义占位节点

【高心星出品】 文章目录 NodeContainer自定义占位节点案例开发步骤全部代码 NodeContainer自定义占位节点 NodeContainer是用来占位的系统组件&#xff0c;主要用于自定义节点以及自定义节点树的显示&#xff0c;支持组件的通用属性&#xff0c;对通用属性的处理请参考默认左…

26~31.ppt

目录 26.北京主要的景点 题目 解析 27.创新产品展示及说明会 题目​ 解析 28.《小企业会计准则》 题目​ 解析 29.学习型社会的学习理念 题目​ 解析 30.小王-产品展示信息 题目​ 解析 31.小王-办公理念-信息工作者的每一天 题目​ 解析 26.北京主要的景点…

单张照片可生成写实3D头部模型!Adobe提出FaceLift,从单一的人脸图像中重建出360度的头部模型。

FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表…

在Uniapp中使用阿里云OSS插件实现文件上传

在开发小程序时&#xff0c;文件上传是一个常见的需求。阿里云OSS&#xff08;Object Storage Service&#xff09;是一个强大的云存储服务&#xff0c;可以帮助我们高效地存储和管理文件。本文将介绍如何在Uniapp小程序中使用阿里云OSS插件实现文件上传功能。 1. 准备工作 首…

Tomcat添加到Windows系统服务中,服务名称带空格

要将Tomcat添加到Windows系统服务中&#xff0c;可以通过Tomcat安装目录中“\bin\service.bat”来完成&#xff0c;如果目录中没有service.bat&#xff0c;则需要使用其它方法。 打到CMD命令行窗口&#xff0c;通过cd命令跳转到Tomcat安装目录的“\bin\”目录&#xff0c;然后执…

Android Studio集成讯飞SDK过程中在配置Project的时候有感

在配置讯飞的语音识别SDK&#xff08;流式版&#xff09;时候&#xff0c;跟着写了两个Demo&#xff0c;一个是YuYinTestDemo01&#xff0c;另一个是02&#xff0c;demo01比较简单&#xff0c;实现功能图象也比较简陋&#xff0c;没用讯飞SDK提供的图片&#xff0c;也就是没用到…

DeepSeek 助力 Vue 开发:打造丝滑的进度条

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…