AI开发:使用支持向量机(SVM)进行文本情感分析训练 - Python

支持向量机是AI开发中最常见的一种算法。之前我们已经一起初步了解了它的概念和应用,今天我们用它来进行一次文本情感分析训练。

一、概念温习

支持向量机(SVM)是一种监督学习算法,广泛用于分类和回归问题。

它的核心思想是通过在高维空间中寻找一个超平面,将数据分成不同的类别。SVM 通过最大化类间的边界(即间隔)来提高模型的泛化能力,尤其适合处理小样本和高维数据。

SVM 在文本情感分析中的作用尤为突出,因为文本数据通常具有高维特征(例如词汇表的大小),而 SVM 擅长于处理这种维度较高的稀疏数据。

通过将文本转化为数值特征(如 TF-IDF),SVM 能有效地在情感分类任务中学习到情感标签与文本内容之间的关系。尤其在情感分析中,SVM 能够识别出情感倾向的关键特征,从而准确地对文本进行分类(如“积极”或“消极”)。其优越的分类性能和对高维数据的适应性使得 SVM 成为情感分析中常用的算法。

图1. 支持向量机的特点 

二、实现逻辑

一个用Python 和支持向量机(SVM)实现的情感分析主要逻辑是这样的:

  • 首先,脚本加载一个包含文本和标签(“Positive”或“Negative”)的 JSON 数据集,并将标签转换为二元分类(1 为积极,0 为消极)。
  • 接着,使用 TfidfVectorizer 将文本数据转换为数值特征,去除常见的停用词并限制特征维度。
  • 然后,使用 SVM 模型(线性核)对训练集进行训练,评估其在测试集上的表现,输出分类报告。
  • 训练完成后,模型和 TF-IDF 向量化器被保存为文件,以便后续加载使用。
  • 我们还需要一个调用函数 可以命名为:predict_sentiment,用于加载保存的模型并对新输入的文本进行情感预测。整个流程为文本情感分类任务提供了一个标准的解决方案。

我们可以用这样一个流程框图来描述整个过程:(点击放大查看)

图2. 案例实现逻辑 

 三、训练数据准备

在机器学习中,数据是模型训练的基础,直接影响模型的性能和准确性。对于文本情感分析任务,data.json 中的训练数据至关重要。该数据集包含大量标注了情感标签(“Positive”和“Negative”)的文本,能够为模型提供学习情感分类的实例。

通过这些带标签的文本,支持向量机(SVM)可以识别文本中的情感特征,并学会区分不同情感类别。在情感分析中,数据的质量和多样性决定了模型的泛化能力。如果数据集中的文本种类丰富、情感标签明确且分布均匀,模型能够更好地捕捉到情感表达的细微差异。此外,适当的训练数据量能帮助减少过拟合,提升模型在新数据上的表现。因此,data.json 提供的训练素材为模型提供了必要的输入和监督信息,是模型准确预测情感的重要保障。

在案例中,我的素材内包括了50个短句和与之对应的标签,以供模型训练使用,我将这个标签文件放在了素材中,需要的可自行下载。 

SVM 是一种非常适合文本分类的算法,尤其是当文本数据不太多且维度较高时。下面是一个完整的步骤说明,帮助你使用 Python 实现 SVM 来训练和保存一个情感分析模型。

四、实现步骤概述:

  1. 数据预处理:加载数据,进行必要的文本处理(如分词、去除停用词等)。
  2. 特征提取:将文本数据转换为数值形式(通常使用 TF-IDF)。
  3. 训练模型:使用支持向量机(SVM)来训练情感分析模型。
  4. 模型保存:将训练好的模型保存,以便以后使用。
  5. 模型调用:加载保存的模型并进行预测。

1. 安装必要的库

首先,确保你安装了必要的 Python 库。你可以使用以下命令安装:

pip install scikit-learn numpy pandas joblib

2. 数据加载与预处理

假设你已经将数据保存到 data.json 文件中,首先加载数据,并对文本进行预处理。(data.json 我已经放在本文的资源中)

import json
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import classification_report
import joblib# 加载 JSON 数据
with open('data.json', 'r') as file:data = json.load(file)# 创建 DataFrame
df = pd.DataFrame({'text': data['text'],'label': data['label']
})# 将标签转换为数字,'Positive' -> 1, 'Negative' -> 0
df['label'] = df['label'].apply(lambda x: 1 if x == 'Positive' else 0)# 分割数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.3, random_state=42)# 显示数据分割情况
print(f"训练集大小: {len(X_train)}, 测试集大小: {len(X_test)}")

3. 特征提取(使用 TF-IDF)

我们将使用 TF-IDF 来将文本数据转换为数值特征。TF-IDF 是一种常见的文本特征提取方法,它考虑了词频和逆文档频率。

# 创建 TF-IDF 向量化器
tfidf_vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)# 训练 TF-IDF 向量化器并转换训练集和测试集
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

4. 训练支持向量机(SVM)模型

现在,我们可以训练一个支持向量机(SVM)模型,进行文本分类。

# 创建 SVM 分类器
svm_classifier = SVC(kernel='linear')  # 使用线性核函数# 训练模型
svm_classifier.fit(X_train_tfidf, y_train)# 预测
y_pred = svm_classifier.predict(X_test_tfidf)# 输出模型性能评估
print(classification_report(y_test, y_pred))

5. 保存模型

训练完成后,我们可以将模型保存为一个文件,以便以后加载并使用。

# 保存 SVM 模型和 TF-IDF 向量化器
joblib.dump(svm_classifier, 'svm_sentiment_model.pkl')
joblib.dump(tfidf_vectorizer, 'tfidf_vectorizer.pkl')print("模型已保存!")

6. 加载模型并进行预测

按照上面的操作以后,你可以随时加载保存的模型来进行预测。以下是如何加载并使用保存的模型:

# 加载已保存的模型和 TF-IDF 向量化器
svm_model = joblib.load('svm_sentiment_model.pkl')
tfidf_vectorizer = joblib.load('tfidf_vectorizer.pkl')# 示例预测
def predict_sentiment(text):# 将文本转换为 TF-IDF 特征text_tfidf = tfidf_vectorizer.transform([text])# 使用模型进行预测prediction = svm_model.predict(text_tfidf)return "Positive" if prediction[0] == 1 else "Negative"# 测试预测
sample_text = "I am so happy with my new job!"
result = predict_sentiment(sample_text)
print(f"预测情感: {result}")

五、完整代码总结:

import json
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import classification_report
import joblib# 加载 JSON 数据
with open('data.json', 'r') as file:data = json.load(file)# 创建 DataFrame
df = pd.DataFrame({'text': data['text'],'label': data['label']
})# 将标签转换为数字
df['label'] = df['label'].apply(lambda x: 1 if x == 'Positive' else 0)# 分割数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.3, random_state=42)# TF-IDF 向量化
tfidf_vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)# 训练 SVM 模型
svm_classifier = SVC(kernel='linear')
svm_classifier.fit(X_train_tfidf, y_train)# 预测
y_pred = svm_classifier.predict(X_test_tfidf)
print(classification_report(y_test, y_pred))# 保存模型
joblib.dump(svm_classifier, 'svm_sentiment_model.pkl')
joblib.dump(tfidf_vectorizer, 'tfidf_vectorizer.pkl')# 加载模型并进行预测
def predict_sentiment(text):text_tfidf = tfidf_vectorizer.transform([text])prediction = svm_classifier.predict(text_tfidf)return "Positive" if prediction[0] == 1 else "Negative"sample_text = "I am so happy with my new job!"
result = predict_sentiment(sample_text)
print(f"预测情感: {result}")

这样我们就可以用训练好的 SVM 模型来进行文本情感分析了!

六、测似结果

负面文本测试结果:

正面文本测试结果:

 

需要注意的是:实际上,训练数据中的50条样本,远远不足以训练出一个可以真实应用的模型,因此才测试的时候,你可以将数据中的原文短句进行测试,这样准确率会很高。

七、应用场景 

虽然这个模型看起来很简单,能处理的情感维度也比较低,但是在实践中,是有很多这样的应用场景的,以下是一些适用场景:

1. 小型文本数据集

当训练数据集相对较小且标注数据有限时,SVM 模型能够有效工作。它通过最大化类别间的间隔,能够在样本较少的情况下提供较好的泛化能力。因此,对于一些规模较小的情感分析任务,这种简单模型非常适用。

2. 情感分类任务

适用于较为简单的情感分类任务,比如判断用户评价、评论或社交媒体帖子中的情感倾向(如正面或负面)。如果文本内容较短,特征维度不高,SVM 能够较好地学习文本的情感模式。

3. 低资源环境

在硬件或计算资源受限的环境下,SVM 由于其相对较小的内存需求和计算复杂度,适合在资源有限的设备上运行,比如移动端或边缘计算设备。

4. 不需要深度语义理解的应用

当任务的文本情感较为直接和明显时,简单的 SVM 模型能够有效分类。例如,用户评论中的情感一般较为直接(如“这款产品太好用了” vs “这个产品太差了”)。这类场景不需要复杂的深度学习模型,SVM 可以提供足够的准确性。

5. 需要快速部署和预测的场景

在需要快速部署并进行情感分类的场景中,简单的 SVM 模型可以快速训练并进行预测。由于模型较小,训练和推理速度较快,非常适合实时情感分析系统(如实时监测社交媒体评论或产品评价)。

6. 应用于情感标签较少的任务

如果情感分类任务中的标签较少(比如只有正面和负面两个情感类别),SVM 模型非常适用。其线性核函数能够快速找到最佳分隔超平面,并且能较好地处理二分类问题。

这次的模型训练主要是为了讲解如何实现的方法。有问题可以留言我们一起讨论!

谢谢观看本文!感谢点赞关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/494222.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信奥赛四种算法描述

#include <iostream> #include <iomanip> using namespace std;// 使用unsigned long long类型来尽量容纳较大的结果&#xff0c;不过实际上这个数值极其巨大&#xff0c;可能最终仍会溢出 // 更好的方式可以考虑使用高精度计算库&#xff08;如GMP等&#xff09;来…

Ajax中的axios

既然提到Ajax&#xff0c;那就先来说一说什么是Ajax吧 关于Ajax Ajax的定义 Asynchronous JavaScript And XML&#xff1a;异步的JavaScript和XML。 反正就是一句话总结&#xff1a; 使用XML HttpRequest 对象与服务器进行通讯。 AJAX 是一种在无需重新加载整个网页的情况下&…

vscode 使用说明

文章目录 1、文档2、技巧显示与搜索宏定义和包含头文件 3、插件4、智能编写5、VSCode 与 C&#xff08;1&#xff09;安装&#xff08;2&#xff09;调试&#xff08;a&#xff09;使用 CMake 进行跨平台编译与调试&#xff08;b&#xff09;launch.json&#xff08;c&#xff…

多功能护照阅读器港澳通行证阅读机RS232串口主动输出协议,支持和单片机/Linux对接使用

此护照阅读器支持护照、电子芯片护照、港澳通行证、台湾通行证&#xff0c;和串口的被动的方式不一样。此护照阅读器通电后&#xff0c;自动读卡&#xff0c;串口输出&#xff0c;软件只需要去串口监听数据即可&#xff0c;例如用串口助手就可以收到读卡信息。 非常适用于单片…

petalinux-adi ---移植adi内核(一)

1. 设备树生成 将 前 面 生 成 的 设 备 树 文 件 ( 笔 者 这 里 生 成 的 设 备 树 文 件 在Petalinux 工 程 的components/plnx_workspace/device-tree/device-tree/ 目 录 下 ) pcw.dtsi 、 pl.dtsi 、system-top.dts 以 及 zynq-7000.dtsi 四 个 文 件 直 接 拷 贝 到 内 …

基于MindSpore NLP的PEFT微调

创建notebook 登录控制台 创建notebook 如果出现提示按如下操作 回到列表页面创建notebook参数如下&#xff1a; 配置mindnlp环境 打开GitHub - mindspore-lab/mindnlp: Easy-to-use and high-performance NLP and LLM framework based on MindSpore, compatible with model…

centos-stream9系统安装docker

如果之前安装过docker需要删除之前的。 sudo dnf -y remove docker docker-client docker-client-latest docker-common docker-latest docker-latest-logrotate docker-logrotate docker-engine 安装yum-utils工具&#xff1a; dnf -y install yum-utils dnf-plugin…

Redis存在安全漏洞

Redis是美国Redis公司的一套开源的使用ANSI C编写、支持网络、可基于内存亦可持久化的日志型、键值&#xff08;Key-Value&#xff09;存储数据库&#xff0c;并提供多种语言的API。 Redis存在安全漏洞。攻击者利用该漏洞使用特制的Lua脚本触发堆栈缓冲区溢出漏洞&#xff0c;从…

黑马Java面试教程_P8_并发编程

系列博客目录 文章目录 系列博客目录前言1.线程的基础知识1.1 线程和进程的区别&#xff1f;难2频3面试文稿 1.2 并行和并发有什么区别&#xff1f; 难1频1面试文稿 1.3 创建线程的四种方式 难2频4面试文稿 1.4 runnable 和 callable 有什么区别 难2频3面试文稿 1.5 线程的 run…

ubuntu22.04 nginx配置下载目录,亲测成功

安装nginx ubuntu最简单&#xff0c;apt安装即可 apt install nginx 配置文件 文件都在目录下 /etc/nginx/添加内容 修改/ etc/nginx/sites-available/default &#xff0c; 注意这里不是nginx.conf&#xff0c;直接修改nginx.conf不奏效 location /downloads { …

【从零开始入门unity游戏开发之——C#篇21】C#面向对象的封装——`this`扩展方法、运算符重载、内部类、`partial` 定义分部类

文章目录 一、this扩展方法1、扩展方法的基本语法2、使用扩展方法3、扩展方法的注意事项5、扩展方法的限制6、总结 二、运算符重载1、C# 运算符重载2、运算符重载的基本语法3. 示例&#xff1a;重载加法运算符 ()4、使用重载的运算符5、支持重载的运算符6、不能重载的运算符7、…

android EditText密码自动填充适配

android上的密码&#xff08;其实不仅仅是密码&#xff0c;可以是用户名也可以是邮箱&#xff09;自动填充&#xff0c;是需要考虑适配的。 官方文档&#xff1a;https://developer.android.com/identity/autofill/autofill-optimize?hlzh-cn 什么是自动填充 手机厂商一般会…

stm32制作CAN适配器5--WinUsb上位机编写

上次我们要stm32制作了一个基于winusb有canfd适配器&#xff0c;今天我们来制作一个上位机程序来进行报文收发。 上位机还是用以前写好的&#xff0c;只是更改下dll文件。 项目链接器&#xff0c;输入&#xff0c;附加依赖项中增加winusb.lib winusb初始化&#xff1a;#incl…

数据库管理系统——数据库设计

摘要&#xff1a;本博客讲解了数据库管理系统中的数据库设计相关内容&#xff0c;包括概念结构设计&#xff1a;E-R模型&#xff0c;逻辑结构设计&#xff1a;E-R模型到关系设计等内容。 目录 一、数据库设计和数据模型 1.1.数据库设计概述 1. 2.数据库结构概述 1.3.数据库…

Pytorch | 从零构建AlexNet对CIFAR10进行分类

Pytorch | 从零构建AlexNet对CIFAR10进行分类 CIFAR10数据集AlexNet网络结构技术创新点性能表现影响和意义 AlexNet结构代码详解结构代码代码详解特征提取层 self.features分类部分self.classifier前向传播forward 训练过程和测试结果代码汇总alexnet.pytrain.pytest.py CIFAR1…

C++ 杨辉三角 - 力扣(LeetCode)

点击链接即可产看题目&#xff1a;118. 杨辉三角 - 力扣&#xff08;LeetCode&#xff09; 一、题目 给定一个非负整数 numRows&#xff0c;生成「杨辉三角」的前 numRows 行。 在「杨辉三角」中&#xff0c;每个数是它左上方和右上方的数的和。 示例 1: 输入: numRows 5 输出…

【JetPack】WorkManager笔记

WorkManager简介&#xff1a; WorkManager 是 Android Jetpack 库中的一个重要组件。它用于处理那些需要在后台可靠执行的任务&#xff0c;这些任务可以是一次性的&#xff0c;也可以是周期性的&#xff0c;甚至是需要满足特定条件才执行的任务。例如&#xff0c;它可以用于在后…

GTID详解

概念和组成 1&#xff0c;全局事务表示&#xff1a;global transaction identifiers 2, GTID和事务一一对应&#xff0c;并且全局唯一 3&#xff0c;一个GTID在一个服务器上只执行一次 4&#xff0c;mysql 5.6.5开始支持 组成 GTID server_uuid:transaction_id 如&#xf…

常耀斌:深度学习和大模型原理与实战(深度好文)

目录 机器学习 深度学习 Transformer大模型架构 人工神经元网络 卷积神经网络 深度学习是革命性的技术成果&#xff0c;有利推动了计算机视觉、自然语言处理、语音识别、强化学习和统计建模的快速发展。 深度学习在计算机视觉领域上&#xff0c;发展突飞猛进&#xff0c;…

vsCode怎么使用vue指令快捷生成代码

1.下载Vetur插件 2.在文件-首选项-配置代码片段中找到vue.json文件 &#xff08;注&#xff1a;旧版本的编辑器路径为文件-首选项-用户片段&#xff09; 3.在打开的配置代码片段弹窗中搜索vue.json&#xff0c;找到并打开 &#xff08;注&#xff1a;如果搜不到的话就按住鼠标…