基于多种机器学习算法的短信垃圾分类模型

文章目录

      • ==有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主==
      • 导入第三方库
      • 读取数据
      • 数据预处理
      • 数据分析与可视化
      • 机器学习建模
      • 贝叶斯
      • 逻辑回归
      • 支持向量机
      • 随机森林
      • XGBoost
      • 总结
      • 每文一语

有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主

导入第三方库

import warnings  # 导入警告库
warnings.filterwarnings("ignore")  # 忽略所有警告信息import string  # 导入字符串处理模块
import numpy as np  # 导入NumPy库,用于数组和矩阵运算
import pandas as pd  # 导入Pandas库,用于数据分析
import re  # 导入正则表达式模块
import matplotlib.pyplot as plt  # 导入matplotlib库,用于数据可视化
import seaborn as sns  # 导入Seaborn库,用于数据可视化
from nltk.corpus import stopwords  # 从NLTK库导入停用词
from plotly import graph_objs as go  # 导入Plotly库的图形对象
from plotly import express as px  # 导入Plotly Express模块,用于简化数据可视化
from plotly import figure_factory as ff  # 导入Plotly的图形工厂模块
from collections import Counter  # 导入Counter模块,用于计数
from PIL import Image  # 导入Python Imaging Library,用于处理图像
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator  # 导入词云生成模块
# ! pip install bs4  # 安装BeautifulSoup4库
from bs4 import BeautifulSoup  # 导入BeautifulSoup库,用于解析HTML和XMLfrom sklearn.model_selection import train_test_split  # 导入数据划分模块
from sklearn.preprocessing import LabelEncoder  # 导入标签编码器
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score  # 导入评估指标模块
from sklearn.linear_model import LogisticRegression  # 导入逻辑回归模型
from sklearn import svm  # 导入支持向量机模块
from sklearn.ensemble import RandomForestClassifier  # 导入随机森林分类器
from sklearn.ensemble import GradientBoostingClassifier  # 导入梯度提升分类器
from sklearn.neighbors import KNeighborsClassifier  # 导入K近邻分类器
from sklearn.feature_extraction.text import CountVectorizer  # 导入计数向量化模块
from sklearn import metrics  # 导入评估指标模块
from sklearn.naive_bayes import MultinomialNB  # 导入多项式朴素贝叶斯分类器
from sklearn.feature_extraction.text import CountVectorizer  # 导入计数向量化模块(重复)from string import punctuation  # 导入标点符号
from nltk.tokenize.toktok import ToktokTokenizer  # 导入Toktok分词器
from nltk import pos_tag  # 导入词性标注模块
from nltk.corpus import wordnet  # 导入词汇数据库
from nltk.stem.porter import PorterStemmer  # 导入Porter词干提取器
from nltk.corpus import stopwords  # 从NLTK库导入停用词(重复)
primary_blue = "#496595"  # 定义主要的蓝色十六进制代码
primary_blue2 = "#85a1c1"  # 定义第二种主要的蓝色十六进制代码
primary_blue3 = "#3f4d63"  # 定义第三种主要的蓝色十六进制代码
primary_grey = "#c6ccd8"   # 定义主要的灰色十六进制代码

读取数据

在这里插入图片描述

数据预处理

在这里插入图片描述

数据分析与可视化

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

机器学习建模

贝叶斯

在这里插入图片描述在这里插入图片描述

逻辑回归

在这里插入图片描述在这里插入图片描述

支持向量机

在这里插入图片描述在这里插入图片描述

随机森林

在这里插入图片描述
在这里插入图片描述

XGBoost

在这里插入图片描述在这里插入图片描述

总结

本项目是一个基于多种机器学习的自然语言处理项目,通过对邮件的文本进行预处理,然后分词,转换为词向量,在进行多维度的EDA分析,最终采用多种机器学习的模型算法对其进行建模,评估。通过分类报告,ROC曲线,AUC面积,混淆矩阵,以及在线验证程序进行展示,来凸显出大数据和人工智能算法结合的语言判别模型的优势

每文一语

业精于勤荒于嬉

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/387644.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis集群三种模式

redis 集群 高可用 redis集群三种模式 主从复制 奇数台 3 一主两从 哨兵模式 3 一主两从 cluser 集群 6 3 3 3 9 主从复制:和mysql的主从复制类似,写入主的数据通过rdb方式把数据同步到从服务器。从不能更新到主,…

未来不会使用 AI 的人真的会被淘汰吗?

AI 是今年大火的一个话题,随着 ChatGPT 之类的一系列大模型开始流行以后,有不少的培训机构宣称这样的口号: “未来不会使用 AI 的人将会被淘汰”。我觉得这个观点本身并没有错,但是关键在于那些培训机构出于自身的利益,故意忽略了…

内存问题检测

内存检测方式 gcc/g 内存检测方式如下,添加一些编译标签: -fsanitizeleak 检测内存泄漏。例如添加标签:-fsanitizeleak -g -O0-fsanitizeaddress 检测内存越界。例如添加标签:-fsanitizeaddress -g -O2,优化级别开…

02 I/O多路复用---进程的聊天

服务器同时和很多客户端连在一起 管道的read,总是能读出来

前后端分离开发遵循接口规范-YAPI

目前,网站主流开发方式是前后端分离。因此前后端必须遵循一套统一的规范,才能保证前后端进行正常的数据(JSON数据格式)请求、影响,这套规范即是 YAPI. 产品经理撰写原型; 前端或后端撰写接口文档。 YAPI…

Android高级interview

一、Android基础知识 1、四大组件、六大布局、五大存储 四大组件: activity、service、content provider、broadcast六大布局(现在是 7 大了): 线性布局(LinearLayout)相对布局(RelativeLayout&#xf…

替换后端国外身份目录服务,宁盾身份域管接管FileNet助力国产化升级

IBM FileNet 是一款优秀的企业内容管理解决方案,为客户提供了领先的文档管理和流程管理集成环境,被大量企业所采用。FileNet 需要使用企业级的目录服务器(LDAP)作为其用户管理系统,满足其认证和授权的需求。对于 LDAP …

成为git砖家(4): git status 命令简介

1. untracked 和 tracked 状态 Remember that each file in your working directory can be in one of two states: tracked or untracked. Tracked files are files that were in the last snapshot, as well as any newly staged files; they can be unmodified, modified, o…

zabbix使用脚本自定义监控项

1. 在zabbix_agent的配置文件中配置自定义key和脚本位置 vim /etc/zabbix/zabbix_agentd.confUserParametermq_check_log,/etc/zabbix/zabbix_agentd.d/mqlog.shmq_check_log:是这个自定义参数的名称。在Zabbix的监控项(item)配置中&#xf…

点菜吧——随便点 C#生成套餐

前言 一到食堂发现有多种选择,但是有一个固定的套路,只能是一个荤,二个小荤,菜品数量也不少,任君选择,如果是一个选择困难症,就有点烦了,所以出品这个自动生成套餐软件。各位老板可…

代码随想录算法训练营Day 63| 图论 part03 | 417.太平洋大西洋水流问题、827.最大人工岛、127. 单词接龙

代码随想录算法训练营Day 63| 图论 part03 | 417.太平洋大西洋水流问题、827.最大人工岛、127. 单词接龙 文章目录 代码随想录算法训练营Day 63| 图论 part03 | 417.太平洋大西洋水流问题、827.最大人工岛、127. 单词接龙17.太平洋大西洋水流问题一、DFS二、BFS三、本题总结 82…

在手机查看笔记本电脑上的便签 笔记本电脑和手机共享便签方法

在这个信息时代,笔记本电脑已成为我们工作和学习中不可或缺的工具。我经常在笔记本上记录各种便签,无论是工作中的待办事项,还是生活中的小提醒,都依赖于这些小小的便签。它们轻便、灵活,可以随时随地提醒我接下来要做…

TongHttpServer 简介

1. 概述 随着网络技术的飞速发展,高并发大用户场景越来越普遍,单一应用服务节点已经不能满足并发需求,为了提高整个系统可靠性,扩展性,吞吐率,通常将多个应用服务器通过硬负载/软负载组成集群,负载均衡器根据不同负载算法将请求分发到各个应用服务器节点。 Tong…

花几千上万学习Java,真没必要!(三十六)

1、File类: 测试代码1: package filetest.com; import java.io.File; import java.io.IOException; public class FileOperations { public static void main(String[] args) { // 创建新文件File file new File("example.txt"); tr…

Prometheus+Grafana+Alertmanager监控告警

PrometheusGrafanaAlertmanager告警 Alertmanager开源地址:github.com/prometheus Prometheus是一款基于时序数据库的开源监控告警系统,它是SoundCloud公司开源的,SoundCloud的服务架构是微服务架构,他们开发了很多微服务&#xf…

TCP为什么需要四次挥手?

tcp为什么需要四次挥手? 答案有两个: 1.将发送fin包的权限交给被动断开方的应用层去处理,也就是让程序员处理 2.接第一个答案,应用层有了发送fin的权限,可以在发送fin前继续向对端发送消息 为了搞清楚这个问题&…

前端开发知识-vue

大括号里边放键值对,即是一个对象。 一、vue可以简化前端javascript的操作。 主要特点是可以实现视图、数据的双向绑定。 使用vue主要分为三个步骤: 1.javascript中引入vue.js 可以src中可以是vue的网址,也可以是本地下载。 2.在javasc…

网络爬虫必备工具:代理IP科普指南

文章目录 1. 网络爬虫简介1.1 什么是网络爬虫?1.2 网络爬虫的应用领域1.3 网络爬虫面临的主要挑战 2. 代理IP:爬虫的得力助手2.1 代理IP的定义和工作原理2.2 爬虫使用代理IP的必要性 3. 代理IP的类型及其在爬虫中的应用3.1 动态住宅代理3.2 动态数据中心…

数据挖掘-数据预处理

来自🥬🐶程序员 Truraly | 田园 的博客,最新文章首发于:田园幻想乡 | 原文链接 | github (欢迎关注) 文章目录 3.3.1 数据的中心趋势平均数和加权平均数众数,中位数和均值描述数据的离散程度 &a…

【MySQL】用户管理连接池原理{数据库权限/连接池/mysql访问逻辑}

文章目录 1.普通用户的引入用户创建用户删除用户修改用户密码 2.数据库的权限给用户授权回收权限实操过程 3.简略介绍mysql连接池3.一个用户注册/登录/使用网页版mysql逻辑 1.普通用户的引入 用户 MySQL中的用户,都存储在系统数据库mysql的user表中 mysql> use…