【NLP】文本分类

n-gram 的局限性

n-gram 只能对于填空这样的通顺性问题做出推测,但是没有办法完全解决句子的语义问题,从而无法实现文本的分类
文本的分类,就是将文本在语义的理解下划分到特定的主题下

手工规则

如一些垃圾过滤系统,需要人工制定规则
准确率往往很高,但是维护规则的成本很大

机器学习

本质上就是学习一个文档到文档类别的映射函数,需要人工分好类的文本作为训练数据,所以是有监督学习
分为学习器和分类器,学习器学习手工标注的数据集并输出训练好的分类器,分类器对于实际需要分类的文档进行分类,选择对应的文档类别进行输出

Step1 预处理

依据文本的具体形式来确定:

  1. 去除 HTML 标签
  2. Stop-words 停用词:高频的词如冠词,介词往往包含着较少的信息
  3. Word stemming 词干:词的后缀与变形处理,将具有相同词义的词进行合并

Step2 文本表示

什么是最好的文本表示方法?

最常用的一种文本表示方法:VSM

VSM(vector space model 向量空间模型)
将文本表示为由词条构成的向量,理论上假设词条之间互相独立,文本可以认为是一种词的集合(词袋)
e.g.在一段文章中按照词频统计出现最多的词,然后进行相关分类
建立文档词条矩阵 A = ( a i k ) A=(a_{ik}) A=(aik)
每个文档表示为由词构成的列向量
a i k a_{ik} aik表示词 k 在文档 i 中的权重
引入符号:
(1) f i k f_{ik} fik词条 k 在文档 i 中出现的次数
(2) n k n_{k} nk词条 k 在文档集合中出现的总次数
(3)N 文档集合包含的文档个数
(4)M 预处理后文档集合包括的词条个数

词的权重

布尔权重:如果词在文档中出现,权重为 1,否则为 0
词条频次权重:使用词条在文档中出现的次数作为权重
逆文档频次:考虑包含某词条的文档个数, α ∝ 1 n k \alpha \propto \frac{1}{n_k} αnk1
tf * idf 权重:同时考虑词条频次和逆文档频次, α i k = f i k log ⁡ ( N n k ) \alpha_{ik} = f_{ik}\log (\frac{N}{n_k}) αik=fiklog(nkN)
tfc 权重:在 tf-idf 基础上对文档长度进行正则化
α i k = f i k log ⁡ ( N n k ) ∑ j = 1 M [ f i j log ⁡ ( N n j ) ] 2 \alpha_{ik} = \frac{f_{ik}\log (\frac{N}{n_k})}{\sqrt{\sum\limits_{j=1}^M[f_{ij}\log (\frac{N}{n_j})]^2}} αik=j=1M[fijlog(njN)]2 fiklog(nkN)
ltc 权重:将词条频次进行对数化处理,减少绝对频次的巨大差异可能带来的影响
f i k f_{ik} fik f i j f_{ij} fij换成 log ⁡ ( f i k + 1 ) \log(f_{ik}+1) log(fik+1) log ⁡ ( f i j + 1 ) \log(f_{ij}+1) log(fij+1)
熵权重:
对于一个词条 k,其信息熵为 1 + 1 log ⁡ ( N ) ∑ j = 1 N f j k n k log ⁡ ( f j k n k ) 1+\frac{1}{\log (N)}\sum\limits_{j=1}^N\frac{f_{jk}}{n_k}\log (\frac{f_{jk}}{n_k}) 1+log(N)1j=1Nnkfjklog(nkfjk)
特殊情况时,如果在所有文档中出现的频数相等,则熵为-1;如果只在一个文档中出现,则熵为 0
熵权重就是在词条的信息熵前乘上对数化词条频次
log ⁡ ( f i k + 1 ) ∗ ( 1 + 1 log ⁡ ( N ) ∑ j = 1 N f j k n k log ⁡ ( f j k n k ) ) \log(f_{ik}+1)*(1+\frac{1}{\log (N)}\sum\limits_{j=1}^N\frac{f_{jk}}{n_k}\log (\frac{f_{jk}}{n_k})) log(fik+1)(1+log(N)1j=1Nnkfjklog(nkfjk))

Step3 分类模型

最近邻分类器

定义两个样本点之间的距离函数,并将新的样本划分到距离其最近的样本所在的类别中
问题:容易过度拟合数据,比如将错误的数据或者噪声按照定义分类进了对应的组,或是由于其最近邻是噪声而错误分类到了原本不属于新数据的组别

k 近邻分类器

k-nearest neighbour classifier(KNN)
为一个新样本点找到最近的 k 个近邻,然后将其划分到这 k 个中所属最多的类别中
训练过程:
给定一个需要训练的实例 x n x_n xn,选出对应 k 个最近实例,返回 y ^ ( x q ) ← arg ⁡ max ⁡ v ∈ V ∑ i = 1 k γ ( v , y ( x i ) ) \hat y(x_q) \leftarrow \arg \max\limits_{v\in V}\sum\limits^k_{i=1}\gamma(v,y(x_i)) y^(xq)argvVmaxi=1kγ(v,y(xi))
其中 V 为各点对应的集合, γ ( a , b ) \gamma(a,b) γ(a,b)只有在 a=b 时等于 1,else 等于 0
red:k 不可以太高也不可以太低
可以采用验证集来选择合适的 k,距离计算可以采用欧式距离或者余弦距离,采用树结构或者压缩近邻来储存数据
以下是一个较准确的余弦距离说明:
https://blog.csdn.net/hy592070616/article/details/122271927

朴素贝叶斯

通过先验事件的知识来预测未来事件
p ( c k ∣ x i ) = p ( x i ∣ c k ) p ( c k ) p ( x i ) p(c_k|x_i)=\frac{p(x_i|c_k)p(c_k)}{p(x_i)} p(ckxi)=p(xi)p(xick)p(ck)
xi 是 training data,ck 是 hypothesis,那么 p(xi|ck)就是预测可能性
具有条件独立性,即 p ( x 1 , x 2 ∣ c ) = p ( x 1 ∣ c ) × p ( x 2 ∣ c ) p(x_1,x_2|c) = p(x_1|c)\times p(x_2|c) p(x1,x2c)=p(x1c)×p(x2c)

以邮件分类为例

已有训练数据:训练文章 X i X_i Xi,n 种文章种类 c k c_k ck,所有文章中共包括 M 个词,每个词 在第n 个种类下的个数 t i j = t 11 → t n m t_{ij} = t_{11} \to t_{nm} tij=t11tnm
1

给定一个 email xi,由最大化后验概率:
c ^ = arg ⁡ max ⁡ k ( p ( c k ∣ x i ) ) = arg ⁡ max ⁡ k ( p ( c k ) p ( x i ∣ c k ) p ( x i ) ) \hat c=\arg \max_k (p(c_k|x_i))=\arg \max_k (\frac{p(c_k)p(x_i|c_k)}{p(x_i)}) c^=argmaxk(p(ckxi))=argmaxk(p(xi)p(ck)p(xick))
= arg ⁡ max ⁡ k ( p ( c k ) p ( x i ∣ c k ) ) = arg ⁡ max ⁡ k ( log ⁡ p ( c k ) + log ⁡ p ( x i ∣ c k ) ) =\arg \max_k (p(c_k)p(x_i|c_k))=\arg \max_k(\log p(c_k)+\log p(x_i|c_k)) =argmaxk(p(ck)p(xick))=argmaxk(logp(ck)+logp(xick))
= arg ⁡ max ⁡ k ( log ⁡ p ( c k ) + log ⁡ ∏ j = 1 M p ( t j ∣ c k ) n i j ) =\arg \max_k(\log p(c_k)+\log \prod\limits_{j=1}^M p(t_j|c_k)^{n_{ij}}) =argmaxk(logp(ck)+logj=1Mp(tjck)nij)
nij 就是词tj 在 email xi 中的个数
根据朴素贝叶斯假设,email类别与词的出现位置无关
已知类别 ck 时 tj 出现的概率
2

可能存在的问题:数据稀疏&过拟合
使用 laplace 平滑: P ^ = N ( X i = x i , C = c i ) + 1 N ( C = c i ) + k \hat P = \frac{N(X_i = x_i,C=c_i)+1}{N(C=c_i)+k} P^=N(C=ci)+kN(Xi=xi,C=ci)+1

Step4 评价指标

一般评价

使用训练集进行训练,使用测试集进行测试,在测试集上的准确度来描述模型的准确度

n 倍交叉验证

把数据分成不交叉的五等分,其中一份做测试,另外四份做训练,独立的进行五轮,将这五轮的平均性能作为模型的性能

保留测试

在训练集进行训练,在验证集调整参数,在测试集进行模型评价

混淆矩阵

3
4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/329449.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker部署springboot包并联通MySQL

Docker部署jar 实现功能 部署springboot下发布的jar包不同docker容器之间通信(如MySQL访问、Redis访问)多个jar包部署 参考文献 Just a moment… Just a moment… https://www.jb51.net/article/279449.htm springboot配置 这里使用多yaml配置文件&…

如何在go项目中实现发送邮箱验证码、邮箱+验证码登录

前期准备 GoLand :2024.1.1 下载官网:https://www.jetbrains.com/zh-cn/go/download/other.html Postman: 下载官网:https://www.postman.com/downloads/ 效果图(使用Postman) Google: QQ: And …

自动驾驶决策规划——坐标转换

以下内容来自b站up主忠厚老实的老王,视频链接:自动驾驶决策规划算法序章 总纲与大致目录_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1hP4y1p7es/?spm_id_from333.999.0.0&vd_sourced36e625f376908cfa88ef5ecf2fb0ed8侵删。 决策规划算法…

mysql存储比特位

一、介绍 二、SQL CREATE TABLE bits_table (id INT PRIMARY KEY AUTO_INCREMENT,bit_value BIGINT UNSIGNED );-- 插入一个 8 位的 BIT 值 INSERT INTO bits_table (bit_value) VALUES (B10101010);-- 查询并格式化输出 SELECT id,bit_value,CONCAT(b, LPAD(BIN(bit_value),…

C++——动态规划

公共子序列问题 ~待补充 最长公共子序列 对于两个字符串A和B,A的前i位和B的前j位的最大公共子序列必然是所求解的一部分,设dp[i][j]为串A前i位和B串前j位的最长公共子序列的长度,则所求答案为dp[n][m],其中n,m分别为…

【linux】进程(一)

1. 冯诺依曼体系结构 计算机基本都遵循着冯诺依曼体系 我们使用的计算器是由一个个硬件构成的: 中央控制器(CPU) : 运算器 控制器 等输入设备 : 键盘,鼠标,网卡 等输出设备 : 显示器,网卡 等…

Python概述

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 了解Python Python,本义是指“蟒蛇”。1989年,荷兰人Guido van Rossum发明了一种面向对象的解释型高级编程语言,…

[数据集][目标检测]弹簧上料检测数据集VOC+YOLO格式142张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):142 标注数量(xml文件个数):142 标注数量(txt文件个数):142 标注类别…

实现本地访问云主机,以及在云主机搭建FTP站点

前言 云计算是一种基于互联网的计算模式,通过网络提供按需访问的计算资源和服务。核心概念是把计算能力视作一种公共资源,用户可以根据自身需求动态分配和管理这些资源。 云主机 ECS (Elastic Compute Server)是一种按需获取的云端服务器,提…

ArrayList和LinkedList的使用

ArrayList List<> list new ArrayList<>(); LinkedList

树的非递归遍历(层序)

层序是采用队列的方式来遍历的 就比如说上面这颗树 他层序的就是&#xff1a;1 24 356 void LevelOrder(BTNode* root) {Que q;QueueInit(&q);if (root){QueuePush(&q, root);}while (!QueueEmpty(&q)){BTNode* front QueueFront(&q);QueuePop(&q);print…

二十五、openlayers官网示例CustomOverviewMap解析——实现鹰眼地图、预览窗口、小窗窗口地图、旋转控件

官网demo地址&#xff1a; Custom Overview Map 这个示例展示了如何在地图上增加一个小窗窗口的地图并跟随着地图的旋转而旋转视角。 首先加载了一个地图。其中 DragRotateAndZoom是一个交互事件&#xff0c;它可以实现按住shift键鼠标拖拽旋转地图。 const map new Map({int…

家政预约小程序05服务管理

目录 1 设计数据源2 后台管理3 后端API4 调用API总结 家政预约小程序的核心是展示家政公司提供的各项服务的能力&#xff0c;比如房屋维护修缮&#xff0c;家电维修&#xff0c;育婴&#xff0c;日常保洁等。用户在选择家政服务的时候&#xff0c;价格&#xff0c;评价是影响用…

深度学习之基于Tensorflow卷积神经网络脑肿瘤分类识别系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 脑肿瘤是医学领域的一个重要问题&#xff0c;对人类的健康构成了严重威胁。传统的脑肿瘤分类识别方法…

MVVM_MVVMLight架构

介绍 MVVMLight是一个实现MVVM模式的轻量级框架&#xff08;相对于Prism&#xff09;&#xff0c;能够更好的帮助我们开发WPF Windows Phone、Windows 8、SilverLight相关项目。 安装 在NuGet 工具箱上搜索MVVMLight进行下载 下载后它帮你生成ViewModel文件夹&#xff0c;里面…

顶顶通呼叫中心中间件-自动外呼输入分机号(比如隐私号)(mod_cti基于FreeSWITCH)

顶顶通呼叫中心中间件-自动外呼输入分机号(比如隐私号)(mod_cti基于FreeSWITCH) 比如有些人的号码是这样的就需要用上自动外呼输入分机号了 号码1&#xff1a;182XXXX8111-1234 号码2&#xff1a;182XXXX8222 如果号码是这样的就根据以下步骤配置 注意使用这个需要&#xff1a;…

web4.0-元宇宙虚拟现实

互联网一直在不断演变和改变我们的生活方式&#xff0c;从Web逐渐 1.0时代的静态网页到Web 2.0时代的社会性和内容制作&#xff0c;再从Web逐渐 在3.0阶段&#xff0c;互联网发展一直推动着大家时代的发展。如今&#xff0c;大家正站在互联网演化的新起点上&#xff0c;迈入Web…

k8s pv 一直是release状态

如下图所示&#xff0c;pv 一直是release状态 这个时候大家可能就会想到现在我的 PVC 被删除了&#xff0c;PV 也变成了 Released 状态&#xff0c;那么我重建之前的 PVC 他们不就可以重新绑定了&#xff0c;事实并不会&#xff0c;PVC 只能和 Available 状态的 PV 进行绑定。…

OpenAI宫斗剧番外篇: “Ilya与Altman联手对抗微软大帝,扫除黑恶势力”,“余华”和“莫言”犀利点评

事情是这样的。 小编我是一个重度的智谱清言用户&#xff0c;最近智谱清言悄悄上线了一个“划词引用”功能后&#xff0c;我仿佛打开了新世界的大门。我甚至用这个小功能&#xff0c;玩出来了即将为你上映的《OpenAI宫斗剧番外篇》。 3.5研究测试&#xff1a;hujiaoai.cn 4研…