【NLP】2. TF-IDF(Log 形式)

TF-IDF(Log 形式)

TF-IDF(Term Frequency-Inverse Document Frequency) 是一种用于衡量文本中单词重要性的统计方法。在 Log 形式 下,TF 和 IDF 可以使用对数变换来平滑数据,减少极端值的影响。

1. TF(Term Frequency)— 词频

TF 衡量单词在文档中的出现频率,常见的对数变换形式为:
T F ( t , d ) = 1 + log ⁡ 10 ( f t , d ) TF(t, d) = 1 + \log_{10}(f_{t,d}) TF(t,d)=1+log10(ft,d)
其中:
f t , d f_{t,d} ft,d

  • 表示词 ( t ) 在文档 ( d ) 中出现的次数。
  • 取对数是为了减少频率过大的词对模型的影响。

如果 ( f_{t,d} = 0 ),则通常令 ( TF(t, d) = 0 ) 以避免对数计算问题。

2. IDF(Inverse Document Frequency)— 逆文档频率

IDF 衡量单词在整个语料库中的重要性,公式:
I D F ( t ) = log ⁡ 10 ( N D F t ) IDF(t) = \log_{10}\left(\frac{N}{DF_t}\right) IDF(t)=log10(DFtN)
或加 1 平滑:
I D F ( t ) = log ⁡ 10 ( 1 + N D F t ) IDF(t) = \log_{10}\left(1 + \frac{N}{DF_t}\right) IDF(t)=log10(1+DFtN)
其中:

  • ( N ) 是文档总数。
  • ( DF_t ) 是包含单词 ( t ) 的文档数。
  • 取对数是为了降低高频词(如 “the”、“is”)的影响。

3. TF-IDF 计算

T F - I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t) TF-IDF(t,d)=TF(t,d)×IDF(t)

带入 Log 形式:
T F - I D F ( t , d ) = ( 1 + log ⁡ f t , d ) × log ⁡ ( N D F t ) TF\text{-}IDF(t, d) = \left(1 + \log f_{t,d} \right) \times \log\left(\frac{N}{DF_t}\right) TF-IDF(t,d)=(1+logft,d)×log(DFtN)
或者带 1 平滑:
T F - I D F ( t , d ) = ( 1 + log ⁡ f t , d ) × log ⁡ ( 1 + N D F t ) TF\text{-}IDF(t, d) = \left(1 + \log f_{t,d} \right) \times \log\left(1 + \frac{N}{DF_t}\right) TF-IDF(t,d)=(1+logft,d)×log(1+DFtN)

4. 例子

假设有一个包含 1000 篇文章的语料库,某个词 “machine” 在其中 50 篇文章中出现,在某篇文章 ( d ) 里出现了 5 次。

  • 计算 TF(取 log 变换)
    T F ( "machine" , d ) = 1 + log ⁡ ( 5 ) = 1 + 0.699 = 1.699 TF(\text{"machine"}, d) = 1 + \log(5) = 1 + 0.699 = 1.699 TF("machine",d)=1+log(5)=1+0.699=1.699

  • 计算 IDF
    I D F ( "machine" ) = log ⁡ ( 1000 50 ) = log ⁡ ( 20 ) = 1.301 IDF(\text{"machine"}) = \log\left(\frac{1000}{50}\right) = \log(20) = 1.301 IDF("machine")=log(501000)=log(20)=1.301

  • 计算 TF-IDF
    T F - I D F ( "machine" , d ) = 1.699 × 1.301 = 2.21 TF\text{-}IDF(\text{"machine"}, d) = 1.699 \times 1.301 = 2.21 TF-IDF("machine",d)=1.699×1.301=2.21

5. 什么时候用 Log 形式?

  • 词频分布通常高度偏斜,log 变换可以减少常见词的影响,使其更加平滑。
  • 适用于长文本,避免某些高频词主导评分。
  • 防止过拟合,尤其是在使用 TF-IDF 进行文本分类时。

总结

使用 Log 形式的 TF-IDF,可以通过对数缩放降低极端值的影响,使得文档中的常见单词不过度主导评分,从而提高文本表示的质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33926.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Devops CI/CD

Devops CI/CD DevOps 中的 CI/CD:持续集成与持续部署的深度解析一、CI/CD 基本概念(一)持续集成(二)持续部署 二、CI/CD 实施步骤(一)版本控制(二)自动化构建&#xff08…

leetcode105为什么可以root.left可以截取到前序遍历二叉树的(0,index),而不是(1,index+1)

这里以105前序和中序遍历构造二叉树为例,106同理 原因在于preoder.shift()会改变原数组,已经把preoder的第一个队头元素已经排除出去了!!! 306题中的截取后续遍历中用pop()同理

数据结构---堆栈和列

一、堆栈 1.栈堆:具有一定操作约束的线性表;(只在一端做插入删除) 2.栈的顺序存储结构: 由一个一维数组和一个记录栈顶元素位置的变量组成。定义方式如下: 3.入栈操作: 注意:&…

golang快速上手基础语法

变量 第一种,指定变量类型,声明后若不赋值,使用默认值0 package mainimport "fmt"func main() {var a int //第一种,指定变量类型,声明后若不赋值,使用默认值0。fmt.Printf(" a %d\n"…

【idea代码ai插件】利用接入硅基流动的deepseekR1的api在idea里实现问答,辅助写代码

注册硅基流动账号 https://siliconflow.cn/zh-cn/ 然后新建api密钥,这里的api密钥可以点击复制,等会输入要用 可以看到现在新注册是有额度的,你们应该是14元 模型广场这里可以调用deepseek的v3和r1,注意因为是蹭,赠…

NO.42十六届蓝桥杯备战|数据结构|算法|时间复杂度|空间复杂度|STL(C++)

数据结构 什么是数据结构 在计算机科学中,数据结构是⼀种数据组织、管理和存储的格式。它是相互之间存在⼀种或多种特定关系的数据元素的集合。 说点通俗易懂的话,数据结构就是数据的组织形式,研究的就是把数据按照何种形式存储在计算机中 …

【CSS3】化神篇

目录 平面转换平移旋转改变旋转原点多重转换缩放倾斜 渐变线性渐变径向渐变 空间转换平移视距旋转立体呈现缩放 动画使现步骤animation 复合属性animation 属性拆分逐帧动画多组动画 平面转换 作用:为元素添加动态效果,一般与过渡配合使用 概念&#x…

Keepalived高可用架构实战:从安装配置到高级应用详解

一.架构 用户空间核心组件: vrrp stack:VIP 消息通信checkers:监测 Real Serversystem call:实现 vrrp 协议状态转换时调用相关本地功能SMTP:邮件组件IPVS wrapper:生成 IPVS 规则Netlink Reflector&…

Linux:利用System V系列的-共享内存,消息队列实现进程间通信

对于管道的进程间通信方式,需要频繁的调用系统调用(read,write)。而我们今天首先要介绍的共享内存,在开辟好空间之后,便可以跳过系统调用,直接进行读写操作。 一.System V共享内存(主要) 共享内存区是最快的IPC形式。一旦这样的内…

不像人做的题————十四届蓝桥杯省赛真题解析(上)A,B,C,D题解析

题目A:日期统计 思路分析: 本题的题目比较繁琐,我们采用暴力加DFS剪枝的方式去做,我们在DFS中按照8位日期的每一个位的要求进行初步剪枝找出所有的八位子串,但是还是会存在19月的情况,为此还需要在CHECK函数…

宇树人形机器人开源模型

1. 下载源码 https://github.com/unitreerobotics/unitree_ros.git2. 启动Gazebo roslaunch h1_description gazebo.launch3. 仿真效果 H1 GO2 B2 Laikago Z1 4. VMware: vmw_ioctl_command error Invalid argument 这个错误通常出现在虚拟机环境中运行需要OpenGL支持的应用…

【C/C++算法】从浅到深学习--- 前缀和算法(图文兼备 + 源码详解)

绪论:冲击蓝桥杯一起加油!! 每日激励:“不设限和自我肯定的心态:I can do all things。 — Stephen Curry” 绪论​: 本章将使用八道题由浅到深的带你了解并基本掌握前缀和思想,以及前缀和的基…

脑电:时域分析(任务态)

时域分析:时间序列(时域信号) EEG和ERP都是时间序列 ERP:事件诱发的电位是随着时间变化 组水平:需要这一组的个体不能差异性太大。 提值的指标,选取平均幅值确定成分的显著情况 mean(EEG.data,3): 在第…

【C语言】自定义类型:结构体,联合,枚举(下)

前言;上一期我们侧重讲了一个非常重要的自定义类型结构体,这一期我们来说说另外两种自定义类型:联合,和枚举。 传送门:自定义类型:结构体,联合,枚举(上) 文章目录 一,联…

数组的介绍

1.数组的概念 数组是一组相同类型元素的集合,从这个描述中我们知道: 数组中存放1个或多个数据,但是数组的元素个数不为0。数组中存放的多个数据,类型是相同的。 数组分为一维数组和多维数组,多维数组一般比较多见的…

蓝桥杯 17110抓娃娃

问题描述 小明拿了 n 条线段练习抓娃娃。他将所有线段铺在数轴上,第 i 条线段的左端点在 li,右端点在 ri​。小明用 m 个区间去框这些线段,第 i个区间的范围是 [Li​, Ri​]。如果一个线段有 至少一半 的长度被包含在某个区间内,…

linux ptrace 图文详解(二) PTRACE_TRACEME 跟踪程序

目录 一、基础介绍 二、PTRACE_TRACE 实现原理 三、代码实现 四、总结 (代码:linux 6.3.1,架构:arm64) One look is worth a thousand words. —— Tess Flanders 一、基础介绍 GDB(GNU Debugger&…

记录致远OA服务器硬盘升级过程

前言 日常使用中OA系统突然卡死,刷新访问进不去系统,ping服务器地址正常,立马登录服务器检查,一看磁盘爆了。 我大脑直接萎缩了,谁家OA系统配400G的空间啊,过我手的服务器没有50也是30台,还是…

电网电压暂态扰动机理与工业设备抗失压防护策略研究

什么是晃电? 国标GB/T 30137-2013 中定义:工频电压方均根值突然降至额定值的90%~10%,持续时间为10ms~1min后恢复正常的现象。Acrel8757V 晃电的原因 1.系统侧因素 短路故障:雷击、线路接地、设备误碰等导致电网短路,故障点电压…

Linux监控网络状态

一、基本介绍 1、基本语法 netstat [选项] 2、常用选项 选项 说明 -a 显示所有连接和监听的套接字(包括TCP、UDP)。 -t 显示 TCP 连接。 -u 显示 UDP 连接。 -l 显示正在监听的套接字(server端)。 -n 显示数字格式的…