【NLP】2. TF-IDF（Log 形式）

【NLP】2. TF-IDF（Log 形式）

news/2025/3/17 14:02:23/文章来源:https://blog.csdn.net/weixin_48846514/article/details/146282589

TF-IDF（Log 形式）

TF-IDF（Term Frequency-Inverse Document Frequency） 是一种用于衡量文本中单词重要性的统计方法。在 Log 形式 下，TF 和 IDF 可以使用对数变换来平滑数据，减少极端值的影响。

1. TF（Term Frequency）— 词频

TF 衡量单词在文档中的出现频率，常见的对数变换形式为：
$TF(t, d) = 1 + \log_{10}(f_{t,d})$
其中：
$f_{t,d}$

表示词 ( t ) 在文档 ( d ) 中出现的次数。
取对数是为了减少频率过大的词对模型的影响。

如果 ( f_{t,d} = 0 )，则通常令 ( TF(t, d) = 0 ) 以避免对数计算问题。

2. IDF（Inverse Document Frequency）— 逆文档频率

IDF 衡量单词在整个语料库中的重要性，公式：
$\log_{10}\left(\frac{N}{DF_t}\right)$
或加 1 平滑：
$\log_{10}\left(1 + \frac{N}{DF_t}\right)$
其中：

( N ) 是文档总数。
( DF_t ) 是包含单词 ( t ) 的文档数。
取对数是为了降低高频词（如 “the”、“is”）的影响。

3. TF-IDF 计算

$TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t)$

带入 Log 形式：
$TF\text{-}IDF(t, d) = \left(1 + \log f_{t,d} \right) \times \log\left(\frac{N}{DF_t}\right)$
或者带 1 平滑：
$TF\text{-}IDF(t, d) = \left(1 + \log f_{t,d} \right) \times \log\left(1 + \frac{N}{DF_t}\right)$

4. 例子

假设有一个包含 1000 篇文章的语料库，某个词 “machine” 在其中 50 篇文章中出现，在某篇文章 ( d ) 里出现了 5 次。

计算 TF（取 log 变换）
$TF(\text{"machine"}, d) = 1 + \log(5) = 1 + 0.699 = 1.699$
计算 IDF
$IDF(\text{"machine"}) = \log\left(\frac{1000}{50}\right) = \log(20) = 1.301$
计算 TF-IDF
$TF\text{-}IDF(\text{"machine"}, d) = 1.699 \times 1.301 = 2.21$

5. 什么时候用 Log 形式？

词频分布通常高度偏斜，log 变换可以减少常见词的影响，使其更加平滑。
适用于长文本，避免某些高频词主导评分。
防止过拟合，尤其是在使用 TF-IDF 进行文本分类时。

总结

使用 Log 形式的 TF-IDF，可以通过对数缩放降低极端值的影响，使得文档中的常见单词不过度主导评分，从而提高文本表示的质量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/33926.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Devops CI/CD

Devops CI/CD

Devops CI/CD DevOps 中的 CI/CD：持续集成与持续部署的深度解析一、CI/CD 基本概念（一）持续集成（二）持续部署二、CI/CD 实施步骤（一）版本控制（二）自动化构建&#xff08…

阅读更多...

leetcode105为什么可以root.left可以截取到前序遍历二叉树的（0，index），而不是（1，index+1）

leetcode105为什么可以root.left可以截取到前序遍历二叉树的（0，index），而不是（1，index+1）

这里以105前序和中序遍历构造二叉树为例，106同理原因在于preoder.shift()会改变原数组，已经把preoder的第一个队头元素已经排除出去了！！！ 306题中的截取后续遍历中用pop（）同理

阅读更多...

数据结构---堆栈和列

数据结构---堆栈和列

一、堆栈 1.栈堆：具有一定操作约束的线性表；（只在一端做插入删除） 2.栈的顺序存储结构： 由一个一维数组和一个记录栈顶元素位置的变量组成。定义方式如下： 3.入栈操作： 注意：&…

阅读更多...

golang快速上手基础语法

golang快速上手基础语法

变量第一种，指定变量类型，声明后若不赋值，使用默认值0 package mainimport "fmt"func main() {var a int //第一种，指定变量类型，声明后若不赋值，使用默认值0。fmt.Printf(" a %d\n"…

阅读更多...

【idea代码ai插件】利用接入硅基流动的deepseekR1的api在idea里实现问答，辅助写代码

【idea代码ai插件】利用接入硅基流动的deepseekR1的api在idea里实现问答，辅助写代码

注册硅基流动账号 https://siliconflow.cn/zh-cn/ 然后新建api密钥，这里的api密钥可以点击复制，等会输入要用可以看到现在新注册是有额度的，你们应该是14元模型广场这里可以调用deepseek的v3和r1，注意因为是蹭，赠…

阅读更多...

NO.42十六届蓝桥杯备战|数据结构|算法|时间复杂度|空间复杂度|STL(C++)

NO.42十六届蓝桥杯备战|数据结构|算法|时间复杂度|空间复杂度|STL(C++)

数据结构什么是数据结构在计算机科学中，数据结构是⼀种数据组织、管理和存储的格式。它是相互之间存在⼀种或多种特定关系的数据元素的集合。说点通俗易懂的话，数据结构就是数据的组织形式，研究的就是把数据按照何种形式存储在计算机中 …

阅读更多...

【CSS3】化神篇

【CSS3】化神篇

目录平面转换平移旋转改变旋转原点多重转换缩放倾斜渐变线性渐变径向渐变空间转换平移视距旋转立体呈现缩放动画使现步骤animation 复合属性animation 属性拆分逐帧动画多组动画平面转换作用：为元素添加动态效果，一般与过渡配合使用概念&#x…

阅读更多...

Keepalived高可用架构实战：从安装配置到高级应用详解

Keepalived高可用架构实战：从安装配置到高级应用详解

一.架构用户空间核心组件： vrrp stack：VIP 消息通信checkers：监测 Real Serversystem call：实现 vrrp 协议状态转换时调用相关本地功能SMTP：邮件组件IPVS wrapper：生成 IPVS 规则Netlink Reflector&…

阅读更多...

Linux:利用System V系列的-共享内存,消息队列实现进程间通信

Linux:利用System V系列的-共享内存,消息队列实现进程间通信

对于管道的进程间通信方式，需要频繁的调用系统调用(read,write)。而我们今天首先要介绍的共享内存，在开辟好空间之后，便可以跳过系统调用，直接进行读写操作。一.System V共享内存(主要) 共享内存区是最快的IPC形式。一旦这样的内…

阅读更多...

不像人做的题————十四届蓝桥杯省赛真题解析（上）A，B，C，D题解析

不像人做的题————十四届蓝桥杯省赛真题解析（上）A，B，C，D题解析

题目A：日期统计思路分析： 本题的题目比较繁琐，我们采用暴力加DFS剪枝的方式去做，我们在DFS中按照8位日期的每一个位的要求进行初步剪枝找出所有的八位子串，但是还是会存在19月的情况，为此还需要在CHECK函数…

阅读更多...

宇树人形机器人开源模型

宇树人形机器人开源模型

1. 下载源码 https://github.com/unitreerobotics/unitree_ros.git2. 启动Gazebo roslaunch h1_description gazebo.launch3. 仿真效果 H1 GO2 B2 Laikago Z1 4. VMware: vmw_ioctl_command error Invalid argument 这个错误通常出现在虚拟机环境中运行需要OpenGL支持的应用…

阅读更多...

【C/C++算法】从浅到深学习--- 前缀和算法（图文兼备 + 源码详解）

【C/C++算法】从浅到深学习--- 前缀和算法（图文兼备 + 源码详解）

绪论：冲击蓝桥杯一起加油！！ 每日激励：“不设限和自我肯定的心态：I can do all things。 — Stephen Curry” 绪论： 本章将使用八道题由浅到深的带你了解并基本掌握前缀和思想，以及前缀和的基…

阅读更多...

脑电：时域分析(任务态)

脑电：时域分析(任务态)

时域分析：时间序列（时域信号） EEG和ERP都是时间序列 ERP：事件诱发的电位是随着时间变化组水平：需要这一组的个体不能差异性太大。提值的指标，选取平均幅值确定成分的显著情况 mean(EEG.data,3): 在第…

阅读更多...

【C语言】自定义类型：结构体，联合，枚举(下)

【C语言】自定义类型：结构体，联合，枚举(下)

前言；上一期我们侧重讲了一个非常重要的自定义类型结构体，这一期我们来说说另外两种自定义类型：联合，和枚举。传送门：自定义类型：结构体，联合，枚举(上) 文章目录一，联…

阅读更多...

数组的介绍

数组的介绍

1.数组的概念数组是一组相同类型元素的集合，从这个描述中我们知道： 数组中存放1个或多个数据，但是数组的元素个数不为0。数组中存放的多个数据，类型是相同的。数组分为一维数组和多维数组，多维数组一般比较多见的…

阅读更多...

$蓝桥杯 17110抓娃娃$

蓝桥杯 17110抓娃娃

问题描述小明拿了 n 条线段练习抓娃娃。他将所有线段铺在数轴上，第 i 条线段的左端点在 li，右端点在 ri。小明用 m 个区间去框这些线段，第 i个区间的范围是 [Li, Ri]。如果一个线段有至少一半的长度被包含在某个区间内，…

阅读更多...

linux ptrace 图文详解（二） PTRACE_TRACEME 跟踪程序

linux ptrace 图文详解（二） PTRACE_TRACEME 跟踪程序

目录一、基础介绍二、PTRACE_TRACE 实现原理三、代码实现四、总结 （代码：linux 6.3.1，架构：arm64） One look is worth a thousand words. —— Tess Flanders 一、基础介绍 GDB（GNU Debugger&…

阅读更多...

记录致远OA服务器硬盘升级过程

记录致远OA服务器硬盘升级过程

前言日常使用中OA系统突然卡死，刷新访问进不去系统，ping服务器地址正常，立马登录服务器检查，一看磁盘爆了。我大脑直接萎缩了，谁家OA系统配400G的空间啊，过我手的服务器没有50也是30台，还是…

阅读更多...

电网电压暂态扰动机理与工业设备抗失压防护策略研究

电网电压暂态扰动机理与工业设备抗失压防护策略研究

什么是晃电？ 国标GB/T 30137-2013 中定义:工频电压方均根值突然降至额定值的90%~10%，持续时间为10ms~1min后恢复正常的现象。Acrel8757V 晃电的原因 1.系统侧因素短路故障：雷击、线路接地、设备误碰等导致电网短路，故障点电压…

阅读更多...

Linux监控网络状态

Linux监控网络状态

一、基本介绍 1、基本语法 netstat [选项] 2、常用选项选项说明 -a 显示所有连接和监听的套接字（包括TCP、UDP）。 -t 显示 TCP 连接。 -u 显示 UDP 连接。 -l 显示正在监听的套接字（server端）。 -n 显示数字格式的…

阅读更多...

最新文章

推荐文章