NLP 笔记:Latent Dirichlet Allocation (介绍篇)

1 问题介绍

  • 假设我们有一堆新闻,每个新闻都有≥1个主题

  • 我们现在只知道新闻的内容,我们希望一个算法,帮我们把这些新闻分类成主题
  • 人类可以根据每个每个文章里面的单词判断主题,那计算机怎么做呢?
    • ——>LDA(Latent Dirichlet Allocation)

2 方法介绍 (生成文本角度)

  • LDA 创建一个“几何的”方法:假设我们有三个topic,他就创建一个三角,每个角是一个主题,然后将文件放进去,每个文件靠近他属于的那个角
    • 如果一个文件包括两个主题,那么他在三角形的边上;如果一个文件三个主题都囊括了,那就在三角形的中间

那么问题是,如何知道文件应该放在哪里呢?

我们可以把LDA看成是一个生产文件的机器,不同的配置下,他会生成不同的文件

  • 最好的setting,可以生成最接近于原始文件的内容,这个setting对应的主题,就是原始文件最有可能的主题

3方法介绍 (概率图角度)

  • 这个是LDA的概率图
    • 根据两个多项分布,获得一堆主题和一堆文字
    • 把单词连在一块就是文件

这就是生成文字W和主题Z的概率,后面四个是参数。' 

我们先按下不表,首先介绍一下迪利克雷分布

4 迪利克雷分布

4.1 场景假设:一个聚会

假设有一个聚会,黄色点是人,人可以出现在三角的任何位置

  • 现在在三个角上放了东西,人就往三个角移动了,这样就形成了迪利克雷分布

4.2 迪利克雷分布可视化

每个角的内容对应一个α

4.3 回到topic

此时每一个点是一个三维向量,表示分别是三个主题的一个的概率

4.4 概率的概率

  • 换言之,迪利克雷分布是“分布的分布”
  • 三角中的每一个点,就是一个多项分布

4.5 更多的topic时的迪利克雷分布

5 回到概率分布角度的LDA

这两个迪利克雷分布分别是:已知单词,问他是哪个topic;和已知topic,问他是哪个单词

5.1 LDA如何生成document

5.1.1 生成topic

  • 采样迪利克雷分布得到一个点(每个topic的概率)
    • ——>得到multinomial 分布
    • 然后采样这个多项分布,生成topic

5.1.2 根据topic 生成对应的word

这时候就需要另一个迪利克雷分布了

  • 每个topic对应了一个词汇分布(多项式分布)

把得到的词连起来,最终生成一个文件

5.2 找到最相似的article

最详细的article对应的两个迪利克雷分布,就是可能的topic对应的分布

5.3 总结

一个迪利克雷分布+多项式分布生成topic,另一个生成对应的单词

5.4 文件的长度

长度根据泊松分布采样

参考内容:Latent Dirichlet Allocation (Part 1 of 2) (youtube.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/291225.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wps表格怎么加一行详细介绍

刚接触wps表格的小伙伴肯定很多都不知道该怎么去操作吧,肯定也不知道怎么去加入一行来添加文字,为此我们带来了教程,帮助你们了解wps表格怎么加一行。 wps表格怎么加一行: 1、首先去打开wps软件,然后选中里面的行。 …

零基础入门转录组数据分析——绘制差异火山图

零基础入门转录组数据分析——绘制差异火山图 差异分析的火山图(Volcano Plot)在生物信息学数据分析中,特别是在基因表达差异分析中,是一个非常直观和有用的工具。 本教程将从导入的数据结构开始,一步步带大家在R中绘制好看的火山图,最后对火山图进行解读,确保读者理解…

Pandas操作MultiIndex合并行列的Excel,写入读取以及写入多余行及Index列处理,插入行,修改某个单元格的值,多字段排序

Pandas操作MultiIndex合并行列的excel,写入读取以及写入多余行及Index列处理,多字段排序尽量保持原来的顺序 1. 效果图及问题2. 源码参考 今天是谁写Pandas的 复合索引MultiIndex,写的糊糊涂涂,晕晕乎乎。 是我呀… 记录下&#…

夜晚水闸3D可视化:科技魔法点亮水利新纪元

在宁静的夜晚,当城市的霓虹灯逐渐暗淡,你是否曾想过,那些默默守护着城市安全的水闸,在科技的魔力下,正焕发出别样的光彩?今天,就让我们一起走进夜晚水闸3D模型,感受科技为水利带来的…

01_安装VMwareWorkstation虚拟机

环境:Win10 19045 软件版本:VMware-workstation-17.5.1 一、下载链接 Download VMware Workstation Pro 二、安装(无脑下一步) 安装位置自选,最好非系统盘。 增强型键盘驱动自选。 更新自选。 快捷方式自选。 三、…

Spark-Scala语言实战(7)

在之前的文章中,我们学习了如何在IDEA中导入jars包,并做了一道例题,了解了RDD。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢…

windows下QT如何集成OpenCV

说明 我在windows下使用QT Creator12创建的CMake项目,需要OpenCV的一些功能。由于安装的时候我选择的QT组件都是MInGW的,所以无法使用VS studio版本的dll库。 为什么vs的版本不能用 我安装QT选择的是MinGW版本,本地编译QT工程只能选择MinG…

Triton推理服务器部署YOLOv8实战

课程链接:Triton推理服务器部署YOLOv8实战_在线视频教程-CSDN程序员研修院 Triton Inference Server(Triton 推理服务器)是一个高性能、灵活、可扩展的推理服务器,支持多种机器学习框架(PyTorch、ONNX等)和…

服务器被CC攻击之后怎么办?

1.取消域名绑定取消域名绑定后Web服务器的CPU能够马上恢复正常状态,通过IP进行访问连接一切正常。但是不足之处也很明显,取消或者更改域名对于别人的访问带来了不变,另外,对于针对IP的CC攻击它是无效的,就算更换域名攻…

计算机毕业设计Python+Spark知识图谱高考志愿推荐系统 高考数据分析 高考可视化 高考大数据 大数据毕业设计 机器学习 深度学习 人工智能

学院(全称): 专业(全称): 姓名 学号 年级 班级 设计(论文) 题目 基于Spark的高考志愿推荐系统设计与实现 指导教师姓名 职称 拟…

实时语音识别(Python+HTML实战)

项目下载地址:FunASR 1 安装库文件 项目提示所需要下载的库文件:pip install -U funasr 和 pip install modelscope 运行过程中,我发现还需要下载以下库文件才能正常运行: 下载:pip install websockets,pi…

Excel数据分析-----快捷键

智能拆分 1、先将第一行的数据手动拆分出来。 2、在拆分出来的列上面按住ctrlE,就可以自动向下填充了 自动生成下拉列表 alt向下箭头 插入批注 shiftf2 如何在批注中进行查找 ctrlf打开查找窗口。 快速删除批注 ctrlG 右键删除批注 快速美化表格 ctr…

常见的Nginx+Redis+MQ+DB架构设计

三高,复杂的架构 SQRS CAP 缓存,限流 【Redis,缓存】 cache-aside 缓存cache:数据源的副本 store 1. Read/Write Through Pattern 读写穿透模式 redis:放当前在线用户,热点数据

Kubernetes-running app on kube

Docker 安装Docker 首先,您需要在Linux机器上安装Docker。如果您不使用Linux,则需要启动一个Linux虚拟机(VM)并在该虚拟机中运行Docker。如果你使用的是Mac或Windows系统,并按照指令安装Docker, Docker将为你建立一个虚拟机,并在…

使用mysql官网软件包安装mysql

确定你的操作系统,我的是Centos myqsl 所有安装包的地址:https://repo.mysql.com/yum/ 如果你是使用rpm安装你可以到对应的版本里面找到对应的包。 mysql 发行包的地址:http://repo.mysql.com/ 在这里你可以找到对应的发布包安装。 这里使用y…

AJAX(一):初识AJAX、http协议、配置环境、发送AJAX请求、请求时的问题

一、什么是AJAX 1.AJAX 就是异步的JS和XML。通过AJAX 可以在浏览器中向服务器发送异步请求,最大的优势:无刷新获取数据。AJAX 不是新的编程语言,而是一种将现有的标准组合在一起使用的新方式。 2.XML 可扩展标记语言。XML被设计用来传输和…

爬虫逆向实战(38)-某空气质量平台(反调试,AES,DES,MD5)

一、数据接口分析 主页地址:某空气质量平台 1、抓包 (1) 反调试 该网站对鼠标右击以及F12进行了监听并拦截 虽然该网站无法打开Chrome控制台,导致我们无法抓包,但是道高一尺魔高一丈。既然我们无法在打开该网站的时候打开Chrome控制台&…

在Windows上交叉编译STM32(环境搭建)

在Windows上交叉编译STM32 Keil 虽然好用,但是是收费的,不想破解怎么办~ 使用交叉编译工具! 交叉编译工具下载 官方交叉编译工具下载连接 下载解压好后将 bin 目录写入 PATH, 使用命令行检测是否安装成功。 Windows 安装 make …

RN在android/ios手机剪切图片的操作

之前写过一个React Native调用摄像头画面及拍照和保存图片到相册全流程但是这个仅限于调用摄像头拍照并保存图片,今天再写一个版本的操作,这个博客目前实现的有三点操作: 调用摄像头拍照对照片进行剪切从相册选取图片 功能上面来说有两点: 点击按钮可以对摄像头进行拍照,拍完照…

Etcd 基本入门

1:什么是 Etcd ? Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。 名字由来,它源于两个方面,…