Indian Buffet Process(印度自助餐过程)介绍

近期,有人将本人博客,复制下来,直接上传到百度文库等平台。
本文为原创博客,仅供学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)

简介

无监督学习的目的是从观测数据中,发掘潜在的结构(latent structure)。无监督学习算法的一个关键问题是如何确定潜在结构的数目,如聚类中的类的数目,变量的数目等。以聚类为例,如果能够基于数据之间的内在关系,自动学习类的数目,要比通过经验设置一个数目要好的多。

相比参数化的贝叶斯模型,非参贝叶斯有其独特的地方,也是近些年来,机器学习比较火的一种方法,如DPMM(Dirichlet process mixture model)、层次DP过程(Hierarchical Dirichlet Processes)等。DPMM和HDP模型都是假设一个数据点只能分配到一个潜在类或者簇中(each datapoint is assigned to a latent class),即一个数据点。相反,无监督学习的一些模型中,假设一个数据点可以拥有多个特征,经典的模型有主成分分析(PCA)、因子分析(factor analysis)。从图(1)中可以看出每个数据点 x 对应一个所属的类 θ。 从图(2)中可以看出,每个数据点(顾客)只能被分配到一个类中(即一个顾客只能坐一张座子),在黑白格子的图中,行代表数据点(顾客),列代表隐特征(菜-类),可以看出,每一个数据点,在一行中,只有一个涂黑的。

关于中餐馆过程可以参考我写的另外的博客:
http://blog.csdn.net/qy20115549/article/details/52371443
也可参考相关论文(提供一篇中文的,一篇英文的):
Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.

周建英, 王飞跃, 曾大军. 分层 Dirichlet 过程及其应用综述[J]. 自动化学报, 2011, 37(4): 389-407.


这里写图片描述
图(1) 左图为DPMM 右图为HDP


这里写图片描述
图(2) 中餐馆过程

印度自助餐过程(Indian Buffet Process,IBP)是2005年提出的,其核心思想是一个数据点可用无限个二元特征表示,即数据点可以拥有多个隐性特征,且这些特征的概率和不为1。该过程定义了一个有限维行(数据点的个数)、无限维列(隐特征数目)的先验。从图3和图4中,可以看出,一个数据点可以拥有多个隐特征,形象的理解为一个自助餐馆中,一个顾客可以选择吃多个菜。


这里写图片描述
图(3) IBP过程


这里写图片描述
图(4) IBP过程

隐类别模型(Latent Class Models)

在隐类别模型中,一个数据点只能属于一个类别,主要包括有限混合模型和无限混合模型。

有限混合模型

假设有 N 个数据点,有K个类,其概率生成模型可以表示如下

θ|αDirichlet(αK,αK,,αK)

ci|θDiscret(θ)


这里写图片描述
这里写图片描述

这里写图片描述

利用多项式分布与Dirichlet共轭,有如下公式:


这里写图片描述
这里写图片描述

对隐变量 θ 进行积分得:


这里写图片描述

我们可以看到 p(c) 依旧服从Dirichlet分布。

无限混合模型

可以参考我这篇博客:http://blog.csdn.net/qy20115549/article/details/77905679
主要介绍的是DPMM。
也可看这两篇论文:
Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.

周建英, 王飞跃, 曾大军. 分层 Dirichlet 过程及其应用综述[J]. 自动化学报, 2011, 37(4): 389-407.

下面两个图,一个是有向图表示,一个是生成过程。


这里写图片描述


这里写图片描述

其对隐特征的抽样公式如下:

这里写图片描述

中餐馆过程

中国餐馆过程是一个典型的Dirichlet过程混合模型。可以将中国餐馆过程描述如下:
1.假设一个中国餐馆中,可以有无限个桌子。

2.来吃饭的第一位顾客坐了第一张桌子。

3.对于每一位顾客,都按照下面的规则来选择桌子坐下,对于第n个顾客:
(3.1)顾客选择坐在已经有人的桌子上,这样的概率为

nkα0+n1

其中, nk 表示第 k 个桌子上已经有的顾客数。n1表示在这个顾客之前,已有的顾客总数。
(3.2)顾客可以选择坐在一个没有人坐的桌子上 K+1 的概率为
α0α0+n1

在这里,可以将顾客类比成数据,将每一张桌子类别成类。

隐特征模型(Latent Feature Models)

印度自助餐过程(Indian Buffet Process)

简介

印度自助餐过程可以类比成: N 个顾客(表示 N 个数据)进入一个有无穷多菜品的自助餐馆进行选餐的过程,用 1 表示选择了该菜,用 0 表示没有选择该菜,一个用户可以选择多个菜,直到其餐盘满了。

在印度自助餐过程中,
(1): N 个顾客,一个接着一个进入餐馆,餐馆中的自助菜品排成一排供顾客选择。第一个顾客从左至右开始选择K1 个菜品,其中:

K1Poisson(α)

(2):对于第二个顾客及后面的顾客则存在两种情况:
(2.1)对于已被选择的菜品,该顾客按照选择该菜品的人数成正比的概率选择该菜品,即 mki ,其中 mk 表示选择第 k 个菜品的人数 。
(2.2)或者选择 Ki 个从未被其他顾客选择的菜品,其中:

KiPoisson(αi)

如下图所示:当 α=10 的情况。

这里写图片描述

Gibbs Sampling


这里写图片描述

K 时,得:

这里写图片描述

由贝叶斯公式可得后验为:


这里写图片描述

公式中的p\left ( X|Z \right )为数据似然,计算时,要根据数据的分布。

参考文献:
Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.

Griffiths T L, Ghahramani Z. The indian buffet process: An introduction and review[J]. Journal of Machine Learning Research, 2011, 12(Apr): 1185-1224.

Ghahramani Z. The Indian Buffet Process[J].

朱军, 胡文波. 贝叶斯机器学习前沿进展综述[J]. 计算机研究与发展, 2015, 52(1): 16-26.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57577.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

印度区块链项目Matic Network的应用场景分析

近日,随着Coinbase发出的关于正在评估上线Matic的一则公告,这个印度区块链项目逐步走进了大家的视野。能够得到Coinbase的关注,想必Matic必然有它卓越的地方。 据悉,**Matic Network致力于利用其行业平台、知识和影响力,为印度走向光明和去中心化的未来开阔道路。**为了继…

华为手机最大的不足在于错过了印度市场

华为消费者业务CEO余承东在2018新年致辞中表示“最大的不足是部分国家市场经营进步缓慢,份额占有率低”,这句话说的其实不够明确,笔者认为最大的不足在于错过了印度市场。 2018年国产手机品牌最为瞩目的当属小米,这家手机企业在经…

跟进chatGPT安卓版冲击榜单

ChatGPT的安卓版正式上线一天,美国、印度、孟加拉国和巴西四国可下载。下载量到100万。 评论区大多以中文为主。美国推荐页第一个是ChatGPT,但排行榜上还未出现chatGPT。关注我,继续跟进ChatGPT安卓版冲榜。搜ppwordgpt

[论文笔记]图片语义分割 文献综述

原文:《基于深度学习的图像语义分割方法综述》2019_田萱,引用量19 1.简介 是什么:ISS 为图像中的每一个像素分配一个预先定义好的表示其语义类别的标签。(田萱,2019) 与目标检测区别?——相似点&#xff…

【每周CV论文推荐】GAN在医学图像分割中的典型应用

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。 生成对抗网络是一项非常基础的技术,医学图像则是一个非常重要的应用方向&#xff…

图像分类论文阅读

该论文通过结合VGG-19和VIT模型,实现乳腺超声图像的分类Breast Ultrasound Images Dataset | Kaggle PyTorch VGG19复现代码 # VGG19.py import torch import torch.nn as nnclass Conv(nn.Module):def __init__(self, in_channels, out_channels, kernel_size=1, stride=1,…

新华三的网络脉动:为AI泵血,向产业奔流

AI大模型作为最新的通用技术,今年以来,发展如火如荼。也有很多从业者和专家注意到,AI模型训练和应用过程中,需要优先考虑网络的升级与适配。 如果说数据中心、算力集群是AI的“心脏”,那么网络就犹如AI的“动脉”&…

人工智能算力需求稳增,中国将持续夯实算力底座

中国始终强调科技兴国的重要性。数字经济时代,技术的力量更为凸显。近年来,中国政府相关部门相继发布一系列政策,更加明确了人工智能对于提升中国核心竞争力的重要支撑作用,加上新基建、数字经济等持续利好政策的推动,…

>【无糖出品|必属精品】数据库人的福音,全网最全的增删改查.

它来了,它来了,带着众人的期望,数据库 ChatGPT 来啦! 前有excel-GPT,现在对于数据库人的福音来了,由无糖工作室开发的免费版 Easy-sql 实现人工智能输出Sql语句完全可以在工作中使用,增删改查不在话下. 你觉得这样的工具对你的…

华裔科学家颠覆光刻机时代!麻省理工突破1纳米工艺,引领2D晶体管革命的未来...

点击上方“小麦大叔”,选择“置顶/星标公众号” 福利干货,第一时间送达 来源:世界先进技术制造论坛 众所周知,光刻机作为芯片生产过程中的最主要的设备之一,其重要性不言而喻。 先进的制程工艺完全依赖于先进的光刻机设…

亚马逊、ebay、temu如何提升产品点击率?测评自养号解析

产品点击率对于店铺销售额的影响至关重要,尤其是在竞争越来越激烈的市场环境中,想要有销量和转化,提高产品listing点击率成为了非常关键的一环。 1. 产品主图 顾客浏览产品时,第一眼看到的就是主图,一张优质的主图更容…

使用接口根据关键词取亚马逊商品数据

响应参数 Version: Date: 名称类型必须示例值描述 items items[]0按关键字搜索视频 page Int01页码 real_total_results Int01900视频数量 total_results Int01900视频数量 page_size Int020接口返回数量 pagecount Int0120总页数 item item[]0视频详情数据 API接口工具 …

亚马逊FBA货件标签要求及标签模板

亚马逊发货需要遵守以下针对货件标签和库存包装的重要要求,以确保您的商品可安全快速地送达至亚马逊运营中心。 在您确定了要发往亚马逊的货件和要采用的相应配送方式和承运人后,便可对货物进行贴标和包装。 小包裹快递是使用单独的包装对商品进行包装…

【亚马逊运营】编写出色的产品标题需注意什么卖家们都知道吗?

有经验的卖家都知道,亚马逊对产品标题制定了新的规范,不符合要求标题的产品将可能会被抑制展示。那么在编写产品标题时,需要注意什么,接下来就好好看看船长BI分享的这几点吧!   01、标题的长度 一般情况下&#xf…

跨境电商亚马逊爆款标题如何写?之listing系列

我们知道,亚马逊的核心流量就是在标题上面,这是新品推广初期,吸引点击的一个重要因素,下面聊聊标题的几种写法: 1.淘宝里面的相似产品,直接谷歌翻译成英文,开头加个品牌,形成标题 2.参考竞品链…

如何做影视解说短视频?素材文案+配音,每一个都不能少

如何做影视解说短视频?素材文案配音,每一个都不能少 很多小伙伴都喜欢问我如何才能做出来一个影视解说短视频,其实并没有我们想象中的那么难。只是如果想要做成大号,变成拥有六千多万粉丝,狂赚四千多万的大佬账号&…

【短视频运营】短视频制作流程 ( 视频存稿 | 写脚本 | 拍摄收音 | 提词器 | 后期剪辑 | 前测工具 | 检查违禁词 )

文章目录 一、视频存稿1、初始存稿2、每月视频数 二、视频制作流程1、写脚本2、拍摄收音3、提词器4、后期剪辑5、前测工具6、违禁词检查 一、视频存稿 1、初始存稿 视频不要做一条发一条 , 积累够一定量的视频之后 , 在逐条发布 , 给稳定日更留下一定的缓冲时间 ; 如 : 先制作…

go语言300行代码实现即时通讯聊天室

学了2年Java,因为工作原因需要转Golang,3天时间学习了下go的基本语法,做这样一个聊天室小项目来巩固串联一下语法。 实现的功能:公聊,私聊,修改用户名 只用到了四个类: main.go:用来启动服务…

用微信打开链接提示“已停止访问该网页”可以用MaxJump来解除限制。

出现这种情的原因呢,我相信大家也去了解了很多,但是对于商家来说,我们要避免出现这种情况,或出现了要立马解决。了解原因再去想解决办法是技术的事情。一天没解决,就多一天的损失。原因大同小异,无非是域名…

Chrome解决访问限制SameSite设置

Cookie——SameSite属性 SameSite属性:Chrome浏览器为了防止CSRF攻击和用户追踪,Cookie的SameSite属性用来限制第三方Cookie,从而减少安全风险。即如调用第三方登录组件,会完全禁止第三方Cookie,跨站点时,…