文章目录
- 相关教程
- 相关文献
- 例子1
- 例子2
- 定义
- 0-1分布
- 二项分布
作者:小猪快跑
基础数学&计算数学,从事优化领域7年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法
Maximum Likelihood Estimation(MLE),一般称之为极大似然估计 / 最大似然估计。利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑
相关教程
- 常用分布的数学期望、方差、特征函数
- 【推导过程】常用离散分布的数学期望、方差、特征函数
- 【推导过程】常用连续分布的数学期望、方差、特征函数
- Z分位数速查表
- 【概率统计通俗版】极大似然估计
- 【附代码&原理】正态分布检验
- 【机器学习】【通俗版】EM算法(待更新)
相关文献
- [1]茆诗松,周纪芗.概率论与数理统计 (第二版)[M].中国统计出版社,2000.
- [2]周志华.机器学习 人工智能[M].清华大学出版社,2016.
- [3]李航.统计学习方法[M].清华大学出版社,2012.
- [4]谢文睿,秦州,贾彬彬.机器学习公式详解 第2版 人工智能[M].人民邮电出版社,2023.
- [5] Do C B , Batzoglou S .What is the expectation maximization algorithm?[J].Nature Biotechnology, 2008, 26(8):897-9.DOI:10.1038/nbt1406.
例子1
箱子甲:99 个白球和 1 个黑球
箱子乙:99 个黑球和 1 个白球
随机选个箱子,并从中随机取 1 个球。结果取得白球,问这球是从哪一个箱子中取出?
白球 | 黑球 | |
---|---|---|
甲 | 99 | 1 |
乙 | 1 | 99 |
直观感受来说,从箱子甲里面抽到白球的概率高。
不管是哪一个箱子,从箱子中任取一球都有两个可能的结果: A A A 表示取出白球, B B B 表示取出黑球。如果我们取出的是甲箱,则 A A A 发生的概率为 0.99,而如果取出的是乙箱,则 A A A 发生的概率为 0.01。现在一次试验中结果 A A A 发生了,人们的第一印象就是: “此白球 ( A ) (A) (A) 最像从甲箱取出的”,或者说,应该认为试验条件对结果 A A A 出现有利,从而可以推断这球是从甲箱中取出的。这个推断很符合人们的经验事实,这里 “最像” 就是 “最大似然” 之意。
例子2
从箱子里随机取出 5 个球,分别为 白、白、黑、白、黑,根据这个结果估计箱子白球和黑球的比例。
白球 | 黑球 | 概率 | |
---|---|---|---|
1 | ✓ \checkmark ✓ | p p p | |
2 | ✓ \checkmark ✓ | p p p | |
3 | ✓ \checkmark ✓ | 1 − p 1 - p 1−p | |
4 | ✓ \checkmark ✓ | p p p | |
5 | ✓ \checkmark ✓ | 1 − p 1 - p 1−p |
设白球比例是 p p p,则黑球比例就是 1 − p 1 − p 1−p,随机变量为 X X X。
5 个球的概率分别是 p 、 p 、 1 − p 、 p 、 1 − p p 、p 、1 - p 、p 、1 - p p、p、1−p、p、1−p。
这个结果发生的概率(似然函数): L ( p ) = p ⋅ p ⋅ ( 1 − p ) ⋅ p ⋅ ( 1 − p ) = p 3 ( 1 − p ) 2 L(p)=p\cdot p\cdot(1-p)\cdot p\cdot(1-p)=p^{3}(1-p)^{2} L(p)=p⋅p⋅(1−p)⋅p⋅(1−p)=p3(1−p)2
极大似然估计的思想就是最大化发生的概率。于是我们只要求似然函数的最大值即可(求导=0)。
由于似然函数是乘积形式,不容易求导。因此先求对数(对数似然函数):
ln L ( p ) = 3 ln p + 2 ln ( 1 − p ) \ln{L(p)}=3\ln p+2\ln(1-p) lnL(p)=3lnp+2ln(1−p)
再求导=0:
∂ ln L ( p ) ∂ p = 3 p − 2 1 − p = 0 \frac{\partial\ln L(p)}{\partial p} = \frac{3}{p} - \frac{2}{1-p} = 0 ∂p∂lnL(p)=p3−1−p2=0
于是 p = 3 5 p = \frac{3}{5} p=53
注:这里对数似然函数是凹函数,凹函数的唯一驻点必是最大值。
定义
设总体的概率函数为 p ( x ; θ ) p(x;\theta) p(x;θ), θ ∈ Θ \theta\in\Theta θ∈Θ,其中 θ \theta θ 是一个未知参数或几个未知参数组成的参数向量, Θ \Theta Θ 是参数空间, x 1 , ⋯ , x n x_1,\cdots,x_n x1,⋯,xn 是来自该总体的样本,将样本的联合概率函数看成 θ \theta θ 的函数,用 L ( θ ; x 1 , ⋯ , x n ) L(\theta;x_1,\cdots,x_n) L(θ;x1,⋯,xn) 表示,简记为 L ( θ ) L(\theta) L(θ)
L ( θ ) = L ( θ ; x 1 , ⋯ , x n ) = p ( x 1 ; θ ) ⋅ p ( x 2 ; θ ) ⋅ ⋯ ⋅ p ( x n ; θ ) L(\theta)=L(\theta;x_1,\cdots,x_n)=p(x_1;\theta)\cdot p(x_2;\theta)\cdot \cdots \cdot p(x_n;\theta) L(θ)=L(θ;x1,⋯,xn)=p(x1;θ)⋅p(x2;θ)⋅⋯⋅p(xn;θ)
L ( θ ) L(\theta) L(θ) 称为样本的似然函数。如果某统计量 θ ^ = θ ^ ( x 1 , ⋯ , x n ) \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n) θ^=θ^(x1,⋯,xn) 满足
L ( θ ^ ) = max θ ∈ Θ L ( θ ) L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta) L(θ^)=θ∈ΘmaxL(θ)
则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的最大似然估计,简记为 MLE(Maximum Likelihood Estimate)。
由于 ln x \ln x lnx 是 x x x 的单调增函数,因此,使对数似然函数 ln L ( θ ) \ln L(\theta) lnL(θ) 达到最大与使 L ( θ ) L(\theta) L(θ) 达到最大是等价的。人们通常更习惯于由 ln L ( θ ) \ln L(\theta) lnL(θ) 出发寻找 θ \theta θ 的最大似然估计。当 L ( θ ) L(\theta) L(θ) 是可微函数时,求导是求最大似然估计最常用的方法,此时对对数似然函数求导更加简单些。
0-1分布
0-1分布,也称为伯努利分布(Bernoulli distribution),是描述一次试验中只有两种可能结果的离散概率分布。这两个结果通常标记为成功(记为1)和失败(记为0)。如果成功的概率是 p p p ( 0 < p < 1 0 < p < 1 0<p<1),那么失败的概率就是 1 − p 1-p 1−p。
给定一组独立同分布的观测数据 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn,每个 X i X_i Xi 都是从伯努利分布中抽取的样本,取值为0或1。我们要找的是参数 p p p 的最大似然估计 p ^ \hat{p} p^。
似然函数 L ( p ) L(p) L(p) 是所有观测数据出现概率的乘积:
L ( p ) = ∏ i = 1 n p X i ( 1 − p ) 1 − X i L(p) = \prod_{i=1}^{n} p^{X_i} (1-p)^{1-X_i} L(p)=i=1∏npXi(1−p)1−Xi
为了简化计算,我们通常使用对数似然函数:
log L ( p ) = ∑ i = 1 n [ X i log p + ( 1 − X i ) log ( 1 − p ) ] \log L(p) = \sum_{i=1}^{n} [X_i \log p + (1 - X_i) \log (1-p)] logL(p)=i=1∑n[Xilogp+(1−Xi)log(1−p)]
接下来,我们通过对 p p p 求导来找到使得对数似然函数最大的 p p p 值:
∂ log L ( p ) ∂ p = ∑ i = 1 n ( X i p − 1 − X i 1 − p ) \frac{\partial \log L(p)}{\partial p} = \sum_{i=1}^{n} \left( \frac{X_i}{p} - \frac{1 - X_i}{1-p} \right) ∂p∂logL(p)=i=1∑n(pXi−1−p1−Xi)
令导数等于0以找到极大值点:
∑ i = 1 n ( X i p − 1 − X i 1 − p ) = 0 \sum_{i=1}^{n} \left( \frac{X_i}{p} - \frac{1 - X_i}{1-p} \right) = 0 i=1∑n(pXi−1−p1−Xi)=0
整理后得到:
∑ i = 1 n X i p = n − ∑ i = 1 n X i 1 − p \frac{\sum_{i=1}^{n} X_i}{p} = \frac{n - \sum_{i=1}^{n} X_i}{1-p} p∑i=1nXi=1−pn−∑i=1nXi
解这个方程可以得到 p p p 的最大似然估计 p ^ \hat{p} p^:
p ^ = ∑ i = 1 n X i n \hat{p} = \frac{\sum_{i=1}^{n} X_i}{n} p^=n∑i=1nXi
这意味着参数 p p p 的最大似然估计 p ^ \hat{p} p^ 就是所有观测到的成功次数之和除以总的观测次数。换句话说, p ^ \hat{p} p^ 是样本中成功事件的比例。
二项分布
二项分布是一种离散概率分布,用于描述在n次独立的伯努利试验中成功次数的概率分布。假设每次试验成功的概率为p(0 < p < 1),那么在n次试验中恰好有k次成功的概率可以表示为:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k
其中, ( n k ) \binom{n}{k} (kn) 是组合数,表示从n个不同元素中选取k个元素的方式数。
对于二项分布来说,如果我们有一系列的观测数据 X 1 , X 2 , . . . , X m X_1, X_2, ..., X_m X1,X2,...,Xm,每个 X i X_i Xi都代表了n次试验中的成功次数,并且我们假设这些观测都是独立同分布的,那么似然函数L§可以写作:
L ( p ) = ∏ i = 1 m ( n X i ) p X i ( 1 − p ) n − X i L(p) = \prod_{i=1}^{m} \binom{n}{X_i} p^{X_i} (1-p)^{n-X_i} L(p)=i=1∏m(Xin)pXi(1−p)n−Xi
因为组合数 ( n X i ) \binom{n}{X_i} (Xin)不依赖于参数p,所以在求最大似然估计时可以忽略它。因此对数似然函数简化为:
log L ( p ) = ∑ i = 1 m [ X i log p + ( n − X i ) log ( 1 − p ) ] \log L(p) = \sum_{i=1}^{m} [X_i \log p + (n - X_i) \log (1-p)] logL(p)=i=1∑m[Xilogp+(n−Xi)log(1−p)]
为了找到使这个对数似然函数最大化的p值,我们需要对p求导并令其等于零:
∂ log L ( p ) ∂ p = ∑ i = 1 m ( X i p − n − X i 1 − p ) = 0 \frac{\partial \log L(p)}{\partial p} = \sum_{i=1}^{m} \left( \frac{X_i}{p} - \frac{n - X_i}{1-p} \right) = 0 ∂p∂logL(p)=i=1∑m(pXi−1−pn−Xi)=0
解这个方程,我们可以得到p的最大似然估计 p ^ \hat{p} p^:
p ^ = ∑ i = 1 m X i m n \hat{p} = \frac{\sum_{i=1}^{m} X_i}{mn} p^=mn∑i=1mXi
这意味着,如果进行了m组每组n次的试验,总共的成功次数除以总的试验次数,就得到了成功概率p的最大似然估计。简单地说,就是所有观测到的成功次数总和除以总的试验次数。