本博客为《概率论与数理统计--茆诗松(第二版)》阅读笔记,记录下来,以便自用。
前置知识
数学符号
连乘符号:;总和符号:;正比于:∝;“任意”符号:∀;“存在”符号:∃;
第一章:随机事件及其概率
1.1 随机事件及基础定义
随机现象所有基本结果的全体称为这个随机现象的基本空间。常用Ω={w}表示,其中元素w就是基本结果。在统计学中,基本结果w 是抽样的基本单元,故基本结果又称为样本点,基本空间又称为样本空间。
随机事件:随机现象某些基本结果组成的集合,称为随机事件,简称事件。事件的关系:包含(AB)、并(AB)、交(AB)、不相容、对立()。
两个事件的独立性:对任意两个事件 A与B,若有 P(AB)=P(A)P(B),则称事件A与B相互独立简称A与B独立。否则称事件A与B不独立。
多个事件的独立性:
1.2 条件概率
条件概率的一般定义如下:(P(A)与P(A|B)不同,本质上是事件B的发生,改变了基本空间,从而改变了P(A))
条件概率的性质:
条件概率是概率,首先满足概率的三条公理:
非负性:P(A|B)≥0
正则性:P(Ω|B)=1
可加性:假如事件A1与A2互不相容,且P(B)>0,则:
由三条公理,可推出满足以下性质:
(对于任意的A1、A2而言,不再需要二者不相容)
当B=Ω时,条件概率转化为无条件概率。
特殊性质:
乘法公式:任意两个事件的交的概率等于一事件的概率乘以在这事件已发生条件下另一事件的条件概率,只要它们的概率都不为零即可。第一个等式成立要求P(B)>0,第二个等式成立要求P(A)>0
假如事件A与B独立,且P(B)>0,则有:。反之亦然。
一般乘法公式:
1.3 贝叶斯公式
全概率公式:设A与B是任意两个事件,假如 ,则
贝叶斯公式(由全概率公式推出):意思就是已知,且可以通过试验等手段获得,则通过贝叶斯公式可以计算在给定事件A的情况下,任意事件发生的条件概率。
或者由推出,贝叶斯公式的简化版(未带入全概率公式):
第二章:随机变量及其概率分布
2.1 随机变量
随机变量分为:离散随机变量、连续随机变量
累积概率分布函数(CDF)
离散、连续随机变量都有各自的分布函数。
分布函数F(x)的基本性质:
2.2 离散随机变量
离散随机变量常用分布列来表示概率分布(分布列还有两种图表示方法:线条图与概率直方图):
常见的离散分布有:二项分布、泊松分布等
2.2.2 二项分布
贝努里实验:只有两个结果(成功与失败)的试验。
n重贝努里实验:由n次相同的、独立的贝怒里试验组成的随机试验称为n重贝努里实验。
设X为n重贝努里实验成功的次数,则随机变量X可能取值为:0,1,…,n,其概率分布为:
在概率论中,称随机变量X服从二项分布 b(n, p) , 并记作。二项分布的数学期望 :
2.2.3 泊松分布
若随机变量服从泊松分布,即,这意味着X仅取0,1,2,…等一切非负整数,且取这些值的概率为:
泊松分布的数学期望就是参数 λ。
2.3 连续随机变量
2.3.1 概率密度函数(PDF)
连续随机变量不能再用分布列来表示,而要改用概率密度函数(就是连续的概率曲线),数学定义如下:
连续随机变量的分布函数F(x)可以用其密度函数p(x)表示出来:
连续随机变量:分布函数F(x)是密度函数p(x)的积分,密度函数p(x)是分布函数F(x)的求导
2.3.2 连续随机变量的数学期望:
数学期望E(X)的总结:
2.3.3 连续随机变量常见分布
正态分布:;
伽马分布:;
伽马函数:
伽马分布的密度函数:
a>0,称为形状参数;λ>0,称为尺度参数。
伽马分布的数学期望:
形状参数a=1的伽马分布就是指数分布,其密度函数为:
贝塔分布:;
若随机变量 , a与b都是形状参数,则X一定是仅在[0,1]上取值的随机变量
在区间(0,1)上的均匀分布是贝塔分布
2.4 方差
在概率论和统计学中,数学期望E(X)是分布的位置特征数,它总位于分布的中心,随机变量X的取值总在其周围波动。
方差是度量随机变量X和其数学期望(E(X),即均值)之间的偏离程度( 称X-E(X)为偏差)的特征数,即度量随机变量X的离散程度,定义如下:
切比雪夫不等式
切比雪夫不等式对连续和离散两类随机变量都成立,定义如下:
第三章:多维随机变量
3.1 联合分布函数
在有些随机现象中,每个基本结果w只用一个随机变量描述是不够的,而要同时用多个,譬如同时用n 个随机变量,去描述。
多维随机变量的概率分布可以用联合分布函数来表示,定义如下:
对于联合分布函数,使一个随机变量比如,则可以得到另一个变量的分布函数(或),称为联合分布函数的边缘分布函数,简称边缘分布。
对于多维连续随机变量(以二维为例),其联合分布函数如下:
3.2 条件分布和边缘密度函数
连续随机变量的条件分布:(X,Y)是二维连续随机变量,p(x,y)是其联合密度函数,和是其边缘密度函数。
在给定Y=y下X的条件密度函数为:
在给定X=x下Y的条件密度函数为:
3.2.1 构造联合分布p(x,y)
用一个变量的分布与这个变量给定下另一个变量的条件分布可给出联合分布:
3.2.2 全概率公式的密度函数形式
假如能获得X的密度函数及在X给定下Y的条件密度函数,则由其乘积的积分可得Y的边缘分布:
3.2.3 贝叶斯公式的密度函数形式
将上面两个式子进行合并 ,可得贝叶斯公式的密度函数形式如下,贝叶斯公式的离散形式已在第一章中讨论:
3.3 协方差
多维随机变量的数学期望与方差只利用其边缘分布所提供的信息,没有涉及诸个分量之间关系的信息。这里将提出一个新的特征数——协方差,它将能反映多维随机变量各分量间的关系。
X与Y的协方差是X的偏差与Y的偏差乘积的数学期望,定义如下:
协方差的性质:
1)
2)
3) 若X与Y独立, , 则
3.4 相关系数
两个随机变量之间的关系可分为独立和相依(即不独立),在相依中又可分为线性相依和非线性相依,由于非线性相依种类繁多,至今尚无实用指标来区分他们,但线性相依度可用线性相关系数来刻划,这一段将研究刻划两个变量之间线性相关程度的特征数:相关系数。
定义如下:
3.5 变量独立性的判别
3.5.1“独立”与“不相关”
两个随机变量间的独立与不相关是两个不同概念。“ 相关”是指线性相关,“不相关”只说明两个随机变量之间没有线性关系,而“独立”说明两个随机变量之间既无线性关系,也无非线性关系,所以“独立”必导致“不相关”,反之不然。
3.5.2 变量独立性判别
其实遵从的是最简单的条件,以下条件任意一条即可(参考):
满足此即可判定AB相互独立,反映在CDF上,其实就是两个函数的每个点相乘等于其联合分布的对应点而已,宏观看起来,无非就是两个函数相乘等于概率密度函数,也就是:
相应的,pdf可以判定,cdf也可以判定,因为积分操作是线性的:
与其他变量的联合分布的边缘密度等于自己的概率密度,则相互独立。其对应条件概率条件,反映在连续性变量中,就是
3.6 随机变量的矩
容易看出,一阶原点矩就是数学期望,二阶中心矩就是方差。
特别低,样本的高阶矩定义如下:
样本的方差与标准差:
第四章:参数估计
参数估计问题:参数估计中所讨论的参数不仅仅指总体分布 中所含的参数θ,还包括分布的各种特征数(均值、方差、标准差等),精确的确定这些参数是困难的,我们只能通过样本提供的信息对它们作出某种估计,这就是参数估计问题。
参数估计的形式有两种:点估计与区间估计。 点估计是估计出一个分布中未知参数的值,区间估计则是估计出一个分布中未知参数所在的范围。
参数估计就是根据样本统计量的数值对总体参数进行估计的过程。θ是总体的一个待估参数,其一切可能取值构成的参数空间记为 。
4.1 点估计
参数的点估计,是要构造一个统计量,然后使用去估计θ,称为θ的点估计或估计量,或简称估计。将样本观测值带入后便得到了θ的一个点估计值
4.1.1 矩法估计
矩法估计的核心就是:用样本矩估计总体矩,用样本矩的相应函数估计总体矩的函数。(就是先用总体矩去构造一个表达所求参数θ的函数,然后用样本矩估计(代替)总体矩,计算参数θ)
具体的方法就是:通过计算样本的矩,来充当分布X的矩,从而估计出总体分布X的参数θ。流程如下:
计算例子如下:
矩法估计的优点是计算简单,且在总体分布未知场合也可使用。它的缺点是不唯一,譬如泊松分布 P(λ),由于其均值和方差都是λ,因而可以用去估计λ,也可以用去估计λ;此外样本各阶矩的观测值受异常值影响较大,从而不够稳健。
4.1.2 点估计的评价标准(无偏性、均方误差)
参数的点估计实质上是构造一个估计量去估计未知参数,上节讲的矩法估计是用各种矩去构造估计量的一种方法。自然也可以用其他估计量去估计,为此就需要有评价估计好坏的准则。
我们希望所得的估计从平均意义上来讲与θ越接近越好,当其差值为0时便产生了无偏估计的概念:
对于θ的两个无偏估计,可以通过比较他们的方差来判断哪个更好,但对于有偏估计而言,比较方差意义不大,我们关心的是估计值围绕其真值波动的大小,因而引入均方误差准则:
即当估计是有偏估计时,用MSE来进行比较。
// TODO: 无偏估计这一块不是很明白
4.1.3 极大似然估计
概念
似然:概率是“参数变量Θ的值为θ时,随机变量X观测值为x的可能性”; 似然是“随机变量X观测值为x时,参数变量Θ的值为θ时的可能性“。二者描述的都是可能性大小,但是情况却不一样。似然函数在定义上为 ,在计算时,数值上等于“给定参数 θ 后观测值data 的概率”(只是数值上相等),计算公式如下( 深度学习-似然性与似然函数详解):
我们可以根据贝叶斯公式推出上面这个计算公式:
,因为求似然时data已经确定,所以,即;
同理,,因为求概率时θ已经确定,所以P(θ)=1,即;
因为都表示θ和data的联合分布,所以。
也就是说,当随机变量观测值、参数相互对应的时候,似然和概率在数值上是相等的。
对于离散型随机变量,似然的计算如下:
对于连续型随机变量,似然的计算如下:
若已经定义好了一个深度学习模型但参数θ未知,对于一个输入的值 ,输出的随机变量Y有一个观测值 y,从概率角度来讲,深度学习模型描述的就是在参数θ下的一个概率函数,我们深度学习模型的目标就是求参数,要找到一个θ,使得最大。这个求参数θ的过程其实就是极大似然估计的思想。
极大似然估计的思想:设总体含有待估参数θ,它可以取很多值,我们要在θ的一切可能取值之中选出一个使 样本观测值(已经确定)出现的概率为最大的θ值(记为 )作为θ的估计,并称 为θ的极大似然估计。极大似然估计常用 (Maximum Likelihood Estimation)表示。
直白来讲,极大似然估计就是使得目前观测值出现概率最大的θ值。其基本思想是在给定数据的情况下,通过最大化似然函数来估计概率分布或模型参数。
具体来说:对于给定的观测数据集合,假设这些数据来自于一个未知的概率分布或模型,MLE方法的目标是找到最优的模型参数,使得这个模型产生这些数据的概率最大。换句话说,就是寻找一个参数估计值,使得该参数下的观测数据出现的概率最大。
下面有个例子很好的对其进行解释:
// 当随机变量是独立时,其联合概率为各自概率相乘
下面以连续分布的情况为例,给出极大似然估计的定义:
2)求极大似然估计的方法
寻求分布中位置参数θ的极大似然估计,首先要写出 似然函数, 即样本的联合分布;其次,要建立一个新的观点, 让θ变换,这是同一组样本的观察值 出现的 概率将随着θ的改变而改变。求θ的极大似然估计,就是求使 达到最大的点 。
a.可以通过求导获得极大似然估计
当似然函数关于参数θ可导时,常常通过求导方法来获得似然函数极大值对应的参数值θ。
为求导方便,常对似然函数取对数,称为对数似然函数,它与在同一点上达到最大。当对θ的每一分量可微时,可通过对θ的每一分量求偏导并令其为0求得极大似然估计。称:为似然方程,其中k是θ的维数。
b.从定义出发直接求的极值点
当似然函数的非零区域与未知参数有关时,通常无法通过解似然方程来获得参数的极大似然估计,这时可从定义出发直接求 的极大值点。
3)极大似然估计的性质
a.极大似然估计的不变原则
b.极大似然估计的渐近正态性
当样本量趋向于无穷大时,极大似然估计的分布接近于正态分布。这个结论是统计学中极为重要的一种性质,它可以用于构造置信区间和假设检验等。
具体来说,假设我们有一个来自某个分布的随机样本,样本量为,用 表示该分布的参数。假设我们想要使用极大似然估计 来估计参数 ,那么当样本量趋向于无穷大时, 的分布会趋向于正态分布,其均值为,方差为 ,其中 是 Fisher 信息矩阵在参数 处的值。
换句话说,如果我们有一个足够大的样本,那么我们可以使用极大似然估计来构造置信区间,置信区间的中心值是极大似然估计,置信区间的宽度则是标准误差的倍数,其中标准误差是 。
需要注意的是,这个结论只在一定条件下成立,例如样本必须是独立同分布的,并且极大似然估计的方差不能为零。此外,这个结论只是一个渐近结果,也就是说只有当样本量趋向于无穷大时才成立,对于小样本可能并不适用。
4.2 区间估计
点估计虽能给出参数一个明确的数值,但是不能提供估计参数的估计误差大小(精度),点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用,而在需要用精确总体参数的数据进行决策时则很少使用。
置信区间是用来估计总体参数θ真实值的一个区间,其定义如下:
对于置信区间的理解,可以参考马同学的回答:https://www.zhihu.com/question/26419030?sort=created。对于置信区间,有以下需要强调:
置信区间要求估计量是个常数
置信区间是随机区间,总体的参数是固定的,变的是不同的观测样本计算出的置信区间。比如95%的置信区间,表示在1000次抽样中,计算得到的1000个置信区间,约有950个包含正确的参数。
4.2.1 正态分布的区间估计
在区间估计中,当总体为正态分布时,常见的区间估计场景有以下几种:
方差已知,估计均值
方差未知,估计均值
均值未知,估计方差
总体思路就是根据正态分布的性质转化为标准正态分布,根据分为点求解区间即可。
4.2.2 非正态分布的区间估计
对于非正态分布,可以使用中心极限定理,近似地使用上述结果
中心极限定理:设从任意一个总体中抽取样本量为N的样本,当N充分大时,样本均值的分布近似服从于正态分布。
4.3 贝叶斯估计
4.3.1 贝叶斯的由来
统计学中有两大学派: 频率学派(又称经典学派)和 贝叶斯学派,它们的理论与方法都建立在概率论基础上。
以上的统计推断(点估计、区间估计)中,皆用到了两种信息:
(1) 总体信息,即总体分布或总体所属分布族给我们的信息。
(2) 样本信息,即样本提供给我们的信息。这是最“新鲜”的信息,并且越多越好,希望通过样本对总体或总体的某些特征作出较精确的统计推断。没有样本就没有统计学可言。
基于总体、样本这两种信息进行统计推断的统计学就称为经典统计学。然而在我们周围还存在着第三种信息——先验信息,它也可用于统计推断。先验信息,即在抽样之前有关统计问题的一些信息。对先验信息进行加工获得的分布称为先验分布。
基于总体、样本、先验这三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯统计学与经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。
贝叶斯统计起源于英国学者贝叶斯(Bayes,T.R. 1702(?)-1761)死后发表的一篇论文“论有关机遇问题的求解”,在此文中提出了著名的贝叶斯公式和一种归纳推理的方法, 之后, 被一些统计学家发展成一种系统的统计推断方法。到上世纪30年代已形成贝叶斯学派,到50~60年代已发展成一个有影响的统计学派,其影响还在日益扩大。
贝叶斯学派的最基本的观点是:任一未知量θ都可看作随机变量,可用一个概率分布去描述,这个分布称为先验分布。因为任一未知量都有不确定性,而在表述不确定性的程度时,概率与概率分布是最好的语言。
如今两派的争论焦点已从“未知量是否可看作随机变量”转换为“如何利用各种先验信息合理地确定先验分布”。
两个学派的区别如下:(参考:贝叶斯学派与频率学派有何不同?)
(1)频率派把模型参数看成 未知的常量,用极大似然法MLE(一种参数点估计方法)求解参数,往往最后变成 最优化问题。这一分支又被称为统计学习。频率派认为概率是事物的固有属性,是一个确定的常量,它就在那里,只是我们暂时不知道而已,要估计出这个确定的概率,可以做重复实验并计算重复实验中事件发生的频率,用频率近似概率(依据是“大数定律”),样本量越大,这个近似就越好。
(2)贝叶斯派把模型参数看成 未知的变量(概率分布),用最大化后验概率MAP求解参数。贝叶斯派认为总体的未知参数是一个随机变量,它有自己的分布,把它叫做“先验分布”。贝叶斯学派就是利用先验分布和贝叶斯公式来得到后验分布,然后基于后验分布做进一步的统计推断。
对于贝叶斯(先验概率、后验概率),更直白的解释(From ChatGPT):
贝叶斯是一种统计推断方法, 用于根据先验知识和新的数据来更新对某个事件的概率估计。其核心思想是在已知一些信息( 先验概率)的基础上,根据 新的数据来调整对事件的估计( 后验概率)。这个过程相当于“更新”我们对事件发生概率的估计。在贝叶斯方法中,我们可以通过多次更新概率估计,逐步得到更加准确的概率估计,从而提高预测的准确性。
在贝叶斯方法中,我们首先假设一个先验概率,即我们在得到新的数据之前对事件发生的概率的估计。然后,我们观察新的数据,并使用贝叶斯定理来计算事件发生的 后验概率,即已经考虑了新数据的影响之后的概率。贝叶斯方法的核心就是在先验概率的基础上,根据新数据的信息来计算后验概率。
先验概率是在考虑任何新数据之前,我们 基于以前的经验和知识所做出的对一个事件发生的概率的估计。它是根据以往的数据、先前的研究或领域知识等,通过推理或推断得到的概率估计值。
后验概率是指 在考虑了新数据之后,我们对事件发生的概率的重新估计。也就是说,通过贝叶斯定理将新数据结合到先验概率中,得到的新的概率值。后验概率是在已知先验概率和新数据的情况下,对事件发生概率的更精确的估计。
4.3.2 贝叶斯公式的密度函数形式
贝叶斯公式的事件(离散)形式为: 已知,且 可以通过试验等手段获得,可以计算在给定事件A的情况下,任意事件 发生的条件概率: ,加入了 全概率公式后为: 。其中, 表示在A发生的条件下, 发生的概率,也就是 后验概率(更新后的概率); 表示在 发生的条件下,A发生的概率,也就是 似然函数(在所求参数的条件下,生成已知数据的概率); 表示 先验概率,即在未知A的情况下,根据先验知识推
后验分布
似然函数*先验分布
测出的 发生的概率;P(A)表示A发生的概率,也称为 边缘概率(在任意B下A发生的概率)。
后验分布 ∝ 似然函数*先验分布。下图清晰的解释了他们之间的关系(c是类别,x是给定数据):
在连续随机变量X的情况下,未知参数θ的贝叶斯公式密度函数的计算如下:
首先要根据先验信息确定先验分布;
有了先验分布后,我们可以给出样本 X和参数θ的联合分布的一种表达:;其中称为似然函数。
来了新的数据后,我们应该依据联合分布对θ的分布再做推断,即更新。
具体地是,联合分布也可以表示为:;
其中就是在给定新数据后θ新的分布,即所求的后验分布;
并且,是样本X的边缘密度函数:
综述,给定新数据后,θ的后验分布为:
后验分布集中了总体、样本和先验中有关θ的一切信息。是用总体和样本对先验分布做调整的结果,比更接近θ的实际情况。
4.3.2 共轭先验分布
在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则称这样的先验分布与后验分布为 共轭分布,称这个先验分布为该似然函数的 共轭先验。
更具体地说,假设有一个参数 ,其先验分布为 ,似然函数为 ,其中 是观测到的数据。如果先验分布 和似然函数 满足下列条件:
先验分布 属于某个概率分布族;
似然函数满足条件,使得在给定的情况下,是独立同分布的随机变量,
那么先验分布 就是似然函数 的共轭先验分布。在这种情况下,后验分布 也属于该概率分布族。
常见的共轭先验分布包括:正态分布的共轭先验是共轭正态分布;二项分布的共轭先验是Beta分布;泊松分布的共轭先验是Gamma分布等等。
共轭先验分布在贝叶斯统计中具有重要的作用,因为它们能够简化后验分布的计算过程。在贝叶斯统计中,我们通常会将数据看作是从一个未知参数的分布中抽取而来的。而贝叶斯方法的核心是通过先验分布和观测数据来计算参数 的后验分布。具体而言,我们需要将先验分布和似然函数相乘,然后进行归一化,即可得到后验分布。而如果先验分布是与似然函数共轭的话,那么后验分布的形式也会与先验分布的形式相同,这样就能够避免复杂的计算和积分。
4.3.4 贝叶斯估计
贝叶斯点估计:θ的后验分布的期望值称为θ的后验期望估计,也简称贝叶斯估计,常记为。 设θ的后验密度为,则后验期望估计使均方误差达到最小。
贝叶斯区间估计:在贝叶斯统计中,区间估计是指给出一个后验分布的置信区间(credible interval),用来估计某个未知参数的真实取值。