Cramér-Rao界:参数估计精度的“理论底线”

Cramér-Rao界:参数估计精度的“理论底线”

在统计学中,当我们用数据估计一个模型的参数时,总希望估计结果尽可能精确。但精度有没有一个理论上的“底线”呢?答案是有的,这就是Cramér-Rao界(Cramér-Rao Lower Bound, CRLB)。它通过Fisher信息矩阵的正定性,给出了无偏估计协方差的最低下限。简单来说,它告诉我们:再怎么努力,你的估计精度也超不过这个界限。今天我们就来聊聊Cramér-Rao界的由来、意义和应用。


什么是Cramér-Rao界?

Cramér-Rao界是一个统计定理,用来衡量无偏估计器(unbiased estimator)的精度。假设我们有一个参数 ( θ \theta θ )(可以是向量),用数据 ( x x x ) 估计它,得到估计量 ( θ ^ \hat{\theta} θ^ )。如果 ( θ ^ \hat{\theta} θ^ ) 是无偏的(即 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ )),它的协方差矩阵满足:

Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)I(θ)1

  • ( Cov ( θ ^ ) \text{Cov}(\hat{\theta}) Cov(θ^) ):估计量 ( θ ^ \hat{\theta} θ^ ) 的协方差矩阵,反映估计的分散程度。
  • ( I ( θ ) I(\theta) I(θ) ):Fisher信息矩阵,衡量数据提供的参数信息。
  • ( ≥ \geq ):表示矩阵意义上的不等式(即 ( Cov ( θ ^ ) − I ( θ ) − 1 \text{Cov}(\hat{\theta}) - I(\theta)^{-1} Cov(θ^)I(θ)1 ) 是半正定的)。

如果 ( θ \theta θ ) 是标量,方差形式更简单:

Var ( θ ^ ) ≥ 1 I ( θ ) \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} Var(θ^)I(θ)1

通俗比喻

想象你在射箭,想尽可能靠近靶心(真实参数 ( θ \theta θ ))。Cramér-Rao界就像一个“靶环”,告诉你箭的散布范围(方差或协方差)不可能小于这个环。Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 则像弓箭的质量,信息越多(( I ( θ ) I(\theta) I(θ) ) 越大),靶环越小,精度越高。


Fisher信息矩阵与正定性

Fisher信息矩阵定义为:

I ( θ ) i j = E [ ∂ log ⁡ p ( x ∣ θ ) ∂ θ i ∂ log ⁡ p ( x ∣ θ ) ∂ θ j ∣ θ ] I(\theta)_{ij} = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θilogp(xθ)θjlogp(xθ) θ]

或等价地:

I ( θ ) i j = − E [ ∂ 2 log ⁡ p ( x ∣ θ ) ∂ θ i ∂ θ j ∣ θ ] I(\theta)_{ij} = -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θiθj2logp(xθ) θ]

如果模型是可识别的(不同 ( θ \theta θ ) 对应不同分布),( I ( θ ) I(\theta) I(θ) ) 通常是正定的,即对任意非零向量 ( v v v ):

v T I ( θ ) v > 0 v^T I(\theta) v > 0 vTI(θ)v>0

正定性的作用

  • 逆矩阵存在:正定保证 ( I ( θ ) I(\theta) I(θ) ) 可逆,( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 存在。
  • 正定逆矩阵:( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 也是正定的,意味着它是一个有效的协方差矩阵(对角元素非负)。
  • 精度量化:( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 提供了估计精度的理论下界。

Cramér-Rao界的推导(简要版)

为什么协方差有这个下界?我们用一个直观的推导来说明(以标量为例,多参数类似)。

假设

  • ( θ ^ \hat{\theta} θ^ ) 是 ( θ \theta θ ) 的无偏估计:( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ )。
  • 得分函数 ( s ( θ ) = ∂ log ⁡ p ( x ∣ θ ) ∂ θ s(\theta) = \frac{\partial \log p(x|\theta)}{\partial \theta} s(θ)=θlogp(xθ) ),( E [ s ( θ ) ] = 0 E[s(\theta)] = 0 E[s(θ)]=0 )。

关键步骤

由于 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ),对 ( θ \theta θ ) 求导:

∂ ∂ θ E [ θ ^ ] = ∫ θ ^ ( x ) ∂ p ( x ∣ θ ) ∂ θ d x = 1 \frac{\partial}{\partial \theta} E[\hat{\theta}] = \int \hat{\theta}(x) \frac{\partial p(x|\theta)}{\partial \theta} \, dx = 1 θE[θ^]=θ^(x)θp(xθ)dx=1 (分别左右两边求导,左边求导是积分这一项,右边 θ \theta θ对自己求导是1, 具体请看后文推导)

因为 ( ∂ p ∂ θ = p ⋅ ∂ log ⁡ p ∂ θ = p ⋅ s \frac{\partial p}{\partial \theta} = p \cdot \frac{\partial \log p}{\partial \theta} = p \cdot s θp=pθlogp=ps ),所以:

∫ θ ^ ( x ) p ( x ∣ θ ) s ( x ∣ θ ) d x = 1 \int \hat{\theta}(x) p(x|\theta) s(x|\theta) \, dx = 1 θ^(x)p(xθ)s(xθ)dx=1

改写:

E [ θ ^ s ] = 1 E[\hat{\theta} s] = 1 E[θ^s]=1

考虑 ( θ ^ − θ \hat{\theta} - \theta θ^θ )(估计误差),因为 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ):

E [ ( θ ^ − θ ) s ] = E [ θ ^ s ] − E [ θ s ] = 1 − 0 = 1 E[(\hat{\theta} - \theta) s] = E[\hat{\theta} s] - E[\theta s] = 1 - 0 = 1 E[(θ^θ)s]=E[θ^s]E[θs]=10=1

这是因为:
E [ θ s ] = θ E [ s ] = θ ⋅ 0 = 0 E[\theta s] = \theta E[s] = \theta \cdot 0 = 0 E[θs]=θE[s]=θ0=0

其中 ( θ \theta θ ) 是常数(真实参数),可以提出来,而 ( E [ s ] = 0 E[s] = 0 E[s]=0 ),所以 ( E [ θ s ] = 0 E[\theta s] = 0 E[θs]=0 )。

应用柯西-施瓦茨不等式

对于随机变量 ( X = θ ^ − θ X = \hat{\theta} - \theta X=θ^θ ) 和 ( Y = s Y = s Y=s ):

( E [ X Y ] ) 2 ≤ E [ X 2 ] E [ Y 2 ] (E[XY])^2 \leq E[X^2] E[Y^2] (E[XY])2E[X2]E[Y2]

代入:

1 2 ≤ E [ ( θ ^ − θ ) 2 ] E [ s 2 ] 1^2 \leq E[(\hat{\theta} - \theta)^2] E[s^2] 12E[(θ^θ)2]E[s2]

  • ( E [ ( θ ^ − θ ) 2 ] = Var ( θ ^ ) E[(\hat{\theta} - \theta)^2] = \text{Var}(\hat{\theta}) E[(θ^θ)2]=Var(θ^) )(无偏估计的方差)。
  • ( E [ s 2 ] = I ( θ ) E[s^2] = I(\theta) E[s2]=I(θ) )(Fisher信息)。

于是:

1 ≤ Var ( θ ^ ) ⋅ I ( θ ) 1 \leq \text{Var}(\hat{\theta}) \cdot I(\theta) 1Var(θ^)I(θ)

Var ( θ ^ ) ≥ 1 I ( θ ) \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} Var(θ^)I(θ)1

多参数情况下,协方差矩阵的不等式通过类似方法(矩阵形式的柯西-施瓦茨)得出:

Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)I(θ)1


Cramér-Rao界的意义

1. 精度下限

CRLB告诉我们,无论用什么方法,只要估计是无偏的,其协方差(或方差)都不可能低于 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 )。这为估计器的性能设定了“理论底线”。

2. 有效估计(Efficient Estimator)

如果某个估计 ( θ ^ \hat{\theta} θ^ ) 的协方差恰好等于 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 )(达到CRLB),它被称为“有效估计”。例如,最大似然估计(MLE)在大样本下常达到此界。

3. Fisher信息的角色

( I ( θ ) I(\theta) I(θ) ) 越大(信息越多),( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 越小,估计精度越高。反之,信息少时,精度受限。

例子:正态分布

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ),已知 ( σ 2 \sigma^2 σ2 ):

  • ( I ( μ ) = 1 σ 2 I(\mu) = \frac{1}{\sigma^2} I(μ)=σ21 )
  • ( Var ( μ ^ ) ≥ σ 2 n \text{Var}(\hat{\mu}) \geq \frac{\sigma^2}{n} Var(μ^)nσ2 )(( n n n ) 是样本量)。
  • 样本均值 ( μ ^ = 1 n ∑ x i \hat{\mu} = \frac{1}{n} \sum x_i μ^=n1xi ) 的方差正好是 ( σ 2 n \frac{\sigma^2}{n} nσ2 ),达到CRLB,是有效估计。

实际应用

1. 评估估计器性能

设计一个估计器后,拿它的协方差与CRLB对比:

  • 如果接近,说明很优秀。
  • 如果远超,可能是偏倚或效率低。

2. 实验设计

CRLB帮助优化数据采集。例如,增大样本量 ( n n n ) 或减少噪声 ( σ 2 \sigma^2 σ2 ),使 ( I ( θ ) I(\theta) I(θ) ) 变大,提升精度。

3. 机器学习

在深度学习中,Fisher信息矩阵用于优化(如自然梯度下降)。CRLB启发我们通过信息最大化改进模型。


总结

Cramér-Rao界是参数估计的“金标准”,通过Fisher信息矩阵的正定性,设定了一个协方差下界。正定保证 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 有效,量化了估计精度的极限。它不仅告诉我们“能有多准”,还指导我们如何设计更好的估计器。下次做估计时,不妨算算CRLB,看看你的方法离“完美”有多远!


补充:为什么 ( ∂ ∂ θ E [ θ ^ ] = 1 \frac{\partial}{\partial \theta} E[\hat{\theta}] = 1 θE[θ^]=1 )?

在Cramér-Rao界的推导中,我们假设 ( θ ^ \hat{\theta} θ^ ) 是 ( θ \theta θ ) 的无偏估计,即:

E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ

这意味着对于任意真实的参数值 ( θ \theta θ ),估计量 ( θ ^ \hat{\theta} θ^ ) 的期望始终等于 ( θ \theta θ )。现在,我们对这个等式两边对 ( θ \theta θ ) 求导,看看会发生什么。

推导步骤
  1. 左侧求导
    ∂ ∂ θ E [ θ ^ ] = ∂ ∂ θ θ \frac{\partial}{\partial \theta} E[\hat{\theta}] = \frac{\partial}{\partial \theta} \theta θE[θ^]=θθ
    因为 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ) 是一个恒等式,( θ \theta θ ) 对 ( θ \theta θ ) 的导数显然是:
    ∂ θ ∂ θ = 1 \frac{\partial \theta}{\partial \theta} = 1 θθ=1
    所以左侧等于1。

  2. 右侧求导
    ( E [ θ ^ ] E[\hat{\theta}] E[θ^] ) 是期望,表示为积分形式:
    E [ θ ^ ] = ∫ θ ^ ( x ) p ( x ∣ θ ) d x E[\hat{\theta}] = \int \hat{\theta}(x) p(x|\theta) \, dx E[θ^]=θ^(x)p(xθ)dx
    现在对 ( θ \theta θ ) 求导:
    ∂ ∂ θ E [ θ ^ ] = ∂ ∂ θ ∫ θ ^ ( x ) p ( x ∣ θ ) d x \frac{\partial}{\partial \theta} E[\hat{\theta}] = \frac{\partial}{\partial \theta} \int \hat{\theta}(x) p(x|\theta) \, dx θE[θ^]=θθ^(x)p(xθ)dx
    在正则条件下(积分和导数可以交换顺序),导数可以移到积分内部:
    = ∫ θ ^ ( x ) ∂ p ( x ∣ θ ) ∂ θ d x = \int \hat{\theta}(x) \frac{\partial p(x|\theta)}{\partial \theta} \, dx =θ^(x)θp(xθ)dx
    (注意 ( θ ^ ( x ) \hat{\theta}(x) θ^(x)) 是 ( x x x ) 的函数,不依赖 ( θ \theta θ ),所以导数只作用于 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ))。

  3. 得分函数的引入
    我们知道:
    ∂ p ( x ∣ θ ) ∂ θ = p ( x ∣ θ ) ∂ log ⁡ p ( x ∣ θ ) ∂ θ = p ( x ∣ θ ) s ( x ∣ θ ) \frac{\partial p(x|\theta)}{\partial \theta} = p(x|\theta) \frac{\partial \log p(x|\theta)}{\partial \theta} = p(x|\theta) s(x|\theta) θp(xθ)=p(xθ)θlogp(xθ)=p(xθ)s(xθ)
    其中 ( s ( x ∣ θ ) = ∂ log ⁡ p ( x ∣ θ ) ∂ θ s(x|\theta) = \frac{\partial \log p(x|\theta)}{\partial \theta} s(xθ)=θlogp(xθ) ) 是得分函数。所以:
    ∂ ∂ θ E [ θ ^ ] = ∫ θ ^ ( x ) p ( x ∣ θ ) s ( x ∣ θ ) d x = E [ θ ^ s ] \frac{\partial}{\partial \theta} E[\hat{\theta}] = \int \hat{\theta}(x) p(x|\theta) s(x|\theta) \, dx = E[\hat{\theta} s] θE[θ^]=θ^(x)p(xθ)s(xθ)dx=E[θ^s]

  4. 等于1的原因
    从步骤1我们知道左侧是1,因此:
    E [ θ ^ s ] = 1 E[\hat{\theta} s] = 1 E[θ^s]=1
    这表明无偏估计 ( θ ^ \hat{\theta} θ^ ) 和得分函数 ( s s s ) 的乘积期望恒等于1。这是一个关键性质,反映了 ( θ ^ \hat{\theta} θ^ ) 的无偏性如何与似然函数的梯度关联起来。

为什么是1?

直观上,( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ) 是一个关于 ( θ \theta θ ) 的恒等式,它的“变化率”是1。而右侧积分 ( E [ θ ^ s ] E[\hat{\theta} s] E[θ^s] ) 是这种变化率的统计表达,等于1是因为得分函数 ( s ) 捕捉了似然对 ( θ \theta θ ) 的敏感度,而 ( θ ^ \hat{\theta} θ^ ) 的无偏性保证了这种敏感度的期望恰好平衡为1。


后记

2025年2月25日13点24分于上海,在Grok3大模型辅助下完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24030.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QNX上如何抓tracelogger日志

背景 因QNX侧 QVM的分析CPU负载问题在android侧使用trace无法分析,故QNX侧的CPU负载问题需要用到tracelogger日志分析。 例如:使用hogs -l 42|grep qvm 中发现qvm的cpu负载 30%多 但是使用trace日志在Perfetto又查不到qvm信息,则需要抓取qn…

DeepSeek开源周 Day02:从DeepEP开源趋势重新审视大模型Infra

DeepEP 今天DeepSeek开源周第二天,开放了DeepEP仓库,属实看了下源码,和昨天FlashMLA一样,C权重(包括CUDA)还是占据了绝对部分,作为调包侠的我,看到之后望而却步,想看原理…

【Ambari】Ranger KMS

目录 一、Ranger KMS介绍 二、KMS基于Ranger插件安装 一、Ranger KMS介绍 Ranger KMS是把数据存储入后台数据库中。通过Ranger Admin可以集中化管理KMS服务。 Ranger KMS有三个优点 l Key management Ranger admin 提供了创建,更新,删除密钥的Web UI…

055 SpringCache

文章目录 缓存一致性Spring Cachepom.xmlapplication.ymlCubemallProductApplication.javaSpringCache改造三级分类MyCacheConfig.java缓存一致性 缓存一致性 锁 设置过期时间 读写锁 设置过期时间 Spring Cache 1.读模式 缓存穿透:查询一个null数据,…

神卓 S500 组网设备连接交换机的详细步骤

神卓 S500 组网设备连接交换机的详细步骤 神卓 S500 组网设备以其高效、灵活的解决方案,在异地监控组网中发挥着重要作用。本文将详细介绍神卓 S500 组网设备连接交换机的步骤,帮助您轻松实现网络的互联互通。 一、前期准备 确认设备型号与规格&#x…

图像处理案例06 OCR应用

OCR应用 1 OCR读取账单1.1 背景及思路1.2 代码 1 OCR读取账单 1.1 背景及思路 思路 目标是读取图片中账单的信息。首先要截取图片上的账单,考虑到账单并非都是整齐摆放,为了保持算法的通用性,通过透视变换对扣取的账单摆正,然后调…

2024最新版鸿蒙纯血原生应用开发教程文档丨学习ArkTS语言-基本语法

ArkTS是HarmonyOS的主要应用开发语言,在TypeScript基础上进行了扩展,保留了其基本风格,并通过增强静态检查和分析来提高程序的稳定性和性能。本教程将帮助开发者掌握ArkTS的核心功能、语法及最佳实践,以便高效地构建高性能移动应用…

【AIGC】使用Python实现科大讯飞语音服务ASR转录功能:完整指南

文章目录 讯飞ASR转写API完整指南1. 引言2. 讯飞ASR API介绍3. API参数说明3.1 认证参数3.2 上传参数3.3 查询结果参数3.4 orderResult 字段3.5 Lattice 字段3.6 json_1best 字段3.7 st 字段 4. Python代码实现4.1 生成签名4.2 上传音频文件4.3 获取转写结果4.4 解析转写结果 5…

微软开源神器OmniParser-v2.0本地部署教程

安装python环境 我这里是以前安装好的版本:python 3.11.5,这里不再介绍,有需要的可以在网上找教程。 安装Anaconda 我这里是以前安装好的版本:conda 23.7.4,这里也不再介绍,有需要的可以在网上找教程。 …

LLM+多智能体协作:基于CrewAI与DeepSeek的邮件自动化实践

文章目录 引言理解 Flows(工作流)与 Crews(协作组)一、环境准备与工具安装1.1 Python环境搭建1.2 创建并激活虚拟环境1.3 安装核心依赖库(crewai、litellm) 二、本地DeepSeek R1大模型部署2.1 Ollama框架安…

Linux——高级IO

一、前言概念 IO拷贝等待 1. 同步(Synchronous) vs 异步(Asynchronous) 核心区别:关注的是消息通知的机制。 同步:调用方主动等待结果,需持续检查任务是否完成。 异步:调用方发起…

Linux:基础IO

文章目录 一、理解"文件"1、狭义上的理解2、广义上的理解3、文件操作的认知4、系统角度 二、C语言文件接口1、ls /proc/[进程id] -l 命令查看当前正在运⾏进程的信息2、stdin 和 stdout 和 stderr 三、系统文件 I/O1、标志位传递的一种方法2、系统调用 open 三、文件…

zabbix数据采集以及自定义监控

目录 1.数据采集 2.自定义监控 2.1客户端 2.2服务端 ​​​​​​​1.数据采集 点击最新数据页面如下图 往下滑查看具体数据 并点击查看图像就可以看到图像了 就可以看到如下图内容 2.自定义监控 我们通过zabbix客户端任何模板就可以监控我们想要的任何资源 如果…

02.25 继承和多态

编写一个如下场景: 有一个英雄Hero类,私有成员,攻击,防御,速度,生命值,以及所有的set get 方法 编写一个 武器 Weapon 类,拥有私有成员攻击力,以及set get 方法 编写一个…

6. grafana的graph简介

1. Settings功能 2. Visualization功能 (可视化的方式,后续会写一些) 3. Display 功能(显示方面的设置) bars 柱状图方式显示 lines(不选不会出功能) line width 线条的粗细 staircase 会让折…

前缀和代码解析

前缀和是指数组一定范围的数的总和,常见的有两种,一维和二维,我会用两道题来分别解析 一维 DP34 【模板】前缀和 题目: 题目解析: 暴力解法 直接遍历数组,遍历到下标为 l 时,开始进行相加,直到遍历到下标为 r ,最后返回总和.这样做的时间复杂度为: O(n) public class Main …

RoCBert:具有多模态对比预训练的健壮中文BERT

摘要 大规模预训练语言模型在自然语言处理(NLP)任务上取得了最新的最优结果(SOTA)。然而,这些模型容易受到对抗攻击的影响,尤其是对于表意文字语言(如中文)。 在本研究中&#xff0…

【原创工具】文件清单生成器 By怜渠客

【原创工具】文件清单生成器 By怜渠客 刚在论坛看到了一个文件列表生成器 文件列表生成器 - 吾爱破解 - 52pojie.cn ,和我去年写的一个软件很像,当时我也是有需求,要把一个文件夹里及其子文件夹里所有的文件列出来,就临时弄了个小…

深度学习-6.用于计算机视觉的深度学习

Deep Learning - Lecture 6 Deep Learning for Computer Vision 简介深度学习在计算机视觉领域的发展时间线 语义分割语义分割系统的类型上采样层语义分割的 SegNet 架构软件中的SegNet 架构数据标注 目标检测与识别目标检测与识别问题两阶段和一阶段目标检测与识别两阶段检测器…

【Linux】初始操作系统和进程(一)

目录 前言: 一、冯诺依曼体系结构: 二、操作系统: 1.操作系统是什么? 2.为什么要有操作系统? 3.操作系统是如何管理下层的? 4.操作系统是如何对上层提供服务的? 三、进程: …