保形分位数回归(CQR)

目录

  • 简介
  • 1 介绍
    • 提纲式总结
  • 分位数回归
    • 从数据中估计分位数
  • 3 共性预测
  • 4 保形分位数回归(CQR)
    • 两个定理
  • 6 实验
  • 7 结论

简介

保形预测是一种构造在有限样本中获得有效覆盖的预测区间的技术,无需进行分布假设。尽管有这种吸引力,但现有的保形方法可能是不必要的保守,因为它们在输入空间中形成恒定或弱变化长度的区间。本文提出了一种完全适应异方差的新方法。它将保形预测与经典分位数回归相结合,继承了两者的优点。我们建立了有效覆盖的理论保证,并辅以对流行回归数据集的广泛实验。我们比较了保形分位数回归与其他保形方法的效率,表明我们的方法倾向于产生更短的区间。

论文:Conformalized Quantile Regression
作者:Yaniv Romano, Evan Patterson

关注微信公众号,获取更多资讯
在这里插入图片描述

1 介绍

在回归建模的许多应用中,重要的是不仅要准确预测,而且要量化预测的准确性。在涉及高风险决策的情况下尤其如此,例如估计药物的功效或信用违约的风险。预测中的不确定性可以用预测区间来量化,给出响应变量高概率所在的下界和上界。一个理想的生成预测区间的过程应该满足两个性质。首先,它应该在有限的样本中提供有效的覆盖,而不是做出强的分布假设,比如高斯性。其次,在输入空间的每个点上,它的间隔应该尽可能短,这样预测就会有信息量。当数据为异方差时,想得到有效但较短的预测区间需要根据预测空间中每个查询点的局部可变性来调整区间的长度。本文介绍了一种方法,该方法在这两个标准上都表现良好,既不受分布影响,又能适应异方差。

我们的工作很大程度上受到保形预测的启发,保形预测是一种构造预测区间的通用方法[1-6]。保形预测具有提供非渐近、无分布覆盖保证的优点。主要思想是在训练样本上拟合一个回归模型,然后在一个保留验证集上使用残差来量化未来预测的不确定性。最近的许多研究都研究了底层模型对预测区间长度的影响,并尝试构建局部长度变化的区间[6-16]。然而,如[6,15,17]所述,现有的方法产生固定长度或长度仅弱依赖于预测因子的保形区间。

到目前为止,在适形预测中,主要的推理焦点-条件均值估计-与最终的推理目标-预测区间估计之间存在不匹配。当需要一个区间时,估计平均值会损失统计效率。分位数回归提供了一种更直接的区间估计方法[18]。取任意一种分位数回归算法,即从数据中估计条件分位数函数。要获得名义覆盖率为90%的预测区间,只需在5%和95%的水平上拟合条件分位数函数,并形成相应的区间。即使对于高度异方差的数据,该方法也已被证明能够适应局部变化[19-25]。然而,在一定的正则性和渐近条件下,估计区间的有效性仅对特定模型保证[22-24]。

在这项工作中,我们将保形预测与分位数回归相结合。由此产生的方法,我们称之为保形分位数回归(CQR),既继承了保形预测的有限样本、无分布有效性,又继承了分位数回归的统计效率一方面,CQR具有灵活性,它可以包裹任何分位数回归的算法,包括随机森林和深度神经网络[26-29]。另一方面,CQR的一个关键优势是它对误覆盖率的严格控制,独立于底层回归算法。

提纲式总结

假设我们有 n n n训练样本 { ( X i , Y i ) } i = 1 n \{(X_i, Y_i)\}_{i=1}^n {(Xi,Yi)}i=1n,我们现在必须预测 Y n + 1 Y_{n+1} Yn+1在测试点 X n + 1 X_{n+1} Xn+1的未知值。我们假设所有的样本 { ( X i , Y i ) } i = 1 n + 1 \{(X_i,Y_i)\}_{i=1}^{n+1} {(Xi,Yi)}i=1n+1都是互换绘制的——例如,它们可以从特征向量 X ∈ R p X \in \R^p XRp和响应变量 Y ∈ R Y\in \R YR上的任意联合分布 P X Y P_{XY} PXY中绘制。我们的目标是构建一个可能包含未知响应 Y n + 1 Y_{n+1} Yn+1无边际分布预测区间 C ( X n + 1 ) ⊆ R C(X_{n+1}) \subseteq \R C(Xn+1)R。也就是说,给定一个期望的误覆盖率 α \alpha α,我们问
P { Y n + 1 ∈ C ( X n + 1 ) } ≥ 1 − α P \{Y_{n+1} \in C(X_{n+1}) \} \geq 1-\alpha P{Yn+1C(Xn+1)}1α
对于任意联合分布 P X Y P_{XY} PXY和任意样本量 n n n。在这个表述中,概率是边际的,它是取所有样本 { ( X i , Y i ) } i = 1 n + 1 \{(X_i, Y_i)\}_{i=1}^{n+1} {(Xi,Yi)}i=1n+1

为了实现这一点,我们建立在共形预测方法的基础上[2,3,8]。我们首先将训练数据分成两个不相交的子集,一个适当的训练集和一个校准集我们在适当的训练集上拟合两个分位数回归量,以获得预测区间下界和上界的初始估计,如第2节所述。然后,使用校准集,我们对该预测区间进行整合,必要时进行校正。与原始区间不同,无论分位数回归估计器的选择或精度如何,合规化预测区间都能保证满足覆盖要求(1)。我们将在第4节中证明这一点。

我们的方法不同于第3节中提到的适形预测的标准方法[3,15],因为我们使用条件分位数回归校准预测区间,而标准方法仅使用经典的条件均值回归。结果是我们的区间能适应异方差,而标准区间则不能。通过与其他方法的误覆盖率和平均间隔长度进行比较,评价了该框架的统计效率。我们在第5节中回顾了现有的最先进的保形预测方案,并将它们与第6节中的方法进行了比较。基于11个数据集的广泛实验,我们得出结论,共形分位数回归比竞争方法产生更短的间隔。

分位数回归

条件分位数回归koenker1978regression的目的是估计一个给定的分位数,如 Y Y Y的中位数,条件在 X X X上。回想一下 Y Y Y给定 X = x X=x X=x的条件分布函数是
F ( y ∣ X = x ) : = P { Y ≤ y ∣ X = x } , F(y \mid X=x) := P \{Y\leq y \mid X=x\}, F(yX=x):=P{YyX=x},
第α个条件分位数函数是
q α ( x ) : = inf ⁡ { y ∈ R : F ( y ∣ X = x ) ≥ α } . q_{\alpha}(x) := \inf \{y \in \R : F(y \mid X=x) \geq \alpha\}. qα(x):=inf{yR:F(yX=x)α}.
将上下分位数固定为 α l o = α / 2 \alpha_{lo}=\alpha/2 αlo=α/2 α h i = 1 − α / 2 \alpha_{hi} = 1 - \alpha /2 αhi=1α/2。给定上下条件分位数函数 q α ( x ) q_{\alpha}(x) qα(x) q α ( x ) q_{\alpha}(x) qα(x)对,在给定 x = x x =x x=x的情况下,我们得到 Y Y Y的条件预测区间,错覆盖率 α \alpha α
C ( x ) = [ q α l o ( x ) , q α h i ( x ) ] . C(x) = [q_{\alpha_{lo}}(x),\ q_{\alpha_{hi}}(x)]. C(x)=[qαlo(x), qαhi(x)].
通过构造,这个区间满足
P { Y ∈ C ( X ) ∣ X = x } ≥ 1 − α . P\{Y \in C(X) | X=x \} \geq 1 - \alpha. P{YC(X)X=x}1α.
注意,区间 C ( X ) C(X) C(X)的长度可以根据 X X X的值发生很大的变化。预测Y的不确定性自然反映在区间的长度上。在实践中,我们无法知道这个理想的预测区间,但我们可以尝试从数据中估计它。

从数据中估计分位数

经典回归分析通过最小化 n n n训练点的残差平方和来估计给定特征 X n + 1 = x X_{n+1}{=}x Xn+1=x的测试响应 Y n + 1 Y_{n+1} Yn+1的条件均值:
μ ^ ( x ) = μ ( x ; θ ^ ) , θ ^ = a r g m i n θ 1 n ∑ i = 1 n ( Y i − μ ( X i ; θ ) ) 2 + R ( θ ) . \hat{\mu}(x) = \mu(x; \hat\theta), \qquad \hat\theta = \underset{\theta}{\mathrm{argmin}} \ \frac{1}{n} \sum_{i=1}^n (Y_i - \mu(X_i ; \theta))^2 + \mathcal{R}(\theta). μ^(x)=μ(x;θ^),θ^=θargmin n1i=1n(Yiμ(Xi;θ))2+R(θ).
这里 θ \theta θ是回归模型的参数, μ ( x ; θ ) \mu(x; \theta) μ(x;θ)是回归函数, R \mathcal{R} R是一个潜在的正则化器。

类似地,分位数回归估计 Y n + 1 Y_{n+1} Yn+1给定 X n + 1 = x X_{n+1} {=} x Xn+1=x的条件分位数函数 q α q_{\alpha} qα。这可以看作是优化问题
q ^ α ( x ) = f ( x ; θ ^ ) , θ ^ = a r g m i n θ 1 n ∑ i = 1 n ρ α ( Y i , f ( X i ; θ ) ) + R ( θ ) , \hat{q}_\alpha(x) = f(x; \hat\theta), \qquad \hat\theta = \underset{\theta}{\mathrm{argmin}} \ \frac{1}{n} \sum_{i=1}^n \rho_\alpha (Y_i, f(X_i ; \theta)) + \mathcal{R}(\theta), q^α(x)=f(x;θ^),θ^=θargmin n1i=1nρα(Yi,f(Xi;θ))+R(θ),
其中 f ( x ; θ ) f(x;\theta) f(x;θ)为分位数回归函数,损失函数 ρ α \rho_\alpha ρα为“检查函数”或“弹球损失”\cite{koenker1978regression,steinwart2011estimating},定义为
在这里插入图片描述
该公式的简单性和通用性使得分位数回归得到了广泛的应用。与经典回归一样,我们可以利用各种各样的机器学习方法来设计和学习 q ^ α \hat{q}_\alpha q^α [19 - 21,23,30]。

所有这些都提出了一个明显的策略来构建一个具有名义误覆盖率 α \alpha α的预测带:使用分位数回归估计 q ^ α l o ( x ) \hat{q}_{\alpha_{lo}}(x) q^αlo(x) q ^ α h i ( x ) \hat{q}_{\alpha_{hi}}(x) q^αhi(x),然后从方程2输出 C ^ ( X n + 1 ) = [ q ^ α l o ( X n + 1 ) , q ^ α h i ( X n + 1 ) ] \hat{C}(X_{n+1}) = [\hat{q}_{\alpha_{lo}}(X_{n+1}), \ \hat{q}_{\alpha_{hi}}(X_{n+1})] C^(Xn+1)=[q^αlo(Xn+1), q^αhi(Xn+1)]作为对理想区间 C ( X n + 1 ) C(X_{n+1}) C(Xn+1)的估计。该方法具有广泛的适用性,在实际应用中效果良好,产生了适应异方差的区间。然而,当 C ( X ) C(X) C(X)被估计的间隔 C ^ ( X n + 1 ) \hat{C}(X_{n+1}) C^(Xn+1)取代时,不能保证满足覆盖语句3。事实上,缺乏有限样本保证有时可能是灾难性的。我们的实验证实了这一担忧,表明神经网络构建的区间在很大程度上可以隐藏。

在正则性条件下,对于特定模型,通过弹球损失或相关方法估计的条件分位数函数是渐近一致的[23,24,31,32]。某些不能使弹球损失最小化的方法,如分位数随机森林[22],也是渐近一致的。但是为了在有限的样本中得到有效的覆盖,我们必须从保形预测中吸取一组不同的思想。
在这里插入图片描述

图1:具有异常值的模拟异方差数据的预测区间(全范围显示见补充资料):(a)标准的分裂保形方法,(b)其局部自适应变体,© CQR(我们的方法)。间隔长度与X的关系如(d)所示。目标覆盖率为90%。(a)和(b)中破碎的黑色曲线是随机森林估计器的逐点预测。在©中,我们展示了两条曲线,分别表示基于随机森林的下和上分位数回归估计[22]。观察在这个例子中,分位数回归估计值如何与调整后的估计值(蓝色区域的边界)紧密匹配。

3 共性预测

现在我们描述保形预测[1,3]如何构建满足有限样本覆盖保证(1)的预测区间。为了准确地执行,原始的或完整的保形过程有效地要求回归算法被调用无限多次。相比之下,分割或归纳共形预测方法[2,8]避免了这个问题,但代价是分割数据。虽然我们的建议适用于两种版本的共形预测,但出于空间的考虑,我们将把注意力限制在分裂共形预测上,并请读者参阅[3,15]以获得两种方法之间更详细的比较。

在1节的假设下,拆分保形方法首先将训练数据拆分为两个不相交的子集:适当的训练集 { ( X i , Y i ) : i ∈ I 1 } \left\lbrace (X_i,Y_i): i \in \mathcal{I}_1 \right\rbrace {(Xi,Yi):iI1}和校准集 { ( X i , Y i ) : i ∈ I 2 } \left\lbrace (X_i,Y_i): i \in \mathcal{I}_2 \right\rbrace {(Xi,Yi):iI2}。然后,给定任意回归算法 A \mathcal{A} A, {在完全保形预测中,回归算法必须交换地处理数据,但在分割保形预测中没有这样的限制。},一个回归模型拟合到合适的训练集:
μ ^ ( x ) ← A ( { ( X i , Y i ) : i ∈ I 1 } ) . \hat{\mu}(x) \leftarrow \mathcal{A} \left( \{(X_i,Y_i) : i \in \mathcal{I}_1\} \right). μ^(x)A({(Xi,Yi):iI1}).
接下来,在校准集上计算绝对残差,如下所示:
R i = ∣ Y i − μ ^ ( X i ) ∣ , i ∈ I 2 . R_i = |Y_i - \hat{\mu}(X_i)|, \qquad \ i \in \mathcal{I}_2. Ri=Yiμ^(Xi), iI2.
对于给定水平 α \alpha α,我们计算绝对残差的经验分布的分位数,
Q 1 − α ( R , I 2 ) : = ( 1 − α ) ( 1 + 1 / ∣ I 2 ∣ ) -th empirical quantile of { R i : i ∈ I 2 } . Q_{1-\alpha}(R, \mathcal{I}_2) := (1-\alpha)(1+1/|\mathcal{I}_2|)\text{-th empirical quantile of} \left\{R_i : i \in \mathcal{I}_2 \right\}. Q1α(R,I2):=(1α)(1+1/∣I2)-th empirical quantile of{Ri:iI2}.
最后,新点 X n + 1 X_{n+1} Xn+1的预测区间由式给出
C ( X n + 1 ) = [ μ ^ ( X n + 1 ) − Q 1 − α ( R , I 2 ) , μ ^ ( X n + 1 ) + Q 1 − α ( R , I 2 ) ] . C(X_{n+1}) = \left[ \hat{\mu}(X_{n+1}) - Q_{1-\alpha}(R, \mathcal{I}_2) ,\ \hat{\mu}(X_{n+1}) + Q_{1-\alpha}(R, \mathcal{I}_2) \right]. C(Xn+1)=[μ^(Xn+1)Q1α(R,I2), μ^(Xn+1)+Q1α(R,I2)].
这个区间保证满足(1),如[3]所示。相关理论研究见[15,33]。

仔细观察预测区间1就会发现这个过程的一个主要限制: C ( X n + 1 ) C(X_{n+1}) C(Xn+1)的长度是固定的,等于 2 Q 1 − α ( R , I 2 ) 2Q_{1-\alpha}(R, \mathcal{I}_2) 2Q1α(R,I2),独立于 X n + 1 X_{n+1} Xn+1。Lei等观察到,在回归算法适度稳定的情况下,完全保形方法产生的区间也仅与 X n + 1 X_{n+1} Xn+1有轻微的变化。这给我们带来了我们的建议,它提供了一种构造变宽保形预测区间的原则方法。

4 保形分位数回归(CQR)

在本节中,我们将介绍我们的过程,首先在模拟数据上进行一个小实验,以展示它如何改进标准的适形预测。图1比较了以下三种方法产生的预测区间:(a)分裂共形方法,(b)其局部自适应变体(稍后在第5节中描述),以及©我们的方法,共形分位数回归(CQR)。数据的异方差是明显的,因为Y的色散随x变化很大。数据还包含异常值,如补充材料所示。对于这三种方法,我们在测试数据上构造了90%的预测区间。从图1a和1d中,我们可以看到,分裂的保形区间的长度是固定的,等于2.91。如图1b所示,局部加权变量的预测区间是部分自适应的,因此预测区间略短,平均长度为2.86。如图1c所示,我们的方法也是自适应的,但是它的预测间隔相当短,平均长度为1.99,这是由于对上下分位数的更好估计。我们建议读者参阅补充材料,了解有关该实验的进一步细节,以及第二个模拟,证明了CQR在重尾数据上的优势。

现在我们来描述CQR本身。与拆分共形预测一样,我们首先将数据拆分为一个适当的训练集(以 I 1 \mathcal{I}_1 I1为索引)和一个校准集(以 I 2 \mathcal{I}_2 I2为索引)。给定任意分位数回归算法 A \mathcal{A} A,然后我们在适当的训练集上拟合两个条件分位数函数 q ^ α l o \hat{q}_{\alpha_{lo}} q^αlo q ^ α h i \hat{q}_{\alpha_{hi}} q^αhi:
{ q ^ α l o , q ^ α h i } ← A ( { ( X i , Y i ) : i ∈ I 1 } ) . \left\lbrace \hat{q}_{\alpha_{lo}}, \hat{q}_{\alpha_{hi}} \right\rbrace \leftarrow \mathcal{A}(\left\lbrace (X_i, Y_i): i \in \mathcal{I}_1 \right\rbrace). {q^αlo,q^αhi}A({(Xi,Yi):iI1}).
在基本的下一步中,我们计算一致性分数,量化插件预测区间 C ^ ( x ) = [ q ^ α l o ( x ) , q ^ α h i ( x ) ] \hat{C}(x) = [\hat{q}_{\alpha_{lo}}(x), \ \hat{q}_{\alpha_{hi}}(x)] C^(x)=[q^αlo(x), q^αhi(x)]所产生的错误。在校准集上对分数进行评估为
E i : = max ⁡ { q ^ α l o ( X i ) − Y i , Y i − q ^ α h i ( X i ) } E_i := \max\{\hat{q}_{\alpha_{lo}}(X_i) - Y_i, Y_i - \hat{q}_{\alpha_{hi}}(X_i)\} Ei:=max{q^αlo(Xi)Yi,Yiq^αhi(Xi)}
对于每个 i ∈ I 2 i \in \mathcal{I}_2 iI2。符合性得分 E i E_i Ei有以下解释。如果 Y i Y_i Yi低于区间的下端点 Y i < q ^ α l o ( X i ) Y_i < \hat{q}_{\alpha_{lo}}(X_i) Yi<q^αlo(Xi),则 E i = ∣ Y i − q ^ α l o ( X i ) ∣ E_i = |Y_i - \hat{q}_{\alpha_{lo}}(X_i)| Ei=Yiq^αlo(Xi)是该错误引起的误差的大小。类似地,如果 Y i Y_i Yi高于区间的上端点 Y i > q ^ α h i ( X i ) Y_i > \hat{q}_{\alpha_{hi}}(X_i) Yi>q^αhi(Xi),则为 E i = ∣ Y i − q ^ α h i ( X i ) ∣ E_i = |Y_i - \hat{q}_{\alpha_{hi}}(X_i)| Ei=Yiq^αhi(Xi)。最后,如果 Y i Y_i Yi正确地属于区间 q ^ α l o ( X i ) ≤ Y i ≤ q ^ α h i ( X i ) \hat{q}_{\alpha_{lo}}(X_i) \leq Y_i \leq \hat{q}_{\alpha_{hi}}(X_i) q^αlo(Xi)Yiq^αhi(Xi),那么 E i E_i Ei是两个非正数 q ^ α l o ( X i ) − Y i \hat{q}_{\alpha_{lo}}(X_i) - Y_i q^αlo(Xi)Yi Y i − q ^ α h i ( X i ) Y_i - \hat{q}_{\alpha_{hi}}(X_i) Yiq^αhi(Xi)中较大的一个,因此它本身是非正数。因此,符合性评分说明了覆盖不足和覆盖过度。

最后,给定新的输入数据 X n + 1 X_{n+1} Xn+1,我们构造 Y n + 1 Y_{n+1} Yn+1的预测区间为
C ( X n + 1 ) = [ q ^ α l o ( X n + 1 ) − Q 1 − α ( E , I 2 ) , q ^ α h i ( X n + 1 ) + Q 1 − α ( E , I 2 ) ] , C(X_{n+1}) = \left[ \hat{q}_{\alpha_{lo}}(X_{n+1}) - Q_{1-\alpha}(E, \mathcal{I}_2) , \ \hat{q}_{\alpha_{hi}}(X_{n+1}) + Q_{1-\alpha}(E, \mathcal{I}_2) \right], C(Xn+1)=[q^αlo(Xn+1)Q1α(E,I2), q^αhi(Xn+1)+Q1α(E,I2)],
其中,
Q 1 − α ( E , I 2 ) : = ( 1 − α ) ( 1 + 1 / ∣ I 2 ∣ ) -th empirical quantile of { E i : i ∈ I 2 } Q_{1-\alpha}(E, \mathcal{I}_2) := (1-\alpha)(1+1/|\mathcal{I}_2|)\text{-th empirical quantile of} \left\{E_i : i \in \mathcal{I}_2\right\} Q1α(E,I2):=(1α)(1+1/∣I2)-th empirical quantile of{Ei:iI2}
整合插件预测间隔。

为了便于参考,在算法1中对CQR过程进行了总结。下面的定理在补充材料中证明了它的有效性。
在这里插入图片描述

两个定理

定理1 如果 ( X i , Y i ) (X_i, Y_i) (Xi,Yi) i = 1 , … , n + 1 i=1,\dots, n+1 i=1,n+1是可交换的,则由分割CQR算法构造的预测区间 C ( X n + 1 ) C(X_{n+1}) C(Xn+1)满足
P { Y n + 1 ∈ C ( X n + 1 ) } ≥ 1 − α . ( 7 ) P\{Y_{n+1} \in C(X_{n+1}) \} \geq 1-\alpha. \quad \quad (7) P{Yn+1C(Xn+1)}1α.(7)
此外,如果一致性得分 E i E_i Ei几乎肯定是不同的,那么预测区间几乎是完美校准的:
P { Y n + 1 ∈ C ( X n + 1 ) } ≤ 1 − α + 1 ∣ I 2 ∣ + 1 . ( 8 ) P\{Y_{n+1} \in C(X_{n+1})\} \leq 1-\alpha+\frac{1}{|\mathcal{I}_2|+1}. \quad \quad (8) P{Yn+1C(Xn+1)}1α+I2+11.(8)

实际注意事项和扩展
合规化分位数回归可以适应多种分位数回归方法[18 - 23,25,30]来估计条件分位数函数 q α l o q_{\alpha_{lo}} qαlo q α h i q_{α_{hi}} qαhi。估计量甚至可以是不同分位数回归算法的集合。最近,人们提出了新的深度学习技术[26-29]来构建预测区间。这些方法可以被我们的框架包装起来,然后立即享受严格的覆盖保证。在我们的实验中,我们主要关注分位数神经网络[20]和分位数回归森林[22]。

由于底层分位数回归算法可以以任意方式处理适当的训练集,因此我们的框架在超参数调优方面提供了广泛的灵活性。例如,考虑神经网络的典型超参数的调整,如批处理大小、学习率和epoch数量。像往常一样,可以通过交叉验证来选择超参数,其中我们最小化折叠上的平均间隔长度。
在这方面,我们记录了两个我们认为有用的具体实现细节。

  • 1 分位数回归有时过于保守,导致不必要的宽预测区间。根据我们的经验,分位数回归森林[22]往往过于保守,而分位数神经网络[20]偶尔也会如此。我们可以通过调整底层方法的名义分位数作为交叉验证中的额外超参数来缓解这个问题。值得注意的是,这种调优并不会使覆盖保证失效,但它可能产生更短的间隔,正如我们的实验所证实的那样。
  • 2 为了减少计算成本,我们可以用上下分位数的二维估计取代未知响应的标准一维估计,而不是拟合两个单独的神经网络来估计上下分位数函数。通过这种方式,大多数网络参数在两个分位数估计器之间共享。我们在第6节的实验中采用了这种方法。

另一个扩展途径是构象步骤。由式(7)和式(8)实现的保形化允许覆盖误差在左右尾翼上任意分布。使用类似于[34]的方法,我们可以独立控制左右尾,从而获得更强的覆盖保证。如下所述,并在补充材料中予以证明。正如我们将在第6节中看到的,为更强的覆盖保证所付出的代价是稍长的间隔。

定理2:定义预测间隔
C ( X n + 1 ) : = [ q ^ α l o ( X n + 1 ) − Q 1 − α l o ( E l o , I 2 ) , q ^ α h i ( X n + 1 ) + Q 1 − α h i ( E h i , I 2 ) ] , C(X_{n+1}) := [\hat{q}_{\alpha_{lo}}(X_{n+1}) - Q_{1-\alpha_{lo}}(E_{\mathrm{lo}}, \mathcal{I}_2),\; \hat{q}_{\alpha_{hi}}(X_{n+1}) + Q_{1-\alpha_{hi}}(E_{\mathrm{hi}}, \mathcal{I}_2)], C(Xn+1):=[q^αlo(Xn+1)Q1αlo(Elo,I2),q^αhi(Xn+1)+Q1αhi(Ehi,I2)],
其中 Q 1 − α l o ( E l o , I 2 ) Q_{1-\alpha_{lo}}(E_{\mathrm{lo}}, \mathcal{I}_2) Q1αlo(Elo,I2) { q ^ α l o ( X i ) − Y i : i ∈ I 2 } \{\hat{q}_{\alpha_{lo}}(X_i) - Y_i: i \in \mathcal{I}_2\} {q^αlo(Xi)Yi:iI2} ( 1 − α l o ) (1-\alpha_{lo}) (1αlo) -第一个经验分位数, Q 1 − α h i ( E h i , I 2 ) Q_{1-\alpha_{hi}}(E_{\mathrm{hi}}, \mathcal{I}_2) Q1αhi(Ehi,I2) { Y i − q ^ α h i ( X i ) : i ∈ I 2 } \{Y_i - \hat{q}_{\alpha_{hi}}(X_i): i \in \mathcal{I}_2\} {Yiq^αhi(Xi):iI2} ( 1 − α h i ) (1-\alpha_{hi}) (1αhi) -第一个经验分位数。如果样品 ( X i , Y i ) (X_i, Y_i) (Xi,Yi), i = 1 , … , n + 1 i=1,\dots, n+1 i=1,,n+1是可交换的,那么
P { Y n + 1 ≥ q ^ α l o ( X n + 1 ) − Q 1 − α l o ( E l o , I 2 ) } ≥ 1 − α l o P\{Y_{n+1} \geq \hat{q}_{\alpha_{lo}}(X_{n+1}) - Q_{1-\alpha_{lo}}(E_{\mathrm{lo}}, \mathcal{I}_2)\} \geq 1-\alpha_{lo} P{Yn+1q^αlo(Xn+1)Q1αlo(Elo,I2)}1αlo

P { Y n + 1 ≤ q ^ α h i ( X n + 1 ) + Q 1 − α h i ( E h i , I 2 ) } ≥ 1 − α h i . P\{Y_{n+1} \leq \hat{q}_{\alpha_{hi}}(X_{n+1}) + Q_{1-\alpha_{hi}}(E_{\mathrm{hi}}, \mathcal{I}_2)\} \geq 1-\alpha_{hi}. P{Yn+1q^αhi(Xn+1)+Q1αhi(Ehi,I2)}1αhi.
因此,假设 α = α l o + α h i \alpha = \alpha_{lo} + \alpha_{hi} α=αlo+αhi,我们还有 P { Y n + 1 ∈ C ( X n + 1 ) } ≥ 1 − α P\{Y_{n+1} \in C(X_{n+1})\} \geq 1 - \alpha P{Yn+1C(Xn+1)}1α

6 实验

在本节中,我们系统地比较了我们的方法,共形分位数回归,与标准和局部自适应版本的分裂共形预测。在已有的共形预测算法中,我们选择了使用随机森林[10]和神经网络[35]进行条件均值回归的领先变体。具体来说,我们使用三种回归算法:Ridge、Random Forests和Neural Net来评估原始版本的分裂保形预测(Section 3)。我们使用相同的三种基本回归算法来评估局部自适应保形预测(第5节):Ridge Local, Random Forests Local和Neural Net Local。同样,我们将方法(算法1)配置为使用分位数随机森林[22]、CQR随机森林和分位数神经网络[20]、CQR神经网络。最后,作为基线,我们还包括前面的两种分位数回归算法,但没有任何一致性:分位数随机森林和分位数神经网络。与其他方法相比,后两种方法没有有限样本覆盖保证。所有的实现细节都可以在补充材料中找到。

我们在补充材料中列出的11个回归基准数据集上进行了实验。在每种情况下,我们将特征标准化,使其具有零均值和单位方差,并通过将其除以其均值绝对值来重新调整响应。性能指标在20个不同的训练-测试分割中平均;80%的样本用于训练,剩下的20%用于测试。分割保形预测所需的训练集和校准集大小相等。在整个实验中,名义误覆盖率是固定的,设为α = 0.1。
在这里插入图片描述

表1:预测区间的长度和覆盖率(α = 0.1),在11个数据集和20个随机训练-测试分割中平均。我们的方法以粗体显示。用星号标记的方法不受有限样本覆盖保证的支持。

表1总结了我们的2,200个实验,显示了所有数据集和训练-测试分割的平均性能。平均而言,该方法的预测间隔比标准预测和局部自适应保形预测都要短。令人惊讶的是,我们的方法也优于非一致性分位数回归,后者允许更多的训练数据。对此有几种可能的解释。首先,非一致性方法有时会覆盖,但这可以通过我们的签名一致性分数来缓解(6)。此外,通过使用CQR,我们可以使用交叉验证来调整底层分位数回归算法的分位数(第4节)。有趣的是,CQR选择低于名义水平的分位数。
在这里插入图片描述

图2:生物数据集上预测区间(α = 0.1)的平均长度(左)和覆盖率(右)[36]。彩色框中的数字是平均长度,红色表示分裂共形,灰色表示局部自适应分裂共形,浅蓝色表示我们的方法。

至于有效覆盖率的问题,所有基于保形预测的方法都成功地以90%的名义覆盖率构建了预测频带,正如理论所建议的那样。其中一种基于随机森林的非一致性方法略显保守,而另一种基于神经网络的方法则倾向于隐蔽。事实上,其他作者已经表明,分位数神经网络的覆盖率在很大程度上取决于超参数的调整,例如,[25,图3]中的实际覆盖率范围从名义上的95%到远低于50%。这种波动说明了保形预测的有限样本保证的重要性。

当通过两个独立的分位数回归估计下分位数和上分位数时,不能保证下分位数实际上比上分位数小。这就是所谓的分位数交叉问题[37]。分位数交叉可以影响分位数神经网络,但不会影响分位数回归森林。当两个分位数相距甚远时,比如5%和95%的分位数,我们应该期望估计很少交叉,这确实是我们在实验中发现的。然而,我们也评估了一种消除交叉的后处理方法[38]。CQR神经网络的平均间隔长度从1.40下降到1.35,而覆盖率保持不变。非整合分位数神经网络的平均区间长度从1.50下降到1.40,平均覆盖率从88.87下降到87.99。

不出所料,采用定理2中提出的双尾不对称保形会使平均间隔长度比定理1的对称保形有所增加。具体来说,CQR神经网络的平均长度从1.40增加到1.58,而覆盖率保持不变。CQR随机森林的平均长度从1.40增加到1.57,平均盖度从90.34增加到90.94。

在补充材料中提供的一系列图表中,我们对不同方法在每个基准数据集上的性能进行了细分。单个数据集上的性能证实了表1中的总体趋势。局部自适应适形预测通常优于标准适形预测,并且在11个数据集中的10个数据集上,适形分位数回归优于两者。作为一个代表性的例子,图2显示了我们在一个数据集(生物)上关于蛋白质三级结构的理化性质的结果[36]。

7 结论

保形分位数回归是一种结合保形预测和分位数回归优点的构造预测区间的新方法。在交换性的温和分布假设下,有效地控制了有限样本的错覆盖率,同时使区间长度适应数据的异方差。

我们期望保形分位数回归背后的思想适用于保形预测分布的相关设置[39]。在这个保形预测的扩展中,目的是估计一个预测概率分布,而不仅仅是一个区间。我们发现我们的工作与最近一篇独立撰写的关于共形分布的论文之间存在有趣的联系[17]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/391743.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【文心智能体】梗图七夕版,一分钟让你看懂如何优化prompt,以及解析低代码工作流编排实现过程和零代码结合插件实现过程,依然是干货满满,进来康康吧

目录 背景什么是梗图梗图概念梗图结构 低代码开发最小运行单元大模型链提示词模板文心模板输出效果 测试工具链HTTP请求工具 梗图工具链全流程 梗图优化Prompt提示词优化后梗图结构提示词前后对比优化前效果优化后效果API接口BOS图片水印 梗图插件格式说明构思插件清单文件定义…

HTML-07.表格标签

一、要制作的表格如下 二、代码如下 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>表格标签<…

数据结构——双链表详解(超详细)

前言&#xff1a; 小编在之前已经写过单链表的创建了&#xff0c;接下来要开始双链表的讲解了&#xff0c;双链表比单链表要复杂一些&#xff0c;不过确实要比单链表更好进行实现&#xff01;下面紧跟小编的步伐&#xff0c;开启今天的双链表之旅&#xff01; 目录 1.概念和结构…

【已解决】没有密码,如何解除PPT的“只读方式”?

PPT可以设置有密码的“只读方式”&#xff0c;保护文件不被随意编辑更改。 在设置保护后&#xff0c;打开PPT时就会弹出对话框&#xff0c;提示需要“输入密码以修改或以只读方式打开”&#xff0c;也就是输入密码才能编辑修改PPT&#xff0c;如果点击“只读”也能打开文件&am…

[BJDCTF2020]Mark loves cat1

打开题目 发现这么多链接&#xff0c;以为要一点点去找功能上的漏洞。当你源代码&#xff0c;dirsearch&#xff0c;抓包等等操作之后&#xff0c;发现什么都没有。所以这题又是一道源码泄露题&#xff0c;上GItHack。扫描结果如下 http://63f29a80-e08b-43ae-a6d0-8e70fb02ea…

闪耀STIF2023国际科创节,望繁信科技荣获年度行业创新典范奖

2023年12月15日&#xff0c;望繁信科技在STIF2023第四届国际科创节暨DSC2023国际数字服务大会&#xff08;数服会&#xff09;活动评选中&#xff0c;斩获“2023年度行业创新典范”大奖。 作为科技创新与数字化服务领域最具影响力的年度盛会之一&#xff0c;STIF2023国际科创节…

目标检测——YOLOv10: Real-Time End-to-End Object Detection

YOLOv10是在YOLOv8的基础上&#xff0c;借鉴了RT-DETR的一些创新点改进出来的 标题&#xff1a;YOLOv10: Real-Time End-to-End Object Detection论文&#xff1a;https://arxiv.org/pdf/2405.14458源码&#xff1a;https://github.com/THU-MIG/yolov10 1. 论文介绍 在过去的几…

JAVA—面向对象编程高级

学习了一定基础后&#xff0c;开始更加深入的学习面向对象&#xff0c;包含static,final两个关键字&#xff0c;面向对象编程三大特征之继承和多态。以及对于抽象类&#xff0c;内部类&#xff0c;接口&#xff0c;枚举&#xff0c;泛型的学习。 目录 1.static &#xff08;…

原神自定义倒计时

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><title>原神倒计时</title><style>* {margin: 0;padding: 0;box-sizing: border-box;user-select: none;body {background: #0b1b2c;}}header {…

Javase--Date

1.Date简介 Date的学习: 1. java.util包下的类 2.用于日期、时间的描述 3. 实际上时距离一个固定时间点1970年1月1日00:00:00的毫秒数 4.我们常用的是格林威治时间:GMT UTC:世界调整时间 5.固定时间点:说的其实是本初子午线的时间。因此北京时间是1970年1月1日8:00:…

c++ 容器 vector

vector的意思就是向量&#xff0c;就是一个顺序表的意思&#xff0c;这个顺序表可以存任意的类型&#xff0c;因为其线性的内存特点&#xff0c;所以在stl里是经常被使用的存在。 vector vector既然要能储存任意的变量&#xff0c;那么就必须使用模板: 这里的T就是变量类型&a…

微信小程序之behaviors

目录 概括 Demo演示 进阶演示 1. 若具有同名的属性或方法 2. 若有同名的数据 3. 若有同名的生命周期函数 应用场景 最后 属性&方法 组件中使用 代码示例&#xff1a; 同名字段的覆盖和组合规则 概括 一句话总结: behaviors是用于组件间代码共享的特性, 类似一…

Docker简介 MacM1安装Docker

文章目录 1 Docker简介2 Docker VS 虚拟机1 Docker优势2 Docker用途 3 MacM1 下载安装Docker1 配置环境变量 4 配置Docker2 设置Docker资源3 设置Docker镜像 参考 1 Docker简介 Docker主要解决了软件开发和运行配置的问题&#xff0c;但是由于其功能的强大&#xff0c;也被应用…

LeetCode每日一题_600.不含连续1的非负整数

自己思路&#xff1a;暴力破解&#xff0c;但是超时 class Solution {public int findIntegers(int n) {int count0;String str2;for(int i 0;i<n;i){str2 Integer.toBinaryString(i);if(str2.contains("11")){count1;}}return n-count1;} }其他题解涉及动态规…

实战:使用Certbot签发免费ssl泛域名证书(主域名及其它子域名共用同一套证书)-2024.8.4(成功测试)

1、使用Certbot签发免费ssl泛域名证书 | One实战&#xff1a;使用Certbot签发免费ssl泛域名证书(主域名及其它子域名共用同一套证书)-2024.8.4(成功测试)https://wiki.onedayxyy.cn/docs/docs/Certbot-install/

利用 Angular 发挥环境的力量

一.介绍 您是否曾想过如何在不同的环境中为同一应用设置不同的颜色、标题或 API 调用&#xff1f;可以肯定的是&#xff0c;生产 API 和测试 API 是不同的&#xff0c;应谨慎使用。部署时&#xff0c;我们不会在项目的所有地方手动更改所有 API 调用。不应这样做&#xff0c;因…

【LeetCode每日一题】2024年8月第一周(下)

2024.8.03 中等 链接&#xff1a;3143. 正方形中的最多点数 &#xff08;1&#xff09;题目描述&#xff1a; &#xff08;2&#xff09;示例 &#xff08;3&#xff09;分析 题目中以s字符串中&#xff1a;相同的字母 为限制&#xff0c;要求方格内只包含不同字母对应的点位。…

YOLOv8添加注意力模块并测试和训练

YOLOv8添加注意力模块并测试和训练 参考bilibili视频 yolov8代码库中写好了注意力模块&#xff0c;但是yolov8的yaml文件中并没用使用它&#xff0c;如下图的通道注意力和空间注意力以及两者的结合CBAM&#xff0c;打开conv.py文件可以看到&#xff0c;其中包含了各种卷积块的…

【机器学习第7章——贝叶斯分类器】

机器学习第7章——贝叶斯分类器 7.贝叶斯分类器7.1贝叶斯决策论7.2 朴素贝叶斯分类器条件概率的m估计 7.3 极大似然估计优点基本原理 7.4 贝叶斯网络7.5 半朴素贝叶斯分类器7.6 EM算法7.7 EM算法实现 7.贝叶斯分类器 7.1贝叶斯决策论 一个医疗判断问题 有两个可选的假设&#…

校园商铺管理小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;商家管理&#xff0c;商品类型管理&#xff0c;商品信息管理&#xff0c;在线咨询管理&#xff0c;咨询回复管理&#xff0c;交流论坛&#xff0c;系统管理 微信端账号功能包括&a…