保形分位数回归（CQR）

简介

保形预测是一种构造在有限样本中获得有效覆盖的预测区间的技术，无需进行分布假设。尽管有这种吸引力，但现有的保形方法可能是不必要的保守，因为它们在输入空间中形成恒定或弱变化长度的区间。本文提出了一种完全适应异方差的新方法。它将保形预测与经典分位数回归相结合，继承了两者的优点。我们建立了有效覆盖的理论保证，并辅以对流行回归数据集的广泛实验。我们比较了保形分位数回归与其他保形方法的效率，表明我们的方法倾向于产生更短的区间。

论文：Conformalized Quantile Regression
作者：Yaniv Romano, Evan Patterson

关注微信公众号，获取更多资讯
在这里插入图片描述

1 介绍

在回归建模的许多应用中，重要的是不仅要准确预测，而且要量化预测的准确性。在涉及高风险决策的情况下尤其如此，例如估计药物的功效或信用违约的风险。预测中的不确定性可以用预测区间来量化，给出响应变量高概率所在的下界和上界。一个理想的生成预测区间的过程应该满足两个性质。首先，它应该在有限的样本中提供有效的覆盖，而不是做出强的分布假设，比如高斯性。其次，在输入空间的每个点上，它的间隔应该尽可能短，这样预测就会有信息量。当数据为异方差时，想得到有效但较短的预测区间需要根据预测空间中每个查询点的局部可变性来调整区间的长度。本文介绍了一种方法，该方法在这两个标准上都表现良好，既不受分布影响，又能适应异方差。

我们的工作很大程度上受到保形预测的启发，保形预测是一种构造预测区间的通用方法[1-6]。保形预测具有提供非渐近、无分布覆盖保证的优点。主要思想是在训练样本上拟合一个回归模型，然后在一个保留验证集上使用残差来量化未来预测的不确定性。最近的许多研究都研究了底层模型对预测区间长度的影响，并尝试构建局部长度变化的区间[6-16]。然而，如[6,15,17]所述，现有的方法产生固定长度或长度仅弱依赖于预测因子的保形区间。

到目前为止，在适形预测中，主要的推理焦点-条件均值估计-与最终的推理目标-预测区间估计之间存在不匹配。当需要一个区间时，估计平均值会损失统计效率。分位数回归提供了一种更直接的区间估计方法[18]。取任意一种分位数回归算法，即从数据中估计条件分位数函数。要获得名义覆盖率为90%的预测区间，只需在5%和95%的水平上拟合条件分位数函数，并形成相应的区间。即使对于高度异方差的数据，该方法也已被证明能够适应局部变化[19-25]。然而，在一定的正则性和渐近条件下，估计区间的有效性仅对特定模型保证[22-24]。

在这项工作中，我们将保形预测与分位数回归相结合。由此产生的方法，我们称之为保形分位数回归(CQR)，既继承了保形预测的有限样本、无分布有效性，又继承了分位数回归的统计效率一方面，CQR具有灵活性，它可以包裹任何分位数回归的算法，包括随机森林和深度神经网络[26-29]。另一方面，CQR的一个关键优势是它对误覆盖率的严格控制，独立于底层回归算法。

提纲式总结

假设我们有 $n$ 训练样本 ${(X_i, Y_i)\}_{i=1}^n$ ，我们现在必须预测 $Y_{n+1}$ 在测试点 $X_{n+1}$ 的未知值。我们假设所有的样本 ${(X_i,Y_i)\}_{i=1}^{n+1}$ 都是互换绘制的——例如，它们可以从特征向量 $\in \R^p$ 和响应变量 $Y\in \R$ 上的任意联合分布 $P_{XY}$ 中绘制。我们的目标是构建一个可能包含未知响应 $Y_{n+1}$ 的无边际分布预测区间 $C(X_{n+1}) \subseteq \R$ 。也就是说，给定一个期望的误覆盖率 $\alpha$ ，我们问
$\{Y_{n+1} \in C(X_{n+1}) \} \geq 1-\alpha$
对于任意联合分布 $P_{XY}$ 和任意样本量 $n$ 。在这个表述中，概率是边际的，它是取所有样本 ${(X_i, Y_i)\}_{i=1}^{n+1}$ 。

为了实现这一点，我们建立在共形预测方法的基础上[2,3,8]。我们首先将训练数据分成两个不相交的子集，一个适当的训练集和一个校准集我们在适当的训练集上拟合两个分位数回归量，以获得预测区间下界和上界的初始估计，如第2节所述。然后，使用校准集，我们对该预测区间进行整合，必要时进行校正。与原始区间不同，无论分位数回归估计器的选择或精度如何，合规化预测区间都能保证满足覆盖要求(1)。我们将在第4节中证明这一点。

我们的方法不同于第3节中提到的适形预测的标准方法[3,15]，因为我们使用条件分位数回归校准预测区间，而标准方法仅使用经典的条件均值回归。结果是我们的区间能适应异方差，而标准区间则不能。通过与其他方法的误覆盖率和平均间隔长度进行比较，评价了该框架的统计效率。我们在第5节中回顾了现有的最先进的保形预测方案，并将它们与第6节中的方法进行了比较。基于11个数据集的广泛实验，我们得出结论，共形分位数回归比竞争方法产生更短的间隔。

分位数回归

条件分位数回归koenker1978regression的目的是估计一个给定的分位数，如 $Y$ 的中位数，条件在 $X$ 上。回想一下 $Y$ 给定 $X = x$ 的条件分布函数是
$\mid X=x) := P \{Y\leq y \mid X=x\},$
第α个条件分位数函数是
$q_{\alpha}(x) := \inf \{y \in \R : F(y \mid X=x) \geq \alpha\}.$
将上下分位数固定为 $\alpha_{lo}=\alpha/2$ 和 $\alpha_{hi} = 1 - \alpha /2$ 。给定上下条件分位数函数 $q_{\alpha}(x)$ 和 $q_{\alpha}(x)$ 对，在给定 $x = x$ 的情况下，我们得到 $Y$ 的条件预测区间，错覆盖率 $\alpha$ 为
$[q_{\alpha_{lo}}(x),\ q_{\alpha_{hi}}(x)].$
通过构造，这个区间满足
$P\{Y \in C(X) | X=x \} \geq 1 - \alpha.$
注意，区间 $C (X)$ 的长度可以根据 $X$ 的值发生很大的变化。预测Y的不确定性自然反映在区间的长度上。在实践中，我们无法知道这个理想的预测区间，但我们可以尝试从数据中估计它。

从数据中估计分位数

经典回归分析通过最小化 $n$ 训练点的残差平方和来估计给定特征 $X_{n+1}{=}x$ 的测试响应 $Y_{n+1}$ 的条件均值:
$\hat{\mu}(x) = \mu(x; \hat\theta), \qquad \hat\theta = \underset{\theta}{\mathrm{argmin}} \ \frac{1}{n} \sum_{i=1}^n (Y_i - \mu(X_i ; \theta))^2 + \mathcal{R}(\theta).$
这里 $\theta$ 是回归模型的参数， $\mu(x; \theta)$ 是回归函数， $\mathcal{R}$ 是一个潜在的正则化器。

类似地，分位数回归估计 $Y_{n+1}$ 给定 $X_{n+1} {=} x$ 的条件分位数函数 $q_{\alpha}$ 。这可以看作是优化问题
$\hat{q}_\alpha(x) = f(x; \hat\theta), \qquad \hat\theta = \underset{\theta}{\mathrm{argmin}} \ \frac{1}{n} \sum_{i=1}^n \rho_\alpha (Y_i, f(X_i ; \theta)) + \mathcal{R}(\theta),$
其中 $f(x;\theta)$ 为分位数回归函数，损失函数 $\rho_\alpha$ 为“检查函数”或“弹球损失”\cite{koenker1978regression,steinwart2011estimating}，定义为
在这里插入图片描述
该公式的简单性和通用性使得分位数回归得到了广泛的应用。与经典回归一样，我们可以利用各种各样的机器学习方法来设计和学习 $\hat{q}_\alpha$ [19 - 21,23,30]。

所有这些都提出了一个明显的策略来构建一个具有名义误覆盖率 $\alpha$ 的预测带:使用分位数回归估计 $\hat{q}_{\alpha_{lo}}(x)$ 和 $\hat{q}_{\alpha_{hi}}(x)$ ，然后从方程2输出 $\hat{C}(X_{n+1}) = [\hat{q}_{\alpha_{lo}}(X_{n+1}), \ \hat{q}_{\alpha_{hi}}(X_{n+1})]$ 作为对理想区间 $C(X_{n+1})$ 的估计。该方法具有广泛的适用性，在实际应用中效果良好，产生了适应异方差的区间。然而，当 $C (X)$ 被估计的间隔 $\hat{C}(X_{n+1})$ 取代时，不能保证满足覆盖语句3。事实上，缺乏有限样本保证有时可能是灾难性的。我们的实验证实了这一担忧，表明神经网络构建的区间在很大程度上可以隐藏。

在正则性条件下，对于特定模型，通过弹球损失或相关方法估计的条件分位数函数是渐近一致的[23,24,31,32]。某些不能使弹球损失最小化的方法，如分位数随机森林[22]，也是渐近一致的。但是为了在有限的样本中得到有效的覆盖，我们必须从保形预测中吸取一组不同的思想。
在这里插入图片描述

图1:具有异常值的模拟异方差数据的预测区间(全范围显示见补充资料):(a)标准的分裂保形方法，(b)其局部自适应变体，© CQR(我们的方法)。间隔长度与X的关系如(d)所示。目标覆盖率为90%。(a)和(b)中破碎的黑色曲线是随机森林估计器的逐点预测。在©中，我们展示了两条曲线，分别表示基于随机森林的下和上分位数回归估计[22]。观察在这个例子中，分位数回归估计值如何与调整后的估计值(蓝色区域的边界)紧密匹配。

3 共性预测

现在我们描述保形预测[1,3]如何构建满足有限样本覆盖保证(1)的预测区间。为了准确地执行，原始的或完整的保形过程有效地要求回归算法被调用无限多次。相比之下，分割或归纳共形预测方法[2,8]避免了这个问题，但代价是分割数据。虽然我们的建议适用于两种版本的共形预测，但出于空间的考虑，我们将把注意力限制在分裂共形预测上，并请读者参阅[3,15]以获得两种方法之间更详细的比较。

在1节的假设下，拆分保形方法首先将训练数据拆分为两个不相交的子集:适当的训练集 $\left\lbrace (X_i,Y_i): i \in \mathcal{I}_1 \right\rbrace$ 和校准集 $\left\lbrace (X_i,Y_i): i \in \mathcal{I}_2 \right\rbrace$ 。然后，给定任意回归算法 $\mathcal{A}$ , {在完全保形预测中，回归算法必须交换地处理数据，但在分割保形预测中没有这样的限制。}，一个回归模型拟合到合适的训练集:
$\hat{\mu}(x) \leftarrow \mathcal{A} \left( \{(X_i,Y_i) : i \in \mathcal{I}_1\} \right).$
接下来，在校准集上计算绝对残差，如下所示:
$R_i = |Y_i - \hat{\mu}(X_i)|, \qquad \ i \in \mathcal{I}_2.$
对于给定水平 $\alpha$ ，我们计算绝对残差的经验分布的分位数，
$Q_{1-\alpha}(R, \mathcal{I}_2) := (1-\alpha)(1+1/|\mathcal{I}_2|)\text{-th empirical quantile of} \left\{R_i : i \in \mathcal{I}_2 \right\}.$
最后，新点 $X_{n+1}$ 的预测区间由式给出
$C(X_{n+1}) = \left[ \hat{\mu}(X_{n+1}) - Q_{1-\alpha}(R, \mathcal{I}_2) ,\ \hat{\mu}(X_{n+1}) + Q_{1-\alpha}(R, \mathcal{I}_2) \right].$
这个区间保证满足(1)，如[3]所示。相关理论研究见[15,33]。

仔细观察预测区间1就会发现这个过程的一个主要限制: $C(X_{n+1})$ 的长度是固定的，等于 $2Q_{1-\alpha}(R, \mathcal{I}_2)$ ，独立于 $X_{n+1}$ 。Lei等观察到，在回归算法适度稳定的情况下，完全保形方法产生的区间也仅与 $X_{n+1}$ 有轻微的变化。这给我们带来了我们的建议，它提供了一种构造变宽保形预测区间的原则方法。

4 保形分位数回归(CQR)

在本节中，我们将介绍我们的过程，首先在模拟数据上进行一个小实验，以展示它如何改进标准的适形预测。图1比较了以下三种方法产生的预测区间:(a)分裂共形方法，(b)其局部自适应变体(稍后在第5节中描述)，以及©我们的方法，共形分位数回归(CQR)。数据的异方差是明显的，因为Y的色散随x变化很大。数据还包含异常值，如补充材料所示。对于这三种方法，我们在测试数据上构造了90%的预测区间。从图1a和1d中，我们可以看到，分裂的保形区间的长度是固定的，等于2.91。如图1b所示，局部加权变量的预测区间是部分自适应的，因此预测区间略短，平均长度为2.86。如图1c所示，我们的方法也是自适应的，但是它的预测间隔相当短，平均长度为1.99，这是由于对上下分位数的更好估计。我们建议读者参阅补充材料，了解有关该实验的进一步细节，以及第二个模拟，证明了CQR在重尾数据上的优势。

现在我们来描述CQR本身。与拆分共形预测一样，我们首先将数据拆分为一个适当的训练集(以 $\mathcal{I}_1$ 为索引)和一个校准集(以 $\mathcal{I}_2$ 为索引)。给定任意分位数回归算法 $\mathcal{A}$ ，然后我们在适当的训练集上拟合两个条件分位数函数 $\hat{q}_{\alpha_{lo}}$ 和 $\hat{q}_{\alpha_{hi}}$ :
$\left\lbrace \hat{q}_{\alpha_{lo}}, \hat{q}_{\alpha_{hi}} \right\rbrace \leftarrow \mathcal{A}(\left\lbrace (X_i, Y_i): i \in \mathcal{I}_1 \right\rbrace).$
在基本的下一步中，我们计算一致性分数，量化插件预测区间 $\hat{C}(x) = [\hat{q}_{\alpha_{lo}}(x), \ \hat{q}_{\alpha_{hi}}(x)]$ 所产生的错误。在校准集上对分数进行评估为
$E_i := \max\{\hat{q}_{\alpha_{lo}}(X_i) - Y_i, Y_i - \hat{q}_{\alpha_{hi}}(X_i)\}$
对于每个 $\in \mathcal{I}_2$ 。符合性得分 $E_i$ 有以下解释。如果 $Y_i$ 低于区间的下端点 $Y_i < \hat{q}_{\alpha_{lo}}(X_i)$ ，则 $E_i = |Y_i - \hat{q}_{\alpha_{lo}}(X_i)|$ 是该错误引起的误差的大小。类似地，如果 $Y_i$ 高于区间的上端点 $Y_i > \hat{q}_{\alpha_{hi}}(X_i)$ ，则为 $E_i = |Y_i - \hat{q}_{\alpha_{hi}}(X_i)|$ 。最后，如果 $Y_i$ 正确地属于区间 $\hat{q}_{\alpha_{lo}}(X_i) \leq Y_i \leq \hat{q}_{\alpha_{hi}}(X_i)$ ，那么 $E_i$ 是两个非正数 $\hat{q}_{\alpha_{lo}}(X_i) - Y_i$ 和 $Y_i - \hat{q}_{\alpha_{hi}}(X_i)$ 中较大的一个，因此它本身是非正数。因此，符合性评分说明了覆盖不足和覆盖过度。

最后，给定新的输入数据 $X_{n+1}$ ，我们构造 $Y_{n+1}$ 的预测区间为
$C(X_{n+1}) = \left[ \hat{q}_{\alpha_{lo}}(X_{n+1}) - Q_{1-\alpha}(E, \mathcal{I}_2) , \ \hat{q}_{\alpha_{hi}}(X_{n+1}) + Q_{1-\alpha}(E, \mathcal{I}_2) \right],$
其中，
$Q_{1-\alpha}(E, \mathcal{I}_2) := (1-\alpha)(1+1/|\mathcal{I}_2|)\text{-th empirical quantile of} \left\{E_i : i \in \mathcal{I}_2\right\}$
整合插件预测间隔。

为了便于参考，在算法1中对CQR过程进行了总结。下面的定理在补充材料中证明了它的有效性。
在这里插入图片描述

两个定理

定理1 如果 $X_i, Y_i)$ ， $i=1，\dots, n+1$ 是可交换的，则由分割CQR算法构造的预测区间 $C(X_{n+1})$ 满足
$P\{Y_{n+1} \in C(X_{n+1}) \} \geq 1-\alpha. \quad \quad (7)$
此外，如果一致性得分 $E_i$ 几乎肯定是不同的，那么预测区间几乎是完美校准的:
$P\{Y_{n+1} \in C(X_{n+1})\} \leq 1-\alpha+\frac{1}{|\mathcal{I}_2|+1}. \quad \quad (8)$

实际注意事项和扩展
合规化分位数回归可以适应多种分位数回归方法[18 - 23,25,30]来估计条件分位数函数 $q_{\alpha_{lo}}$ 和 $q_{α_{hi}}$ 。估计量甚至可以是不同分位数回归算法的集合。最近，人们提出了新的深度学习技术[26-29]来构建预测区间。这些方法可以被我们的框架包装起来，然后立即享受严格的覆盖保证。在我们的实验中，我们主要关注分位数神经网络[20]和分位数回归森林[22]。

由于底层分位数回归算法可以以任意方式处理适当的训练集，因此我们的框架在超参数调优方面提供了广泛的灵活性。例如，考虑神经网络的典型超参数的调整，如批处理大小、学习率和epoch数量。像往常一样，可以通过交叉验证来选择超参数，其中我们最小化折叠上的平均间隔长度。
在这方面，我们记录了两个我们认为有用的具体实现细节。

1 分位数回归有时过于保守，导致不必要的宽预测区间。根据我们的经验，分位数回归森林[22]往往过于保守，而分位数神经网络[20]偶尔也会如此。我们可以通过调整底层方法的名义分位数作为交叉验证中的额外超参数来缓解这个问题。值得注意的是，这种调优并不会使覆盖保证失效，但它可能产生更短的间隔，正如我们的实验所证实的那样。
2 为了减少计算成本，我们可以用上下分位数的二维估计取代未知响应的标准一维估计，而不是拟合两个单独的神经网络来估计上下分位数函数。通过这种方式，大多数网络参数在两个分位数估计器之间共享。我们在第6节的实验中采用了这种方法。

另一个扩展途径是构象步骤。由式(7)和式(8)实现的保形化允许覆盖误差在左右尾翼上任意分布。使用类似于[34]的方法，我们可以独立控制左右尾，从而获得更强的覆盖保证。如下所述，并在补充材料中予以证明。正如我们将在第6节中看到的，为更强的覆盖保证所付出的代价是稍长的间隔。

定理2：定义预测间隔
$C(X_{n+1}) := [\hat{q}_{\alpha_{lo}}(X_{n+1}) - Q_{1-\alpha_{lo}}(E_{\mathrm{lo}}, \mathcal{I}_2),\; \hat{q}_{\alpha_{hi}}(X_{n+1}) + Q_{1-\alpha_{hi}}(E_{\mathrm{hi}}, \mathcal{I}_2)],$
其中 $Q_{1-\alpha_{lo}}(E_{\mathrm{lo}}, \mathcal{I}_2)$ 为 $\{\hat{q}_{\alpha_{lo}}(X_i) - Y_i: i \in \mathcal{I}_2\}$ 的 $(1-\alpha_{lo})$ -第一个经验分位数， $Q_{1-\alpha_{hi}}(E_{\mathrm{hi}}, \mathcal{I}_2)$ 为 $\{Y_i - \hat{q}_{\alpha_{hi}}(X_i): i \in \mathcal{I}_2\}$ 的 $(1-\alpha_{hi})$ -第一个经验分位数。如果样品 $X_i, Y_i)$ , $i=1,\dots, n+1$ 是可交换的，那么
$P\{Y_{n+1} \geq \hat{q}_{\alpha_{lo}}(X_{n+1}) - Q_{1-\alpha_{lo}}(E_{\mathrm{lo}}, \mathcal{I}_2)\} \geq 1-\alpha_{lo}$
且
$P\{Y_{n+1} \leq \hat{q}_{\alpha_{hi}}(X_{n+1}) + Q_{1-\alpha_{hi}}(E_{\mathrm{hi}}, \mathcal{I}_2)\} \geq 1-\alpha_{hi}.$
因此，假设 $\alpha = \alpha_{lo} + \alpha_{hi}$ ，我们还有 $P\{Y_{n+1} \in C(X_{n+1})\} \geq 1 - \alpha$ 。

6 实验

在本节中，我们系统地比较了我们的方法，共形分位数回归，与标准和局部自适应版本的分裂共形预测。在已有的共形预测算法中，我们选择了使用随机森林[10]和神经网络[35]进行条件均值回归的领先变体。具体来说，我们使用三种回归算法:Ridge、Random Forests和Neural Net来评估原始版本的分裂保形预测(Section 3)。我们使用相同的三种基本回归算法来评估局部自适应保形预测(第5节):Ridge Local, Random Forests Local和Neural Net Local。同样，我们将方法(算法1)配置为使用分位数随机森林[22]、CQR随机森林和分位数神经网络[20]、CQR神经网络。最后，作为基线，我们还包括前面的两种分位数回归算法，但没有任何一致性:分位数随机森林和分位数神经网络。与其他方法相比，后两种方法没有有限样本覆盖保证。所有的实现细节都可以在补充材料中找到。

我们在补充材料中列出的11个回归基准数据集上进行了实验。在每种情况下，我们将特征标准化，使其具有零均值和单位方差，并通过将其除以其均值绝对值来重新调整响应。性能指标在20个不同的训练-测试分割中平均;80%的样本用于训练，剩下的20%用于测试。分割保形预测所需的训练集和校准集大小相等。在整个实验中，名义误覆盖率是固定的，设为α = 0.1。
在这里插入图片描述

表1:预测区间的长度和覆盖率(α = 0.1)，在11个数据集和20个随机训练-测试分割中平均。我们的方法以粗体显示。用星号标记的方法不受有限样本覆盖保证的支持。

表1总结了我们的2,200个实验，显示了所有数据集和训练-测试分割的平均性能。平均而言，该方法的预测间隔比标准预测和局部自适应保形预测都要短。令人惊讶的是，我们的方法也优于非一致性分位数回归，后者允许更多的训练数据。对此有几种可能的解释。首先，非一致性方法有时会覆盖，但这可以通过我们的签名一致性分数来缓解(6)。此外，通过使用CQR，我们可以使用交叉验证来调整底层分位数回归算法的分位数(第4节)。有趣的是，CQR选择低于名义水平的分位数。
在这里插入图片描述

图2:生物数据集上预测区间(α = 0.1)的平均长度(左)和覆盖率(右)[36]。彩色框中的数字是平均长度，红色表示分裂共形，灰色表示局部自适应分裂共形，浅蓝色表示我们的方法。

至于有效覆盖率的问题，所有基于保形预测的方法都成功地以90%的名义覆盖率构建了预测频带，正如理论所建议的那样。其中一种基于随机森林的非一致性方法略显保守，而另一种基于神经网络的方法则倾向于隐蔽。事实上，其他作者已经表明，分位数神经网络的覆盖率在很大程度上取决于超参数的调整，例如，[25，图3]中的实际覆盖率范围从名义上的95%到远低于50%。这种波动说明了保形预测的有限样本保证的重要性。

当通过两个独立的分位数回归估计下分位数和上分位数时，不能保证下分位数实际上比上分位数小。这就是所谓的分位数交叉问题[37]。分位数交叉可以影响分位数神经网络，但不会影响分位数回归森林。当两个分位数相距甚远时，比如5%和95%的分位数，我们应该期望估计很少交叉，这确实是我们在实验中发现的。然而，我们也评估了一种消除交叉的后处理方法[38]。CQR神经网络的平均间隔长度从1.40下降到1.35，而覆盖率保持不变。非整合分位数神经网络的平均区间长度从1.50下降到1.40，平均覆盖率从88.87下降到87.99。

不出所料，采用定理2中提出的双尾不对称保形会使平均间隔长度比定理1的对称保形有所增加。具体来说，CQR神经网络的平均长度从1.40增加到1.58，而覆盖率保持不变。CQR随机森林的平均长度从1.40增加到1.57，平均盖度从90.34增加到90.94。

在补充材料中提供的一系列图表中，我们对不同方法在每个基准数据集上的性能进行了细分。单个数据集上的性能证实了表1中的总体趋势。局部自适应适形预测通常优于标准适形预测，并且在11个数据集中的10个数据集上，适形分位数回归优于两者。作为一个代表性的例子，图2显示了我们在一个数据集(生物)上关于蛋白质三级结构的理化性质的结果[36]。