分布偏移纠正
正如我们所讨论的,在许多情况下训练和测试分布 P ( x , y ) P(\mathbf{x}, y) P(x,y)是不同的。
在一些情况下,我们很幸运,不管协变量、标签或概念如何发生偏移,模型都能正常工作。
在另一些情况下,我们可以通过运用策略来应对这种偏移,从而做得更好。
本节的其余部分将着重于应对这种偏移的技术细节。
经验风险与实际风险
首先我们反思一下在模型训练期间到底发生了什么?
训练数据 { ( x 1 , y 1 ) , … , ( x n , y n ) } \{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\} {(x1,y1),…,(xn,yn)}的特征和相关的标签经过迭代,在每一个小批量之后更新模型 f f f的参数。
为了简单起见,我们不考虑正则化,因此极大地降低了训练损失:
m i n i m i z e f 1 n ∑ i = 1 n l ( f ( x i ) , y i ) , \mathop{\mathrm{minimize}}_f \frac{1}{n} \sum_{i=1}^n l(f(\mathbf{x}_i), y_i), minimizefn1i=1∑nl(f(xi),yi),
其中 l l l是损失函数,用来度量:给定标签 y i y_i yi,预测 f ( x i ) f(\mathbf{x}_i) f(xi)的“糟糕程度”。
统计学家称上式(式4.9.1)中的这一项为经验风险。经验风险(empirical risk)是为了近似 真实风险(true risk),
整个训练数据上的平均损失,即从其真实分布 p ( x , y ) p(\mathbf{x},y) p(x,y)中抽取的所有数据的总体损失的期望值:
E p ( x , y ) [ l ( f ( x ) , y ) ] = ∫ ∫ l ( f ( x ) , y ) p ( x , y ) d x d y . E_{p(\mathbf{x}, y)} [l(f(\mathbf{x}), y)] = \int\int l(f(\mathbf{x}), y) p(\mathbf{x}, y) \;d\mathbf{x}dy. Ep(x,y)[l(f(x),y)]=∫∫l(f(x),y)p(x,y)dxdy.
然而在实践中,我们通常无法获得总体数据。
因此,经验风险最小化即在式4.9.1中最小化经验风险,是一种实用的机器学习策略,希望能近似最小化真实风险。
协变量偏移纠正
假设对于带标签的数据 ( x i , y i ) (\mathbf{x}_i, y_i) (xi,yi),我们要评估 P ( y ∣ x ) P(y \mid \mathbf{x}) P(y∣x)。
然而观测值 x i \mathbf{x}_i xi是从某些源分布 q ( x ) q(\mathbf{x}) q(x)中得出的,而不是从目标分布 p ( x ) p(\mathbf{x}) p(x)中得出的。
幸运的是,依赖性假设意味着条件分布保持不变,即:
p ( y ∣ x ) = q ( y ∣ x ) p(y \mid \mathbf{x}) = q(y \mid \mathbf{x}) p(y∣x)=q(y∣x)。
如果源分布 q ( x ) q(\mathbf{x}) q(x)是“错误的”,我们可以通过在真实风险的计算中,使用以下简单的恒等式来进行纠正:
∫ ∫ l ( f ( x ) , y ) p ( y ∣ x ) p ( x ) d x d y = ∫ ∫ l ( f ( x ) , y ) q ( y ∣ x ) q ( x ) p ( x ) q ( x ) d x d y . \begin{aligned} \int\int l(f(\mathbf{x}), y) p(y \mid \mathbf{x})p(\mathbf{x}) \;d\mathbf{x}dy = \int\int l(f(\mathbf{x}), y) q(y \mid \mathbf{x})q(\mathbf{x})\frac{p(\mathbf{x})}{q(\mathbf{x})} \;d\mathbf{x}dy. \end{aligned} ∫∫l(f(x),y)p(y∣x)p(x)dxdy=∫∫l(f(x),y)q(y∣x)q(x)q(x)p(x)dxdy.
换句话说,我们需要根据数据来自正确分布与来自错误分布的概率之比,来重新衡量每个数据样本的权重:
β i = d e f p ( x i ) q ( x i ) . \beta_i \stackrel{\mathrm{def}}{=} \frac{p(\mathbf{x}_i)}{q(\mathbf{x}_i)}. βi=defq(xi)p(xi).
将权重 β i \beta_i βi代入到每个数据样本 ( x i , y i ) (\mathbf{x}_i, y_i) (xi,yi)中,
我们可以使用”加权经验风险最小化“来训练模型(式4.9.5):
m i n i m i z e f 1 n ∑ i = 1 n β i l ( f ( x i ) , y i ) . \mathop{\mathrm{minimize}}_f \frac{1}{n} \sum_{i=1}^n \beta_i l(f(\mathbf{x}_i), y_i). minimizefn1i=1∑nβil(f(xi),yi).
由于不知道这个比率,我们需要估计它。
有许多方法都可以用,包括一些花哨的算子理论方法,试图直接使用最小范数或最大熵原理重新校准期望算子。
对于任意一种这样的方法,我们都需要从两个分布中抽取样本:
“真实”的分布 p p p,通过访问测试数据获取;训练集 q q q,通过人工合成的很容易获得。
请注意,我们只需要特征 x ∼ p ( x ) \mathbf{x} \sim p(\mathbf{x}) x∼p(x),不需要访问标签 y ∼ p ( y ) y \sim p(y) y∼p(y)。
在这种情况下,有一种非常有效的方法可以得到几乎与原始方法一样好的结果:对数几率回归(logistic regression)。这是用于二元分类的softmax回归的一个特例。
综上所述,我们学习了一个分类器来区分从 p ( x ) p(\mathbf{x}) p(x)抽取的数据和从 q ( x ) q(\mathbf{x}) q(x)抽取的数据。
如果无法区分这两个分布,则意味着相关的样本可能来自这两个分布中的任何一个。
另一方面,任何可以很好区分的样本都应该相应地显著增加或减少权重。
为了简单起见,假设我们分别从 p ( x ) p(\mathbf{x}) p(x)和 q ( x ) q(\mathbf{x}) q(x)两个分布中抽取相同数量的样本。
现在用 z z z标签表示:从 p p p抽取的数据为 1 1 1,从 q q q抽取的数据为 − 1 -1 −1。
然后,混合数据集中的概率由下式给出
P ( z = 1 ∣ x ) = p ( x ) p ( x ) + q ( x ) and hence P ( z = 1 ∣ x ) P ( z = − 1 ∣ x ) = p ( x ) q ( x ) . P(z=1 \mid \mathbf{x}) = \frac{p(\mathbf{x})}{p(\mathbf{x})+q(\mathbf{x})} \text{ and hence } \frac{P(z=1 \mid \mathbf{x})}{P(z=-1 \mid \mathbf{x})} = \frac{p(\mathbf{x})}{q(\mathbf{x})}. P(z=1∣x)=p(x)+q(x)p(x) and hence P(z=−1∣x)P(z=1∣x)=q(x)p(x).
因此,如果我们使用对数几率回归方法,其中 P ( z = 1 ∣ x ) = 1 1 + exp ( − h ( x ) ) P(z=1 \mid \mathbf{x})=\frac{1}{1+\exp(-h(\mathbf{x}))} P(z=1∣x)=1+exp(−h(x))1( h h h是一个参数化函数),则很自然有:
β i = 1 / ( 1 + exp ( − h ( x i ) ) ) exp ( − h ( x i ) ) / ( 1 + exp ( − h ( x i ) ) ) = exp ( h ( x i ) ) . \beta_i = \frac{1/(1 + \exp(-h(\mathbf{x}_i)))}{\exp(-h(\mathbf{x}_i))/(1 + \exp(-h(\mathbf{x}_i)))} = \exp(h(\mathbf{x}_i)). βi=exp(−h(xi))/(1+exp(−h(xi)))1/(1+exp(−h(xi)))=exp(h(xi)).
因此,我们需要解决两个问题:
第一个问题是关于区分来自两个分布的数据;
第二个问题是关于式4.9.5中的加权经验风险的最小化问题。
在这个问题中,我们将对其中的项加权 β i \beta_i βi。
现在,我们来看一下完整的协变量偏移纠正算法。
假设我们有一个训练集 { ( x 1 , y 1 ) , … , ( x n , y n ) } \{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\} {(x1,y1),…,(xn,yn)}和一个未标记的测试集 { u 1 , … , u m } \{\mathbf{u}_1, \ldots, \mathbf{u}_m\} {u1,…,um}。
对于协变量偏移,我们假设 1 ≤ i ≤ n 1 \leq i \leq n 1≤i≤n的 x i \mathbf{x}_i xi来自某个源分布, u i \mathbf{u}_i ui来自目标分布。
以下是纠正协变量偏移的典型算法:
- 生成一个二元分类训练集: { ( x 1 , − 1 ) , … , ( x n , − 1 ) , ( u 1 , 1 ) , … , ( u m , 1 ) } \{(\mathbf{x}_1, -1), \ldots, (\mathbf{x}_n, -1), (\mathbf{u}_1, 1), \ldots, (\mathbf{u}_m, 1)\} {(x1,−1),…,(xn,−1),(u1,1),…,(um,1)}。
- 用对数几率回归训练二元分类器得到函数 h h h。
- 使用 β i = exp ( h ( x i ) ) \beta_i = \exp(h(\mathbf{x}_i)) βi=exp(h(xi))或更好的 β i = min ( exp ( h ( x i ) ) , c ) \beta_i = \min(\exp(h(\mathbf{x}_i)), c) βi=min(exp(h(xi)),c)( c c c为常量)对训练数据进行加权。
- 使用权重 β i \beta_i βi进行式4.9.5中 { ( x 1 , y 1 ) , … , ( x n , y n ) } \{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\} {(x1,y1),…,(xn,yn)}的训练。
请注意,上述算法依赖于一个重要的假设:
需要目标分布(例如,测试分布)中的每个数据样本在训练时出现的概率非零。
如果我们找到 p ( x ) > 0 p(\mathbf{x}) > 0 p(x)>0但 q ( x ) = 0 q(\mathbf{x}) = 0 q(x)=0的点,那么相应的重要性权重会是无穷大。
标签偏移纠正
假设我们处理的是 k k k个类别的分类任务。
q q q和 p p p中分别是源分布(例如训练时的分布)和目标分布(例如测试时的分布)。
假设标签的分布随时间变化: q ( y ) ≠ p ( y ) q(y) \neq p(y) q(y)=p(y),但类别条件分布保持不变: q ( x ∣ y ) = p ( x ∣ y ) q(\mathbf{x} \mid y)=p(\mathbf{x} \mid y) q(x∣y)=p(x∣y)。
如果源分布 q ( y ) q(y) q(y)是“错误的”,我们可以根据定义的真实风险中的恒等式进行更正:
∫ ∫ l ( f ( x ) , y ) p ( x ∣ y ) p ( y ) d x d y = ∫ ∫ l ( f ( x ) , y ) q ( x ∣ y ) q ( y ) p ( y ) q ( y ) d x d y . \begin{aligned} \int\int l(f(\mathbf{x}), y) p(\mathbf{x} \mid y)p(y) \;d\mathbf{x}dy = \int\int l(f(\mathbf{x}), y) q(\mathbf{x} \mid y)q(y)\frac{p(y)}{q(y)} \;d\mathbf{x}dy. \end{aligned} ∫∫l(f(x),y)p(x∣y)p(y)dxdy=∫∫l(f(x),y)q(x∣y)q(y)q(y)p(y)dxdy.
这里,重要性权重将对应于标签似然比率
β i = d e f p ( y i ) q ( y i ) . \beta_i \stackrel{\mathrm{def}}{=} \frac{p(y_i)}{q(y_i)}. βi=defq(yi)p(yi).
标签偏移的一个好处是,如果我们在源分布上有一个相当好的模型,那么我们可以得到对这些权重的一致估计,而不需要处理周边的其他维度。
在深度学习中,输入往往是高维对象(如图像),而标签通常是低维(如类别)。
为了估计目标标签分布,我们首先采用性能相当好的现成的分类器(通常基于训练数据进行训练),并使用验证集(也来自训练分布)计算其混淆矩阵。
混淆矩阵 C \mathbf{C} C是一个 k × k k \times k k×k矩阵,其中每列对应于标签类别,每行对应于模型的预测类别。
每个单元格的值 c i j c_{ij} cij是验证集中,真实标签为 j j j,而我们的模型预测为 i i i的样本数量所占的比例。
现在,我们不能直接计算目标数据上的混淆矩阵,因为我们无法看到真实环境下的样本的标签,除非我们再搭建一个复杂的实时标注流程。
然而,我们所能做的是将所有模型在测试时的预测取平均数,得到平均模型输出 μ ( y ^ ) ∈ R k \mu(\hat{\mathbf{y}}) \in \mathbb{R}^k μ(y^)∈Rk,其中第 i i i个元素 μ ( y ^ i ) \mu(\hat{y}_i) μ(y^i)是我们模型预测测试集中 i i i的总预测分数。
结果表明,如果我们的分类器一开始就相当准确,并且目标数据只包含我们以前见过的类别,以及如果标签偏移假设成立(这里最强的假设),我们就可以通过求解一个简单的线性系统来估计测试集的标签分布
C p ( y ) = μ ( y ^ ) , \mathbf{C} p(\mathbf{y}) = \mu(\hat{\mathbf{y}}), Cp(y)=μ(y^),
因为作为一个估计, ∑ j = 1 k c i j p ( y j ) = μ ( y ^ i ) \sum_{j=1}^k c_{ij} p(y_j) = \mu(\hat{y}_i) ∑j=1kcijp(yj)=μ(y^i)对所有 1 ≤ i ≤ k 1 \leq i \leq k 1≤i≤k成立,其中 p ( y j ) p(y_j) p(yj)是 k k k维标签分布向量 p ( y ) p(\mathbf{y}) p(y)的第 j t h j^\mathrm{th} jth元素。
如果我们的分类器一开始就足够精确,那么混淆矩阵 C \mathbf{C} C将是可逆的,进而我们可以得到一个解 p ( y ) = C − 1 μ ( y ^ ) p(\mathbf{y}) = \mathbf{C}^{-1} \mu(\hat{\mathbf{y}}) p(y)=C−1μ(y^)。
因为我们观测源数据上的标签,所以很容易估计分布 q ( y ) q(y) q(y)。
那么对于标签为 y i y_i yi的任何训练样本 i i i,我们可以使用我们估计的 p ( y i ) / q ( y i ) p(y_i)/q(y_i) p(yi)/q(yi)比率来计算权重 β i \beta_i βi,并将其代入 式4.9.5中的加权经验风险最小化中。
概念偏移纠正
概念偏移很难用原则性的方式解决。
例如,在一个问题突然从“区分猫和狗”偏移为“区分白色和黑色动物”的情况下,除了从零开始收集新标签和训练,别无妙方。
幸运的是,在实践中这种极端的偏移是罕见的。
相反,通常情况下,概念的变化总是缓慢的。
比如下面是一些例子:
- 在计算广告中,新产品推出后,旧产品变得不那么受欢迎了。这意味着广告的分布和受欢迎程度是逐渐变化的,任何点击率预测器都需要随之逐渐变化;
- 由于环境的磨损,交通摄像头的镜头会逐渐退化,影响摄像头的图像质量;
- 新闻内容逐渐变化(即新新闻的出现)。
在这种情况下,我们可以使用与训练网络相同的方法,使其适应数据的变化。
换言之,我们使用新数据更新现有的网络权重,而不是从头开始训练。
学习问题的分类法
有了如何处理分布变化的知识,我们现在可以考虑机器学习问题形式化的其他方面。
批量学习
在批量学习(batch learning)中,我们可以访问一组训练特征和标签 { ( x 1 , y 1 ) , … , ( x n , y n ) } \{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\} {(x1,y1),…,(xn,yn)},我们使用这些特性和标签训练 f ( x ) f(\mathbf{x}) f(x)。
然后,我们部署此模型来对来自同一分布的新数据 ( x , y ) (\mathbf{x}, y) (x,y)进行评分。
例如,我们可以根据猫和狗的大量图片训练猫检测器。
一旦我们训练了它,我们就把它作为智能猫门计算视觉系统的一部分,来控制只允许猫进入。
然后这个系统会被安装在客户家中,基本再也不会更新。
在线学习
除了“批量”地学习,我们还可以单个“在线”学习数据 ( x i , y i ) (\mathbf{x}_i, y_i) (xi,yi)。
更具体地说,我们首先观测到 x i \mathbf{x}_i xi,然后我们得出一个估计值 f ( x i ) f(\mathbf{x}_i) f(xi),只有当我们做到这一点后,我们才观测到 y i y_i yi。
然后根据我们的决定,我们会得到奖励或损失。许多实际问题都属于这一类。
例如,我们需要预测明天的股票价格,这样我们就可以根据这个预测进行交易。在一天结束时,我们会评估我们的预测是否盈利。
换句话说,在在线学习(online learning)中,我们有以下的循环。
在这个循环中,给定新的观测结果,我们会不断地改进我们的模型。
m o d e l f t ⟶ d a t a x t ⟶ e s t i m a t e f t ( x t ) ⟶ o b s e r v a t i o n y t ⟶ l o s s l ( y t , f t ( x t ) ) ⟶ m o d e l f t + 1 \mathrm{model} ~ f_t \longrightarrow \mathrm{data} ~ \mathbf{x}_t \longrightarrow \mathrm{estimate} ~ f_t(\mathbf{x}_t) \longrightarrow \mathrm{observation} ~ y_t \longrightarrow \mathrm{loss} ~ l(y_t, f_t(\mathbf{x}_t)) \longrightarrow \mathrm{model} ~ f_{t+1} model ft⟶data xt⟶estimate ft(xt)⟶observation yt⟶loss l(yt,ft(xt))⟶model ft+1
老虎机
老虎机(bandits)是上述问题的一个特例。
虽然在大多数学习问题中,我们有一个连续参数化的函数 f f f(例如,一个深度网络)。
但在一个老虎机问题中,我们只有有限数量的手臂可以拉动。
也就是说,我们可以采取的行动是有限的。
对于这个更简单的问题,可以获得更强的最优性理论保证,这并不令人惊讶。
我们之所以列出它,主要是因为这个问题经常被视为一个单独的学习问题的情景。
控制
在很多情况下,环境会记住我们所做的事。
不一定是以一种对抗的方式,但它会记住,而且它的反应将取决于之前发生的事情。
例如,咖啡锅炉控制器将根据之前是否加热锅炉来观测到不同的温度。
在这种情况下,PID(比例—积分—微分)控制器算法是一个流行的选择。
同样,一个用户在新闻网站上的行为将取决于之前向她展示的内容(例如,大多数新闻她只阅读一次)。
许多这样的算法形成了一个环境模型,在这个模型中,他们的行为使得他们的决策看起来不那么随机。
近年来,控制理论(如PID的变体)也被用于自动调整超参数,以获得更好的解构和重建质量,提高生成文本的多样性和生成图像的重建质量
强化学习
强化学习(reinforcement learning)强调如何基于环境而行动,以取得最大化的预期利益。
国际象棋、围棋、西洋双陆棋或星际争霸都是强化学习的应用实例。
再比如,为自动驾驶汽车制造一个控制器,或者以其他方式对自动驾驶汽车的驾驶方式做出反应
(例如,试图避开某物体,试图造成事故,或者试图与其合作)。
考虑到环境
上述不同情况之间的一个关键区别是:
在静止环境中可能一直有效的相同策略,在环境能够改变的情况下可能不会始终有效。
例如,一个交易者发现的套利机会很可能在他开始利用它时就消失了。
环境变化的速度和方式在很大程度上决定了我们可以采用的算法类型。
例如,如果我们知道事情只会缓慢地变化,就可以迫使任何估计也只能缓慢地发生改变。
如果我们知道环境可能会瞬间发生变化,但这种变化非常罕见,我们就可以在使用算法时考虑到这一点。
当一个数据科学家试图解决的问题会随着时间的推移而发生变化时,这些类型的知识至关重要。
机器学习中的公平、责任和透明度
最后,重要的是,当我们部署机器学习系统时,不仅仅是在优化一个预测模型,而通常是在提供一个会被用来(部分或完全)进行自动化决策的工具。
这些技术系统可能会通过其进行的决定而影响到每个人的生活。
从考虑预测到决策的飞跃不仅提出了新的技术问题,而且还提出了一系列必须仔细考虑的伦理问题。
如果我们正在部署一个医疗诊断系统,我们需要知道它可能适用于哪些人群,哪些人群可能无效。
忽视对一个亚群体的幸福的可预见风险可能会导致我们执行劣质的护理水平。
此外,一旦我们规划整个决策系统,我们必须退后一步,重新考虑如何评估我们的技术。
在这个视野变化所导致的结果中,我们会发现精度很少成为合适的衡量标准。
例如,当我们将预测转化为行动时,我们通常会考虑到各种方式犯错的潜在成本敏感性。
举个例子:将图像错误地分到某一类别可能被视为种族歧视,而错误地分到另一个类别是无害的,
那么我们可能需要相应地调整我们的阈值,在设计决策方式时考虑到这些社会价值。我们还需要注意预测系统如何导致反馈循环。
例如,考虑预测性警务系统,它将巡逻人员分配到预测犯罪率较高的地区。
很容易看出一种令人担忧的模式是如何出现的:
- 犯罪率高的社区会得到更多的巡逻;
- 因此,在这些社区中会发现更多的犯罪行为,输入可用于未来迭代的训练数据;
- 面对更多的积极因素,该模型预测这些社区还会有更多的犯罪;
- 下一次迭代中,更新后的模型会更加倾向于针对同一个地区,这会导致更多的犯罪行为被发现等等。
通常,在建模纠正过程中,模型的预测与训练数据耦合的各种机制都没有得到解释,研究人员称之为“失控反馈循环”的现象。
此外,我们首先要注意我们是否解决了正确的问题。
比如,预测算法现在在信息传播中起着巨大的中介作用,个人看到的新闻应该由他们喜欢的Facebook页面决定吗?
这些只是在机器学习职业生涯中可能遇到的令人感到“压力山大”的道德困境中的一小部分。