一、基础知识
计算学习理论(computational learning theory)研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
给定样例 D假设 X中的所有样本服从一个隐含未知的分布D,D中所有样本都是独立地从这个分布上采样而得,即独立同分布(independent and identically distributed)样本令h为从X到Y的一个映射,其泛化误差为
h在D上的经验误差为:
我们会用到几个常用不等式:
Jensen不等式:对于凸函数f(x),有
Hoeffding不等式:若有m个独立随机变量,且对任意的i∈[0,1],则对任意ϵ>0,那么有
McDiarmid不等式: 若有m个独立随机变量,且对任意的i∈[0,1],则有
二、PAC学习
概率近似正确(Probably ApproximatelyCorrect,简称PAC):
- 概念(concept):这是从样本空间到标记空间的映射,它决定示例的真实标记,若对任何样例有成立;所有我们希望学得的目标概念所构成的集合称为“概念类”(conceptclass),
- 假设空间(Hypothesis Space):给定学习算法,它所考虑的所有可能概念的集合称为“假设空间”(hypothesis space),用符号表示. 对于假设空间中的任一概念,用h表示,称为“假设”(hypothesis)。
- 可分性(Separability):若目标概念c属于假设空间,则称该问题对学习算法是可分的(separable)或一致的(consistent)。反之,若c不属于,则称该问题对学习算法是不可分的(non-separable)或不一致的(non-consistent)。
定义:
PAC辨识(PAC Identify):给定置信度t和误差参数e,若存在学习算法A,其输出假设h使得泛化误差E(h)小于e的概率大于置信空间1-t,则称学习算法能从假设空间H中PAC辨识概念类C。
PAC可学习(PAC Learnable):若存在学习算法A和多项式函数poly(.,.,.,.),使得对于任意m >= poly(1/e, 1/t, size(X), size(c)),A能从假设空间H中PAC辨识出概念类C,则称概念类C对假设空间H而言是PAC可学习的。
PAC学习算法(PAC Learning Algorithm):若学习算法A使概念类C为PAC可学习,且A的运行时间也是多项式函数poly(1/e, 1/t, size(X), size(c)),则称A为概念类C的PAC学习算法。
样本复杂度(Sample Complexity):满足PAC学习算法A所需的m >= poly(1/e, 1/t, size(X), size(c))中最小的m,称为算法A的样本复杂度。
三、有限假设空间
1可分情形
在可分情形中,目标概念存在于假设空间中,即。这意味着假设空间中存在至少一个假设,该假设能够完全按照目标概念的规则对所有示例进行正确分类或标记。
我们先估计泛化误差大于但在训练集上仍表现完美的假设出现的概率.假定的泛化误差大于,对分布上随机采样而得的任何样例,有
由于包含个从独立同分布采样而得的样例,因此, 与表现一致的概率为
保证泛化误差大于,且在训练集上表现完美的所有假设出现概率之和不大于,得:
2不可分情形
假定对于任何,由Hoeffding不等式推理得:
定理:若为有限假设空间, ,则对任意,有
定义:不可知PAC可学习(agnostic PAC learnable):令表示从分布中独立同分布采样得到的样例数目,,对所有分布,若存在学习算法和多项式函数poly(·, ·,·,·),使得对于任何m ≥poly(1/e,1/6,size(a), size(c)),能从假设空间中输出满足下式的假设:
则称假设空间是不可知PAC可学习的.
四、VC维
增长函数(growth function):对所有,假设空间的增长函数为
对分(dichotomy):对二分类问题来说,中的假设对D中示例赋予标记的每种可能结果称为对D的一种“对分”.
打散(shattering):若假设空间能实现示例集D上的所有对分,即 ,则称示例集D能被假设空间“打散”.
VC维:假设空间的VC维是能被打散的最大示例集的大小,即
表明存在大小为d的示例集能被假设空间打散.
通常这样来计算的.VC维:若存在大小为d的示例集能被打散,但不存在任何大小为d+1的示例集能被打散,则H的VC维是d.例:
定理:
- 若假设空间的VC维为.d,则对任意和有
- 任何VC维有限的假设空间都是(不可知)PAC可学习的.
五、Rademacher复杂度
Rademacher复杂度(Rademacher complexity)是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布.
定义:
函数空间关于的经验Rademacher复杂度
函数空间关于上分布的Rademacher复杂度
定理:
对实值函数空间根据分布从中独立同分布采样得到示例集,对任意,以至少的概率有
对假设空间,根据分布从中独立同分布采样得到示例集,对任意,以至少的概率有
假设空间的Rademacher 复杂度与增长函数满足
六、稳定性
算法的“稳定性”考察的是算法在输入发生变化时,输出是否会随之发生较大的变化.学习算法的输入是训练集,因此下面我们先定义训练集的两种变化.
移除:,表示移除D中第i个样例得到的集合
替换:,表示替换D中第i个样本得到的集合
损失函数刻画了预测标记和真实标记的差别:
泛化损失:
经验损失:
留一(leave-one-out)损失:
均匀稳定性(uniform stability):
对任何,若学习算法满足
则称关于损失函数满足β-均匀稳定性.
给定从分布上独立同分布采样得到的大小为m的示例集D,若学习算法满足关于损失函数的β-均匀稳定性,且损失函数l的上界为,则对任意m ≥ 1,以至少的概率有
若学习算法是ERM且稳定的,则假设空间可学习.