Probabilistic Face Embeddings 论文阅读
- Abstract
- 1. Introduction
- 2. Related Work
- 3. Limitations of Deterministic Embeddings
- 4. Probabilistic Face Embeddings
- 4.1. Matching with PFEs
- 4.2. Fusion with PFEs
- 4.3. Learning
- 5. Experiments
- 5.1. Experiments on Different Base Embeddings
- 5.2. Comparison with State-Of-The-Art
- 5.3. Qualitative Analysis
- 6. Risk-controlled Face Recognition
- 7. Conclusion
文章信息:
发表于:2019ICCV
原文链接:https://openaccess.thecvf.com/content_ICCV_2019/html/Shi_Probabilistic_Face_Embeddings_ICCV_2019_paper.html
源码:https://github.com/seasonSH/Probabilistic-Face-Embeddings
Abstract
嵌入方法通过在潜在语义空间中比较面部特征,在人脸识别中取得了成功。然而,在完全不受约束的人脸识别场景中,嵌入模型学习到的人脸特征可能是模糊的,甚至可能根本不存在于输入的人脸中,从而导致噪声表示。我们提出了概率人脸嵌入(Probabilistic Face Embeddings,PFEs),将每张人脸图像表示为潜在空间中的一个高斯分布。该分布的均值估计了最可能的特征值,而方差则表示特征值的不确定性。通过概率方法,可以自然地根据不确定性信息推导出匹配和融合PFEs的解决方案。在不同基准模型、训练数据集和基准测试上的实证评估表明,所提方法通过将确定性嵌入转化为PFEs,能够提高人脸识别性能。PFEs估计的不确定性还可以作为潜在匹配准确度的良好指示,这对于风险控制的识别系统非常重要。
1. Introduction
图1:确定性人脸嵌入和概率性人脸嵌入(PFE)之间的区别。确定性嵌入将每张人脸表示为潜在空间中的一个点,而不考虑其特征的模糊性。概率性人脸嵌入(PFE)则在潜在空间中给出特征的分布估计。最佳效果请使用彩色显示。
当人类被要求描述一张人脸图像时,他们不仅仅会描述面部特征,还会给出与这些特征相关的置信度。例如,如果图像中的眼睛模糊,人们会将眼睛的大小作为不确定信息,重点描述其他特征。此外,如果图像完全损坏,无法辨识出任何特征,受试者可能会回答无法识别这张人脸。这种不确定性(或置信度)估计在人的决策过程中是常见且重要的。
另一方面,当前最先进的人脸识别系统中使用的表示方法通常是与置信度无关的。这些方法依赖于嵌入模型(例如深度神经网络)为每张人脸图像在潜在特征空间中生成一个确定性的点表示。潜在空间中的一个点表示模型对给定图像中人脸特征的估计。如果估计误差在某种程度上是有界的,那么两个点之间的距离可以有效地衡量对应人脸图像之间的语义相似性。然而,在低质量输入的情况下,期望的人脸特征可能在图像中模糊不清或完全缺失,这时嵌入点的偏移将不可避免地增大,从而导致错误识别(见图1a)。
鉴于人脸识别系统在相对受限的人脸识别基准上已经取得了很高的识别准确率,例如 LFW [10] 和 YTF [37],这些基准中大多数人脸特征都能清晰地观察到,近年来的人脸识别挑战已转向更为不受约束的场景,包括监控视频 [18, 23, 12](见图 2)。在这些任务中,人脸图像可能存在任何类型和程度的变化,其中大多数由表示模型学习到的期望人脸特征可能缺失。由于信息的缺乏,几乎不可能找到一个特征集能够始终准确匹配这些人脸。因此,在 LFW 上取得超过 99% 准确率的最先进的人脸识别系统,在 IARPA Janus 基准上 [18, 23, 12] 却遭遇了显著的性能下降。
图2:来自IJB-A和IJB-S的示例图像。第一列显示静态图像,接下来的三列展示了相应人物的视频帧。这些基准测试展示了一个更为不受约束的识别场景,其中图像质量存在较大变异。
为了解决上述问题,我们提出了概率人脸嵌入(PFE),它为每个输入的人脸图像在潜在空间中提供分布估计,而不是点估计(见图1b)。该分布的均值可以解释为最可能的潜在特征值,而分布的跨度则代表了这些估计的的不确定性。PFE可以通过两种方式解决不受约束的人脸识别问题:(1)在匹配(人脸比较)过程中,PFE会对不确定的特征(维度)进行惩罚,并更多关注更有信心的特征;(2)对于低质量输入,PFE估计的置信度可以用来拒绝输入或主动请求人工协助,从而避免错误识别。此外,可以推导出一种自然的解决方案,将一组人脸图像的PFE表示聚合为一个新的分布,减少不确定性,从而提高识别性能。PFE的实现已经开源。本文的贡献可以总结如下:
- 一种基于不确定性感知的概率人脸嵌入(PFE),它将人脸图像表示为分布而非点。
- 一种可以自然推导出的人脸匹配和特征融合的概率框架,使用PFE进行操作。
- 一种简单的方法,可以将现有的确定性嵌入转换为PFE,而无需额外的训练数据。
- 通过全面的实验表明,所提出的PFE能够提升确定性嵌入的人脸识别性能,并有效地过滤低质量输入,从而增强人脸识别系统的鲁棒性。
2. Related Work
Uncertainty Learning in DNNs
为了提高判别性深度神经网络(DNNs)的鲁棒性和可解释性,深度不确定性学习受到了越来越多的关注[14, 5, 15]。不确定性主要有两种类型:模型不确定性和数据不确定性。模型不确定性指的是在给定训练数据的情况下,模型参数的不确定性,可以通过收集更多的训练数据来减少[22, 24, 14, 5]。数据不确定性则指输出的不确定性,其主要来源是输入数据中的固有噪声,因此无法通过更多的训练数据消除[15]。我们研究中的不确定性可以归类为数据不确定性。尽管已经开发出了多种方法用于估计不同任务中的数据不确定性,包括分类和回归[15],但它们不适用于我们的任务,因为我们的目标空间并没有通过给定标签明确定义2。变分自编码器(VAE)[17]也可以看作是一种估计数据不确定性的方法,但它主要用于生成任务。针对人脸识别,一些研究[6, 16, 45]已经利用模型不确定性来分析和学习人脸表示,但据我们所知,本研究是首个将数据不确定性应用于识别任务的工作。
Probabilistic Face Representation
将人脸建模为概率分布并不是一个新颖的想法。在人脸模板/视频匹配领域,已有大量文献将人脸建模为特征空间中的概率分布[29, 1]、子空间[3]或流形[1, 11]。然而,这些方法的输入是一组人脸图像,而非单一的人脸图像,它们使用的是分布间相似性或距离度量,例如KL散度,用于比较,这种方法并没有惩罚不确定性。与此同时,一些研究[19, 9]尝试通过人脸部位的特征构建给定人脸的模糊模型。与此相比,所提出的PFE将每张单独的人脸图像表示为DNN编码的潜在空间中的分布,并且我们使用一种基于不确定性的对数似然分数来比较这些分布。
Quality-aware Pooling
与上述方法不同,最近在人脸模板/视频匹配方面的研究旨在通过聚合所有人脸的深度特征为一个单一的紧凑向量,从而利用深度CNN嵌入的显著性[41, 21, 39, 7]。在这些方法中,一个独立的模块学习预测图像集中每张人脸的质量,然后对特征向量进行加权池化进行归一化处理。我们展示了在我们的框架下可以自然推导出一个解决方案,这不仅为质量感知池化方法提供了概率解释,还提出了一种更通用的解决方案,其中图像集也可以建模为PFE表示。
3. Limitations of Deterministic Embeddings
在本节中,我们从理论和经验的角度解释了确定性人脸嵌入的问题。
设 X \mathcal{X} X表示图像空间, z z z表示 D D D维度的潜在特征空间。理想的潜在空间 Z \mathcal{Z} Z应该仅编码与身份相关的特征,并与与身份无关的特征解耦。因此,每个身份应该有一个唯一的内在编码 z ∈ Z z \in \mathcal{Z} z∈Z,该编码最好地表示此人,而每个面部图像 x ∈ X \mathbf{x} \in \mathcal{X} x∈X是从 p ( x ∣ z ) p(\mathbf{x}|\mathbf{z}) p(x∣z)中采样的观察值。训练人脸嵌入的过程可以看作是一个联合过程,即寻找这样的潜在空间 z z z并学习逆映射 p ( z ∣ x ) p(\mathbf{z}|\mathbf{x}) p(z∣x)。对于确定性嵌入,逆映射是一个Dirac delta函数 p ( z ∣ x ) = δ ( z − f ( x ) ) p(\mathbf{z}|\mathbf{x}) = \delta(\mathbf{z}-f(\mathbf{x})) p(z∣x)=δ(z−f(x)),其中 f f f是嵌入函数。显然,对于任何空间 z z z,考虑到输入 x x x中的噪声,恢复准确的 z \mathbf{z} z是不现实的,并且低质量输入的嵌入点不可避免地会偏离其内在的 z z z(无论我们有多少训练数据)。
问题在于,这种偏移是否可以被限制,从而使得同类样本之间的距离仍然小于不同类样本之间的距离。然而,对于完全不受约束的面部识别系统来说,这是不现实的,我们通过实验来说明这一点。让我们从一个简单的例子开始:给定一对完全相同的图像,确定性嵌入将始终将它们映射到同一个点,因此它们之间的距离始终为0,即使这些图像中不包含面部。这意味着“图像对相似或甚至相同并不一定意味着它们属于同一个人的概率很高”。
为了证明这一点,我们通过手动降级高质量图像并可视化它们的相似性得分来进行实验。我们从LFW数据集[10]中随机选择每个主体的一张高质量图像,然后手动将高斯模糊、遮挡和随机高斯噪声插入到面部。具体而言,我们通过线性增加高斯核的大小、遮挡比例和噪声的标准差来控制降级的程度。在每个降级级别,我们使用一个64层的CNN提取特征向量,这与最先进的面部识别系统相当。然后,这些特征被归一化到一个超球面嵌入空间。接着,我们报告两种类型的余弦相似度:(1) 原始图像与其相应降级图像之间的相似度,(2) 不同身份的降级图像之间的相似度。如图3所示,对于所有三种降级类型,真实的相似度得分下降至0,而冒名顶替者的相似度得分则趋向于1.0!这些结果表明,在完全不受约束的场景下,即使模型非常自信(相似度得分非常高或非常低),也会出现两种类型的错误:
(1) 对冒名顶替者低质量配对的误接受;
(2) 对真实跨质量配对的误拒绝。
为了确认这一点,我们在IJB-A数据集上测试了模型,通过分别找到冒名顶替者/真实图像配对的最高/最低得分。结果与我们假设的完全一致(见图4)。我们称之为“特征模糊困境”,这种困境出现在确定性嵌入被迫估计模糊面部特征时。实验还表明,存在一个“暗空间”,在这个空间中,模糊输入被映射到该空间,导致距离度量被扭曲。
图 3:特征模糊困境的示意图。图中展示了在 LFW 数据集上,图像在不同降级程度下的余弦相似度。蓝色线条表示原始图像与其相应降级图像之间的相似度。红色线条表示冒名顶替者对降级图像之间的相似度。阴影部分表示标准差。随着降级程度的增加,模型在错误的方向上变得更加自信(得分非常高/低)。
图 4:使用 64 层 CNN 模型估算出的 IJB-A 数据集中相似度最低的真实配对,以及相似度最高的冒名配对示例(在所有可能的配对中)。真实配对大多由一张高质量图像和一张低质量图像组成,而冒名配对则全为低质量图像。请注意,这些配对并非验证协议中的模板配对。
4. Probabilistic Face Embeddings
为了解决由数据不确定性引起的上述问题,我们提出将不确定性编码到面部表示中,并在匹配过程中考虑这一因素。具体来说,我们不是构建一个在潜在空间中给出点估计的模型,而是估计一个分布 p ( z ∣ x ) p(z|x) p(z∣x),以表示一个人脸部的潜在外观。特别地,我们使用多元高斯分布:
公式中的 μ i \boldsymbol{\mu}_i μi 和 σ i \boldsymbol{\sigma}_i σi 是由网络从第 i i i 张输入图像 x i x_i xi 预测的 D D D-维向量。在这里,我们仅考虑对角协方差矩阵,以减少面部表示的复杂度。这个表示应该具备以下特性:
- 中心 μ \boldsymbol{\mu} μ 应该编码输入图像最可能的面部特征。
- 不确定性 σ \boldsymbol{\sigma} σ 应该编码模型在每个特征维度上的信心。
此外,我们希望使用单个网络来预测分布。考虑到面部嵌入训练的新方法仍在不断发展,我们的目标是开发一种方法,能够轻松地将现有的确定性面部嵌入网络转换为概率面部嵌入(PFE)。接下来,我们首先展示如何比较和融合PFE表示,以证明其优势,然后提出我们用于学习PFE的方法。
4.1. Matching with PFEs
给定一对图像 ( x i , x j ) (\mathbf{x}_i, \mathbf{x}_j) (xi,xj)的PFE表示,我们可以直接衡量它们属于同一人的“可能性”(共享相同的潜在编码): p ( z i = z j ) p(\mathbf{z}_i=\mathbf{z}_j) p(zi=zj),其中 z i ∼ p ( z ∣ x i ) \mathbf{z}_i \sim p(\mathbf{z}|\mathbf{x}_i) zi∼p(z∣xi)和 z j ∼ p ( z ∣ x j ) \mathbf{z}_j \sim p(\mathbf{z}|\mathbf{x}_j) zj∼p(z∣xj)。具体来说,
在实际应用中,我们希望使用对数似然(log likelihood),其解由下式给出:
其中,const = D 2 log 2 π \frac{D}{2} \log 2\pi 2Dlog2π, μ i ( l ) \mu_i^{(l)} μi(l) 表示第 l l l 维的 μ i \boldsymbol{\mu}_i μi,同样, σ i ( l ) \sigma_i^{(l)} σi(l) 表示 σ i \boldsymbol{\sigma}_i σi 的第 l l l 维。
注意,这个对称度量可以视为一个输入的潜在编码在另一个输入条件下的似然期望,即:
因此,我们称之为互信息似然得分(Mutual Likelihood Score, MLS)。与KL散度不同,这个得分是无界的,不能被视为距离度量。可以证明,当假设所有的不确定性相同的时候,平方欧氏距离实际上是MLS的一个特例:
性质 1. 如果 σ i ( l ) \sigma_i^{(l)} σi(l) 对于所有数据 x i \mathbf{x}_i xi 和维度 l l l 是一个固定的数,那么 MLS 等价于一个缩放和平移后的负平方欧氏距离。
此外,当允许不确定性各不相同时,我们注意到 MLS 具有一些有趣的性质,使其不同于距离度量:
- 注意力机制:方程(3)中括号里的第一项可以看作是一种加权距离,它为不确定性较小的维度分配更大的权重。
- 惩罚机制:方程(3)中括号里的第二项可以看作是惩罚项,惩罚那些不确定性较大的维度。
- 如果输入 xi 或 xj 具有较大的不确定性,MLS 会很低(由于惩罚),无论它们的均值之间的距离如何。
- 只有当两个输入都具有较小的不确定性,并且它们的均值接近时,MLS 才会非常高。
最后两条属性意味着,如果网络能够有效地估计 σ i \boldsymbol{\sigma}_i σi,PFE 可以解决特征模糊困境。
4.2. Fusion with PFEs
图 5:使用 PFE 的融合。
(a) 作为有向图模型的融合过程示意图。
(b) 给定来自相同身份的人脸的高斯表示,融合过程输出潜在空间中一个新的高斯分布,具有更精确的均值和更低的不确定性。
在许多情况下,我们有一个模板(集合)的人脸图像,需要为匹配构建一个紧凑的表示。使用 PFE,可以为表示融合推导出共轭公式(图 5)。设 { x 1 , x 2 , … , x n } \{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\} {x1,x2,…,xn} 是来自同一身份的一系列观测(人脸图像), p ( z ∣ x 1 , x 2 , … , x n ) p(\mathbf{z}|\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n) p(z∣x1,x2,…,xn) 是第 n n n 次观测后的后验分布。然后,假设所有的观测条件独立(给定潜在编码 z \mathbf{z} z),可以证明:
其中,α 是一个归一化因子。为了简化符号,下面我们仅考虑一维情况;该解法可以轻松扩展到多维情况。
如果假设 p ( z ) p(\mathbf{z}) p(z) 是一个非信息性先验,即 p ( z ) p(\mathbf{z}) p(z)是一个方差趋向于无穷大的高斯分布,那么方程 (5) 中的后验分布将是一个具有更低不确定性的新的高斯分布(参见补充材料)。此外,
给定一组人脸图像 { x 1 , x 2 , … , x n } \{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\} {x1,x2,…,xn},融合表示的参数可以直接由以下给出:
在实际应用中,由于条件独立性假设通常不成立,例如视频帧包含大量冗余信息,方程(7)会受到图像集数量的偏倚。因此,我们通过对每个维度取最小值来获得新的不确定性。
Relationship to Quality-aware Pooling
如果我们考虑所有维度共享相同的不确定性 σ i \sigma_i σi 对于第 i i i 个输入,并且让质量值 q i = 1 σ i 2 q_i = \frac{1}{\sigma_i^2} qi=σi21 作为网络的输出,那么方程(6)可以写为:
如果我们在融合后不使用不确定性,那么该算法将与最近的质量感知聚合方法相同,用于集到集的人脸识别 [41, 21, 39]。
4.3. Learning
请注意,
任何确定性嵌入 f f f,如果经过适当优化,实际上可以满足PFE的特性:
(1)嵌入空间是一个解耦的、与身份相关的潜在空间;
(2) f ( x ) f(\mathbf{x}) f(x) 表示给定输入在潜在空间中的最可能特征。
因此,在本研究中,作者考虑了一种阶段性训练策略:
给定一个预训练的嵌入模型 f f f,作者固定其参数,将 μ ( x ) = f ( x ) \boldsymbol{\mu}(\mathbf{x}) = f(\mathbf{x}) μ(x)=f(x),并优化一个额外的不确定性模块来估计 σ ( x ) \boldsymbol{\sigma}(\mathbf{x}) σ(x)。当不确定性模块在与嵌入模型相同的数据集上训练时,这种阶段性训练策略使得我们能够在PFE和原始嵌入 f ( x ) f(\mathbf{x}) f(x) 之间进行更公平的比较,相比于端到端学习策略。
不确定性模块是一个具有两个全连接层的网络,使用与瓶颈层相同的输入。优化标准是最大化所有真实对( x i , x j x_i, x_j xi,xj)的互信息得分(mutual likelihood score)。形式上,要最小化的损失函数是:
其中, P \mathcal{P} P 是所有真实对的集合, s s s 在公式(3)中定义。实际上,损失函数是在每个小批量中优化的。直观上,这个损失函数可以理解为最大化 p ( z ∣ x ) p(\mathbf{z}|\mathbf{x}) p(z∣x) 的一种替代方式:如果所有可能的真实对的潜在分布有很大的重叠,那么对于任何相应的 x \mathbf{x} x,潜在目标 z \mathbf{z} z 应该具有较大的似然值 p ( z ∣ x ) p(\mathbf{z}|\mathbf{x}) p(z∣x)。请注意,由于 μ ( x ) \boldsymbol{\mu}(\mathbf{x}) μ(x) 是固定的,优化过程不会导致所有的 μ ( x ) \boldsymbol{\mu}(\mathbf{x}) μ(x) 都收敛到一个单一的点。
5. Experiments
在本节中,我们首先在标准的人脸识别协议上测试提出的PFE方法,并与确定性嵌入进行比较。然后,我们进行定性分析,以深入了解PFE的表现。由于篇幅限制,具体的实现细节请参见补充材料。
为了全面评估PFE的有效性,我们在7个基准数据集上进行实验,包括著名的LFW [10]、YTF [37]、MegaFace [13]以及另外四个更加不受约束的基准数据集:
CFP [28] 包含 7,000 张正面/侧面人脸照片,来自 500 个主体。我们只在正面-侧面(FP)协议上进行测试,该协议包括 7,000 对正面-侧面人脸图像。
IJB-A [18] 是一个基于模板的基准数据集,包含 25,813 张来自 500 个主体的人脸图像。每个模板包括一组静态照片或视频帧。与之前的基准数据集相比,IJB-A 中的人脸具有更大的变异性,呈现出更不受约束的场景。
IJB-C [23] 是 IJB-A 的扩展,包含 140,740 张来自 3,531 个主体的人脸图像。IJB-C 的验证协议包括更多的冒充对,因此我们可以在较低的假接受率(FAR)下计算真正接受率(TAR)。
IJB-S [12] 是一个监控视频基准数据集,包含 350 个监控视频,总时长 30 小时,5,656 张注册图像和 202 个注册视频,涉及 202 个主体。该数据集中的许多人脸存在极端姿态或低质量问题,使其成为最具挑战性的人脸识别基准之一(参见图2中的示例图像)。
我们使用 CASIA-WebFace [42] 和 MS-Celeb-1M [8] 的清洗版本作为训练数据,从中去除与测试数据集重复的主体。
5.1. Experiments on Different Base Embeddings
由于我们的方法是通过转换现有的确定性嵌入来工作的,因此我们希望评估它在不同基础嵌入上的表现,即使用不同损失函数训练的面部表示。特别地,我们实现了以下几种最先进的损失函数:Softmax+Center Loss [35]、Triplet Loss [27]、A-Softmax [20] 和 AM-Softmax [33]。为了与之前的工作 [20, 34] 对齐,我们在 CASIA-WebFace 数据集上使用这些损失函数训练了一个 64 层的残差网络 [20] 作为基础模型。所有特征都进行了 ℓ2 归一化,映射到一个超球面嵌入空间。然后,我们在 CASIA-WebFace 数据集上为每个基础模型训练了不确定性模块,共 3,000 步。我们在四个基准数据集上评估性能:LFW [10]、YTF [37]、CFPFP [28] 和 IJB-A [18],它们在面部识别上提出了不同的挑战。结果如表 1 所示。PFE 在所有情况下都优于原始表示,表明该方法在不同嵌入和测试场景下都表现出了鲁棒性。
5.2. Comparison with State-Of-The-Art
为了与最先进的面部识别方法进行比较,我们使用了一个不同的基础模型,这是一个在 MS-Celeb-1M 数据集上使用 AM-Softmax 训练的 64 层网络。然后我们固定其参数,并在相同数据集上训练不确定性模块 12,000 步。在接下来的实验中,我们比较了三种方法:
∙ Baseline \bullet \textbf{Baseline} ∙Baseline 仅使用64层的原始特征确定性嵌入和余弦相似度进行匹配。在模板/视频基准中使用平均池化。
∙ PFE f u s e \bullet \textbf{PFE}_{\mathbf{fuse}} ∙PFEfuse 使用PFE中的不确定性估计 σ \sigma σ 和公式(6)来聚合模板特征,但仍使用余弦相似度进行匹配。如果不确定性模块能够有效地估计特征的不确定性,基于 σ \boldsymbol{\sigma} σ 的融合应通过为可信特征分配更大的权重来超越平均池化。
∙ PFE fuse+ match \bullet \textbf{PFE}_{\text{fuse+ match}} ∙PFEfuse+ match 在融合和匹配(使用互信息得分)中都使用 σ \boldsymbol{\sigma} σ。模板/视频根据公式(6)和公式(7)进行融合。
在表2中,我们展示了在三个相对较简单的基准上(LFW、YTF和MegaFace)的结果。尽管LFW和YTF上的准确率几乎已经饱和,所提的PFE仍然提高了原始表示的性能。需要注意的是,MegaFace是一个有偏数据集:因为所有的探测图像都是来自FaceScrub的高质量图像,MegaFace中的正样本对都是高质量图像,而负样本对最多只包含一个低质量图像。因此,在MegaFace中,特征模糊困境(第3节)引起的两种错误不会出现,这使得它自然偏向于确定性嵌入。然而,PFE在这种情况下仍然保持了性能。我们还注意到,这种偏差——即目标库图像的质量高于库中其他图像——在现实应用中是不会存在的。
在表 3 和表 4 中,我们展示了在三个更具挑战性的数据集上的结果:CFP、IJB-A 和 IJB-C。这些数据集中的图像呈现出更大的姿态变化、遮挡等问题,面部特征可能更加模糊。因此,我们可以看到,PFE 在这三个基准数据集上取得了更显著的提升。特别是在 IJB-C 数据集上,在 FAR=0.001% 时,PFE 将错误率减少了 64%。此外,简单地将原始特征与学习到的不确定性(PFEfuse)进行融合,也有助于提高性能。
在表 5 中,我们报告了最新基准数据集 IJB-S 的三个协议的结果。同样,PFE 在大多数情况下能够提高性能。值得注意的是,在“监控到静态图像”(Surveillance-to-still)和“监控到预定”(Surveillance-to-booking)协议中,所有的画廊模板都包含高质量的正面头像,这些头像几乎没有面部特征的歧义。因此,在这两个协议中,我们仅看到轻微的性能差距。但在最具挑战性的“监控到监控”(Surveillance-to-surveillance)协议中,使用不确定性进行匹配能够获得更大的提升。此外,PFEfuse+match 在所有开放集协议中都显著提高了性能,这表明 MLS 对绝对成对得分的影响比对相对排名的影响更大。
在这里插入图片描述
表 5:IJB-S 三个协议的性能对比。性能指标采用排名检索(闭集)和 TPIR@FPIR(开集),而非媒体标准化版本[12]。第二行中的“1%”和“10%”表示 FPIR 的值。
5.3. Qualitative Analysis
Why and when does PFE improve performance?
我们首先使用 PFE 表示和 MLS 重复第 3 节中的实验。这里使用相同的网络作为基础模型。正如图 6 所示,尽管低质量冒充对的分数仍然在增加,但它们最终收敛到一个比大多数真实对分数都低的点。同样,跨质量的真实对的分数收敛到一个比大多数冒充对分数都高的点。这意味着第 3 节中讨论的两种错误可以通过 PFE 解决。图 7 中的 IJB-A 结果进一步证实了这一点。图 8 显示了 LFW、IJB-A 和 IJB-S 上估计的不确定性的分布。可以看到,不确定性的“方差”按以下顺序增加:LFW < IJB-A < IJB-S。与第 5.2 节中的性能比较,我们可以看到,PFE 趋向于在图像质量差异较大的数据集上获得更大的性能提升。
图 6:使用所提出的 PFE 重复进行特征模糊困境实验。与图 3 中相同的模型被用作基础模型,并通过训练不确定性模块将其转换为 PFE。训练过程中没有使用额外的训练数据或数据增强。
图 7:来自 IJB-A 数据集的示例真实对(估计出最低的互信息得分)和虚假对(估计出最高得分),由第 3 节中的同一 64 层 CNN 模型的 PFE 版本估算。与图 4 相比,这里大多数图像都是高质量的,且具有清晰的特征,这可能会误导模型做出错误的自信判断。请注意,这些对不是验证协议中的模板。
图 8:不同数据集上估计的不确定性分布。在这里,“不确定性”指的是所有特征维度上 σ 的调和平均值。请注意,估计的不确定性与数据集的复杂性成正比。最佳效果请在彩色模式下查看。
What does DNN see and not see?
为了回答这个问题,我们在原始嵌入上训练一个解码器网络,然后通过从给定图像的估计分布 p(z|x) 中采样 z,应用于 PFE。对于高质量图像(图 9 第 1 行),重建的图像通常非常一致,没有太大变化,这意味着模型对图像中的面部特征非常确定。相比之下,对于低质量输入(图 9 第 2 行),从重建的图像中可以观察到更大的变化。特别是一些可以清晰辨别的属性(例如浓眉)仍然保持一致,而那些无法辨别的属性(例如眼睛形状)则表现出较大的变化。至于误检测的图像(图 9 第 3 行),重建图像中可以观察到显著的变化:模型在给定图像中看不到任何显著的特征。
图 9:来自 IJB-A 的高质量、低质量和误检图像的可视化结果。对于每个输入,使用预训练的解码器通过均值和从估计分布 p(z|x) 中随机采样的 4 个 z 向量重建了 5 张图像。
6. Risk-controlled Face Recognition
在许多场景中,我们可能希望系统能够实现比当前系统更高的性能,或者希望在复杂的应用场景中确保系统的性能可控。因此,我们希望模型能够在没有信心时拒绝输入图像。解决这个问题的一种常见方法是使用质量评估工具来筛选图像。我们展示了 PFE 为此任务提供了一个自然的解决方案。我们从 LFW 和 IJB-A 数据集中获取所有图像用于图像级别的人脸验证(我们在这里没有遵循原始协议)。系统可以“过滤掉”一部分图像,以保持更好的性能。然后,我们报告了在“过滤掉比例”下的 TAR@FAR= 0.001%。我们考虑两种筛选标准:(1)MTCNN [36] 的检测分数,和(2)我们不确定性模块预测的置信度值。这里,第 i 个样本的置信度定义为 σi 在所有维度上的调和平均数的倒数。为了公平起见,两种方法都使用原始的确定性嵌入表示和余弦相似度进行匹配。为了避免结果饱和,我们使用了在 CASIA-WebFace 上用 AM-Softmax 训练的模型。结果如图 11 所示。可以看到,预测的置信度值是输入图像潜在识别准确性的更好指示器。这是一个预期结果,因为 PFE 是在特定模型的监督下训练的,而外部质量估计器并不了解模型用于匹配的特征类型。高/低置信度/质量评分的示例图像显示在图 10 中。
图 10:来自 LFW 和 IJB-A 的示例图像,分别由我们的方法和 MTCNN 人脸检测器估计出的最高 (H) 和最低 (L) 信心水平/质量分数。
7. Conclusion
我们提出了概率人脸嵌入(PFEs),将人脸图像表示为潜在空间中的分布。我们推导了概率方法来比较和聚合人脸图像的PFE。与确定性嵌入不同,PFEs 不会受到非受限人脸识别中的特征模糊困境的影响。在不同设置下的定量和定性分析表明,PFEs 可以通过将确定性嵌入转换为 PFE,有效提升人脸识别性能。我们还表明,PFEs 中的不确定性是人脸图像“判别质量”的良好指标。在未来的工作中,我们将探索如何以端到端的方式学习 PFEs,并如何解决人脸模板中的数据依赖问题。