清华大学黄高——图像数据的语义层扩增方法

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

2020 年 9 月 25 日,在由中国科协主办,清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上,清华大学自动化系助理教授黄高博士进行了题为《图像数据的语义层扩增方法》的主题报告,黄高博士于 2015 年博士毕业于清华大学,主要的研究方向为深度学习、计算机视觉、强化学习。

图 1:深度神经网络的语义数据扩增

深度学习的成功主要依赖于三个重要的因素:大数据、大计算以及算法模型的创新,这三个要素缺一不可。目前,有大量的研究聚焦于新的模型和算法,而从事硬件和架构相关研究的人员会关注如何把硬件做的更好、并行度更高。相比之下,学术界对大数据的关注热度有所下降,很多人似乎默认我们现在已经拥有大量可用的数据。然而,在实际应用中,真正拥有大量高质量标注数据的场景还是非常少的,人工标注数据的成本十分高昂。

图 2:数据扩增

在标注数据不足的情况下,数据扩增是一种非常有效的提升模型性能的方法。如图 2 所示,在右侧的柱状图中,我们比较了在相同的实验设置(优化器、训练时长等)下在 CIFAR-10/CIFAR-100 数据集上进行数据扩增前后的测试误差,其中蓝色代表未使用数据扩增的实验结果,橙色代表使用数据扩增的实验结果。在 CIFAR-10 数据集上,测试误差从 13.6% 降至 6.4%;在 CIFAR-100 数据集上,测试误差从 44% 降至 27%,模型的性能提升十分显著。相对于深度学习模型和其它方面的优化,数据扩增的有效性举足轻重。

对于图像数据而言,我们可以对其进行一系列变换来实现数据扩增。例如,对于图 2 中的汽车图像,我们可以对原始的汽车图像应用旋转、左右翻转、裁剪、放缩等变换,这并不会改变图像的类别。通过这种方式,我们可以根据一张图像扩展出多张图像,有效地增加训练数据,防止模型的过拟合现象。

图 3:语义数据增强

为了进一步提升数据扩增的效果,我们试图进行更加高级的变换。例如,我们把可以更换汽车的颜色、切换一个观测视角、或者换一个车标,此时它仍然是一辆汽车。然而,相较于前文提到的旋转、翻转、裁剪等简单变换,这类相对「高级」的变换要困难得多,我们将其称为「语义数据增强」。在这里,我们将重点讨论如何实现更好的语义数据增强。

图 4:基于 GAN 的语义数据增强

目前,研究人员已经提出了一些进行语义数据增强的方法。例如,利用所有汽车的图像构建一个数据集,从而形成一个数据分布,其中每一类包含数十到数百张图像。我们可以使用该数据集训练一个对抗生成网络(GAN),并利用训练好的 GAN 生成无穷无尽的汽车图像。然而,基于 GAN 的方法存在诸多弊端:首先,GAN 的训练十分困难。该方法将引入大量额外的计算量,其优化过程也十分不稳定。其次,此类方法对模型性能的提升较为有限。通常,数据集中每个类别的图像大致有数十到数百张,而我们只能针对每一个类别训练一个 GAN。尽管我们也可以使用 Conditional GAN(CGAN)类的方法,但是 GAN 生成的图像质量仍然较差。如果我们使用这样生成的数据训练下游的分类器,只能得到微弱的模型性能提升。

图 5:深度特征插值

因此,我们试图设计更高效的语义数据增强方法。在计算机视觉顶级会议 CVPR 2017 上有一篇论文「Deep feature interpolation for image content changes」中,作者认为经过卷积神经网络的特征提取之后,样本将会在特征空间中被线性化,也就是说,在神经网络的特征空间中每一个方向都代表特定的语义。以人脸图像特征为例,某一个方向可能对应于人脸表情从不笑到笑,另一个方向对应于人脸从戴眼镜到不戴眼镜。这篇文章的作者提出了一种名为「深度特征插值」的方法,如图 5 所示,假设在特征空间中,我们有一些正常人脸、微笑人脸、张嘴笑人脸、戴眼镜人脸的特征,可以沿着红色箭头的方向从微笑人脸的特征变化到张口笑人脸的的特征,该方向就代表张开嘴的语义;类似地,蓝色箭头的方向代表戴眼镜的语义。根据该假设,如果我们将某张普通人脸图像映射到特征空间中,并且将其特征与红色方向的向量相加,再基于语义增强后的特征重构图像,就会得到一个张嘴笑的人脸;同样,如果将普通人脸的特征与蓝色向量相加,就会得到戴眼镜的人脸图像。受到该论文的启发,黄高博士团队试图通过在深度特征空间中将原始图像的特征与一些方向上的向量相加,从而在不改变图像属性和标签的情况下,根据一张图像扩展出多个不同版本的图像,达到数据扩增的目的。

隐式语义数据扩增

图 6:隐式语义数据增强

在论文「Deep feature interpolation for image content changes」中,作者需要手动地在特征空间找出进行「深度特征插值」的方向。举例而言,作者可能会手动收集一些戴眼镜的人脸与不戴眼镜的人脸,找出这两类人脸变化的方向,将该方向上的向量应用到不同的样本上,为不戴眼镜的人脸戴上眼镜。然而,这一过程的工作量巨大,通过人类手动的方式也只能找到非常有限的方向。实际上,人脸、汽车等图像数据可能涉及各种各样的变换,通过手工的方式很难实现多样化的数据扩增。如何实现高效、多样化的数据扩增成为了一个挑战。

图 7:通过采样得到语义方向

为了实现上述目标,一个非常直观的思路是通过随机采样获得这种语义的方向。然而,我们需要明确从哪些方向进行采样,避免这些采样的方向没有实际的意义。例如,对一张人脸图像来说,我们通过采样得到一个方向可以使人脸变老、加上皱纹,这样的变换是有意义的。但是如果在人脸特征上加上飞翔方向的语义则没有任何意义。而如果我们直接在特征空间中进行随机采样,经常会采样得到这种没有意义的方向。

图 8:估计图像的分布

为了解决上述采样过程中的问题,我们试图估计每个类别图像的分布。如图 8 所示,红色样本组成的簇可能对应的图像类别是「鸟」,蓝色簇则对应的图像类别为「人」,实际上这种数据分布隐含了这类数据可能变化的方向。例如,红色的数据点在从左上到右下的方向上有方差,说明该方向上可能存在语义的变化,左上角可能是飞的鸟,右下角可能是站着的鸟,此时从左上到右下的方向是有意义的。类似地,对于蓝色的人脸数据来书哦,从左下到右上的方向可能对人脸图像是有意义的语义方向。在多维空间中,我们可以利用方差矩阵刻画某类图像可能在哪些方向上有语义的变化。因此,在采样过程中,我们并不是在所有方向上随机均衡地进行采样,而是先估计出数据的协同差矩阵,从而捕获每一类数据的方差的变化方向。

图 9:对协方差矩阵的动态估计

为了在训练过程中快速计算方差,黄高博士团队设计了一种在线迭代的计算公式,每当接收一个 mini-batch 的输入数据,我们都会在特征空间中计算出其特征向量,用该向量更新每一类的方差矩阵,最终得到样本的均值和方差。通常,这里的方差矩阵规模不会很大。

图 10:在以原始图像为均值的正态分布上采样

在求得方差后,我们可以对数据点进行有针对性的采样。假设数据的分布为正态分布,我们可以以原始图像的特征为均值,利用求得的协方差矩阵在很多方向上进行采样。通过将采样得到的方向应用到一张图像上,从而利用各种采样得到的方向对某张图像进行语义变换。

图 11:交叉熵损失函数

在求得了变换方向后,接下来我们将考虑如何设计损失函数。如图 11 所示,这是一个常见的交叉熵损失。假设有 N 个训练样本,我们将通过训练来最小化训练损失。在这里,我们通过采样的方式对数据进行了扩增,每次采样了 M 个方向的语义变换,并将其与原来的图像相加,将数据扩增了 M 倍。

图 12:提升优化效率

然而,随着训练集规模的增大,相应的训练开销也会大幅增加,我们需要提升优化的效率。由于原始的 N 个样本被扩增为了 N×M 个副本,我们将 M 设置成无穷,并求出这些样本的期望。尽管很难对期望进行求解,但是我们可以通过 Jensen 不等式求出其易于计算的上界,并且消掉了 M。

图 13:ISDA 等价于最小化一个新的鲁棒损失函数

此时,与进行语义增强变换前一样,我们也只需要最小化 N 个样本的误差。在不用对网络进行改变的情况下,该过程等价于最小化一个新的鲁棒损失函数。

概括起来,我们通过估计每个类别的方差找出可以进行采样的方向,利用该方向上的变换对原始图像进行数据扩增。在对进行了数据扩增后的损失函数进行优化时,为了降低计算开销,我们通过上界可以快速地最小化损失函数。

实验结果

图 14:在 ImageNet 数据集上的图像分类实验结果

为了验证 ISDA 的数据扩增效果,黄高博士团队在多个数据集上进行了对比实验。在分类任务中,ISDA 可以将 ResNet-50 模型在 ImageNet 数据集上的误差率从 23.0% 降低至 21.9%,这个提升在 ImageNet是较为显著的。

图 15:ISDA 在半监督场景下的性能测试

ISDA 在半监督学习任务上的性能提升更为明显。这是因为,半监督学习设定下训练数据相对比较少,通过数据扩增把可以有效增加训练数据量,提升泛化性能。

ISDA 在语义分割任务上也有较好的表现。在基本不增加计算开销的情况下,该方法相较于 Deeplab-V3 在 mIOU 指标上取得了超过 1.5% 的性能提升。

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“阅读原文”查看直播回放)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65131.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DenseNet发明者黄高:动态模型好在哪里?

智源导读:自2012年至今,计算机视觉领域蓬勃发展,各种模型不断涌现,短短 8 年时间,计算机视觉领域便发生了天翻地覆的变化。那么如何看待过往变化,当下研究又如何? 12月10日晚,在【青…

对话 DenseNet 一作黄高:做有韧劲、能抗压、不断探索未知的科研

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 作者丨刘冰一 来源丨极市平台 清华大学助理教授、密集连接卷积网络 (DenseNet)提出者 、计算机视觉领域一作顶会论文被引次数最高的国内学者、百万青橙奖奖金获得者..... 这些标签…

测试工程师的好日子来啦?Testin发布AI测试产品,提升易用性和自动化效率

2019年10月26日,以"AI未来"为主题的第二届NCTS中国云测试行业峰会在北京国际会议中心正式开幕。在本次大会上,Testin 总裁徐琨正式发布测试业务Testin云测的全新AI产品iTestin。作为 Testin 人工智能战略中的重要一环,iTestin 融合…

【CodingNoBorder - 07】无际软工队 - 求职岛:ALPHA 阶段测试报告

无际软工队 - 求职岛:ALPHA 阶段测试报告 项目内容这个作业属于哪个课程2022年北航敏捷软件工程这个作业的要求在哪里团队项目-Alpha阶段测试报告我们在这个课程的目标是熟悉敏捷开发的方法论,并通过实际开发产品进行实践。这个作业在哪个具体方面帮助我…

pytest测试报告Allure - 动态生成标题生成功能、添加用例失败截图

一、动态生成标题 默认 allure 报告上的测试用例标题不设置就是用例名称,其可读性不高;当结合 pytest.mark.parametrize 参数化完成数据驱动时,如标题写死,其可读性也不高。 那如果希望标题可以动态的生成,采取的方案…

❀YOLOv5学习❀图像标注工具LabelImg的下载,配置和使用。

LabelImg是图形图像注释工具。它是用Python编写的,并将Qt用于其图形界面。批注以PASCAL VOC格式(ImageNet使用的格式)另存为XML文件。此外,它还支持YOLO格式。下载这个,主要是为了YOLOv5中,做自己的数据集&…

brat事件标注平台使用教程

事件图谱首先涉及到的是事件标注,我采用的是brat事件标注平台,该平台使用的是Linux系统,因为我的电脑是windows系统, 将brat安装在了linux虚拟机(Ubuntu)上。 一.下载与安装 1.下载brat 进入brat官网brat…

OpenAI 成近期顶流团队?如何使用 OpenAI 和 Node.js 构建 AI 图像生成器?

摘要: 12月7号,知名人工智能研究机构 Open AI 在Youtub上发布视频介绍使用OpenAI 和 DALL-E 模型创建一个网络应用程序,该应用程序将根据输入的文本从头开始生成图像。https://www.youtube.com/watch?vfU4o_BKaUZE 前言💖 大家好&#xff0…

AI 自动写代码插件 Copilot(副驾驶员)

AI 自动写代码插件 Copilot 提示:Copilot单词直译过来就是副驾驶员的意思。 介绍:本质上就是基于GitHub开源的亿级别的代码,训练AI模型,自动生成代码。 就是数据量(GitHub的数据量就很大!)能够决定你AI模型精度的上…

软件测试中的AI——运用AI编写测试用例

文章目录 一、现状二、测试技术可结合AI的几个方向三、尝试使用AI编写测试用例(实验过程)1、AI联系上下文的能力弱2、回答的内容类似于能在网上搜索到的内容3、需要有一个明确的指令4、输出内容有限5、无法想象到需求描述之外的内容 四、总结&#xff1a…

AI热度降温?揭秘加德纳技术成熟度曲线与AI发展阶段

一文解决你所有对 AI 的焦虑 近期,我们发现ChatGPT的热度似乎不如前几个月。许多人尝试了这个技术,觉得它非常强大,但似乎与自己的日常生活和工作关系不大,因此逐渐失去了兴趣。 然而,这实际上是技术发展的正常周期&…

王炸赚钱组合!!ChatGPT + AI大模型

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…

ChatGPT + AI大模型 = 王炸!!!

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…

ChatGPT+低代码,好用到飞起?

ChatGPT 凭借短短 2 个月,月活用户突破 1 亿,成为史上用户增长速度最快的消费级应用程序。ChatGPT 的爆火,在全球范围内掀起了一场关于 AI 技术革命的狂潮,AIGC 也迅速成为科技圈最火赛道。 更有国际咨询机构预测,203…

信用卡兴趣人群洞察报告.pdf

男性用户对信用卡的关注度显著高于女性 信用卡兴趣人群年龄集中在24-40岁,与主流消费人群相吻合。41岁以上人群信用卡关注度明显滑落 深广信用卡关注度最高,占据前四名知州、西安等中西部城市占据前十名中半数名额 信用卡兴趣人群高度集中于iPhone手机,其次分别为三星、魅族…

关于程序员的调查报告

最近Stack Overflow发布一份开发者调查报告,内容涵盖了开发人员最喜欢的技术到工作偏好等等各种问题。下面小编就带大家一起来看一看。 NO.1 最常用的的编程语言: 我们发现Python的使用度今年超过了Java,Python的势头有点猛啊!&am…

c语言进行数据统计分析的研究报告,统计分析报告范文

统计分析报告范文 大家都知道,统计分析的写作是为了制作统计分析文章。在统计部门,统计分析文章则称为统计分析报告。下面是一篇统计分析报告范文,欢迎阅读! 统计分析报告范文 【目录】 一.引言 二.研究目的 三.数据分析 I.对能源生产及构成的…

论文阅读报告

0 2022/6/23-2022/6/25 1. FLAME: Taming Backdoors in Federated Learning 1.1 本文的贡献 我们提出了FLAME,这是一种针对FL中后门攻击的防御框架,能够消除后门而不影响聚合模型的良性性能。与早期的后门防御相反,FLAME适用于一般对手模型…

「市场调研」简说

1. 外部因素评价矩阵EFE EFE矩阵可以帮助战略制定者归纳和评价经济、社会、文化、人口、环境、政治、政府、法律、技术以及竞争等方面的信息。 建立EFE矩阵的五个步骤如下:  1) 列出在外部分析过程中所确认的外部因素,包括影响企业和其所…

《用图表说话》读后感

《用图表说话:麦肯锡商务沟通完全工具箱(珍藏版)》在我的必读清单里,推荐过很多次,也是之前送书活动中的书目,今天就来总结一下这本书到底讲了个啥。(知识图谱在文末,想要高清图片可…