如何产生好的研究思路?如何撰写一篇高质量论文?如何从浩如烟海的论文中寻找好的科研灵感?如何通过Rebuttal为自己的文章扳回一城?导师跟学生之间怎样才能形成更好的合作关系?
在ECCV 2022中国预会议的Panel环节,DesNet作者、清华大学黄高,华中科技大学王兴刚,UCSD王小龙,香港大学齐晓娟,清华大学董胤蓬等计算机视觉领域的顶尖青年学者针对上述问题展开了讨论。干货满满,发人深思。
论坛专家名单:
吴祖煊 | 复旦大学(Chair)
黄 高 | 清华大学
王兴刚 | 华中科技大学
王小龙 | 加州大学圣地亚哥分校
董胤蓬 | 清华大学
齐晓娟 | 香港大学
整理:熊宇轩
编辑:李梦佳
实现代表作的过程,「一波三折」
Q1:请结合自己的代表作为例,介绍一下从选题、产生 idea、试错、完善实验到完成一篇精品文章的流程。
黄高(以下简称「黄」):DenseNet 是我自己比较满意的一个工作。一直以来,梯度消失都是困扰深度神经网络训练的难题。15 年底,何恺明等人提出了ResNet,在很大程度上缓解了梯度消失问题,将网络的深度提升至 100 层以上,在诸多计算机视觉任务上取得了非常好的效果。在此基础之上,我们考虑进一步解决梯度消失的问题,试图让梯度能够更为顺畅地回传到浅层。
然而,我们最开始构想的密集连接网络结构过于复杂,难以训练,因此这个想法被搁置了一段时间。2016年夏天,我们着手考虑解决密集连接网络的计算复杂度问题。我们意识到,当各层之间都存在连接时,神经网络就从链式结构变为了网状结构,此时不再存在信息瓶颈问题。此时可以将网络宽度设计得非常小(极端情况下每一个卷积层只有一个通道),因此即便层与层之间的连接十分密集,总体的计算量也不会过多。基于这个思路,我们得到较好的训练效果。
但是在网络宽度非常小时,在GPU上并行计算的效率非常低。于是,我们将每一层的通道数逐渐扩展到16、32,发现仍然能很好地实现精度与效率的均衡,并且实际运行速度能够大大提升。大概只经历了三个月时间,我们就完成了DenseNet 的第一版,并将文章挂在了 Arxiv 上。此时距离 CVPR 还有比较长的一段时间。我们在没有Deadline 压力的情况下,又对该工作进行了比较细致的完善,包括ImageNet上的实验。最终的投稿过程就非常顺利了,3个审稿人都给了strong accept,而且几乎没有提出需要修改的地方。
王小龙:我们最近有一些重要的工作着眼于学习人和手的三维交互,从而帮助机器人的灵巧手实现一些操作。该系列的第一个工作是「DexMV: Imitation Learning for Dexterous Manipulation from Human Videos」,这篇论文经过了多次修改,最终被 ECCV 2022 接收。
我们团队完成这个工作的历程十分坎坷。由于目前研究者们已经在目标检测、人物交互检测等任务上取得了非常好的进展,我十分乐观地认为这些工作基础可以帮助机器人学习人和手的三维交互。于是,我们尝试从 YouTube 的视频中提取人和物体的交互信息,利用这些信息帮助机器人进行模仿学习。
然而,我们发现很难将 2D 检测的技术应用到 3D 视觉场景下,或者物体的 6D 姿态场景下。于是,我们自己从头大家搭建了一个绿布的环境,采集了一系列真实数据,搭建了一整套端到端的「视觉-机器人-强化学习」系统。
我的体会是,在理解计算机视觉任务时,如果只停留在关注提升某些性能指标的层面上,其实很难真正衡量任务被求解的程度。我们需要到一些下游任务(例如,规划、机器人)中反推计算机视觉需要改进的方向,将视觉任务放到更大的视角下考量,不能一味跟风热点研究。这也正是我们团队目前关注物体的 6D 姿态估计、三维重建、三维场景理解等任务的原因。
王兴刚:CCNet 是我自己比较满意的工作。王小龙老师和何恺明博士于 CVPR 2018 上发表著名的「Non-Local Neural Network」之后,我们认为自注意力机制将会在计算机视觉领域中起到重要的作用。
一直以来,我们研究组主要关注检测、分割等密集预测任务。而在图像领域中应用 Non-Local 自注意力机制会引入较大的计算开销(尤其是使用稠密的高分辨率图时),因此我们设计了一种行列十字交叉的注意力机制,希望能够降低该过程的计算复杂度。通过这一机制,我们可以通过计算两次行列自注意力近似全连接的自注意力,在大大降低计算复杂度的同时实现与 Non-Local Neural Network 相近的性能。
实际上,该工作被录用的过程也是「一波三折」。该工作首先被 CVPR 拒掉了,审稿意见褒贬不一,Rebuttal 并没有成功。后来,我们将该工作转投 ICCV 2019,以刚刚过线的分数被录用。在此基础之上,我们进一步扩展了一个 IEEE TPAMI 版本的论文。
该工作对于后来的高效视觉 Transformer 设计有一定的启发性,且语义分割也是被研究者们广泛关注的研究领域,因此该工作目前的引用量超过了 1,000 次。值得一提的是,Google 的蛋白质解译模型 AlphaFold 的骨干网络设计也借鉴了十字交叉注意力机制。
齐晓娟(以下简称「齐」):我将分享自己在学生时代寻找研究思路的体会。我曾经研究如何根据单张图像估计物体的深度信息。当时,研究者们普遍的研究重点在于设计更好的神经网络,降低 MSE 损失,提升相关的性能指标。与此不同,我进一步思考做深度估计的最终目的是什么。
对于「深度」这样的几何问题,我们最终关注的是它们在三维世界中的表现能力。因此,我们进行了一系列在点云中可视化深度信息的实验,发现很难保证几何平面的平整等性质,很难直接用网络保持物体的形状模型并真正预测出深度信息。在此启发之下,我们试图将真实世界中的几何约束引入神经网络。
计算机视觉与物理学科寻找研究思路的方法很类似,许多研究都是基于简单观测推想该现象发生的原因,进而找到解决问题的办法。目前,我的研究中心偏向于 3D 视觉,从实际观测出发,加以真实世界中的约束,以此为出发点寻找新的研究思路。
董胤蓬(以下简称「董」):我在 NeurIPS 2019 上与同学合著了一篇论文,后来这篇论文发表在了 IEEE TPAMI 上。「黑盒攻击」是我博士期间的重要研究课题之一,即攻击者在不能获取模型内部具体信息的情况下,采用对抗性样本等手段欺骗模型,导致模型错误分类。
之前的黑盒攻击可分为以下两种:(1)基于迁移性的黑盒攻击,使针对某个模型产生的对抗性样本具有一定的迁移能力(2)通过 API 不断进行查询,利用零阶优化方式生成对抗样本。而我们的这个工作结合了上述两种思路,提升了黑盒攻击的效果。
在此之前,我自己做研究更偏向于基于实验结果对模型进行改动。尽管有时可以大幅提升攻击成功率,但是很难从理论上解释这些现象。于是,我向组内擅长机器学习理论的同学学习,首先从理论上推导出某些想法具有比较好的性质,然后再通过实验验证。在这种范式转变的过程中,我自己的研究能力有了很大的提升。
订阅Google Scholar,按图索骥
Q2:现在每天都会新发表很多计算机视觉领域的论文。如何从浩如烟海的论文中寻找好的科研灵感?如何跟进最新的前沿动态?应该保持怎样的论文阅读习惯?
黄:Google Scholar 及其推送功能是我获取论文的常用渠道,它会根据我的研究方向和兴趣推送相关的文章。不过这种方法并不能保证推送文章的质量。此外,我会经常使用「Arxiv-Sanity」网站,该网站会根据用户的收藏数,排出一段时间内最热门的论文,这些被大家广泛收藏和关注的文章一般质量比较有保障。
我也会关注各大学术会议的Oral 论文列表,重点阅读最佳论文和提名论文。好的研究思路往往需要「站在巨人的肩膀上」,从原理上理解这些重要的工作,在看到别人的好的工作时触发新的灵感,灵活运用已有的方法加以创新,是做好的研究的重要途径。我们在读文章时应该多思考,透过论文描述的故事看到其本质,弄清真正起作用的东西是什么。
王兴刚:我推荐使用 Google Scholar 的订阅功能,该功能会在每周的一、三、五将我关注学者的最新论文推送给我。我会阅读国际、国内一些具有崇高学术声誉的研究组的重要文章。此外,我也会充分与学生讨论。我的学生会时刻关注 Arxiv 上最新的好文章,并将这些文章发到讨论组中,大家一起思考新的研究思路。我们会以自己的研究方向为主轴,看看新出现的方法是否能为我所用。
王小龙:我与学生的交流较多,会与学生相互推荐好文章并在组会上讨论。我平时会关注一些学者的动态,组织各种交流活动。做研究需要保持开放的心态,了解研究社区的动态,但也需要坚持自己的研究方向。但是对于类似于 NeRF、扩散模型这种基础性的工作,也会思考这些工作对自己的研究能否有所帮助。
齐:在成为老师后,自己的科研时间相较于学生时代会变得较为琐碎。我自己习惯于每周确定一个固定的时间,集中阅读一周积累的好文章,系统化地对文章进行思考,从而产生新的想法。之后,我会找相应的伙伴分享、讨论自己的想法,让大家从多个方面提出自己的理解,互相借鉴。
董:我在阅读 Arxiv 和新鲜出炉的学术会议文章时,会将所有新文章的列表浏览一遍,主要看题目和摘要,先确定感兴趣的文章,再有针对性地仔细阅读。此外,我还会看一些学术分享报告的视频,跟进大家目前的前沿工作。我个人习惯将阅读过的文章存储下来,构建自己的「学术搜索引擎」,以便日后讨论或研究时查找相关工作。
不要过度指望Rebuttal,扭转分数难度大
Q3:怎样才能写好 Rebuttal?如何为自己的论文扳回一城?
王小龙:现在的 Rebuttal 机制相较于以前有一些改变。作为文章作者,我们在 Rebuttal 的过程中需要按照审稿人的要求将实验细节等补充完善。值得一提的是,为了方便审稿人阅读 Rebuttal,我们需要按照重要性将对于审稿意见的回复进行排序,较为重要的回复需要放到较前的位置。
王兴刚:大家不能过度指望 Rebuttal 的效果,审稿人对于文章的第一印象十分重要。根据某些研究者的统计,Rebuttal 之后身高得分被降低的比例往往还要大于得分被提高的比例。我们要尽可能提高投稿本身的质量。
其次,对文章被接收与否需要抱有比较好的心态,我个人有一些不错的工作最初都被审稿人批评得很惨,而好的文章终究是会被接受的。从另一个方面说,我们可以将文章挂在 Arxiv 上,文章的影响力也不会打太大折扣。
在 Rebuttal 的过程中,我们要仔细揣摩审稿人的意图,从他们关心的角度给出有利的证据,按照他们的要求补充细节和实验。从领域主席(AC)的角度来说,一些 AC 往往会鼓励大家探索新的研究方向,这些工作可能在学术上具有较大影响力,或者具有较好的应用前景,我们在选题时可以多考虑一下这些主题。
齐:由于 Rebuttal 篇幅比较短,我们需要精心组织 Rebuttal 的结构,明确突出论点的层次性,用斜体或加粗显式强调重要的词和观点,每一个论点需要与审稿人提出的意见有严格的对应关系,准确、清晰地为审稿人提出的疑问给出解答。
董:我们在 Rebuttal 的时候要从审稿人的角度思考,想想他们为什么会给出相应的分数。有的审稿人之所以给出较低的分数,可能是因为没有认真看文章,可能是觉得创新性不够,也可能是觉得需要补充实验。我们针对每种情况可以给出不同的解决方案。例如,如果审稿人觉得文章表述不清楚、实验不充分,可以按照审稿人的要求解释清楚,或补充实验。如果审稿人觉得文章创新性有限,我们很难通过语言说服审稿人,此时可以通过引用其它正向审稿人的意见来说服他。
此外,Rebuttal 还有另外一个重要的作用:帮助 AC 做决策(尤其是当审稿评分褒贬不一时)。我们可以在开放审稿平台上总结不同审稿人的意见,来支持文中的某些观点。
黄:确实存在一些Rebuttal 的话术和技巧,前面几位老师已经介绍很多了。我想分享一点看法是,rebuttal毕竟是「亡羊补牢」。尽管我们可以在 Rebuttal 中解释文章的动机、创新点、补充实验等,试图扭转审稿人的看法,但是我们更应该在论文写作时提前就意识到这些问题。其实大部分审稿人最关心的就是文章的创新性、研究动机,以及实验是否充分等问题,在写一篇新的论文时,我们要站在读者和审稿人的角度将术语、思路、细节交代清楚,做到动机与方法、实验的自洽。如果审稿人对文章的第一印象较差,扭转较低分数的难度其实很大。
让学生做「导师的导师」
Q4:导师跟学生之间怎样才能形成更好的合作关系?学生怎么才能够做出高水平的研究?
王小龙:我和我学生的关系比较平等,亦师亦友。老师应该积极帮助学生,也可以向学生学习。老师和学生要相互尊重,相互学习。面对学生的消极情绪或意见,老师要多与学生沟通。我自己每隔一段时间会组织一些「特别」的讨论会,让学生表达对我自己不满意的地方,看看自己有哪些地方需要调整,达到相互理解的效果。现在计算机行业越来越「卷」了,我希望我的学生在毕业的时候能力超过我自己。
王兴刚:在不同的环境中对学生要因材施教。作为导师,我希望我们的团队能形成合力,长期探索某些科研问题。我希望学生对科研保持激情,凭借这种热爱来面对各种挑战,勇于探索前沿的方向,消化最新的知识。我们会为学生尽可能创造更好的研究环境,在力所能及的范围内给予他们指导和帮助。学生站在科研的第一线,也会给我们导师一些反馈,让我们不断成长,跟上迅速变化的时代。
齐:我觉得导师和学生应该在相互尊重的平等氛围中多沟通,相互学习,避免发生矛盾,营造和谐的科研氛围。
董:科研是个长期的过程,好的研究者要能够从科研中找到乐趣,积累成就感。做研究是个性化很强的事情,学生需要有强大的自驱力,主动与导师和学长沟通,解决自己的问题。
黄:学生能够做「导师的导师」当然是最好的情况。如果做不到,那么最基本的是能够在面对挫折时保持对科研的热爱,有坚定的学术追求,不轻言放弃。