如何做高质量研究、写高水平论文?| 黄高、王兴刚等共话科研与论文写作

b587030245fa93a723eacacc60dbb8f6.png

如何产生好的研究思路?如何撰写一篇高质量论文?如何从浩如烟海的论文中寻找好的科研灵感?如何通过Rebuttal为自己的文章扳回一城?导师跟学生之间怎样才能形成更好的合作关系?


在ECCV 2022中国预会议的Panel环节,DesNet作者、清华大学黄高,华中科技大学王兴刚,UCSD王小龙,香港大学齐晓娟,清华大学董胤蓬等计算机视觉领域的顶尖青年学者针对上述问题展开了讨论。干货满满,发人深思。              

论坛专家名单:

吴祖煊 | 复旦大学(Chair)

黄  高 | 清华大学

王兴刚 | 华中科技大学

王小龙 | 加州大学圣地亚哥分校

董胤蓬 | 清华大学

齐晓娟 | 香港大学

整理:熊宇轩

编辑:李梦佳

实现代表作的过程,「一波三折」

Q1:请结合自己的代表作为例,介绍一下从选题、产生 idea、试错、完善实验到完成一篇精品文章的流程。

黄高(以下简称「黄」):DenseNet 是我自己比较满意的一个工作。一直以来,梯度消失都是困扰深度神经网络训练的难题。15 年底,何恺明等人提出了ResNet,在很大程度上缓解了梯度消失问题,将网络的深度提升至 100 层以上,在诸多计算机视觉任务上取得了非常好的效果。在此基础之上,我们考虑进一步解决梯度消失的问题,试图让梯度能够更为顺畅地回传到浅层。

5ffb689756c5cb042d7982533a7c751b.png

然而,我们最开始构想的密集连接网络结构过于复杂,难以训练,因此这个想法被搁置了一段时间。2016年夏天,我们着手考虑解决密集连接网络的计算复杂度问题。我们意识到,当各层之间都存在连接时,神经网络就从链式结构变为了网状结构,此时不再存在信息瓶颈问题。此时可以将网络宽度设计得非常小(极端情况下每一个卷积层只有一个通道),因此即便层与层之间的连接十分密集,总体的计算量也不会过多。基于这个思路,我们得到较好的训练效果。

但是在网络宽度非常小时,在GPU上并行计算的效率非常低。于是,我们将每一层的通道数逐渐扩展到16、32,发现仍然能很好地实现精度与效率的均衡,并且实际运行速度能够大大提升。大概只经历了三个月时间,我们就完成了DenseNet 的第一版,并将文章挂在了 Arxiv 上。此时距离 CVPR 还有比较长的一段时间。我们在没有Deadline 压力的情况下,又对该工作进行了比较细致的完善,包括ImageNet上的实验。最终的投稿过程就非常顺利了,3个审稿人都给了strong accept,而且几乎没有提出需要修改的地方。

王小龙:我们最近有一些重要的工作着眼于学习人和手的三维交互,从而帮助机器人的灵巧手实现一些操作。该系列的第一个工作是「DexMV: Imitation Learning for Dexterous Manipulation from Human Videos」,这篇论文经过了多次修改,最终被 ECCV 2022 接收。

我们团队完成这个工作的历程十分坎坷。由于目前研究者们已经在目标检测、人物交互检测等任务上取得了非常好的进展,我十分乐观地认为这些工作基础可以帮助机器人学习人和手的三维交互。于是,我们尝试从 YouTube 的视频中提取人和物体的交互信息,利用这些信息帮助机器人进行模仿学习。

然而,我们发现很难将 2D 检测的技术应用到 3D 视觉场景下,或者物体的 6D 姿态场景下。于是,我们自己从头大家搭建了一个绿布的环境,采集了一系列真实数据,搭建了一整套端到端的「视觉-机器人-强化学习」系统。

我的体会是,在理解计算机视觉任务时,如果只停留在关注提升某些性能指标的层面上,其实很难真正衡量任务被求解的程度。我们需要到一些下游任务(例如,规划、机器人)中反推计算机视觉需要改进的方向,将视觉任务放到更大的视角下考量,不能一味跟风热点研究。这也正是我们团队目前关注物体的 6D 姿态估计、三维重建、三维场景理解等任务的原因。

王兴刚:CCNet 是我自己比较满意的工作。王小龙老师和何恺明博士于 CVPR 2018 上发表著名的「Non-Local Neural Network」之后,我们认为自注意力机制将会在计算机视觉领域中起到重要的作用。

f9387f274041124c83ba07324c4d634e.jpeg

一直以来,我们研究组主要关注检测、分割等密集预测任务。而在图像领域中应用 Non-Local 自注意力机制会引入较大的计算开销(尤其是使用稠密的高分辨率图时),因此我们设计了一种行列十字交叉的注意力机制,希望能够降低该过程的计算复杂度。通过这一机制,我们可以通过计算两次行列自注意力近似全连接的自注意力,在大大降低计算复杂度的同时实现与 Non-Local Neural Network 相近的性能。

实际上,该工作被录用的过程也是「一波三折」。该工作首先被 CVPR 拒掉了,审稿意见褒贬不一,Rebuttal 并没有成功。后来,我们将该工作转投 ICCV 2019,以刚刚过线的分数被录用。在此基础之上,我们进一步扩展了一个 IEEE TPAMI 版本的论文。

该工作对于后来的高效视觉 Transformer 设计有一定的启发性,且语义分割也是被研究者们广泛关注的研究领域,因此该工作目前的引用量超过了 1,000 次。值得一提的是,Google 的蛋白质解译模型 AlphaFold 的骨干网络设计也借鉴了十字交叉注意力机制。

齐晓娟(以下简称「齐」):我将分享自己在学生时代寻找研究思路的体会。我曾经研究如何根据单张图像估计物体的深度信息。当时,研究者们普遍的研究重点在于设计更好的神经网络,降低 MSE 损失,提升相关的性能指标。与此不同,我进一步思考做深度估计的最终目的是什么。

对于「深度」这样的几何问题,我们最终关注的是它们在三维世界中的表现能力。因此,我们进行了一系列在点云中可视化深度信息的实验,发现很难保证几何平面的平整等性质,很难直接用网络保持物体的形状模型并真正预测出深度信息。在此启发之下,我们试图将真实世界中的几何约束引入神经网络。

计算机视觉与物理学科寻找研究思路的方法很类似,许多研究都是基于简单观测推想该现象发生的原因,进而找到解决问题的办法。目前,我的研究中心偏向于 3D 视觉,从实际观测出发,加以真实世界中的约束,以此为出发点寻找新的研究思路。

董胤蓬(以下简称「董」):我在 NeurIPS 2019 上与同学合著了一篇论文,后来这篇论文发表在了 IEEE TPAMI 上。「黑盒攻击」是我博士期间的重要研究课题之一,即攻击者在不能获取模型内部具体信息的情况下,采用对抗性样本等手段欺骗模型,导致模型错误分类。

之前的黑盒攻击可分为以下两种:(1)基于迁移性的黑盒攻击,使针对某个模型产生的对抗性样本具有一定的迁移能力(2)通过 API 不断进行查询,利用零阶优化方式生成对抗样本。而我们的这个工作结合了上述两种思路,提升了黑盒攻击的效果。

在此之前,我自己做研究更偏向于基于实验结果对模型进行改动。尽管有时可以大幅提升攻击成功率,但是很难从理论上解释这些现象。于是,我向组内擅长机器学习理论的同学学习,首先从理论上推导出某些想法具有比较好的性质,然后再通过实验验证。在这种范式转变的过程中,我自己的研究能力有了很大的提升。

订阅Google Scholar,按图索骥

Q2:现在每天都会新发表很多计算机视觉领域的论文。如何从浩如烟海的论文中寻找好的科研灵感?如何跟进最新的前沿动态?应该保持怎样的论文阅读习惯?

:Google Scholar 及其推送功能是我获取论文的常用渠道,它会根据我的研究方向和兴趣推送相关的文章。不过这种方法并不能保证推送文章的质量。此外,我会经常使用「Arxiv-Sanity」网站,该网站会根据用户的收藏数,排出一段时间内最热门的论文,这些被大家广泛收藏和关注的文章一般质量比较有保障。

我也会关注各大学术会议的Oral 论文列表,重点阅读最佳论文和提名论文。好的研究思路往往需要「站在巨人的肩膀上」,从原理上理解这些重要的工作,在看到别人的好的工作时触发新的灵感,灵活运用已有的方法加以创新,是做好的研究的重要途径。我们在读文章时应该多思考,透过论文描述的故事看到其本质,弄清真正起作用的东西是什么。

王兴刚:我推荐使用 Google Scholar 的订阅功能,该功能会在每周的一、三、五将我关注学者的最新论文推送给我。我会阅读国际、国内一些具有崇高学术声誉的研究组的重要文章。此外,我也会充分与学生讨论。我的学生会时刻关注 Arxiv 上最新的好文章,并将这些文章发到讨论组中,大家一起思考新的研究思路。我们会以自己的研究方向为主轴,看看新出现的方法是否能为我所用。

王小龙:我与学生的交流较多,会与学生相互推荐好文章并在组会上讨论。我平时会关注一些学者的动态,组织各种交流活动。做研究需要保持开放的心态,了解研究社区的动态,但也需要坚持自己的研究方向。但是对于类似于 NeRF、扩散模型这种基础性的工作,也会思考这些工作对自己的研究能否有所帮助。

:在成为老师后,自己的科研时间相较于学生时代会变得较为琐碎。我自己习惯于每周确定一个固定的时间,集中阅读一周积累的好文章,系统化地对文章进行思考,从而产生新的想法。之后,我会找相应的伙伴分享、讨论自己的想法,让大家从多个方面提出自己的理解,互相借鉴。

:我在阅读 Arxiv 和新鲜出炉的学术会议文章时,会将所有新文章的列表浏览一遍,主要看题目和摘要,先确定感兴趣的文章,再有针对性地仔细阅读。此外,我还会看一些学术分享报告的视频,跟进大家目前的前沿工作。我个人习惯将阅读过的文章存储下来,构建自己的「学术搜索引擎」,以便日后讨论或研究时查找相关工作。

不要过度指望Rebuttal,扭转分数难度大

Q3:怎样才能写好 Rebuttal?如何为自己的论文扳回一城?

王小龙:现在的 Rebuttal 机制相较于以前有一些改变。作为文章作者,我们在 Rebuttal 的过程中需要按照审稿人的要求将实验细节等补充完善。值得一提的是,为了方便审稿人阅读 Rebuttal,我们需要按照重要性将对于审稿意见的回复进行排序,较为重要的回复需要放到较前的位置。

王兴刚:大家不能过度指望 Rebuttal 的效果,审稿人对于文章的第一印象十分重要。根据某些研究者的统计,Rebuttal 之后身高得分被降低的比例往往还要大于得分被提高的比例。我们要尽可能提高投稿本身的质量。

其次,对文章被接收与否需要抱有比较好的心态,我个人有一些不错的工作最初都被审稿人批评得很惨,而好的文章终究是会被接受的。从另一个方面说,我们可以将文章挂在 Arxiv 上,文章的影响力也不会打太大折扣。

在 Rebuttal 的过程中,我们要仔细揣摩审稿人的意图,从他们关心的角度给出有利的证据,按照他们的要求补充细节和实验。从领域主席(AC)的角度来说,一些 AC 往往会鼓励大家探索新的研究方向,这些工作可能在学术上具有较大影响力,或者具有较好的应用前景,我们在选题时可以多考虑一下这些主题。

:由于 Rebuttal 篇幅比较短,我们需要精心组织 Rebuttal 的结构,明确突出论点的层次性,用斜体或加粗显式强调重要的词和观点,每一个论点需要与审稿人提出的意见有严格的对应关系,准确、清晰地为审稿人提出的疑问给出解答。

:我们在 Rebuttal 的时候要从审稿人的角度思考,想想他们为什么会给出相应的分数。有的审稿人之所以给出较低的分数,可能是因为没有认真看文章,可能是觉得创新性不够,也可能是觉得需要补充实验。我们针对每种情况可以给出不同的解决方案。例如,如果审稿人觉得文章表述不清楚、实验不充分,可以按照审稿人的要求解释清楚,或补充实验。如果审稿人觉得文章创新性有限,我们很难通过语言说服审稿人,此时可以通过引用其它正向审稿人的意见来说服他。

此外,Rebuttal 还有另外一个重要的作用:帮助 AC 做决策(尤其是当审稿评分褒贬不一时)。我们可以在开放审稿平台上总结不同审稿人的意见,来支持文中的某些观点。

:确实存在一些Rebuttal 的话术和技巧,前面几位老师已经介绍很多了。我想分享一点看法是,rebuttal毕竟是「亡羊补牢」。尽管我们可以在 Rebuttal 中解释文章的动机、创新点、补充实验等,试图扭转审稿人的看法,但是我们更应该在论文写作时提前就意识到这些问题。其实大部分审稿人最关心的就是文章的创新性、研究动机,以及实验是否充分等问题,在写一篇新的论文时,我们要站在读者和审稿人的角度将术语、思路、细节交代清楚,做到动机与方法、实验的自洽。如果审稿人对文章的第一印象较差,扭转较低分数的难度其实很大。

让学生做「导师的导师」

Q4:导师跟学生之间怎样才能形成更好的合作关系?学生怎么才能够做出高水平的研究?

王小龙:我和我学生的关系比较平等,亦师亦友。老师应该积极帮助学生,也可以向学生学习。老师和学生要相互尊重,相互学习。面对学生的消极情绪或意见,老师要多与学生沟通。我自己每隔一段时间会组织一些「特别」的讨论会,让学生表达对我自己不满意的地方,看看自己有哪些地方需要调整,达到相互理解的效果。现在计算机行业越来越「卷」了,我希望我的学生在毕业的时候能力超过我自己。

王兴刚:在不同的环境中对学生要因材施教。作为导师,我希望我们的团队能形成合力,长期探索某些科研问题。我希望学生对科研保持激情,凭借这种热爱来面对各种挑战,勇于探索前沿的方向,消化最新的知识。我们会为学生尽可能创造更好的研究环境,在力所能及的范围内给予他们指导和帮助。学生站在科研的第一线,也会给我们导师一些反馈,让我们不断成长,跟上迅速变化的时代。

:我觉得导师和学生应该在相互尊重的平等氛围中多沟通,相互学习,避免发生矛盾,营造和谐的科研氛围。

:科研是个长期的过程,好的研究者要能够从科研中找到乐趣,积累成就感。做研究是个性化很强的事情,学生需要有强大的自驱力,主动与导师和学长沟通,解决自己的问题。

:学生能够做「导师的导师」当然是最好的情况。如果做不到,那么最基本的是能够在面对挫折时保持对科研的热爱,有坚定的学术追求,不轻言放弃。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65135.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智源青年科学家黄高:面向高效推理的深度网络结构设计

随着深度学习在工业界的广泛应用,人们对模型的关注不仅仅在于其预测精度,同时也对计算和存储效率提出了更高的要求。在提升模型效率的诸多手段中,神经网络结构创新始终是最为有效的方式之一。 2019年12月24日上午,智源青年科学家、…

RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!

关注公众号,发现CV技术之美 本文分享论文『Resolution Adaptive Networks for Efficient Inference』,由清华黄高团队提出分辨率自适应的高效推理网络RANet!MSDNet加强版! 详细信息如下: 论文链接:https://…

ICLR2021 | 清华大学黄高团队:显存不够?不妨抛弃端到端训练

智源导读:本文主要介绍清华大学黄高团队被ICLR2021接收的一篇文章:Revisiting Locally Supervised Learning: an Alternative to End-to-End Training。 论文链接:https://openreview.net/forum?idfAbkE6ant2 代码链接:https://g…

清华大学黄高——图像数据的语义层扩增方法

⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2020 年 9 月 25 日,在由中国科协主办,清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上&#xf…

DenseNet发明者黄高:动态模型好在哪里?

智源导读:自2012年至今,计算机视觉领域蓬勃发展,各种模型不断涌现,短短 8 年时间,计算机视觉领域便发生了天翻地覆的变化。那么如何看待过往变化,当下研究又如何? 12月10日晚,在【青…

对话 DenseNet 一作黄高:做有韧劲、能抗压、不断探索未知的科研

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 作者丨刘冰一 来源丨极市平台 清华大学助理教授、密集连接卷积网络 (DenseNet)提出者 、计算机视觉领域一作顶会论文被引次数最高的国内学者、百万青橙奖奖金获得者..... 这些标签…

测试工程师的好日子来啦?Testin发布AI测试产品,提升易用性和自动化效率

2019年10月26日,以"AI未来"为主题的第二届NCTS中国云测试行业峰会在北京国际会议中心正式开幕。在本次大会上,Testin 总裁徐琨正式发布测试业务Testin云测的全新AI产品iTestin。作为 Testin 人工智能战略中的重要一环,iTestin 融合…

【CodingNoBorder - 07】无际软工队 - 求职岛:ALPHA 阶段测试报告

无际软工队 - 求职岛:ALPHA 阶段测试报告 项目内容这个作业属于哪个课程2022年北航敏捷软件工程这个作业的要求在哪里团队项目-Alpha阶段测试报告我们在这个课程的目标是熟悉敏捷开发的方法论,并通过实际开发产品进行实践。这个作业在哪个具体方面帮助我…

pytest测试报告Allure - 动态生成标题生成功能、添加用例失败截图

一、动态生成标题 默认 allure 报告上的测试用例标题不设置就是用例名称,其可读性不高;当结合 pytest.mark.parametrize 参数化完成数据驱动时,如标题写死,其可读性也不高。 那如果希望标题可以动态的生成,采取的方案…

❀YOLOv5学习❀图像标注工具LabelImg的下载,配置和使用。

LabelImg是图形图像注释工具。它是用Python编写的,并将Qt用于其图形界面。批注以PASCAL VOC格式(ImageNet使用的格式)另存为XML文件。此外,它还支持YOLO格式。下载这个,主要是为了YOLOv5中,做自己的数据集&…

brat事件标注平台使用教程

事件图谱首先涉及到的是事件标注,我采用的是brat事件标注平台,该平台使用的是Linux系统,因为我的电脑是windows系统, 将brat安装在了linux虚拟机(Ubuntu)上。 一.下载与安装 1.下载brat 进入brat官网brat…

OpenAI 成近期顶流团队?如何使用 OpenAI 和 Node.js 构建 AI 图像生成器?

摘要: 12月7号,知名人工智能研究机构 Open AI 在Youtub上发布视频介绍使用OpenAI 和 DALL-E 模型创建一个网络应用程序,该应用程序将根据输入的文本从头开始生成图像。https://www.youtube.com/watch?vfU4o_BKaUZE 前言💖 大家好&#xff0…

AI 自动写代码插件 Copilot(副驾驶员)

AI 自动写代码插件 Copilot 提示:Copilot单词直译过来就是副驾驶员的意思。 介绍:本质上就是基于GitHub开源的亿级别的代码,训练AI模型,自动生成代码。 就是数据量(GitHub的数据量就很大!)能够决定你AI模型精度的上…

软件测试中的AI——运用AI编写测试用例

文章目录 一、现状二、测试技术可结合AI的几个方向三、尝试使用AI编写测试用例(实验过程)1、AI联系上下文的能力弱2、回答的内容类似于能在网上搜索到的内容3、需要有一个明确的指令4、输出内容有限5、无法想象到需求描述之外的内容 四、总结&#xff1a…

AI热度降温?揭秘加德纳技术成熟度曲线与AI发展阶段

一文解决你所有对 AI 的焦虑 近期,我们发现ChatGPT的热度似乎不如前几个月。许多人尝试了这个技术,觉得它非常强大,但似乎与自己的日常生活和工作关系不大,因此逐渐失去了兴趣。 然而,这实际上是技术发展的正常周期&…

王炸赚钱组合!!ChatGPT + AI大模型

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…

ChatGPT + AI大模型 = 王炸!!!

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…

ChatGPT+低代码,好用到飞起?

ChatGPT 凭借短短 2 个月,月活用户突破 1 亿,成为史上用户增长速度最快的消费级应用程序。ChatGPT 的爆火,在全球范围内掀起了一场关于 AI 技术革命的狂潮,AIGC 也迅速成为科技圈最火赛道。 更有国际咨询机构预测,203…

信用卡兴趣人群洞察报告.pdf

男性用户对信用卡的关注度显著高于女性 信用卡兴趣人群年龄集中在24-40岁,与主流消费人群相吻合。41岁以上人群信用卡关注度明显滑落 深广信用卡关注度最高,占据前四名知州、西安等中西部城市占据前十名中半数名额 信用卡兴趣人群高度集中于iPhone手机,其次分别为三星、魅族…

关于程序员的调查报告

最近Stack Overflow发布一份开发者调查报告,内容涵盖了开发人员最喜欢的技术到工作偏好等等各种问题。下面小编就带大家一起来看一看。 NO.1 最常用的的编程语言: 我们发现Python的使用度今年超过了Java,Python的势头有点猛啊!&am…