文|小戏
二月以来一波一波的 ChatGPT 和 GPT-4 刷屏,从围城外面来看整个 AI 社区确实一片勃勃生机万物竞发,CNN、纽约客又一次开始讨论人工智能危机,公众号里“ChGPT时代,我们该如何如何”的文章也轻松拿到十万+,甚至于在资本市场里有关 AI 产业的投资也开始放水,似乎一切都朝着“明天会更好”的方向发展。
然而,在围城内,或者特指于在学术机构从事 AI 相关研究的我们而言,伴随着大模型的高潮迭起,也许心中一直会有这样一个疑问——在这样一个烧钱堆大模型的时代,我们的竞争力在哪里呢?
当看着 DeepMind、Open AI、Google Brain和 Meta AI 等企业级人工智能研究机构高歌猛进,用数据、算力堆出甚至我们无法解释只能说“涌现”的神奇结果,那究竟靠着实验室里的几块 GPU 以及三两个人,我们到底还能做些什么样的工作呢?
面对着这个问题,纽约大学的 Julian Togelius 教授和马耳他大学的 Georgios N. Yannakakis 教授撰写了这篇《Survival Strategies for Depressed AI Academics》,两位作者总结了一些策略(鸡汤)以供我们参考,从而帮助我们摆脱 “Depressed” 的情绪。对于这种 “Depressed” 的情绪,他们做了一个很形象的比喻,如果说我们(科研人员)是一些小镇的杂货店老板,贩卖着不同的“研究主题”,那么这种失落就有点像得知店旁边要开一家沃尔玛(DeepMind 和 Open AI)。而这些鸡汤也就是讨论一下,如果我们不希望我们的店倒闭(也不应该倒闭)的话,我们可以做或者应该做什么呢?当然,作者也指出,提出这些策略仅仅只是一个开始,他们更希望去“启动一个讨论”,以使得我们更好的一起面对“大模型时代下的科研”这样一个宏大的问题。
论文题目:
Survival Strategies for Depressed AI Academics
论文链接:
https://arxiv.org/pdf/2304.06035.pdf
1. 放弃(躺平)
没错,作者提出的第一条策略就是“Give Up!”。
事实上,作者想说的是,如果你已经拥有了一个“铁饭碗”(永久教职),并且也不太在乎晋升,那么“躺平”似乎总是一个最好的选择。放弃倒不是代表退出学术界,而是说放弃去做出真正有影响力的工作,还有很多技术细节还子领域的子问题可以在一般的期刊或会议中发表文章,不去卷里程碑式的工作,哪怕旁边有沃尔玛,小超市总也不可能完全倒闭不是么?
放弃似乎确实是四下环顾的最优解,不过作者倒也给了一个潜在的不成问题的问题“有可能的问题是这不是当初你选择开始你的研究生涯的初衷”。
2. 让我们冲向那个风车!
堂吉诃德带着侍从桑丘来到了郊野上,他们望见不远处有几十架风车(GPU的风扇)。
堂吉诃德对他的侍从桑丘说:“我的朋友,前面出现了几十个巨人(Close AI),我要去和他们决斗,我要打败他们,这是场正义的决斗,我要消灭这些侵略地球的坏家伙。”
没错,作者提出的第二条建议是“与那个压倒性的对手直接竞争”,扩展我们的工作,在实验室里训练出一个大模型。
可惜的是,作者并没有提出可行的操作方案,只是给了几个注意事项:
资金可能是一个巨大的问题,如果只是凭借申请到的科研基金,很可能无法支持大规模预训练模型的开销;
实验室需要具备从概念证明到参数调试的一整套的工作与计算能力,这可能也不容易;
除了需要在几年内拿到文凭的博士生外,也需要大量开发人员参与才有可能实现。
作者悲观的表示,很显然,现有的学术研究的工作结构和一个成功的大模型项目所需的结构并不兼容。
3. 也许不需要 SOTA
很显然,还有很多领域大模型并不适用或者并不兼容,如果我们可以证明一个新方法的理论优势或者相对现有方法的比较优势,那么哪怕我们不去打 SOTA ,而只是在一些简单但有代表性的试验中证明了这一结果,那么这一工作仍然是有意义的。
当然,作者也指出了这种做法的两个可能的弊端:
不可避免的影响力的下降,类似 GPT-4 这种模型必然会带来比一些理论模型更强的震撼力;
在很多的领域,比如NLP,有可能非常难以缩小规模而证明理论优势。
4. 白嫖
倒也不是说我要做研究就必须从头到尾自己训一个大模型。
相比于其他的学科领域,计算机尤其人工智能领域的开源社区是最近几年 AI 发展如此之快的重要原因之一。在这样一个优质的开源社区里,模型、代码的共享可以为我们基于大模型的研究提供机会,基于现有社区共享的大模型对其进行微调以解决自己的问题,也是一条可以实践的思路。
当然,这背后的潜在问题是 Open AI 并不 Open,同时有时基于大模型的微调可能也无法获得我们期待的良好性能。
5. 去修电脑?
也许我们造不出一台电脑,但我们完全可以拆一台电脑。
针对大模型的分析性研究,有可能可以成为非常有潜力的研究方向。因为虽然现在我们已经拥有了非常多的强大的模型,但是尴尬的问题可能是“我们从来都不了解它们”。
哪怕是面对在大模型时代最基础的范式 Transformer,对它的理解都不是一件容易的事,更无论当数据规模起来之后表现出的种种神奇能力的“涌现”,这需要我们创造性的对这些模型进行分析与监测,从而发现新的问题或者开发出可视化或者概念性的工具帮助我们理解它们。换言之,对大模型的开发者而言,其实他们也需要像这样一些大模型的优秀“分析者”与“理解者”,去帮助他们更好的迭代并创造更好的模型,这一块尚有大量工作需要去做。
6. 转投 RL
因为没数据导致大模型做不下去?良禽择木而栖,良臣择主而事,有一条明路就是转投强化学习。
做强化学习有一个显然的好处就是可以帮助我们绕开诸如“数据获取”,“数据分析”,“数据存储”等一系列问题。甚至也不必再需要一个必要的“大数据集”做支撑,就可以 Happy 的进行研究。
然而,作者也为我们打了一剂预防针。尽管强化学习可以让我们避开数据集相关的麻烦,但是强化学习所需要的算力可一点都不低,同时,强化学习本身也有环境的构建、收敛问题等诸多自身的问题,因此这条路更适合本身算力不愁的富哥们。
7. 小模型也很可爱!
在许多领域,大模型并不是最优选择。典型的场景比如当需要在用户端部署 AI 或诸多边缘计算的场景时,真正需要的不是一个大而全的巨大的模型,而是一个推理迅速存储要求低的小模型。
同时,诸如小样本学习的研究,在很多场景下我们期望从较少的数据中学习到更多的知识,沿着这条进路向前,我们或许可以得到更具有解释性、鲁棒性以及安全性的新模型。两位作者认为,这个研究方向的重要性会在未来几年内急剧增长。
8. 避其锋芒,权且忍让
还有一种有效的策略是选择一个工业界不会感兴趣的领域进行研究。
两位作者现身说法,他们二位最早投入了 AI for Games 的社区,并在这个领域做出了不少有意义的研究(软广嫌疑)。而大多数大公司并不会在 AI for Games 方面投入大量精力,也因此可以成为一部分科研工作者的生存空间。
当然,这种策略一个巨大的问题就是,在这类领域做研究而形成的工作,或许会很难被 AI 内的顶级会议所接受,因此自己的研究有可能会尴尬的无人问津。
9. 开荒
相比于上条选择一个尚且冷门的领域进行研究,有条风险更大的路便是找到一个“尚不存在”的领域进行开荒。专注于尚且几乎没有人看到重要性的问题,试图在这些问题中做出成就。
可以去问自己一系列问题,有什么是 AI 很少应用到的问题领域,为什么没有被应用到,是没发现还是不关心,如果不关心,那么未来会有人关心吗?这有点像打赌,去下注这个领域未来会变得更加重要。高收益高风险,同时也注定伴随着孤独和不理解。
10. 挑战不可能
工业界里的大型实验室的工作方式往往肯定是尽可能去尝试那些最有可能成功的事,因为如果不成功,那么轻则损失资金,重则甚至会伤害企业的正常运行。但是小作坊式的科研实验室的试错成本相比这些大型实验室要低许多,同时,在学术界,失败也可以像成功那样具有自己独特的意义,甚至事实上 AI 中的很多重要发明都来自于尝试那些直觉上“错误”的事,譬如最开始的人们也不会想到一个神经网络可以实现现在这么多的事。
11. 游走在道德的边缘
出于公众舆论以及声誉品牌压力的限制,大公司往往会避免尝试任何看起来不好的事。这很容易理解,因为在股东负责制的当下,如果 CEO 决定去冒险做一些“有争议”的工作时,那大概理会被股东们一致解雇。
而这种“声誉成本”可以给打游击战的科研工作者带来机会,当然,作者强调这并不是在说我们可以借着这种不对等做任何“不道德”的事,只是价值观是多样的,自己接受的教育以及价值观与那些白人自由主义的精英分子可能非常不同。作者们举了一个自己参与的项目的例子,他们构建了一个模仿 Chuck Tingle ——著名的荒诞科幻政治讽刺同性恋情色小说的作者——的语调在一些问题上发声的 AI 系统,以提出当前英语写作系统中的“Neutral English”的潜在规范。显然,这种研究很多巨头公司并不会进行。
总之,利用自己的文化背景,如果做不到这些巨头公司不能做的研究,那就去做这些公司不会做的研究。
12. 去,创业?
没错,正如前面第二条所说的一样,现有的学术研究的工作结构和一个成功的大模型项目所需的结构并不兼容。那么,一个显然的方案可能是,润出学术界,去创业吧,少年!
显而易见的优点是,可以获得丰富的在以为的学术环境中根本无法获得的丰富数据,自己的程序可以在现实环境中得到检验,可以获得投资的帮助,拿到更多的计算资源,通过招聘也可以获得更多的人力资源以解决工程问题。
然而,真正困难的是,创业是一条异常艰辛的道路,面临的风险、不确定性要比在学术界的襁褓里大几何倍。甚至于如何提出一个可以真正落地的研究想法都是一个需要反复论证推敲的艰难工作,同时优秀的研究 Idea 也并不一定是一个优秀的产品。哪怕很多杰出的由学术研究转换而来的产品都经历了漫长的发展期,更无论一些可能本身是普通的想法。
哪怕自己可以通过一些方式获取到初期的投资,如何滚动这些投资让它们可以真正支持公司的发展,如何最大化利用这些资金来实现自己希望办到的事都是巨大的问题。而最重要的是,创业后遇到的员工不再是只需要奖学金的博士生,而是实打实签订劳动合同的员工,如何承担这些压力都是选择这条路的一个必要解决的问题。
13. 打不过,就加入!
OK,如果上面几条策略都不适用,那其实还有一条更直接的策略,打不过,就加入!
这种加入倒也不完全是投身大公司,相反,在学校以研究访问、实习和联合培养等项目的形式于这些 AI 公司建立合作关系也是一个不错的,甚至是最佳的选择。大学仍然承担培养与教育的功能,企业则可以通过大学实验室的学术资源以及实习生(廉价劳动力)解决部分项目问题。
当然,这条路需要注意的问题主要是,与企业合作的项目不一定总能以论文的形式发表,同时,也并不是所有学生都愿意在企业实验室进行工作。
企业,与学校可以做什么呢?
OK,简单叙述了一下这13条策略,几乎逼着科研人员以论游击战的形式与这些巨头企业进行竞争。然而,事实上,科研人员面对的问题并不总是一个或几个研究者所面对的问题,AI 研究在学界的凋零会直接影响到 AI 公司的创新能力,更一般的,这应该是一个大学、企业以及研究员三方共同解决的社会问题。
那么,对于这些巨头企业而言,做什么有助于这种问题的解决呢?颇为理想的,作者提出了以下三点:
积极参与模型开源
扩大企业与学界的合作
公开发布研究成果
而相应的,对于科研工作者就职的大学来说,也应该做到:
改变对研究者们进行研究的激励结构,鼓励他们更具冒险精神的提出、验证自己的成果。
对研究者们的资助也应该避免偏向一些所谓“颠覆性”的成果,而更应该从科研本身出发,跟进科研趋势资助一些基础性的和未来性的研究
开放性问题
事实上,正如论文作者在结论里所说,他们希望做的只是提出一个问题,并且推动面对这个问题我们研究者门可以得到一个共同的目标或是一个集体的解决方案。这个问题本身只是一个开始,这13个策略也只是一个仅供参考的指南。更为重要的意义上刺激共享一个学术社区里的大家进行开放性的对话并征求大家的意见并完善潜在的策略。
因此,最后的最后,我们也希望为大家留下一个开放的问题:面对大模型时代巨头企业在数据、算力、人力方面的全面碾压,作为 AI 学界的科研er,我们应当采取什么样的策略、做出什么样的选择呢?欢迎大家投票以及在评论区热烈讨论!
卖萌屋作者:小戏
在商学院学优化搞算法读哲学的兼职NLP新闻写手~
作品推荐
神网站PaperWithoutCode:举报无法复现的论文,让一作社死??
NLP哪个细分方向最具社会价值?
吴恩达发起新型竞赛范式!模型固定,只调数据?!
仅仅因为方法 Too Simple 就被拒稿,合理吗?
忘掉Xavier初始化吧!最强初始化方法ZerO来了
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜推广与求职讨论群