生成式人工智能时代：研究机构与工业机构的角色之争

来源：Illustration by IconScout Store from IconScout

作者：刘鹏飞

微软创始人比尔盖茨说人生中让他印象深刻的两次技术革命演示，一次是现在操作系统的先驱“图形用户界面”，另一个就是以ChatGPT为代表的生成式人工智能技术。

一、生成式人工智能：技术革命新时代

什么是生成式人工智能？

生成式人工智能是指: 利用机器学习技术让计算机自动生成不同模态（比如文本，图片，语音等）高质量数据的方法。尽管过去几十年的人工智能研究迭代出了无数的生成模型，但生成式人工智能被当成一种新的算力来讨论还要从以GPT3为代表的大预训练语言模型算起。

利用生成式AI技术，人们往往可以通过自然语言交互方式生成高质量内容。比如，张三感染了新冠想写一封邮件给部门经理, 那么他只需要输入“我感染了新冠，请帮我写一封邮件告诉部门经理我今天不去上班了”，便可以得到如下一个还不错的邮件初稿

生成式人工智能起草邮件

又比如，张三脑洞大开，想生成一副泰迪熊在时代广场玩滑板的图片，那么他只需要输入“生成一副泰迪熊在时代广场玩滑板的图片”，便可以得到如下图片：

生成式人工智能生成图片

生成式人工智能的技术基础？

生成式人工智能所涉及的技术非常综合且广泛，但就其核心文本生成而言，主要依赖于两个重要技术：

生成式预训练（Generative Pre-training）
提示学习（Prompting Method）

前者负责海量数据的向量化存储问题，后者则提供了一种可以通过自然语言描述对存储数据进行灵活读取的能力。这两种技术的结合，革新了人类对数据存储和读取方式的方式，也催生出了一种新的人机交互接口：自然语言接口（Natural Language Interface），其带来的蝴蝶效应体现在了各个方面。比如关于生成式人工智能，有如下有趣的类比：

生成式人工智能的技术基础

从计算平台角度看，生成式预训练模型可以被视为新一代通用计算机，而OpenAI则是这个通用计算平台之父，赋予了新一代计算机实现通用人工智能的使命；
从计算力角度看，生成式计算(Generative Computing)是继云计算之后的又一种新的算力形式，将会像电、网络和云计算一样，成为人们生活中不可或缺的基础算力；
从应用生态角度看，以ChatGPT为代表的生成式人工智能产品将成为互联网新的重要入口。生成式AI产品(比如：ChatGPT)独有的自然语言接口属性使得这个入口很容易建立一个具有超强包容性的生态系统(比如：ChatGPT Plugin)；
从人机交互角度看，以ChatGPT为代表的产品将成为人类大脑的延伸，提供更智能、高效、自然的与人交互的方式，同时还能通过工具的使用帮助人类更好地与世界互动。
…

不管做怎样的类比，我们都可以看到生成式人工智能都被放在一个空前的技术革命地位，它将会在多个领域为人类带来前所未有的颠覆性、革命性和史诗级的影响，大大提高社会生产力和人们的生活质量。

二、生成式人工智能带来的结构性变革

生成式人工智能的到来将在不同领域、不同方面带来结构性的变革，比如：

1. 个人层面：个人成长、教育和职业发展都需要在新环境下重新思考，学习新知识和工具、适应新环境等。网上有个很现实的说法：未来AI不会淘汰人类，但会淘汰不会使用AI的人，也许说法过于极端，但确实没有道理放着个可以延伸大脑的工具而不去使用；

2.组织层面：不管是学术研究机构、还是工业机构（尤其是互联网等科技公司），其内部组织结构，人员结构、合作方式等都可能需要结合新的形势进行调整与重构；比如，OpenAI 发布ChatGPT以来，国内很多巨头公司都对企业内部组织进行了重构，为的是更好地形成合力去研发新产力-生成式AI；在学术界，类似“复仇者联盟”有Laion, Together；创投界也有类似的组队。从这个层面来看，生成式AI，让大家走到了一起：）

3. 行业层面：数字化、信息化、智能化进程将会加速；行业的生产方式将会受到巨大冲击；

4. 社会层面：生成式人工智能将会对教育、医疗等行业带来颠覆性影响，人才分布也将会发生改变；政府需要帮助工人平滑地进行角色转变，以及通过合适的政策力量将新科技产力安全地、可靠地、公平地服务于每一个人。

三、研究机构和工业机构

在生成式 AI中的不同职能

在生成式人工智能所带来的这场产业革命中，我尤其关注研究机构和工业机构的不同职能，和应该扮演的角色。这里有这样一个关于研究者“存在危机”的小背景：

在生成式人工智能到来以后（尤其以ChatGPT，GPT4为典型），人们对于研究机构与工业机构应该扮演的角色感到困惑，主要是因为许多任务看似被解决了，这在学术界引发了关于研究方向的担忧（比如自然语言处理领域研究者会困惑于：自然语言处理这个研究领域还存在吗？）。于是人们也开始思考，学术界在当前形势下还应该研究什么课题，或者哪些课题更适合由学术界来研究。

然而，事实上，生成式人工智能技术仍然存在许多挑战和问题需要解决。只是这些挑战和问题可能不再像之前那么“现成”，需要在拥抱变化、使用体验新技术后被新定义出来，这就要求研究者对生成式AI的技术发展、能力边界、应用范围有更好的理解；

在众多类比中，我比较喜欢“生成式人工智能是人类大脑的延伸”这个设定。沿着这个角度，这里我也尝试给出以大预训练模型为核心的生成式AI的全景技术栈，并剖析每一部分所涉及到的研究或工程环节；

生成式人工智能全景技术栈（created by GAIR Lab）

(1) 需求挖掘

生成式AI催生成了连接人和AI的自然语言接口，而该接口的通用性取决于AI模型对人类需求了解的多少，不管是学术界还是工业界都可以在需求挖掘这件事情上贡献；

如何建立数据飞轮，高效地收集用户的需求与反馈（垂直领域或通用领域）？
如何基于大规模数据分析和自然语言处理技术，从用户生成的文本、社交媒体、搜索历史等数据中发现人类潜在的需求？(⭐)
如何通过AI辅助进行需求收集？(⭐)

(2) 提示工程

如何设计能够更好帮助用户挖掘有效“提示”的辅助系统或者软件？
如何提供“提示”使用时候的鲁棒性？(⭐)

(3)系统安全

如何防止用户进行恶意的“提示注入“(Prompt Injection)行为？(⭐)
如何防止用户通过越狱使用AI做一些违反法律、道德的行为？(⭐)

(4) 用户接口

如何设计AI-native 接口？
如何设计AI-retrofit 接口？

(5) AI安全 &价值对齐(⭐)

如何保证AI系统的输出是安全可靠的？
如何保证AI不会输出有害、有毒的内容？
如何确保AI系统的输出对齐我们所普遍认同的价值观？
如何确保AI技术民主化，以及利用AI技术使教育、医疗资源公平化？

(6) LLMOps

数据：如何收集高质量的预训练数据？精调数据？用户的反馈？(⭐)
训练：如何进行有效的、稳定的
预训练？
- 精调？(⭐)
推理(⭐)：
- 如何提升推理的速度？
- 如何可控地解码出高质量的文本？
- 如何理解并使用好in-context learning技术？
- …
部署：
- 如何实现高效的、可规模化扩展的部署？
CI&CD：如何构造一个自动化的LLMOps？

(7)多模态学习

如何提高生成式AI对图片、语音、视频的理解能力，并且可以和文本统一到同一语义空间(⭐)
如何提高图片、语音、视频在自然语言接口下的生成能力(⭐)

(8) 环境交互

如何提高生成式AI的工具使用能力？(⭐)
如何标准化生成式AI使用工具的API？
如何为生成式AI开发适配的外部工具？
如何链接生成式AI和机器人？(⭐)

“⭐” 所标注的项目都是学术界可以尝试去探索、解决的（由于笔者时间有限，以上只是初步的枚举，未来有机会再详细展开。当然有感兴趣的朋友们也欢迎一起讨论：）

总之，生成式人工智能时代，研究机构可以研究的问题并没有减少，更多的只是内容上的更新，这也就要求学者敢于定义新任务，新场景，并提出可能的解决方案；比如：如何确保生成式人工智能技术的应用不会被滥用或者侵犯人们的隐私和安全？如何促进生成式人工智能技术的公正和可持续发展？在这方面，学术界具有得天独厚的优势。学术界可以利用其自由和开放的环境，推动最新的研究和探索，不断挑战和创新。此外，学术界也可以跨越不同领域和学科的边界，汇聚最新的想法和思路，为生成式人工智能技术的发展提供更广阔的视野和更深入的思考。

我非常喜欢约翰霍普金斯大学Mark Dredze教授在类似的讨论话题下对学生们的建议：

“我的建议是总是选择一个主题来研究，这个主题具备以下两个特点：1）你认为没有其他人会解决它。2）你在这个主题上有独特的贡献能力。”

同时Mark Dredze教授还具体分享了几个在他看来有价值的方向，这里摘抄分享下：

（1）自然语言处理在其他领域的应用：多年来，各行各业的人们一直在向我们寻求NLP工具，以帮助他们进行研究和解决问题。我们现在有了更好的工具。如何帮助他们使用这些工具?

（2）低资源领域或语言：扩展语言模型可以解决很多问题。并不是每个任务或领域都有足够的数据。这些领域的解决方案是什么?他们会被遗弃吗?对于特定的任务，有很多工作要做监督学习。考虑到任务的规模、成本和准确性等因素，使用GPT-N来解决每个NLP任务的想法是不可行的。

（3）评估：我们需要评估的帮助!我们正在触及目前评估方法的极限，没有好的方法，进步就无法继续。

（4）创造性的新应用：近年来，我被我们现在使用NLP系统的多样性和创造性所震撼。请再来点。

Mark教授很多观点，我都非常认同+共鸣：

1. 诚然，每个人都有自己独特的能力，如果能把它和当前发展中遇到的瓶颈问题连接好，你便能做出非凡的工作，无论是在学术界还是工业界。

2. 在过去的一年多中，我也和CMU Graham Neubig教授联合创立了专门面向生成式AI评估的公司，致力于让大模型更安全可靠地服务于人。我们几乎把所有关于自然语言处理任务的评估技术都挖尽了，感受就是目前评估方法相对模型本身的快速发展是严重落后的。这导致很多时候我们可能在一条错误的路子上不断优化，或者满足于部分的优良结果而忽视全面认识，最终错过了技术突破与创新的时机；

3. 记得我也曾和Graham教授针对"GPT4出来后，自然语言处理学者还能做什么的"的问题进行过一些讨论，他很认真的说道：