【SaaS播客】onboard20. 生成式AI AIGC：硅谷AI大牛、投资人、创业者眼里的机会与挑战

近期IT领域最火热的话题就是AIGC了，可以说是真正出圈了，这个词貌似是百度大力推广的；国际上用得更多的是Generative生成式AI。最近的热点是“真”智能聊天的产品chatGPT。我认为对上层产品而言最关键的是这2个里程碑:

20年中OpenAI推出GPT-3 OpenAPI，其它公司能够基于大模型构建产品。

22年下半年Stable Diffusion开源，其它公司能够基于大模型用消费级GPU做微调，构建专属模型。

就像移动平台iOS/Android的出现，使所有的产品都值得在移动端重做一遍一样。随着技术门槛降低，我认为Generative AI也值得使至少所有包含PGC/UGC功能的产品重做一遍，包括企业软件这种天然就需要员工用户来录入内容的system of records.

原播客在《Onboard》EP 20，想要边听边看的可以点击“阅读原文”或访问https://u3cexcdeqf.feishu.cn/minutes/obcn3lk861n736bxkos4ih88。以下文字记录基本从播客文字中复制，所以采取问题+我总结的原话摘要的形式记录。

问题：从技术的角度，现在我们看到的Generative AI 到了技术上，跟之前它是做了哪些准备，使得Generative AI现在能够成为一个大家可以商用的一个技术？

田渊栋: 之前的 AI model 用的是 GAN 来train。GAN 有个问题，训练不是很稳定，训练出来的结果其实也不一定非常好，所以遇到是很大的一个问题。最近大家都不用 GAN 了，用Diffusion model一点点的再加细节上去。model 训练起来虽然比较慢，但是确实比较稳定，得到结果也比GAN 的效果要好。这是其中的一个突破的点。

另外一个点是Transformer的引入。Transformer 主要的一个好的地方是，它能够把多模态的数据放在一起进行对齐，然后把一个模态的信息转到另外一个模态上去。Transformer一来，有个好的地方是我可以用文字去控制图像的生成效果。因为Transformer有多模态的融合能力，所以我可以把图像、文字都转化成Transformer 的token，用Transformer embedding。这 embedding 之间，它们之间是相互之间可以翻译的。这样你就可以把文字变成图像。通过这个方式就能够训练的也比较好。

我觉得另外一个可能一些突破，比如像CLIP loss function，有些 loss function 的改进，其实能够让训练出来的embedding 变得更精细，它能理解更多的或者更深入的语义。通过这些比较大比较好的进步，最终能得到一个比较好的或者受控制的一个图像生成模型。这是为什么现在那么火的原因。所以现在能火，要对于近 10 年来，大家在不懈努力，把图像生成的效果一点点在往上推进，最后达到这样的效果。

问题：其实上一波热潮之后，我会发现当时很多做Computer Vision做AI的公司，其实我们后来看到成功的并不是很多。这一次会有什么相同和不同的地方？等到技术最终都被 commoditize了以后，这次谁能够真正的赚到钱？能够赚钱的 business model 会跟之前有什么不一样吗？

Lan: 现在很明显的有，大概其实三波公司。一波专门做model，其实像OpenAI，像还有一些大公司，其实现在都做自己的 model，他们有很多的基金。很多 research要 train model 的，我觉得 winner 还是会 concentrate on 有最多基金的这些公司，因为 train model 是非常贵的。

第二波公司其实就建在我刚才说建在这些model，用他们model 去找这些场景的这些公司，能够找到非常 specific use cases 去 monetize。这些公司，你跑得最快的，其实是可以赚很多钱，其实可以赢的。因为做 modelde公司，它不会有那么多时间去做这些use case。

第三波其实很多时候都用不上这些model，因为这些公司他们必须得建自己的新的model。是非常非常 specific vertical，比如焊接机器人，这个东西你有很多的知识在，太难做了，你要自己做一个机器人，现在很多 model 是用不上的，你要自己要做自己 model 也会去 leverage off the shelf。这个东西我觉得其实如果能做出来，基本上是一个 hundred billion dollar 公司。

问题：Transformer 现在它attention的机制，应该挺难生成大段大段的这样的连贯性的、前后有关联性的长文本。再往后面从你们角度来看，如何让整个文章的结构化，应该是会有什么突破，除了这个模型之上？

田渊栋: 所以它一个关键的点就是要控制它的prompt。在输入prompt中我要把过去的文本的细节，文本的那些 summary 和角色的一些设定，还有角色的一些特质，包括整个文章的主题，都要放进 prompt 里面去。这样生成出来的文本才会有的放矢。它会有一个比较好的，或者比较跟以前的文本一样的，或者比较连贯的一个架构。这个是一个很重要的点。你会发现你把上下文放进 prompt 里面之后，生成出来的文本就会好很多。

当然了，我们之后还有一些后处理的步骤，比如有一个重新再重采样的过程，你可以生成，比如 20 段，我们有一个方法，可以把 20 段比如排个序，只取最相关的一段作为下一段来处理。这样生成出来的文本又长了又连贯。目前我们可以生成 2000 到比如 7000 词的英文词的，这样的文本还是比较连贯。

问题：现在很多用 AI 生成文本的公司还是基于 prompt 提示词，你发现要 fine tune 到你想要的效果,其实你的提示词要非常的具体，可能就不是提示词了，是一个提示段落了。所以其实对于很多创作者、艺术家来说，其实不是每个人的语言文字表达都可以那么的精确的。所以从技术的角度来说它。我们现在看到哪些公司在这个方面，或者哪些研究的方面有可能会有一些突破?

田渊栋: 其实可能需要更好的模型对吧？可能需要比如Transformer 上做一些改进，比如把Transformer 结合以前的模型，比如什么knowledge graph，或者把以前的知识用一些比如图像、或者说用图来表示。这样的一个结构可能会有一些帮助。接下来你怎么样去能够把具体语义上的一些非常 subtle 的东西能够表示出来，这样就能减少你提示词的次数。这个是一个可能的问题。怎么样personalize，或者怎么样 contextualize 你的model？

问题：用生成式AI 来作为一个工具这个事情本身，在哪一些领域我们看到也是可以做得比较深，哪些领域可能比较容易有渠道上的一些劣势？

Jiang Chun: Jasper的生成性只是它们的其中很小的一部分。他们最厉害是因为他们生成的东西能够 optimize for SEO 算法。他们又有非常多的一些 community education，又有一些很好的上下游的服务来帮你来 post on social media directly。可能他们还会开始做AB testing。所以我觉得之后的AI能够成长为 billion business的公司一定是和一个垂直的领域和 workflow 结合得非常好的。

垂直领域一定是一个非常好的打法，因为现在最好的有 retention 的公司，在 AI generation 方面：一个是做 interior design，卖给这些地产经纪generation，一个是做汽车 generative design，会卖给福特这些公司。

问题：从技术角度现在我们有哪一些方向可以去把 cost 这个事情可以降低的。我们现在也还有哪些挑战？

田渊栋: 清华的新模型DPM-solver可以把Stable Diffusion的step iteration从50次减少到20-30次。模型可以搞成更小的，但是效果还差不多，训练可以用更便宜的GPU，或者用更少的GPU。

Jiang Chun: 他们这些大的模型公司会开始做的事情是有一点类似于MLOps。GPT-3，它也有很多不同的版本。如果有一个 platform 或者这些 foundation model，可以给你告诉你说如果是用在这个领域，你应该尝试一下我们什么3.2.8版本。如果你在尝试另一个方面，你可以用这两个版本。这两个版本有什么Pros and Cons，它们各自的 cost 是多少？这是一个也就是比较 handy 的一个方向。

问题：你们觉得现在哪一些是关于Generative AI，哪一些是你觉得 overhyped overestimated 的，而哪一些可能你觉得对你们来说是真实的一个价值？或者你觉得甚至有可能是被大家可能 underestimated 的一些东西

田渊栋: 技术上来说，我觉得接下来可能是怎么样personalize一个 model 对吧？一个Large Language Model 怎么personalize？同样的一个性能，但是能够让它在每家每户上都能够用上。这种情况下，你怎么样能够让 model 最终能进入千家万户，能够把 personalization 的东西做好，能够让大家能够在自己的手机上或者自己的机器上能够用上模型，达到效果。

可能有个瓶颈，现在大家数据越来越多，最后数据会用完的。我觉得之后有可能撞上这堵墙。因为以前以为数据是无限的，确实数据当时是无限，但是现在数据越来越多，计算越来越强。计算力可以很强，但是数据是不是撞上瓶颈不知道，这个是一个大的问题。