近期IT领域最火热的话题就是AIGC了,可以说是真正出圈了,这个词貌似是百度大力推广的;国际上用得更多的是Generative生成式AI。最近的热点是“真”智能聊天的产品chatGPT。我认为对上层产品而言最关键的是这2个里程碑:
20年中OpenAI推出GPT-3 OpenAPI,其它公司能够基于大模型构建产品。
22年下半年Stable Diffusion开源,其它公司能够基于大模型用消费级GPU做微调,构建专属模型。
就像移动平台iOS/Android的出现,使所有的产品都值得在移动端重做一遍一样。随着技术门槛降低,我认为Generative AI也值得使至少所有包含PGC/UGC功能的产品重做一遍,包括企业软件这种天然就需要员工用户来录入内容的system of records.
原播客在《Onboard》EP 20,想要边听边看的可以点击“阅读原文”或访问https://u3cexcdeqf.feishu.cn/minutes/obcn3lk861n736bxkos4ih88。以下文字记录基本从播客文字中复制,所以采取问题+我总结的原话摘要的形式记录。
问题:从技术的角度,现在我们看到的Generative AI 到了技术上,跟之前它是做了哪些准备,使得Generative AI现在能够成为一个大家可以商用的一个技术?
田渊栋: 之前的 AI model 用的是 GAN 来train。GAN 有个问题,训练不是很稳定,训练出来的结果其实也不一定非常好,所以遇到是很大的一个问题。最近大家都不用 GAN 了,用Diffusion model一点点的再加细节上去。model 训练起来虽然比较慢,但是确实比较稳定,得到结果也比GAN 的效果要好。这是其中的一个突破的点。
另外一个点是Transformer的引入。Transformer 主要的一个好的地方是,它能够把多模态的数据放在一起进行对齐,然后把一个模态的信息转到另外一个模态上去。Transformer一来,有个好的地方是我可以用文字去控制图像的生成效果。因为Transformer有多模态的融合能力,所以我可以把图像、文字都转化成Transformer 的token,用Transformer embedding。这 embedding 之间,它们之间是相互之间可以翻译的。这样你就可以把文字变成图像。通过这个方式就能够训练的也比较好。
我觉得另外一个可能一些突破,比如像CLIP loss function,有些 loss function 的改进,其实能够让训练出来的embedding 变得更精细,它能理解更多的或者更深入的语义。通过这些比较大比较好的进步,最终能得到一个比较好的或者受控制的一个图像生成模型。这是为什么现在那么火的原因。所以现在能火,要对于近 10 年来,大家在不懈努力,把图像生成的效果一点点在往上推进,最后达到这样的效果。
问题:其实上一波热潮之后,我会发现当时很多做Computer Vision做AI的公司,其实我们后来看到成功的并不是很多。这一次会有什么相同和不同的地方?等到技术最终都被 commoditize了以后,这次谁能够真正的赚到钱?能够赚钱的 business model 会跟之前有什么不一样吗?
Lan: 现在很明显的有,大概其实三波公司。一波专门做model,其实像OpenAI,像还有一些大公司,其实现在都做自己的 model,他们有很多的基金。很多 research要 train model 的,我觉得 winner 还是会 concentrate on 有最多基金的这些公司,因为 train model 是非常贵的。
第二波公司其实就建在我刚才说建在这些model,用他们model 去找这些场景的这些公司,能够找到非常 specific use cases 去 monetize。这些公司,你跑得最快的,其实是可以赚很多钱,其实可以赢的。因为做 modelde公司,它不会有那么多时间去做这些use case。
第三波其实很多时候都用不上这些model,因为这些公司他们必须得建自己的新的model。是非常非常 specific vertical,比如焊接机器人,这个东西你有很多的知识在,太难做了,你要自己做一个机器人,现在很多 model 是用不上的,你要自己要做自己 model 也会去 leverage off the shelf。这个东西我觉得其实如果能做出来,基本上是一个 hundred billion dollar 公司。
问题:Transformer 现在它attention的机制,应该挺难生成大段大段的这样的连贯性的、前后有关联性的长文本。再往后面从你们角度来看,如何让整个文章的结构化,应该是会有什么突破,除了这个模型之上?
田渊栋: 所以它一个关键的点就是要控制它的prompt。在输入prompt中我要把过去的文本的细节,文本的那些 summary 和角色的一些设定,还有角色的一些特质,包括整个文章的主题,都要放进 prompt 里面去。这样生成出来的文本才会有的放矢。它会有一个比较好的,或者比较跟以前的文本一样的,或者比较连贯的一个架构。这个是一个很重要的点。你会发现你把上下文放进 prompt 里面之后,生成出来的文本就会好很多。
当然了,我们之后还有一些后处理的步骤,比如有一个重新再重采样的过程,你可以生成,比如 20 段,我们有一个方法,可以把 20 段比如排个序,只取最相关的一段作为下一段来处理。这样生成出来的文本又长了又连贯。目前我们可以生成 2000 到比如 7000 词的英文词的,这样的文本还是比较连贯。
问题:现在很多用 AI 生成文本的公司还是基于 prompt 提示词,你发现要 fine tune 到你想要的效果,其实你的提示词要非常的具体,可能就不是提示词了,是一个提示段落了。所以其实对于很多创作者、艺术家来说,其实不是每个人的语言文字表达都可以那么的精确的。所以从技术的角度来说它。我们现在看到哪些公司在这个方面,或者哪些研究的方面有可能会有一些突破?
田渊栋: 其实可能需要更好的模型对吧?可能需要比如Transformer 上做一些改进,比如把Transformer 结合以前的模型,比如什么knowledge graph,或者把以前的知识用一些比如图像、或者说用图来表示。这样的一个结构可能会有一些帮助。接下来你怎么样去能够把具体语义上的一些非常 subtle 的东西能够表示出来,这样就能减少你提示词的次数。这个是一个可能的问题。怎么样personalize,或者怎么样 contextualize 你的model?
问题:用生成式AI 来作为一个工具这个事情本身,在哪一些领域我们看到也是可以做得比较深,哪些领域可能比较容易有渠道上的一些劣势?
Jiang Chun: Jasper的生成性只是它们的其中很小的一部分。他们最厉害是因为他们生成的东西能够 optimize for SEO 算法。他们又有非常多的一些 community education,又有一些很好的上下游的服务来帮你来 post on social media directly。可能他们还会开始做AB testing。所以我觉得之后的AI能够成长为 billion business的公司一定是和一个垂直的领域和 workflow 结合得非常好的。
垂直领域一定是一个非常好的打法,因为现在最好的有 retention 的公司,在 AI generation 方面:一个是做 interior design,卖给这些地产经纪generation,一个是做汽车 generative design,会卖给福特这些公司。
问题:从技术角度现在我们有哪一些方向可以去把 cost 这个事情可以降低的。我们现在也还有哪些挑战?
田渊栋: 清华的新模型DPM-solver可以把Stable Diffusion的step iteration从50次减少到20-30次。模型可以搞成更小的,但是效果还差不多,训练可以用更便宜的GPU,或者用更少的GPU。
Jiang Chun: 他们这些大的模型公司会开始做的事情是有一点类似于MLOps。GPT-3,它也有很多不同的版本。如果有一个 platform 或者这些 foundation model,可以给你告诉你说如果是用在这个领域,你应该尝试一下我们什么3.2.8版本。如果你在尝试另一个方面,你可以用这两个版本。这两个版本有什么Pros and Cons,它们各自的 cost 是多少?这是一个也就是比较 handy 的一个方向。
问题:你们觉得现在哪一些是关于Generative AI,哪一些是你觉得 overhyped overestimated 的,而哪一些可能你觉得对你们来说是真实的一个价值?或者你觉得甚至有可能是被大家可能 underestimated 的一些东西
田渊栋: 技术上来说,我觉得接下来可能是怎么样personalize一个 model 对吧?一个Large Language Model 怎么personalize?同样的一个性能,但是能够让它在每家每户上都能够用上。这种情况下,你怎么样能够让 model 最终能进入千家万户,能够把 personalization 的东西做好,能够让大家能够在自己的手机上或者自己的机器上能够用上模型,达到效果。
可能有个瓶颈,现在大家数据越来越多,最后数据会用完的。我觉得之后有可能撞上这堵墙。因为以前以为数据是无限的,确实数据当时是无限,但是现在数据越来越多,计算越来越强。计算力可以很强,但是数据是不是撞上瓶颈不知道,这个是一个大的问题。