图像生成领域发展迅速。 尽管 Midjourney 和 Stable Diffusion 等流行工具使用的扩散模型可能看起来是我们所拥有的最好的,但下一个东西总是会出现——OpenAI 可能会用“一致性模型”来解决它,它已经可以完成简单的任务和 数量级比 DALL-E 之类的快。
该论文于上个月作为预印本发布到网上,并没有伴随着 OpenAI 对其主要版本的低调宣传。 这并不奇怪:这绝对只是一篇研究论文,而且非常技术性。 但这种早期实验技术的结果非常有趣,值得关注。
一致性模型不是特别容易解释,但与扩散模型相比更有意义。
在扩散中,模型学习如何从完全由噪声构成的起始图像中逐渐减去噪声,使其一步步靠近目标提示。 这种方法使当今最令人印象深刻的 AI 图像成为可能,但从根本上说,它依赖于执行 10 到数千步的任何地方才能获得良好的结果。 这意味着它的运行成本很高,而且速度很慢,以至于实时应用程序不切实际。
一致性模型的目标是在单个计算步骤或最多两个计算步骤中获得不错的结果。 为此,该模型像扩散模型一样经过训练以观察图像破坏过程,但会学习在任何遮蔽级别(即缺少少量信息或大量信息)拍摄图像并生成完整的源图像 只需一步。
但我赶紧补充说,这只是对正在发生的事情的最粗略的描述。 就是这种样子:
由此产生的图像并不令人兴奋——许多图像甚至都不能称为好图像。 但重要的是它们是一步生成的,而不是一百或一千个。 此外,一致性模型泛化到各种任务,如着色、放大、草图解释、填充等,也只需一个步骤(尽管经常改进一秒钟)。
无论图像主要是噪声还是主要是数据,一致性模型都会直接得出最终结果。 图片来源:OpenAI
这一点很重要,首先,因为机器学习研究中的模式通常是有人建立了一种技术,其他人找到了使它更好地工作的方法,然后其他人随着时间的推移对其进行调整,同时增加计算以产生比你开始时更好的结果。 这或多或少就是我们最终得到现代传播模型和 ChatGPT 的方式。 这是一个自我限制的过程,因为实际上您只能将这么多的计算用于给定的任务。
然而,接下来发生的是一种新的、更有效的技术,它可以做以前模型所做的事情,虽然一开始会更糟,但也会更有效。 一致性模型证明了这一点,尽管还为时过早,无法将它们与扩散模型直接进行比较。
但它在另一个层面上很重要,因为它表明 OpenAI 是当今世界上最有影响力的 AI 研究机构,它正在积极研究下一代用例的过去扩散。
是的,如果您想使用 GPU 集群在一两分钟内进行 1,500 次迭代,您可以从扩散模型中获得惊人的结果。 但是,如果你想在某人的手机上运行图像生成器而不耗尽他们的电池,或者在实时聊天界面中提供超快速的结果怎么办? 扩散根本不是这项工作的错误工具,OpenAI 的研究人员正在积极寻找合适的工具——包括该领域的知名人士 Ilya Sutskever,而不是低估其他作者 Yang Song、Prafulla Dhariwal 和 Mark 陈的贡献 。