引言
Meta于2024年10月4日首次推出 Meta Movie Gen,号称是迄今为止最先进的媒体基础模型。Movie Gen 由 Meta 的 AI 研究团队开发,在一系列功能上获取最先进的效果,包括:文生视频、创建个性化视频、精准的视频编辑和音频创作。
无论是渴望在好莱坞闯出一片天地的新晋电影人,还是热衷于为观众制作视频的创作者,每个人都应该有机会使用能够增强创造力的工具。Meta公司隆重推出Movie Gen,这是在媒体生成人工智能研究方面的突破性成果,涵盖了图像、视频和音频等多个模态。最新研究展示了如何通过简单的文本输入来制作定制视频和声音、编辑现有视频,以及将个人图像转化为独特的视频。在人工评估中,Movie Gen在这些任务上的表现优于业界类似模型。
小窗幽记机器学习
记录机器学习过程中的点点滴滴和坑坑洼洼
公众号
背景
这项工作是Meta长期与社区分享基础人工智能研究的成果之一。第一波生成式人工智能工作始于Make-A-Scene系列模型,实现了图像、音频、视频和3D动画的创建。随着扩散模型的出现,第二波工作Llama Image基础模型应运而生,能够生成更高质量的图像和视频,并进行图像编辑。Movie Gen作为第三波成果,巧妙结合了所有这些模态,并以前所未有的方式为使用者提供了更精细的控制。与前几代模型类似,这些模型有望支持各种新产品,加速创意的实现。
尽管这些基础模型有许多令人兴奋的用途,但值得注意的是,生成式人工智能并不能取代艺术家和动画师的工作。分享这项研究的目的在于相信这项技术能帮助人们以新的方式表达自己,并为可能缺乏机会的人提供新的可能性。未来,或许每个人都能利用Movie Gen实现自己的艺术愿景,创作高清视频和音频,让创意的火花绽放得更加璀璨。
简介
作为最先进和沉浸式的讲故事模型套件,Movie Gen具备四种核心功能:视频生成、个性化视频生成、精确视频编辑和音频生成。这些模型的训练采用了经过授权和公开可用的数据集组合。虽然研究论文中详细阐述了技术细节,但本篇博文将重点分享每种功能的出色表现。后续会补充该论文的技术细节,感兴趣的小伙伴可以留意下。
视频生成
通过给定文本提示,Movie Gen能利用经过文本到图像和文本到视频优化的联合模型,创建高质量和高清晰度的图像和视频。这个拥有300亿参数的transformer模型能够以每秒16帧的速度生成长达16秒的视频。研究发现,这些模型可以推理物体运动、主体-客体交互和相机运动,并且能为各种概念学习合理的运动,使其成为同类中最先进的模型。
个性化视频
Movie Gen进一步扩展了上述基础模型,支持个性化视频生成。通过将一个人的图像作为输入,并与文本提示结合,该模型能生成包含参考人物和由文本提示提供丰富视觉细节的视频。在保留人物身份和动作方面,该模型达到了最先进的效果。
精准视频编辑
同一基础模型的编辑变体将视频和文本提示作为输入,精确执行任务以生成所需的输出。它巧妙结合了视频生成和高级图像编辑,能执行本地编辑(如添加、删除或替换元素)和全局更改(如背景或风格修改)。与需要专业技能的传统工具或缺乏精确性的生成工具不同,Movie Gen能保留原始内容,只针对相关像素进行编辑。
音频生成
最后,Movie Gen还包含一个130亿参数的音频生成模型,可接受视频和可选的文本提示,生成长达45秒的高质量和高保真音频,包括环境声、音效(拟音)和器乐背景音乐——所有这些都与视频内容完美同步。此外,该模型还引入了一种音频扩展技术,可为任意长度的视频生成连贯的音频。总体而言,在音频质量、视频到音频对齐和文本到音频对齐方面,Movie Gen都达到了最先进的性能水平。
结果
这些基础模型的开发需要在架构、训练目标、数据配方、评估协议和推理优化等多个技术领域实现突破性创新。
下面展示了四种功能的A/B人工评估比较结果。正净胜率表明人类更倾向于Movie Gen的模型结果,而非竞争对手的行业模型。更多详细信息和评估可参阅相关研究论文:https://ai.meta.com/static-resource/movie-gen-research-paper。
尽管今天分享的研究展示了未来应用的巨大潜力,但不可否认当前的模型仍存在局限性。值得注意的是,仍有许多优化空间,可进一步减少推理时间并通过扩展来提高模型质量。
未来之路
随着模型的不断改进和潜在的未来发布,Movie Gen的开发团队将与电影制作人和创作者密切合作,整合他们的反馈。通过采取协作方式,旨在确保创造的工具能帮助人们以前所未有的新方式增强他们固有的创造力。想象一下,使用文本提示制作并编辑一个"生活中的一天"视频来分享在网络上,或者为朋友创建一个定制的动画生日祝福并通过微信发送给他们。随着创造力和自我表达占据主导地位,可能性将变得无限广阔。