突发!Meta重磅发布Movie Gen入局视频生成赛道!

引言

Meta于2024年10月4日首次推出 Meta Movie Gen,号称是迄今为止最先进的媒体基础模型。Movie Gen 由 Meta 的 AI 研究团队开发,在一系列功能上获取最先进的效果,包括:文生视频、创建个性化视频、精准的视频编辑和音频创作。

无论是渴望在好莱坞闯出一片天地的新晋电影人,还是热衷于为观众制作视频的创作者,每个人都应该有机会使用能够增强创造力的工具。Meta公司隆重推出Movie Gen,这是在媒体生成人工智能研究方面的突破性成果,涵盖了图像、视频和音频等多个模态。最新研究展示了如何通过简单的文本输入来制作定制视频和声音、编辑现有视频,以及将个人图像转化为独特的视频。在人工评估中,Movie Gen在这些任务上的表现优于业界类似模型。

小窗幽记机器学习

记录机器学习过程中的点点滴滴和坑坑洼洼

公众号

背景

这项工作是Meta长期与社区分享基础人工智能研究的成果之一。第一波生成式人工智能工作始于Make-A-Scene系列模型,实现了图像、音频、视频和3D动画的创建。随着扩散模型的出现,第二波工作Llama Image基础模型应运而生,能够生成更高质量的图像和视频,并进行图像编辑。Movie Gen作为第三波成果,巧妙结合了所有这些模态,并以前所未有的方式为使用者提供了更精细的控制。与前几代模型类似,这些模型有望支持各种新产品,加速创意的实现。

尽管这些基础模型有许多令人兴奋的用途,但值得注意的是,生成式人工智能并不能取代艺术家和动画师的工作。分享这项研究的目的在于相信这项技术能帮助人们以新的方式表达自己,并为可能缺乏机会的人提供新的可能性。未来,或许每个人都能利用Movie Gen实现自己的艺术愿景,创作高清视频和音频,让创意的火花绽放得更加璀璨。

简介

作为最先进和沉浸式的讲故事模型套件,Movie Gen具备四种核心功能:视频生成、个性化视频生成、精确视频编辑和音频生成。这些模型的训练采用了经过授权和公开可用的数据集组合。虽然研究论文中详细阐述了技术细节,但本篇博文将重点分享每种功能的出色表现。后续会补充该论文的技术细节,感兴趣的小伙伴可以留意下。

视频生成

通过给定文本提示,Movie Gen能利用经过文本到图像和文本到视频优化的联合模型,创建高质量和高清晰度的图像和视频。这个拥有300亿参数的transformer模型能够以每秒16帧的速度生成长达16秒的视频。研究发现,这些模型可以推理物体运动、主体-客体交互和相机运动,并且能为各种概念学习合理的运动,使其成为同类中最先进的模型。

个性化视频

Movie Gen进一步扩展了上述基础模型,支持个性化视频生成。通过将一个人的图像作为输入,并与文本提示结合,该模型能生成包含参考人物和由文本提示提供丰富视觉细节的视频。在保留人物身份和动作方面,该模型达到了最先进的效果。

精准视频编辑

同一基础模型的编辑变体将视频和文本提示作为输入,精确执行任务以生成所需的输出。它巧妙结合了视频生成和高级图像编辑,能执行本地编辑(如添加、删除或替换元素)和全局更改(如背景或风格修改)。与需要专业技能的传统工具或缺乏精确性的生成工具不同,Movie Gen能保留原始内容,只针对相关像素进行编辑。

音频生成

最后,Movie Gen还包含一个130亿参数的音频生成模型,可接受视频和可选的文本提示,生成长达45秒的高质量和高保真音频,包括环境声、音效(拟音)和器乐背景音乐——所有这些都与视频内容完美同步。此外,该模型还引入了一种音频扩展技术,可为任意长度的视频生成连贯的音频。总体而言,在音频质量、视频到音频对齐和文本到音频对齐方面,Movie Gen都达到了最先进的性能水平。

结果

这些基础模型的开发需要在架构、训练目标、数据配方、评估协议和推理优化等多个技术领域实现突破性创新。

下面展示了四种功能的A/B人工评估比较结果。正净胜率表明人类更倾向于Movie Gen的模型结果,而非竞争对手的行业模型。更多详细信息和评估可参阅相关研究论文:https://ai.meta.com/static-resource/movie-gen-research-paper。

尽管今天分享的研究展示了未来应用的巨大潜力,但不可否认当前的模型仍存在局限性。值得注意的是,仍有许多优化空间,可进一步减少推理时间并通过扩展来提高模型质量。

未来之路

随着模型的不断改进和潜在的未来发布,Movie Gen的开发团队将与电影制作人和创作者密切合作,整合他们的反馈。通过采取协作方式,旨在确保创造的工具能帮助人们以前所未有的新方式增强他们固有的创造力。想象一下,使用文本提示制作并编辑一个"生活中的一天"视频来分享在网络上,或者为朋友创建一个定制的动画生日祝福并通过微信发送给他们。随着创造力和自我表达占据主导地位,可能性将变得无限广阔。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/439188.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

libcrypto.so.10内容丢失导致sshd无法运行

说明: 我的是centos的服务器,被扫出有ssh漏洞,需要升级到OpenSSH_9.8p1, OpenSSL 3.0.14 4 报错 我的系统和环境升级前的版本 这是升级之后的版本 OpenSSH_9.8p1, OpenSSL 3.0.14 4 解决:我这个的原因是升级的时候把这个文件给删除了, 复制旧服务器上的 libcrypto.so.1…

组合模式详解

1、组合模式基本介绍 1) 组合模式(Composite Pattern),又叫部分整体模式,它创建了对象组的树形结构,将对象组合成树状结构以 表示“整体-部分”的层次关系。 2) 组合模式依据树形结构来组合对象,用来表示部…

使用DS18B20温度传感器读取温度,附STM32代码示例

目录 一、DS18B20温度传感器: (1)描述: (2)特点: (3)引脚图及其定义: (4)使用的DS18B20模块: 二、DS18B20功能命令集…

【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合

【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合 目录 文章目录 【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合目录0. 论文信息1. 摘要2. 研究背景3. 主要挑战4. 创新点5. 算法模型1. **标识符设…

JavaSE——面向对象练习题

1.对象数组排序 定义一个Person类{name,age,job},初始化Person对象数组,有3个person对象,并按照age从小到大进行冒泡排序;再按照name的长度从小到大进行选择排序。 public class HomeWork01 {public static void main(String[] a…

字体文件压缩

技术点 npm、html、font-spider 实现原理 个人理解:先引入原先字体,然后重置字符为空,根据你自己填充文字、字符等重新生成字体文件,因此在引入的时候务必添加自己使用的文字、字符等!!! 实…

PY32F002B

墨水屏: 前景和背景 在屏幕和图像处理中,前景和背景是两个重要的概念: 前景(Foreground): 指的是图像或屏幕上最显著的部分,通常是用户关注的主要内容。例如,在一张照片中&#xf…

10.3学习

1.循环依赖 循环依赖其实就是循环引用,也就是两个或者两个以上的 Bean 互相持有对方,最终形成闭环。比如A 依赖于B,B又依赖于A Spring中循环依赖场景有: prototype 原型 bean循环依赖 构造器的循环依赖(构造器注入)…

PIKACHU | PIKACHU 靶场 XSS 后台配置

关注这个靶场的其他相关笔记:PIKACHU —— 靶场笔记合集-CSDN博客 PIKACHU 自带了一个 XSS 平台,可以辅助我们完成 XSS 攻击,但是该后台需要配置数据库以后才能使用。本教程,就是教大家如何配置 PIKACHU XSS 平台的。 PIKACHU XS…

资源《Arduino 扩展板4-单游戏摇杆》说明。

资源链接: Arduino 扩展板4-单游戏摇杆 1.文件明细: 2.文件内容说明 包含:AD工程、原理图、PCB。 3.内容展示 4.简述 该文件为PCB工程,采用AD做的。 该文件打板后配合Arduino使用,属于Arduino的扩展板。 该文件…

深度学习的应用综述

文章目录 引言深度学习的基本概念深度学习的主要应用领域计算机视觉自然语言处理语音识别强化学习医疗保健金融分析 深度学习应用案例公式1.损失函数(Loss Function) 结论 引言 深度学习是机器学习的一个子领域,通过模拟人脑的神经元结构来处理复杂的数据。近年来&…

k8s实战-2

k8s实战-2 一、Deployment1.多副本2.扩缩容3.自愈&故障转移4.滚动更新5.版本回退 二、Service1.ClusterIP2.NodePort 总结 一、Deployment Deployment 是 k8s 中的一个资源对象,用于管理应用的副本(Pods)。它的主要作用是确保集群中运行…

【Linux】进程替换、命令行参数及环境变量(超详解)

目录 进程替换 替换函数的含义 命令行参数 环境变量 PATH 进程替换 我们先看代码&#xff1a; 1 #include<stdio.h>2 #include<unistd.h>3 int main()4 {5 printf("process...begin!\n");6 7 execl("/usr/bin/ls","ls"…

论文翻译 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

摘要 近年来&#xff0c;NLP从业者集中于以下实践:(i)导入现成的预训练(掩码)语言模型;(ii)在CLS令牌的隐藏表示(随机初始化权重)上附加多层感知器;(iii)在下游任务(MLP-FT)上微调整个模型。这一过程在标准的NLP基准上产生了巨大的收益&#xff0c;但这些模型仍然很脆弱&#x…

尝试从 http://pypi.doubanio.com/simple 这个索引源安装 webdriver 时出现了问题

问题如下&#xff1a; WARNING: The repository located at pypi.doubanio.com is not a trusted or secure host and is being ignored. If this repository is available via HTTPS we recommend you use HTTPS instead, otherwise you may silence this warning and allow …

从介质失效看互联网时代的信息过载

来读一篇文章&#xff1a;90年代的硬盘已大规模变砖&#xff0c;没啥好担心的&#xff0c;好事。 结合我两年前的粗浅认知 互联网时代无信息&#xff0c;按照 “动” 的观念看&#xff0c;当信息越来越多&#xff0c;信息密度越来越大时&#xff0c;信息的寿命就会越来越短&am…

离线安装docker

背景描述 项目需要在研发环境虚拟机上安装docker部署应用。 所在的服务器是一个内网&#xff0c;无法访问到外网环境。 服务器OS版本是 麒麟V10 linux 安装docker 安装包下载 获取所需版本的docker binary包&#xff0c;官方链接https://download.docker.com/linux/stati…

CoRL 2024 麻省理工学院提出T3触觉Transformer,打破触觉感知的壁垒,重塑未来机器人

在智能机器人领域&#xff0c;触觉感知的研究正逐渐成为关注的焦点。然而&#xff0c;如何让机器人通过触觉更智能地感知和操作&#xff0c;依然是一个未解决的挑战。基于相机的触觉感知是一种通过在软弹性体下嵌入相机来捕获与环境的细粒度交互的感知方法&#xff0c;是最流行…

[Python学习日记-39] 闭包是个什么东西?

[Python学习日记-39] 闭包是个什么东西&#xff1f; 简介 闭包现象 闭包意义与作用 简介 在前面讲函数和作用域的时候应该提到过&#xff0c;当函数运行结束后会由 Python 解释器自带的垃圾回收机制回收函数内作用域已经废弃掉的变量&#xff0c;但是在 Python 当中还有一种…

MySQL--数据库约束(详解)

目录 一、前言二、概念三、数据库约束3.1 约束类型3.1.1 NOT NULL 约束3.1.2 UNIQUE (唯一&#xff09;3.1.3 DEFAULT&#xff08;默认&#xff09;3.1.4 PRIMARY KEY&#xff08;主键&#xff09;3.1.5 FOREIGN KEY&#xff08;外键&#xff09;3.1.6 CHECK 四、总结 一、前言…