AtomoVideo:AIGC赋能下的电商视频动效生成

✍🏻 本文作者:凌潼、依竹、桅桔、逾溪

1. 概述

当今电商领域,内容营销的形式正日趋多样化,视频内容以其生动鲜明的视觉体验和迅捷高效的信息传播能力,为商家创造了新的机遇。消费者对视频内容的偏好驱动了视频创意供给的持续增长,视觉内容作为连接消费者和商品的桥梁,在广告系统中正变得日益重要。

然而,与传统的图文内容相比,视频内容的制作难度和成本都要高得多。制作一个高质量的视频需要专业的技能、设备以及时间,这使得成品的质量层次不齐,且难以批量化生产。随着人工智能和生成式内容创造(AIGC)技术的进步,使得通过智能化手段批量制作优质视频创意成为可能,并且能够为客户带来显著价值。

近日,OpenAI Sora 的发布让人们看到了视频智能创作的曙光,如今各大团队也纷纷开始了“国产版 Sora”的探索之路,在 Sora 出现之前,阿里妈妈智能创作与AI应用团队在视频 AIGC 领域已有近一年的研究和探索,与业务相结合,我们孵化出了🔗 尺寸魔方、商品视频动效生成等基于扩散模型的视频生成和编辑工具。本文将聚焦于商品视频动效生成,介绍我们在视频 AIGC 应用于视频创意上的探索与实践。

借助自研的AtomoVideo 视频生成技术(中文:阿瞳木视频,项目地址:https://atomo-video.github.io/),我们探索出了一种自动化地将电商平台上现有的图片素材转换为高质量的视频动效的方法,并在万相实验室、广告投放平台等场景进行了落地和上线,服务于广大阿里妈妈广告客户。

e025c8cb2ef8a1ad7a12a4b94a6d15bc.gif71197739b991f1a27ef20f226308759c.gif

774b65eb91e90789015f6d8f98664702.gif

2ce2fc490c44c2fd272514f482a833fd.gif

2. 核心技术

整个商品视频动效的生成过程面临诸多挑战,尤其是在电商场景下,商品主体的细节是不允许被改变的,也是商家非常在意的基本准则。因此,如何在保持商品外观准确性的同时进行更加合理的动效视频生成,是非常值得探索的问题。我们在现有T2V模型的基础上,提出使用 Noise Rectification(无需训练的噪声矫正器)来实现图像到视频的生成,为了进一步提升视频连贯性和保真度,进而提出 AtomoVideo(阿瞳木视频生成技术) 将基础模型进行升级,赋能电商视频动效生成。

2.1 Noise Rectification: 无需训练的噪声矫正器

文本到图像生成(T2I)在过去一年取得了飞速的发展,诸多设计行业从业者、科技爱好者利用 Stable Diffusion WebUI、ComfyUI 等开源工具已经可以生成摄影级图像和实现商业级落地应用。相比之下,受限于训练机器资源和数据集收集困难等挑战,视频生成远没有图像生成领域发展迅速,近半年,随着 Pika、Gen-2 等视频编辑工具的出现,社区中也涌现了许多文本到视频生成(T2V)的工作,为了将此类 T2V 的工作迁移至我们的商品动效生成中,我们提出了一种无需训练的噪声矫正器(Noise Rectification),可以自然地实现 T2V 到 I2V 的转变

具体来说,我们对给定图片添加一定步数的噪声,以此来模拟训练过程中的加噪过程,这样我们便获得了含有输入图像信息的噪声先验,在此基础上进行降噪即可保留一定输入图片的风格等信息。然而,这种“垫图”式 T2V 生成方式在电商领域对给定图片做动效生成时,会丢失大量原图像中的细节信息,严重破坏原有图片的美观度。为此,我们专门设计了一个与“垫图”生成可以完美配合的噪声矫正器(Noise Rectification),噪声矫正器流程图如下所示:

536dc15412d4a0e1a81cacc4303337b8.png
Noise Rectification示意图

考虑到模型训练无法达到完美损失,即模型预测噪声总会存在偏差,从而导致视频保真度的降低。为了缓解模型在 DDIM 去噪过程中的误差累积(指实际添加的噪声与每一步中模型预测的噪声的差异),对于每一步模型预测的噪声,我们利用初始采样的噪声,对其进行“噪声矫正”,即 通过计算预测噪声和真实噪声之间的差异,采样加权的计算方式对预测的噪声进行适当调整。通过这种设计,我们的方案可以消除第一帧的噪声误差,使得第一帧达到完美保真,同时其余帧也会和第一帧保持时序内容上的一致。本方案提出的“垫图+噪声矫正”策略,不需要引入额外的训练,直接作用于动效模型的推理阶段,即可提高图生视频的保真度。更多技术细节请参见我们的论文:

  • Title:Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

  • 链接:https://arxiv.org/abs/2403.02827

  • 项目主页:https://noise-rectification.github.io/

使用该方案后的前后对比效果如下,能够明显看到动效视频与给定图像一致性的提升,结合可控生成技术,我们可以完美还原商品细节。但这种针对 T2V 模型的噪声校正策略在更多通用场景下会存在动效幅度较小的缺点,关于这一点的解决,我们将在下一章节进行介绍我们的改进。

输入图像
生成动效(直接垫图生成)

生成动效(使用Noise Rectification生成)

385ba318f862396325b0617e532518ce.png7de5cc73d5120f6a1c98fbf25676d907.gif0a9c81bbb3cf5021fc476af2abb1ebba.gif
a16450e84e6cf22866a4eb96dc66cd24.png9d9bd7ab3ae0a9e3b4ee9f942e7c3bc4.gifee3f0db61128992a9abb9db663be8aec.gif

2.2 AtomoVideo:高保真度的I2V模型升级

在商品信息注入和噪声矫正器的加持下,商品动效生成已经具备了不错的生成效果,我们也基于以上改进在万相实验室上线了动效生成模块的第一版,但由于所使用的基础模型为 T2V 模型,并非适用于本任务的 I2V 模型,且生成时长仅有2s,在淘内场景下使用受限。为此,我们专门研发了更适用于本任务的 I2V 基础模型,称为 AtomoVideo(中文:阿瞳木视频),该模型对视频的时序一致性和图像保真度提升显著,模型结构框架图如图所示:

163b9d6e8d1f351804191e18d263121d.png
AtomoVideo 模型结构图

我们对模型做了如下几个改进,包括优质数据集构建、多粒度图像注入、渐进性动作强度训练等。

1) 优质数据集构建:收集内部千万规模的“文本-视频”数据对,利用美观度、文本视觉相关性、主体检测(过滤人物视频)、动效强度检测等方式,清洗得到优质视频数据子集,用于视频生成模型训练。同时我们与设计师合作构建了一个更加优质的数据集,汇集了大量在美观度和动效质量上均表现出色的高清视频。

2) 多粒度图像注入:为增强 I2V 生成的图像保真度和时序一致性,我们使用了多粒度的图像注入方法,在扩散模型输入侧将图像的low-level和high-level语义进行输入,在我们实验中,这可以在完美还原给定图像保真度的同时,增加生成视频的时序一致性。

3) 训练方法:我们观察到大多数其他工作(如Pika、Gen2等)很难生成动作幅度大的视频,还有一些工作在生成动作幅度较大的视频时,稳定性较差。为了克服这一点,我们使用了渐进性动作强度增加的多阶段训练方式,由低动效视频数据集开始,逐步增加至高动效数据集进行训练,我们发现这可以帮助模型在生成较大动作幅度视频的同时,依然能够维持较好的时序稳定性。

经过如上的改进和大规模训练,我们将基础模型升级为可产生4s,720P的视频生成模型。更多相关细节可以阅读我们的技术报告:

  • Title:AtomoVideo: High Fidelity Image-to-Video Generation

  • 链接:http://arxiv.org/abs/2403.01800

  • 项目主页:https://atomo-video.github.io

部分生成示例如下,更多示例可前往项目主页浏览:

输入图片输入文本输出视频
5a07128c7af98d1ca2359331249708f0.pngMuppet walking down the street in a red shirt, cinematic.958047b945c9877f121d166cbfb59da2.gif
bb03f277f47279807098a808e954a3f5.pngFlying through an intense battle between pirate ships in a stormy ocean.15b599f5af70357872bc995adbc29ce6.gif
66749de97767fffd4ea5df29010dc7e4.pnga singer of a music bande3a2e39b1c490abe43d617c9d3924d83.gif

此外,我们将I2V基础模型的原始T2I模型部分进行了参数固定,而仅对新增的时序建模层和输入层进行训练,因此,我们可以将社区广泛使用的图像 ControlNet 与 AtomoVideo 进行结合,这也是我们相比于 SVD 等视频开源模型的优势。结合 T2I 领域预训练好的 ControlNet,可以实现局部控制生成,以尽量还原商品细节,当前我们上线版本已全部切换为该模型。

2.3 动效场景模板适配

由于输入商品图像的质量一定程度会影响动效生成的效果,有较多图片中并未包含任何动态元素,这种情况下,进行图像到视频的转换显得比较困难,容易产出“偏静态”的视频。因此,基于以上考量,我们与设计师共建了视频动效场景模板,并针对每个不同的场景描述定制化了特殊的动态描述。其中视频动效场景列表包含了诸如“山间云海”、“海底世界”等动态场景,同时在大促节日时,会专门设计一批用于节日宣传的动态模板进行投放(如下图是在38大促期间设计的两个动效模板)。

场景模板名称AIGC图片动效视频
粉色烟花9697715e7a245d5d57e6aee763a79f40.png47e69b00a19085fdd1e4c041547bf532.gif
粉色世界6fca27f3f2b600b31a35fa1b9abbdbc3.png85734c76e20d0232a655ea797b19e68f.gif

3. 业务应用

当前,电商视频动效生成已经在阿里妈妈-万相实验室(https://agi.taobao.com)和广告投放平台进行上线,支持广告主在线生成视频动效。以下是生成的一些样例:

输入图片
动效视频
10f32297c967a67be3168a2ca008748e.png0fb0ccebc4635ab820ce4cacf6bd9e80.gif
4dee16999def7608fbaf92f521dac975.png93104ed3afd724186a32b4d74de66440.gif
a372b8c212f149dc0d02d0299e3c838d.png1fd9f42b85a8e4e75a694f70848a79e0.gif
3394a208e7b9f0ced6855c55c4112049.png1aa6b3d47c6dbf037dc852f3161736bc.gif
3075bede16cc28d10fbc8f1840a7d168.png

7eeb36f2dc8d98e6fea60fc1fc7a08a5.gif

7c2c41d08424285761a64383b0f5bf5b.png977d6a00c38ccb41d165b3fe320b213b.gif

4. 总结与展望

近半年,AIGC 视频生成技术取得了令人瞩目的飞跃发展。随着 GEN-2、PIKA 1.0、Sora 等视频创作工具和模型的出现,影视制作和多媒体设计等行业正迎来一场创造力的革新风暴,这些技术正在推动视频内容制作向着更高的逼真度和更强的可控性迈进。本文介绍了我们团队在视频 AIGC 赋能视频广告创意的探索和实践,通过基于扩散模型的视频生成技术,结合可控生成技术,使得静态电商图片栩栩如生地“动”了起来,实现了在电商领域的视频 AIGC 应用落地。

然而,目前的技术实现还远未触及视频生成的真正潜力,在视频画面的稳定性、内容创造的可控性以及视频时长等关键要素上,仍有很大的进步空间值得我们探索。Sora 的出现也让我们看到了未来视频创作工具大规模应用的曙光,Diffusion Transformer、Scaling Up 等关键技术给了我们很多启发,在未来,希望不断提升基础模型生成效果的同时,用视频 AIGC 技术赋能更多业务场景。

关于我们

我们是阿里妈妈智能创作与AI应用团队,专注于图片、视频、文案等各种形式创意的智能制作与投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP相关背景同学加入,一起拥抱 AIGC 时代!感兴趣同学欢迎投递简历加入我们。✉️ 简历投递邮箱:alimama_tech@service.alibaba.com

END

2838b1ab0933e6a76c5d3508efb3487d.gif

也许你还想看

🔥《计算机视觉 in 阿里妈妈》文章合集

视频尺寸魔方:分层遮掩3D扩散模型在视频尺寸延展的应用

ACM MM’23 | 4篇论文解析阿里妈妈广告创意算法最新进展

营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

实现"模板自由"?阿里妈妈全自动无模板图文创意生成

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

化繁为简,精工细作——阿里妈妈直播智能剪辑技术详解

CVPR 2023 | 基于内容融合的字体生成方法

CVPR 2023 | 基于无监督域自适应方法的海报布局生成

关注「阿里妈妈技术」,了解更多~

7490b3370515089a013918166e7a12e4.gif

喜欢要“分享”,好看要“点赞”哦ღ~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/279168.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我的自建博客之旅04之Halo

我的自建博客之旅04之Halo Halo是我无意间发现的一款博客框架,如果你讨厌Hexo,Vuepress等静态框架本地编辑,构建部署等方式,如果你想要一款一次搭建,前台是博客,后台是文章维护,并且支持各种定制化折腾的博客框架,可能Halo会比较适合你。 因为我个人还是比较偏技术,…

C语言 扫雷游戏

写了这么长时间的关于C语言的基础知识,相信大家已经学会了使用C语言书写一些基础的代码,上次还编写了三子棋游戏的代码,这次我将编写一个基础版的扫雷游戏。 首先,创建三个文件,两个源文件,一个头文件&…

【C++】用红黑树模拟实现set、map

目录 前言及准备:一、红黑树接口1.1 begin1.2 end1.3 查找1.4 插入1.5 左单旋和右单旋 二、树形迭代器(正向)2.1 前置 三、模拟实现set四、模拟实现map 前言及准备: set、map的底层结构是红黑树,它们的函数通过调用红…

微信小程序小白易入门基础教程1

微信小程序 基本结构 页面配置 页面配置 app.json 中的部分配置,也支持对单个页面进行配置,可以在页面对应的 .json 文件来对本页面的表现进行配置。 页面中配置项在当前页面会覆盖 app.json 中相同的配置项(样式相关的配置项属于 app.js…

android 怎么自定义view

首先了解view的绘制流程: 所以onmeasure ---测量view onlayout---确定view大小----》所以继承ViewGroup必须要重写onlayout,确定子view 而onDraw----是继承view时候需要操作的。 所以:自定义ViewGroup一般是利用现有的组件根据特定的布局方式来组成新的组件。 自定义Vi…

一个可商用私有化部署的基于JAVA的chat-gpt网站

目录 介绍一、核心功能1、智能对话2、AI绘画3、知识库4、一键思维导图5、应用广场6、GPTS 二、后台管理功能1、网站自定义2、多账号登录支持3、商品及会员系统4、模型配置5、兑换码生成6、三方商户用户打通 结语 介绍 java语言的私有化部署的商用网站还是比较少的 这里给大家介…

第 126 场 LeetCode 双周赛题解

A 求出加密整数的和 模拟 class Solution { public:int sumOfEncryptedInt(vector<int> &nums) {int res 0;for (auto x: nums) {string s to_string(x);char ch *max_element(s.begin(), s.end());for (auto &c: s)c ch;res stoi(s);}return res;} };B 执行…

【研发日记】Matlab/Simulink技能解锁(五)——Simulink布线技巧

前言 见《【研发日记】Matlab/Simulink技能解锁(一)——在Simulink编辑窗口Debug》 见《【研发日记】Matlab/Simulink技能解锁(二)——在Function编辑窗口Debug》 见《【研发日记】Matlab/Simulink技能解锁(三)——在Stateflow编辑窗口Debug》 见《【研发日记】Matlab/Simulink…

C++作业day6

编程1&#xff1a; 封装一个动物的基类&#xff0c;类中有私有成员&#xff1a;姓名&#xff0c;颜色&#xff0c;指针成员年纪 再封装一个狗这样类&#xff0c;共有继承于动物类&#xff0c;自己拓展的私有成员有&#xff1a;指针成员&#xff1a;腿的个数&#xff08;整型 …

六种GPU虚拟化:除了直通、全虚拟化 (vGPU)还有谁?

在大类上计算虚拟化技术有这3种&#xff1a; 软件模拟、直通独占(如网卡独占、显卡独占)、直通共享&#xff08;如vCPU 、vGPU&#xff09;。但对于显卡GPU而言我总结细化出至少这6种分类&#xff1a; 第一种、软件模拟&#xff08;eg sGPU&#xff09;, 又叫半虚拟化。第二种…

[论文笔记] Gradient Surgery for Multi-Task Learning

【强化学习 137】PCGrad - 知乎 多任务学习(multi task):任务权重、loss均衡、梯度下降那点事 - 知乎 ICLR 2020 rejected submission:Yu T, Kumar S, Gupta A, et al. Gradient surgery for multi-task learning[J]. arXiv preprint arXiv:2001.06782, 2020. mul…

yocto编译测试

源码下载 git clone -b gatesgarth git://git.yoctoproject.org/poky lkmaolkmao-virtual-machine:~/yocto$ git clone -b gatesgarth git://git.yoctoproject.org/poky Cloning into poky... remote: Enumerating objects: 640690, done. remote: Counting objects: 100% (13…

Java的图书管理系统,确实有两把斧子 ! ! !

本篇会加入个人的所谓‘鱼式疯言’ ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. &#x1f92d;&#x1f92d;&#x1f92d;可能说的不是那么严谨.但小编初心是能让更多人…

15届蓝桥杯备赛(2)

文章目录 刷题笔记(2)二分查找在排序数组中查找元素的第一个和最后一个位置寻找旋转排序数组中的最小值搜索旋转排序数组 链表反转链表反转链表II 二叉树相同的树对称二叉树平衡二叉树二叉树的右视图验证二叉搜索树二叉树的最近公共祖先二叉搜索树的最近公共祖先二叉树层序遍历…

Qt 图形视图 /基于Qt示例DiagramScene解读图形视图框架

文章目录 概述从帮助文档看示例程序了解程序背景/功能理清程序概要设计 分析图形视图的协同运作机制如何嵌入到普通Widget程序中&#xff1f;形状Item和文本Item的插入和删除&#xff1f;连接线Item与形状Item的如何关联&#xff1f;如何绘制ShapeItem间的箭头线&#xff1f; 下…

干货整理!火石控股创始人吴渔夫的 AI 游戏思维20条

近日&#xff0c;在一场面对面的直播中&#xff0c;自媒体「极新」创始人姜稳与火石控股创始人、奇酷网络董事长吴渔夫进行视频对话中&#xff0c;探讨了AI技术对游戏行业的新机遇和新挑战。 中国网游先锋&#xff0c;火石控股创始人&#xff0c;奇酷网络董事长吴渔夫认为&…

个人网站制作 Part 9 添加发布、管理博客功能 | Web开发项目

文章目录 &#x1f469;‍&#x1f4bb; 基础Web开发练手项目系列&#xff1a;个人网站制作&#x1f680; 添加博客功能&#x1f528;使用Express和MongoDB&#x1f527;步骤 1: 创建博客模型&#x1f527;步骤 2: 创建博客路由 &#x1f528;使用前端框架&#x1f527;步骤 3:…

大模型文本生成——解码策略(Top-k Top-p Temperature)

{"top_k": 10,"temperature": 0.95,"num_beams": 1,"top_p": 0.8,"repetition_penalty": 1.5,"max_tokens": 30000,"message": [{"content": "你好&#xff01;","role"…

电子招投标系统:企业在招标前,需要考虑哪些事项?

招标过程可能非常复杂和耗时&#xff0c;这使得一些企业放弃招标寻源方式。然而&#xff0c;要发展业务和客户群&#xff0c;就不能逃避招标。 在进行招标过程之前&#xff0c;首先要打好基础。让我们来看看企业在设计招标流程时应考虑哪些事项。 1. 确保有购买意向和能力 在…

Vue el-table 合并单元格

一般常见的就是下图这种的单列&#xff0c;上下重复进行合并。 有时候可能也会需要多行多列的合并。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content&qu…