Meta AI动画生成功能的规模化部署与优化策略

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Meta推出Meta AI的目标是为人们提供利用生成式AI(GenAI)提升生产力和激发创造力的新方式。然而,GenAI也伴随着规模化的挑战。当Meta在部署新的GenAI技术时,Meta也专注于尽可能快速且高效地向人们提供这些服务。

Meta AI的动画生成功能允许用户生成短动画,并且在这一方面Meta面临着独特的挑战。为了在大规模应用中实现此功能,Meta的图像动画生成模型必须能够服务于使用Meta产品和服务的数十亿用户,并且做到快速生成、极少出错且资源高效。

以下是Meta如何通过延迟优化、流量管理和其他新颖技术成功部署Meta AI动画生成功能的过程。

优化生成图像动画的延迟

在将动画生成功能推向Meta应用家族和Meta AI网站之前,使动画模型的运行速度变得更快是Meta的首要任务之一。Meta希望用户能够体验到仅需几秒钟就能看到动画生成的魔力。这不仅从用户角度重要,而且模型越快、效率越高,Meta就能使用更少的GPU,从而实现可持续的规模化发展。Meta在创建带有视频扩散的动画贴纸、加速图像生成的Imagine Flash、以及通过块缓存加速扩散模型方面的工作帮助Meta开发出实现大幅度延迟优化的新技术。

减半浮点精度

这些优化技术之一是将浮点精度减半。Meta将模型从float32转换为float16,这加快了推理时间,主要有两个原因。首先,模型的内存占用减少了一半。其次,16位浮点运算比32位运算速度更快。对于所有模型,Meta使用bfloat16,一种用于训练和推理的float16变体,以获取这些优势。

改进时序注意力扩展

第二项优化是改进了时序注意力扩展。时序注意力层在时间轴和文本条件之间进行注意力计算,需要将上下文张量复制以匹配时间维度或帧数。以前,这是在传递到交叉注意力层之前完成的。然而,这导致了性能提升不理想。Meta选择的优化实现通过利用重复张量是相同的这一事实,在通过交叉注意力线性投影层之后进行扩展,从而减少计算和内存消耗。

利用DPM-Solver减少采样步骤

第三项优化使用了DPM-Solver。扩散概率模型(DPMs)是一种功能强大且有影响力的模型,能够生成高质量的结果,但其速度较慢。其他可能的解决方案,如去噪扩散隐式模型或去噪扩散概率模型,虽然可以提供高质量的生成,但需要更多的采样步骤。Meta利用了DPM-Solver和线性对数信噪比时间,将采样步骤减少到15步。

结合引导和步骤蒸馏

Meta实施的第四项优化是结合引导和步骤蒸馏。通过初始化教师和学生权重相同的模型,Meta进行了步骤蒸馏,训练学生模型在单步内模仿教师模型的多个步骤。引导蒸馏方面,Meta通过无分类器引导的方式实现了条件图像生成。这要求每个求解步骤都进行有条件和无条件的前向传递。然而,在Meta的场景中,每步有三个前向传递:无条件、图像条件和完整的文本与图像条件。通过引导蒸馏,Meta将这三个前向传递合并为一个,使推理时间缩短了三倍。最后,通过训练学生模型同时模仿无分类器引导和多步骤操作,Meta的最终模型只需八步求解,每步只需要一次通过U-Net。

PyTorch优化

最后一项优化涉及部署和架构,包含两项转化。首先是利用TorchScript进行脚本化和冻结。通过将模型转换为TorchScript,Meta获得了许多自动优化,包括连续折叠、多个操作的融合以及减少计算图的复杂性。这三项优化帮助Meta提高了推理速度,而冻结技术通过将图中的动态计算值转化为常量,进一步减少了总操作数。

虽然这些优化对于Meta的初次发布至关重要,但Meta还在持续突破界限。例如,Meta将所有媒体推理从TorchScript迁移到基于PyTorch 2.0的解决方案,这为Meta带来了多项提升。通过在组件级别利用pytorch.compile进行优化,以及在新架构中启用上下文并行和序列并行等高级优化技术,Meta实现了从减少高级功能的开发时间到改进跟踪、支持多GPU推理的全面胜利。

在大规模部署图像动画

在完全优化模型后,Meta面临的新挑战是如何在全球范围内运行此模型,支持来自世界各地的流量,同时保持快速的生成时间,尽量减少故障,并确保GPU可以用于公司内的其他重要用例。

Meta首先查看了以前AI生成媒体的流量数据,包括其发布时和随时间推移的流量情况。Meta使用这些信息来估算可以预期的请求数量,并利用模型速度的基准测试来确定需要多少GPU来容纳这些请求。在扩大规模后,Meta开始进行负载测试,以查看是否可以处理各种流量水平,解决各种瓶颈,直到Meta能够处理发布时预计的流量为止。

在测试过程中,Meta注意到动画请求的端到端延迟比预期高,并且高于Meta在构建上述所有优化后看到的情况。调查显示,流量在全球范围内被路由,导致显著的网络和通信开销,增加了生成时间。为了解决这个问题,Meta利用了流量管理系统,该系统获取服务的流量或负载数据并使用这些数据计算路由表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/411214.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据可视化大屏模板-美化图表

Axure作为一款强大的原型设计软件,不仅擅长构建交互式界面,更在数据可视化方面展现出了非凡的创意与实用性。今天,就让我们一起探索Axure设计的几款精美数据可视化大屏模板,感受数据之美。 立体图表的视觉冲击力 Axure的数据可视…

基于ROM的VGA显示

前言 在早期计算机和嵌入式系统中,图形显示和用户界面的实现主要依赖于硬件技术。VGA(视频图形阵列)标准在1980年代中期成为主流图形显示技术,其高分辨率和良好的兼容性使其在计算机显示领域中占据了重要地位。VGA标准支持640x480…

如何在Java中使用protobuf

写在前面 本文看下在Java中如何使用protofbuf。 1:介绍 1.1:什么是protobuf 是一种数据格式,同json,xml,等。但是一种二进制数据格式。 1.2:强在哪里?为啥要用? 小&#xff0c…

聚类:k-Means 和 k-Medoid

1. 前言 在《对静态分析缺陷报告进行聚类,以降低维护成本》 提到使用 k-Medoid 通过相似缺陷的聚类,来减少程序员对大量缺陷分析的工作量。 k-Medoid 和传统的 k-Means 聚类算法有什么差别呢? 简单的说,K-Medoid 算法是一种基于…

KRTS网络模块:TCP服务端、客户端实例

KRTS网络模块:TCP服务端、客户端实例 目录 KRTS网络模块:TCP服务端、客户端实例TCP简介KRST服务端简介核心特性界面设计核心代码 KRTS客户端简介核心特性界面设置核心代码 运行实例 Socket模块基于Packet模块,实时提供更高的协议,如RAW-IP、TCP 和 UDP(参…

国科大 矩阵论2023秋季 叶世伟老师 考试试卷

叶老师的考试很难,图源一位胆大的勇者~ 希望能帮助大家!

AD7606芯片驱动-FPGA实现

简介 AD7606是一款16位ADC芯片,可实现8通道并行采集,每通道最大速度可达1M,可实现多种模式数据采集。 介绍 本次FPGA使用的是8通道串行采样模式,设计中所用到的AD7606引脚说明如下: 名称定义CONVST同步采集转换开始信…

Mysql语句性能优化

SQL查询过程 查询缓存: 执行查询语句的时候,会先查询缓存(MySQL 8.0 版本后移除,因为这个功能不太实用)。分析器: 没有命中缓存的话,SQL 语句就会经过分析器,分析器说白了就是要先看…

算法之二分查找法和双指针

用二分查找法刷leetcode算法题目的时候&#xff0c;经常遇到视频看着理解很透彻&#xff0c;当上手写时一看就会&#xff0c;一写就废。二分查找法涉及边界条件很多&#xff0c;逻辑很简单&#xff0c;就是写不好。何时写 while(left<right)&#xff0c;while(left<right…

通过写文件方式写入 Hive 数据

通过写文件方式写入 Hive 数据 Hive最简单的写入数据方式就是通过Hive Jdbc写入Hive数据&#xff0c;但这并不是写入Hive最高效的方法。 Hive通过读取相关Hdfs的文件来获取数据信息&#xff0c;而通过直接写入Hdfs文件数据达到写入Hive数据的效果&#xff0c;这是目前最高效的…

nerfstudio半离线配置踩坑记录

安装torch2.1.2 with cuda11.8 由于清华镜像源&#xff08;包括阿里源和豆瓣源&#xff09;都没有torch2.1.2cu118的包&#xff0c;因此只能从pytorch官网下载。 服务器上直接通过下面pip的方式安装会由于网络原因中断&#xff0c;无奈只能在本地先把torch的包下载下来再上传到…

SAP与生产制造MPM系统集成案例

一、需求介绍 某公司为保证企业内部生产管理系统的多项基础数据的同步更新&#xff0c;确保各模块间信息的一致性和准确性&#xff0c;对后续的生产计划和物料管理打下基础&#xff0c;该公司将MPM系统和SAP系统经过SAP PO中间件集成平台进行了集成。MPM全称为Manufacturing…

blender--二维平面图标变为三维网格

有时候我们希望把一些二维图片能变成三维网格&#xff0c;本案例我们就针对这一场景进行实现。 首先我们可以先去找一张需要的图片(注意&#xff0c;本例需要图片是svg格式)&#xff0c;我们可以在阿里巴巴矢量图标库等平台进行搜索&#xff0c;如图所示&#xff0c;找到需要的…

diffusion model(扩散模型)DDPM解析

DDPM 前向阶段 重复 2-5 步骤 x 0 ∼ q ( x 0 ) \mathbf{x}_0\sim q(\mathbf{x}_0) x0​∼q(x0​)从数据集中采样一张图片 t ∼ U n i f o r m ( { 1 , … , T } ) t\sim\mathrm{Uniform}(\{1,\ldots,T\}) t∼Uniform({1,…,T})&#xff0c;从 1~T 中随机挑选一个时间步 t ϵ …

三种tcp并发服务器实现程序

都需先进行tcp连接 1、多进程并发 2、多线程并发 3、IO多路复用并发 &#xff08;1&#xff09;select &#xff08;2&#xff09;epoll

SAP ERP与长城汽车EDI业务集成案例(SAP CPI平台)

一、项目背景 某智能座舱公司是国内领先的智能座舱领域科技公司&#xff0c;致力于成为智能网联行业变革的领导者和推动者&#xff0c;聚焦整车域控制器产品、智能网联软件产品和运营服务产品&#xff1b; 已建成首条先进的数智化域控制器生产线&#xff0c;为客户提供最优…

大刀阔斧改革之后,阅文距离“东方迪士尼”更近了吗?

当前&#xff0c;网文IP的确是“富矿”。中国社会科学院文学研究所发布的《2023中国网络文学发展研究报告》显示&#xff0c;截至2023年底&#xff0c;网络文学IP市场规模2605亿元&#xff0c;同比增长近百亿元。 近日&#xff0c;网文产业中的头部企业阅文集团也披露数据称&a…

Android U WMShell动画调用堆栈

本文主要简单介绍WMShell动画调用堆栈 代码环境&#xff1a;repo init -u https://mirrors.tuna.tsinghua.edu.cn/git/AOSP/platform/manifest -b android-14.0.0_r7 Systemserver侧 TAG: at com.android.server.wm.Transition.onTransactionReady(Transition.java:1575) TA…

爆改YOLOv8|利用分层特征融合策略MSBlock改进yolov8,暴力涨点

1&#xff0c;本文介绍 MSBlock 是一种分层特征融合策略&#xff0c;用于改进卷积神经网络中的特征融合效果。它通过分层次地融合不同尺度的特征图来提高网络的表达能力和性能。MSBlock 采用多尺度特征融合的方法&#xff0c;确保网络能够有效地捕捉不同层次和尺度的信息&…

Neo4j导入csv数据,并创建节点

Neo4j 是一种图数据库&#xff0c;特别适合管理和分析复杂的关系数据。 数据来源&#xff1a;http://openkg.cn/ 导入到 Neo4j 的合适场景&#xff1a; 需要在物种分类中查找层级关系&#xff08;如物种的科、属等&#xff09;。 需要进行关系查询和图结构的分析。 想在分类树…