每秒最高1w+使用量,「AI绘画」成抖音年度爆款,背后技术秘籍现已公开

允中 发自 凹非寺
来源 | 量子位 QbitAI

「AI绘画」是2022年抖音上最火的一款特效玩法,用户只要输入一张图片,AI就会根据图片生成一张动漫风格的图片。

由于生成的图片效果带有一定的“盲盒”属性 ,画风精致唯美中又带着些许的蠢萌和无厘头,一经上线就激发了广大用户的参与热情,抖音单日投稿量最高达724w,还衍生了“如何驯服AI”、“谁来为我发声”等讨论分享。

6cff1e04a445765234c82f35aab67510.gif

据抖音「AI绘画」特效主页显示,已经有2758.3万用户使用过这款特效。

作为抖音SSS级的大爆款特效,「AI绘画」的峰值QPS(每秒请求量)也高达1.4w的惊人水平,如何保证用户的实时体验,对技术链路提出了极高的挑战,抖音又是怎样做到的呢?

带着这样的疑问,我们和「AI绘画」背后的项目团队——抖音特效、字节跳动智能创作团队聊了聊。

经过特别训练的动漫风模型

抖音特效对AI技术有过很多应用实践,2021年的「漫画脸」特效也是一款上线3天千万投稿的爆款,使用的是GAN技术。

这一次,抖音的「AI绘画」使用了时下最火的多模态生成技术

这是由文本生成图片/视频/3D等跨模态的生成技术,具体地说,是通过大规模数据的训练,仅通过文字或少量其他低成本的信息引导,可控地生成任意场景的图片/视频/3D等内容,在AIGC等方向有极大的潜在应用价值。

据了解,随着DALL·E的问世,2021年初字节跳动智能创作团队就开始了相关技术的跟进和规划,今年8月底Stable Diffusion发布后,抖音特效团队很快启动了「AI绘画」这个项目。

Stable Diffusion是一个文本生成图像的多模态生成模型,相比于GAN,Stable Diffusion的多样性和风格化会更强,变化的形式也更丰富,同一个模型可以做很多不同的风格。同时,后者对性能和计算资源要求大幅下降,其自身开源的属性,还可以进行各种fine tune,调用和修改。

2864c5570821ab3eedc21944b62bd115.png
基础模型架构

Stable Diffusion的逻辑是,用一个图像对应一个文本标注的形式去训练模型,一个“文本+图像”组成一个数据对,先对其中的图像通过高斯分布进行加噪,加完噪声之后,再训练一个网络去对它进行去噪,让模型可以根据噪声再还原出一个新的图像。

为了能够使用文字控制模型生成的内容,Stable Diffusion使用了预训练的CLIP模型来引导生成结果。

CLIP模型使用了大量的文字和图片对训练,能够衡量任意图片和文本之间的相关性。在前向生成图片的过程中,模型除了要去噪以外,还需要让图片在CLIP的文本特征引导下去生成。这样在不断生成过程中,输出结果就会越来越接近给定的文字描述。

抖音「AI绘画」是采用图片生成图片的策略,首先对图片进行加噪,然后再用训练好的文生图模型在文本的引导下去噪。

5d79424409b1cca48c9bbb736a729952.png
图片生成图片的逻辑过程

作为技术支持方,字节跳动智能创作团队在Stable Diffusion开源模型的基础上,构建了数据量达十亿规模的数据集,训练出两个模型,一个是通用型的模型Diffusion Model,可以生成如油画、水墨画风格的图片;另外一个是动漫风格的Diffusion Model模型。

916789d2a996b858fd96c1bb1a41e70a.png
通用模型Diffusion Model生成的图像风格

1f76f354a298977367cd0244ca139d1b.png
动漫风格的Diffusion Model模型生成的图像风格

漫画风格模型是采用“漫画图像+文本”的数据对进行训练。为了让动漫风格模型生成的效果更好更丰富,字节跳动智能创作团队在动漫风格模型优化训练的数据集里特别加入了赛博朋克和像素风等不同风格的数据。

抖音特效在动漫风格上有过比较丰富的探索,观测了此前用户对不同风格的反馈,抖音「AI绘画」此次选用的就是精致漫画风的动漫风格。

在算法侧调优的同时,字节跳动智能创作团队为抖音特效产品侧提供了文本的接口prompt,方便产品侧对效果进行进一步的微调,通过输入文字,让生成的图片效果更加贴近于期望中的样子——风格化程度“不会特别萌、跟原图有一定相似度,但又不会特别写实”。

此外,模型还同时采用正向、负向文本引导生成的策略。除了描述生成图像内容、风格的正向条件外,还通过负向引导词(negative prompt)优化模型生成结果。通过在生成效果、生成内容等方面进行约束,可有效提升模型在图像细节上的生成质量, 并大大降低生成图像涵盖暴力、色情等敏感内容的风险。

抖音「AI绘画」还针对不同场景对风格效果进行了优化。

首先,基于图像理解基础能力,对用户图像进行场景分类,如人像、宠物、后置场景等,对包含人像的场景,进一步对性别、人数、年龄等属性进行检测。对于不同的细分场景,均有多组优化的风格效果作为候选。在模型选择上,90%的人像及50%的后置场景使用漫画模型,其他则使用包含艺术风格的通常模型。此外,部分场景还以一定概率出现彩蛋效果,如人像性别反转等效果。

93ea5e5530d8c370d1ae0f939c358a3a.png

研发Diffusion Model加速算法,节约上万块推理GPU消耗

相比于传统的生成模型(GAN),扩散模型(Stable Diffusion)的模型体积和计算量更为庞大,AI绘画需要一个耗时繁重的推理过程。

上线到抖音这样一个亿级DAU的平台,对技术服务侧而言,无论是显存的占用,还是从GPU的推理耗时都较高,且面临峰值过万的 QPS 。

如何支持巨大的调用量和复杂的推理,是很大的挑战。

为缓解线上GPU资源消耗,字节跳动智能创作团队研发了Diffusion Model加速算法、采样步数减少算法、高效模型图融合技术、服务端推理部署框架等,并与NVIDIA技术团队协同合作,优化高性能神经网络推理库,对AI绘画模型进行了多个维度上的推理优化。

上述一系列优化方案显著降低推理耗时、显存占用以及加大服务端部署框架的数据吞吐,相对于基准模型QPS提升4倍以上,节约数万块推理GPU消耗,保障道具在抖音平台高峰期的高效稳定运转。

无分类器引导扩散模型最近已被证明在高分辨率图像生成方面非常有效,然而这种模型存在一个缺陷是它们在进行单步图像生成时需要进行两次模型推理,使得图像生成的成本非常昂贵。

为了解决这个问题,字节跳动智能创作团队提出了一种针对无分类器引导扩散模型的蒸馏算法AutoML-GFD(AutoML Guidance-Fusion Distillation),通过知识蒸馏的方式将条件引导信息和无条件信息进行知识融合,减少了模型在进行单步图像生成时的推理次数和资源需求。

同时,在蒸馏过程中把negative prompt, scale guidance信息蒸馏到模型中,在不改变模型推理输入的情况下达到更佳的效果;在Diffusion Model的训练和采样过程中,利用time-aware采样针对性地优化了重要时间步的效果,相对于基准模型可以进一步降低推理步数;蒸馏算法整体压测提升200%。

在服务端侧,通过模型图融合、 高效CUDA算子、OFFload PreCompute、前后处理算子融合、多线程并发等手段,协同字节跳动自研Lighten推理引擎和Ivory视觉服务框架,解决了多段模型Convert Failed和显存溢出等问题,提升模型推理效率。

69371753d1821260d17d0926e1197520.jpeg
经过算法加速后生成的风格化图片效果

火山引擎机器学习平台将推理速度提升3.47倍,抖音同款智能绘图产品已toB

当前,伴随AIGC的应用日益多元和广泛,用户的痛点也随之浮上水面。

以Stable Diffusion为例,一次完整的预训练大约需要在 128 张 A100 计算卡上运行 25 天,用户付费上百万,高额的研发费用是用户最大的痛点之一。

同时,AIGC 产品演进快速,对性能和资源提出更高要求。

字节跳动旗下的云服务平台火山引擎为此类问题提供了解决方案,推动 AIGC 产业的发展。

火山引擎机器学习平台打造同时支持训练加速与推理加速的自主研发高性能算子库,在全面提升 AI 计算性能的基础上,不断追求节省显存、简单适配,同时支持多款 GPU 卡,为客户带来更多低成本、便捷的部署方案。

在推理场景下,基于 Stable Diffusion 模型的端到端推理速度达到 66.14 it/s,是 PyTorch 推理速度的 3.47 倍,运行时 GPU 显存占用量降低 60%。

在客户 AI 视频创作的 AIGC 推理业务实践中,火山引擎高性能算子库搭载客户的推理模型帮助其推理性能提升一倍,GPU 资源使用量减少一半,可为客户节省 50% 成本。

87ea9a51fde012a8ee0aa6b301014332.png

在训练场景下,使用该高性能算子库可将上文 Stable Diffusion 模型在 128 张 A100 的训练时间从 25 天减少到 15 天,训练性能提升 40%。

同时,由于 AIGC 模型在训练时占用 GPU 显存容量非常大,未经优化时的模型只能运行在最高端的 A100 80GB GPU 卡上。火山引擎高性能算子库通过大量消减中间操作,将运行时 GPU 显存占用量降低 50%,使得大多数模型可从 A100 迁移到成本更低的 V100 或 A30 等 GPU 卡上运行,摆脱特定计算卡的限制,而且不需要做额外的模型转换工作。

以此,以 AIGC 场景为代表,无论是迭代速度,还是单次的训练成本,都有了显著的性能提升和成本节省。

另外,火山引擎还面向企业客户推出了智能绘图产品,省去企业采集数据、训练模型和优化性能的时间和成本,可以快速接入业务,让企业拥有开箱即用、抖音同款的AI绘画能力。

—  —

分享

收藏

点赞

在看

f07d637123d19e132cfff53573b8bb7e.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41832.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用AI人脸识别技术实现抖音特效

♚ 李远君 ,Web和云计算开发人员。Java,Python,Golang爱好者。 个人网址:https://tomoncle.com 本文作者已加入Python中文社区专栏作者计划 导言 为什么会写这个人脸例子? 浏览博客的过程,无意发现了一篇名…

Github 热度飙升,一键生成最近抖音超火的 AI 人物绘图

点击关注公众号,利用碎片时间学习 Paper2GUI 是一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持20AI 模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域。支持 Windows、Mac、Linux …

抖音一键生成的AI绘画火了,网友惊呼:有点东西

在各大AI绘画软件争奇斗艳的时候,近期最火的AI绘画莫过于抖音一键生成的AI绘画特效,网友惊呼:有点东西。 就连最近话题度超高的“汪小菲”,也用AI绘画来“秀”恩爱了。 AI绘画识别度还挺高,特别是关于大白志愿者的生成…

讯飞语音的中的bug用户校验失败

用户校验失败:原因是目录没有复制粘贴正确. 下面是刚刚下载的SDK目录: 下面的是自己Android工程中的目录:注意复制粘贴的文件路径要正确 转载于:https://www.cnblogs.com/Oldz/p/9620359.html

Android端科大讯飞语音应用开发

创建语音应用及sdk集成 讯飞开放平台网址 网址:http://www.xfyun.cn/ 1.注册讯飞账号,我以前注册过就直接登录了,创建应用(注:创建过的应用不能被删除)2.创建应用名称规范: 名称_平台类型3.这里显示你的APPID,应用的唯一标示4.创建完成之后现在并没什么卵用,还需要…

python3讯飞语音识别

#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib.parse, urllib.request #这是python3,原先py2里的urllib2或者其他都包含在了py3的urllib里了, # py3里的urllib里的parse和request一定要这么导入,直接import urllib # 是不行的imp…

移动开发-语音识别-调用讯飞平台提供的API

1 登录讯飞平台,申请账号,创建一个应用 具体步骤可以百度查找 2 进入“我的应用”,下载相应的SDK文件 选择语音听写(流式版)-> Android MSC 3 打开安卓,新建项目 创建一个EditText和一个Button &…

UNIAPP调用讯飞语音评测API

1、历经千辛万苦,UNIAPP调用评测API终于完成,在此做下总结下:首先看效果! 2、实现第1步,首先是鉴权,用到的CryptoJS等工具都可以从讯飞和uniapp官方获取 import * as base64 from "base-64" impo…

Android科大讯飞语音集成,非常详细的使用讲解

讯飞语音开发集成地址http://www.xfyun.cn/ 解压后的doc文件夹下的msc develop 文件中有详细集成步骤 AppId: 1.先要注册开发者账户, 添加我的应用 , 下载sdk 2.下载后将sdk解压, 把案例导入工程中运行看看效果 3.将libs下的两个jar包添加到libs目录下, 将同路径下的其它 …

Android 讯飞语音识别功能开发

以下代码主要参考博客: Android 科大讯飞语音识别 Android蓝牙串口开发部分请参照博客: Android蓝牙串口开发 讯飞语音官方开发文档: 语音听写 Android SDK 文档 文章目录 前言一、SDK的下载和导入1.SDK的下载2.新建工程3.配置项目a.导包b.权…

uniapp - 接入科大讯飞语音评测

欢迎关注微信公众号:FSA全栈行动 👋 一、简介 科大讯飞语音评测可以对字、词、句、篇章等题型进行多维度评分(准确度、流畅度、完整度、声韵调型等),支持中文和英文。最新的流式版使用 webSocket 调用接口&#xff0c…

目标检测算法——YOLOv5/YOLOv7改进之结合​PP-LCNet(轻量级CPU网络)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 ​PP-LCNet——轻量级且超强悍的CPU级骨干网络&#xff01;&#xff01; &#xff08;一&#xff09;前沿介绍 1.PP-LCNet主要模块 2.相关实验结果 &#xff08;二&#xff09;YOLOv5/YOLOv7改进之结…

从Blip2到Segment Anything视觉语义金字塔+ChatGPT= 把图片变文本段落, 8G显存即可Run...

关注公众号&#xff0c;发现CV技术之美 8G GPU显存即可以运行 Twitter链接&#xff1a;https://twitter.com/awinyimgprocess/status/1646225454599372800?s46&tHvOe9T2n35iFuCHP5aIHpQ 代码链接&#xff1a;https://github.com/showlab/Image2Paragraph https:// 01 …

目标检测算法——YOLOv5/YOLOv7改进之结合​ASPP(空洞空间卷积池化金字塔)

&#x1f496;&#x1f496;>>>加勒比海带&#xff0c;QQ2479200884<<<&#x1f496;&#x1f496; &#x1f340;&#x1f340;>>>【YOLO魔法搭配&论文投稿咨询】<<<&#x1f340;&#x1f340; ✨✨>>>学习交流 | 温澜潮…

从BLIP-2到SAM视觉语义金字塔+ChatGPT= 把图片变文本段落, 8G显存即可Run

点击下方卡片&#xff0c;关注“CVer”公众号 AI/CV重磅干货&#xff0c;第一时间送达 点击进入—>【图像分割】微信技术交流群 作者&#xff1a;老大 |&#xff08;已授权转载&#xff09;编辑&#xff1a;CVer https://zhuanlan.zhihu.com/p/621503837 8G GPU显存即可以运…

问一下ChatGPT:DIKW金字塔模型

经常看到这张DIKW金字塔模型图&#xff0c;还看到感觉有点过份解读的图&#xff0c;后面又加上了insight&#xff0c;impact等内容。 Data&#xff1a;是数据&#xff0c;零散的、无规则的呈现到人们眼前&#xff0c;如果你只看到这些数字&#xff0c;如果没有强大的知识背景&a…

QCon: 工程师成长的金字塔思维

QCon 线下会议终于来了&#xff0c;但这次的分享有一些意外&#xff0c;不是性能、架构、内核、缓存&#xff0c;而不是AI实践相关的内容&#xff0c;论坛的主题是“工程师成长实践”&#xff0c;而我的topic 是“工程师成长的金字塔思维”。本以为这是一个非热门话题&#xff…

拉普拉斯金字塔

原文 高斯金字塔G0层下采样后为G1&#xff0c;用G0减去G1的上采样&#xff0c;就得到了拉普拉斯层L0. 高斯金字塔G1层上采样后与拉普拉斯金字塔L0层相加后就得到了G0层。 import numpy as np import cv2 as cv from matplotlib import pyplot as pltimg cv.imread(left_01.png…

微信称不会推出「已读」功能;马斯克宣布成立 AI 公司 xAI;GPT-4 架构曝光,有 1.8 万亿参数|极客头条

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&…

百度版本gactgpt即将来临,gpt人工智能机器横空出世

百度版本gactgpt即将来临&#xff0c;gpt人工智能机器横空出世&#xff0c;“一言”为定&#xff01;百度版ChatGPT确认&#xff01;李彦宏OKR曝光&#xff0c;率先应用于收索业务 gactCBT 大获&#xff0c;当下极有可能成为人工智能的 iPhone 时刻。为了在这场人工智能竞赛中…