本文来源 AI前线
作者 | JAMES VINCENT 译者 | 核子可乐 策划 | 刘燕
最近几周,一款名为 Stable Diffusion 的文本到图像程序横空出世,瞬间颠覆了一切。Stable Diffusion 将无过滤图像生成的门槛下放到历史最低。它一边被 AI 艺术界所称道,另一边则被传统艺术家激烈批评;有人想要拆解分析,有人把它捧上了天,也有人对它的强大能力感到担忧。
输入文字描述,就能得到相应的图像结果——这就是 AI 文本到图像程序想要达成的唯一目标。
AI 文本到图像生成器 Stable Diffusion 作品摘录
用户可以随意输入自己想要的内容——电子人版拜登总统挥舞武士刀;绘有青蛙格斗图案的中世纪挂毯等等。生成系统由现有艺术作品组成的巨大数据库训练而成,能够快速生成与提示信息有所关联的新奇图像。虽然目前最先进的模型也无法输出稳定且完美的成果,但在这项技术的支持者们看来,与这背后隐藏的巨大潜能相比,眼下的这一点点缺陷简直微不足道。
不过必须承认,现在这些“根据输入输出图像”的工具仍然由少数财力雄厚的企业所把持,包括构建了 DELL-E 的 OpenAI 和打造出 Imagen 的谷歌。这些都是大公司,玩得起也输得起,所以他们唯一需要考虑的就是在技术可能性与企业声誉之间寻求平衡。
对于像 DALL-E 这样的模型,感兴趣的朋友可能排队等待才有机会亲自上手体验。至于谷歌 Imagen,则完全禁止向公众开放。当然,DALL-E 的输出也会经过过滤,避免其生成包含暴力、裸露或逼真人脸的图像。另外,这种体验不是免费的,DALL-E 的用户每月只能免费生成 15 张图像,额外生成的话每张约合 0.08 美元。虽然价格不贵,但还是劝退了不少只想随便玩玩的好事者。
Satble Diffusion 的强大之处,在于极高的输出质量、顺畅自然的混搭风格、不理会图像的版权保护机制且能够支持大量公众人物。左上图为《米老鼠版二战宣传海报》,右上为《12 世纪农民版鲍里斯·约翰逊油画》。
Stable Diffusion 将无过滤图像生成的门槛下放到历史最低。
原本一切安好、各方平衡,但最近几周一款名叫 Stable Diffusion 的文本到图像程序横空出世,瞬间颠覆了一切。
它能够提供开源、未经过滤的图像生成功能,而且任何具备一点点技术知识的电脑用户都能轻松上手。该模型于 8 月 22 日公开发布,但影响力正在悄然扩散。它一边被 AI 艺术界所称道,另一边则被传统艺术家激烈批评;有人想要拆解分析,有人把它捧上了天,也有人对它的强大能力感到担忧。
为 Stable Diffusion 提供开发资金的 Stability AI 公司 CEO Emad Mostaque 在采访中表示,“真实情况是,这是一项堪称超能力般的外星科技。我们第一次见到一种老少咸宜的 AI 图像生成工具,但同时也发现不少人在用它生成伤害他人感情的内容。”
尽管 AI 生成艺术已然经历了一段时间的发展,但 Stable Diffusion 的出现可能才是这项技术的真正腾飞时刻。它可以免费使用,上手快捷,大大减少了用户生成内容的障碍。当这样一款工具落在普罗大众手中,接下来会发生什么实在难以预料。
Stable Diffusion 为什么与众不同?
Stable Diffusion 与其他 AI 艺术生成器的最大区别,就是它高度关注开源取向。即使是之前游离于科技巨头之外的文本到图像模型 Midjourney,也从未如此广泛地开放其访问通道。
作为 Stable Diffusion 背后的公司,Stability AI 以多种方式将这项技术打包起来。首先就是人人皆可体验的公开演示版(但速度很慢而且经常卡死),另外还有一个名为 DreamStudio 的快速测试版本(稳定性更好,但会在生成一定数量的图像后提示付费)。更重要的是,任何人都可以下载和修改该模型的完整版本。第三方开发者甚至在进一步降低这款软件的下载和使用门槛。例如,目前市面上已经出现了能够一键安装的 macOS 版本。(但请注意,即使难度不高、运行正常,这个版本在 Mac 上的图像生成速度也很慢。)
由 Satble DIssufion 生成的图像,对应的文字描述是“〈疯狂麦克四 4〉版伯尼·桑德斯,爆炸、白发、护目镜、衣衫褴褛、面部特征细致且对称、戏剧性的打光角度。”
Mostaque 表示,正是这种开放性让 Stable Diffusion 获得了远超其他竞争对手的改进速度。例如,查看 Stable Diffusion 在 Reddit 上的子频道,就会发现用户不仅在这里分享自己最喜爱的图片描述(例如「日本江户时代风格的麦当劳」和「〈疯狂麦克斯 4〉版伯尼·桑德斯」),而且该程序也被广泛集成至各类原有创意工具当中。
在以下示例中,用户构建了一款 Photoshop 插件,能以粗糙的涂鸦为基底用 Stable Diffusion 完成绘画。先从树木繁茂的日式山顶图像开始,Stable Diffusion 能逐步在正确位置勾勒出草、树和天空,而后不断扩散并填补其间的空白,最后由用户手动完成收尾细修。一位 Reddit 用户在评论中赞叹,“Stable Diffusion 开放还不到一周,这么多精彩作品真的令人惊叹。相信半年之后,它又会发展到完全不同的境界。”
根据 Mostaque 的解释,所谓开源就是“把它交给那些愿意构建并扩展这项技术的人们。”然而,这种能力一旦落入公众手中,或好或坏的各种后果也将一并涌来。
不会吧,居然不加过滤
Stability AI 的开源方法之所以简单粗暴,就在于他们完全不对生成内容做任何审核或者过滤。与 DALL-E 不同,用户可以轻松指控 Stable Diffusion 生成黄 * 或暴力图像、描绘公众人物和名人;或者仿制受到版权保护的图像(包括非知名艺术家的作品和大企业的吉祥物)。这里我们就不一一列举 Stable Diffusion 的支持范围有多广了,感兴趣的朋友可以在 Lexica 搜索引擎中输入话题,结果中会包含大量由 Diffusion 生成的图像。
这里要澄清一点:目前发布的稳定版本其实还是包含了一定的关键字过滤,用于阻止用户生成不适合上班时间浏览(NFSW)的内容,以及公开的政治或暴力图。虽然下载版模型中也包含这些限制,但可以轻松绕过。
Reddit 上的 Stable Diffusion 子版块就有“如何在 5 秒内移除安全过滤器”( https://www.reddit.com/r/StableDiffusion/comments/wv2nw0/tutorial_how_to_remove_the_safety_filter_in_5/)的帖子。
Stable Diffusion 让生成暴力和色情图像变得更容易,而且内容中往往包含大量真人特征
此外,虽然模型的开源许可证禁止人们使用该软件实施各类犯罪行为(包括「以任何方式剥削、伤害或试图剥削 / 伤害未成年人」,以及「生成或传播可验证的虚假信息」),不过只要把 Stable Diffusion 下载到自己的计算机上,使用者完全可以肆无忌惮、不受任何约束。
Mostaque 的态度非常明确。“归根结底,使用者自己需要为如何使用这项技术负责,包括是否合乎道德和法律。人们当然可能用它生成糟糕的内容……但我认为这只占总使用量中非常非常低的比例。”
但他以为的,也仅仅只是他以为的,目前还无法断言这样的模型被公开发布后会产生怎样的后果。我们很容易设想这项技术可能被用于各类恶意用途。不过还是那句话,一切暂时都只是假设。
还记得 OpenAI 刚刚发布 AI 文本生成器 GPT-3 的时候,该公司最初也会限制访问,理由是担心有人用这款软件制造大量垃圾邮件、虚假新闻和恶意宣传。不过到目前为止,这样的严重威胁并未实际出现。GPT-3 的访问范围一直不断扩大,还没听说引发过什么特别恶劣的事件。
当然,隐患还是存在的。以 AI Dungeon 为例,这是一款基于 GPT-3 的文本幻想游戏,它就必须引入过滤器来阻止软件生成不适合未成年人游玩的性爱场景。但至少可以肯定,GPT-3 并没有被用于大规模制造垃圾邮件、仇恨言论之类。顺带一提,GPT-3 开源版本的开发工作中也有 Stability AI 的参与和支持。
截至目前,Stable Diffusion 闹出的最大乱子也就集中在生成色情内容方面。在模型公开发布之后,一系列专门用于管理上班时不宜浏览内容的子版块如雨后春笋般涌现。尽管受到 Reddit 禁止传播色情 deepfakes 政策的约束,大多版块已被封禁,但仍有用户在不断生成名人和公众人物的实体图像。这类内容大多荒谬怪诞,人物经常三头六臂、摆着现实中根本做不出的姿势。但随着使用量的增加,输出的图像质量肯定会快速提高,于是 AI 生成色情内容的伦理问题也将被推上风口浪尖。
例如,Stable Diffusion 几乎肯定有能力生成以儿童为主体的色情图像。只是这类内容往往只存在于网络上鲜为人知的边边角角。Mostaque 指出,该公司已经在删除 Stable Diffusion 训练数据集中的儿童性虐待素材(CSAM),希望借此主动隔绝这类使用行为。“我们删掉了其中的非法内容,事情就是这样。”
但总的来说,Mostaque 仍坚定地认为,Stability AI 公开发布 Stable Diffusion 绝不是草率或者鲁莽的冲动行为。相反,他表示这家拥有约 75 名员工的公司其实考虑过要不要添加更多过滤条件,但最终认为还是把判断权交给开源社区更好。“一旦过滤的齿轮开始转动,就很难让它再停下来。”
归根结底,这家公司始终恪守技术行业中最久经考验、但也时常受到批评的理念:技术是中立的,创造总比不创造要好。Mostaque 认为,“我们也在遵循这样的思路,把工具视为促进人类进步的潜在基础设施。我们认为这样做的积极因素远远大于消极因素。”
抄袭艺术家,盗取版权
Stability AI 明确在训练数据中保留下来的一类视觉素材,就是受版权保护的作品。很多人觉得 Stable Diffusion 这种模仿在世艺术家风格和美学的行为不值得提倡:这不仅可能违反版权条例,更不符合道德规范。一条批评该软件的推文还详尽列出了该模型模仿过的部分在世艺术家(不过推文中认为 Stability AI 正「宣传」此功能的说法并不正确)。
跟大多数现代 AI 系统一样,Stable Diffusion 同样是在庞大的数据集上训练而成的,它能识别模式并学习模仿。其训练数据的核心是一个名为 LAION-5B 的巨大素材包,包含 50 多亿张图像与匹配的文本标注。所有素材均抓取自公共网络。值得注意的是,LAION-5B 并非由 Stability AI 亲自维护,而是归德国非营利组织 LAION 负责管理。
可以确定,LAION-5B 中包含有大量受版权保护的内容。对 1200 个数据集样本进行独立分析后,结果发现其中近半数图片来自区区 100 个域。最受欢迎的是 Pinterest,约占抽样图片的 8.5%;第二大来源则是各专门托管用户生成内容的网站(包括 Flickr、DeviantArt 和 Tumblr),以及 Getty Images 和 Shutterstock 等照片存储网站。换句话说,这些受版权保护的内容其实归众多独立艺术家和专业摄影师所有。
版权方面的争议,给 Stable Diffusion 这类工具招来了不少批评,人们抱怨它们在盗窃艺术家的创作成果。甚至有批评人士指出,AI 不仅窃取了艺术家的心血,还践踏了人们用无数小时磨练出的精湛技艺。
担任艺术总监的 Logan Preshaw 就在最近关于 AI 艺术软件的热门推文中提到,“我最早以自由职业者的身份做过纸牌游戏插图、书籍封面和专辑封面等设计工作。但后来,这些行业开始充斥着 AI 生成的图像,空有抱负的艺术家越来越难以生存,这真的让人心碎。每个人都有创作艺术的权利,但这不该以牺牲他人的利益为代价。”
但能做的唯有适应,不是说我们真的需要艺术 AI,而是它可能永久存在于无法解决的合法性空缺当中。
很多人觉得我们生活在一个能够无休止实现技术创新的乌托邦中,这些技术总能转化为有益人类的成果。不,现实没那么美好。— Logan Preshaw (@wickedinsignia) 2022 年 9 月 12 日
Stability AI 做出的回应,则是再次重申技术中立的态度。Mostaque 表示,从网络上抓取公共素材、包括受版权保护的内容,在美国和英国都是合法的(但未来可能会出台相关的约束性法规)。他还认为,Stable Diffusion 的开源性质证明,这种能力不会被掌握在他和他的同事等少数人手中,而是被广泛分享给了每一个人。
Mostaque 反问道,“想想 Diffusion 是怎么发布的?是像 OpenAI 那样遮遮掩掩、保持着保密服务的姿态吗?是作为艺术模型吗?不,它是由研究机构作为通用模型来发布的,所以最终结果只取决于用户自己如何使用。如果他们以侵犯版权的方式使用,那这些人就触犯了法律。”这里所说的“由研究机构”发布,是指 Stable Diffusion 的技术许可实际是由慕尼黑路德维希马克西米利安大学的 CompVis 实验室所发布,Stability AI 只是负责出资和具体开发。
Mostaque 还表示,Stable Diffusion 的后续迭代将支持艺术家上传自己的作品集和姓名。这样如果他们不愿意,就可以过滤掉模型输出当中跟他们有关的元素。但与不宜上班浏览的内容一样,这些过滤器对于下载该软件开源版本的用户来说仍然没什么约束作用。换句话说:如果艺术家们不想让 AI 生成器模仿自己的作品,也没必要跟 Stability AI 较劲,公司方面也做不了什么。
(以下作品为 Stable Diffusion 模仿多位知名艺术家的画作。)
迈克·米尼奥拉
阿尔丰斯·穆夏
葛氏北斋
巴勃罗·毕加索
克劳德·莫奈
三浦健太郎
这是一场博弈
聊了这么多,我们最终引出了这样一个问题:Stability AI 是做啥的,他们想要干什么?
Mostaque 本人是一名前对冲基金经理,并为 Stable Diffusion 的开发贡献了一笔数额不详、但似乎相当可观的资金。他对项目的启动成本做出过估算,认为大概需要 60 万到 75 万美元之间。这是一大笔钱,远远超出了大多数学术机构的承受能力。但与最终产品的潜在价值相比,这个数字其实也不算夸张。而且 Mostaque 非常清楚,他希望 Stability AI 在坚持开源精神的同时实现盈利,甚至把它跟开源数据库市场上的独角兽企业相提并论。
但他也坚持宣称,自己最关心的并不是钱。他更希望能在 AI 领域掀起一场革命:推翻那些财力雄厚的企业巨头,用更智能、更快、更独立的开源社区取代那些腐朽僵化的昂贵系统。
“OpenAI 和其他每家企业,都必须加入我们的社区和生态系统。”
在他看来,“那些企业和组织才像是迟缓又愚蠢的 AI。总有人担心 AI 太聪明之后会反过来干掉人类,其实这些官僚机构才是每天都天都在折磨我们。”而将 Stable Diffusion 作为开源项目发布,正是战胜这些笨拙机构的好办法。“每家公司都将开发私有 AI 模型,但总有人要站出来公开自己的模型。从博弈论的角度看,有人打破规则之后,事态会如何发展?很简单,就是所有企业都得被迫公开。OpenAI 和其他每家企业,都必须加入我们的社区和生态系统。”
Mostaque 指出,推动这场变革的目的不只是为了加快技术开发,同时也是为了将这些系统真正推广到全世界。在他看来,AI 世界正走向由硅谷文化和道德主导的道路,而开源软件可以开辟出新的战线。以图像生成工具为例,他希望不同国家能够开发属于自己的模型和数据集,借此“反映人类社会的多样性”,最终摆脱“以西方占主导的单一互联网文化”。
这是个宏伟的目标,他甚至将 Stable Diffusion 的降临形容为“将创意之神的火焰带来人间”。
好,都很好,最后的问题就是怎么保证这个世界不会被这把火彻底烧毁。
原文链接:
https://www.theverge.com/2022/9/15/23340673/ai-image-generation-stable-diffusion-explained-ethics-copyright-data
猜您喜欢:
戳我,查看GAN的系列专辑~!
一顿午饭外卖,成为CV视觉前沿弄潮儿!
ECCV2022 | 生成对抗网络GAN部分论文汇总
CVPR 2022 | 25+方向、最新50篇GAN论文
ICCV 2021 | 35个主题GAN论文汇总
超110篇!CVPR 2021最全GAN论文梳理
超100篇!CVPR 2020最全GAN论文梳理
拆解组新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多样性图像生成
附下载 | 《可解释的机器学习》中文版
附下载 |《TensorFlow 2.0 深度学习算法实战》
附下载 |《计算机视觉中的数学方法》分享
《基于深度学习的表面缺陷检测方法综述》
《零样本图像分类综述: 十年进展》
《基于深度神经网络的少样本学习综述》