作者 | 屠敏
出品 | CSDN(ID:CSDNnews)
在这一场看不到硝烟的战争中,各大科技公司正带着 AI 从自动生成文本、代码的赛道“杀入”下一场——图像领域。
继上周百度发布的文心一言在多模态上实现文本生成图像之后,就在昨夜,微软、Adobe 作为最新的选手,快速进场。
和 AI 艺术爱好者使用更为专业的文本生成图像工具 Midjourney 的体验感有所不同,当互联网公司将这类工具融合到聊天机器人之后,全球网友化身成“提示工程大师”,以不同的姿势打开了 AI 生成图像的新大门。
微软在 Bing Chat 中带来 Bing Image Creator
微软与 OpenAI 的联手,可谓是打遍天下无敌手。昨日,微软正式官宣将 OpenAI 的 DaLL-E 图像生成器带到新 Bing 中,并把这项新产品称之为“Bing Image Creator”(https://bing.com/images/create)。
不过,微软并没有直接说明在这项功能里面使用的是 OpenAI 哪个版本的 DALL-E 模型,只是说使用的是“最新的 DALL-E 模型”。
早在 2021 年初,OpenAI 便推出了推出了从文字标题生成图像的新型神经网络模型 DALL·E。
2022 年,OpenAI 带来了进阶版本 DALL·E 2,相比初代,分辨率提高了 4 倍,还带来了编辑现有图像等功能。
按理来说,“Bing Image Creator”功能引入的至少是 DALL·E 2 甚至是更高的版本,它在生成图像上更加逼真。现在你只需要用自己的话来描述想要的图片,Bing Image Creator 就能自动生成了。
就像这样:
值得注意的是,Bing Image Creator 当前只支持英语作为提示语言。想要更好更准确的让它生成理想中的图片,还需要遵循「形容词」+「名词」+「动词」+「风格描述」的表达模板。
因此,在生成图片的时候,对普通用户的提供的提示语以及口语表达能力还是有一定的门槛的。
而之所以开发这样的工具,微软表示,根据研究,人类大脑处理视觉信息的速度要比文本快 60000 倍,这导致视觉工具成为用户搜索、创造和获得理解的重要方式。想必,这也是为什么很多人都爱发表情包的原因吧。
当前,微软已将 Bing Image Creator 功能集成到 Bing Chat 中,并在 Creative 模式下提供,未来会逐步出现在 Bing 的 Balanced 和 Precise 模式中。
通过输入图像描述,提供位置或活动等额外的背景信息,并选择一种艺术风格,Bing Image Creator 可以根据自己的想象力生成一个图像。简单来看,在聊天窗口一番输入之后,就会得到如下图所示的图片:
除此之外,微软还将此功能引入了 Edge 浏览器上——要在 Edge 中使用 Bing Image Creator,只需单击侧边栏中的 Bing Image Creator 图标即可创建图像。
不过,并非所有可以访问 Bing Chat 的用户都能使用,其官方 Twitter 称:“它将在未来几天推出,敬请期待更新。”
图片生成能力:Bing Chat vs 文心一言
在 Bing Image Creator 面向部分用户开放之后,很多人也开启了试用模式,其中可以免费尝试生成 25 张图:
不难看出,Bing Image Creator 生成的图片都是偏卡通风格的,效果也不错:
对此,我们也对百度文心一言的图片进行了实测:
整体来看,两家生成的图片效果都不错,各有千秋。
不过,在我们继续实测两家产品过程中,发现无论是只支持英文文本输入的 Bing Image Creator,还是更擅长中文输入的文心一言,在二者遇上博大精深的中国文化、本土食物时,画风新奇,直接按照字面的意思走。
譬如,生成一颗娃娃菜的图片:
Bing
文心一言
生成一张“奥特曼大战葫芦娃”的图片:
Bing
文心一言
生成一张“椰子鸡”的图片:
Bing
文心一言
通过 AI 生成图片也不难知晓为什么大家都说“汉语是世界上最难学的语言,且没有之一”的原因了,就这样,想必大家可以戏耍 AI 图片生成器一整天,还能处处见惊喜,毕竟你永远猜不透它下一次给你生成的图片会是什么。
Adobe 入局,专业 Buff 拉满
如果说前两者在自家产品中带来 AI 图片生成功能只是为了将搜索等业务的用户体验加分,那么一直走在图像处理软件工具研发最前沿的老牌软件公司 Adobe 宣布下场拥抱 AI,带来 AI 图像生成模型——Adobe Firefly(https://www.adobe.com/sensei/generative-ai/firefly.html),则是将 AI 图像生成的专业性直接提升。
因为它不仅仅是将文本生成图片这么简单:
还可以直接换风格、加图层等编辑操作。
比如,输入自然语言,一键实现换背景:
又比如,自动识别出图片里面的灯塔,Adobe Firefly 可以使用 AI 来生成不同版本的灯塔,并实现替换。
基于以上,Adobe 在这场发布会上直接带来两个大招,一个是根据文本提示 prompt 创建图像,对标 Midjourney、Stable Diffusion 这样传统的文本生成图像工具;一个是给文字加上 AI 生成的纹理和图案,类似于 AI 辅助的 WordArt。
这是 Adobe 的一次重大发布与更新。事实上,Adobe 加入这场战局,业界不少人评价道,“意料之外,情理之中”。毕竟一方面,Adobe Firefly 的到来恐直接影响其旗下的系列图片处理工具;另一方面,在自然语言可以解决一切的 AI 世界,不拥抱变化,可能只会被动地淘汰。
为此,在发布 Adobe Firefly 时,Adobe 生成人工智能和 Sensei 副总裁 Alexandru Costin 也直言道,“我们不惧怕变化,我们正在拥抱这种变化。”与此同时,Adobe 采取的策略也并非自己革自己的命,而是选择“将这些功能直接带入 [我们的] 产品中,因此 [用户] 不需要知道它是否具有生成性。”
目前,Adobe 将 Firefly 首先作为内部测试版推出,还没有正式面向公众开放测试,但可以申请加入等待名单(https://survey.adobe.com/jfe/form/SV_2tNbydqEp6ovet0) 。
最终,Adobe 计划将生成式 AI 工具与其创意应用套件(如 Photoshop、Illustrator 和 Premiere)紧密集成。也计划通过各种平台上的 API 提供 Firefly,使客户能够集成到自定义工作流程和自动化中。
道德与版权问题
其实自 OpenAI 的 ChatGPT 惊艳亮相以来,业界对 AI 领域的关注度达到了前所未有的高度,类似 Stable Diffusion 、Midjourney、DaLL-E 等工具层出不穷,但随之而来的是人类对其生成作品带来的版权、恶搞等影响方面的担忧。
为了在一定维度上,解决 AI 存在的版权问题。百度的文心一言、微软的 Bing Image Creator 都会在 AI 生成的画作中加上水印。
此外,微软也在规则中注明,为了遏制 Image Creator 的潜在滥用,“我们已确保将 OpenAI 的安全措施以及其他保护措施纳入 Image Creator。例如,我们实施了旨在限制有害或不安全图像生成的控制措施。当我们的系统检测到提示可能会生成可能有害的图像时,它会阻止提示并警告用户。我们还明确表示 Image Creator 的图像是由 AI 生成的,并且在每张图像的左下角加上了一个 Bing 图标的水印,帮助大家识别该图像是使用 Image Creator 创建的。”
此外,「我们将允许现有艺术家将他们的姓名 report 提供给我们,以限制创建与其姓名关联的图像。」
相比微软的做法,Adobe 直接宣称自己是没有原罪的 AI 模型。
其表示,自己没有盗用艺术家的作品来训练模型。Adobe 用于训练模型的数据要么是版权过期的,要么有许可,要么是 Adobe Stock 图库中的。
Adobe 生成人工智能和 Sensei 副总裁 Alexandru Costin 表示,公司有权使用这些数据。这应该会给 Adobe 的系统带来不惹恼艺术家的优势,并使其系统更具品牌安全性。
Costin 称,Adobe 也计划向贡献训练数据的艺术家支付报酬。这不会在现在公布,其计划是在系统结束测试版之前制定某种“补偿策略”。
你觉得 AI 文本生成图像会对人类设计师存在威胁吗?哪家的模型更胜一筹?
参考:
https://blogs.microsoft.com/blog/2023/03/21/create-images-with-your-words-bing-image-creator-comes-to-the-new-bing/
https://www.theverge.com/2023/3/21/23648315/adobe-firefly-ai-image-generator-announced
https://firefly.adobe.com/
https://blog.adobe.com/en/publish/2023/03/21/bringing-gen-ai-to-creative-cloud-adobe-firefly
☞拼多多驳斥有关其应用程序为“恶意软件”的指控;Google向部分用户预览Bard;ChatGPT出现严重漏洞|极客头条
☞GPT-4 挑战当老板,目标:用 100 美元生成 100000 美元!
☞阿里 VP 贾扬清确认离职!尚未创立公司,方向或是 AI 架构?