用朴素的语言,还原你天马星空的想象。
喜悦
早上,终于收到了 OpenAI 的通知 —— 漫长的排队后,我可以用 DALLE 了。
这款人工智能绘图工具让我种草了多长时间?其实都快忘了,哈哈。查了一下,我是 4 月 7 日申请的,到被批准差不多 100 天吧 😂
激动的心,颤抖的手,我赶紧按照信件提示,点链接进去。欢迎我的,是这样一个霸王条款:
DALLE 生成的图片,严禁商用,更别提上 NFT 交易了;而且 OpenAI 对于我创作出来的图片拥有所有权。用户只对「自己上传到系统的图片」有所有权。但是,为了改进模型,人家可能还要用你上传的图片作为训练数据……
搁以前我的脾气,早就扭头走人了。但是这回不行,DALLE 的吸引力太大,而且前面沉没成本较高。忍一忍吧。
尝试
我进入 DALLE 后,发现页面非常清爽,只有一个文本框。
我在其中输入了这样一段描述文字:
a kung fu panda is fighting with a T-rex in the woods
应用自动开始工作,通过训练好的大模型来进行图像生成。等候过程中,会有一些提示和样例。
例如这个:
进度条往后走,还有这样的提示:
这些不断变化的提示,既缓解了用户焦躁等待的心情,同时还帮你改进后续的内容输入方式。这种一举两得的方式,值得其他应用借鉴。
几十秒钟之后,进度条终于挪动到头儿了,于是我看到了生成的结果,一共 6 张图片。我一一点进去。
其中这张很不错:
这张嘛,也还行:
最搞笑的,是这张:
喂,你拿恐龙当玩具吗?
这是 6 张图片的全景。你更喜欢其中哪一张呢?
我正玩儿得不亦乐乎,大儿子进来了。他刚放假,最近在和弟弟养小鸡。于是他出的题目自然是:
Two little boys, teasing two fluffy chicks
DALLE 做出来的结果,他不是很满意。
因为这俩小孩儿,看上去明显是外国人嘛。于是我帮着修改了一下描述:
Two little Asian boys, teasing two fluffy chicks
嗯,这回看起来好多了。
对比
其实,这已经不是我第一次为你介绍人工智能自动绘图工具了。
还记得吗?去年那篇《如何把你的想法一键变成图画?[1] 这款工具的绘图能力。
下面咱们来对比一下 Text to Image Art Generator[2] 和 DALLE 对同样的文字绘制图像结果的差别。
这是第一句:
a small boy on the shark in deep ocean
Text to Image Art Generator[3] 当初绘制的图形是这样。
我把同样的内容,输入到了 DALLE ,咱们再来看看。
果然是「没有对比就没有伤害」啊,哈哈。当时的文章里,还有一句话,是:
a t-rex playing in olympics 100 meters running game
Text to Image Art Generator[4] 做的图是这样的:
咱们看看同样的话,在 DALLE 里面是啥样?
我现在只能用「不可同日而语」来形容二者之间的差距了。
顺便,我也想对比一下前些日子非常火的 Disco Diffusion 和 DALLE 的区别。
刚开始用 Disco Diffusion 的时候,我做了不少测试。其中写过这样一段:
a beautiful landscape painting of A wizard in black robes, and a Tyrannosaurus rex in a fierce battle in the primeval forest. a 9-year-old boy and a 5-year-old boy are watching them in the corner.
这是当时 Disco Diffusion 在 Google Colab 里经过几十分钟生成的结果:
而这,是 DALLE 几十秒内画出来的:
好吧,再来对比另外一组:
A comic with a robot wearing a cowboy hat in the center is painting a landscape on a drawing board. The right side of the painting has a creek running through it, with mountains and sunset in the distance in the background by Pablo Munoz Gomez Trending on artstation
这是 Disco Diffusion 的结果,够抽象的。我要不说,你能看出是机器人画家在作画吗?
而这,是 DALLE 的绘图:
其中,我最喜欢的是这张。
你喜欢哪张?
图片生成图片
除了文字生成图片以外,注意文本框下面还有一行小字儿 —— 你可以上传图片,然后由 DALLE 进行调整生成新的图片。
我尝试了几张图片。发现并不是所有图片都可以。例如说图片里面包含人脸,就不行。
人脸不行,咱们就试试牛脸好了。我上传了一张水牛的照片。然后 DALLE 生成了另外 5 张图。
我觉得其中第 3 张最为有趣。
因为它包含了原始图形中根本没有涉及的角度。可以看得出来,这种图片生成可不只是旋转、镜像这种低级简单操作。
挑战
我给你不厌其烦展示这种机器作画的能力,并不是显摆「看我电脑画得多棒」,或跟你鼓吹「艺术家要失业了」之类的危言耸听。
艺术家不会失业。他们会和 AI 联合,把工作做得更高效,进一步挑战人类创造力的边界。
但是,DALLE的绘画能力,展现了一些潜在的挑战,我们可能需要注意。
首先,那些从事非艺术的绘画创作的人(例如低等级的插画师),可能会遭受到职业危机。
原先如果你需要一个特定的图画,又没有现成的,也许就需要找人来绘制。绘制的效果不一定要多么艺术,但是得美观能用,符合要求。所以只要你会画画,又对报酬没有过高的要求,总有一些生存的空间。
但是,现在只要有了想法,我用文字写出来,就可以由人工智能画出。我对这些图画,也没有啥太高的要求,够用就行。例如今天早上,为了给知识星球的新文章弄个题图,我直接让 DALLE 绘制了这样一副场景:
a highly intelligent robot finding things among different databases, digital art
然后嘛,下面这些题图就能用了。
我前面提到过,DALLE生成的图片,版权依然是个问题。如果你把机器生成的图片用作商用,DALLE 并不适合。不过好在技术的进步,会带来更快的迭代速度,和更好的绘画质量。而且根据以往的经验,随着热度提升,先进技术还会迅速扩散。我们可以期待,后续会有更多类似 DALLE 的人工智能绘画服务,便宜、好用,而且没有那么多的霸王条款。
而另外一件事情,可能带来的挑战更为剧烈一些。
我思考这个问题,是因为前些日子我们学院主办了一次《数据分析与信息服务发展国际会议》。
其中一位主讲嘉宾 Daniel E Acuna 提出了科研伦理中的典型问题——图片抄袭。你在新闻报道中可能已经听说过,不少很多论文的抄袭、剽窃都是用图片对比来发现的。
(图片来源:Mazaheri et al., 2021)
你可能会感到奇怪,为什么这些作者非得要原封不动像素级拷贝别人论文的图片呢?这是因为,科研中的证据照片(例如显微镜观察到的)或分析结果绘图要想「无中生有」,其实挺困难的。诸多因素牵扯,使得你「生造」图像的话,很容易会被专业人士识别出来。
因此更多人的铤而走险,选择的方向是把已经出现在图片里面的元素,稍加改动或者干脆拷贝粘贴。他们的侥幸心理作祟,期盼别人发现不了这张图和原图之间的联系。
(图片来源 t.ly/D6PH[5])
我在想,DALLE 这样强悍的工具出现,对于学术论文插图的剽窃甚至造假活动,会意味着什么?
在很多领域,例如生物、医学,都有大量的图片和它们对应的文字描述。难免有人出于种种目的,把这些内容进行采集,并且微调 DALLE 这样的图像生成模型。在并不遥远的将来,他完全可以瞒天过海,仅用自己的语言描述,就把想要的结果直接变成制式、风格全都无懈可击的「新」照片或图形。或者直接上传原始图片,用语言进行调整修改,结果会让原论文作者自己都认不出来。这些操作,将给研究结果真实性和原创性审核带来严峻的挑战。
有什么好办法来应对吗?我没有进行深入研究,无法回答。目前我能想到的,也就是用技术对抗技术。只有同样见多识广的模型,才能打败这种违背学术道德的「无中生有」。咱们拭目以待吧。
小结
本文我为你介绍了自己试用 OpenAI 的 DALLE 这款人工智能绘图应用的结果,以及一些涌入头脑的思考。面对新的科技浪潮,拥抱比排斥往往更为明智。尽管面对潜在的挑战,我们可能需要做好准备,以免使自己的生活,乃至于科学界的公序良俗遭受到冲击。
你有没有尝试这些近期高速发展的人工智能绘图应用?你觉得效果如何?有什么想要赞叹或吐槽的?欢迎留言,我们一起交流讨论。
祝(人工智能)绘图愉快!
感觉有用的话,点赞 +「在看」,把它转发给你身边有需要的朋友。
请订阅我的微信公众号,加星标,避免错过新推送提示。
欢迎关注我的视频号,时常更新。
欢迎来知识星球,查看已经积累下的数十篇精华帖子。更欢迎你提出自己的好问题。
由于微信公众平台的限制,文中部分链接可能无法正常显示与跳转。如需访问,请点击文末「阅读原文」链接,查看链接齐备的版本。
延伸阅读
【视频】临时笔记(Fleeting Notes)的记录与加工
【星球精选】Obsidian 中的 excalibrain 插件:免费的 theBrain ?
如何更高效用 Roam?免费分享 Roam Untangled 作者 Jamie Miles 的几个小技巧
如何安装 Python 运行环境 Anaconda?(视频教程)
如何用 Python 和决策树预测广告点击行为?(云环境视频教程)
参考资料
[1]
如何把你的想法一键变成图画?: https://mp.weixin.qq.com/s/E_rN2ZhuP2AOrSn5HCuoTA
[2]Text to Image Art Generator: https://creator.nightcafe.studio/text-to-image-art
[3]Text to Image Art Generator: https://creator.nightcafe.studio/text-to-image-art
[4]Text to Image Art Generator: https://creator.nightcafe.studio/text-to-image-art
[5]t.ly/D6PH: t.ly/D6PH