点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
编辑丨极市平台
导读
AI在我们的生活中,越来越不可或缺。显然,谁能更好地掌握提示工程,就能比别人多掌握一个强大的利器。
ChatGPT的爆火,也让提示工程师的薪水水涨船高。
现在,已经有人拿到25万到33万美元的年薪了。
21世纪的重要技能:提示工程
以迅雷不及掩耳之势,人工智能军备竞赛已经打响。
谷歌发布了基于大规模语言模型LaMDA的搜索聊天机器人Bard,微软公布了由ChatGPT驱动的下一代Edge浏览器以及全新的搜索引擎必应Bing。
尽管大型科技公司这些年来一直都在悄悄地开发自己的生成式人工智能工具,但自从OpenAI的ChatGPT迅速走红之后,这些巨头们便开始争先恐后地向公众展示自己的能力。
而生成式AI这项技术,也被认为注定会成为从搜索引擎到故事编写、科学研究、家庭作业、学校教学等等创造性或重复性工作的替代品。在这一语境下,它将重塑这个世界。
如果这种人工智能范式的转变真的到来,那么21世纪的一项重要技能就很可能是如何有效地与机器对话,或者也可以称之为「提示工程」。
像DALL-E 2和Midjourney这样的图像生成模型,以及像ChatGPT这样的文本生成工具,都将是一种创造的手段。但成功利用它们的前提是,我们先要了解如何引导AI实现预期的结果。
比如,要求ChatGPT写一份关于《动物农场》的五段式读书报告,可能会产生令人印象深刻,但并不准确的结果。
但如果给AI一个明确的提示:「用优雅的散文写一篇大学水平的五段式读书报告,借鉴讽刺性寓言小说《动物农场》的历史。参考奥威尔的《我为什么要写作》,同时解释作者在小说中的风格选择」,便可以产生一个更加成熟和有说服力的输出结果。
可以说,好的提示不仅仅是具体的,而且还反映出了你想要让AI做什么的更深层的理解。
全新的职业:提示工程师
美国知名作家Charlie Warzel分享了他和自己8岁的侄子,在去年夏天一起体验Midjourney的故事。
他们原本是想创造出一个令人愉快的场景:「一只跳蚤在海啸的浪潮中冲浪,与一只巨大的黄蜂搏斗」。
但结果却是,跳蚤在最开始看起来不够卡通,而经过这位作者调整后又太过于超现实,完全超出了他侄子那个年龄的接受范围。
这位作家表示,虽然自己以写作为生,但很显然,他在指导AI时所要的描述还是太含糊了,至少对于AI来说是这样的。
不过,就算搞不懂如何与AI对话也没关系,因为现在有了一个全新的产业可以帮你玩转AIGC——「提示专卖店」。
比如,在网站PromptBase上,你就能以非常低廉的价格,买到让AI稳定输出某一主题的prompt。
网站地址:https://promptbase.com/
在这里,从DALL-E到Midjourney再到Stable Diffusion,各类的提示应有尽有。
PromptBase上最火的prompt之一,就是用DALL-E 2以黏土风格生成的可爱3D emoji。
或者花2.99刀,就能让Stable Diffusion无限生成风格相似的电影女主角。
PromptBase排名第六的卖家,是一位昵称是叫Imagineer的西班牙人,他表示,提示工程只是一项副业,毕竟自9月以来他只赚了800多欧元。「对我来说,这更像一个游戏。这些prompt都是我的小宝贝。」
Imagineer的提示写作过程是以设计、插图和摄影的知识为基础的。
当被问起为什么认为自己擅长写提示语时,Imagineer认为这是自然技能和策略的融合。他说:「我意识到,我比其他人更擅长与Midjourney交谈。而且在Midjourney中,经验可以服用,比起DALL-E 2和Stable Diffusion,较少的努力就可以产生巨大的成果。」
Imagineer表示,其中最关键的因素就是迭代,当你产生大量的图像,并改变一些词语或参数时,一个好的提示「会产生一致的、可预测的结果」。
而在提示工程中,对相关领域专业知识的掌握,也是必不可少的。
Dan Shipper是一位企业家兼作家,自从ChatGPT在11月发布以来,他一直在使用ChatGPT来辅助撰写博客文章,文章主题是人工智能工具的未来。
当他需要描述一个概念时(比如说,写一篇关于失宠的加密货币CEO Sam Bankman-Fried的文章时,需要用到有效利他主义的哲学理论),他会要求ChatGPT用几句话为普通读者总结出有效利他主义的关键点。
ChatGPT输出文本之后,Shipper就会检查文本是否准确,然后用自己的修辞手法使句子变得更漂亮。
Shipper表示:ChatGPT让我跳过了一个步骤,但前提是我知道自己在说什么,这样我才能写出一个好的提示,然后对才能对输出的内容进行事实核查。
Shipper把提示ChatGPT的工作比作管理一个聪明而热心的初级雇员。
ChatGPT热情、熟练,但也缺乏经验,因此更有可能犯一些细微但关键的错误。当它不知道答案的时候,它就非常擅长胡说八道。
Shipper总结道,品味和经验是创造一个成功的prompt的必要条件。
比如,他会让ChatGPT为他正在写的一篇长文,写一个令人印象深刻的、透彻的大纲。
「我写了一堆要点,然后告诉ChatGPT:这是我积累的各种名言、想法和短语。然后我写道:你能不能把它写成一篇论文的大纲?」显然,Shipper在微调提示方面做的工作越多,产出就越好。
有时,提示写作本身就让人有一种特殊的喜悦。
Meg Conley是一位在业余时间使用AI工具的作家,她认为提示工程是一种挑战,类似于写作一篇有说服力的文章。
「提示工程非常困难,常常失败。」 她在11月的推特上写道:「当文字组合出的东西看起来有点像你脑海中的世界时,就会有纯粹的快乐」。
但Conley的经历比较特殊。她患有心盲症,因此想象图像对她来说很困难。在Midjourney发布后,她时常熬夜描述自己想象中的事物,不断打磨prompt,直到产生的图像变得正确。
在Conley看来,最重要的就是要了解你面前这个模型。每个工具都是以不同的方式建造和训练的,因而它们具有独特的美学和方言,就像共享一种语言的人会有方言和文化怪癖一样。
「就像写散文与学术写作不同一样,听众不同,就会有不同的语言表达方式。」
「我见过真正擅长DALL-E 2的人,似乎借鉴参考资料和雅俗文化混搭的能力越强的人,就越擅长。但我构思世界的方式更多的是沿着Midjourney的模式工作。」
随着时间的推移,Conley已经非常熟悉Midjourney的操作顺序。
在Midjourney中,如果你在形容词红色之前输入女孩这个词,它就会更关注女孩而不是红色。
当有更长的提示时,它就像一个谜题,你需要去解迷,知道哪些术语应该被给予更多的重视。
聪明的老师,已经在训练学生用ChatGPT了
虽然很多老师把ChatGPT视为洪水猛兽,但是已经有一部分开明的教授认识到:学会用prompt是学生们在学业生涯中必备的一项技能。
宾夕法尼亚大学教授Ethan Mollick在教一门「创新和创业」课,在ChatGPT发布后,他修改了教学大纲。
在他的一门新课中, Mollick要求他的学生把ChatGPT想象成一个学生,并通过prompt来教这个机器人,让它写一篇关于特定课程概念的文章。
在这个过程中,学生们必须像教授一样,帮助ChatGPT完善这篇文章,直到让它看起来已经完全掌握这个主题。
Mollick希望,这个练习能帮助学生通过解释来学习,还能让他们学会写出灵巧的提示语。
在Mollick看来,提示工程是一个处于语言学和解决问题之间的地带。
「提示就像是用散文编程,会产生奇怪和随机的结果。而好的提示会奖励那些能够快速找到实验方法的、具有发散性思维的人。它奖励的是有深度好奇心的人。」
并且,ChatGPT也会对更深层次的技术知识给出奖励。
在Midjourney的Discord服务器上,有一张引人注目的图片是,它是用下面这个详细到痛苦的prompt生成的。
形而上画派的风格,用彩色铅笔绘制出顺畅的阴影和混合,日出照映在深山老林的池塘中,柳树的枝桠挂在池塘的边缘,喜怒无常,强烈的情感,深刻的透视,自然的照明,超精细,超级高的对比度,复杂的细节,摄影,光线追踪,octane render,虚幻引擎 --ar 3:2 --s 999 --chaos 50 --v 4 --v 4 -
其实,这个过程不仅仅需要具体性,好的提示往往会显示出对用户复制媒介能力的意识。
Octane Render和虚幻引擎是制作3D图形的数字动画工具。
而像「-- v4」这样的输入,是在指示Midjourney使用这个模型更新、更强大、实验性的版本。
为什么某些提示可以生成逼真的图像?因为它们会要求模型模仿特定的相机或镜头,或者运用了一些艺术史或特定艺术风格的知识。
这不禁让人想起搜索的早期,在那个时候,能够驾驭布尔运算符、作者、关键词、来源和日期范围搜索的专家,就可以解锁更好的结果。
当然,如今的搜索引擎,早已变得不再那么苛刻。
为了迎合大众,谷歌的工具已经变得更加强大,让用户可以通过简单甚至笨拙的查询,就能获得高质量的结果。
在Mollick看来,提示工程只是一种我们与人工智能互动的基本方式,我们的目的是,让它们通过赤裸裸的提示,或者其他未知手段,来合成我们想要的东西。
他的看法很可能是对的。
某些看过Open AI未公开的GPT-4模型早期测试的人说,它就像科幻小说中的东西,等它出来之后,一切旧工具都会过时。
微软的发布会已经为我们展示了这样一种可能:聊天机器人会像个人助理一样与我们交谈。
你不需要搜索本田奥德赛有多大,以及宜家Klippan沙发的尺寸。你可以直接问它:宜家Klippan沙发能装进我2019年的本田奥德赛吗?
即时工程可能只是一座桥梁,让我们进入勇敢的新世界,不管接下来会出现什么样的生成媒体景观,但现在,我们还很难知道这在多大程度上属于炒作。
而现在,Warzel表示,在范式转变之前,自家仍然被人工智能的提示所吸引。
在他看来,这些提示通常比它们的产出更加耐人寻味。
当人们分享人工智能生成的艺术或文本时,他们经常会把prompt一起分享出来。
在指令和最终结果之间来回穿梭很有意义,甚至让人感到一种亲密。
这种感觉有点像允许你进入ta的大脑,看ta是如何把不同的知识点拼凑在一起,如何推理出一个问题,如何运用ta的创造力,来产生一些意想不到的东西。
就像写作和编码一样,提示工程是一种新兴的思维形式。
它介于对话和查询之间,介于编程和散文之间。
它是这个快速变化的、不确定的未来中的一个部分,让人感觉到非常「人类」。
参考资料:
https://www.theatlantic.com/technology/archive/2023/02/openai-text-models-google-search-engine-bard-chatbot-chatgpt-prompt-writing/672991/
点个在看 paper不断!