在ChatGPT、Midjourney、Stable Diffusion等新事物的作用下,不少人或多或少听说过Prompt的概念。
虽然OpenAI掀起的大模型浪潮再度刷新了人们对AI的认知,但现阶段的AI终归还不是强人工智能,大模型里的“知识”存储在一个隐性空间里,需要输给AI正确的指令,也就是过去几个月中频频被讨论的Prompt。
有人将Prompt翻译成“提示词”,也有人翻译为“激发词”。再感性一些,就像童话故事里的魔法一样,Prompt是AI时代的魔法,拥有它就拥有“巫师”一样的能力。
01 | Prompt是什么?
并不难理解Prompt的字面含义,可为何会出现Prompt这个概念?既然是ChatGPT炒热的新名词,不妨让ChatGPT自己来回答。
这个回答中规中矩,但还是可以提取到一些有价值的信息:一,Prompt继承了计算机编程里的命令行提示符,可以理解为控制AI的指令;二,在生成式AI的语境里,Prompt的价值在于引导,而非计算机里的命令。
打个比方的话:大模型就像是人类的大脑,知识被存储在神经元联接中,只有当你遇到具体的问题时,就像“你最喜欢的食物是什么?”大脑才会给出确切的答案,Prompt等于是一个个具象的问题。由此产生了一种流行的说法,即提问比回答更重要。你使用ChatGPT所遇到的“边界”,实际上是你自己的“边界”。
但Prompt的价值体现,并不在于ChatGPT代表的对话机器人,而是Midjourney为首的图像生成类应用。
简单来说,你要告诉AI想要什么样的图,想要把自己脑海里的东西变成肉眼可见的图案,需要几十个单词作为Prompt。哪怕只有一个提示词的差异,AI所生成的图像都可能有着质的差别,怎么正确地给AI投喂Prompt,逐渐成了一门深奥的学问,并衍生出了提示语工程学(Prompt Engineering)的说法。
以至于在衡量大模型的能力时,出现了三个标准:一是大模型的预训练水平;二是用来进行预训练语料数量和质量;三是提示语的水平。直接的例子就是外界对文心一言文生图的质疑,即使不考虑前两个因素,单单在提示词方面,就足以让文心一言和Midjourney拉开几条街的距离。
因为在文心一言上想要生成图片,普遍给的指令是:帮我生成一张XXX(这也是百度官方的示例),解析为Prompt时注定只有几个提示词,远不足以表达脑海里想要的画面;同样的需求给Midjourney,可能是十几个乃至几十个提示词,大模型可以更准确地理解并输出用户想要图案。
理解了这些差异,便不难读懂Prompt走红的原因。
目前大模型对算力的要求很高,以OpenAI的DALL?E为例,生成一张图片的收费约0.02美元,如果让不懂Prompt的人去调用模型,大概率会浪费掉一次次算力。何况当前想要生成满意的图片,需要不断重复调整,能否熟练运用Prompt,直接左右了大模型所能释放的生产力。
02 | Prompt 还能赚钱?
利用信息差赚钱向来是最容易做的生意,生成式AI也不例外,Prompt作为AI时代的魔法,已然成了不少人用来“赚钱”的生产资料。
第一种:直接售卖Prompt。
国外已经出现了PromptBase等明码标价的平台,涉及Midjourney、Stable Diffusion、DALL?E、GPT等多个模型,而且适用的场景越来越细分,包括音乐创作、儿童插画、油画艺术、人物肖像等等,即便是不擅长整理提示词的普通用户,也可以直接复制Prompt生成相对不错的作品。
其实国内也有类似的现象,一些商家早已在电商平台上兜售Prompt,也有一些人将Prompt做成面向垂直任务场景的应用,比如AI 写评语、AI写邮件、AI翻译等等,吸引刚需用户按月付费使用。
第二种:用Prompt换流量。
国内最早一批售卖AI课程的自媒体,多半将Prompt作为吸引用户付费的筹码;小红书等年轻人扎堆的平台上,早早出现了分享Prompt的笔记;B站、抖音等视频平台上,教用户使用Prompt的教程已不可计数。
个中逻辑并不复杂。Prompt是驾驭AI的“咒语”,但提示词本身并没有版权效应,或许直接兜售Prompt可以快速变现,终归是不长久的买卖。将Prompt作为涨粉工具,趁机吸引到可观的粉丝群体,在流量变相高度繁荣的互联网江湖,无疑更符合市场规律,也是Prompt被广泛讨论的另一重诱因。
第三种:靠Prompt“找工作”
正如前面所提到的,正确使用Prompt已经是提升生产力的前提,不单单产生了提示语工程,还酝酿出了一批“提示词工程师”(Prompt Engineer)。
国外一位名叫Riley Goodside的小哥,靠ChatGPT的Prompt快速涨粉,然后被硅谷独角兽Scale AI聘请为“提示词工程师”,据说年薪高达百万人民币;另一位名为Jason M. Allen的艺术家,则使用Midjourney赢得了Colorado State Fair周年艺术比赛……如果说计算机时代的能力密码是编程,在生成式AI席卷全球的当下,Prompt正悄悄成为数以万计打工人“傍身”的工具。
至少就目前来看,程序员群体里已经渐渐兴起两股风潮:一类人瞄准了OpenAI等大模型企业的API,想要坐在人工智能的副驾驶上创业;另一类人打起了创造Prompt的主意,想要利用信息差赚到第一桶金。
倘若ChatGPT的出现当真是所谓的iPhone时刻,围绕Prompt的生意其实才刚刚开场。
03 | Prompt 只是过渡?
相对应的一个问题是,Prompt是否是人工智能大众化不可或缺的一环?这个问题的答案直接影响着Prompt和Prompt Engineer的红利周期。
Open AI 的 CEO Sam Altman曾公开表示:五年后,就不再需要 Prompt Engineering。也许在接下来的一段时间里,我们仍需要提示语,需要去创造 Prompt,但生成式AI的发展速度可能超乎想象,AI对人类的理解力远未触达天花板。
可以佐证的是,第一代iPhone上市时还没有App Store,仅预装了浏览器、iPod、邮件等少量应用,想要安装其他应用,需要在电脑上安装iTunes,用USB线将iPhone连接到电脑……为了解决用户体验上的局限性,越狱工具和第三方应用商店应运而生,但在苹果引入App Store后,越狱工具渐渐被丢进了历史的故纸堆。
同样的问题询问ChatGPT,答案似乎客观了许多。
想要不用特定Prompt就能和AI流畅对话,ChatGPT认为需要解决四个挑战:
- AI需要更好地理解语境和连贯性,哪怕用户像《大话西游》里的唐僧一样喋喋不休,或者语无伦次,AI也可以准确理解用户的意图,这样就不需要精确的提示词,用自然语言进行提问。
- AI需要有丰富的常识和推理能力,即根据特定的信息和场景做出合理的回应,而非像现在的模型那样“对牛弹琴”,比如中文里的多义词、不同场景下不同含义的语气词,非常考验推理能力。
- AI需要理解和处理情感信息,这也是当前AI研究的重心所在。人的情感可以有很多种表达方式,文字只是其中重要的一种。在大模型不断向多模态演进时,视觉和声音是否也可以传递信息?
- AI需要有主动学习和适应能力。主动学习是指AI系统在学习过程中,能够主动选择最具信息量的样本进行学习,在数据稀缺的情况下做出更好的决策;适应能力是指AI在面临新的任务、场景或环境变化时,能够自我调整并优化其行为。
按照ChatGPT的标准,在Prompt消失的时候,势必已经进入到了强人工智能时代,目前还有很长一段距离。
Prompt及其衍生机会的消亡是一种历史必然,在时间上仍有很大的不确定性,也许会很快出现另一场技术爆炸;也许AI会进入新一轮的瓶颈期, Sam Altman的五年预期不过是“盲目乐观”。
04 | 写在最后
或许可以借用科技媒体《VentureBeat》的说法:现在已经到了AI艺术的转折点,未来的艺术家无论是自学成才还是科班出身,都需要有创造Prompt的能力,需要理解和学习数据科学,以及大模型的工作原理。
进一步延伸的话,需要有这些能力的绝不只是艺术家,任何职业、任何行业的工作都不可避免和AI协作,将人类的思考和需求注入给AI,不断更新、创造Prompt,将是大多数人必须要掌握的一种技能,就像现在必须要用输入法打字一样。