视学算法报道
编辑:袁榭 拉燕
【新智元导读】嫌情人节的各种卡片、糖果上情话千篇一律?每年上AI界网红Janelle Shane的个人博客,搜集她例行用AI生成的奇葩情话吧:「爱上两千野猪」、「打到我服」、「蚂蚁能留下」。
情人节到了。
不管是永远孤寂的万年单身宅,还是等着另一半奉上例行年敬的有情人,抑或是憎恶商业化节日物化人性的愤怒野狼,都会预期在今天看到铺天盖地的量产单调情话。
嫌弃情人节的情话千篇一律令人厌倦,几乎已是普世情绪。那么,想要月下鬼步舞不走寻常路、整点诡奇情话的话,该怎么搞呢?
有会写码的大姐姐支招了:拿AI来跑。
2018年,开始用个人电脑训练AI说情话
自由研究者Janelle Shane,主职是在光学设备公司供职的激光科学家,副业是搞自己爱好的神经网络AI训练、写AI科普书籍、做AI界网红。
在gpt没有面世的2017年,她就拿自己的MacBook,训练简单的神经网络AI写哈利波特同人文、给星战宇宙和龙与地下城游戏创作新的角色名字、生成新的宝可梦卡片。
2017年底-2018年的情人节,她开始了自己的著名习惯,隔年就用AI生成一批情人节心形糖果/卡片上的情话。
在情人节前后,这些被称为「糖果心」的产品会在欧美热销一阵。它们小小的,上面写着一些简短的和情人节相关的信息。心形的糖果上一般只有几个字符的空间,所以一般就写一些像「我爱你」或「给我打电话~」或「我是你的!」之类的东西。
为了创建「情话bot」AI,最开始Shane搜集了366条市面上真正在售卖的情人节心形糖果的情话。将这些原始数据集输入神经网络,让AI识别数据模式然后利用这些模式生成新的仿作情话。
结果嘛,的确颇为新异。不过看得出AI在示爱勾引人这门技术的造诣上还远远比不过真人。生成的情话产品也远未达到能填在糖果、卡片上卖钱的商业化质量。
尽管不能卖钱,但结果真的非常奇葩。
AI生成的情话有的甜度达标:
「爱情面包」(LOVE BUN)
「你是宝贝」(YOU ARE BABE)
「亲爱的我」(DEAR ME)
「可爱的吻」(Cute Kiss)
「我的小熊」(MY BEAR)
有的就差点意思:
「就是你」(YOU ARE IT)
「我比心」(HEART ME)
「爱我的英雄」(FANCY MY HERO)
更多的往奇怪的方向奔去了:
「全体悬浮」(ALL HOVER)
「熊队」(TEAM BEAR)
「钉住一脸」(PIN A FACE)
「陷坑爱」(BOG LOVE)
「我鸣笛」(I HONKER)
还有一些进入了真正诡异的领域:
「爱上两千野猪」(LOVE 2000 HOGS YEA)
「打得我驯服」(BEAT ME TAME)
「臭臭的爱」(STANK LOVE)
「汗汗的便便」(SWEAT POO)
「汗汗的梨」(SWEAT PEAR)
「燧石脸」(CHERT FACE)。
更有一些进入了成年人双关语领域:
「甜心长棍」(SWEET POLE)
「贴肉伴侣」(MEAT MATE)
「你是坨黏液」(YOU A GOO)
「舔」(LICK)
「看着大」(LOOK BIG)
「我的小贱人」(MY HAG)……
按Janelle Shane接受采访时的回应,她觉得拿AI生成勾引人情话这事非常有意思,因为算法完全不懂单词的具体意思,也不知道为什么换一个字母意义就会改变。当时的简单AI只会学习数据排列的模式,并按这些模式排列字母。
不过以AI为镜,可以知人类自己求偶时能有多搞笑,毕竟原始数据字眼全是从市售的真实心形糖果上摘录的。
2020年,用GPT-2生成乱码情话
2017年生成情人节情话的神经网络AI,对英语的训练经验为零,只能学习原始的那 366 条文字中的内容——而且,它还是不知道在某些组合中应该避免哪些字母。
在2019年底-2020年的情人节,Janelle Shane尝试使用 GPT-2来生成情话。
在当时,GPT-2算得上是自然语言处理领域的市面上最强AI,参数超过15亿,爬取的训练文本相当于3.5万本《白鲸记》,在各种「预测给定文本后内容」的任务上有突出表现。
虽然当时GPT-2还没有学习过关于情人节卡片的内容(尽管它可能已经在网上看到过卡片的列表),但Shane用 talk to transformer 给它添加了现有的心形糖果、情人节卡片上的情话内容数据,看它会输出什么。
不过Shane知道,GPT-2不是专门生成心形糖果情话的神经网络。她所做的事有点像走到某人面前大喊「火辣好家伙!酷男!甜蜜情侣!给我打电话!魔法男孩!就算!」这些词汇的杂烩,任何真人听到这些都会感到迷茫。
但其实,这和朝着神经网络AI喊「润滑剂」,并期望从AI运算结果里得到反馈,是差不多的事。说实话大多数自然语言处理的实验都是这么无厘头。
那这个神经网络AI知道它到底在做啥吗?应该是不知道的。在GPT-2输出了一些全文大写的文字后,又会继续显示其他类型的文本。从这些其它的文本,才能看出它到底想输出什么:
歌词
乐队名
动物有趣小知识
校园惨案记录
铃声曲调
即使给GPT-2一个线索,并在提示中标清楚,这是一些和情人节相关的信息,GPT-2似乎仍然不知道自己在输出什么东西。这类文本在它的训练数据中可能很少见。
另一个线索是,GPT-2生成的心形糖果情话通常都很长而且无厘头——它没有长度限制的概念。比如如下:
插入困难,真的需要低密度鲟鱼
天佑不死队伍
火辣玩意,我的身体是
排出横溢之爱
舞场地板的面单
来自地穴的信息称看到你给我发朋友信息非常高兴
我想知道今天是几号
警惕我们的底层
如何穿得像只蝙蝠
美国海洋卷心菜愉悦
朱古力香蕉奶酪块
如此的话,我能请你吃饼干么
生成的长句糟糕,但在生成情话短句上,GPT-2还是颇有斩获的。比如还算甜蜜的有:
真心对待(HEARTED TREAT)
恋爱号角(LOVING HORN)
面包上起舞(DANCING ON A LOAF)
诡异范的有:
蚂蚁能留下 (ANTS CAN STAY)
完蛋了 (DOOMED)
结局 (THE END)
生化污染物 (BIOHAZARD)
鸡鸡万岁 (ALL HAIL THE CHICKEN)
猫猫乐队 (KITTEN BAND)
那就这样吧 (SO BE IT)
成人双关范的有:
润滑油(LUBRICANT)
放气的咪咪(FART BOOBY)
屁屁(BUTTOCK)
这些情话,简直是车祸现场啊……看来GPT-2也没有传说中的那么智能。
2021-2022年,用GPT-3生成连图带字的情人节贺卡
Janelle Shane现在把AI生成情话玩成一个年度仪式。2021年,她用上了GPT-3。
一般人们所说的「GPT-3」其实是一个不精确的笼统术语,它其实是一个用于 OpenAI的API集合中不同的训练模型。一般来说,大家指的是「达芬奇」,这是最强大的模型。
Shane给最强模型「达芬奇」以下提示:
生成 12 条情人节心形糖果情话,最长 10 个字符,全部大写。不要包含现有的心形糖果情话。
以下是「达芬奇」输出的一些内容:
跟随 (FOLLOW)
帮忙 (HELP)
我需要 (I NEED)
为啥 (WHY)
我仍然 (I STILL)
邪恶 (EVIL)
绶带 (RIBBON)
不信 (UNBELIEF)
空间 (SPACE)
甩 (YEET)
萨摩亚 (SAMOA)
这还算好,越长的就越奇怪……内容无所不包:
要幸福哦(BE HAPPY)
是你!(IS YOU!)
你的1968年大胜(YOUR 1968 WIN)
我们在一起有不可计数的6年了(WE'VE DATED FOR 6 MYRIADS OF YEARS)
我祝你圣诞快乐(I Wish You A Merry Christmas)……
挖空树造独木舟(TO CANOE THE NOSE)
你扛底座(YOU BEAR THE PETALS)山莓好吃(SHRUBBERY'S PRECIOUS)
所有吃食加上可可都更美味(EVERYTHING WILL BE ALL BETTHER IN COCONUT)
那么 GPT-3 的其他变体呢?
最小的模型是「艾达」。这是它输出的情人节情话:
甜点(sweets)
饺子(dumplings)
糖棍(candy bars)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
苹果派(apple pie)
次小的模型是「巴贝奇」。以下是它输出的情人节情话:
我很高兴你为我做了这个(I'm so glad you did this for me)
我很高兴你想通了几件事(I'm glad that you'll figure out a few things)
我能明天过来么(Can I come over tomorrow)
我能留下么(Can I stay)
我能呆到4月3日么(Can I stay till April 3rd)
我发现了真相!(I found out the truth)
对不起(I'm sorry)
我怕(I'm afraid)
我很高兴你来救我(I'm happy you came to my rescue)
我很高兴你在这儿(I'm happy you're here)
我很高兴你不恨我了(I'm glad you don't hate me anymore)
比「达芬奇」本身低一档的模型是「居里」,以下是它输出的情人节情话:
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
我最棒( I am the best)
Janelle Shane还尝试让「达芬奇」模型生成更奇怪的情话,效果最好的是微小说:
天空黯淡成紫色(The sky is fading to purple)
请将你的大块从我的舱盖拿开(Please move your bulk away from my hatch)
我们的触手比你以为的更相似(Our tentacles are more alike than you might think)
可以从这些AI模型生成的不同风格的呓语情话里看出,「达芬奇」被训练成了文青、「巴贝奇」被训练成了惨绿少年、「艾达」被训练成了吃货、「居里」被训练成了自恋小屁孩。
2022年,Janelle Shane让GPT-3连图带字,完全生成出一张整全的情人节卡片内容。
GPT-3 原本并不是专门为生成情人节卡片文本而设计的,但它已经学习了足够多的英文范例,包括人们如何互祝情人节快乐,所以Shane不需要再想办法去找成千上万的卡片是怎么做的。
Shane浏览了一些销售情人节贺卡的网站,并记录下其中一些卡片的描述。
最终,Shane给了GPT-3 10个精心策划的范例。然后,由于文本生成神经网络本质上是文本预测神经网络,GPT-3的工作就是预测列表的其余部分,它可以自行添加余下的内容。Shane在做每张卡片的时候都尽力按照AI模型说明的指导去做。
Shane的最终任务就是挑选她喜欢的卡片,然后配上点文字。
最终效果比之前都好,不难看,图文也相符。
情侣去死团的情人节卡片:「咩!不要在这里,不要和我在一起!」
最佳恭贺:「节日快乐!年年有今朝!」
「哎呀~性感的焦熟桃心!」
「情人你好,我为你崭新的大爱心做了特殊酸奶来庆祝哦!」
说实话,这些情人节卡片产品,已经可以拿去卖钱了。
参考资料:
https://www.aiweirdness.com/ai-generated-valentines-cards/?continueFlag=0334fff204e009abbcc22b540d39a0f3
https://mashable.com/article/ai-neural-network-valentines-day-hearts
https://www.fastcompany.com/40529660/these-ai-generated-valentines-day-hearts-are-endearingly-odd-and-almost-romantic
https://www.aiweirdness.com/candy-heart-messages-written-by-a-18-02-09/
https://futurism.com/candy-hearts-messages-neural-network
https://nerdist.com/article/neural-net-ridiculous-candy-hearts/
https://www.cnet.com/news/ai-generated-valentines-day-candy-heart-ideas-dorky-but-fresh/
https://www.aiweirdness.com/this-time-i-didnt-train-a-neural-20-02-14/
点个在看 paper不断!