90后的我们,是AI时代的见证者。20后的小孩,才是AI时代的原著民。当ChatGPT们改变着大人的工作方式,我觉得,是时候让孩子们的玩具也更聪明些了吧。于是,在六一前夕,我用市面上的AI语音对话套件给娃DIY了一套她人生中首款搭载了语言大模型的对话玩具,并在深度体验后对AI玩具有了一些新看法。
AI对话玩具的原理类似于智能音箱,以STT + LLM + TTS架构为主。玩具会先把用户的语音转换成文字信息(STT),该文字信息交由语言大模型后生成反馈性的文字信息(LLM),文字最终又会被转换成语音信息发送给用户(TTS)。这就是基本的工作流程。
我选用的是FoloToy设计的八爪鱼AI套件。该套件提供了一个小型电路板以及成熟的AI语音对话方案。用户可以根据自己喜好设计适配的玩具外壳、定制专属的提示词。需要说明的是,该套件出厂前已经内置了若干卡通形象,用户根据其官网的步骤是可以直接进行对话体验的。而更为灵活,更具个性化的配置,例如,定制人物形象的“角色提示词”、定制人物的开场白、定制人物的音色、选择AI大模型类型等,才需要用户进入到“自建服务器”模式下进行操作。此模式才是最具趣味性的,我的玩具定制也是基于此。
我的想法很简单:在“自建服务器”模式下写入专属提示词,首先让玩具记住我孩子的名字,这样玩具和孩子交流的时候就会显得相互很熟络也有互动感;其次,让玩具“伪装”成孩子最喜欢的一个动画角色,并且以该角色的立场来回答问题,这样就增加了孩子对玩具本身的热爱程度。
但就是这个“自建服务器”模式,对非技术人员非常不够友好。它需要用户会独立进行服务器部署。虽然官网提供了详细的教程材料,但是文章里全是黑话和暗语。"VPS"、"Debian"、"全局使用"、"TCP端口"......正常人就不可能看懂嘛。市面上很多类似的教程都是如此,它们都是建立在一定专业知识储备基础上的,而从过往的经历来看,这个壁垒就是我获取新知过程里最大的阻碍。
当然,现在不一样了,AI帮我踏平了这个鸿沟。我利用国产“ChatGPT”的王者:Kimi,很容易就搞清楚了FoloToy教程里各类名词以及它们之间的关系,不需要花里胡哨的提示词,直接问某个名词是什么意思即可。如若还不理解,让其用类比的手法来解释下就基本能满足临时学习的需要。遇到某些确实复杂的知识点,再加上一些追问就更易理解了。余下的就是根据视频教程傻瓜式的模仿操作,具体过程不再赘述。结果就是,熬了两个晚上,我几乎是一次性完成了服务器的部署。尽管如此,我依旧建议,如果能让用户以更简单的形式定制prompt:优化说明文档、降低定制prompt的使用门槛,必定会扩宽更大的用户群体。
按住对讲按钮,冰冷的电路板突然就可以让我和AI进行对话了,作为小白,这进度也直接惊艳到了我自己。AI时代,知识壁垒真的正在消失,阻碍人类获取新知最大的障碍可能只是自己的意愿。
完成了服务器部署基本就是解决了整个DIY过程里最难的一部分。剩下的就是根据设想写一段独一无二的提示词,最后再配上一个喜欢的玩具外壳。新一代的AI玩具就诞生了。
作为初代的AI玩具,我对其效果还是很满意的。体验下来,它是真“聪明”。不仅能轻松招架孩子的十万个为什么,还在于,它的答案不乏风趣和童真,比大部分成人回答的都好。相较于某某兔们极为有限的对话空间,AI玩具甚至在对话过程中会带出孩子的小名,这让其更显人性。当然瑕疵也存在,如延迟高、说话没有任何感情,这些从技术角度上讲后面都能解决。反而我发现,当前通用语言大模型固有的一些缺点:无法处理复杂流程、“七秒钟”的记忆、文本长度的限制等,在AI玩具的场景下,反而不会是问题。短文本、低轮询是对话类玩具的特点,这样的场景非常契合语言大模型的功能特点。语言大模型真的很适合“对话”型玩具,玩具搭载AI大模型将是一个必然的趋势。
但语言大模型本身也并不是灵丹妙药,因为prompt决定了玩具到底灵不灵。现在我手里的初代AI玩具的效果强依赖于提示词。但有过AI使用经验的人都知道,语言大模型并不是一个有着清晰逻辑的线性控制系统。虽然你给它设定了一堆约束,但模型依旧会“跑题”,我在使用过程中就不止一次碰到了“会讲故事的老师”说自己“我是Kimi,你的人工智能助手”。这说明,普通用户用提示词将模型固定成单一的形象这个行为本身并不太靠谱。更不用说,提示词没优化好出现token不够用的健忘行为。当号称智能的玩具一旦失手一次,就很难挽回挑剔的小孩。从这个角度讲,更具商业化的AI玩具应需要微调过的垂直类大语言模型和更专业的提示词来保证效果的一致性。这些可能需要大厂或者大资金的参与,而未来,开放prompt词可能不会是一个主流的做法。
AI玩具的核心竞争力也不是大模型而是差异化。其实,当终于可以在玩具上定制我想要的形象时,我反而不知道该如何制定一个与众不同的prompt了。无外乎是,会讲故事的叔叔、能解惑的老师、可以讲笑话的姐姐等传统儿童对话机已有的或包含的形象。而从孩子的角度,这个AI玩具似乎没有什么特别的改变,她可能甚至都没能感受出这个玩具更“聪明”了。低龄孩子本身就处在善恶对错的探索期,让他们感知到“聪明”一点似乎还有点强人所难。于是,当我将“用心”调教过的玩具拿给我孩子后,和大多数传统玩具一样,她先是好奇地玩了几次,后来就再没有碰过。
玩具的变革,AI技术是底层驱动力,创新才是最直接的推力。简单的语音对话,只能是AI玩具最初级的形态,可以预想到,搭载了AI大模型的智能硬件在未来还有很大的发展空间。市场上已经出现的虚拟女友、亲人数字分身等应用,在赋予其硬件真身后,会充满了想象,这些都可能是未来AI玩具丰富形态的一种。简单模仿和改变,是初期时的探索和试验,想做出好的AI玩具可能还需要时间和想象。
但我依然觉得,大模型驱动下的玩具产业大有搞头。技术上,需要更多微调过、适用儿童教育的可控模型。产品上,则需要更多传统产品人进来“蹚浑水”。当前,AI玩具的技术门槛其实并不高,FoloToy是敏锐的先行者,凭借几款经典产品在圈内已是风头十足。值得警惕的是,面对拥有更多资金和用户基础的传统厂商,留给它的时间真不多了。