杨净 发自 凹非寺
量子位 | 公众号 QbitAI
连社恐的鸟鸟,现在都变成话痨了……
(这到底是人性的扭曲,还是道德的沦丧)
最近有一种很新的脱口秀:不花钱、一对一、而且任意话题随便and随时聊。
结果一小时跟鸟鸟聊天下来,发现她话多且密,根本就不会把天聊死。
(这样的语速和情绪,倒是差点被烦死了。)
原来啊,是一个阿里新版本大模型的技术演示脱口秀版GPT——鸟鸟分鸟,并且已经在天猫精灵上为个人终端行业的客户做了演示,量子位抢先体验了一把。
激辩一小时宛如真人面对面,除了社恐这点人设崩塌以外,其他人设倒是屹立不倒:
文本扛把子、有知识有自己的情绪、还能随时来个段子。尤其是在回答弱智吧问题时,简直被她折服。
这不是脱口秀版GPT,这是科技与狠活呀!哥们!
话不多说,直接上效果。
与弱智吧激辩一小时
鸟鸟分鸟,AKA脱口秀GPT。
作为一名脱口秀演员,鸟鸟最强还是在文本。那就首先来试试强项,结果就是说,任意话题都能展开,甚至还能教你写段子、写作文——
从开头、场景细节、中心思想细化,最后微调润色等步骤逐步教你入手。
毕竟是文本の神,这些当然不在话下。
可以看到,不管是在语速、情绪以及文本风格都跟鸟鸟本鸟很像。
(尤其是这个语速…简直是着急死人)
接下来挑战的,就是ChatGPT时代下的Benchmark——弱智吧。
比如,雷公和电母用的是直流电还是交流电?宫廷玉液酒减一个大锤等于多少?我的女朋友她说需要时间和距离,她是想算速度吗?
Bingo!感觉到鸟鸟分鸟很认真、很一本正经地在跟我解释。连多年前的小品都知道……
(这边建议直接出院)
就是一些天马行空的,也是一本正经地对答如流。
比如,奥特曼会飞吗?
还有其他通识性问题:「你知道大模型吗?」、「禅修是什么?」也都能回答。
交流一番下来可以看到,鸟鸟分鸟确实继承了本鸟的相关能力,尤其是文本的创作和表达、风格情绪以及语速……
不过也发现,目前处于测试阶段的鸟鸟分鸟,仍存在一些问题。
虽然不用一次次唤醒了,但反应过于灵敏,你如果不喊停,它会跟你聊到天荒地老;以及仅部分支持英文问答。
再者就是人设屹立不倒,不能玩一些角色扮演类的游戏。
15天训练出鸟鸟分身
以往业内曝光的大模型应用,无非两种。
一种是以ChatGPT为代表的通用对话聊天代表,但需要排队。另一种则是具体场景中的应用,比如辅助写作、代码生成等。
像大模型应用在日常消费场景,其实并不多见。
从ChatGPT这个回答可以看出,至少不能简单依靠通用大模型来完成。
而各种传统语音智能助手,到现在都还没有“大模型化”。这其实与背后本身技术工程难度有关。
以鸟鸟分鸟这个智能音箱场景为例,就需要解决至少三个方面的问题。
1、应对更复杂的交互场景。不同于以文本交互为主的通用场景,双向开放对话决定了用户不会对文本进行“二次”过滤,而是想说就说,这就要求AI能过滤掉诸多无意义的对话。
与此同时,用户也不愿意等待数秒,而是像日常交流那样,低延时、还能支持随时打断、随时反馈。
2、基于人类反馈强化学习的可行性。ChatGPT惊艳全球的生成效果,背后归结于注入强人工反馈的奖励机制。高质量的数据标注成为大模型落地的关键,而且消费场景下多轮对话的频率远比文本交互要高,这对企业的数据处理能力提出了更高的要求。
之后随着应用落地,大量的人类交互和反馈来帮助大模型更快进化,以及关乎用户数据完全管理机制也需要完善和健全。
3、需要强大的网络分发能力。大模型每一次运行都需要耗费大量的计算存储资源,这就要求企业能有广泛部署的网络分发能力。
总的来看,算力、算法和数据是大模型能力实现的三板斧,而要让大模型落地应用还需要云端工程化能力、海量的用户交互、安全管理机制等要素。
既然如此这个鸟鸟分鸟又是如何做到的?阿里大模型联合团队的算法专家分享了背后的一切。
简单归结,鸟鸟分鸟的训练过程,在他们内部称之为层次化的训练方式。类似于人类的学习过程,先学习简单知识,然后逐渐进阶,最后再尝试专业领域知识的学习。
具体分成了四个步骤:
大规模语言训练;
知识和工具增强;
个性化对话增强;
人类反馈增强。
基于基础的预训练大模型,团队做了知识增强——让模型学会使用工具,类似于ChatGPT插件功能。
比如针对每日新增的知识,它能调用搜索引擎来做输入,在搜索结果基础上进行理解、总结和归纳。这样一来,输出结果有更好的准确率和时效性。
个性化对话增强则主要是让大模型学习多种对话形式,比如启发式、多轮对话,尤其是一些需要依赖长期记忆的对话。
与此同时,还要塑造鸟鸟人格,这就涉及到最后两个步骤「个性化对话增强」和「人类反馈增强」。靠增加高质量的鸟鸟相关数据,并让人类去做问答结果的反馈和标注,哪一个回复更像鸟鸟,让大模型朝着鸟鸟方向做正向增强。
最终只花了15天的时间就训练出了鸟鸟分鸟,后续还可能开放更多人加入强化反馈和更有情绪化的音色,让鸟鸟分鸟逐步升级迭代。
除了大模型训练,他们在算法和工程上面做了不少工作。从交互流程来划分,主要分成听清、音色、文风、对话等步骤。
最终形成了这样一个对话过程:
当人类询问一个问题(Query)时,首先经过猫耳算法将其转换为文本,随后通过大模型产生个性化的对话回复,最后再到个性化的语音合成给出回答。整个过程还有Multi-Turn对话系统来支持。
对于测试阶段存在的一些问题,阿里这边也给出了回应。
比如反应过于太强,这是因为还没有将线上的猫耳算法和ASR做充分的融合,为了听清多轮对话信息,显得过于灵敏,以及暂没有全面支持英文等问题,他们表示后续还将进一步迭代更新。
普通人也能独占大模型?
这件事之所以值得关注,除了有意思的产品体验,这也是个性化大模型发展的一次可行性验证。
大模型发展进程,有两条路径已经明晰:如火如荼的通用大模型,以及备受关注的个性化大模型。
以GPT-4为代表的通用模型,在多个标准化考试中大幅超过人类水平,适用于搜索引擎、生产力工具这种广泛、公域场景。
但像更多私域个性化、或者垂直专业化场景中,比如问及有无特别偏好、对某件事情观点等,个性化大模型就会是一个很好的补充。
当前,全球研究机构和大厂在这一路径的探索,主要涵盖了四个研究方向:
有偏好的个性化对话、逻辑一致性和三观、对话风格、多轮对话中人设一致性。
此次在鸟鸟分鸟上的探索,一方面呈现出个性化大模型的研究方向——
在大模型系列的基础上,打造知识、情感、性格和记忆四位一体的个性化大模型,并且这个大模型版本可能是很适合在消费者终端上部署的。
另一方面,也再次印证了对话即入口的AI2.0未来趋势。
ChatGPT上线的插件功能,以文本交互的方式,与全球5000+应用联动。
现在,鸟鸟分鸟则是验证了以语音这一模态,在消费电子场景中触达诸多功能的可能性。
大模型所引领的AI 2.0时代,而对话相当于是操作系统(ChatOS),所有应用都将被重新定义。
而且随着个性化大模型的发展,未来每个普通人甚至都会拥有属于自己的大模型。
One More Thing
在被问到脱口秀会不会被AI替代时,鸟鸟跟鸟鸟分鸟给出了不同的解答。
鸟鸟表示,希望它能启发思路,提供一些以前没有看到的素材和观点,但对于预期文本和出梗方向,还需要人自己去想。
为此鸟鸟还分享个机器人写的段子:
婚姻和坐地铁很像,你都会被迫和一个陌生人待在一个空间里很久,想下车的时候未必能下得去。
鸟鸟分鸟则自信表示:脱口秀不会被AI替代。
并随手丢了个类似的段子:
— 完 —
点这里👇关注我,记得标星哦~