数字人的生死疲劳

你看好数字人吗？

这个问题在今天似乎颇难回答。如果从宏观趋势上看，数字人的利好要素似乎已经达到了一个空前的高度。比如有市场分析机构预测，到2026年中国AI数字人的市场规模将突破100亿人民币，整体市场呈现高速增长态势。又比如今年7月，北京发布了《北京市促进数字人产业创新发展行动计划（2022-2025年）》（以下简称《行动计划》），这意味着数字人产业迎来了中国首个专项支持政策。《行动计划》中甚至提到，到2025年北京市数字人产业规模突破500亿元。

但如果我们从微观上看，又会发现数字人的发展与应用并不是一帆风顺的。今年双11，大量商家开始放弃使用数字人；很多企业、机构的数字人员工、虚拟偶像，在发布之后就杳无音讯；数字人解决方案报价太高、维护太贵的声音不绝于耳；很多投入了大量宣发资源，被寄予厚望的数字人项目，极短时间内就丧失了流量。

如果说，数字人在2020年末到2021年，高速完成了从技术孵化到教育市场的创生期，那么在目前阶段，数字人则恰好处在从产业链搭建到大规模应用转化的过渡期。这个阶段，虽然整体市场依旧被看好。但从产业链到应用场景、接受情况中的一系列问题也暴露了出来。数字人市场，开始不能用简单的“好”与“不好”来评判。

速生速死，极限拉扯的数字人，不免让我们想起一本书——莫言的《生死疲劳》。

莫言说，人活着就是要疲劳。今天我们可以说，不光是人，数字人想要活着，也挺疲劳。

生于直播

讨论数字人的现状，我们必须先达成一个共识：什么是数字人？

一般来说，数字人是指具有拟人或者真人外貌、行为和特点的虚拟人物。这里的重点在于，今天很多人已经默认数字人是具有TTS语音合成、多轮对话、语义理解技术特征，由AI驱动的虚拟形象。但在整个产业发展的实际脉络来看，数字人长期以来都跟AI技术关系不大，或者只使用了比较初级的AI技术，比如语音合成。

最早的数字人，基本都是以虚拟偶像等方式出现的。就像初音未来、洛天依等等，基本是由动画设计+语音合成来实现。这时的数字人大多是作为展示，缺乏互动性，并且门槛很高，难以普及推广。

接下来，随着直播行业的发展，大量由真人配音，搭配TTS语音合成、唇形表型预测来实现的数字人开始出现。这时的数字人主要作用依旧是虚拟主播，但更多类似真人主播的一种“新型表演”，并不能从生产力上实现替代人类主播的作用。

当NLP、知识图谱技术不断成熟，数字人具备了多轮对话能力。同时机器视觉带来的唇形捕捉、面部捕捉技术愈发完善，由AI技术驱动的AI数字人开始出现。这时的数字人发生了最为深刻的一个变化：数字人可以独立完成人物，人工配音和真人扮演不再成为必备。这让数字人对齐了一个巨大的商业空间：在那些只需要简单对话、交互的工作中，由AI替代人类。

这样的工作有很多，比如AI数字人最早出现在企业园区中的导航、导览工作中。接下来，柜台服务、智能客服等领域开始出现数字人。尤其在金融、保险等领域，由于顾客的需求相对固定，且数字人不易出现人为错误。在这些行业薪资水平相对较高的前提下，数字人客服展现出了一定优势。

但与客服场景相比，真正让数字人火起来的，依旧是直播。从虚拟偶像到虚拟主播，直播始终都是数字人的天然温床，是数字人“生”的动力和希望。随着直播带货成为主流的电商消费形式，主播逐渐成了稀缺资源。很多厂商与品牌方，在近两年选择了全天候、多线路的高强度直播模式。而这就导致主播的需求压力激增。加上疫情导致主播工作不确定性增加、主播坑位费与雇佣费等成本增大等因素，让企业和MCN机构开始探索主播的替代方案。加上在目前的直播经济中，很多品牌方的直播需求仅仅是不间断宣讲信息、推出产品，工作门槛并不高，用AI代替人类主播就成为可能。

早在2021年双11，我们可以看到各个电商平台、直播平台，以及MCN机构的宣传重点，已经从直播带货能力，变成了虚拟主播、数字人的直播带货能力，以及综合成本优势。

另一方面，有问答互动能力，由AI驱动的数字人主播能够激发用户的猎奇感、新鲜感，因此直播市场普遍呈现正向反馈。这些反馈，支撑了今天大量关于数字人的政策支持与市场预判。

但生于直播，成于直播的数字人，有这样一个先决条件：数字人的应用成本，必须要比人类主播更低。

这是因为，作为替代品出现的数字人，归根结底问答能力、应变能力与才艺能力都不如人类主播。数字人+直播的兴旺态势，建立在大量企业与商品等待开播，但没有主播可用的特殊需求上，从而导致大量低成本开发、模板换皮的数字人快速走上岗位。

随着主播需求开始发生调整，人类主播的成本降低，以及企业的直播需求逐渐放缓。数字人的市场利好也将逐步失效。而从另一个维度看，数字人本身的开发成本、制作成本却在上涨，对比人类主播的成本优势开始松动。

这是因为，数字人已经遇到了从业以来的最大挑战：同质化。

死于同质

至少在目前阶段我们必须承认，由AI驱动的数字人依旧处在交互能力有限、表达单一的阶段。在对话比较尴尬的情况下，数字人更多作用还是播放已经录制好的内容，或者切换成人类配音+语音合成+唇形识别的“木偶人”模式。

当然，AI对于数字人的价值是多样的，并不限于多轮对话和知识图谱，还包括视觉、语音方面的内容。但无论怎么说，数字人应用很快进入了一个基本困境：由于数字人背后的AI模型来源只有那么几个，导致每个数字人即使在外貌上进行了差异设计，其交互能力和所具备功能却大多是一样的。

好看的皮囊万里挑一，但无趣的灵魂千篇一律。随着数字人带来的第一波新奇体验逐渐平淡，接下来如何让数字人产生差异化就成为了巨大挑战。

于是我们看到，很多数字人刚出道没多久就销声匿迹。“数字人之死”，远比预想中来得更快一些。某服装品牌的数字人，仅仅在直播和短视频平台活跃了几个月就杳无音讯；某大型活动的数字人推广大使，因为建模过于粗糙遭到网友吐槽；大量新出道的虚拟偶像，都缺乏能让人记住的特点；很多直播间在尝试了一段时间数字人后，又把人类主播召唤了回来。

蜂拥而上的数字人，绝大多数都没有激起什么水花，反而淹没在形象、功能、交互的高度同质化里，转眼消失不见。

一方面看好数字人长期发展，另一方面同质化又在侵蚀数字人的应用空间。想要逃离这个怪圈，行业似乎就只好“卷”起来。数字人摆脱同质竞争，需要卷设计、卷声优、卷渲染，更重要的是需要卷AI技术。数字人的核心技术包括图形计算、AI动作捕捉、NLP、语音合成、知识突破等等。这些技术能力都有升级空间，但所需代价是最大的。

一旦卷起来，想要摆脱同质化，数字人的成本又将直线上升，继而也就丧失了对标人类主播的低成本优势。这个进退两难的囚徒困境，导致数字人产业在大展宏图之前，已经先行进入了疲劳期。

数字人，也疲劳

想生存，就要卷，这是科技行业永恒的命题。而对于今天的数字人来说，企业快速弄一个换皮、套壳的数字人主播确实是代价很小，甚至可以忽略不计。然而一旦企业对这样的数字人产品有了不满，希望能够做出有创意、足够智能的数字人，那么代价会猛然增加。

这种成本压力，导致企业出现了用数字人也不是，不用更不是的疲劳感。

具体来看，这种疲劳的来源是多方面的。前期的供应链成本、后期的运营维护成本，以及取悦最终用户的成本，都加剧了数字人长期应用的难度。我们可以将这些压力，总结成数字人的三种疲态：

1.产业链疲劳。

数字人拥有着非常漫长且非常复杂的供应链。它既然需要AI模型作为底层支撑，同时也需要开发工具、平台环境、存算网资源的支持。在技术能力之外，数字人还在设计、动画、专业人才等方面产生成本支出。一家企业如果想要获得完善且优质的数字人方案，要么自身具备统合多方面供应链与技术开发、艺术设计的能力，要么直接购买定制化的数字人解决方案。

显然，后一种方式对于绝大部分企业来说更加现实。但定制化和高要求意味着数字人的前期成本直线飙升。能否在后续应用中收回这些成本，或者能否有效降低这些成本，对于企业来说都是未知数。这也是为什么，很多企业宁可直接抛弃数字人，也不愿意升级数字人。或者依旧让初级的数字人解决方案苦苦支撑。

另一方面，对于数字人供应链企业来说，大量数字人都涌向直播，确实带火了业务。但过分聚焦的业务，让接下来的升级遭遇了困境。从产业链来看，数字人可能涉及显示硬件、光学器件、芯片、AI模型、AI开发工具、建模软件等等技术领域，还必须包括应用层的行业开发者与软件供应商。如此多复杂的产业链，最终都仅仅为直播服务。单一的应用场景很难消纳产业链的创新成本。这导致数字人的底层技术很难快速升级，或者将成本摊薄。

过长、过复杂，并且牵一发动全身的数字人产业链，导致数字人很难低成本、高效率做出改变。产业链惧怕应用窗口太窄，应用担心产业链升级太贵，最终让数字人出现了局面大好之下的焦灼感与焦虑感。

2.运维疲劳。

当前数字人产业的另一个问题，是很多企业发现数字人买得起，用不起。这是因为数字人的定制化服务整体成本过高，很多供应商担心市场情况。于是采取了降低一次性解决方案成本，但要捆绑运维支持的商业模式。而由于数字人的商业供需非常单一，这种模式大多需要落在依赖虚拟主播的电商来为之买单。

这种先尝后买的模式，非常容易带来后期运维层面的焦虑感。随着用户的习惯甚至厌倦，数字人直播带来的直接价值降低，其因为成本的压力就会突显出来。对于企业用户来说，会越发将数字人连续不断的运维费用作为负担，并且产生不愿升级、不愿续费的想法。而对于服务商来说，则更多希望降低数字人的真实运营成本，拓展自身的实际利润。这就导致很多数字人画风越来越崩坏，体验愈发不智能。这就是因为服务商降低了数字人的AI模型或者图像渲染成本。更有甚者，一些服务商甚至在不告知甲方的情况下，直接派真人配音来代替数字人当中的AI技术，以期降低运营压力。AI假装真人还未成功，真人已经开始扮演AI，这也是让人想不到的情况。

3.审美疲劳。

无论是前期投入还是后期成本，数字人产业的疲态都来自成本压力。而所有成本压力的来源，在于最终用户对数字人+直播/短视频的模式已经产生了审美疲劳。毕竟AI的交互能力与理解能力都有限，很难实现源源不断的新价值输出。但用户对于主播的期待是无限的，单调、重复，已经成为很多用户对数字人主播的刻板印象。