本期嘉宾
林洪祥 风平智能CEO
林洪祥,风平智能CEO。风平智能拥有全球领先的数字人AIGC预训练大模型技术,利用数字人+AI知识大模型打造视频版ChatGPT,实现数字人名师、数字人医生、数字人保险客服、数字广告模特、数字人AI直播等,服务众多领域的知名品牌,股东包括北京大学人工智能AICC雷鸣主任和清华大学杰出校友的基金等。林洪祥毕业于清华大学,曾任职于IBM与百度。
主持人
田超 腾讯云企业中心总经理
田超,腾讯云企业中心总经理、运营中心总经理,负责腾讯云用户增长、DNSPod业务以及企业应用相关产品。同时也是资深用户增长专家,大数据技术专家,曾任应用宝增长平台总经理,摩拜单车技术副总裁。长期致力于对企业数字化相关研究。
1
田超:虽然风平智能现在已经靠数字人盈利了,但几年前刚创立的时候,“元宇宙”概念还未出圈,ChatGPT也还没有引爆公众对AI的期待,我们知道数字人背后需要NLP技术、多模态融合交互、大模型、语音合成等技术的投入,这些都非常烧钱。面对这么巨大的风险,你当初创办风平智能的底气是什么?数字人的需求还没爆发前,你们是如何熬过来的?
林洪祥:在2019年成立风平智能之前,我先在IBM和百度工作,可以说深度参与了人工智能系统的三个阶段,从早期参与以IBM为代表的专家决策系统、深蓝国际象棋电脑,到负责机器学习工作、以贡献者身份参与知名Apache社区顶级项目,再到后来从0到1负责百度社区大数据的底层基础设施建设、AI内容推荐和AI内容过滤。
2015年,我出来创业,做了一个互联网保险科技的项目,还打造了全球保险行业第一个NLP保险机器人,给蚂蚁保险、字节保险等公司使用,整个项目估值达10亿,后来公司在2019年被并购。
这个项目结束后,我们在寻找下一个创业方向时,发现国内AI巨头已经把AI应用在各个场景,在细分场景里的资源能力也比我们强,我们转向探索能否用AI技术做一款通用型产品,于是风平智能就决定专注于做数字人来赋能各个场景,这个逻辑和张一鸣用移动互联网+AI 1.0(信息流推荐算法)这个通用技术打造今日头条、抖音等产品是一样的。
风平智能数字人
刚开始如何养活团队?一方面是靠投资者们提供的1000万元左右的融资,另一方面我们用AIGC生产了上千万篇金融保险行业的专业文章和视频,帮保险行业实现零成本获客,通过互换获得一些算力资源,来支撑我们早期大模型“炼丹”。可惜的是,我们当时的AIGC只服务于保险行业,也没有公开产品化,无法像后来的ChatGPT一样成为现象级产品。
去年10月份,大多数投资人依然认为AI处于非常灰暗的1.0时代,今年年初我们的财务预算也是尽力把每一分钱花在刀刃上,直到春节后大量数字人和AIGC的需求开始涌现,我们每个月的订单达到超100%的增长,一个月的订单比去年一年还多。
数字人的爆发具有偶然性,刚好三大热点同时汇聚在一起:一是直播,尤其是疫情开放后本地生活类直播的爆发;二是ChatGPT大模型带来超前的AI热度;三是数字人与本地生活的结合已经比较成熟,可以做到上午采购,下午搭建完产品体系后开播,当晚就开始获得收益。
2
田超:当大家对“数字人”的印象还停留在像初音未来、洛天依这样的二次元画风,或者像柳夜熙、AYAYI等CG感非常强的3D写实数字人时,其实2D仿真数字人已经能够做到以假乱真,无限接近于日常生活中的真人。风平智能主要聚焦于2D仿真数字人,你能给大家介绍一下2D仿真数字人为何可以做到这么逼真吗?
著名大V刘润去年10月开始用数字人录制短视频,但如果不是他在去年年底的演讲中自己爆料,一众读者都惊呼根本看不出来
林洪祥:我们既能做2D数字人,也能做3D数字人,但3D数字人的商业化成本非常高,一般只有大型企业才有能力采购。
目前看来,市场应用前景比较大的是2D数字真人,一方面价格能被中小用户接受,另一方面足够逼真的数字人才能传递出信任感。逼真感是如何形成的?
第一是进行有效的拍摄。这里的动作录制是原生态的,也就是把真人做的动作录制下来,因此看上去会非常自然。虽然现在客户可以自己用手机或者常规设备自行拍摄,但我们还是比较推荐客户去专业的摄影棚拍摄,我们和全国各地的摄影棚都有合作,因此我们的数字人的合成质量会更好。
第二是用算法生成数字人的口型和表情,并且让两者匹配好。这里的技术难度非常高,这项技术无论是风平智能还是国内的头部同行在全球范围内都是领先的,成本和质量平衡上远超数字人鼻祖企业Synthesia。
风平智能AI创作的数字人“小乔”
3
田超:3D超写实数字人虽然精美,但制作成本非常高,据说制作一个“柳夜熙”3到4分钟的视频需要一个多月,成本高达几十万元,这导致3D数字人的商业化应用比较单一,普遍被用作品牌大使场景。而2D仿真数字人并没有大家想象中的那么贵,目前市面上定制数字人大约千元,一年系统使用费大约万元,已经开始被运用到直播带货、客服、主播场景里,风平智能的数字人对比真人直播带货,成本可以降低90%。2D仿真数字人是如何将成本压缩到能广泛商用的地步的?
林洪祥:在去年上半年以前,数字人的制造成本都比较高。即使是全球顶级的数字人公司Synthesia,当时用的也是深度生成技术,一方面录制成本很高,建模需要一个人几十个小时的有效拍摄时间,也就是主播可能每天录制8个小时,大概能用的有效时间有3个小时,那么他需要录制几十天,让主播的口型、表情能覆盖到大多数内容的表达;另一方面后期建模的算力成本很高,录制完后需要利用对抗式生成进行还原。
全球顶尖数字人公司Synthesia数字人
而现在,行业里用的是“大模型+小样本”技术,一下子就把十几万元的成本压缩到几千元。我们先去训练一个大模型,里面含有不同样本,然后只需要录制5-10分钟有效时间去形成小样本,后期就能自动生成大多数口型、表情。目前行业里还没有去自动生成动作,虽然能应对更复杂的场景,但是成本也会增加上来。
如果要对比真人直播带货,我们有一个客户计算过,他们一年私域就能卖几个亿,这就意味着他们需要很多直播间,每增加一个直播间,就需要起码一个主播、一个文案、一个运营、一个场控,每天只能播4小时左右,加上设备、场地、员工社保医保,算下来一年要75万-90万元成本。相对来说,我们的数字人从IP制作、文案生产、直播都是自动化的,一年的成本也只要几千元到几万元,帮他们省了几十万元。
4
田超:我去体验了几个数字人的直播间,虽然现在形象更加逼真,但是交互能力依然比较差:数字人主播只能根据前期输入的文本进行复述,动作也是循环播放的,并且无法实时回复评论区问题,可以说没有任何随机应变的能力。此外,我还特地去看了前阵子风平智能给乐华娱乐CEO杜华制作的数字人“华华子”,形象非常自然,但语音有一股明显的“机械味儿”。你们怎么看待这些问题?怎么进行优化?
乐华娱乐CEO数字人“华华子”
林洪祥:你说的这几个点都特别好。从目前来看,技术应用暂时没办法完全适应各种复杂场景,更多是服务于某个场景,但这已经能实现它的价值。
回到你说的具体问题,比如像动作比较少,其实我们可以看到像在TED演讲里,大多数演讲者在固定场景里的肢体动作也是不断重复的,所以数字人能展现出几个合理、自然的动作,已经能满足到大多数客户的要求。
说到声音的“机械味”,一方面是因为声音不同于人物的像素化录制,它是一个从模拟到数字,再从数字还原到模拟的过程,并且经常在非标准环境里完成录制,因此效果可能会受到一定程度影响。另一方面,人的听觉器官比较发达,并且每个人的感受是不同的,例如有的人就觉得“华华子”的声音很自然。从实际应用来看,当声音、口型的准确率够高,合成够自然,就能胜任服务于垂直场景的需求。
实时互动强调低时延,第一需要数字人的口型、声音合成要够快,第二需要智能大脑的响应够快。整个行业在时延方面确实需要优化,这也是为什么我们在与腾讯云深度合作,借助腾讯云强大的算力支持降低生成时间、提高视频流速度。此外,我们专门去打造垂直模型,它的范围相对更小,因此精准度更高,与此同时我们也在加快知识库的工程化路径,现在整体的响应时间已经降到2秒以内。
就目前数字人的实时互动能力而言,市场需求推动 “直播先行”,因为直播卖货的场景本身就有5-10秒的时延,互动起来也比较自然。
风平智能数字人制作中
5
田超:你一直在强调AI数字人要具有“漂亮的外表+有趣的灵魂”,前者目前已经不成问题,而后者的IP人格化却一直难以解决。我们都知道李佳琦等带货主播之所以能爆火,除了有专业带货的技能,还有非常强烈的人格魅力,与消费者互动形成“强连接”。你们在打造数字人“有趣的灵魂”上有什么经验可以分享吗?不少商家推出的数字人主播仅活跃了几个月就再无水花,最后还需要把人类主播召唤回来,那么数字人主播的价值是什么?
林洪祥:相对于真人主播,数字人的独特优势是能成为一个独一无二、长时间不出错的IP。那为什么对比真人主播,现在还没有出圈的数字人IP?
一方面是因为数字人火起来才几个月,没办法很快就出现头部IP,即使看头部的真人主播李佳琦、小杨哥等等,也是直播兴起一两年后才在百万人里脱颖而出。不过我相信,随着越来越多聪明的人把数字人用好,今年内大家会看到超级数字人IP的诞生。
另一方面,IP要有真正的灵魂,就需要承载人格化内容,这个跟真人运营是类似的。比如小杨哥这个IP,他的团队帮他打造出幽默情景式的卖货形式,匹配小杨哥本身阳光搞笑的人设,数字人IP运营也是遵循一样的道理。
风平智能AI创作的数字人“大乔”
数字人现在已经具备一个超出真人的“智慧大脑”。举个例子,一旦直播间的人多了起来,真人主播就很难记住某个观众是什么时候进来,待了多长时间,而数字人则记得一清二楚,并且知道对这些观众进行点名,一有这些互动,观众就会觉得“既然都点了我的名,要不就下一单吧”。
再例如,明星的数字人做直播互动,这类直播间对情感传递的要求比较高,需要主播记得粉丝的各种偏好,给到他们合适的关怀。明星不一定记得住每个粉丝,但是数字人可以,并且能够做到千人千面,根据AI策略在对的时间给到对的信息,与粉丝产生的粘性甚至比真人好。
6
田超:一个真人主播平均月薪两万元,一年也要24万元,数字人主播一年大概才几万元,可以节省大量费用,这也是目前商家们选择数字人的原因。不过可预见的是,随着直播行业热度回落,真人主播工资将逐步降低,当人工费用降低后,数字人主播的不可替代性又在哪里?除了节省人工成本,数字人主播真的能为商家带来好的转化收入吗?如果消费者不愿意买单,是否就落入“捡了芝麻丢西瓜”的窘境?
林洪祥:首先,我们完全不担心数字人主播被替代,它的用途会越来越大。现在各大平台对数字人还有一定管控措施,如果不管控的话,我相信到今年年底80%的主播都会是数字人,并且每直播一次AI都会再次加强这个AI数字人的能力,在同等收益的情况下,AI数字人取代能力一般的真人主播是无可避免的。
大家对数字人最大的误解在于,数字人只是解决了“主播”的问题,无法与流量、收入直接挂钩,还需要结合供应链、选品、宣传点、目标客户等综合性因素才能最终带来好的转化。
并不是用了数字人就一定能赚钱,世界是没法靠“银弹”运转的,但数字人起码能让你省心一些,即使没有什么投入,有的数字人直播间都有上万的观看,把数字人用得更好的商家,一天下来卖出上万的也大有人在。我们在今年4月统计了我们合作伙伴的数字人直播收益,一天一共可以卖出1亿的GMV,足以看出数字人直播的价值。
风平IP智造产品
7
田超:2022年,随着元宇宙概念的爆火,数字人企业增长也迎来了爆发,艾媒咨询数据显示,2022 年中国虚拟主播企业新增注册数达到948家。从目前的竞争格局来看,除了腾讯、阿里、百度等大厂在跟进,也不乏像刘润克隆人背后的硅基智能、中科深智等潜在独角兽入场。风平智能面对这些竞争对手,你们的优势在哪里?在数字人行业中如何构建出壁垒?
林洪祥:首先,我们一直强调AI数字人不仅仅是单个数字人,最核心的其实是内容质量。我们不仅要生产一个好看的数字人出来,还要求生产出来的视频、直播内容质量过关,确保它在分发的时候能够得到有效的曝光。在同等价位上,风平智能的质量是行业内领先的,目前已经支持了用友、万达、乐华、华大基因、央视主持人、国联证券、嘉实基金、91科技等的数字人生产。
万达AI导游
其次,我们的数字人安全类措施也更加领先。大家想象一下,一个身价100亿的基金经理,把他的形象和声音克隆成数字人,实际运营的可能是刚入行的年轻人,甚至他可能还不太熟悉相应的证券法规,也无法把握内容的尺度和边界,那么这里面或许存在着毁灭基金经理整个职业生涯的风险。
风平智能在AI数字人的大模型和生产技术上都把安全性放在首位,第一,我们能实现数字人追踪回溯,清楚记录这句话是否是真人说的,可以成为有效的司法证据;第二,我们在生产数字人的过程中可以及时中止,对三级关键词进行分析,及时把相关隐患过滤掉。
此外,我们的产品可以实现视频+直播合二为一,客户只需要花一份的钱就可以买两份的功能。
最后,我们认为数字人并不是一次消费,而应该是企业永久的资产,因此基于非常好的渲染底座,我们的数字人的终端兼容性非常强。客户在我们这里定制数字人之后,可以将这个IP从手机无缝升级到新的设备进行使用,包括今年的苹果VR眼镜等等。
8
田超:数字人在数量上暴涨,但也陷入了同质化的怪圈:各家2D数字人在外形、功能、交互上都高度同质化,基本没有什么记忆点,也没有激起什么水花。但若要把2D数字人做得更精美,就必须升级技术,卷设计、卷声优、卷渲染,那么数字人的成本又会上升,不仅失去优于真人主播的成本优势,还要再次复刻3D写实数字人的老路,无法大规模商用。你自己是如何看待这样的怪圈?
林洪祥:目前数字人在算法上的差异并不大,设计、声优、渲染卷起来意义不大,真正的差异在于各个数字人厂商综合的工程能力。
比如说,小样本的质量。这里就是我前面说的摄影质量,这里要看是否有丰富的摄影基地资源,摄影合作方在输入数据时靠不靠谱,模型建得好不好,后续就要看声音和人物形象能否做好匹配。
再比如,我们多次强调内容质量。平台的流量倾斜检测的不仅仅是人,更是视频的整体质量。风平智能一直都很重视客户成功,因此我们在数字人视频制作中会非常看重内容质量,比如关注是否含有平台违禁词等等,让内容能够有效分发。如果有长期利于行业的需求,我们亏点成本也愿意去做。
此外,我们对待客户和合作伙伴是非常真诚的。我们期望与合作伙伴协作共进,生态共赢,我们的目标还是希望用AI产品推动整个社会的发展。
风平智能CEO林洪祥
9
田超:ChatGPT横空出世以来,很多观点都认为这将会是AIGC数字人的一个里程碑。ChatGPT人性化的对话让大家看到提升数字人交互体验的希望,但目前看来,生成式AI通过大模型形成答案的速度还比较慢,而交互场景对于实时性的速度要求又非常高,所以当前生成式AI还不能直接运用到数字人的交互上,主要还是靠真人前期输入文本内容,或者借数字人之口进行实时回复。你当时看到ChatGPT新闻时的心情如何?你们会如何与ChatGPT进行结合?
林洪祥:从我的视角来看,ChatGPT有三个特点:第一,ChatGPT在国内的合规性不强;第二,我在前面也提到了,目前ChatGPT在数字人应用场景里的时延还存在不足;第三,ChatGPT有很强的泛化能力,那么在某些垂直场景里就成为它的弱项。
我们是怎么和这次ChatGPT浪潮结合的呢?一方面,我们和百度是战略合作伙伴,我们会结合运用百度的文心一言。另一方面,我们是一支国际化团队,自己的大模型起步也很早,尤其在垂直领域里时效性、精准度都达到非常高的水准。
不过我还是认为国内的大模型太浮躁了,今年突然有70-80个大模型生产出来,但很多都被爆出套了OpenAI的壳,甚至有的公司完全没有理解大模型所需的成本,对外宣传上千亿参数,但整个公司的规模根本支持不了千万美金的算力,有的上个月还让我帮忙找AI算法负责人,下个月就宣布大模型发布了,这些过度追逐噱头的现象是非常贻笑大方的。
风平智能AI创作的数字人“心怡”
10
田超:数字人的生产越来越成熟了,但要真正释放出商业价值,还需要直播、内容平台的支持,尤其是抖音、快手、视频号等头部平台。一方面,平台封禁策略,大多数平台会检测直播是否为真人直播,“非真人直播”会进行告警和封号;另一方面,平台限流策略,数字人直播某种程度上相当于是经过了包装的录播和无人直播,称不上优质内容,很难得到流量扶持。你们目前是如何应对这些平台策略的?
林洪祥:从平台的视角来看,他们要的就是高质量的、合规的内容,并不会特别关心这个内容是摄像头拍摄的,还是AIGC生产的,因此我一直在强调数字人的内容质量。如果你硬是要用录播,或者其他投机取巧的方式获得平台流量,那平台必然会禁止这种劣币驱逐良币的行为。
我们生产的高质量内容其实是符合平台规范的。比如平台担心利用数字人进行诈骗,那么你可以清晰标注清楚这是一个AI数字人;再比如平台规定AI数字人不能开打赏,尤其是一比一克隆真人的数字人,容易有诈骗的嫌疑,那么你就千万不要开打赏。
当然,平台也一直在拥抱新技术,一方面新技术能够降本增效,助力平台生态的发展,例如很多中国企业去海外做直播,以前用外国人模特费用太高,现在用数字人就能省下一大笔开销,还能跨越时差;另一方面如果平台不拥抱新技术,就容易让其他平台或者新的平台后来居上。
风平智能数字人直播
11
田超:最近国内AI诈骗案件频发,有人收到AI换脸好友的视频聊天后,10分钟就被骗了430万。数字人技术越来越逼真,一方面极有可能会被应用在制作虚假信息、欺骗用户、冒充他人等不法行为,另一方面会被滥用或盗用他人的形象、声音、数据,以及在直播场景中,有可能因为黑客入侵而输出非法内容。针对这些问题,你们在数字人安全性方面有什么动作吗?
林洪祥:在内容安全性方面,当数字人结合自身知识库能力进行问答互动时,我们有三层过滤机制,知识库能回答的问题用知识库,不能的用理解,理解也不能的用大模型,这里面会有校正,保证内容在合规范围内。
例如一个卖电话卡的数字人,观众问它“怎么发大财”,虽然偏题了,但在三层模型里也能回答出来,只不过这个回答有可能触犯平台或国家监管风险,那么我们就会过滤掉。
我认为技术是把双刃剑,尤其数字人还处在野蛮生长的阶段,用在好的地方能降本增效,用在不好的地方可以毁灭一家公司,甚至是整个行业。所以我也在这里呼吁:以社会道德的要求来经营企业,法制往往落后于新技术,企业的自我约束就太重要了。
12
田超:近期有个广泛传播的新闻,国外一名拥有180万粉丝的网红Caryn Marjorie利用AI技术克隆自己,让AI以女友的身份与粉丝进行私密语音聊天,每分钟收费1美元,一周就躺着赚了50万人民币。目前国内2D数字人主要应用在直播带货,相对来说应用场景比较窄,但从产业链来看,数字人涉及芯片、AI模型、AI开发工具、建模软件、应用层开发等技术领域,单一的应用场景很难支撑起如此高消耗的创新成本。你如何看待目前的这个状况?你认为未来2D数字人还有哪些值得期待的应用场景?
国外网红Caryn Marjorie的AI分身
林洪祥:我们的产品经理特地花了10美金去体验了这个网红的数字人,非常后悔,效果很差。(笑)
但客观来说,这种交互式互动的数字人是未来非常有潜力的应用场景,我们为此推出了一个“1号AI”的计划,让数字人成为组织里的“1号员工”、“1号专家”。
利用垂直大模型去驱动,这个AI数字人能成为除了CEO以外最懂企业的人,不管是企业的财务、人事、企业文化、各种管理制度,甚至企业的八卦,它都一清二楚。懂企业的数字人,对外能担任销售的工作、能做不会出错的客服,对内可以担任人事经理、财务经理等角色。
再比如,我们把医生做一比一克隆,这个数字人背后有这个医生做健康问答的大模型,可以7×24小时提供常规咨询,让更多普通患者也能得到一对一的专业健康顾问服务。目前我们已经做出了国内第一个行业垂直模型,二期测试效果也非常不错,预计为客户一年节省8000多万元的成本,在未来发挥它的巨大潜力。
风平智能CEO林洪祥
20年前,每家公司都有个网站;10年前,每家公司都有APP或小程序;而未来,每家企业都会需要一个AI数字人。我们现在去一个企业的网站或APP,无非就是要获取企业的信息,以前只能简单地点击,体验并不方便,未来则可以与AI数字人进行互动,要查信息直接开口问,有纠纷直接吵一架,语音和手势交互会更加自然。在手机上的时候优势没有那么明显,在VR、AR设备时代其作用就会凸现出来,这也是风平智能AI数字人兼容VR、AR设备的原因。
AI世界的基础单元就是AI数字人,我们也会一直聚焦在这个领域,和大家一起见证这场AIGC带来的互联网基础设施的变革!
* 图片来源:风平智能、Synthesia.io、Daily Mail
END
栏目统筹 | 赵九州
责任编辑 | 黄绮婷 庄雅捷 栏目顾问 | 草禾言
你看好AI数字人的发展吗?你认为AI数字人可以用来做什么?欢迎在评论区分享你的看法~点亮“在看”+评论区留言,阿D将在6月14日(周三)下午15:00随机抽取1位粉丝,送出DNSPod定制马克杯~
《DNSPod十问》是由腾讯云企业中心推出的一档深度谈话栏目,通过每期向嘉宾提出十个问题,带着广大读者站在产业互联网、科技领域精英的肩膀上,俯瞰各大行业发展趋势和前沿技术革新。
栏目嘉宾的领域在逐渐扩大,从最初的域名圈、站长圈到程序员圈、创业者圈、投资圈。腾讯副总裁丁珂、CSDN董事长蒋涛、Discuz!创始人戴志康、知识星球吴鲁加、腾讯安全学院副院长杨卿等技术大咖和行业领军人物都在这个栏目留下了他们的真知灼见。
《DNSPod十问》在腾讯云生态圈也极具影响力和活跃度。我们在腾讯内部平台——DNSPod公众号、腾讯中小企业服务公众号、腾讯云公众号、腾讯云主机公众号、腾讯云服务器公众号、腾讯云助手、腾讯乐问、腾讯码客圈、腾讯KM平台、腾讯云+社区、腾讯云+大学等平台累计关注度高达数十万,同时我们积极开拓与外部媒体的合作,如腾讯科技、腾讯新闻、新浪微博机构号、CSDN社区技术专栏、知乎机构号、企鹅号、搜狐号、头条号、开源中国技术社区、IT之家、InfoQ社区资讯站点、Twitter机构号、Facebook机构号等媒体阅读总量逾百万。
未来,我们希望这个栏目的影响力会覆盖更加多元的受众,把更多正确的理念对外传递出去。欢迎各位读者在评论区留下你想看到的嘉宾和想问的问题,我们邀请你共同成为《DNSPod十问》栏目的提问者与发声者。
合作联系:
qitinghuang@tencent.com
▼公众号后台获取二维码
加入DNSPod官方用户群