科技云报道:大模型加持后,数字人“更像人”了吗?

科技云报道原创。

北京冬奥运AI 虚拟人手语主播、杭州亚运会数字人点火、新华社数字记者、数字航天员小诤…当随着越来越多数字人出现在人们生活中,整个数字人行业也朝着多元化且广泛的应用方向发展,快速拓展到不同行业、不同场景。

面向C端,数字人帮助用户生产内容和辅助工作,如:数字人练口语、和数字人玩游戏等;面向B端,数字人是企业的“工具人”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。

毫无疑问,数字人是一门好生意,但其规模化落地依然面临着人才、成本、场景、技术等层层困难。其中,最关键的是技术瓶颈,如何让数字人摆脱“空有一副好皮囊”的市场评价是一大难题。

然而,随着大模型的出现,数字人的发展似乎正在迎来新的机遇。
在这里插入图片描述

大模型赋能数字人

对于产业界而言,数字人本身并不新鲜。在过去很长一段时间内,为了又力求数字人视觉外形上的高保真呈现,生产成本不亚于制作一部专业级电影。

瑞银发布的数字人研究报告指出,高级虚拟人物的先期投入成本平均为3000万元,后期又需要真人团队完成拍摄、配音、剪辑。以乐华娱乐的虚拟女团A-SOUL为例,其一支单曲制作成本约200万元,一场线下演唱会成本约2000万元。

但即便是如此高昂的成本,也解决不了数字人的互动效果问题。由于智能水平不足,与其说它是数字人,更像是一个没有灵魂的数字皮套。

高成本,再加上互动效果不佳,使得数字人的使用被限制在厂商内部或大企业客户的试验项目。

因此,当具有学习能力的生成式大模型颠覆了内容制作范式后,面向更广范围的中小型企业用户、优先规模化落地使用的廉价数字人成为了可行方案。

据一名人工智能研究人员介绍,大模型对数字人的重塑与赋能主要体现为降本增效。

从技术角度来说,搭建一个数字人主要分为建模、驱动、渲染几个环节。传统的数字人主要依托计算机图形学技术+真人动作捕捉,需要采集大量的真人数据,深度建模,耗时长,效率低,成本高。

如今在大模型的加持下,通过AI算法,基于深度学习模型、动作模拟、情感模拟等技术,只需要几分钟的真人视频,用大模型训练若干个小时,就可以生成逼真的数字人,制作成本大大降低。

不仅如此,数字人在成本降低的同时,效能也大大提升。

在大模型出现以前,数字人在外形上差异度较小,而且只能根据输入的统一脚本,“照本宣科”地回答问题。

在大模型的赋能下,数字人拥有了“灵魂”,不仅外貌特征可以自定义设计,智能化、交互性也有了很大提升。比如在一些直播带货场景中,数字人已经可以与受众进行基础互动。

比如,百度智能云发布的曦灵数字人,大模型的加持下,可以15分钟快速完成直播间搭建,自动生成匹配产品特色的讲品话术,开启智能互动问答。

在某餐饮品牌的直播间,曦灵数字人主播自动生成直播话术,包含开场破冰、福利放送、暖场话术、催单话术等。在这场真人与曦灵数字人的接力直播中,用户竟然没有丝毫察觉。

更令人惊讶的事,在真实6小时的直播比对中,数字人主播仅需真人主播15%的成本,就可获得真人主播85%GMV。

除了直播带货,百度智能云曦灵作为国内首个大模型全面重构的数字人平台,还可为企业提供2D真人、3D写实、3D超写实的人像,实现视频制作、数字员工、数字人代言人等多种应用。

比如,在曦灵平台,只需5分钟的真人视频,半小时即可训练人像,录制100句话语,24小时生成专属音色库,相比真人授课成本只需过去的30%,录制效率提升20倍。

不难发现,经过大模型重塑与赋能的数字人,一定程度上摆脱了价格昂贵、互动性差等问题,越来越广泛地出现在短视频、直播间中。

同时,数字人开始朝着更多“身份”进军——银行理财师、律师、老师、已逝的名人……数字人正在成为任何想成为的人,也为这条日渐拥挤的赛道带来了新的机遇。

让数字人更像“人”

大模型的出现让数字人“脱胎换骨”,成为如今最火的创业赛道之一。

目前市场上主要的数字人厂商主要有两类:一类是以百度、腾讯、华为等为代表的科技巨头,基于自身大模型方面的优势研发推出数字人产品;另一类是以硅基智能、出门问问、相芯科技等为代表的中小厂商。

多名人工智能领域投资人表示,目前AIGC(生成式人工智能)还处于早期阶段,能落地产生利润的不多,数字人是其中比较少有的商业化路径,且已经能够盈利的项目。

但随着大量的创业者涌入,行业竞争趋于激烈和同质化,赛道逐渐变得拥挤和内卷。

内卷的一个表现是价格越降越低。目前2D数字人的价格大多数已经降到千元级别,有的甚至只需要几百元。

360集团的数字人营销服务也显示,通过智能营销云平台的配套SaaS服务推广给客户,按照会员用户每月付费的标准估算,一款数字人的价格最低几十元,最高在一、二百元上下。

随着大量低成本的数字人涌入市场,百元级别的数字分身迅速被炒成一本万利的“财富经”。

每到深夜,打开主流平台,大量的数字人坚守在直播间。随之而来的是关于数字人的质疑声渐起,诸如效果太假、市场混乱等,导致用户体验不佳。

有业内人士认为,随着越来越多的玩家涌入,一些创业者技术能力有限,生产的数字人产品质量良莠不齐,容易导致劣币驱逐良币。

一方面,数字人多用于较为简单的环境、解决较为基础的问题,在场景切换或面对多轮对话时,可能出现答非所问或陷入死循环的情况,制约用户体验。

另一方面,大模型下的数字人交互体验始终与真人存在明显差异,比如,在Sora生成内容中,无视物理学原理、人的手指时多时少等问题被广为诟病,可能进一步引发心理方面的“恐怖谷效应”。

对此,也有专家认为,需要进一步提升技术创新能力和用户体验感,在保证数字人外在拟人效果的同时,优化用户交互体验,注重实时渲染、光学捕捉、三维重建、智能人机交互等新兴技术与自然语言处理、语音识别、计算机视觉、生成式AI等技术的研究和应用。

“当前行业正在共同突破的技术目标是‘如何让数字人变得更像一个人’,像人一样去思考”,一位业内人士表示,加快企业间的技术协同,解决交互型数字人在情绪感知、语义理解等方面的技术难题是接下来的重点。

这一系列的挑战都指向技术侧。

2024年度《中国虚拟数字人影响力指数报告》指出,截至2024年2月底,国家知识产权局“专利检索”数据显示,2023年全年数字人领域专利申请数高达544个,反映出业界在核心技术研发上的强劲势头和深度创新。

从2023年数字人相关专利申请机构来看,以百度、腾讯为代表的老牌互联网巨头,以中国移动、工商银行为代表的头部通信、金融机构,以小冰公司、世优科技、黑镜科技为代表的头部数字人公司形成了技术端的多强格局。

尽管行业头部大厂在AI技术上拥有了先发优势,但在产业高速发展的过程中,每个公司在技术本身都没有绝对的壁垒,本质上技术背后是人。对于所有数字人厂商来说,AIGC带来机会的同时,也成为直面挑战的起点。

结语

数字人正处于风口,吸引了大量想分一杯羹的创业者涌入。但不可否认的是,作为一项年轻的技术,数字人还处于早期阶段,市场尚在培育之中。

对于同处一片红海中的数字人公司来说,要思考的或许不是如何“卷低价”,而是通过技术的不断进步,让数字人“更像人”,提高行业的整体水位,让数字人“活下去”,创造更多的价值。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/306089.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python+appium调@pytest.mark.parametrize返回missing 1 required positional argument:

出错描述: 1、在做pythonappium自动化测试时,使用装饰器pytest.mark.parametrize(“参数”,[值1,值2,值3]),测试脚本执行返回test_xx() missing 1 required positional argument:“…

紫叶写作靠谱不 #笔记#学习方法#媒体

紫叶写作是一款非常好用的论文写作工具,它不仅提供了查重降重的功能,还能帮助用户快速完成论文的撰写和格式编辑。通过紫叶写作,用户可以轻松地查重降重,避免论文中出现抄袭和重复的现象,保证论文的原创性和质量。 紫叶…

【Java基础题型】题目 1020: 猴子吃桃的问题

猴子吃桃问题。猴子第一天摘下若干个桃子,当即吃了一半,还不过瘾,又多吃了一个。 第二天早上又将剩下的桃子吃掉一半,又多吃一个。 以后每天早上都吃了前一天剩下的一半零一个。 到第N天早上想再吃时,见只剩下一个桃子…

智能面试——录音及播放下载js-audio-recorder — post请求,formdata传参

录音插件 js-audio-recorder bug&#xff1a;本地调试调取不起来麦克风 浏览器配置安全域名 chrome://flags/Insecure origins treated as secure输入域名即可电脑需要连接上耳机 <template><div class"BaseRecorder"><div class"BaseRecorder-r…

React之基础项目搭建

前言 React的生态系统非常庞大&#xff0c;拥有大量的第三方库和工具&#xff0c;如React Native&#xff08;用于构建原生移动应用&#xff09;、Next.js&#xff08;用于构建服务器渲染应用&#xff09;、Create React App&#xff08;用于快速搭建React应用的脚手架&#x…

鸿蒙内核源码分析 (物理内存篇) | 怎么管理物理内存

如何初始化物理内存&#xff1f; 鸿蒙内核物理内存采用了段页式管理&#xff0c;先看两个主要结构体。结构体的每个成员变量的含义都已经注解出来&#xff0c;请结合源码理解. #define VM_LIST_ORDER_MAX 9 //伙伴算法分组数量&#xff0c;从 2^0&#xff0c;2^1&#…

【网络初识】网络相关概念详解

一.局域网VS广域网 局域网 局域网:Local Area Network~简称LAN.指在某一特定区域内由多台计算机组成的互联网组。局域网内的主机之间能方便的进行网络通信&#xff0c;又称为内网.局域网和局域网之间在没有连接的情况下&#xff0c;是无法通信的。局域网的组建方式: 基于网线…

新规来了!智能音视频技术重塑信贷体验

近日&#xff0c;国家金融监督管理总局发布《固定资产贷款管理办法》《流动资金贷款管理办法》《个人贷款管理办法》&#xff08;以下简称“三个办法”&#xff09;。 具体来看&#xff0c;新规明确了以下要求&#xff1a; 1、明确视频面签、电子签约要求 允许商业银行通过视…

【话题】AI技术创业有那些机会,简单探讨下

大家好&#xff0c;我是全栈小5&#xff0c;欢迎阅读小5的系列文章&#xff0c;这是《话题》系列文章 目录 背景机会一、引言二、AI技术的创业机遇1.智能服务行业的兴起2.数据驱动的业务模式创新3.AI与产业融合的创新发展 三、AI技术创业的挑战1.技术门槛高2.法规政策的不确定性…

Java 中文官方教程 2022 版(三十四)

原文&#xff1a;docs.oracle.com/javase/tutorial/reallybigindex.html 长期持久性 原文&#xff1a;docs.oracle.com/javase/tutorial/javabeans/advanced/longpersistence.html 长期持久性是一种模型&#xff0c;可以将 bean 保存为 XML 格式。 有关 XML 格式和如何为非 be…

软件定义网络中的网络流量控制

软件定义网络&#xff08;SDN&#xff09;是一种网络范例&#xff0c;它支持一种新的方法来构建网络基础设施&#xff0c;其主要概念是基于集中控制平面和分布式转发平面的分离&#xff0c;其中整个网络及其设备通过使用开放API的软件应用程序进行集中控制和管理。SDN使网络虚拟…

Java高频面试之JVM篇

说一下 Jvm 的主要组成部分&#xff1f;及其作用&#xff1f; 类加载器执行器运行时数据区域本地接口 谈谈对运行时数据区的理解&#xff1f; 堆和栈的区别是什么&#xff1f; 堆中存什么&#xff1f;栈中存什么&#xff1f; 堆总存对象,栈中存局部变量,引用 为什么要把堆…

设计模式系列:单例模式

作者持续关注WPS二次开发专题系列&#xff0c;持续为大家带来更多有价值的WPS开发技术细节&#xff0c;如果能够帮助到您&#xff0c;请帮忙来个一键三连&#xff0c;更多问题请联系我&#xff08;WPS二次开发QQ群:250325397&#xff09;&#xff0c;摸鱼吹牛嗨起来&#xff01…

一起学习python——基础篇(15)

今天讲一下python的网络请求方法。 如果使用python语言做接口测试&#xff0c;可以安装Requests模块。 安装步骤&#xff1a;打开编程软件&#xff0c;然后点击settings——>Project:System——>Python Interpreter——>加号——>搜索栏里面输入“Requests”——&…

Redis中的集群(一)

集群 概述 Redis集群是Redis提供的分布式数据库方案&#xff0c;集群通过分片(sharding)来进行数据共享&#xff0c;并提供复制和故障转移功能 节点 一个Redis集群通常由多个节点(node)组成&#xff0c;在刚开始的时候&#xff0c;每个节点都是相互独立的&#xff0c;它们都…

appium

app元素抓取在线工具 Appium Inspector by Appium Pro appium安装&#xff08;通过node.js安装&#xff09; Python3Appium安装使用教程_python_脚本之家 Node version is 18.17.1

[计算机网络] 当输入网址到网页

HTTP 首先&#xff0c;对URL进行解析&#xff0c;URL包含了Web服务器和对应的文件&#xff08;文件路径&#xff09; URL是请求服务器中的文件资源 通过Web服务器和对应文件来生产HTTP包&#xff08;超文本传输协议&#xff09; DNS 根据域名查询对应的IP地址 域名的层级 根…

代理模式:控制对象访问的智能方式

在面向对象的软件开发中&#xff0c;代理模式是一种结构型设计模式&#xff0c;它为其他对象提供一个代理或占位符以控制对这个对象的访问。代理模式在实现权限控制、延迟初始化和远程对象访问等方面非常有用。本文将详细介绍代理模式的定义、实现、应用场景以及优缺点&#xf…

奎芯科技:智能时代的芯片上游企业如何突破?

半导体IP&#xff08;Intellectual Property&#xff0c;知识产权&#xff09;&#xff0c;通常也称作IP核&#xff08;IP core&#xff09;&#xff0c;指芯片设计中预先设计、验证好的功能模块&#xff0c;主要服务于芯片设计&#xff0c;因部分通用功能模块在芯片中被反复使…

鸿蒙南向开发:【智能烟感】

样例简介 智能烟感系统通过实时监测环境中烟雾浓度&#xff0c;当烟雾浓度超标时&#xff0c;及时向用户发出警报。在连接网络后&#xff0c;配合数字管家应用&#xff0c;用户可以远程配置智能烟感系统的报警阈值&#xff0c;远程接收智能烟感系统报警信息。实现对危险及时报…