数字内容“遍地开花”,AI技术如何创新“造梦”?

文 | 智能相对论

作者 | 陈泊丞

这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。

这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板秒变外语达人,无缝切换36国语言流畅介绍自家商品,疯狂带货。

这一幕幕不可思议的画面,成就了今天中国文化、商业的频频出圈。而一切的背后,都有着相同的支持:AI技术赋能数字内容生产和应用。

近年来,随着AI大模型技术的持续升级与赋能,数字内容生产与应用的趋势愈发强烈,现实场景与数字内容不断融合,悄然改变着整个内容创作行业的格局,甚至进一步推动了相关产业和商业的新变革。

技术创新重塑数字内容生产与应用新范式

数字人“李白”的精彩演绎、义乌女老板的AI带货——这些热门事件的背后,是技术创新突破所带来的结果。AI大模型的成熟应用,让越来越多不同形式的数字内容得以爆发,并广泛进入大众视野。

在6月21日举办的华为开发者大会(HDC 2024)上,华为云盘古大模型迎来5.0版本升级,其中盘古媒体大模型在语音生成、视频生成以及AI翻译上的技术创新就重塑了数字内容生产和应用的新范式。

对比过去的技术能力,新的技术所带来的效果是非常显著的。

一、语音生成进阶:只需三言两语,沉浸式、真实感的语音易如反掌

过去的语音生成依赖传统的声音克隆模型,由于模型比较小,精度低等原因,往往在实际操作上就要复杂得多。比如,在数据收集阶段,对目标人物的语音数据就要尽可能的多样化,包括不同的语速、语调、音量以及不同语境下的语音,需用到几百句话的录音。

然后到了预处理阶段,需要对收集到的语音数据进行清洗,通过人工标注等形式去除噪声、静音片段和其他不需要的部分。进而还要进行语音分割,将连续的语音信号切割成较小的语音片段(如音素或单词)。最后提取音频特征,再用于后续的声音建模。

以上,还只是数据收集和预处理,尚未进入真正的语音生成阶段。但其中的工作量和操作复杂度就已经很大了,对语音生成的效率和质量都是一个非常大的影响和挑战。

时至今日,随着技术的创新,基于更先进的模型,比如盘古媒体大模型的语音生成能力,这一问题得到了很好的解决。只需要几句话、几秒钟的声音,AI即可学习到个性化的音色、语调、表达韵律,从而获得高质量的个性化语音。同时,还支持喜怒哀乐等拟人情感语音,闲聊、新闻、直播等10多种语气风格,让生成的语音更真实、更有情感色彩,能沉浸式地应用到不同场景中。

比如,在视频译制中,AI将能做到配音演员的专业程度——通过盘古媒体大模型提供的视频翻译能力,AI可以把视频翻译为目标语言,并保留原始角色的音色、情感、语气。华为云也在积极联合伙伴逻辑智能,打造高感情语音克隆以及14国小语种配音,共同构建高感情超拟人多模态音频应用能力等。同时,再结合盘古媒体大模型的口型驱动模型,还可以实现音唇同步,尤其是在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。

二、视频生成跨越:只需几十张图,可控的、一致的视频唾手可得

传统的视频生成技术在资源需求、数据集、时序一致性、物理定律遵守、效率与质量平衡、可控性、逼真度和连贯性以及应用限制等方面都存在一定的局限性。如今,基于盘古媒体大模型,只需要训练几十张特定美学风格的图片,如吉卜利、二次元等风格,再输入实拍视频即可快速生成该风格的动漫视频。

除了按需时长生成稳定的动漫视频,再通过ID一致性模型,还能对生成画面中的关键角色进行一致性处理,确保视频中角色样貌特征在前一帧和后一帧中所呈现的效果始终一致,在侧脸、运动轨迹下的视觉效果合理一致,由此增强AI视频生成的可控性、一致性,让视频内容更合理、真实。

此外,业内对视频生成的真实度、复杂度也在聚焦增强。比如,OpenAI的Sora正在试图模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格一致,让AI创作的数字内容更加趋于现实创作。英伟达更是发布了一系列技术套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增强数字内容的真实感,让数字人物的互动、对话更加复杂、逼真。

三、AI翻译强化:准确性>93%,实时的、跨语言沟通指日可待

过去的机器翻译系统往往是基于统计模型或规则模型构建的,因此翻译结果大多无法与原文一致,显得生硬、不自然,并不具备应用到不同场景的条件。现如今,华为云通过AI实现多语种实时传译,准确性>93%,可应用于实时通话、云会议等需要实时翻译场景。

同时,基于盘古媒体大模型的语音复刻、AI文字翻译以及TTS技术,便可以实现语音的同声传译,成功实现跨语言母语沟通体验。甚至还可以结合数字人技术,让数字人来模拟用户说话,结合口型模型技术做到口型与声音精准匹配,让AI翻译、数字人与语音生成高度结合用于线上开会、跨国贸易交流等场景中。

技术的“瓶颈”在收缩?

技术的创新和突破带来了数字内容生产和应用的爆发,但另一方面随着生产和应用的进程加速,相应的技术瓶颈也在出现,并不断收缩、聚焦。目前,AI大模型在数字内容生产和应用上的问题主要呈现在三个层面。

其一,能源与计算效率瓶颈。当前,大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。随着训练的token数、模型参数增加,大模型训练所需的计算量也需要随之增加。

更重要的是,其背后的成本投入是难以为继的。根据计算,训练一个5000亿参数规模的Dense模型,基础算力设施投入约10亿美金,无故障运行21个月,电费约5.3亿元——这远远超出了企业的承受范围。

但是,如果想要规模化地生产高质量的数字内容,大模型的精进又是必要的路径。在这个阶段,业内开始寻求更高效、更优的算力解决方案。像华为云昇腾AI云服务就在致力于提供方便、好用的算力服务,在算力层面不断革新计算能力和计算效率,提供从云化算力、模型开发、模型托管到生态的全栈服务。

其二,算法架构的优化挑战。随着大模型参数的增加,想要实现更好的计算结果和输出更优的答案,那么其处理的时长就会不断延长的。但是,这在实际应用中是一个困扰数字内容生产和应用的显著问题,非常不利于数字内容的规模化、商业化发展。

由此,业内也开始在算法架构上进行优化,调整计算逻辑、处理方法来实现更优效果。其中,以稀疏激活机制为代表的MoE模型就是目前AI行业的一个焦点,类似于“术业有专攻”的理念,稀疏激活机制通过对数据任务进行拆解,分门别类,再分配给特定的“专家”(Experts)进行处理,最终综合加权输出——不仅实现了计算效率优化,也让输出结果更加全面、强大。

其三,安全与伦理问题。大模型内部运行机制复杂,生产出来的内容欠缺可解释性和可控性,又易受对抗样本攻击,存在监管难题和安全漏洞。对此,在数字内容生产和应用中,相关的安全和伦理问题随着行业的广泛发展而日趋突显。

因此,在数字内容行业高速发展的阶段,尽管企业能吃上数字内容的红利,但也需要鉴别模型的安全性、可靠性,避免因模型的安全和伦理问题而引发负面舆论影响。在这样的挑战下,华为云盘古大模型也随即作出升级,在数据治理、安全合规等方面达到了较高标准。

以技术“造梦”,数字内容未来可期

新范式的明确带来更明确的技术方向,对于整个数字内容行业而言,这意味着未来的发展已经有了基础的雏形,前景仍是乐观的。但是,不可忽视的是,技术的瓶颈客观存在,且更加突出,摆在行业面前的依旧是一条较为严峻的发展之路。

尽管抛开技术瓶颈不谈,在具体的实践中,数字内容的生产和应用也不简单,往往都需要面对很多在技术之外的具像化问题,只有基于问题去一步步解决才能最终完成落地。

华为云团队在进行纪录片译制时就发现,项目实际开展起来会遇到各种各样的问题,比如环境声音太杂太乱,AI无法准确识别人声保证音译的完整度,或是随着场景的切换,人物的状态、口型都呈现出不同的样子,需要AI精准地匹配等等。

如果这些问题不一一解决,AI译制的效果就打了个大大的折扣。对此,华为云团队通过精准分析问题,采用不同的技术去解决各类细微问题,比如通过分离模型技术让环境声和人声分开,通过口型模型技术让声音与口型精准匹配等。

技术或许一直都有,但是如何用恰恰才是项目落地的关键。换句话说,在今天数字内容行业高速发展、技术创新加速迭代的阶段,只有实践了才能真正推动行业的发展。这是一个比拼项目的阶段,谁家的项目经验越丰富,越能知道相关的技术应该如何应用才能发挥出应有的效果。

目前,中影集团与华为云合作,将媒体大模型应用到影视工业,共同打造影视译制大模型,通过AI将视频译制成不同语言,并保留原始角色的音色、情感、语气,还能支持口型匹配,为影片译制提供全新的AI制作方式。

今天,数字内容迎来迸发,越来越多精彩内容面世的另一面恰恰是厂商们不断运用技术、验证技术、完善技术的过程。未来的项目之路任重而道远,同时也是行业走向成熟的必经之路。静待技术在创新中、实践中持续升级、完善,未来便更快能看到一个数字内容精彩纷呈,如同梦境一般的世界。

*本文图片均来源于网络 

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/360737.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++初学者指南-2.输入和输出---文件输入和输出

C初学者指南-2.输入和输出—文件输入和输出 文章目录 C初学者指南-2.输入和输出---文件输入和输出1.写文本文件2.读文本文件3.打开关闭文件4.文件打开的模式 1.写文本文件 使用&#xff1a; std::ofstream&#xff08;输出文件流&#xff09; #include <fstream> // 文…

MySQL中的客户端选项(三)

默认情况下&#xff0c;LOAD DATA的LOCAL功能是否可用取决于MySQL客户端库在编译时是否启用了该功能。 当只给出--local-infile&#xff08;不带值&#xff09;时&#xff0c;它启用LOCAL数据加载。当给出--local-infile0时&#xff0c;它禁用LOCAL数据加载。当给出--local-in…

算法题--华为od机试考试(最大坐标值、寻找最富裕的小家庭、两个字符串间的最短路径问题)

目录 最大坐标值 题目描述 输入描述 输出描述 示例1 输入 输出 说明 解析 答案 寻找最富裕的小家庭 题目描述 输入描述 输出描述 示例1 输入 输出 说明 解析 答案 两个字符串间的最短路径问题 题目描述 ​编辑 输入描述 输出描述 示例1 输入 输出 …

discuz插件之优雅草超级列表互动增强v1.2版本更新

https://doc.youyacao.com/9/2142 v1.2更新 discuz插件之优雅草超级列表互动增强v1.2版本更新 [title]20220617 v1.2发布[/title] 增加了对php8的支持 增加了 对discuz3.5的支持

设计模式——桥接模式

桥接模式(Bridge) 在学习面向对象的过程中&#xff0c;可能会陷入一个误区&#xff0c;只要可以用&#xff0c;都用上继承&#xff0c;就好比因为有了新锤子&#xff0c;看什么东西都像是钉子了。   事实上&#xff0c;继承可能会带来一些麻烦。比如对象的继承关系是在编译阶…

ThreeJS-截屏下载pdf或者图片时白屏

JS-页面截图下载为pdf 关于如何下载为 pdf 在上面的这篇文章中有写&#xff0c;大家可以看下&#xff0c;下载图片代码在最下面 这时我们发现 three 部分是空白的如下&#xff1a; 这就多少有点尴尬了&#xff0c;这时我们习惯性的看下后台报错 是不是发现了惊喜&#xff0c;…

AI在肿瘤学临床决策中的应用:一种多模态方法

在临床肿瘤学领域&#xff0c;多模态人工智能&#xff08;AI&#xff09;系统通过解读各类医学数据&#xff0c;展现出提升临床决策的潜力。然而&#xff0c;这些模型在所有医学领域中的有效性尚未确定。本文介绍了一种新型的多模态医疗AI方法&#xff0c;该方法利用大型语言模…

突发!OpenAI停止不支持国家API,7月9日开始执行

6月25日凌晨&#xff0c;有部分开发者收到了OpenAI的信&#xff0c;“根据数据显示&#xff0c;你的组织有来自OpenAl目前不支持的地区的API流量。从7月9日起&#xff0c;将采取额外措施&#xff0c;停止来自不在OpenAI支持的国家、地区名单上的API使用。” 但这位网友表示&am…

WordPress如何删除前端评论中的网址字段?

前面跟大家分享的『WordPress插件Comment Link Remove and Other Comment Tools&#xff0c;删除评论网址字段』一文&#xff0c;通过安装插件可轻松删除前端评论中的网址字段&#xff0c;不过有些站长不喜欢安装插件&#xff0c;那么是否可以通过纯代码去掉网址字段呢&#xf…

Harbor本地仓库搭建004_Harbor配置管理功能_分布式分发功能_仓库管理_用户管理_垃圾清理_审查服务_项目定额---分布式云原生部署架构搭建00

然后我们再看一下配置管理,这里主要有个认证模式 这里我们是数据库,其实就是我们安装的postgresql 可以看到还有LDAP对吧,这个其实就是自己公司如果有 LDAP服务器,那么可以对接过来,那么,这个时候 再登录harbor的时候,就可以直接使用公司的,LDAP来管理,所有的用户了,其实就是…

Golang | Leetcode Golang题解之第173题二叉搜索树迭代器

题目&#xff1a; 题解&#xff1a; type BSTIterator struct {stack []*TreeNodecur *TreeNode }func Constructor(root *TreeNode) BSTIterator {return BSTIterator{cur: root} }func (it *BSTIterator) Next() int {for node : it.cur; node ! nil; node node.Left {it…

CLion2024 for Mac[po] C和C++的跨平台解代码编辑器

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件&#xff08;适合自己的M芯片版或Intel芯片版&#xff09;&#xff0c;将其从左侧拖入右侧文件夹中&#xff0c;等待安装完毕2、应用程序显示软件图标&#xff0c;表示安装成功3、打开访达&#xff0c;点击【文…

【Deep Learning】Self-Supervised Learning:自监督学习

自监督学习 本文基于清华大学《深度学习》第12节《Beyond Supervised Learning》的内容撰写&#xff0c;既是课堂笔记&#xff0c;亦是作者的一些理解。 在深度学习领域&#xff0c;传统的监督学习(Supervised Learning)的形式是给你输入 x x x和标签 y y y&#xff0c;你需要训…

Android开发系列(十)Jetpack Compose之Card

Card是一种常用的UI组件&#xff0c;用于显示一个具有卡片样式的容器。Card组件通常用于显示列表项、卡片式布局或任何需要显示边框和阴影的UI元素。 使用Card组件&#xff0c;您可以轻松地创建带有卡片效果的UI元素。以下是一些Card组件的常见属性和功能&#xff1a; elevati…

【机器学习】对大规模的文本数据进行多标签的分类处理

1. 引言 1.1. NLP研究的背景 随着人工智能技术的飞速发展&#xff0c;智能助手、聊天机器人和虚拟客服的需求正呈现出爆炸性增长。这些技术不仅为人们提供了极大的生活便利&#xff0c;如日程管理、信息查询和情感陪伴&#xff0c;还在工作场景中显著提高了效率。聊天机器人凭…

Kivy tutorial 004: Making the GUI do stuff, binding to events

Kivy tutorial 004: Making the GUI do stuff, binding to events – Kivy Blog Central themes: Events and Kivy properties 中心主题&#xff1a;事件和kivy属性 We left the last tutorial with a calculator app GUI with some nice automatic behaviour, but which doe…

【自然语言处理系列】探索NLP:使用Spacy进行分词、分句、词性标注和命名实体识别,并以《傲慢与偏见》与全球恐怖活动两个实例文本进行分析

本文深入探讨了scaPy库在文本分析和数据可视化方面的应用。首先&#xff0c;我们通过简单的文本处理任务&#xff0c;如分词和分句&#xff0c;来展示scaPy的基本功能。接着&#xff0c;我们利用scaPy的命名实体识别和词性标注功能&#xff0c;分析了Jane Austen的经典小说《傲…

vue3+ts:监听dom宽高变化函数

一、效果展示 二、代码 getSize.ts import { ref, Ref, watchEffect } from "vue";export const getWidth (domRef: Ref<HTMLElement | null>) > {const width ref<number>(0);const height ref<number>(0);const observer new ResizeObs…

google浏览器无法访问大端口的处理方式

属性的目标中添加后缀内容或者修改后台端口为常用端口&#xff0c;比如8080等。 “C:\Program Files\Google\Chrome\Application\chrome.exe” --explicitly-allowed-ports8888

Matlab基础语法:变量和数据类型,基本运算,矩阵和向量,常用函数,脚本文件

目录 一、变量和数据类型 二、基本运算 三、矩阵和向量 四、常用函数 五、脚本文件 六、总结 一、变量和数据类型 Matlab 支持多种数据类型&#xff0c;包括数值类型、字符类型和逻辑类型。掌握这些基本的变量和数据类型&#xff0c;是我们进行数学建模和计算的基础。 数…