深度解读智能媒体服务的重组和进化

统一“顶设”的智能媒体服务。

邹娟|演讲者

大家好,首先欢迎各位来到LVS的阿里云专场,我是来自阿里云视频云的邹娟。我本次分享的主题为《从规模化到全智能:智能媒体服务的重组与进化》。

本次分享分为以上四部分,一是媒体服务(Mediaservices)面临的技术难题;二是如何使用统一“顶设”进行媒体服务的架构重组与规划设计;三是阿里云视频云服务不同企业客户不同场景需求面临的技术挑战、解法以及关于智能化演进的思路和实践;四是关于智能媒体服务的未来展望。

01 媒体服务(Mediaservices)的技术难题

第一部分主要介绍媒体服务(Mediaservices)的技术难题。

在此之前我们先对“媒体服务”的含义进行解释,我们将“媒体服务”定义为:客户音视频相关业务中,媒体层技术和服务能力的集合。

媒体服务当前面临的技术难题可以总结为三大类:一是如何灵活支持不同行业、市场、客户、场景的音视频业务;二是如何在此基础上满足这些迥异的业务场景的规模化需求;三是随着AIGC的兴起,在将AI技术融入媒体服务迭代的过程中,如何平衡短期利益和长期技术方向,做好长短期结合的智能化演进。

接下来对三类问题进行具体分析,首先是关于多种音视频业务如何灵活支持。

当前视频云领域包括视频点播、视频直播和音视频通信三大核心业务,他们的链路基本相同,均涵盖生产、处理、分发和消费四个主要部分。

我们的“旧有思路“是针对业务构建全链路的产品技术,而不同业务在相同环节可能拥有类似的媒体能力,如VOD产品中的“媒体处理MPS”与Live产品中的“直播转码”就非常类似,当随着视频社会化趋势不断发展,衍生出更多垂直的音视频业务时,沿用这种思路无疑会带来较多重复开发。

其次,不同场景的规模化需求大相径庭。

ToB云业务的规模化不仅包括大家印象中的“传统”大规模,如:海量、高并发、低成本等,还涵盖了诸如业务流多场景、多租户的要求,不同场景对媒体服务能力深度+广度的多样性要求等,因此ToB需要多个角度的总结、提炼和抽象。

第三是关于如何规划长短期结合的智能化演进。

针对短期,我们目前重点关注工业级AI应用的效果,当前AI的角色仍以辅助为主,多数业务为视频的检测、识别、分割等。

当前大模型及应用如雨后春笋般层出不穷,但离AGI时代的真正到来还有一定距离,我们需要关注相关的研究和技术储备如何从短期落地的状态平滑过渡,并规划一条衔接长短期演进的技术路线。

02 统一顶层设计:媒体服务架构的重组思路

基于以上背景,我们首先对音视频业务的媒体能力进行了框架式的统一顶设,定义为第0层重组。

重组前,媒体服务的各项能力已经存在于视频点播、直播、音视频通信等业务中,因此该过程并非从0到1造轮子,而是将既有媒体原子能力进行打散、重组,从而更好的实现资源复用,解决更多新业务自由搭建的问题。

重组后,媒体服务的整体框架如上图所示,最底层是基于云原生技术的存储、分发、传输等IaaS基础设施,在此之上是媒体PaaS服务的算法底座,媒体的PaaS层能力按照音视频生命周期划分为媒体汇聚、媒体生产制作、媒体处理、媒体消费和媒资管理5个板块,上层则是基于PaaS层搭建的PaaS+解决方案和各种行业场景应用。

将PaaS层5个板块进行服务的细粒度拆分,各项能力进一步内聚和丰富,形成媒体全景能力集,详见上图,列举了一些媒体服务的典型能力。

这些从不同业务中总结并提炼出的媒体服务能力,对相似性做抽象,对部分差异性做融合&增强,外加将多个服务的输入输出参数体系标准化,不仅可以提供阿里云视频云的自研服务,还具备一定的开放性,从框架层面允许通过安全认证的第三方服务的接入。

如此一来,重组后的媒体服务除了作为直播、点播等已有业务的媒体能力底座外,还为快速拓展新业务和新场景(如汽车、IOT、行业+等)提供了有效的支持。

在第0层重组做好整体规划的基础上,我们构建了统一的“媒体引擎”,进一步完成媒体服务的第1层重组。作为底层技术核心,它是媒体任务在“执行层”实现高时效、高性能及丰富功能的基石。

首先,作为持续发展的云原生服务,媒体引擎需要充分利用不同时期的机器资源,这就要求引擎层具备异构和软硬一体能力,支持CPU、GPU、ARM和ASIC等设备资源。其次,媒体引擎集成的算法既包括媒体处理算法与AI算法,也包括自研算法和二三方算法,它对算法集成进行了统一设计,通过算法效果/性能/成本自测系统、编码规范及合规自查系统、流量回放和陪跑系统保证引擎的稳定性与基础性能。第三是构建了统一的媒体处理框架,并通过单任务的分布式媒体计算引擎和复杂任务决策引擎实现底层资源的最优组织和复杂任务的最佳决策与反向调度。

近几年分布式云逐渐兴起,很多行业客户的视频服务部署在边缘云或混合云中,为了实现一套代码多云部署,我们进行了媒体服务的第2层重组。

这里主要面临两大挑战,一是不同环境依赖的组件不同,需要将依赖组件细化后进行动态配置;二是在最终部署前需要完成大量的多环境统一CICD和标准化一键部署方案。它本质上是一项统筹编程和持续集成的工作。

媒体服务的第3层重组主旨是通过定义统一的媒体数据协议及流转框架,消除数据在不同服务间转换造成的损失。

而媒资的核心角色之一正是媒体服务的数据底层,因此第3层重组最重要的工作是构建视频云不同产品服务间的统一媒资系统,设计上主要分三层:

最底层是统一媒资的数据底座,1)对直播、点播等不同服务的媒体信息构建OneMediaID,2)通过媒体流程引擎和开放服务注册构建统一工作流,3)通过统一任务处理流程、管道定义、参数模板构建统一媒体处理协议框架。

中间层为关于媒资库的统一设计,设计标准对标广电媒资,核心思路是通过统一的包括多种实体定义(如基于文本的关系型元数据库和基于特征值的向量元数据库)的动态元数据体系来支持不同形态媒资实体存储。

顶层为媒资的体系化,核心是两个体系:元数据体系与存储文件体系。关键词则是媒资体系的灵活性和自构建能力,提供不同客户可自定义媒资Structure和Value体系的能力。

03 媒体服务进阶技术:规模化挑战与全智能演进

接下来介绍关于媒体服务的进阶技术,阿里云ToB业务当前面临的最大挑战是不同场景、不同客户带来的规模化技术挑战。

与C端业务支持相对聚焦的场景不同,云视频业务因其多行业、多市场、多客户、多场景应用的背景使得高可靠、低成本、高时效等规模化难度倍增。因此规模化对于视频云厂商而言,既是“特有”的机会,也是挑战。

阿里云视频云规模化技术的整体实现思路请见下图:

首先,我们采用了云原生架构作为整体实现框架,利用云的先天优势做好弹性和按需处理,并且在视频云的IaaS层实现软硬一体、云边一体和云端一体。其次,媒体服务规模化技术的实现依赖算法、引擎、调度、分布式服务四层的相互配合,缺一不可。

以一个长视频超分加HDR的处理任务为例,分布式服务层在接受任务后负责进行流程分析和编排,并将任务指令发送至调度层,调度层负责依据任务参数进行预处理和并行拆分,引擎层负责依据拆分结果组织最优算法完成任务执行。单一任务尚且如此,海量任务高效且有质量的完成则更需要四层之间的配合。

规模化技术中的一项关键点为媒体引擎的单任务优化。

无论多么海量和大规模的媒体处理与生产任务,最终仍需被拆分为单任务进行处理,它可被看做规模化的基石。从上图中媒体处理的标准流程来看,引擎侧需综合考虑单任务全链路环节的稳定性、成本、性能以及时效性。

我们通过末端异常感知(稳定性优化)、多维度性能优化(利用算法工程优化、指令集优化、硬件加速优化和结合业务策略优化来优化单帧处理时间,进一步降低成本)、任务Quota动态调整(调度层依据引擎层动态反馈最优调整资源池配置,以节约成本)和单任务的分布式处理(将复杂任务拆分处理)实现单任务优化。

媒体引擎对基础设施的多样性支持,配合逐层递进的分布式媒体调度与PaaS服务,可放大规模化效果。

媒体引擎可以更好地联合调度层做好水位和资源池控制,实现降本增效。而业务层和引擎层程序直接接触业务特性本身,对其非常敏感,我们还可以和业务层的规则引擎更好配合,将不同客户场景要求、任务处理模式(标准模式、注重时效性的高倍速模式、注重资源独占的独享模式和注重成本的闲时模式)与任务调度、资源调度、原子服务在引擎层的执行进行逐层递进的配合,从而完成多场景和海量视频的高并发处理。

接下来介绍三个关于规模化技术的实践。首先,是最常见的关于短视频高时效性与成本平衡的实践。

短视频时长短、数量多,客户对视频处理的耗时容忍度较低,同时对成本控制的要求较高。在该场景下我们主要考虑多指标的兼顾与平衡,采用了单任务性能优化、媒体文件预处理,媒体处理多策略选择的三重优化策略。

比如可通过准确分析音视频流信息的秒级预处理为下一步决策提供依据,在某短视频场景中,客户选择以可播放作为媒体处理主策略的牵引,如果源片可播即优先播放源片,如果源片不可播,可以优先播放低分辨率转码文件,实现快速播放,如果源片有热度,需要高质量呈现,可动态替换播放地址为高画质转码视频,或者直接使用动态多码率根据设备与网络的情况,动态选择适合的文件切片播放,最终再结合上图所示策略有针对性的进行单任务性能优化。

第二个实践是关于长视频的倍速处理。

在长视频的转码与剪辑处理中,时效性无疑是最大的痛点,尤其是当客户的行业是新闻资讯等需要快速分发的场景时,则显得更加重要。与我们上个版本的的高倍速并行处理技术相比,最新版本增加了三个特性:1)高倍速并行框架既支持单入多出的转码场景,也支持输入为多轨道/素材/效果编排的时间线的剪辑场景;2)无论时间线(timeline)的格式如何,我们均支持在任意位置split,精度到帧级别;3)不依赖客户的主动配置,智能判断timeline是否适合分片以及如何分片能拿到最高的收益。

第三个实践是关于高并发的实时媒体处理与生产。

它的特点与非实时的基于文件的媒体生产完全不同,这场场景最大的痛点是在出现突发状况的情况下保证稳定性和实时画面质量,由此我们采用了多资源池隔离&容灾互备、弹性伸缩、单流自动逃逸、多维度降级策略、无缝迁移、帧级别流同步等技术来保障这一点,还会与流媒体网络的QoS紧密配合,保证客户观看实时流的体验。

那么该如何理解“规模化”与“全智能”的关系?

“规模化”和“全智能”看似无关,实际在云计算场景下它们关联密切,规模化全场景意味着AI对多业务的渗透,而AI的加入对媒体业务的时效性有较大提升,AI+云计算则令海量的视频智能处理成为可能。总体来看,全智能是实现规模化有效的手段和方法,并且随着大模型技术的发展,以前AI最被诟病的效果问题也有了相当的改善,媒体处理与生产的质量得到显著提升。我们在规模化进程中也会沿用媒体服务的顶层设计思路,持续实践全智能应用。

接下来分享关于全智能三个阶段的实践。

阶段1主要为较零散的智能辅助处理,严格意义上还不能属于全智能生产。

以生产制作、媒资和媒体处理的应用为例,在生产制作的五个主要环节中,可以看到AI的主要任务是进行预处理和预分析,为人的决策提供依据。在渲染与合成中涉及的AI特性也仅为一些单一场景的特性,会针对特定场景进行规模化微调。

在媒资与媒体处理的环节中,AI主要针对视频进行单一维度的内容理解,生成一些标签和特征值作为下一步骤的数据支持,人的参与至关重要,也难以进行全流程的规模化。

阶段2为全智能的初级阶段。

以生产制作领域为例,主要在阶段1的基础上增加了“素材智能挑选”和“时间线编排智能”两项功能。

案例视频:https://v.youku.com/v_show/id_XNTk3MDQyNzc4OA==.html

如上面的例子,根据有限的素材进行批量混剪,帮助客户进行短视频营销。在这个阶段我们尝试在无人干预的情况下规模化制作视频,将原始素材通过画面分析和AI预处理加工为中间片段,使用美学、丰富度优先等多种策略进行素材挑选,并参考短视频模板规则进行时间线的部分智能生成,最终实现利用有限素材,智能生成多个不同的营销成品视频。

阶段3为全智能的进阶。仍然以生产制作为例,在前2个阶段的基础上,我们增加了“素材生成智能”和“时间线处理智能”两项功能。

随着AIGC大模型的火爆,部分视频素材可以由人工拍摄转变为AI生成,解决了视频生产制作过程中的一项难题。而时间线的智能处理则将阶段2时间线编排中的轨道、素材、效果对象的进行综合智能处理,如驱动数字人、抠像与替换、叠加与增强等。

案例视频:https://v.youku.com/v_show/id_XNTk5NjA4OTAxNg==.html

如上视频为生成的成片效果,短短20s的视频(该视频为程序员自主生成,可忽略美学效果)囊括了视频摘要与搜索、素材片段截取、图/文生图/视频、数字人、人声复刻等多项AI技术,在这个阶段的实践中,AI已经全面覆盖了视频制作的各个环节。

那么现在的AIGC足够做出完美成片了吗?

从视频生产制作业务本身的创意、素材、编排、剪辑与包装、渲染与合成等角度来看:AIGC很难提供原创的创意;在素材生成方面,AI已经取得了比较明显的进展,但在素材及其片段的挑选方面基本还靠人工,比如文生图一般都会提供多张供用户挑选;时间线编排仍然以人工编排或模版套用为主,完全的智能化尚处于起步阶段;在剪辑与包装、渲染与合成方面,AI以传统的场景驱动和散状支持为主。

总体上,当前AIGC在视频生产制作领域主要是用于生成素材,成片以人工或固定逻辑串接为主,虽然其成长空间是巨大的,但此刻距离完美成片仍有很长的路要走。

事实上,在AIGC火爆之前,媒体服务在生产制作领域,就针对全智能进行了布局。

我们从生产制作的业务流程(创意、素材、编排、剪辑与包装、渲染与合成)出发,推演全智能的发展趋势。另一方面,生产制作的输出=媒资与媒体处理的输入,我们认为这会进一步带动媒资、媒体处理的全智能。

从上图可以看出,当前处于第三和第四阶段的初期,我们相信第五阶段终将到来,AI能够依据海量丰富的数据自行发掘创意点,做有故事的视频,真正拥有“创作力”。

04 智能媒体服务的未来展望

关于智能媒体服务的未来展望,基于当下大模型的发展趋势,我们认为基础大模型将像操作系统、浏览器一样成为AI基础设施与开发平台底座,智能媒体服务也会基于新一代智能底座围绕专业化、多场景、开放性、沉浸式和通用智能再度进化:

一是为行业化视频应用功能百花齐放做好PaaS层支持;二是利用AI进行内容创作的门槛大幅降低,大众式的视频内容创作可能即将来临;三是视频赛道的整体内容质量将大幅提升;四是对音视频体验有极致要求的场景比例将持续扩大;五是传统互联网媒资将演进为智能数字资产管理;六是媒体服务支撑的各个领域,基于大模型的企业垂直应用,将快速搭建与生成。无论技术如何演进,智能媒体服务为企业提供丰富、灵活、高效、智能的媒体能力的初衷依然不会改变。

我今天的分享就到这里,谢谢大家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/124747.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论数据库的种类

摘要 数据库是现代信息管理和数据存储的重要工具,几乎在各个领域都有广泛应用。不同类型的数据库适用于不同的应用场景和需求。本文将介绍几种常见的数据库种类,并探讨它们的特点和适用范围。 正文 一、关系型数据库(RDBMS) 关…

2023高教社杯数学建模E题思路代码 - 黄河水沙监测数据分析

# 1 赛题 E 题 黄河水沙监测数据分析 黄河是中华民族的母亲河。研究黄河水沙通量的变化规律对沿黄流域的环境治理、气候变 化和人民生活的影响, 以及对优化黄河流域水资源分配、协调人地关系、调水调沙、防洪减灾 等方面都具有重要的理论指导意义。 附件 1 给出了位…

[.NET学习笔记] - Thread.Sleep与Task.Delay在生产中应用的性能测试

场景 有个Service类,自己在内部实现生产者/消费者模式。即多个指令输入该服务后对象后,Service内部有专门的消费线程执行传入的指令。每个指令的执行间隔为1秒。这里有两部分组成, 工作线程的载体。new Thread与Task.Run。执行等待的方法。…

Map,List,Set 等集合以及底层数据结构

文章目录 概述一、Collection接口(1)List列表 —— 有序、值可重复(2)Set 集 —— 值不可重复 二、Map接口(1)HashMap —— 无序1、取模法2、Hash碰撞冲突3、解决Hash冲突 (2)HashTa…

2023 大学生数学建模竞赛-C题-第一问

题目: 在生鲜商超中,一般蔬菜类商品的保鲜期都比较短,且品相随销售时间的增加而变差, 大部分品种如当日未售出,隔日就无法再售。因此,商超通常会根据各商品的历史销售和需 求情况每天进行补货。 由于商超销…

优先发展非化石能源

生态兴则文明兴。面对气候变化、环境风险挑战、能源资源约束等日益严峻的全球问题,中国树立人类命运共同体理念,促进经济社会发展全面绿色转型,努力推动本国能源清洁低碳发展。 智慧光伏遮阳伞,搭配座椅设置智能补给休息区&#x…

如何选择靠谱的全景平台?VR全景加盟从哪方面对比?

VR全景行业经过近几年的发展,已经逐渐普及开来,线下各个行业都有实体商家开始引入VR全景去做营销宣传推广了。不少老板也意识到线上线下双渠道的重要性,而VR全景的存在就刚好满足各行各业的需求,从这一点不难看出,VR全…

(其他) 剑指 Offer 65. 不用加减乘除做加法 ——【Leetcode每日一题】

❓ 剑指 Offer 65. 不用加减乘除做加法 难度:简单 写一个函数,求两个整数之和,要求在函数体内不得使用 “”、“-”、“*”、“/” 四则运算符号。 示例: 输入: a 1, b 1 输出: 2 提示: a, b 均可能是负数或 0结果不会溢出 …

记录获取蓝鲸智云token的过程

一、使用python脚本获取蓝鲸智云token python版本环境:3.11 # -*- coding: utf-8 -*- import requestsdef get_user_token(domain,user,password):模拟用户登录,并返回 bk_token 和 bk_csrftokenBK_PAAS_HOST domainUSERNAME userPASSWORD password…

xargs如何保留文本中的引号

如果文本中有引号,直接用xargs管道操作的话,引号会丢失,如下 该如何保留每一行文本中的引号呢,需要用到xargs的-d选项,设置一个分隔符,这里可以选用换行符来分割 顺便多来一条,直接将文本参数作…

SpringBoot项目启动时预加载

SpringBoot项目启动时预加载 Spring Boot是一种流行的Java开发框架,它提供了许多方便的功能来简化应用程序的开发和部署。其中一个常见的需求是在Spring Boot应用程序启动时预加载一些数据或执行一些初始化操作。 1. CommandLineRunner 和 ApplicationRunner Spri…

视频融合平台EasyCVR综合管理平台加密机授权报错invalid character是什么原因

视频融合平台EasyCVR综合管理平台具备视频融合汇聚能力,作为安防视频监控综合管理平台,它支持多协议接入、多格式视频流分发,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包…

Ubuntu安装NVIDIA显卡驱动

目录 0. 引言1. 方法1 - 使用系统自带渠道安装2. 方法2 - 手动安装2.1. 卸载原有显卡驱动2.2. 安装显卡驱动2.3. 补救措施 0. 引言 \qquad 第一次入坑的建议看一下这部分。如果说要问我什么时候应该给Ubuntu装显卡驱动,我建议新系统用户第一件事就是安装显卡驱动&am…

江苏移动基于OceanBase稳步创新推进核心数据库分布式升级

*本文首发自《中国电信业》 数字经济时代,数据库作为企业核心数据存储、处理、挖潜等方面的关键载体,重要性日益凸显。对于运营商而言,数据库具有行业用户数量多、访问数量多、业务复杂度高、数据安全性高、响应要求性高以及需要 7*24 小时服…

【AWS实验 】在 AWS Fargate 上使用 Amazon ECS 部署应用程序

文章目录 实验概览目标实验环境任务 1:连接到实验命令主机任务 2:将应用程序容器化任务 3:构建 Web2048 容器任务 4:创建 Amazon ECR 存储库并推送 Docker 映像任务 5:创建 ECS 集群任务 6:测试应用程序总结…

智汇云舟亮相中国安防工程商集成商大会

智汇云舟亮相中国安防工程商集成商大会,以视频孪生驱动安防行业数字化转型 近日,由中国安全防范产品行业协会指导,永泰传媒主办的中国安防工程商(系统集成商)大会暨第69届中国安防新产品、新技术成果展示在石家庄圆满…

阿里云服务器怎么退款?云服务器退款流程图

阿里云服务器如何退款?云服务器在哪申请退款?在用户中心订单管理中的退订管理中退款,阿里云百科分享阿里云服务器退款流程,包括申请退款入口、云服务器退款限制条件、退款多久到账等详细说明: 目录 阿里云服务器退款…

3dsmax 蒙皮替换骨架

需求 本文描述部分来源于 TAZORN,最后附上Python实现 保留蒙皮信息,将骨骼替换成新的骨架模型M上的Skin目前指定的是骨架A,在蒙皮信息不变的情况 下更换成骨架B 替换的操作需要用到 SkinUtilities 工具 手动进行骨骼替换的方法 Snapshot原…

数学建模--时间序列预测模型的七种经典算法的Python实现

目录 1.开篇版权提示 2.时间序列介绍 3.项目数据处理 4.项目数据划分可视化 5.时间预测序列经典算法1:朴素法 6.时间预测序列经典算法2: 简单平均法 7.时间预测序列经典算法3:移动平均法 8.时间预测序列经典算法4:简单指…