导读 :本文主要介绍了百度智能云MCA产品的概念和应用。
媒体信息海量且复杂,采用人工的方式对视频进行分析处理,面临着效率低、成本高的困难。于是,MCA应运而生。它基于百度自研的视觉AI、ASR、NLP技术,为用户提供音视频、图片、文本的内容分析能力,实现标签提取、智能封面提取、高光片段分析等功能。
01 背景与目标
对于涉及广电新闻、娱乐社交等UGC、AIGC的企业来说,有效地收集、整理、分析和呈现视频内容,不仅能帮助企业在竞争中拔得头筹,还有利于做出更优的业务决策。可是,这会面临一些挑战:
-
标签要覆盖大量业务场景,否则就需要建设多个数据集,不易于统计和分析;
-
分析维度应支持自由配置,否则无法满足个性化的业务需求;
-
支持分析不同格式的媒体内容,同时,处理视频的速度要快。
百度智能云媒体内容分析(Media Content Analysis),就是为了帮助企业提高内容分析的效率、缩减平台的人力成本,而建设的一体机产品:
MCA将AI技术落地于媒体行业内容分析场景,可以助力企业内容推荐与搜索业务发展,赋能媒体行业,助力产业升级。
02 技术方案
根据公开信息可知,MCA的定位是“实现智能媒体内容分析的一体机产品”,用户可以选择公有云或私有化的部署方式,自定义配置内容分析的维度,并呈现可视化的分析结果。
AI技术托底(大模型):MCA借助百度强大的 AI 技术、沉淀已久的海量级数据,针对视频场景进行专门的优化,可以达到最优的识别效果。
影视综知识图谱(业内领先):根据影视剧/综艺类视频的场景、人脸、标题等内容,推理返回剧集名称、别称、演员表、一句话简介、上映时间、地点等信息,帮助补充视频标签。
公众人脸库(专业):基于百度百科的海量人脸数据,收录了领导人、艺术家、影视明星、体育明星、社会活动家等国内外公众人物,总数量超70万。
召回率提升(高效):对比人工浏览视频内容标注出的视频标签的数量,使用视频内容分析MCA的结构化标签数量提升了10倍左右,能够准确描述视频中的细节内容、提升视频的搜全率。
2.1 整体架构
按照功能划分,MCA的层级架构如图所示:
业务系统的核心功能如图所示:
MCA产品的主要功能如下:
a. 智能视频标签:为视频文件或直播流的内容打标签,可输出视频的场景、公众人物、地点、实体和关键词等结构化标签信息;
b. 智能图片标签:对图片内容进行打标签,可输出图片中公众人物、logo、实体和关键词等结构化标签信息;
c. 智能封面:通过对视频、图像等内容理解,从图像清晰度、构图美学和精彩程度等方面分析,生成视频的静态封面、动态封面、视频封面;
d. 精彩视频分析:通过场景切分、音频特征分析等技术,提取影视综长视频中的高光时刻。
2.2 技术实现的细节阐释
登录百度智能云平台官网,进入“一念 > 内容分析”产品页面。
2.2.1 智能标签
登录成功、进入产品页面后,进入智能标签 > 视频内容分析,点击“创建视频内容分析”,创建分析任务。
MCA支持三种视频导入方式:本地文件导入、BOS 地址导入、在线地址导入。
输入限制:
文件格式:3gpp、asf/wmv、avi、flv/f4v、mkv、mov/mp4/m4a、mp3、mp2、mpeg/mpg、ts/ogg、mts、wmv/wma、rm/rmvb、webm等;
视频编码标准:H.264、H.263/H.263+、MPEG-1/2/4、VP8/9、Quicktime、RealVideo、WMV、MJPEG等;
音频编码标准:MP1、MP2、MP3、AAC、AC-3、WMA、PCM、ADPCM、AMR、RealAudio、Vorbis、DSD等;
分析时长6小时以内,分辨率大于30X30;
分析视频的audio、video编码信息须至少存在一个,不能为空;
可批量上传音视频文件,最多可同时上传20个文件。
分析过程中可以看到分析状态(排队中→分析中→分析完成/分析失败)。如果分析失败,可以将鼠标移到分析失败旁边的图标上查看失败原因。若分析完成,则可查看分析结果。
点击分析完成视频的“查看详情”按钮,即可查看视频分析的结果.
右侧的页签可以查看不同维度的中间分析结果,下侧为标签提取结果。
2.2.2 智能封面
开启后,系统将结合清晰度、人脸、构图、场景识别等特征信息,综合输出视频中适合做封面的图片。
点击智能封面分析,进入智能封面分析页面。
点击创建智能封面分析,创建分析任务。
分析过程中可以看到分析状态(排队中→分析中→分析完成/分析失败)。
点击分析完成视频的“查看详情”按钮,即可查看视频的封面结果。
2.2.3 精彩视频分析
登录成功、进入产品页面后,点击精彩视频分析,进入精彩视频分析页面。
点击创建精彩视频分析,创建分析任务。
分析过程中可以看到分析状态(排队中→分析中→分析完成)。
分析完成后,点击“查看详情”按钮,即查看视频的精彩片段。
2.2.4 自定义库
系统支持自定义LOGO库与自定义人脸库、自定义文本库功能。
自定义人脸库,区别于公共人物库,目的在于可以让客户管理自身业务所需的人脸集,是公共库的重要补充。
-
人脸照片的要求:正面的(证件照类型的正面)或微微侧面的(五官显示完整)、面部光线均匀(轮廓清晰,无口罩、帽子、深色墨镜遮挡,无浓妆)。对于戴眼镜的人脸,眼镜框不可遮挡眼睛区域,镜片应无色或不严重反光。
-
画质:画质清晰、面部区域不要有字幕、水印等遮挡物。
-
数量:一个人物需要5张左右照片。
自定义人脸库的关系如下:
支持用户配置自定义LOGO库,并绑定在模板上。
自定义文本库创建后,用户可选择将其关联为黑库或白库。
03 总结
在大模型的加持下,MCA能够更好地帮助企业降本增效:
-
业务提效:对比人工浏览视频内容标注出的视频标签,使用媒体内容分析 MCA 可提升 3~5 倍的分析效率。
-
部署灵活:可通过SaaS、API接口调用、私有化部署的方式接入MCA服务,轻松适配多种业务场景,满足企业各种业务需求,能快速实现集成和落地。
-
管理便捷:支持创建普通用户和超级管理员用户,普通用户仅能使用产品功能,不具备用户管理权限,超级管理员用户具备用户管理权限;不同用户之前的视频分析历史任务可以互相隔离。
————END————
推荐阅读
产品分享|百度智能云旗下,作为“行业首创”的媒体内容分析MCA是什么_智能媒体分析-CSDN博客
干货分享|视频的结构化标签问题_长视频内容结构化标签-CSDN博客
玩转百度云 AI 服务:成为海量视频的超级管理员!-CSDN博客