百度云智能媒体内容分析一体机（MCA）建设

导读：本文主要介绍了百度智能云MCA产品的概念和应用。

媒体信息海量且复杂，采用人工的方式对视频进行分析处理，面临着效率低、成本高的困难。于是，MCA应运而生。它基于百度自研的视觉AI、ASR、NLP技术，为用户提供音视频、图片、文本的内容分析能力，实现标签提取、智能封面提取、高光片段分析等功能。

01 背景与目标

对于涉及广电新闻、娱乐社交等UGC、AIGC的企业来说，有效地收集、整理、分析和呈现视频内容，不仅能帮助企业在竞争中拔得头筹，还有利于做出更优的业务决策。可是，这会面临一些挑战：

标签要覆盖大量业务场景，否则就需要建设多个数据集，不易于统计和分析；
分析维度应支持自由配置，否则无法满足个性化的业务需求；
支持分析不同格式的媒体内容，同时，处理视频的速度要快。

百度智能云媒体内容分析（Media Content Analysis），就是为了帮助企业提高内容分析的效率、缩减平台的人力成本，而建设的一体机产品：

MCA将AI技术落地于媒体行业内容分析场景，可以助力企业内容推荐与搜索业务发展，赋能媒体行业，助力产业升级。

02 技术方案

根据公开信息可知，MCA的定位是“实现智能媒体内容分析的一体机产品”，用户可以选择公有云或私有化的部署方式，自定义配置内容分析的维度，并呈现可视化的分析结果。

AI技术托底（大模型）：MCA借助百度强大的 AI 技术、沉淀已久的海量级数据，针对视频场景进行专门的优化，可以达到最优的识别效果。

影视综知识图谱（业内领先）：根据影视剧/综艺类视频的场景、人脸、标题等内容，推理返回剧集名称、别称、演员表、一句话简介、上映时间、地点等信息，帮助补充视频标签。

公众人脸库（专业）：基于百度百科的海量人脸数据，收录了领导人、艺术家、影视明星、体育明星、社会活动家等国内外公众人物，总数量超70万。

召回率提升（高效）：对比人工浏览视频内容标注出的视频标签的数量，使用视频内容分析MCA的结构化标签数量提升了10倍左右，能够准确描述视频中的细节内容、提升视频的搜全率。

2.1 整体架构

按照功能划分，MCA的层级架构如图所示：

业务系统的核心功能如图所示：

MCA产品的主要功能如下：

a. 智能视频标签：为视频文件或直播流的内容打标签，可输出视频的场景、公众人物、地点、实体和关键词等结构化标签信息；

b. 智能图片标签：对图片内容进行打标签，可输出图片中公众人物、logo、实体和关键词等结构化标签信息；

c. 智能封面：通过对视频、图像等内容理解，从图像清晰度、构图美学和精彩程度等方面分析，生成视频的静态封面、动态封面、视频封面；

d. 精彩视频分析：通过场景切分、音频特征分析等技术，提取影视综长视频中的高光时刻。

2.2 技术实现的细节阐释

登录百度智能云平台官网，进入“一念 > 内容分析”产品页面。

2.2.1 智能标签

登录成功、进入产品页面后，进入智能标签 > 视频内容分析，点击“创建视频内容分析”，创建分析任务。

MCA支持三种视频导入方式：本地文件导入、BOS 地址导入、在线地址导入。

输入限制：

文件格式：3gpp、asf/wmv、avi、flv/f4v、mkv、mov/mp4/m4a、mp3、mp2、mpeg/mpg、ts/ogg、mts、wmv/wma、rm/rmvb、webm等；

视频编码标准：H.264、H.263/H.263+、MPEG-1/2/4、VP8/9、Quicktime、RealVideo、WMV、MJPEG等；

音频编码标准：MP1、MP2、MP3、AAC、AC-3、WMA、PCM、ADPCM、AMR、RealAudio、Vorbis、DSD等；

分析时长6小时以内，分辨率大于30X30；

分析视频的audio、video编码信息须至少存在一个，不能为空；

可批量上传音视频文件，最多可同时上传20个文件。

分析过程中可以看到分析状态（排队中→分析中→分析完成/分析失败）。如果分析失败，可以将鼠标移到分析失败旁边的图标上查看失败原因。若分析完成，则可查看分析结果。

点击分析完成视频的“查看详情”按钮，即可查看视频分析的结果.

右侧的页签可以查看不同维度的中间分析结果，下侧为标签提取结果。

2.2.2 智能封面

开启后，系统将结合清晰度、人脸、构图、场景识别等特征信息，综合输出视频中适合做封面的图片。

点击智能封面分析，进入智能封面分析页面。

点击创建智能封面分析，创建分析任务。

分析过程中可以看到分析状态（排队中→分析中→分析完成/分析失败）。

点击分析完成视频的“查看详情”按钮，即可查看视频的封面结果。

2.2.3 精彩视频分析

登录成功、进入产品页面后，点击精彩视频分析，进入精彩视频分析页面。

点击创建精彩视频分析，创建分析任务。

分析过程中可以看到分析状态（排队中→分析中→分析完成）。

分析完成后，点击“查看详情”按钮，即查看视频的精彩片段。

2.2.4 自定义库

系统支持自定义LOGO库与自定义人脸库、自定义文本库功能。

自定义人脸库，区别于公共人物库，目的在于可以让客户管理自身业务所需的人脸集，是公共库的重要补充。

人脸照片的要求：正面的（证件照类型的正面）或微微侧面的（五官显示完整）、面部光线均匀（轮廓清晰，无口罩、帽子、深色墨镜遮挡，无浓妆）。对于戴眼镜的人脸，眼镜框不可遮挡眼睛区域，镜片应无色或不严重反光。
画质：画质清晰、面部区域不要有字幕、水印等遮挡物。
数量：一个人物需要5张左右照片。

自定义人脸库的关系如下：

支持用户配置自定义LOGO库，并绑定在模板上。

自定义文本库创建后，用户可选择将其关联为黑库或白库。

03 总结

在大模型的加持下，MCA能够更好地帮助企业降本增效：

业务提效：对比人工浏览视频内容标注出的视频标签，使用媒体内容分析 MCA 可提升 3~5 倍的分析效率。
部署灵活：可通过SaaS、API接口调用、私有化部署的方式接入MCA服务，轻松适配多种业务场景，满足企业各种业务需求，能快速实现集成和落地。
管理便捷：支持创建普通用户和超级管理员用户，普通用户仅能使用产品功能，不具备用户管理权限，超级管理员用户具备用户管理权限；不同用户之前的视频分析历史任务可以互相隔离。

————END————