对话小红书剑寒:如何跨方向技术融合,全局优化打造更智能的音视频系统?...

38d268b6fcfe8d1c77fc5c1cc1545258.png

编者按:在 AI 时代,随着 ChatGPT 掀起技术狂潮,构建更智能的音视频系统已经成为音视频领域从业者的共同目标。

然而,音视频系统的智能化,每个从业者对其都有自己独特的视角和理解,正如“一千个人眼中有一千个哈姆雷特”一样。尽管没有统一的标准答案,我们访谈了小红书音视频架构师剑寒,聊聊他心中的智能化:像人眼一样感知质量是智能的,利用最新图像生成技术的画质增强和修复是智能的,利用AI改善编解码效果是智能的。

智能不仅于此,音视频系统更大的智能可能在于跨方向技术融合以及系统全局优化能力,从而实现看似矛盾的业务目标。作为视频 App 的新兴入围者,小红书如何选择自己的目标?

剑寒表示:首先,在技术方向上,结合业务优先级把单点技术能力做好;其次,重点迭代一些具有长期价值和收益的技术框架,比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等;最终实现保证用户体验,又能降低成本的智能系统,从而实现业务目标的最优平衡。

希望对你有用,以下是对话:

LVS:可以概括介绍下你将在 LiveVideoStackCon 2023上海站分享的题目吗?

剑寒:我分享的题目是《基于人眼感知质量的端云结合画质及带宽优化实践》,也是”降本增效”背景下小红书的一个重点项目。如果简单看是一个端侧超分的算法落地,学术界和工业界基于这个技术点其实已经进行了很长的探索,但面向不同的业务场景和集成系统,端侧超分技术在业务目标和技术方向上会有很明显的区别。

比如面向一款新的硬件设备,只需要基于它的硬件加速器定制化地设计和优化算法即可。而视频业务及APP面向的终端用户设备多样复杂,技术优化的用户体验通常难以全面评估,落地覆盖率直接影响收益大小。

在这个场景下,端侧超分技术的演进方向不再是独立算法模块的设计和优化,而是结合从云端消费档位生产、人眼感知的质量评估到播控及端侧超分的整条视频处理链路的端到端优化,这会极大的释放端侧超分的潜力,一定程度上解决前面提到的技术挑战。本次分享是我们在这个主题下的一些系统总结和实践,当然这也是一个长期建设方向,当前我们已经拿到了一些收益,相信在这个框架下,未来通过技术迭代还会有很大的空间。

LVS:你怎么看待算力、成本和用户体验的这三角关系?

剑寒:从静态的角度来讲,不做任何技术的优化,可以考虑用更大的算力、更高的成本去实现用户体验的提升,比如大的算力可以支撑更高复杂度且更好效果的算法落地,也提升了算法处理的时效性;为了提升用户体验,我们可以提升视频消费码率,而带来带宽成本的增加。或者反过来,通过牺牲一些用户体验节省算力和成本。音视频领域有很多这种trade-off,也有很多特例,比如提升视频消费码率和分辨率一般情况会提升用户体验,但是在网络不好时可能会导致视频卡顿,用户体验反而下降。因此我更喜欢分析每个因素有什么优劣势,看每个变量在当前系统状态下会产生什么影响,针对具体业务目标case by case分析和决策。

而从动态的角度讲,由于技术是不停迭代的,可以通过技术优化同时提升用户体验并降低成本。比如现在每一代的编码标准,可以做到相同的质量下节省30%-50%的码率,这意味着用户体验基本不变,但是带宽成本就节省了很多。上面提到的端侧超分技术,也有类似的收益。除了技术优化,还有很多策略发挥作用。比如现在CDN的带宽成本是根据高峰期收费的,这里的策略是,在非高峰期的时候我可以增加码率来提升用户体验,但并不增加带宽成本。当然这里也涉及一个准确预测高峰期时段的问题。

所以说音视频这个领域,它其实是一个系统,并不是一个单一的点,我们可以从算法上以及系统的策略上同时实现看似矛盾的业务目标。

8247ecbd9db913d021e845f0a75d7ced.png

LVS:面对用户追求更高清更极致的视频体验趋势,视频编解码的技术显得至关重要,针对这个以及其它技术方向,你们团队有什么目标吗?

剑寒:视频编解码技术迭代非常重要,目前我们已经落地了H.265这一代标准,而且达到了很高的覆盖率,在研的包括AV1标准,已经开始了一些实验验证。未来H.266也可能会跟进。

除此之外,在AI时代,构建更智能的音视频处理是我们的一个目标,这里包括各种画质增强及修复技术、质量和内容分析技术、以及智能编码技术。在技术方向上,首先会结合业务优先级把单点技术能力做好,比如使用云端超分技术提升1080P视频占比,面向通用场景的纹理及清晰度视频增强。此外,我们会迭代一些具有长期价值和收益的技术框架,比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等。

现在音视频处理的智能化程度其实还有很大空间,个人理解挑战主要有两个方面:

1.音视频处理不是单一技术,从当前技术发展来看,很难用一个大模型来实现,一个更智能的视频处理系统应该是包含high level语义理解、low level图像处理、编解码技术的某种融合体,而当前算法方向的典型人才画像是聚焦在某一个技术点上。我相信未来复合型人才和具有系统理解的算法人有机会做出突破。

2. 智能化意味着大数据驱动,ChatGPT的训练数据可以来自高质量的问答,通过自监督训练进行大规模学习,构建高质并准确的数据集在音视频领域会更加困难,Groudtruth以及退化模型是否准确通常是音视频算法面临的第一个关键问题。

目前业界的探索更多的集中在单点能力的智能化,比如利用图像生成技术的画质增强算法、利用AI提升编解码子模块效率等,这些都是我们可以跟进的技术点,但我们也希望在跨方向技术融合以及全局优化能力上做更多的探索和实践,为此来找到提升音视频系统智能化的有效途径。

LVS:每个人都有自己认为的主观好与坏,所以,该如何验证画质优化算法对主观质量提升是否有效?

剑寒:这个问题其实也是前一个问题回答中所说的“构建高质并准确的数据集在音视频领域会更加困难”的一个佐证,每个人对于画质好坏的判断都是不一样的。不过,是有国际标准来指导的,简单说就是,在一个可控环境条件下,通过专家评测和众测来判断画质是否有提升,其中众测是对于同一个视频收集多人的评价结果,通过统计的方法来消除个体上的差异,虽然不一定符合某个人的判断标准,但是代表了大多数人的意见。

当然,主观专家评测和众测由于时间和操作成本只能在小数据量上验证,真正上线还需要经过大盘的检验,这里一般会使用AB实验的方式,通过对比一些关键业务和技术指标来佐证大盘上的表现。需要注意的是,AB实验的影响因素很多,不完全是画质上的,需要结合方案具体分析实验数据。

LVS:作为一个非常大的UGC内容社区,小红书图像或视频的来源可以说非常宽泛,所以有时真实拍摄环境不受控,导致内容质量不能保证。这种质量评价问题,你是怎么处理的?

剑寒:我们今年落地了一个基于AI的无参考视频质量评估算法来解决这个问题,它基于人眼感知质量对任意视频做绝对质量评判,像你说的,UGC视频的多样性对于数据驱动的AI算法来说是一个挑战。此外,当视频经过整个视频链路的处理后质量变化也极大,带来了更大的复杂性,比如特效编辑、多档位视频增强和转码等。因此,数据集是要精心设计的,既要包含线上的主要质量问题,同时需要主动构造一些难以直接从线上采集到的case,核心点是,如何用尽量少的数据样本代表大盘,这里有一些技术上的辅助手段,比如数据采样方法。

算法设计上,重点是如何有效提取质量特征,这里需要对质量问题的产生过程有充分的认知,比如视频链路中编辑和转码会如何影响质量,我总结几个关键点分享给大家:

1. 全局构图和局部纹理信息都很重要,质量相关特征体现在局部纹理上,而劣化程度在于全局感知;2. 捕捉大范围时空信息及依赖关系,人眼对质量的感知涉及到整体语义理解、关注区域、创作意图理解等,很多视频处理操作会在较大的时空范围内影响质量,比如码率分配、ROI编码等。3. 质量评估数据集的量级和完备程度远低于分类识别等CV任务,我们需要某种显式地辅助质量特征提取的手段,一种方法是通过添加有序的质量样本或者利用质量评估的代理任务,进行数据增强及质量特征自监督学习。

5ade422295dd6325e90516f24b0cd268.png

扫描图中二维码或点击“阅读原文 查看更多精彩内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15927.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

那些年转行做程序员的朋友,如今怎样了

这篇文章记录了砍老师亲历的15年前后转码同学的后续,有一定时代背景下的参考意义,分享下。 砍老师:本文流水账记录一下从2015年毕业以后我身边的同学,朋友的转行互联网的故事,以及作为一个旁观者的感想和反思。 链接:https://zhua…

英伟达GTC发布会—AI的决定时刻

一.加速库 NVIDIA率先推出加速计算,着力解决普通计算机无法解决的问题。加速计算并非易事,它需要从芯片,系统,网络,加速库,到重构应用的全栈发明。 加速后,应用可以获得难以置信的速度&#xff…

音视频技术开发周刊 | 288

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 YC爆发AIGC潮,100项目完整盘点 硅谷顶级孵化器Y Combinator冲向AI创业者,2023冬季孵化营一口气选了百家AI相关的创业项目,占到今年总孵…

谷歌云开启GPU算力狂飙,驱动AIGC时代加速到来

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 随着人工智能的飞速发展,尤其是大型AI模型、AIGC的崛起,对AI算力产生了巨大的需求。以GPU为核心的算力供给,已经成为大模型、AIGC乃至整个智能产业发展的关键基础设施。因此,对…

互联网成围城,“转码”神话破灭?身在其中的程序员何去何从

前言 在数字化的时代,程序员的角色正在变得越来越重要,尤其在互联网行业,程序员的薪资和发展前景都是非常吸引人的。然而,随着市场的发展和变化,互联网行业也在悄然发生改变。近年来,"转码"成为…

恐怖的GPT4,轻松解决支付宝乱码问题!

最近有反馈说支付宝的理财页面出现了中文乱码,估计不少小伙伴和我一样,都惊呆了😮!阿里这种大厂还能出现这种低级错误? 难道人力都投入到“通义千问”的突然发布上了? 那借这个机会,我就来和大…

一个时代彻底结束了

你好,我是厂长。 之前有很多读者咨询我说:当下的互联网前景怎么样?还有必要转码吗? 不管是非科班的朋友,还是正在学习计算机专业的同学,相信大家都有这个疑惑,因为职业的选择,不仅关…

只知道ChatGPT?偷偷告诉你金融民工都在学的13个王炸金融AI工具,搞钱效率提升10倍!

要论金融民工的日常工作,读报告绝对排在第一位。 大量的财报、研报、背调资料、会议记录等等,动辄一份就几十页、上百页,导致很多朋友一看到报告就头疼。 下面这些AI工具,可以帮我们快速总结报告的主要内容,在短时间内…

开源赋能 普惠未来——回顾全球数字经济大会及开放原子全球开源峰会(Intel专题)

一、峰会背景 2023年6月11日至13日,中国北京迎来了一场全球数字经济大会和开放原子全球开源峰会的盛会。这次大会在北京北人亦创国际会展中心隆重举行,为来自世界各地的数字经济和开源社区的代表们提供了一个共同交流、合作的平台。 本次大会以"开…

AIGC来了,你的版权还安全吗?

引言 |人工智能生成内容(AIGC)是热度居高不下,据Gartner预计,到2025年,AIGC将占全球所有生成数据的10%,以ChatGPT、Stable Diffusion为代表的现象级应用受到强势追捧,AIGC毫无疑问是强有力的生产…

比ChatGPT更好用的Claude来了

比ChatGPT更好用的Claude来了,不需要魔法上网!!! claude官网 点击 add to slack slack跟discord有点类似,先要去slack注册账号 登录之后就添加创建一个工作区 添加 不过现在已经停止添加了,会出现App u…

ChatGPT的竞争对手:Claude 简介

Introducing Claude 克劳德简介 After working for the past few months with key partners like Notion, Quora, and DuckDuckGo in a closed alpha, we’ve been able to carefully test out our systems in the wild, and are ready to offer Claude more broadly so it can…

ChatGPT被超越了?OpenAI核心成员出走,打造Claude模型

文|衡宇 萧箫 源|量子位 因不满老东家成为微软附庸,11名OpenAI前员工怒而出走。 如今带着“ChatGPT最强竞品”杀回战场,新公司估值50亿美元,一出手就获得3亿美元融资。 这家公司名叫Anthropic,新推出的聊天…

GPT前2代版本简介

承接上文ChatGPT进化的过程简介 2018年,Google的Bert和OpenAI的GPT绝代双骄,两者非常像,都是语言模型,都基本上是无监督的方式去训练的,你给我一个文本,我给你一个语言模型出来。 GPT前两代没有什么特别的…

强人工智能时代,区块链还有戏吗?

最近很多人都在问我,ChatGPT 把 AI 又带火了,区块链和 Web3 被抢了风头,以后还有戏吗?还有比较了解我的朋友问,当年你放弃 AI 而选择区块链,有没有后悔? 这里有一个小背景。2017 年初我离开 IBM…

chatgpt赋能python:Python抽奖程序:让彩票游戏更加有趣

Python抽奖程序:让彩票游戏更加有趣 随着科技的进步,彩票抽奖游戏已经成为许多人喜爱的活动之一。为了增加游戏的趣味性和公正性,许多抽奖游戏采用了Python编程语言来实现程序。本文将介绍Python抽奖程序的基本原理和使用方法,让…

独立开发者案例:每周4h月入数万刀;国家数据局与时代红利;创业前先买个域名;工程师成长最重要的是什么 | ShowMeAI周刊

这是ShowMeAI周刊的第6期。聚焦AI领域本周热点,及其在各圈层泛起的涟漪;关注AI技术进步,并提供我们的商业洞察。欢迎关注与订阅!👀日报合辑 ⌛ 独立开发者案例:每周只工作4小时,独立开发者打造月…

王炸-GPT4.0的新能力与商业价值

转自微信公众号:嵌入式单片机之家 有多王炸 ? GPT-4 可以接受文本和图像输入,允许用户指定任何视觉或语言任务。具体来说,它在给定文本和图像输入的情况下能够生成文本输出(自然语言、代码等)。在一系列其它…

OpenAI宣布漏洞赏金计划,最高奖金2万美元

安全问题,已经成为 ChatGPT 和 GPT-4 等 AI 大模型是否能够大规模应用在各行各业的重要问题之一。OpenAI 也因为这一问题受到了业内人士、监管部门的诸多批评。 今天,OpenAI 官方发布了一篇名为 “Announcing OpenAI’s Bug Bounty Program” 的博客文章…

王慧文因健康问题辞任美团董事;数百万GitHub项目易受依赖库劫持攻击;特斯拉首台超级计算机或在七月投产|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…