【达摩院OpenVI】开源体验AI云台,去视频抖动

团队模型、论文、博文、直播合集,点击此处浏览

一、背景

随着自媒体与短视频的兴起,人们有了越来越多的拍摄视频的需求。然而由于手持拍摄、硬件限制等原因,利用手机等普通摄影设备拍摄的视频难免存在视频抖动问题。尤其是开启较高倍数的变焦后,手持拍摄很难拍摄到稳定的视频,极易产生抖动的现象。使用云台、斯坦尼康等外设可以缓解这样的抖动,但是很多时候多带一个外设降低了拍摄视频的便利程度,会使得随时随地的拍摄体验大打折扣。

那么除了换用更专业的摄影设备或使用云台等配件外,是否有其他的方法消除视频抖动呢?其实无需担忧,AI“魔法”可以对抖动的视频进行稳像,达到清晰稳定的效果。视觉增强团队在ModelScope魔搭平台开源了DUT-RAFT视频稳像算法,几行代码即可调用,无需复杂的操作,也无需复杂的输入(如陀螺仪参数等)。ModelScope网页端还上线了体验Demo,在线上传视频,鼠标一点即可畅快体验让视频变稳定的AI“魔法”。

二、体验

点击https://modelscope.cn/models/damo/cv_dut-raft_video-stabilization_base/summary 即可在线快速体验,ModelScope平台支持多种调用方式,用户可以在网页端上传抖动视频一键体验视频稳像效果;也可以在本地利用几行代码构建Pipeline,轻松调用视频稳像能力;值得一提的是,现在在ModelScope平台绑定阿里云账号,即可拥有零门槛的Notebook在线开发环境,算法、模型自动导入,省去安装环境的麻烦;并可享有长期免费的CPU资源和100小时免费的GPU算力(以官网显示为准)。

借助开源的视频稳像能力,个人视频拍摄者、Vlogger们可以方便地将原本抖动的视频变得稳定,轻松拯救“废片”;一些由于早期拍摄条件限制而抖动的老片、早期影视剧也能够在AI“魔法”的加持下重焕青春。

三、方法

视频稳像算法基本可以分为视频运动估计和运动平滑两个步骤。然而由于视频抖动成因多种多样,如视差、相机平移、空气波动等,这样复杂的空间变化导致视频运动估计十分困难;同时一些大运动的场景也为运动估计增加了额外的难度。因此对视频进行运动估计并进行平滑,同时还要保证视频清晰度、避免边缘瑕疵并减少裁剪对算法提出了很大的挑战。

一些早期的传统方法依赖手工设计的特征对视频帧进行全图的运动估计,带来了很大的计算量;或是采用单参数的运动模型(如单个仿射变换、单个单应性变化等)来估计视频运动,导致视频运动的估计并不准确。一些文献已经证实了单个单应性变换不足以表示复杂的空间变化运动。另外一些算法需要复杂的额外输入,如陀螺仪参数等硬件参数来辅助运动估计,提升了算法使用的门槛;即使增加了输入,陀螺仪参数也仅能反应相机的旋转变换,并不能处理平移运动,并不能带来非常准确的运动估计。

图1. 从早期传统方法、MeshFlow到DUT的发展历程

MeshFlow构建了空间平滑的稀疏运动场;其运动矢量仅在网格顶点处定义,相比全图的运动估计减少了计算量,能够实时运行;MeshFlow首先检测FAST特征,并利用KLT算法(Kanade-Lucas-Tomasi光流法)进行特征匹配,从而获得匹配特征点的运动矢量。接着MeshFlow在视频帧上定义一个MxN的方形网格,将每一个特征点的运动矢量被转移到其附近对应的网格顶点中。 每个网格顶点可能接受多个运动矢量,MeshFlow使用中值滤波器进行滤波,从而在每一个时刻(一帧)为每个顶点产生一个唯一的运动矢量。 随着时间的推移,网格的每一个顶点收集了不同时刻的运动矢量,MeshFlow再使用自适应路径平滑(PAPS)来对这些运动矢量进行平滑,以达到视频稳像的效果。

图2. MeshFlow的算法流程

MeshFlow取得了不错的视频稳像效果,而DUT继承了MeshFlow的思想,并结合了神经网络的强大表示能力。DUT同样将算法分为运动估计和运动平滑两个阶段,在轨迹估计阶段,DUT首先利用预训练的PWCNet生成光流、RFNet生成关键点,从而获得视频帧中每个关键点处的光流;再利用多单应性估计策略生成初始运动估计,而后使用运动细化网络来优化运动估计生成MxN网格顶点处的运动矢量。与MeshFlow类似,DUT根据时间收集每个网格顶点处的运动矢量来获得基于网格顶点的轨迹。 在轨迹平滑阶段,DUT利用网络来预测动态的平滑内核,从而实现运动平滑。与MeshFlow相似,DUT算法是无监督的,其无需成对的抖动-稳定视频对来进行训练。相比早期的神经网络监督算法,DUT能够避免困难的数据对收集,同时也取得了更好的视频稳像效果。

图3. DUT的算法流程

在DUT-RAFT算法中,DUT算法的几个问题得到了解决。首先是DUT使用预训练的PWCNet来估计光流,其生成的光流不够准确,从而影响了初始运动估计的精度;DUT-RAFT将光流预测模块替换为了较新的RAFT模型,能够更好地生成精确光流,提升运动估计精度。其次,为了适应不同类型的抖动,DUT-RAFT在训练阶段提升了训练分辨率并加入了数据增广,带来了更好的视频稳像效果。此外,为了降低计算成本,DUT算法在小尺寸的图像上进行计算和warp,再将生成的稳定视频帧进行上采样获得原始尺寸的视频帧;这样的逻辑导致稳定后的视频清晰度严重下降,影响了算法的实用性。DUT-RAFT优化了上采样逻辑,使用原图进行warp,从而保持了原始视频的清晰度,使算法能够广泛应用于各种实用场景下。

四、展望

在AI技术不断发展的当下,我们仍将继续探索视频稳像技术及其在不同场景下的应用;尤其是与AIGC能力相结合,为大家带来能够不断创造优质内容的真正AI“魔法”。

五、参考

[1] Sun D, Yang X, Liu M Y, et al. Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8934-8943.

[2] Liu S, Tan P, Yuan L, et al. Meshflow: Minimum latency online video stabilization[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part VI 14. Springer International Publishing, 2016: 800-815.

[3] Xu Y, Zhang J, Maybank S J, et al. DUT: learning video stabilization by simply watching unstable videos[J]. IEEE Transactions on Image Processing, 2022, 31: 4306-4320.

[4] Teed Z, Deng J. Raft: Recurrent all-pairs field transforms for optical flow[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part II 16. Springer International Publishing, 2020: 402-419.

[5] Choi J, Kweon I S. Deep iterative frame interpolation for full-frame video stabilization[J]. ACM Transactions on Graphics (TOG), 2020, 39(1): 1-9.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66321.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何发现异常商业数据?达摩院用这套算法

简介: 作者 | 宋晓旻 ​小叽导读:本文将集中分享阿里巴巴达摩院机器智能技术时序智能组与阿里数据团队合作成果——异常数据检测技术的演进和商业数据端的应用展示。文中提到的技术由阿里巴巴达摩院决策智能团队开发,本文由达摩院算法专家宋晓…

【达摩院OpenVI】几行代码,尽享丝滑视频观感

团队模型、论文、博文、直播合集,点击此处浏览 随着网络电视、手机等新媒体领域的快速发展,用户对于观看视频质量的要求也越来越高。当前市面上所广为传播的视频帧率大多仍然处于20~30fps,已经无法满足用户对于高清、流畅的体验追…

马云爸爸成立快一年的达摩院,究竟在做什么?

去年10月份,“马云爸爸”做了一件非常惊人的事——成立阿里巴巴达摩院。 阿里之下的达摩院,来源于武侠小说,作为武学最高研究机构,达摩院代表了修为的最高境界。同样,科研也代表了精进、执着和专注的精神。 达摩院成…

计算机如何“看懂”图片?达摩院提出新的研究方法

简介: 本文的部分内容基于英文论文"Learning in the frequency domain"翻译而来,英文论文已经被计算机视觉顶级会议Computer Vision and Pattern Recognition (CVPR) 2020接收。该论文的公开链接为:https://arxiv.org/abs/…

深度解密阿里达摩院:如何让科技与商业共舞

恐怕再没有一个科研机构被赋予这么诗意的名字,达摩院。 它来源于武侠小说,作为武学最高研究机构,达摩院代表了修为的最高境界。同样,科研也需要精进、执着和专注的精神。 或许是源于对武学的痴迷,2017年10月,阿里巴巴董事局主席马云将新成立的阿里研究院命名为“达摩院…

阿里成立达摩院,三年投入超千亿

马云表示:“阿里巴巴前十年最重要的命题是活下去,内部绝对不提成立研究院。” 阿里巴巴今年18岁了,到了成立研究院的时候了。 今天上午,在2017杭州云栖大会上,阿里巴巴CTO张建锋宣布,阿里巴巴成立全球研究…

阿里达摩院发布并开源“通义”大模型,AI底座之上促场景创新

2022 WAIC带上,达摩院发布并开源“通义”大模型,在国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。 9月2日,阿里巴巴达摩院主办世界人工智能大会“大规模预训练模型”主题论坛。会上,达…

认识一下阿里的AI殿堂-达摩院

国内三大科技领头羊BAT,BT我们已经介绍过,今天随我一起揭开阿里巴巴技术背后的神秘面纱。 1 达摩院的诞生 1.1 冠名与成立 2017年10月11日,第八届云栖大会在杭州拉开了帷幕,这次大会上,马云重磅宣布成立了阿里巴巴全球研究院,取名为达摩院(DAMO),并计划3年内,对达…

图解阿里达摩院内部结构

文章来源:ATYUN AI平台 达摩院结构图 阿里达摩院5大研究领域——机器智能、数据计算、机器人、金融科技、X实验室,旗下共设14个实验室。 ——一.机器智能领域: 1.包括:语音实验室,视觉智能实验室,语言技…

达摩院的地球云计算平台AI Earth使用体验

缘起 这几天朋友圈被AI earth刷屏了,阿里达摩院推出了基于AI与云计算的地球科学计算平台AI earth。周五我便注册了账号,周六通过了审核。我开始尝试使用AI earth。 使用初体验 首先登录AI earth的官网(https://engine-aiearth.aliyun.com/…

达摩院快速动作识别TPS ECCV论文深入解读

团队模型、论文、博文、直播合集,点击此处浏览 一、论文&代码 论文:Spatiotemporal Self-attention Modeling with Temporal Patch Shift for Action Recognition 模型&代码:https://modelscope.cn/models/damo/cv_pathshift_acti…

Python动物图像分割API简单调用实例演示,阿里达摩院视觉智能开放平台使用步骤

阿里云视觉智能开放平台 - 动物分割 效果图演示平台入口创建获取密钥本地图片转 URL 与密钥测试代码调用演示语义分割知识拓展阿里云达摩院智能视觉开放平台 效果图演示 调用本地图片处理后可以直接保存到本地,右边就是分割好的效果图,可以看到分割的效…

在本地机房享受专属公共云服务,详解阿里云本地化部署服务云盒

6月30日,阿里云宣布本地化部署服务阿里云云盒Cloud Box正式上线。从即日起,用户通过阿里云官网下单即可购买。 各行业上云已成趋势,随着大数据、人工智能、物联网、5G 等技术的快速发展,大部分公司将数字化转型列为企业的优先战略…

【洞见观点】金融领域隐私计算平台间的互联互通技术实践与研究

目录 互联互通的定义 互联互通的原则 互联互通演进史 第一阶段:业务驱动不同厂商的隐私计算平台一对一对接 第二阶段:厂商自定义自己的互通规范 第三阶段:形成行业统一的标准规范 互联互通的实现路径 第一层次:管理系统互通 1)节点发现 2)资源…

港科资讯 | 香港科技大学经济学博士2023招生夏令营

为了让有志于在经济学领域继续深造的学生与我们的师生互动,感受科大校园的学习、研究和生活环境,香港科技大学(科大)商学院经济学博士项目将于今夏举办为期两天的招生夏令营,我们欢迎广大优秀学子踊跃申请。 优秀的参与…

教授专栏37 | 黄昊: 发展虚拟资产, 须监管教育并行

文 / 黄昊教授 全球第二大虚拟货币交易所FTX早前 「爆煲」 申请破产,其创办人兼行政总裁SamBankman-Fried (SBF) 辞任行政总裁。FTX于2019年成立后,先后共获10多亿美元融资,当中不乏知名机构,包括红杉资本、软银、淡马锡及贝莱德等…

FinTech活动 | “金融科技创新应用与发展”研讨会25日在金融街举办

8月25日,由北京金融街服务局、国家金融与发展实验室金融科技研究中心主办,金融科技50人论坛、神州信息协办,中国人民大学国家发展与战略研究院、中国人民大学国际货币研究所、浙江大学互联网金融研究院、中关村互联网金融研究院、深圳市金融科…

香港科技大学有什么好的专业?

香港科技大学创办于1991年10月,是一所坐落于香港清水湾半岛的公立研究型大学。大学设有4个学院:工学院、理学院、人文社会科学学院和工商管理学院,还设有2个研究院:香港科技大学公共政策和行政研究生院和香港科技大学霍英东研究院…

达观数据荣获长三角金融科技研究院和《金融电子化》2021中国金融科技领军企业

近日,由长三角金融科技研究院和《金融电子化》杂志社联合主办的“2022金融科技创新与应用外滩高峰论坛暨第二届长三角金融科技创新与应用全球大赛总决赛”中,达观数据凭借数字化信贷办公机器人项目在此次比赛中脱颖而出,荣获“2021中国金融科…

港科招生 | 香港科大DBA(工商管理博士)项目介绍和科研成果分享

香港科大DBA(工商管理博士) 项目介绍和科研成果分享 科技会减少我们对官方数据的依赖吗? 在追求卓越研究和创新思维的抱负下,香港科技大学商学院延续其 30 年的卓越历史,坚定不移地致力于学术独创性和严谨的科研项目。…