助力 VR/AR 等复杂图像场景极致高清,火山引擎夺得 NTIRE 大赛双料冠军

动手点关注

47444f5387055eae1270db7c8be94fd0.gif

干货不迷路

近日,CVPR Workshop 下属的 NTIRE2023大赛公布比赛结果,在双目超分双三次插值保真赛道和 360° 全景图像超分赛道上,火山引擎多媒体实验室凭借自主研发的算法获得了双料冠军,技术能力达到行业领先水平。

NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。

ca8db2eac76231fb4b37841948884678.png

4d91d2ac351b877fd89ca5764955ce55.png

双目超分比赛结果

338a5613176b3fdceee1e160d69e4931.png

c61a70c9f665a5972a9c01688426a859.png

360°全景图像超分比赛结果

双目超分(双三次插值保真)赛道:自研 HTCN 网络,显著提升立体视觉图像分辨效果

随着双目成像技术的发展,移动电话、虚拟现实、自动驾驶和机器人中的双目相机应用越来越受欢迎,高分辨率双目图像包含更多的纹理细节,具有更好的主观视觉效果,且可以提升下游任务性能, 因此立体视觉引起了学术界和工业界的越来越多的关注。双目图像超分的简单直接方式是将单图超分辨率算法分别应用于左右视角图像,但是这样会忽略双目图像左右视角之间的信息关联--左右视角图像可以在超分过程中利用左右视角间的互补信息互为参考,同时也为双目图像超分提供额外的先验约束。因此合理利用左右视角间的互补信息对提升双目图像超分性能至关重要。本次竞赛双目超分双三次插值保真赛道旨在为双目图像SR建立一个利用双三次插值下采样的基准,并且利用最后的保真指标作为评价指标,为研究人员提供了一个共同分享他们的知识和见解的机会,推进算法性能的提高,促进立体图像超分辩技术的发展。

在图像恢复任务中,经常采用多阶段的处理策略。虽然基于 Transformer 的方法在单图像超分辨率任务中表现出高效率,但在立体超分辨率任务中还没有展现出比基于 CNN 的方法更显著的优势。这可以归因于两个关键因素:首先,当前的单图像超分辨率 Transformer 在处理过程中无法利用补充的立体信息;其次,Transformer 的性能通常依赖于充分的数据,而在常见的立体图像超分辨率任务中缺乏足够的数据。为了解决这些问题,团队提出了一种混合 Transformer 和 CNN 注意力网络(HTCAN),它利用基于 Transformer 的网络进行单图像增强和基于 CNN 的网络进行立体信息融合。此外,团队采用了 multi-patch 训练策略和更大的窗口尺寸,以扩大感知域。团队还重新审视了其他高级技术,如数据增强、数据合成和模型合成,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。

论文链接: https://arxiv.org/pdf/2305.05177.pdf

34b97ca519b446a670eb1f575ed11070.png

整体双目超分策略

360° 全景图像超分赛道:两阶段框架提升全方位视角图像分辨率

360° 全景图像是一种能够呈现全方位视角的图像,能够提供更加沉浸式和交互式的体验,因此在 VR/AR 应用中得到了广泛的应用。然而,由于采用的鱼眼镜头等原因,360° 全景图像的分辨率较低,影响了图像的清晰度和细节。因此,如何提高 360° 全景图像的分辨率成为了一个重要的研究方向。

超分辨率是一种图像处理技术,旨在通过从低分辨率图像中恢复高分辨率图像的细节信息来提高图像的分辨率。在 360° 全景图像中,超分辨率技术可以通过从低分辨率的全景图像中恢复缺失的高频信息来提高图像的清晰度和细节,从而提高用户的体验。

在此次竞赛中,团队提出了一种 360° 全景图像超分辨率的两阶段框架。第一阶段采用了两个分支:Model A,它包含全景位置感知可变形块(OPDB)和傅里叶上采样;Model B 在模型 A 的基础上增加了空间频率融合模块(SFF)。Model A 旨在增强 360° 图像位置信息的特征提取能力,而 Model B 进一步关注 360° 图像的高频信息。第二阶段基于 Model A 的结构进行 360° 图像的同分辨率增强。此外,团队从公开数据集收集球面数据并使用退化网络生成伪低分辨率图像,以提高 Transformer 的拟合能力。团队提出的方法取得了卓越的性能,并赢得了 NTIRE 2023 360° 全景图像超分辨率挑战赛的冠军。

论文链接: https://arxiv.org/pdf/2304.13471.pdf

4f9a895a264e6c9910d69063f57bed1d.png

整体球面超分策略

7509d27a2374293e99cca90a8c93b029.png

Model A 和 Model B 的网络结构

火山引擎多媒体实验室在双目超分双三次插值保真和 360° 全景图像超分领域实现了突破性的进展,并获得了双赛道冠军。两项技术方案可以帮助广大用户在多样化的复杂场景中获得更为清晰、精细的图像展现效果,有助于推动视频行业向着更加智能化、高效化的方向发展。其中,360° 全景图像超分技术已在幸福里 app 落地应用,并通过火山引擎 veImageX 产品面向企业开放。

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

加入我们

字节跳动视频架构是字节跳动的视频中台部门,支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展,目标成为业界多媒体解决方案领先者,构建极致的视频技术/产品服务体验。

目前,视频架构团队已通过字节跳动旗下的火山引擎向企业开放技术能力和服务。

火山引擎 联系方式

  • 业务咨询:service@volcengine.com

  • 市场合作:marketing@volcengine.com

  • 电话:400-850-0030

扫描下方二维码 or 点击文末阅读原文进行简历投递,加入我们,让我们一起做多媒体领域的领军者!

d176b8e99b061ad7321639da9f9ef846.png

视频编解码算法工程师-多媒体实验室(北京/上海/杭州/深圳职位开放)

fe61349980e6320832dae66642312ff6.png 点击「阅读原文」即刻投递

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30150.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4进行数据分析的成本不到人类分析师的1%;北京将新增算力建设项目;迈富时赴港上市丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 网易云音乐前CEO朱一闻进入AI教育领域创业 近日,据报道,网易云音乐前CEO朱一闻已在AI教育领域创业。朱一闻已在杭州完成团队搭建,核心成员包括网易云音乐早期创始员工、海康威…

施一公:我直到博士毕业,对研究也没兴趣,很迷茫,不知道将来干什么

来源 | 学术志 作者 | 施一公 我从来没有机会来北大做学术讲座,或是跟同学们在一块聊聊天,因此我非常珍惜这个机会。借这个机会我想把我的经历分享一下,推心置腹,毫无保留地分享。我之所以愿意把我的一些经历讲出来,是…

CSDN接入AIGC辅助创作,对此你怎么看?

catalogue 🌟 写在前面🌟 GitChat🌟 百万粉丝计划🌟 CSDN接入AIGC?🌟 写在最后 🌟 写在前面 哈喽,大家好,我是几何心凉,这是一份全新的专栏,得到…

解决国外链接下载软件速度慢的方法

无论是下载vagrant,还是vscode,还是centos7,只要你进了官网,点击下载,打开浏览器的下载管理器,你就会看到这个东西(这里以vscode为例) 右键它,选择复制下载地址&#xf…

访问外国网站太慢

访问外国网站太慢,如trello\github 1.访问https://www.ipaddress.com. 2.搜索跳转,随便选择一个ip, Type要A 3.改电脑的hosts文件,将域名解析直接指向IP,绕过DNS步骤 hosts文件路径:** C:\Windows\System32\driver…

git克隆速度太慢的解决方法

https://blog.csdn.net/hzwwpgmwy/article/details/79043251 第一步: 直接把网址对应的IP放进hosts文件,这样就省去了DNS解析的时间, 步骤如下: 1、查找域名对应的ip地址,并修改hosts文件 nslookup github.global…

什么原因导致香港服务器变慢?解决办法

香港服务器慢有哪些解决方法?导致香港服务器慢的原因有很多,解决香港服务器慢也需要根据具体原因和选择正确的香港服务器配置线路来决定的,下面我们就看看影响香港服务器慢的原因有哪些以及解决方法。 香港服务器慢的原因有哪些? 导致香港服务器慢的原…

为什么企业传统网络访问海外应用程序不稳定、速度慢?怎么解决?

外贸、游戏等行业经常会有跨网数据访问的需求,并且访问慢、卡是常见的问题。这其中主要的原因是网络访问速度与物理距离有直接关系。刨除距离原因,还有哪些因素影响了我们的访问呢?那么访问国站慢的影响因素有哪些? 在中国的国内用户,使用应…

外国官方网站下载文件速度缓慢

我们经常要下载东西,特别是一下专业软件就不得不到官方网站下载了,但很多这样的软件常常需要到外国的一些官方网站里下载了。可是,也经常遇到下载速度过于缓慢的的问题,在这我是用了一个简单但是略显笨的方法,但是也挺…

【精选优质人物美图 InsCode Stable Diffusion 美图活动一期】自测使用Inscode-AI绘图模型生成精美图片详细教程(无需任何配置,小白也能立马运行)

目录 InsCode平台功能简介登录网址:创建项目创建AI应用Stable Diffusion 模型生成优美图片一、 Stable Diffusion 模型在线使用地址:二、模型相关版本和参数配置:三、图片生成提示词与反向提示词:四、种子及对应图片展示&#xff…

langchain简版教程附案例

简介 LangChain是一个开源的应用开发框架。基于该开源框架,我们可以把大模型与各种工具结合从而实现各种功能,比如基本文档的问答,解析网页内容、查询表格数据等。目前支持Python和TypeScript两种编程语言。当前Python框架支持的模型和功能最…

10年首次登顶!CVPR 2023大奖揭晓:上海AI实验室/武大/商汤破纪录夺魁,西工大斩获最佳学生论文...

新智元报道 编辑:编辑部 【新智元导读】CVPR 2023大奖终于来了!上海AI实验室、武大、商汤科技联合提出的自动驾驶通用大模型斩获本届最佳论文,西北工业大学团队夺得最佳学生论文。中国原创AI实力闪耀国际顶会,华人科研团队大放异…

微软又向OpenAI狂砸100亿美元!巨头AI大棋下4年,谁是最大赢家?

视学算法报道 编辑:编辑部 【导读】AI领域群雄激战,到了2023年,微软逐渐显出了「赢家」的势头。 2023年刚开始,微软就显示出了AI领域「大赢家」的派头。 最近,大火的ChatGPT和微软之间,不断擦出火花。 微…

关于QTcreator总是卡死无响应解决办法

网上找了很多原因,但是最终定位到的是显卡不兼容,只需要以下设置一下就行。 方法1: 删除~\AppData\Roaming\QtProject文件夹,然后再打开Qt Creator即可。 Linux下,~是/home/YourUserName Windows下,~是C:\…

本地PostMan双击无响应解决方法

本地PostMan双击无响应解决方法 解决步骤 解决步骤 本地安装postman后,一直使用正常,现突然双击无响应,网上查了一些解决方法,可能是我本地自动更新导致此问题,以下是我解决的过程。猜想可能是高版本不稳定&#xff0…

程序员是最好的结婚对象选择?

更多内容关注公众号:matinal 大部分程序员都比较辛苦,比如你晚上加班到快通宵了,困得快睁不开眼了,女上司很关心,问你要不要吃宵夜。结果你没好气地说:宵夜就算了,能让我睡一觉就行了。女上司红…

女程序员被瞧不起?92年程序媛发帖晒薪资,网友:老妹你可以了

当下,是一个“向钱看,向厚赚”的社会。快节奏的生活下,家庭、工作各方面压力很容易使年轻人陷入迷茫和焦虑。 与其他行业相比,程序员的高薪让人羡慕。但是是女程序员大多数会被瞧不起,觉得没有那种头脑,我…

两个程序员在一起谈恋爱......?

在一起的第一天: 女程序员:亲爱的,加需求了,要不今晚视频聊天下次吧 男程序员:好的,好的我也是 在一起的第二天: 女程序员:宝贝,今天加班改BUG,可能不能陪你…

TUSHARE绘制股票分时图

1.注册网站https://tushare.pro/,获取积分 2. 点右上角的登陆,点击个人头像,复制token 3.调取模块,并加载你的token import tushare as ts pro ts.pro_api(你的token) 4.调取分钟数据 df ts.pro_bar(…

Twitter 能否预测股市?

http://www.guokr.com/article/62535/ Lithium锂 2011-09-06 20:30 今年5月,世界首家基于社交媒体的对冲基金 Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注 Twitter 中的公众情绪指导投资。正如基金创始人保罗•郝汀(Paul Hawtin&#…