PanoFlow:学习360°用于周围时间理解的光流

1.摘要:

光流估计是自动驾驶和机器人系统中的一项基本任务,它能够在时间上解释交通场景。自动驾驶汽车显然受益于360提供的超宽视野(FoV)◦ 全景传感器。

然而,由于全景相机独特的成像过程,为针孔图像设计的模型并不能直接令人满意地推广到360◦ 全景图像。本文提出了一种新的网络框架——PANOFLOW,用于学习全景图像的光流。为了克服等矩形投影在全景变换中引入的失真,我们设计了一种流失真增强(FDA)方法,该方法包含径向流失真(FDA-R)或等矩形流失真(FDA-E)。我们进一步研究了全景视频中循环光流的定义和性质,并在此提出了一种循环流估计(CFE)方法,该方法利用球面图像的循环性来推断360◦ 光流和将大位移转换为相对小的位移。PanoFlow适用于任何现有的流量估计方法,并受益于窄FoV流量估计的进展。

此外,我们创建并发布了一个基于CARLA的合成全景数据集FlowScape,以便于训练和定量分析。PanoFlow在公共OmniFlowNet和新建立的FlowScape基准上实现了最先进的性能。我们提出的方法将FlowScape上的终点误差(EPE)降低了27.3%。在OmniFlowNet上,PanoFlow实现了3.17像素的EPE,比最佳公布结果(7.12像素)降低了55.5%的误差。我们还通过户外采集车和公共的真实世界OmniPhotos数据集对我们的方法进行了定性验证,这表明我们的方法在真实世界导航应用中具有强大的潜力和稳健性。代码和数据集可在PanoFlow上公开获取https://github.com/MasterHow/PanoFlow

图1。(a) 由我们的移动感知系统捕获的原始全景环形图像,(b)-(c)针对360的真实世界周围视图提出的全景光流估计◦ 无缝的场景时间理解。

1.引言

  光学流量估计是自动驾驶的基本挑战之一[1]-[5]。流量估计提供了有关环境和传感器运动的信息,从而实现对世界的时间理解,这对许多机器人和车辆应用至关重要,包括场景解析、基于图像的导航、视觉里程计和SLAM[6]–[12]。随着球形相机的发展[13],全景图像现在更容易为360拍摄◦ 场景感知[14]-[16],并且由于类似的投影模型[17],可以更好地与激光雷达集成。然而,基于学习的方法一直专注于由基于针孔投影模型的相机产生的传统2D图像[18]–[20]。为具有窄视场(FoV)的相机设计的模型对于全面理解来说通常是次优的。将它们与360连接◦ 激光雷达还将直接导致固有的和领域适应问题[21]。因此,推断相机完整周围的光流的能力激发了360的研究◦ 流量估算。

与经典的线性图像不同,由于球面相机的等矩形投影(ERP),全景内容经常遭受严重失真[22]。

  对象将全景图像在不同纬度处发生不同程度的变形,使得目标图像和关注图像之间的流量估计更加困难。另一个关键问题在于球面边界的循环性,这意味着从源点到目标点有不止一条路径,通常有一条更短和更长的路径[23]。这两条路线在球体上形成一个大圈。换句话说,这两条路线的几何意义是相等的。然而,传统的基于学习的模型无法跟踪在图像边界之外移动的像素,因此别无选择,只能推断更难的长距离运动矢量,导致估计不太令人满意。

  为了解决这些问题,我们引入了一种新的全景流量估计框架——PANOFLOW,以直接从全景图像中估计密集流场。我们在两个不同的最先进的光流网络[19]、[20]上实现了PanoFlow,以验证所提出的框架的通用性。据作者所知,我们提出了第一种流失真增强(FDA)方法,该方法建立在对ERP引起的失真的深入了解之上,以增强对全景图像变形的鲁棒性

虽然失真增强用于全景场景解析[24],[25],但尚未在光流估计中进行研究,因为光流是2D矢量,这会带来进一步的挑战。与处理常数性质的传统几何增广方法不同,光流的畸变增广是不平凡的,它必须考虑光流的变化,因为光流的起点和终点会发生不同程度的畸变。通过将参与图像(关注图像和目标图像)和流场实况投影到畸变场上,我们提高了模型推广到变形区域的能力。

我们提出了两种增加流量畸变的变体:径向流量畸变(FDA-R)和等矩形流量畸变(FDA-E)。尽管FDA-E与一般ERP引入的失真一致,但考虑到针孔数据集的FoV较小,真正参与监督的像素数量减少了。

因此,我们还探讨了FDA-R在克服ERP失真中的作用。我们发现,尽管它们的变形模型并不完全相同,但FDA-R也提高了网络处理变形区域的能力。

从另一个失真自适应的角度来看,我们进一步建议通过用可变形卷积层替换编码器的第一层来解决失真[26]。所提出的FDA和可变形卷积使该模型能够处理特征全景图像失真和稳健的流量估计。作为一种新的数据增强方法,FDA是任何基于学习的光流网络的即插即用模块

此外,我们给出了适用于全景视频流的循环光流的标准定义,分析了循环光流特性,并将其与经典光流进行了比较。然后,我们基于先前的见解设计了一种循环流估计(CFE)方法,以利用全景图像的循环性,并将长距离估计转换为相对较短的距离估计。

CFE很好地缓解了模型在大位移估计中的应力,使模型能够专注于局部细粒度光流估计。CFE是一种通用的光流估计方法,因此可以受益于窄视场流量估计方法的进步。有趣的是,定量和定性结果都表明,与之前在立方体映射平面和二十面体切平面上迭代估计的最佳方法[23]相比,CFE方法简单但非常有效.

我们还计算了使用CFE方法前后精度随水平FoV变化的分布,发现CFE可以显著提高全景垂直边界附近的光流估计精度,这是全景流估计的一个独特困难。

此外,为了克服缺乏可用的全景训练数据的问题,并促进对360的研究◦ 理解后,我们建立并发布了一个新的街景合成全景流量估计基准——FlowScape。我们通过CARLA模拟器生成数据集[27]。FlowScape由6400张彩色图像、光流和像素级语义地面实况组成,由于动态天气、多样化的城市街景和不同类型的车辆,提供了一个与现实世界相似的环境。我们使用这个数据集来学习从全景内容推断流量。当只给出正向光流时,我们还分析了现有光流数据集[22]、[23]、[28]的真实质量,并根据观测结果确定了我们的评估数据集。

我们在已建立的FlowScape基准上进行了广泛的定量实验。与之前的最佳模型相比,PanoFlow在该数据集上的终点误差(EPE)降低了27.3%。此外,我们在公共OmniFlowNet数据集[22]上的方法的EPE与已发表的最佳结果(3.34像素对7.12像素)相比降低了55.5%。此外,一组全面的消融实验证明了所提出的FDA和CFE方法的有效性。我们还对公共的真实世界OmniPhotos数据集[29]进行了定性分析,以在真实世界的环境感知中验证我们的方法。为了进一步证明PanoFlow的泛化能力,我们还组装了一辆安装了全景环形透镜(PAL)系统的户外数据采集车。如图所示,PanoFlow为真实世界的周围场景提供了清晰、干净的全向光流估计。

总之,我们的主要贡献如下:•我们对360提出了严格的理论定义◦ 光流。

•我们介绍了流失真增强,这是一种用于光流网络的新数据增强方法,可以帮助模型学习捕捉变形区域的运动线索。

•我们提出了一种通用的循环流量估计方法,该方法可以根据连续全景的几何性质将大位移估计转换为相对较短的位移估计。

•我们生成FlowScape,这是一个新的公开可用的全景数据集,由各种合成街道场景组成,提供像素级的流量和语义基础真相。我们还评估了现有全景流量数据集的地面实况质量。

•我们的整个框架PANOFLOW在既定的FlowScape基准上以及公共OmniFlowNet数据集。实现了最先进的性能.

•PanoFlow在公共现实世界OmniPhotos数据集和我们捕获的户外全景视频流上都表现出强大的泛化能力。

2、相关工作
A.基于深度学习的光流估计

经典的光流估计方法[30]、[31]使用变分方法,基于亮度恒定性和空间平滑性来最小化能量。自从FlowNet[32]出现以来,已经出现了其他一些基于卷积神经网络(CNNs)[33]-[44]的工作。此外,还有一些自我监督的方法[45],[46]来学习闭塞的光流。这些方法中的大多数通常被设计用于拍摄有限成像角度的针孔相机

FlowNet[32]首先将光流估计视为一个学习问题。为了进一步提高光流的精度,FlowNet2.0[47]在多个级联的FlowNets之间引入了图像扭曲。由于FlowNet2.0[47]的模型尺寸较大,已经提出了许多方法来同时提高光流精度和减小模型尺寸。其中,PWC-Net[18]将经典的光流估计原理(包括金字塔处理、图像扭曲和成本量)与学习相结合。LiteFlowNet2[48]借鉴了经典变分光流方法中的数据保真度和正则化思想。RAFT[19]使用多尺度4D相关体积迭代更新光学流场,为了更好地将光流估计应用于自动驾驶系统,CSFlow[20]提出了一种新的光流深度网络架构,该架构由交叉带相关模块(CSC)和相关回归初始化模块(CRI)组成。此外,FlowFormer[49]用基于变换器的主干取代了RAFT架构中基于CNN的主干,这进一步提高了光流估计的准确性,同时将参数数量增加了三倍。相比之下,PanoFlow是一个全景光流框架,可以适用于任何具有编码器-解码器架构的光流网络。

B. FoV 以外的光流估计

随着越来越实惠、便携和精确的全景相机进入市场,360◦ 流量估计是迫切需要的,它可以提供广泛的FoV时间理解,为此开发了一些基于深度学习的方法。LiteFlowNet360[50]被设计为一个域自适应框架,以应对360中的固有失真◦ 由球体到平面投影引起的视频。他们在特征金字塔网络中采用卷积层的增量变换,将数据增强和自监督学习与目标域360相结合,以减少网络增长规模和计算成本◦ 视频。

OmniFlowNet[22]建立在专门研究透视图像的CNN模型上,然后应用于全向图像,而无需在新的数据集上进行训练,其卷积运算与矩形投影相统一,优于原始网络。

360投影◦ 图像到ERP图像是一个非线性映射,由此引起的失真将影响360◦ 因此,Yuan等人[23]提出了一种360◦ 基于切线图像的光流估计方法,包括对二十面体和立方体全景的数十次估计和细化。

总体而言,现有的基于学习的全景流方法在模型层面采用了固定的投影范式来处理ERP失真。考虑到细胞神经网络的局部偏向行为,这将降低模型对潜在视觉线索建模的能力,并导致不令人满意的性能。另一方面,切平面上的估计和细化引入了额外的计算成本,导致推理速度有限。最近,一项并行工作[51]也探讨了360◦ 通过siamese表示学习方案的光流,该方案具有精心设计的损耗和旋转增强,以采用现有的流网络。

与这些作品不同的是,我们处理了整个360中出现的图像失真和对象变形◦ 并利用连续全向数据的周期性来增强全景光流估计。

C.光流和全景感知数据集、

全景数据集在各种应用领域都是必需的,包括深度估计[52]-[54]、场景分割[55]-[57]和光流估计[22]、[23]、[28]。Stanford2D3D[58]是一个大型室内空间数据集,由具有实例级语义注释的规则数据和全景数据组成。

360D数据集[21]重复使用已发布的大规模3D数据集,并将其重新用于360◦ 通过渲染进行密集深度估计。PASS[24]提出了一个全景环形语义分割框架和相关的数据集,用于可信评估。DensePASS[59]介绍了一个具有标记和未标记360的数据集◦ 用于从无监督领域自适应的角度对全景语义分割进行基准测试的图像。KITTI360[60]由立体透视相机、一对鱼眼相机和一个用于启用360的激光扫描单元收集◦ 知觉WoodScape[61]包括多个环视鱼眼相机和多个任务,如分割和污垢检测。OmniScape数据集[62]包括语义分割、深度图、摄像头的固有参数和摩托车的动态参数。Waymo Open数据集[63]是一个用于全景图像分割的标记全景视频数据集。

为了提高光流估计的准确性,OmniFlow[64]是一个合成的全方位人类光流数据集,包含FoV为180的家庭活动图像◦. OmniFlowNet[22]使用基于Blender的简单几何模型,渲染全景光流的测试集仅用于验证。Replica360[23]为Replica渲染管道[65]实现了ERP相机模型,并包含用于验证的等矩形格式的地面实况光流,SynWoodScape[28]是一个合成鱼眼环绕视图数据集,具有用于逐像素光流和深度估计的地面实况。OmniPhotos[29]是一款快速360◦ 全景VR摄影方法,使用已发布的户外数据集,但无法获得光学的地面实况流,我们注意到,到目前为止,既没有针对户外复杂街道场景的全向图像数据集,也没有覆盖360◦ 可用于培训和评估。本文试图通过提出一个虚拟环境来填补这一空白,在这个虚拟环境中,一辆带全景摄像头的汽车在假设行人和车辆按照交通规则行驶的情况下行驶。表一关联并总结了当前包含地面实况光流的全景数据集。第四节将详细分析光流的地面实况质量。

表一:用于光流估计的现有全景数据集的比较

 图2。循环光流示意图。(a) 光流和循环光流在球面坐标系上形成一个互补的大圆,(b)等矩形图像上的循环光流具有相对较小的位移,并跨越全景的水平边界

3、 PANOFLOW:提出的框架
A. 360°的定义 光流

球形图像不包含任何边界,并且坐标在图像上的任何方向上都是连续的[22]。然而,在将球面图像展开为等矩形图像的过程中,自然会引入平行于子午线的边界,如图所示2。给定球体上的任何一个点A,它在时间t后移动到另一个点B。由于球体本身的循环性质,这两个点之间实际上有无限的弧轨迹,现在我们只考虑两个弧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/157121.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【二甲医院his系统源码】医疗卫生信息化大数据平台源码

基于云计算技术的SaaS服务的医院信息系统源码 云HIS系统有效实现医疗数据共享与交换,解决数据重复采集及信息孤岛等问题。重构管理服务流程,重建统一的信息架构体系,重造病人服务环境,向不同类型的医疗机构提供SaaS化HIS服务解决…

业务安全五重价值:防攻击、保稳定、助增收、促合规、提升满意度

目录 防范各类威胁攻击 保障业务的连续性和稳定性 保障业务的合规性 提升企业营收和发展 提升企业满意度和品牌知名度 2023年暑假被“票贩子”和“黄牛”攻陷。他们利用各种手段抢先预约名额,然后加价出售给游客,导致了门票供不应求的局面&#xff…

[42000][923] ORA-00923: 未找到要求的 FROM 关键字

在oracle数据库写分页查询,使用 rownum时候出错, 代码: SELECT *FROM (SELECT *, ROWNUM AS rnumFROM test t ) WHERE rnum BETWEEN 1 AND 5; 报错: [42000][923] ORA-00923: 未找到要求的 FROM 关键字 Position: 31 问题原因…

1014蓝桥算法双周赛,学习算法技巧,助力蓝桥杯

家人们,我来免费给大家送福利了!!! 【1014蓝桥算法双周赛 】 背景 蓝桥杯全国软件和信息技术专业人才大赛是由工业和信息化部人才交流中心举办的全国性IT学科赛事。参赛高校超过1200余所,累计参赛人数超过40万人。该…

如何理解BFC、开启BFC、BFC解决哪些问题

1.BFC 概念 BFC 英文名为 Block Formatting Context (块级格式化上下文) 具体可查看 MDN 2.BFC的作用 元素开启BFC后,子元素不会发生margin塌陷问题元素开启BFC后,子元素浮动,元素不发生高度塌陷元素开启BFC后,该元素不被其他元…

java案例RSA分段加密解密,签名验签,公钥加密私钥解密,私钥加密公钥解密,解密乱码怎么解决

一. 原理 非对称加密算法是一种密钥的保密方法。 非对称加密算法需要两个密钥:公开密钥(publickey:简称公钥)和私有密钥(privatekey:简称私钥)。公钥与私钥是一对,如果用公钥对数据进行加密,只…

纯 CSS 实现瀑布流布局的方法

纯 CSS 实现瀑布流布局的方法 这种方式兼容性不是很好,全部支持需要些时间,但是目前是可以使用 css 写出来的 display: grid; grid-template-columns: repeat(4, 1fr); grid-gap: 10px; grid-template-rows: masonry;全部的 css .container {display:…

凉鞋的 Godot 笔记 108. 第二个通识:增删改查

在这一篇,我们来学习此教程的第二个通识,即:增删改查。 增删改查我们不只是一次接触到了。 在最先接触的场景窗口中,我们是对 Node 进行增删改查。 在文件系统窗口中,我们是对文件&文件夹进行增删改查&#xff1…

【单片机】18-红外线遥控

一、红外遥控背景知识 1.人机界面 (1)当面操作:按键,旋转/触摸按键,触摸屏 (2)遥控操作:红外遥控,433M/2.4G无线通信【穿墙能力强】,蓝牙-WIFI-Zigbee-LoRa等…

jupyter 切换虚拟环境

当前只有两个环kernel 我已经创建了很多虚拟环境,如何在notebook中使用这些虚拟环境呢?请看下面 比如说我要添加nlp 这个虚拟环境到notebook中 1. 切换到nlp环境 2. 安装如下模块 pip install ipykernel 3. 执行如下命令 python -m ipykernel install …

【IDEA项目个别类爆红,但是项目可以正常运行】

打开项目时发现idea个别类爆红,但是项目可以正常运行 问题原因:Idea本身的问题,可能是其缓存问题,导致爆红 解决方案:重置Idea 很多时候排查不出代码问题,就尝试一下此操作。 选择目录:File–>Invalida…

今日头条文章采集ChatGPT3.5/4.0驱动浏览器改写文章软件说明文档

大家好了,我是淘小白~ 今天给大家介绍的软件是一个款驱动浏览器改写文章的软件,下面给大家做一下介绍说明: 一、软件语言 Python编写的,使用的库是selenium库 二、具体逻辑 1、整理头条文章网址,需要自己整理&…

【广州华锐互动】钢厂铸锻部VR沉浸式实训系统

随着科技的不断进步,虚拟现实(VR)技术已成为当今最具潜力的技术之一。在钢铁行业中,VR虚拟仿真实训已经被广泛应用于培训和教育领域,特别是钢铁厂铸锻部,通过VR技术,可以大大提高培训效率,降低培训成本&…

多域名SSL数字证书是什么呢

多域名SSL数字证书是众多SSL数字证书中最灵活的一款SSL证书产品。一般一张SSL证书只能保护一个域名,即使能保护多个域名站点,证书保护的域名类型也有限制(通配符SSL数字证书)。多域名SSL数字证书既能用一张SSL证书保护多个域名网站,又不限制域…

CentOS 7 服务器上创建新用户及设置用户密码有效期

一、创建用户 1、以 root 用户身份登录到 CentOS 服务器 2、运行以下命令以创建新用户: useradd -m -s /bin/bash username其中,username 是您要创建的新用户的用户名。该命令将创建一个新用户并为其分配一个主目录。3、运行以下命令以设置新用户的密码…

XPath在数据采集中的应用:从XML和HTML中提取数据

目录 一、XPath简介 二、XPath的语法 三、XPath在数据采集中的应用 四、XPath和其他数据格式 总结 在当今的数据驱动时代,从各种数据源中提取有用的信息变得至关重要。其中,XML和HTML作为主流的数据源格式,常常出现在我们的数据提取任务…

正点原子嵌入式linux驱动开发——Busybox根文件系统构建

前面已经移植了TF-A、Uboot和Linux kernel,就剩最后一个 rootfs(根文件系统)了,本章就来学习一下根文件系统的组成以及如何构建根文件系统。这是Linux系统移植的最后一步,根文件系统构建好以后就意味着拥有了一个完整的、可以运行的最小系统 …

【运维笔记】VMWare 另一个程序已锁定文件的一部分,进程无法访问

情景再现 这里使用的是VMware 17 解决办法 进入设置 点击选项,全选复制里面内容 进入文件夹,删除所有包含.lck后缀的文件和文件夹 再启动虚拟机即可

【Vue基础-数字大屏】加载动漫效果

一、需求描述 当网页正在加载而处于空白页面状态时,可以在该页面上显示加载动画提示。 二、步骤代码 1、全局下载npm install -g json-server npm install -g json-server 2、在src目录下新建文件夹mock,新建文件data.json存放模拟数据 {"one&…

基于片段的分子生成网络 (FLAG)使用方法及案例测评

本文来源于中国科技大学计算机科学与技术学院刘淇教授课题组于2023年发表在ICLR2023上的文章《MOLECULE GENERATION FOR TARGET PROTEIN BINDING WITH STRUCTURAL MOTIFS》。 在本文中,作者提出了一个基于片段的分子生成网络,FLAG (Fragment …