PSTNET阅读

image.png
ICLR2021
点云序列在空间维度上具有不规则性和无序性,但在时间维度上具有规律性和有序性。
现有的基于网格的卷积不能直接应用于原始点云序列的时空建模。
image.png
在时空序列下,基于网格和基于点的卷积对比。

创新点

1.首次尝试在原始点云序列建模中分解空间和时间信息。
2.提出一种基于点的卷积操作(PST),分别捕捉三维空间中点的局部结构和空间区域在时间维度上的动态。
3.提出PST转置卷积,通过插值时间动态和空间特征来解码原始点云序列。
下游任务:3D动作识别和4D语义分割性能。
缺点:除非增大邻域搜索半径,否则无法通过堆叠更多的层获得空间上更大的感受野。

Pipeline

PST卷积

PST卷积

给定点云序列([P1;F1],[P2;F2], ···,[PL;FL]),提出PST卷积将序列编码为([P′1;F′1],[P′2;F′2],···,[P′L;F′L′])。
L和L′表示帧数,P′t∈R3×N′和F′t∈RC′×N′表示编码后的坐标和特征。

对时空进行解耦

点云序列在空间上不规则且无序但在时间上有序,这促使我们将这两个维度解耦,以减少点的空间不规则性对时间建模的影响。
且点云序列的空间位移和时间差异的尺度可能不兼容。将两者同等对待,不利于网络优化。
原始的PST卷积
将卷积核W分解为空间卷积核S和时间卷积核T,其中Cm为中间特征的维数。
由于空间和时间是正交且相互独立的,进一步将空间和时间建模分解为:解耦时空
然而这样需要通过点跟踪来捕捉点运动,难以实现精确的点轨迹,且跟踪点通常依赖于点的颜色,可能无法处理无色的点云。选择先对不规则点的空间结构进行建模,然后从空间区域中捕获时间信息。
先进行空间卷积,得到邻域再进行时间卷积
对所有邻域共享一个卷积核S这是不合理的,因为点位移不是离散的。将核函数转换为位移的函数,
对不同的空间位移,使用不同的卷积权重
f:R1×3→RCm×C是以θ为参数的(δx,δy,δz)的函数,根据不同的位移生成不同的RCm×C。

POINT TUBE

引入点管来保持时空局部结构。与3D卷积中像素呈规则分布的像素立方体不同,点管是根据输入序列动态生成的,因此密集区域比稀疏区域拥有更多的点管。

时间锚点

根据时间核大小(l)、时间步长(st)和时间填充§自动选择点云序列中的时间锚框,其中l设置为奇数,使得锚框位于点管的中间。此外设置l/2≥p,以避免选择填充框作为锚框。

空间锚点

给定一个采样率ss,在将N个点降采样到N′=N/ss个点。使用FPS进行采样。根据采样的锚点生成POINT TUBE。
在POINT TUBE上执行PST卷积,能够捕获局部区域的动态变化。时间核大小l和空间搜索半径r可以分别捕获时间和空间局部结构。帧下采样(st)和点下采样(ss)使得网络在时间和空间上都具有层次性。全局运动可以通过将信息以时空分层的方式进行合并概括。

PST反卷积

对于point-level的预测任务,需要为所有的原始点提供特征。因此发展了PST反卷积。
设([P′1;F′1],[P′2;F′2],···,[P′L′;F′L′])是原始序列([P1;F1],[P2;F2],···,[PL;FL])的编码序列。PST反卷积将特征(F′1,F′2,···,F′L′)传播到原坐标(P1,P2,···,PL),输出新特征(F′′1,F′′2,···,F′′L),其中F′′t∈RC′′× N。
先通过一个时间转置卷积恢复时间长度:image.png
特征通过原始点与邻近锚点之间的反距离进行插值加权image.png

Net Architecture

三维动作识别网络

image.png

四维语义分割网络

image.png

实验

三维动作识别

为每一帧采样2048个点。点云序列被分割成多个片段(用固定的帧数)作为输入。
采用MSR-ACTION3D和NTU RGB+D数据集。
image.png
MSR-Action3D上动作识别的准确率。
image.png
NTU RGB+D数据集上动作识别的准确率。
image.png
NTU RGB+D数据集上的运行时间。与3DV-Point Net++相比,减少了约2s的时间,说明了PSTNet的高效。

四维语义分割

PSTNet (l=3)利用了时态信息,性能优于当前最先进的方法。
image.png
Synthia 4D数据上语义分割的结果。

消融实验

帧数

通常情况下,信息在时间序列上并不是均匀分布的。短的点云片段可能会错过关键帧,从而将模型混淆为噪声。因此,增加帧数有利于动作识别模型。

时间核大小

image.png
当l大于1时,PSTNet对时间动态进行建模,从而提高推理的动作准确性。
当l大于3时,准确率下降。这是由于MSR - Action3D中的大多数动作都是快速的,使用较小的时间核尺寸有利于捕获快速运动,并且在高层会捕获长距离的时间依赖。

空间半径

image.png
使用过小的r不能捕获足够的结构信息,而使用较大的r会降低空间局部结构对建模的判别性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/393193.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java 第九篇章】多线程实际工作中的头大的模块

多线程是一种编程概念,它允许多个执行路径(线程)在同一进程内并发运行。 一、多线程的概念和作用 1、概念 线程是程序执行的最小单元,一个进程可以包含多个线程。每个线程都有自己的程序计数器、栈和局部变量,但它们…

Python获取Excel内容

Python获取Excel内容 目录 Python获取Excel内容1.读取Excel并登陆2.下载Excel中图片 数据存储到列表3.上传到接口 需求:获取xlsx files目录下的所有Excel信息,并将数据打包成字典格式上传到接口 示例数据: 1.读取Excel并登陆 import os impo…

【算法】贪心算法

应用场景——集合覆盖问题 假设存在下面需要付费的广播台,以及广播台信号可以覆盖的地区。如何选择最少的广播台,让所有的地区都可以接收到信号 贪心算法介绍 1.贪心算法是指在对问题进行求解时,在每一步选择中都采取最好或者最优的选择 2…

智观察 | 行业赛道里的AI大模型

‍ “AI改变世界”被炒得热火朝天,结果就换来AI聊天? 实际上,在日常娱乐之下,AI正在暗暗“憋大招”,深入各行各业,发挥更专业的作用。 自动驾驶 最近“萝卜快跑”霸榜热搜长达一周,让无人驾…

手机在网状态接口如何对接?(二)

一、什么是手机在网状态? 传入手机号码,查询该手机号的在网状态,返回内容有正常使用、停机、在网但不可用、不在网(销号/未启用/异常)、预销户等多种状态。 二、手机在网状态使用场景? 1.用户验证与联系…

【问题解决方案】npm install报错问题:npm ERR! - 多种解决方案,总有一种可以解决

文章目录 1.问题重述2.解决方案方案1.确认根目录正确方案2.确认文件名正确方案3. 确认node.js安装完成(注意这个环境变量配置没有写完)方案4 改用yarn安装(亲测可用) 3.延申问题解决方案问题1:需要低版本的node.js 写在…

企业图纸防泄密怎么做?最好的八款图纸加密软件推荐

保护企业图纸不被泄露是现代企业信息安全管理中的重要任务。随着信息技术的发展,企业需要采取多种措施来确保图纸的安全性。以下是一些常用的图纸防泄密方法和八款推荐的图纸加密软件: 图纸防泄密方法 1. 数据备份:定期备份图纸数据&#xf…

Jboss 漏洞

一.CVE-2015-7501 访问/invoker/JMXInvokerServlet 开启下载存在漏洞 二.CVE-2017-7504 三CVE-2017-12149 启动vulhub环境,访问/invoker/readonly出现如下界面,说明存在漏洞 使用工具连接 四.Administration Console弱⼝令 访问/admin-console/login…

数据库的管理

1、官网下载或者wget tar -xvf mysql-8.0.33-1.el7.x86_64.rpm-bundle.tar 2、确定mysql-community-server正常安装之后就可以开始配置 3、初始化mysqld 服务 mysqld initeialize 4、启动服务 systemctl start mysqld 5、添加开机启动列表 systecmctrl enable mysqld在/var…

git——Git提交本地项目代码到远程Github仓库步骤图解

目录 一、Git提交本地项目代码到远程Github仓库步骤 一、Git提交本地项目代码到远程Github仓库步骤 1、在Github创建一个空仓库,例如名称为jetcache-demo 2、打开【Git Bash Here】 3、进入本地项目文件夹 cd d:/ cd D:/project1/本地服务/jetcache-demo4、初始…

Golang面试题三(map)

1.map底层实现 由图看出,其实map的底层结构体是hmap,同时hmap里面维护着若干个bucket数组(即桶数组)。bucket数组中每个元素都是bmap结构的,bmap中存储着8个key-value的键值对,如果是满了的话,当…

用OpenCV与MFC写一个简单易用的图像处理程序

工厂里做SOP及测试报告以及员工资格鉴定等常需用到简单的图像处理,PS等软件正版费用不菲,学习起来成本也高。Windows自带的图像处理软件,用起来也不是那么得心应手。因此我用OpenCV与MFC写了一个简单易用的图像处理程序。 程序界面 基于简单…

从传统监控到智能化升级:EasyCVR视频汇聚平台的一站式解决方案

随着科技的飞速发展和社会的不断进步,视频监控已经成为现代社会治安防控、企业管理等场景安全管理中不可或缺的一部分。而在视频监控领域,EasyCVR视频汇聚平台凭借其强大的多协议接入能力,在复杂多变的网络环境中展现出了卓越的性能和广泛的应…

【第15章】Spring Cloud之Gateway网关过滤器(URL黑名单)

文章目录 前言一、常用网关过滤器1. 常用过滤器2. 示例3. Default Filters 二、定义接口服务1. 定义接口 三、自定义过滤器1. 过滤器类2. 应用配置 四、单元测试1. 正常2. 黑名单 总结 前言 上一章我们通过,路由断言根据请求IP地址的黑名单功能,作用范围…

【C#语音文字互转】C#语音转文字(方法一)

Whisper.NET开源项目:https://github.com/sandrohanea/whisper.net/tree/main 一. 环境准备 在VS中安装 Whisper.net,在NuGet包管理器控制台中运行以下命令: Install-Package Whisper.net Install-Package Whisper.net.Runtime其中运行时包…

STL-queue容器适配器

目录 一、queue 1.1 使用 1.2 模拟实现 二、priority_queue 2.1 使用 2.2 仿函数 2.2.1 概念 2.2.2 使用 2.3 模拟实现 一、queue 1.1 使用 具体解释详见官方文档:queue - C Reference (cplusplus.com) queue就是数据结构中的队列:数据结构之…

深度学习中降维的几种方法

笔者在搞网络的时候碰到个问题,就是将特征维度从1024降维到268,那么可以通过哪些深度学习方法来实现呢? 文章目录 1. 卷积层降维2. 全连接层降维3. 使用注意力机制4. 使用自编码器 1. 卷积层降维 可以使用1x1卷积层(也叫pointwis…

《大道平渊》· 拾柒 —— 个人的心理定位决定市场

《大道平渊》 拾柒 个人的心理定位决定市场。 对于个人定位来说,个人的心理定位影响你的行为。 比如我的心理定位是经营者,那我的行为则是满足市场需求和解决问题。 因为心理定位的不同,会影响你思考问题的角度。 . 以上皆为个人思考&am…

【为什么不要买运营商的机顶盒?解锁智能电视新体验,从一台刷机机顶盒开始】

【置顶:机顶盒刷机步骤请跳转此链接】 在这个数字化飞速发展的时代,电视早已不再是单一的播放工具,它正逐步演变成为家庭娱乐与信息获取的综合中心。然而,许多家庭在选择机顶盒时,往往会因为惯性或便利而直接选择运营商提供的机顶…

常见中间件漏洞(三、Jboss合集)

目录 三、Jboss Jboss介绍 3.1 CVE-2015-7501 漏洞介绍 影响范围 环境搭建 漏洞复现 3.2 CVE-2017-7504 漏洞介绍 影响范围 环境搭建 漏洞复现 3.3 CVE-2017-12149 漏洞简述 漏洞范围 漏洞复现 3.4 Administration Console弱囗令 漏洞描述 影响版本 环境搭建…