论文作者:Haodong Duan,Mingze Xu,Bing Shuai,Davide Modolo,Zhuowen Tu,Joseph Tighe,Alessandro Bergamo
作者单位:The Chinese University of Hong Kong; AWS AI Labs.
论文链接:http://arxiv.org/abs/2309.11445v1
内容简介:
1)方向:基于骨架的动作识别
2)应用:视频级别动作分类、实例级别动作检测、群体级别活动识别
3)背景:现有的骨架动作识别工作主要集中在受控环境下,本文针对更一般的场景,这些场景通常涉及不同数量的人和人与人之间的各种形式的互动。
4)方法:SkeleTR采用了一个两阶段的方法。首先,它利用图卷积对每个骨架序列建模,以模拟单个人的骨架动态。然后,它使用堆叠的Transformer编码器来捕捉在一般场景中对动作识别重要的人际交互。为了减轻不准确的骨架关联对结果的负面影响,SkeleTR将相对较短的骨架序列作为输入,并增加了序列的数量。作为一个统一的解决方案,SkeleTR可以直接应用于多个基于骨架的动作任务,包括视频级别的动作分类、实例级别的动作检测以及群体级别的活动识别。此外,它还支持在不同动作任务和数据集之间进行迁移学习和联合训练,从而提升性能。
5)结果:在各种基于骨架的动作识别基准测试中,SkeleTR取得了最先进的性能,证明了其在处理多种动作识别任务时的优越性。