【论文笔记】Towards Online Continuous Sign Language Recognition and Translation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Towards Online Continuous Sign Language Recognition and Translation
作者: Ronglai Zuo, Fangyun Wei, Brian Mak
发表: EMNLP 2024
arXiv: https://arxiv.org/abs/2401.05336

基本信息

摘要

研究连续手语识别(CSLR)对于弥合聋人和听力正常人士之间的沟通差距至关重要。

许多先前的研究已经使用连接主义时间分类(CTC)损失来训练他们的模型。

在推理过程中,这些基于CTC的模型通常需要整个手语视频作为输入来做出预测,这个过程被称为离线识别,它存在高延迟和大量内存使用的问题。

在本工作中,我们迈出了在线CSLR的第一步。我们的方法包括三个阶段:

  1. 开发手语字典;
  2. 在字典上训练孤立手语识别模型;
  3. 对输入手语序列采用滑动窗口方法,将每个手势片段输入到优化后的模型进行在线识别。

此外,我们的在线识别模型可以通过集成词义到文本网络来扩展以支持在线翻译,并可以增强任何离线模型的表现。

通过这些扩展,我们的在线方法在三个流行的基准测试中实现了新的最先进性能,涵盖了各种任务设置。

代码和模型可在https://github.com/FangyunWei/SLRT找到。

Illustration of (a) the offline recognition scheme and (b) the proposed online framework

主要贡献

  • 一个框架。我们提出了一种创新的在线CSLR框架,该框架将ISLR模型滑动到手语视频流上。为了增强ISLR模型的训练,我们进一步提出了几种技术,如手语增强、gloss-level训练和显著性损失。
  • 两个扩展。首先,我们通过集成 wait- k k k gloss-to-text 网络实现了在线SLT。其次,我们通过一个轻量级适配器扩展了在线CSLR框架,以提升离线CSLR模型的表现。
  • 性能。我们的在线方法以及两个扩展在三个广泛采用的基准测试中建立了新的最先进结果:Phoenix-2014、Phoenix-2014T和CSL-Daily,在各种任务设置下。

方法

Overview of our methodology

Dictionary Construction

Sign Segmentor

采用预训练的CSLR模型作为Sign Segmentor,将每个连续的手语视频分割成其组成的独立手语,称为伪真实值。

Sign Augmentation

通过裁剪每个伪真实值周围的片段来创建增强手语。然后,分割的独立手语(伪真实值)和增强手语都被纳入我们的词典中。

ISLR Model

根据TwoStream-SLR,主干网络由两个并行的S3D网络组成,分别建模RGB手语视频和人体关键点。输入手语视频跨越 W W W 帧。

Mini-Batch Formation

在传统的分类任务中,从训练集中随机选择实例以形成小批量。这种采样策略被称为instance-level sampling。在本工作中,我们通过实证发现,gloss-level sampling(我们的默认策略)能获得更好的性能。

如图2b所示,我们最初从词典中采样 M M M 个gloss。对于每个gloss,我们再采样 K K K 个实例以形成一个迷你批次,从而得到一个有效的批次大小为 M × K M \times K M×K

在我们的实现中,每个gloss采样的 K K K 个实例可以是伪真实值手语或其增强。

我们的技术与 batch augmentation (BA) 具有相似的精神,后者多次增强一个迷你批次。

我们的gloss-level sampling通过在伪真实值手语周围使用“时间抖动”的实例来形成训练批次,而不是像BA那样直接增强伪真实值。

尽管如此,我们的采样策略仍然保留了BA的好处,例如减少方差降低。

Loss Functions

这段话的翻译如下,并用LaTeX表示其中的符号:

损失函数。给定一个大小为 M × K M \times K M×K 的小批量,令 p j i p_{j}^{i} pji 表示具有gloss索引 i ∈ [ 1 , M ] i \in [1, M] i[1,M] 和实例索引 j ∈ [ 1 , K ] j \in [1, K] j[1,K] 的样本的后验概率。

我们ISLR模型的分类损失由两部分组成:

  1. M × K M \times K M×K 个实例上应用的实例级交叉熵损失( L c e I \mathcal{L}_{ce}^{I} LceI);
  2. M M M 个gloss上应用的gloss级交叉熵损失( L c e G \mathcal{L}_{ce}^{G} LceG),以学习更具区分性的表示。

这两个损失可以公式化为:

L c e I = − 1 M × K ∑ i = 1 M ∑ j = 1 K log ⁡ p j i \mathcal{L}_{ce}^{I} = -\frac{1}{M \times K} \sum_{i=1}^{M} \sum_{j=1}^{K} \log p_{j}^{i} LceI=M×K1i=1Mj=1Klogpji

L c e G = − 1 M ∑ i = 1 M log ⁡ 1 K ∑ j = 1 K p j i \mathcal{L}_{ce}^{G} = -\frac{1}{M} \sum_{i=1}^{M} \log \frac{1}{K} \sum_{j=1}^{K} p_{j}^{i} LceG=M1i=1MlogK1j=1Kpji

Saliency Loss

我们的ISLR模型处理具有固定长度的手势片段,但这些片段中的前景区域可能会有所不同。

为了解决这个问题,我们设计了一种显著性损失(Saliency Loss),鼓励模型优先处理前景手势,忽略背景手势(共发音)。

提出的显著性损失的示意图如图2c所示。

具体来说,对于一个训练样本 s ^ = ( V , t ^ b , t ^ e , g ) \hat{s} = (\mathbf{V}, \hat{t}_b, \hat{t}_e, g) s^=(V,t^b,t^e,g),它是伪真实值 s = ( V , t b , t e , g ) s = (\mathbf{V}, t_b, t_e, g) s=(V,tb,te,g) 的增强实例,我们将其输入到我们的 ISLR 模型中。

这一过程生成了其编码特征 f ∈ R T s / α × C \boldsymbol{f} \in \mathbb{R}^{T_s/\alpha \times C} fRTs/α×C,其中 T s = t ^ e − t ^ b + 1 T_s = \hat{t}_e - \hat{t}_b + 1 Ts=t^et^b+1 是片段长度, α = 8 \alpha = 8 α=8 是神经网络的下采样因子, C C C 表示通道维度。

接下来,我们将 f \boldsymbol{f} f 上采样到 f u ∈ R β T s / α × C \boldsymbol{f}_u \in \mathbb{R}^{\beta T_s/\alpha \times C} fuRβTs/α×C,使用上采样因子 β \beta β(默认 β = 4 \beta = 4 β=4)。

总体缩放因子因此变为 β / α \beta/\alpha β/α

不失一般性,假设 t ^ b ≤ t b ≤ t ^ e ≤ t e \hat{t}_b \leq t_b \leq \hat{t}_e \leq t_e t^btbt^ete,前景区域从第 t b t_b tb 帧开始,到第 t ^ e \hat{t}_e t^e 帧结束。

然后,我们可以通过沿时间维度池化 f u [ ⌈ β t b / α ⌉ : ⌊ β t ^ e / α ⌋ , : ] \boldsymbol{f}_u[\lceil \beta t_b / \alpha \rceil : \lfloor \beta \hat{t}_e / \alpha \rfloor, :] fu[⌈βtb/α:βt^e/α,:] 来生成前景特征 f f ∈ R C \boldsymbol{f}_f \in \mathbb{R}^C ffRC

最后,显著性损失 L s \mathcal{L}_s Ls 实现为从 f f \boldsymbol{f}_f ff 生成的概率上的交叉熵损失。

Overall Loss Function

整体的损失函数实现为实例和gloss级别上的分类损失和显著性损失的总和:

L = L c e I + L c e G + L s I + L s G . \mathcal{L} = \mathcal{L}_{ce}^I + \mathcal{L}_{ce}^G + \mathcal{L}_s^I + \mathcal{L}_s^G. L=LceI+LceG+LsI+LsG.

Online Inference

如图2d所示,在线推理是通过滑动窗口策略实现的,步长为 S S S

通常,滑动窗口方法会产生重复预测,因为它们可能会多次扫描相同的手势。

因此,后处理总是必要的。我们在线后处理的伪代码:

Post-processing for online inference

该算法有两个关键功能:

  1. 基于投票的去重(第 12 行)
  2. 背景消除(第 13 行)

Extensions

Online Sign Language Translation

如图3所示,我们在在线 CSLR 模型上附加了一个额外的gloss-to-text网络,并采用了 wait- k k k 策略,以实现在线 SLT。

Appending a gloss-to-text network with the  wait-k policy onto our online CSLR model enables online SLT

这个 wait- k k k 策略在看到 k k k 个gloss后( k = 2 k=2 k=2)启用文本预测。

在推理阶段,由我们的在线 CSLR 模型生成的gloss预测被依次输入到优化良好的gloss-to-text网络中,以生成翻译结果。

Promote Offline Models with Online Model

我们的在线 CSLR 模型也可以提升离线模型的性能。

如图4所示,考虑两个优化良好的 CSLR 模型:我们的在线模型和一个现有的离线模型。

Boosting an offline model with our online  model

f ^ \hat{\boldsymbol{f}} f^ f ~ \tilde{\boldsymbol{f}} f~ 分别表示由在线模型和离线模型提取的特征。

为了首先对齐这两个特征的维度,我们在在线模型上附加了一个轻量级适配器网络,该网络包括一个下采样层和一个两层 MLP。

这个网络将 f ^ \hat{\boldsymbol{f}} f^ 投影到 f ~ \tilde{\boldsymbol{f}} f~,匹配 f ~ \tilde{\boldsymbol{f}} f~ 的维度。

然后,我们使用加权求和操作融合 f ^ \hat{\boldsymbol{f}} f^ f ~ \tilde{\boldsymbol{f}} f~ f f u s e = λ ⋅ f ^ + ( 1 − λ ) ⋅ f ~ \boldsymbol{f}_{fuse} = \lambda \cdot \hat{\boldsymbol{f}} + (1 - \lambda) \cdot \tilde{\boldsymbol{f}} ffuse=λf^+(1λ)f~,其中 λ \lambda λ 是一个默认设置为 0.5 的权衡超参数。

最后, f f u s e \boldsymbol{f}_{fuse} ffuse 被输入到一个分类头中,该分类头由 CTC 损失监督。

训练过程非常高效,因为在线和离线模型的参数都被冻结。

我们采用 TwoStream-SLR作为离线模型,因为其卓越的性能。

实验

主实验

Comparison with other online CSLR methods across three benchmarks

Comparison with other online SLT methods  on two benchmarks

Comparison with other offline CSLR methods

Comparison with offline/online TwoStreamSLR in latency and memory cost (GB) on the P-2014T  dev set

消融实验

Ablation studies for the major components

Study on sign segmentor

Study on sign augmentation strategies

Study on fusion weight λ

总结

在此工作中,我们开发了一个实用的在线CSLR框架。

首先,我们构建了一个与目标数据集词汇表相匹配的手语字典。

为了丰富训练数据,我们通过裁剪每个手语周围的片段来收集增强手语。

为了实现在线CSLR,我们在字典上训练了一个ISLR模型,使用标准分类损失和引入的显著性损失。

在推理过程中,我们通过实时将每个滑动窗口输入到优化良好的ISLR模型中,进行在线CSLR。

引入了一种简单而高效的后期处理算法,以消除重复预测。

此外,还提出了两个扩展,分别用于在线SLT和增强离线CSLR模型。

随着扩展,我们的框架在三个基准测试中实现了在各种任务设置下的SOTA性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/482546.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机控制载货汽车一键启动无钥匙进入广泛应用

移动管家载货汽车一键启动无钥匙进入手机控车系统‌, 该系统广泛应用于物流运输、工程作业等货车场景,为车主提供了高效、便捷的启动和熄火解决方案,体现了科技进步对物流行业的积极影响‌ 核心功能‌:简化启动流程,提…

「Mac畅玩鸿蒙与硬件34」UI互动应用篇11 - 颜色选择器

本篇将带你实现一个颜色选择器应用。用户可以从预设颜色中选择,或者通过输入颜色代码自定义颜色来动态更改界面背景。该应用展示了如何结合用户输入、状态管理和界面动态更新的功能。 关键词 UI互动应用颜色选择器状态管理用户输入界面动态更新 一、功能说明 颜色…

【解决安全扫描漏洞】---- 检测到目标站点存在 JavaScript 框架库漏洞

1. 漏洞结果 JavaScript 框架或库是一组能轻松生成跨浏览器兼容的 JavaScript 代码的工具和函数。如果网站使用了存在漏洞的 JavaScript 框架或库,攻击者就可以利用此漏洞来劫持用户浏览器,进行挂马、XSS、Cookie劫持等攻击。 1.1 漏洞扫描截图 1.2 具体…

IDEA Maven 打包找不到程序包错误或找不到符号,报错“程序包不存在“

参考文章:https://blog.csdn.net/yueeryuanyi/article/details/14211090 问题:IDEA Maven 打包找不到程序包错误或找不到符号,报错“程序包不存在“编译都没问题 解决思路 – >【清除缓存】 1. 强制刷新Maven缓存 选择 Maven 标签,Exe…

设计模式-适配器模式-注册器模式

设计模式-适配器模式-注册器模式 适配器模式 如果开发一个搜索中台,需要适配或接入不同的数据源,可能提供的方法参数和平台调用的方法参数不一致,可以使用适配器模式 适配器模式通过封装对象将复杂的转换过程隐藏于幕后。 被封装的对象甚至…

牛客面经学习【2024/12/1】

电流电压采样电路: 句句在理: 最近组里来了个新人,想表现自己,经常用力过猛。 劝大家,到了新公司,第一件事一定是观察! 这时候做任何事,都不要用力过猛,多做多说多错&am…

记录QT5迁移到QT6.8上的一些问题

经常看到有的同学说网上的教程都是假的,巴拉巴拉,看看人家发布时间,Qt官方的API都会有所变动,多搜索,多总结,再修改记录。 下次遇到问题多这样搜索 QT 4/5/6 xxx document,对比一下就知道…

WRF-Chem模式安装、环境配置、原理、调试、运行方法;数据准备及相关参数设置方法

大气污染是工农业生产、生活、交通、城市化等方面人为活动的综合结果,同时气象因素是控制大气污染的关键自然因素。大气污染问题既是局部、当地的,也是区域的,甚至是全球的。本地的污染物排放除了对当地造成严重影响外,同时还会在…

「Qt Widget中文示例指南」如何为窗口实现流程布局?(二)

Qt 是目前最先进、最完整的跨平台C开发工具。它不仅完全实现了一次编写,所有平台无差别运行,更提供了几乎所有开发过程中需要用到的工具。如今,Qt已被运用于超过70个行业、数千家企业,支持数百万设备及应用。 本文将展示如何为不…

700M是什么?为什么被称为黄金频段?

5G时代,频谱资源的有效利用成为了通信行业的关键议题。700MHz频段,因其覆盖广、穿透力强的特性,被誉为“5G黄金频段”。 Q 700M是什么? 700M是指700兆赫兹(MHz),是一种无线通信频段。 在无线通信…

移远通信携手紫光展锐,以“5G+算力”共绘万物智联新蓝图

11月26日,2024紫光展锐全球合作伙伴大会在上海举办。作为紫光展锐重要的合作伙伴,移远通信应邀参会。 在下午的物联网生态论坛上,移远通信产品总监胡勇华作题为“5G与算力双擎驱动 引领智联新未来”的演讲,深度剖析了产业发展的趋…

PMP–一、二、三模、冲刺–分类–8.质量管理

文章目录 技巧五、质量管理 一模8.质量管理--质量管理计划--质量管理计划包括项目采用的质量标准,到底有没有满足质量需求,看质量标准即可。6、 [单选] 自项目开始以来,作为项目经理同事的职能经理一直公开反对该项目,在讨论项目里…

RealESRGAN技术详解(附代码)

一、背景与动机 1.研究背景 1.1 图像超分辨率的挑战 图像超分辨率是一个长期存在的计算机视觉问题,它旨在从低分辨率(LR)图像中恢复出高分辨率(HR)图像。由于成像系统的局限性、传输过程中的压缩、存储空间的限制以及…

算法的复杂度

1.数据结构前言 下面的概念有的比较难理解,做个了结就行。 1.1数据结构的起源 在现实生活中我们更多地并不是解决数值计算的问题,而是 需要一些更科学的手段如(表,数,图等数据结构),才能更好…

#渗透测试#红蓝攻防#HW#漏洞挖掘#漏洞复现01-笑脸漏洞(vsftpd)

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

matlab2024a安装

1.开始安装 2.点击安装 3.选择安装密钥 4.接受条款 5.安装密钥 21471-07182-41807-00726-32378-34241-61866-60308-44209-03650-51035-48216-24734-36781-57695-35731-64525-44540-57877-31100-06573-50736-60034-42697-39512-63953 6 7.选择许可证文件 8.找许可证文件 9.选…

第二节——计算机网络(四)物理层

车载以太网采用差分双绞线车载以太网并未指定特定的连接器,连接方式更为灵活小巧,能够大大减轻线束重量。传统以太网一般使用RJ45连接器连接。车载以太网物理层需满足车载环境下更为严格的EMC要求,100BASE-T1\1000BASE-T1对于非屏蔽双绞线的传…

电脑还原重置Windows系统不同操作模式

电脑有问题,遇事不决就重启,一切都不是问题!是真的这样吗。其实不然,主机系统重启确实可以自动修复一些文件错误,或者是设置问题,但是,当你由于安装了错误的驱动或者中毒严重,亦或是蓝屏,那么重启这个方子可能就治不了你的电脑了。 那么,除了当主机出现异常故障现象…

Lumos学习王佩丰Excel第十八讲:LOOKUP函数与数组

一、回顾统计函数 1、使用SUMIF函数 sumif(条件区域,求和条件,求和区域) 2、使用SUMIFS函数 SUMIFS(求和范围, 条件范围1, 条件1, 条件范围2, 条件2, ...) 二、认识数组 1、数组生成原理 所谓数组,是有序的元素序列。组成数组的各个变量称为数组的元素。对于Ex…

JVM知识点学习-1

学习视频:狂神说Java 类加载器和双亲委派机制 类加载器 作用:加载Class文件 流程:这里的名字car1。。在栈里面,但是数据在堆里面 类加载器的几个类型: 虚拟机自带的类加载器;启动类(根Boot…