【论文笔记】MLSLT: Towards Multilingual Sign Language Translation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: MLSLT: Towards Multilingual Sign Language Translation
作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He
发表: CVPR 2022
主页: https://mlslt.github.io/

基本信息

摘要

截至目前,大部分研究集中在双语手语翻译(BSLT)。然而,此类模型在构建多语言手语翻译系统中效率低下。

为了解决这个问题,我们引入了多语言手语翻译(MSLT)任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。

随后,我们提出了MSLT的第一个模型——MLSLT,它包含两种新颖的动态路由机制,用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例,层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。

为了评估MSLT的性能,我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten(SP-10),该数据集包含多达100个语言对,例如,CSL→en,GSG→zh。实验结果表明,MSLT的平均性能在很多情况下优于基线MSLT模型和多个BSLT模型的组合。

此外,我们还探索了手语的零样本翻译,并发现我们的模型在某些语言对上可以达到与监督BSLT模型相当的性能。数据集和更多详细信息请访问https://mlslt.github.io/。

主要贡献

  • 我们贡献了一个大规模的多语言手语理解数据集,适用于多种任务,如多语言手语翻译、多语言文本到视频手语生成和多语言视频到视频手语翻译。
  • 我们是第一个探索MSLT问题的人,并提出了一种基于动态神经网络的MSLT框架,即MLSLT。我们使用了两种新颖的动态路由机制来控制不同手语之间的参数共享。
  • 广泛的实验结果表明,我们提出的单模型在参数使用较少的情况下,性能优于MSLT基线模型和多个BSLT模型。一系列新的基线结果可以指导该领域的未来研究。

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性

一个示例,用以说明MSLT模型在构建多语种手语翻译系统方面相对于BSLT模型的优越性。

方法

模型框架

模型框架

  • Sign Embedding: EfficientNet
  • Word Embedding: MultiBPEmb

Embedding

f t = C N N ( N t ) ( W 1 ) + b 1 f_t = CNN(N_t)(W_1) + b_1 ft=CNN(Nt)(W1)+b1

w m = E m b ( y m ) ( W 2 ) + b 2 w_m = Emb(y_m)(W_2) + b_2 wm=Emb(ym)(W2)+b2

IntraLSR

IntraLSR

h s = f ( e l ) W s , h u = f ( e l ) W u h = g u ( e l ) h u + ( 1 − g u ( e l ) ) h s e l + 1 = L a y e r N o r m ( h + e l ) \begin{align*} h^s &= f(e^l)W^s, h^u = f(e^l)W^u \\ h &= g_u(e^l)h^u + (1-g_u(e^l))h^s \\ e^{l+1} &= LayerNorm(h+e^l) \end{align*} hshel+1=f(el)Ws,hu=f(el)Wu=gu(el)hu+(1gu(el))hs=LayerNorm(h+el)

g u ( ⋅ ) g_u(\cdot) gu() 表示每个语言独有的门控单元,由以下公式得到:

g u ( e l ) = σ ( ( r e l u ( e l W 3 + b 3 ) + e l ) W 4 + b 4 ) g_u(e^l) = \sigma((relu(e^lW_3+b_3)+e^l)W_4+b_4) gu(el)=σ((relu(elW3+b3)+el)W4+b4)

InterLSR

InterLSR

一个示例来说明具有InterLSR模块的模型与传统模型之间的差异

α = σ ( E l a n g W 5 + b 5 ) z l + 1 = L N ( α z l + ( 1 − α ) o l + 1 ) \begin{align*} \alpha &= \sigma(E_{lang} W_5 + b_5) \\ z^{l+1} &= LN(\alpha z^l + (1-\alpha)o^{l+1}) \end{align*} αzl+1=σ(ElangW5+b5)=LN(αzl+(1α)ol+1)

E l a n g E_{lang} Elang 表示语言嵌入向量。

训练

NVIDIA RTX 2080ti GPU × 1

损失函数

带 label smoothing 的交叉熵损失:

y ^ m = y m ( 1 − ϵ ) + ϵ K L c e = − ∑ m = 1 M y ^ m l o g ( P ( y m ∣ y 1 : m − 1 , V ; θ ) ) \begin{align*} \hat{y}_m &= y_m(1-\epsilon) + \frac{\epsilon}{K} \\ \mathcal{L}_{ce} &= -\sum_{m=1}^M \hat{y}_m log(P(y_m|y_{1:m-1},V;\theta)) \end{align*} y^mLce=ym(1ϵ)+Kϵ=m=1My^mlog(P(ymy1:m1,V;θ))

ϵ = 0.2 \epsilon=0.2 ϵ=0.2

以及一个正交损失,希望IntraLSR中的share与各语言的参数尽可能正交:

L o = 1 L ∑ i = 1 L ∥ ( W s ) T W i ∥ F 2 \mathcal{L}_o = \frac{1}{L}\sum_{i=1}^L \| (W^s)^T W_i \|^2_F Lo=L1i=1L(Ws)TWiF2

总体目标:

L = λ 1 L c e + λ 2 L o \mathcal{L} = \lambda_1 \mathcal{L}_{ce} + \lambda_2 \mathcal{L}_o L=λ1Lce+λ2Lo

λ 1 = 1 , λ 2 = 0.1 \lambda_1=1, \lambda_2=0.1 λ1=1,λ2=0.1

数据集

数据集概览

10 种手语 * 10 种口语 = 100 种手语到口语的任务

Transparent: SP-10 使用 Robust Video Matting (RVM) toolbox,分割了视频背景,这允许后续通过更换背景来进行数据增强。

SP-10数据集统计结果

实验

主实验

多种手语到英语口语文本的实验结果

多种手语到英语口语文本的实验结果。

某些手语到英语指标不如BSLT模型,可能是因为那些手语与别的手语差异较大。

British Sign Language到多种口语文本的实验结果

British Sign Language到多种口语文本的实验结果。

MSLT模型在这个任务上表现太差了,作者就没写在表里。

多种手语到多种口语文本的实验结果

多种手语到多种口语文本的实验结果。

MLSLT具有更好的性能和更少的参数。

Zero-Shot 翻译

Zero-Shot 翻译。

每个Zero-Shot模型在 4 × (4 − 1) 个口语到手语的任务上训练。

消融实验

消融实验

InterLSR对训练过程的影响

总结

在这篇论文中,我们介绍了一个具有挑战性的任务——多语言手语翻译(MSLT),并提出了第一个MSLT模型,即MLSLT。

与先前的研究相比,我们试图使用单个模型来完成多个语言对之间的翻译。为了减少不同语言之间的冲突,我们提出了两种新颖的动态路由机制。它们分别从语言层面和标记层面动态调整数据流。

为了评估我们提出方法的有效性,我们创建了第一个公开的多语言手语理解数据集,SP-10。

与先前数据集相比,SP-10包含更多的语言对,不同手语之间的配对信息为多语言文本到视频生成任务和视频到视频翻译任务创造了可能性。

我们在该数据集上进行了广泛的实验,以支持未来的研究并证明我们提出方法的有效性。我们在附录中讨论了我们工作的局限性和潜在负面影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/456784.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络:网络层 —— IPv4 协议的表示方法及其编址方法

文章目录 IPv4IPv4的表示方法IPv4的编址方法分类编址A类地址B类地址C类地址可指派的地址数量一般不使用的特殊IPv4地址 划分子网编址子网掩码默认子网掩码 无分类编址方法地址掩码斜线记法无分类域间路由选择 CIDR IPv4 IPv4(Internet Protocol version 4&#xff…

麒麟v10 arm64 部署 kubesphere 3.4 修改记录

arm64环境&#xff0c;默认安装 kubesphere 3.4 &#xff0c;需要修改几个地方的镜像&#xff0c;并且会出现日志无法显示 1 fluentbit:v1.9.4 报错 <jemalloc>: Unsupported system page size Error in GnuTLS initialization: ASN1 parser: Element was not found. &…

C++ [项目] 愤怒的小鸟

现在才发现C游戏的支持率这么高&#xff0c;那就发几篇吧 零、前情提要 此篇为 制作,由于他没有CSDN,于是由我代发 一、基本介绍 支持Dev-C5.11版本(务必调为英文输入法),基本操作看游戏里的介绍,怎么做的……懒得说,能看懂就看注释,没有的自己猜,如果你很固执……私我吧 …

Oracle SQL Developer 同时打开多个table的设置

Oracle SQL Developer 同时打开多个table的设置 工具 》 首选项 》数据库 》对象查看器&#xff0c;勾选 “自动冻结对象查看器窗口”

数据结构------手撕顺序表

文章目录 线性表顺序表的使用及其内部方法ArrayList 的扩容机制顺序表的几种遍历方式顺序表的优缺点顺序表的模拟实现洗牌算法 线性表 线性表&#xff08;linear list&#xff09;是n个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使用的数据结构&#xff0c;…

TLS协议基本原理与Wireshark分析

01背 景 随着车联网的迅猛发展&#xff0c;汽车已经不再是传统的机械交通工具&#xff0c;而是智能化、互联化的移动终端。然而&#xff0c;随之而来的是对车辆通信安全的日益严峻的威胁。在车联网生态系统中&#xff0c;车辆通过无线网络与其他车辆、基础设施以及云端服务进行…

Lucas带你手撕机器学习——套索回归

好的&#xff0c;下面我将详细介绍套索回归的背景、理论基础、实现细节以及在实践中的应用&#xff0c;同时还会讨论其优缺点和一些常见问题。 套索回归&#xff08;Lasso Regression&#xff09; 1. 背景与动机 在机器学习和统计学中&#xff0c;模型的复杂性通常会影响其在…

【云原生】Kubernets1.29部署StorageClass-NFS作为存储类,动态创建pvc(已存在NFS服务端)

文章目录 在写redis集群搭建的时候,有提到过使用nfs做storageclass,那时候kubernetes是1.20版本,https://dongweizhen.blog.csdn.net/article/details/130651727 现在使用的是kubernetes 1.29版本,根据之前的修改方式并未生效,反而提示:Error: invalid argument "Re…

Claude Financial Data Analyst:基于Claude的金融数据分析工具!免费开源!

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;专注于分享AI全维度知识&#xff0c;包括但不限于AI科普&#xff0c;AI工…

智创 AI 新视界 -- 探秘 AIGC 中的生成对抗网络(GAN)应用

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

【算法设计与分析】-回溯法的回忆-学习【期末复习篇章】

引言 简单说,迷宫问题的求解方法就是走的通就走&#xff0c;走不通 就回头寻找另外的路径的一种满足某约束条件的穷举式 搜索技术 回溯法是一种在解空间中搜索可行解或最优解的方法。 该方法通常将解空间看做树形结构&#xff0c;即状态空间树。从根结 点开始,以深度优先对状态…

李沐读论文-启发点记录2:Resnet--残差连接--kaiming老师神作

&#xff08;一&#xff09;可以借鉴&#xff1a; 1. 计算机视觉的论文&#xff0c;都会在第一页的右上角&#xff0c;放上一张好看的图&#xff01; 2.bottleNet的设计——很大程度上节省了计算FLOPs开销&#xff0c;这是Resnet50及其更大版本都会用到的设计。 3.Resnet在de…

[RK3566-Android11] 使用SPI方式点LED灯带-JE2815/WS2812,实现呼吸/渐变/随音量变化等效果

问题描述 之前写了一篇使用GPIO方式点亮LED灯带的文章 https://blog.csdn.net/jay547063443/article/details/134688745?fromshareblogdetail&sharetypeblogdetail&sharerId134688745&sharereferPC&sharesourcejay547063443&sharefromfrom_link 使用GPIO…

OceanBase 首席科学家阳振坤:大模型时代的数据库思考

2024年 OceanBase 年度大会 即将于10月23日&#xff0c;在北京举行。 欢迎到现场了解更多“SQL AI ” 的探讨与分享&#xff01; 近期&#xff0c;2024年金融业数据库技术大会在北京圆满举行&#xff0c;聚焦“大模型时代下数据库的创新发展”议题&#xff0c;汇聚了国内外众多…

详细尝鲜flutter

flutter 161由于官方的汉化文档感觉还是有很多没有汉化的地方 &#xff0c;所以自己打一遍的同时写下了以下笔记 社区生态 官方文档 所有的控件:Widget 目录 | Flutter 中文文档 - Flutter 中文开发者网站 - Flutter 官方论坛的教程 Flutter Widget框架概述 - Flutter中文网…

微信小程序中关闭默认的 `navigationBar`,并使用自定义的 `nav-bar` 组件

要在微信小程序中关闭默认的 navigationBar&#xff0c;并使用自定义的 nav-bar 组件&#xff0c;你可以按照以下步骤操作&#xff1a; 1. 关闭默认的 navigationBar 在你的页面的配置文件 *.json 中设置 navigationBar 为 false。你需要在页面的 JSON 配置文件中添加以下代码…

JS 中 reduce()方法及使用

摘要&#xff1a; 开发中经常会遇到求合计的状况&#xff01;比如和&#xff0c;积等&#xff01;这次遇到的是求合计的和&#xff01; reduce()方法是JavaScript中Array对象的一种高阶函数&#xff0c;用于对数组中的每个元素执行一个由您提供的reducer函数&#xff08;回调函…

内置数据类型、变量名、字符串、数字及其运算、数字的处理、类型转换

内置数据类型 python中的内置数据类型包括&#xff1a;整数、浮点数、布尔类型&#xff08;以大写字母开头&#xff09;、字符串 变量名 命名变量要见名知意&#xff0c;确保变量名称具有描述性和意义&#xff0c;这样可以使得代码更容易维护&#xff0c;使用_可以使得变量名…

STM32-Modbus协议(一文通)

Modbus协议原理 RT-Thread官网开源modbus RT-Thread官方提供 FreeModbus开源。 野火有移植的例程。 QT经常用 libModbus库。 Modbus是什么&#xff1f; Modbus协议&#xff0c;从字面理解它包括Mod和Bus两部分&#xff0c;首先它是一种bus&#xff0c;即总线协议&#xff0c;和…

学习threejs,利用THREE.ExtrudeGeometry拉伸几何体实现svg的拉伸

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️THREE.ExtrudeGeometry拉伸…