CoRL 2024 麻省理工学院提出T3触觉Transformer,打破触觉感知的壁垒,重塑未来机器人

在智能机器人领域,触觉感知的研究正逐渐成为关注的焦点。然而,如何让机器人通过触觉更智能地感知和操作,依然是一个未解决的挑战。基于相机的触觉感知是一种通过在软弹性体下嵌入相机来捕获与环境的细粒度交互的感知方法,是最流行的触觉感知方法之一,因为它更高分辨率和成本更低。然而,基于相机的触觉传感器是非常异构的,而且还没有一个被机器人技术社区广泛采用的融合传感器设计。那么,有没有一项技术能够实现跨多传感器和多任务的扩展呢?为了解决这个问题,我们今天的主角——Transferable Tactile Transformers (T3)——便应运而生,它能够跨越不同的传感器和任务,实现触觉表征的迁移学习。

https://openreview.net/forum?id=KXsropnmNI

什么是T3?

T3是一个基于Transformer的框架,通过一个共享的主干网络结构,为不同的触觉传感器和任务提供灵活、可迁移的解决方案。与传统触觉感知系统不同,T3通过预训练,能够快速适应新的传感器和任务,无需从零开始训练。每个传感器和任务都有专属的编码器和解码器,但所有的知识共享同一个Transformer主干结构,从而提升效率和迁移能力。

T3的架构图如下所示:
在这里插入图片描述

T3架构由传感器特定的编码器、共享的Transformer主干和任务特定的解码器组成。编码器处理不同传感器的数据,主干负责提取共享的潜在表示,而解码器根据任务类型进行特定的输出。这种设计允许T3在多种传感器和任务之间实现高效的知识迁移,大大提升了触觉感知的性能与适应性。

FoTa:庞大的触觉数据库
为了支持T3的训练,我们研究团队创建了一个名为FoTa(Foundation Tactile)的数据集。FoTa汇集了超过3百万个来自13种不同的传感器和11种任务的数据。FoTa是迄今为止在触觉感知领域规模最大、最多样的数据集,并且它拥有一种统一的格式。通过在FoTa数据集上进行预训练,T3具备了强大的泛化能力,我们可以通过少量领域的特定数据对其进行进一步的微调,并且其性能可随网络规模的增大而提高,如此便能够应对各种不同的感知需求。无论是细致的电子插入任务,还是复杂的物体操控,T3都表现出色。

实际应用场景:触觉在机器人中的突破
T3的应用不仅局限于学术研究,它在多个现实任务中表现优异。研究表明,T3可以帮助机器人在复杂的操作中取得显著进步,尤其是在精细的电子元件插入任务中,相较于传统方法,T3大幅提高了任务成功率。想象一下,未来的机器人可以像人类一样,通过触摸识别物体的微小差异,甚至在视觉受限的情况下也能完成高精度任务。

为什么T3如此特别?
T3采用共享的Transformer主干结构,结合特定传感器的编码器和任务解码器,实现跨传感器、跨任务的触觉感知。这意味着,无论是面对不同类型的传感器,还是不同的操作任务,T3都能轻松适应。我们提出将可转移触觉变压器(T3)作为主干网络,从不同的触觉传感器中学习,并为不同的下游任务产生输出。

  1. 多传感器兼容
    现有的触觉传感器因设计差异显著,无法跨设备迁移。而T3通过构建FoTa数据集,包含了13种传感器和11项任务,超过300万条数据,为模型的学习提供了丰富的数据支持,并且可以兼容多种传感器。

  2. 任务泛化能力强
    T3在任务中的表现优异,特别是在精密操作中,如电子元件插入任务,相较于传统方法提升了25%的成功率。对于其他任务,T3通过少量微调数据,能够快速适应新任务,展现出强大的迁移学习能力。

为了测试预训练T3的性能,我们设计了一个具有行为克隆的机器人精确插入任务。此任务的目标是将3个电子部件插入PCB上,每个部件都有相应的安装孔:一个3针拨动开关、一个12针双堆栈USB端口和一个17针VGA连接器。由于PCB上的孔和零件上的引脚之间的间隙仅为0.4mm,所以这项任务需要很高的精度,实现这种精度需要积极探索触觉反馈。在现实世界的应用中,由于严重的遮挡,仅依靠视觉往往是不够的。

实验设备(左)以及相关零件(右)的示意图如下所示:
在这里插入图片描述

为了探究T3的优劣,我们训练和评估了3个策略:一个没有触觉输入的基础策略,一个由从头开始训练的神经网络编码的触觉输入策略,以及一个由T3编码的触觉输出策略。除了触觉输入,所有3个策略都可以访问由MLP编码的相同机器人状态模态和由预训练的ResNet18编码的外部视觉模态。这三种策略都将当前步骤的观测值作为输入,并预测机器人在下一个时间步骤执行的3-DoF动作。在推理时,机器人以约2Hz的速度执行预测的3-DoF动作,最多30步。如果机器人在30个步骤内成功插入组件,则该事件被视为成功。

相关实验的成功率(左)和平均步骤数(右)如下图所示:
在这里插入图片描述

从结果中我们不难看出:触觉模式对于这项电子插入任务至关重要,其中仅视觉策略在插入两个更具挑战性的部分的所有测试中都失败了;使用预训练的T3作为该策略的触觉编码器有助于进一步提高整体性能,其中所有三个部分的任务成功率都更高;T3还有助于减少插入零件所需的触觉探索步骤的数量。

T3的技术亮点

  1. 多任务适应:T3的架构不仅限于简单的分类任务,还能处理如位姿回归、物体识别等复杂任务。通过传感器特定的编码器与任务特定的解码器,T3在多任务环境下表现出极高的灵活性和适应性。无论是物体的分类还是精确的位姿估计,T3都能够有效应对,充分发挥Transformer的结构优势,展现出其在不同场景中高效处理触觉感知数据的能力。

  2. 预训练模型的优势:T3在FoTa大规模数据集上进行了预训练,涵盖了来自13种传感器和11项任务的300万+数据点。这使得T3不仅能够实现零样本迁移学习,还可以在面对全新的任务或传感器时快速上手,无需从头开始训练。预训练的T3在许多任务上展现了显著的性能提升,特别是在复杂的长时间接触操作任务中,例如多引脚电子元件的插入任务,T3相较于传统方法提高了25%的任务成功率。这种高效的迁移能力使T3在实际应用中具有极大的优势。

应用前景
触觉感知是机器人在复杂操作中不可或缺的关键能力,特别是在需要高精度和细腻控制的领域,如医疗手术、工业组装和手术机器人等。T3的出现,为机器人带来了更加灵活和精确的触觉感知能力。通过T3,未来的机器人将能够处理微小的物体,并完成精细的装配和操作,例如在狭小空间内插入多引脚电子元件。这种触觉感知技术还可以用于手术机器人,帮助外科医生完成更复杂、更精确的手术操作。

T3不仅提升了机器人的感知精度,还为其提供了应对多样化任务的能力,特别是那些需要在视觉受限或完全不可用的环境中进行操作的任务。无论是工业中的复杂机械装配,还是医疗领域中极细微的手术,T3都能够通过更精细的触觉反馈,提高任务的完成效率与成功率。

未来展望
T3展示了触觉感知领域的未来趋势,为机器人与人类的互动带来了全新的可能性。未来,机器人将不再仅依赖视觉和声音,还将通过“触摸”完成更多复杂操作,例如从电子设备的精密装配到医疗中的微创手术。触觉技术的进步使机器人能在更复杂的环境中自如操作,减小失败风险,并显著提升任务的成功率。随着这一技术的发展,我们可以预见,机器人将在生产、物流、医疗等领域发挥更大作用,显著提升各行业的自动化水平。

此外,T3的通用性使其成为未来智能机器人领域中的关键技术支撑。未来的机器人不再局限于特定任务或传感器,而是可以应对更多样的任务和环境。通过这项技术,机器人与人类之间的互动将更加自然、智能,甚至有可能实现基于触觉的情感交流,进一步缩短人机之间的差距。

总结
T3不仅仅是触觉感知领域的一次技术突破,更为未来机器人如何感知和操作世界提供了全新思路。无论是在工业领域中的高精度装配,还是在医疗手术中的复杂操作,T3都展现出广泛的应用前景。通过这一技术,我们看到了触觉感知如何为机器人赋能,使其更加智能化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/439162.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Python学习日记-39] 闭包是个什么东西?

[Python学习日记-39] 闭包是个什么东西? 简介 闭包现象 闭包意义与作用 简介 在前面讲函数和作用域的时候应该提到过,当函数运行结束后会由 Python 解释器自带的垃圾回收机制回收函数内作用域已经废弃掉的变量,但是在 Python 当中还有一种…

MySQL--数据库约束(详解)

目录 一、前言二、概念三、数据库约束3.1 约束类型3.1.1 NOT NULL 约束3.1.2 UNIQUE (唯一)3.1.3 DEFAULT(默认)3.1.4 PRIMARY KEY(主键)3.1.5 FOREIGN KEY(外键)3.1.6 CHECK 四、总结 一、前言…

Golang | Leetcode Golang题解之第454题四数相加II

题目: 题解: func fourSumCount(a, b, c, d []int) (ans int) {countAB : map[int]int{}for _, v : range a {for _, w : range b {countAB[vw]}}for _, v : range c {for _, w : range d {ans countAB[-v-w]}}return }

STM32新建工程-基于库函数

目录 一、创建一个新工程 二、为工程添加文件和路径 三、创建一个main.c文件,并调试 四、修改一些配置 五、用库函数进行写程序 1、首先加入一些库函数和头文件 2、编写库函数程序 一、创建一个新工程 我这里选择STM32F103C8的型号,然后点击OK。 …

如何提取b站的视频字幕,下载视频

打开视频地址 按F12打开—开发者工具 在开发者工具打开Network 过滤器关键字: 自动生成字幕:ai_subtitle 自制:json 打开/关闭字幕 刷新页面 找到字幕 点选字幕的respond 将方框中的内容复制; 复制到:https://www.drea…

蓝桥杯【物联网】零基础到国奖之路:十五. 扩展模块之双路ADC

蓝桥杯【物联网】零基础到国奖之路:十五. 扩展模块之双路ADC 第一节 硬件解读第二节 CubeMX配置第三节 代码编写 第一节 硬件解读 STM32的ADC是12位,通过硬件过采样扩展到16位,模数转换器嵌入到STM32L071xx器件中。有16个外部通道和2个内部通道&#xf…

github双重验证(2FA)启用方法

一、双重验证-2FA 在去年看到过说github启用双重验证的通知,觉得做为一个普通开发者,可能没有这么快会要求启用。结果,今天早晨一来就收到了邮件,要求说在11月底完成2FA的认证,否则权限受限。真是无了语。所谓2FA好理…

CSS 实现楼梯与小球动画

CSS 实现楼梯与小球动画 效果展示 CSS 知识点 CSS动画使用transform属性使用 页面整体布局 <div class"window"><div class"stair"><span style"--i: 1"></span><span style"--i: 2"></span>…

jmeter学习(2)变量

1&#xff09;用户定义的变量 路径&#xff1a;添加-》配置元件-》用户定义的变量 用户定义的变量是全局变量&#xff0c;可以跨线程组被调用&#xff0c;但在启动运行时获取一次值&#xff0c;在运行过程中不再动态获取值。 注意的是&#xff0c;如果在某个线程组定义了全…

使用GitLab CI构建持续集成案例

1. 部署GitLab &#xff08;1&#xff09;基础准备 解压软件包并导入镜像&#xff1a; [rootmaster ~]# curl -O http://mirrors.douxuedu.com/competition/Gitlab-CI.tar.gz [rootmaster ~]# tar -zxvf Gitlab-CI.tar.gz [rootmaster ~]# ctr -n k8s.io image import gitla…

linux基础指令的认识

在正式学习linux前&#xff0c;可以简单认识一下linux与win的区别 win&#xff1a;是图形界面&#xff0c;用户操作更简单&#xff1b;在刚开始win也是黑屏终端 指令操作&#xff0c;图形界面就是历史发展的结果。Linux&#xff1a;也存在图形界面比如desktop OS&#xff1b;但…

基于拥堵模型的轻量级平台公交室内情况监控系统

论文标题&#xff1a;Bus Indoor Situation Monitoring System Based on Congestion Model Using Lightweight Platform 作者信息&#xff1a;Dong Hyun Kim, Yun Seob Kim, 和 Jong Deok Kim* 所属机构&#xff1a;Pusan National University, Department of Computer Scienc…

网页打不开、找不到服务器IP地址

现象&#xff1a;网络连接ok&#xff0c;软件能正常使用&#xff0c;当网页打不开。 原因&#xff1a;DNS 配置错误导致网站域名无法正确解析造成。 影响DNS设置的&#xff1a;VPN软件、浏览器DNS服务选择、IPv4属性被修改。 1、VPN代理未关闭 2、浏览器DNS解析选择 3、以太…

Python | 使用Seaborn绘制KDE核密度估计曲线

核密度估计&#xff08;KDE&#xff09;图&#xff0c;一种可视化技术&#xff0c;提供连续变量概率密度的详细视图。在本文中&#xff0c;我们将使用Iris Dataset和KDE Plot来可视化数据集。 什么是KDE图&#xff1f; KDE图&#xff0c;全称核密度估计图(Kernel Density Est…

【JAVA开源】基于Vue和SpringBoot的旅游管理系统

本文项目编号 T 063 &#xff0c;文末自助获取源码 \color{red}{T063&#xff0c;文末自助获取源码} T063&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析5.4 用例设计 六、核…

k8s的学习和使用

为什么用k8s&#xff0c;不用docker&#xff1f; k8s更适合复杂的微服务架构和大规模的容器应用。 Pods(Pod) Pod是k8s最小可部署单元&#xff0c;他包含一个或多个相关容器。这些容器共享网络命名空间和存储卷&#xff0c;他们通常协同工作来构成一个应用程序。 Serv…

微信小程序处理交易投诉管理,支持多小程序

大家好&#xff0c;我是小悟 1、问题背景 玩过微信小程序生态的&#xff0c;或许就有这种感受&#xff0c;如果收到投诉单&#xff0c;不会及时通知到手机端&#xff0c;而是每天早上10:00向小程序的管理员及运营者推送通知。通知内容为截至前一天24时该小程序账号内待处理的交…

哪款百元头戴式耳机性价比高?四款大火爆全网的机型盘点推荐!

在繁忙的生活节奏中&#xff0c;寻找一片属于自己的宁静空间&#xff0c;成为了许多人的内心渴望。头戴式降噪耳机&#xff0c;正是那把打开音乐世界的钥匙。它不仅能够隔绝外界的喧嚣&#xff0c;还能将您带入一个纯净无瑕的音乐世界。无论是沉浸在古典乐的悠扬旋律中&#xf…

66 使用注意力机制的seq2seq_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录动机加入注意力总结代码定义注意力解码器训练小结练习 我们来真的看一下实际应用中&#xff0c;key&#xff0c;value&#xff0c;query是什么东西&#xff0c;但是取决于应用场景不同&#xff0c;这三个东西会产生变化。先将放在seq2seq这个…

平面电磁波的电场能量磁场能量密度相等,能量密度的体积分等于能量,注意电场能量公式也没有复数形式(和坡印廷类似)

1、电场能量密度和磁场能量密度相等(实数场算的) 下面是电场能量密度和磁场能量密度的公式&#xff0c;注意这可不是坡印廷定理。且电场能量密度没有复数表达式&#xff0c;即不是把E和D换成复数形式就行的。注意&#xff0c;一个矢量可以转化为复数形式&#xff0c;两个矢量做…