ExBody2: Advanced Expressive Humanoid Whole-Body Control

研究动机
解决方案
技术路线
实验结果

研究动机

高维状态空间和复杂控制限制了人形机器人在现实世界中的应用。
人形机器人和人类在身体结构上有很大不同，阻碍了机器人完全复制人类动作的能力。

解决方案

提出高表达性全身控制（ExBody2），该框架可以最大限度地提高人形机器人上可行的全身运动的表现力。该框架属于Sim2Real，策略将参考运动作为输入，输出控制真实人形机器人在现实世界中执行运动的动作。其中策略可以对不同的动作进行泛化。

在这里插入图片描述

技术路线

数据集管理：数据集包括各种上半身运动。动作的多样性对于挑战和增强机器人的适应性和对实际应用的准备至关重要，尤其是响应意外场景的灵活性。而由于机器人的机械限制和稳定性要求，下半身的运动选择更加保守。基本动作包括行走和细微的姿态调整。而高动态的运动如跳跃或复杂的旋转运动，则需要仔细考量。不可行的行为进行训练会在学习过程中引入噪声，从而降低其有效性。此外，还需要排除或修改超出机器人能力的复杂下半身运动动作。

策略学习：采用两阶段师生训练策略。具体而言，教师策略首先使用PPO算法进行训练，在仿真中获取特权信息。然后，将特权信息替换为与现实世界一致的观测值，并将教师策略提炼为可部署的学术策略。

教师策略学习：状态信息包括特权信息、机器人本体感知和运动跟踪目标。动作输出是关节目标位置。特权信息包含人形机器人和环境的一些状态真值，这些真值只能在仿真中观测到，包括机器人本体速度、机器人本体连接件的位置和物理属性（比如摩擦系数、电机强度）。运动跟踪目标由两部分组成，分别是上半身和下半身的预期关节和3D关键点，以及目标线速度和位姿。奖励函数包括跟踪机器人本体速度、方向和方位，跟踪关键点和关节位置，以及正则化项。

Alt
在这里插入图片描述

学生策略学习：学生策略不含特权信息，而是使用观测时序更长的历史帧来训练，同时包含运动跟踪目标。使用教师策略输出的动作对学生策略输出的动作进行监督，并采用MSE损失进行训练。此外，还用DAgger方法，在仿真环境中执行学生策略以生成训练数据。
跟踪策略解耦：运动跟踪包含两个目标：跟踪关节位置和身体关键点位置。关键点跟踪至关重要，因为关节的跟踪误差可以扩散到整个身体，而关键点跟踪而直接应用于身体。具体而言，将全局关键点映射到机器人的局部坐标系，并使用基于速度的全局跟踪。速度和运动的协调允许即使出现轻微的位置偏差也能完成跟踪效果。此外，为进一步增强机器人在跟随关键点的能力，在训练阶段允许关键点有轻微的全局漂移，并定期将其纠正到机器人的当前坐标系。

连续运动生成：现有的动作通常较短，这限制了人形机器人连续执行有趣且延伸的行为。为克服该问题，训练条件变分自编码器CVAE，以合成未来可以被全身跟踪策略直接使用的动作。具体而言，CVAE根据历史M帧的运动信息合成未来H帧的运动信息，包括关节位置、机器人本体姿态、速度和角速度。该设计使ExBody2系统能够执行超越原始数据集时长限制的复杂动作（如持续舞蹈），并且动态适应环境变化以及保持动作的自然流畅性。