TA-VLA——将关节力矩反馈融入VLA中：无需外部力传感器，即可完成汽车充电器插入(且可多次自主尝试)-易微帮

前言

今25年9.13日，我在微博上写道：

“我们为何24年起聚焦具身开发呢
23年我们做了一系列大模型应用，发觉卷飞了，c端搞不过大厂的工程迭代流量获取，b端拼不过大厂的品牌，且大厂外人人都可以搞
然，具身不一样，本体厂商忙于运控，学校侧重科研，互联网大厂还处于具身布局早期，而我司『七月在线』完全可以用1-2年的时间完成积累，加速推动科研到实际生产力的尽快落地 ”
故，加速推动具身前沿技术到实际生产力的落地，算是我司『新的使命』了
毕竟工厂从自动化到智能化，是真真正正的新一轮工业革命，谁叫：科学技术是当代第一生产力呢

总之，让机器人(无论是机械臂还是人形)干好活，以不断提高工业生产力，对我有着极大的吸引力，以及极高的成就感，故，我愿用我余生全力推动工业生产力的不断提升

人形之外，对于机械臂目前侧重精密插拔、智能装配，故对这方面的论文始终保持着高度的关注
加之过去半年多，我们已给三个集团客户做了具身加油机器人的解决方案，和汽车充电器充电有一定比例的相似性

故关注到了本文要解读的TA-VLA

第一部分 TA-VLA：阐释面向扭矩感知的视觉-语言-动作模型的设计空间

1.1 引言与相关工作

1.1.1 引言

如TA-VLA原论文所说，通过力觉线索理解物理交互对于掌握现实世界中的机器人操作至关重要。其中，关节力矩是一种极具信息量的信号，它能够在无需外部力传感器的情况下，反映末端执行器接触动态的微妙变化[1,2,3]

如图1(a)所示，即使是在充电器插入这样看似简单的任务中——无接触、插入失败和成功插入——也可以通过7自由度机械臂的关节力矩曲线清晰区分。这些力矩响应提供了丰富的物理上下文信息，而仅凭RGB观测是无法感知的

然而，尽管视觉-语言-动作（VLA）模型[4,5,6,7,8]在连接视觉与控制方面取得了显著进展，但它们对这类物理反馈的理解和利用能力仍然有限

来自1 北京智源人工智能研究院BAAI 、2 清华大学人工智能产业研究院AIR、3 南洋理工大学的研究者期望通过将力矩信号集成到预训练的VLA模型中，弥合这一差距，从而在不影响泛化性和可扩展性的前提下，实现对接触敏感的决策

然挑战在于如何将力矩嵌入到VLA架构中。力矩是一种本体感觉信号，其结构与图像和语言输入截然不同，且在时间上具有变化性，尤其在接触丰富的阶段更为明显

如图1(c)所示，力矩的集成策略可以在三个维度上展开——何时（即时、历史或预测）、何处（编码器或解码器），以及如何（单一token与多token）。这些选项构成了一个广泛的设计空间，但缺乏系统性的理解

a）7自由度机械臂在充电器插入任务中的力矩响应
灰色阴影区域表示无接触阶段，此时力矩几乎保持平稳
橙色高亮段表示一次插入失败的尝试——发生了接触，但插头未能插入插座，仅产生微小的力矩波动
绿色高亮段突出显示了一次成功的插入，特征为插头完全就位时出现的显著大幅力矩峰值
b）7自由度机器人机械臂的可视化，突出显示关节力矩的映射关系
c）本文探讨的基于力矩特征的设计空间，涵盖当前、历史及未来信号

作者使用来自所有7个关节的扭矩信号，而不仅仅是末端执行器的信号

由于机器人动力学的影响，部分关节——尤其是靠近肩部的关节（例如图1(b)中的关节2）在非接触状态下也会出现运动变化（例如，图1(a)中的第20–36个时间戳）。这些变化并非噪声，并且远小于接触引起的信号（见图13）

此外，为了确保稳定性并保留有意义的模式，作者对每个关节采用训练数据的统计信息进行归一化处理，这与对状态和动作的归一化方法相同

因此，作者的动机有两方面：

确定对力矩感知的VLA模型最有效的设计选择
总结可推广的原则，以指导未来物理模态的集成

作者的第一个见解是，力矩信号应集成到解码器中，而不是编码器

通过HSIC分析[9]和消融实验（第4.1节）验证，这种在解码器端的集成能够在动作生成过程中，将力矩与其他本体感受信号（如关节角度）进行对齐
这样的设计利用了解码器对细粒度变化的更高敏感性——这一点在接触丰富的场景中至关重要（例如，区分图1(a)中插头插入失败与成功的情况）

作者的第二个发现是，历史力矩信息比单帧输入更具信息量

然而，注入多个token可能会干扰解码器已学习的输入模式。作者发现，将整个力矩历史编码为解码器中的单一token（见图4(c)），能够在信息丰富性与架构稳定性之间取得平衡
即解码端的单步力矩历史能够实现最佳的本体感知对齐与性能表现
这一设计选择优于逐帧或在编码器端集成历史信息的方法（见第4.2节），从而实现了对接触动力学的稳健时序建模，如图7中插入和重试过程所示

作者的第三个见解是，预测未来的扭矩与动作同时进行，有助于构建具有物理基础的潜在空间

受自动驾驶领域多任务架构的启发[10]，作者提出了一种统一的动作-扭矩扩散模型（详见下文的第1.2.3节），该模型不仅允许策略执行动作，还能够预测物理后果(参见下文图6中的预测曲线)
即引入了统一的动作-力矩扩散模型，从而通过力矩预测实现前瞻性学习
这一辅助任务促使模型在观察之外，进一步内化接触动力学

最后，作者宣称，他们通过在10项多样化任务中的大量真实世界实验验证了他们的完整系统——其中包括5项接触丰富、对力矩反馈至关重要的任务

其对应的paper地址为：TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models，其Submitted on 9 Sep 2025

其对应的作者为
Zongzheng Zhang∗1, Haobo Xu∗2, Zhuo Yang∗1,Chenghao Yue1,
Zehao Lin1, Huan-ang Gao1, Ziwei Wang3, Hao Zhao† 1,2
其对应的项目地址为：Torque-Aware-VLA.github.io
其对应的GitHub地址为：github.com/ZZongzheng0918/TA-VLA，待开源

且他们的最终模型（π0+obs+obj）在所有任务中相较于强大的VLA基线方法[11,7,6]（见表5）均取得了持续的提升，并且在生成方面表现出色

1.1.2 相关工作

第一，对于视觉-语言-动作模型

近年来，大型语言模型（LLMs）[12,13,14,15] 和视觉-语言模型（VLMs）[16,17,18,19,20,21,22,23] 取得了显著的成功，同时生成式模型也实现了如图像生成等连续输出[24,25,26,27]

这些技术为视觉-语言-动作（VLA）模型的出现奠定了基础，该模型融合了视觉感知、语言理解与动作生成能力，并展现出极强的泛化能力，能够利用数百万条包含不同任务和设备的训练数据样本[28,29,30,31,32,33,34]
近期关于VLA模型的研究可以根据动作生成方法分为几种模式，包括基于扩散策略的模型[5,7]、基于流匹配的模型[6]，以及自回归生成模型[35,4,36]

例如
$\rightarrow$ Octo[5] 和 RDT-1B[7] 采用扩散头和transformer主干网络来预测动作
$\rightarrow$ 而π0[6]则利用条件流匹配生成高频动作序列
$\rightarrow$ 采用混合架构的模型进一步结合了多种生成技术，以发挥各自优势。例如，HybridVLA[37]在单一模型中融合了扩散和自回归方法

第二，对于基于力/力矩的模仿学习

尽管现有的大多数模仿学习研究主要利用关节位置和视觉信息 [6,8]，但将力/力矩信息作为额外输入的研究正日益受到关注。近期的研究表明，力/力矩信号能够赋予控制策略处理各种现实世界任务的能力，包括精细且高精度的操作 [38,39,40,41,42,43]
从力/力矩信息的来源来看，大多数方法依赖额外的传感器获取六维扭矩测量数据[44,45,46,47,43]，这导致了更高的经济成本，并在恶劣操作环境下存在局限
From the perspective of sourcesof force/torque, most approaches rely on additional sensors to obtain 6D wrench measurements[44, 45, 46, 47, 43], which leads to higher economic costs and limitations in harsh operating con-ditions.

此外，尽管有部分工作尝试将力/力矩信息与视觉和文本输入结合，但它们通常从零开始训练策略，未能充分利用预训练VLA模型的优势[48,49,50,51]。例如，FACTR [52] 需要复杂的训练流程来对齐不同模态，且缺乏灵活性
相比之下，将力模态引入预训练VLA模型具有两大优势：
1）VLA模型已经在大规模数据集上训练，具备强大的跨模态学习基础，因此集成新的模态更加容易；
2）VLA模型通常能够学习跨模态的共享特征表示，从而更高效地适应新模态

在本工作中，作者系统性地探索了如何将力信息融入预训练VLA模型，使其能够作为世界模型，通过对历史、当前和未来状态下视觉、力和指令的统一理解，实现对环境的准确感知与预测

1.1.3 扭矩是末端执行器状态的良好指示器

在机器人操作中，末端执行器的外部接触会在整个运动链中引发机械响应。这些响应表现为关节扭矩的可观测变化

本节中，作者将通过机械臂的微分运动学和动力学，形式化地说明关节扭矩信号如何编码接触力信息

公式化表述
假设机械臂具有 $n$ 个自由度，其关节配置向量为 $\boldsymbol{q} \in \mathbb{R}^{n}$ ，在存在外部接触的情况下，整体动力学方程为：
$M(\boldsymbol{q}) \ddot{\boldsymbol{q}}+C(\boldsymbol{q}, \dot{\boldsymbol{q}}) \dot{\boldsymbol{q}}+\boldsymbol{G}(\boldsymbol{q})=\boldsymbol{\tau}_{\mathrm{cmd}}+\boldsymbol{\tau}_{\mathrm{ext}}$

其中，其中 $\boldsymbol{\tau}_{\mathrm{cmd}} \in \mathbb{R}^{n}$ 表示指令扭矩，τ_ext∈R^n 表示由于末端执行器受到外部力而产生的扭矩分量。M(q)∈R^{n×n} 为惯性矩阵，C(q,˙q)∈Rn×n是科里奥利力和离心力矩阵，G(q)∈Rn是重力力矩向量。其中，˙q∈Rn为关节角速度向量，¨q∈Rn为关节角加速度向量
映射
假设末端执行器与刚性环境接触，并受到空间力（力矩），记为
$\boldsymbol{F}_{\text {ext }} \in \mathbb{R}^{6}$

鉴于虚拟末端执行器位移与关节位移的关系为 $\delta \boldsymbol{x}=\boldsymbol{J}(\boldsymbol{q}) \delta \boldsymbol{q}$ ，得到公式2
$\boldsymbol{\tau}_{\mathrm{ext}}=\boldsymbol{J}^{\top}(\boldsymbol{q}) \boldsymbol{F}_{\mathrm{ext}} \in \mathbb{R}^{n}$

其中， $\boldsymbol{J}(\boldsymbol{q}) \in \mathbb{R}^{6 \times n}$ 为雅可比矩阵，它将末端执行器空间的速度映射到关节空间
该方程具有基础性意义：它表明，作用在末端执行器上的任何外力都通过雅可比矩阵的转置被投影回关节空间

因此，当发生接触事件（例如机器人触碰到某个表面）时，所产生的力矩信号可以分解为：
$\boldsymbol{\tau}_{\text {measured }}=\boldsymbol{\tau}_{\text {model }}+\boldsymbol{J}^{\top}(\boldsymbol{q}) \boldsymbol{F}_{\mathrm{ext}}$
这里， $\boldsymbol{\tau}_{\text {measured }}$ 是观测到的关节力矩， $\boldsymbol{\tau}_{\text {model }}$ 则表示由于内部动力学产生的预期力矩
该表达式表明，只要机械臂的动力学建模足够精确，通过观测关节力矩的变化，就能够推断作用于末端执行器上的净外部力矩
结论
关节力矩向量 $\boldsymbol{\tau}_{\text {measured }}$ 本质上通过公式2 所描述的关系携带了关于外部接触的信息。该结果构成了基于力矩的接触估计的理论基础，即通过关节力矩与标称模型的偏差来推断空间交互力，从而实现无传感器的力估计、碰撞检测以及柔顺操作

1.2 从感知过去(将力矩作为观测量)到预测未来(以力矩为目标)

在本节中，作者将力矩信号作为额外的观测量整合到VLA框架中，并探究其影响。大多数VLA模型主要由两个核心组件组成：条件编码器和去噪解码器，本文中分别简称为编码器和解码器

编码器用于感知环境
具体来说，编码器将图像输入 $I$ 和语言指令 $L$ 处理为统一的潜在空间，以构建上下文表示，
而解码器则输出动作
解码器对噪声输入 $\hat{\boldsymbol{A}}_{t: t+H}$ 进行逐步细化，在 $\boldsymbol{A}_{t: t+H}$ 时生成动作序列。例如，RDT [7] 通过对视觉和语言特征进行交叉注意力来构建条件，并采用一个在低维本体感受输入和噪声动作片段上运行的去噪主干网络

类似地，π0[6]利用 PaliGemma [53] 主干网络融合视觉与语言输入，随后通过动作解码器进行处理

以π0为代表性案例，作者通过以下问题探索将力矩作为输入的设计空间：

应将力矩信号引入条件编码器还是去噪解码器
如何利用历史力矩信号

1.2.1 嵌入位置选择？条件编码器与去噪解码器

在每个时间步，策略π0会观察多个RGB图像、一条文本指令以及机器人的关节角状态，记作 $\boldsymbol{o}_{t}=\left[\boldsymbol{I}_{t_{1}}, \ldots, \boldsymbol{I}_{t_{n}}, \boldsymbol{L}_{t}, \boldsymbol{q}_{t}\right]$ ，其中 $I_{t_{i}}$ 为第i张图像， $L_{t}$ 是语言标记序列， $q_{t}$ 是当前的机器人状态向量

在原始π0架构中，图像特征 $\left\{\boldsymbol{I}_{t_{i}}\right\}$ 与 $L_{t}$ 一起构成条件上下文，而 $q_{t}$ 作为一个token提供给去噪模块

关于将扭矩信号集成到VLA架构中，作者探索了两种集成方式：

一是将 $\tau_{t}$ 集成到编码器的输入中，以利用其多模态能力
二是将 $\tau_{t}$ 与 $q_{t}$ 一起集成到解码器中，以丰富状态表示

具体而言，作者评估了三种嵌入 $\tau_{t}$ 的可能策略（见图2）：

编码器嵌入（Enc）：通过适配器将 $\tau_{t}$ 编码为一个 token，并与 $\left\{\boldsymbol{I}_{t_{1}}, \ldots, \boldsymbol{I}_{t_{n}}, \boldsymbol{L}_{t}\right\}$ 拼接，作为额外的条件输入（见图2(a)）
解码器预拼接嵌入（DePre）：将 $\tau_{t}$ 直接集成到 $q_{t}$ 的零填充维度中，拼接形成单一的组合token（见图2(b)）
解码器后级拼接嵌入（DePost）：通过适配器对 $\tau_{t}$ 进行编码，并将所得的token预置到动作专家的状态输入前（见图2(c)）

具体来说，作者采用MLP作为力矩适配器。且在两个涉及大量接触的真实任务中，使用三种不同的架构进行了实验

结果如表1所示「不同架构在嵌入扭矩信号方面的结果」，表明将力矩信号嵌入解码器优于嵌入编码器，并且将其嵌入为单一token优于将其集成到原始本体感觉状态token中

关于架构对比的实验

对于Enc和DePost架构（见图2(a)(c)），作者随机初始化一个MLP，用于将effort token投影到潜在空间

该MLP的结构为：
首先将输入维度为14（effort维度）映射到2×width，然后经过Swish激活函数，再映射到width
这里的width指的是模型的内部维度：在Enc架构的条件编码器中为2048，在DePost架构的扩散解码器中为1024

π0的状态输入由14维的关节位置组成，后接18维的零填充。对于DePre架构（见图2(b)），作者将14维的关节effort放在这个32维状态的最后14个位置

该结果的原因可总结如下

更优的输入对齐
将力矩信号 $\tau_{t}$ 集成到解码器中优于将其置于编码器中。由于 $\tau_{t}$ 与关节角度 $q_{t}$ 同为本体感觉信号，在去噪过程中融合它们能够更好地利用二者之间的相关性，例如在富含接触的交互中表现出的连贯性和冗余性

为验证这一点，作者进行了实验，评估输入（以及动作）的高维特征之间的归一化Hilbert-Schmidt独立性准则（HSIC）[9]值，以衡量它们的相似性
图3显示了——来自不同模态输入标记的隐藏状态的归一化HSIC值，力矩信息(torque information)与关节角度信号(joint angle signals)之间的对齐性显著更高「Figure 3 shows that torque information is significantly more aligned with joint angle signals.」
因此，力矩信号应集成在解码器中，以更好地增强本体感觉感知
————
为了进一步解释，如附录A.3所说，HSIC是一种强大的非参数度量方法，能够在不对变量分布作出假设的情况下，检测变量之间复杂的非线性关系。归一化HSIC的取值范围为0到1，数值越高表示更强的统计依赖性

为了评估模态对齐情况，作者分析了在 Button Pushing 任务中，使用 DePost 方法训练的 π0 模型
$\rightarrow$ 作者将从该任务训练数据集中随机采样的帧获得的输入 token，通过模型的 transformer 主干网络（共 18 层）进行处理
$\rightarrow$ 随后，提取这些输入 token 在第 12 层输出时的中间表示，具体为隐藏状态。对于 HSIC 计算，每种模态（动作、角度、扭矩、图像和文本指令）所用的中间 token 表示数量被下采样至 32
$\rightarrow$ 最后，利用 RBF 核函数，计算每对模态之间的归一化 HSIC，结果如图 3 所示
解码器的敏感性
编码器针对多样且模糊的视觉-语言输入而设计，主要处理较粗粒度的特征；而解码器则旨在捕捉输入中的细微变化

为验证这一点，作者分别向编码器和解码器的每个输入token添加随机噪声，并评估其性能。表2显示「带有随机噪声的编码器和解码器结果」
在噪声影响下，解码器的性能下降更为明显，表明解码器对输入变化更加敏感；
因此，引入 $\tau_{t}$ 进行去噪能够更精细地利用细微的扭矩变化
此外，前拼接（Pre-Concatenation）方法会显著改变原始输入token，相当于引入了额外噪声，导致其性能较后拼接（Post-Concatenation）方法更差
——————
总之，如附录A.3所示，为了评估编码器和解码器对输入变化的敏感性，作者在输入token中加入了标准差为0.1的高斯加性噪声
对于编码器，噪声被添加到所有输入token上；而对于解码器，噪声则专门添加到状态token（即输入序列中的第一个token）上。实验结果见表2

1.2.2 将力矩作为观测量：扭矩历史优于单帧

与固定的语言指令和相对稳定的视觉观测不同——这些在末端执行器接触后由于遮挡而几乎没有变化——如图1所示，力矩信号在接触时会发生显著变化

为了捕捉力矩的动态变化，仅依赖单帧力矩输入是不够的。对力矩信号的历史进行编码，可以为VLA模型提供更丰富的物理交互模式，从而在高接触任务中实现更优的性能

为了研究编码力矩历史的最佳方式，作者探索了两种策略：

逐帧分词，将每一帧的力矩 $\left\{\boldsymbol{\tau}_{t-H+1}, \cdots, \boldsymbol{\tau}_{t}\right\}$ 分别作为独立的token进行编码
整体分词，将整个历史 $\boldsymbol{\tau}_{t-H+1: t}$ 编码为单一token

为保证全面性，作者还考察了历史力矩信号应插入到编码器（图4(a)-(b)）还是解码器（图4(c)-(d)）中

如原论文『A.4 针对第4.2节的实验协议：力矩历史编码』所述，关于架构对比的实验

对于历史力输入，作者从过去2秒内均匀采样了10帧数据，包括当前帧
在H Tokens配置中，每个14维的力输入token都通过与附录A.3所述相同结构的MLP独立处理，并被投影到潜在空间

相反，在1 Token配置下，所有10帧的历史力输入会被展平并拼接成一个140维的token，然后输入到MLP中

结果如表3所示，表明将整个力矩历史作为单一token输入解码器是最佳选择

其原因如下

输入模式完整性
聚合式分词优于逐帧分词，因为大量历史分词会破坏解码器原有的输入模式完整性。为验证该假设，作者分别向编码器和解码器添加额外的噪声分词

如表4所示
添加的噪声分词很容易干扰解码器的感知能力。这一现象在添加额外的力矩历史分词时同样存在，可能会干扰解码器在预训练期间学到的模式
因此，即使减少历史分词可能导致信息损失，破坏解码器状态模式的影响在权衡中占主导地位

此外，如表4所示，编码器对输入模式变化表现出较强的鲁棒性，并且在包含更多信息的多历史分词条件下表现更佳。然而，正如第4.1节所述，对力矩信号进行编码有助于本体感知对齐和更细粒度的感知；因此，向解码器提供单一的历史信息分词优于其他方法

总之，为研究输入模式的完整性，作者在输入的token 序列中引入了一个额外的 token。该 token 从标准正态分布中采样，并与序列中的其他 token 具有相同的形状
随后，作者相应地修改了输入和自回归掩码，按照对 effort token 所采用的掩码模式，将这一新 token 融入序列处理流程。实验结果如表4所示

1.2.3 以力矩为目标：预测未来

第一，动机

目前的VLA策略仅将模态视为观测值，未能充分利用机器人自身的交互动力学。受自动驾驶多任务规划[10]的启发，以及作者在上文(原文第4节)中发现力矩信息是强有力的本体感知线索，作者提出预测未来力矩与未来动作相结合的方法

该辅助任务促使模型建立一种在物理上有依据的潜在空间，从而实现更可靠的丰富接触操作

第二，动作-力矩扩散的统一损失

接下来详细描述如何训练模型以同时预测动作和力矩，在保持各自损失独立的同时，共享扩散权重以提升效率

设 $\boldsymbol{A}_{t} \in \mathbb{R}^{H \times d_{a}}$ 表示动作片段 $\left[a_{t}, \ldots, a_{t+H-1}\right]$
$\boldsymbol{T}_{t} \in \mathbb{R}^{H \times d_{\tau}}$ 表示力矩片段 $\left[\tau_{t}, \ldots, \tau_{t+H-1}\right]$
干净的关节token可表示为 $\boldsymbol{Z}_{t}=\left[\boldsymbol{A}_{t} ; \boldsymbol{T}_{t}\right] \in\mathbb{R}^{H \times\left(d_{a}+d_{\tau}\right)}$

作者采样高斯噪声 $\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \boldsymbol{I})$ 和时间步 $\alpha \in[0,1]$ ，从而形成带噪输入 $\boldsymbol{Z}_{t}^{\alpha}=\alpha \boldsymbol{Z}_{t}+(1-\alpha) \boldsymbol{\epsilon}$

即如原论文「A.5 联合动作-力矩扩散目标的实现」所述，为了使模型能够在进行动作预测的同时输出未来的力矩（用于监督），作者扩展了原始模型的动作输入和输出投影线性层的维度（见图5）

在加载预训练权重时，作者用预训练的参数对修改后权重矩阵中原动作输出维度对应的部分进行了初始化。对于新增的用于未来力矩预测的维度，其权重则采用较小的值进行初始化

这种初始化策略旨在初始阶段对原有预训练行为的影响最小化，从而使模型能够在微调过程中逐步学习新的预测任务。预测的未来力矩序列长度为H=50步，与动作块的长度一致

为确保动作和力矩预测均保持良好校准，作者定义了两个均方误差目标：

$\mathcal{L}_{\text {action }}(\theta) \mathbb{E}_{\boldsymbol{Z}_{t}, \boldsymbol{\epsilon}, \alpha}\left\|\boldsymbol{v}_{\theta}\left(\boldsymbol{Z}_{t}^{\alpha}, o_{t}\right)_{A}-\left(\boldsymbol{\epsilon}_{A}-\boldsymbol{A}_{t}\right)\right\|_{2}^{2}$

$\mathcal{L}_{\text {torque }}(\theta) \mathbb{E}_{\boldsymbol{Z}_{t}, \boldsymbol{\epsilon}, \alpha}\left\|\boldsymbol{v}_{\theta}\left(\boldsymbol{Z}_{t}^{\alpha}, o_{t}\right)_{T}-\left(\boldsymbol{\epsilon}_{T}-\boldsymbol{T}_{t}\right)\right\|_{2}^{2}$

其中 $\boldsymbol{v}_{\theta}(\cdot)_{A}$ 和 $\boldsymbol{v}_{\theta}(\cdot)_{T}$ 分别表示模型输出中的动作分量和力矩分量， $\epsilon_{A}$ 、 $\boldsymbol{\epsilon}_{T}$ 分别为对应的噪声切片

然而，与常见方法通过独立模块或共享权重并采用不同投影头来预测多种类型输出不同，为了节省成本并充分利用预训练权重，作者采用了单一线性层，直接输出动作和力矩的拼接预测，然后再将其拆分，用于各自的损失计算

即最终采用两种损失的组合： $\mathcal{L}_{\text {joint }}(\theta)=\mathcal{L}_{\text {action }}(\theta)+\beta \mathcal{L}_{\text {torque }}(\theta)$ ，其中 $\beta$ 是用于平衡动作保真度与力矩精度的权重因子

顺带提前说一嘴，在下文的实验(表5)中

对于+obj设置，作者将β的值设为1
对于+obs+obj设置，作者将β的值设为0.1
对于ACT和RDT模型，它们的推理动作范围分别为8步和64步

为了评估基于动作-力矩扩散方法预测的各关节未来力矩的精度，作者将其与验证数据中的真实值进行对比

如图6所示「图6展示了在ButtonPushing任务上训练得到的模型的推理示例。该图将模型对每一帧预测的未来力矩与对应的三条选定轴的真实值进行了对比，输入为从该任务验证数据中采样的观测帧」
预测的力矩高度符合真实变化，这表明通过所提出的关节扩散方法，模型能够有效感知未来的变化

这一能力将进一步使模型能够产生更优的动作，因为关节力矩-动作预测策略通过学习动作与由此产生的力矩响应之间的因果关系，加强了模型对接触动力学的理解

总之，通过学习统一的动作-力矩表征，模型能够将本体感觉信号与预期的运动指令对齐，从而提升在高接触场景下的表现

1.3 实验

1.3.1 实验设置

对于硬件平台
作者使用 Cobot Magic ALOHA，这是一款每只手臂具有 7 个自由度的双臂机器人。该机器人配备了三台 D435 深度相机：两台安装在手腕上，一台面向前方

关节力矩由机器人电机的电流推算得出。每个电机都有一个特定的电流-力矩常数 $k_{t}$ ，该常数将电流 $i$ 与产生的力矩 $\tau$ 关联起来，计算公式为 $\tau=k_{t} i$
如此，通过测量供给每个电机的电流，可以在无需外部力传感器的情况下，实时准确地估算关节力矩
对于基线方法
作者与机器人操作领域的强基线方法进行对比评估：ACT [11]、RDT [7] 和 π0[6]
所有模型均在相同实验设置下，基于作者收集的数据集，从公开可用的预训练权重进行微调
ACT 利用基于 Transformer 的动作分块机制，而 RDT 和 π0 是两种在跨任务表现优异的最新 VLA 模型

原论文附录A6.1相似说明了实验设置

在π0实验中，作者遵循了原始设置，使用来自三个视角的图像作为输入：顶部、左手腕和右手腕
所有π0实验均基于其公开可用的预训练检查点，并采用LoRA对编码器和解码器进行了微调
训练在4块NVIDIA L20 GPU上进行了30,000步的梯度更新

RDT实验采用相同的GPU配置，进行了40,000步的全参数训练
对于ACT，作者使用了600个训练周期，每个数据块大小为32

所有基线模型均采用AdamW优化器。推理则是在RTX 4090 GPU上进行的。所有π0的变体均采用了50步的推理行动视野，RDT则使用了64步。其他设置与原始实现保持一致。对于所有任务，均通过远程操作收集了400个演示样本

1.3.2 定量结果与可视化：涉及将力矩信号融入π0

作者对基线模型以及多种将力矩信号融入π0的方法进行了评估。具体而言，作者采用了

上文第1.2.2节中的DePost-1 Token架构，将当前和历史的力矩观测嵌入，记为π0+obs
上文第1.2.3节中的统一训练目标，记为π0+obj
以及两者的组合，记为π0+obs+obj

作者在10个真实世界任务中进行了实验——包括5个高接触任务和5个常规任务

表5中的结果显示

无论是力矩观测(π0+obs)，还是基于力矩的目标(π0+obj)都能提升VLA模型的性能，而两者结合的方法兼具各自优势(π0+obs+obj)，取得了整体最佳表现
此外，力矩信号不仅提升了高接触任务的表现，也改善了在力矩相关性较低任务中的效果，表明其在多样化场景下的实用性

此外，如原论文「A.8 系统效率」所述

作者以按钮按压任务为例，比较了π0、π0+obs、π0+obj和π0+obs+obj的训练与推理时间
训练速度是在4块NVIDIA L20 GPU上整个训练过程中取平均值，推理速度则是在一块RTX 4090 GPU上进行10次运行后取平均值

结果如表7和表8所示，表明所提出的设计对效率没有显著影响

此外，作者在按钮推送任务（表9）中测试了π0+obj 和 π0+obs+obj

在π0+obj的情况下：成功率从β=0.01时的6/20上升，并在0.2到1之间达到平台期，因此我们设定β=1

对于π0+obs+obj：在较低的β值时成功率达到峰值（18/20），随后在更高的β值下降，因此作者将其设置为0.1，以平衡新引入的两个组成部分：辅助损失和力矩观测模态

且作者在按钮推送任务中，使用相同的超参数对三种力矩历史聚合方法进行了比较。如表10所示

简单的MLP表现优于其他方法。作者认为这归因于其参数效率：在微调数据有限的情况下，更复杂的序列模型（如RNN/注意力机制）往往难以拟合

且作者对所提出方法能够完成的部分高接触性任务和常规任务进行了可视化

关于高接触性任务，如图7所示

$\rightarrow$ 当检测到由于对齐不准确或滑移导致关节力矩异常变化而失败的尝试时「见图7(a)-(b)中的第二和第三幅图」
$\rightarrow$ 机器人利用力矩反馈机制，能够自主重新执行动作，并在第二次尝试时成功完成任务「见图7(a)-(b)中的第四和第五幅图」
此外，依靠力矩信号，机器人还能以高精度完成多种常规任务（见图7(c)）

1.3.3 跨模型：π0之外，再测试对RDT的效果

为了评估力矩观测和基于力矩目标在不同VLA模型中的泛化能力，作者在RDT [7] 上对接触丰富和常规任务进行了实验

如表6所示，同时结合力矩观测和基于力矩的目标可以显著提升性能

这些结果表明，上文1.2.2节(对应于原论文第4节)和上文1.2.3节(对应于原论文第5节)提出的力矩集成策略能够很好地推广到其他VLA模型

如原论文「A.6.3 关于跨模型结果的详细信息」所述

关于RDT+obs+obj模型（见图11，表6）

作者按照该模型对语言和图像适配器的处理方式，将effort projector实现为一个包含单个GELU激活函数的两层MLP。该MLP将effort输入映射为2048维向量，以匹配RDT变换器主干的宽度

投影后的effort token随后连接在state token之后。该组合序列再与noisy actiontoken拼接，形成RDT去噪过程的输入
且作者扩展了状态空间的输入和输出投影器，并以与π0类似的方式加载了预训练权重

1.3.4 跨形态：让ROKAE SR机械臂完成汽车充电器插入

为了评估他们方法在不同机器人结构上的泛化能力，作者在ROKAE SR机械臂上进行了实验。如图8所示，机器人执行电动汽车充电器插入任务

在利用力矩反馈检测到插入失败后「见图8(a」，机器人在第二次尝试时成功完成了任务「见图8(b)」

如原论文「A.6.4 跨实体结果的详细信息」所述

为了进一步评估他们具备扭矩感知能力的VLA模型在不同机器人实体上的泛化能力，作者使用ROKAE SR机械臂进行了跨实体实验

具体来说，作者使用200次演示训练了π0+obs+obj模型，演示内容为机器人将快充连接器插入充电口，并利用扭矩反馈引导插入过程。该模型经过5万次梯度训练，如图12(a)所示，成功且高可靠性地完成了快速充电插入任务

为了进一步评估其泛化能力，作者将任务设置中的快速充电接口更换为慢速充电接口。在不做任何架构修改的情况下，模型能够无缝适应，成功地将慢速充电连接器插入端口，如图12(b)所示

作者宣称，该结果凸显了模型将感知扭矩的操作策略泛化到新末端执行器配置的能力，展示了其在不同设备间的强大泛化性能

1.4 结论与局限性

1.4.1 结论

在本文中，作者将关节力矩作为末端执行器状态的有效指标进行分析，并探讨如何将其最佳地融入VLA模型

他们的研究发现，将即时和历史力矩编码为单一解码器token能够取得最佳效果。此外，通过统一扩散损失联合预测动作和力矩，能够提升模型性能

总之，在包含丰富接触和常规任务的实验中，基于力矩的增强方法的有效性和泛化能力得到了验证

1.4.2 局限性

该方法依赖于通过电机内部电流进行的精确扭矩估算。然而，这种估算可能会受到电机校准、传感器噪声或热漂移的影响，从而在长时间或高负载任务中导致性能下降

此外，虽然扭矩信号被证明具有重要价值，但该框架在扩展到其他物理模态（如触觉感知或温度）时的可扩展性仍不明确，尤其是在transformer架构中共享token预算的情况下

因此，未来工作需要在更加多样化、真实的场景中评估其鲁棒性，并进一步探索更丰富多模态信号的对齐与集成

// 待更

TA-VLA——将关节力矩反馈融入VLA中：无需外部力传感器，即可完成汽车充电器插入(且可多次自主尝试)

前言