研究背景
移动操作是机器人领域的核心挑战,它使机器人能够在各种任务和动态日常环境中为人类提供帮助。传统的移动操作方法由于缺乏大规模训练,往往难以在不同任务和环境中实现泛化。而现有操作基础模型虽在固定基座任务中表现出强泛化性,却无法支持移动基座运动,难以直接应用于移动操作场景。
针对以上难题,清华大学等研究团队提出MoTo的零样本插件模块。该模块可与任何现成的固定基座操作模型结合,通过交互感知导航策略生成合适的基座停靠点,并利用视觉 - 语言模型(VLM)生成交互关键点,引导机器人移动至能成功执行固定基座操作的位置,最终实现零样本移动操作,且无需依赖移动操作专家数据。
这一方案解决了传统方法中导航与操作目标脱节导致的复合误差问题,同时突破了固定基座操作模型在移动场景中的应用限制。

松灵PiPER机械臂,以灵活组合赋能科研创新。单臂可精准操作,双臂能协同作业,轻松搭建专属双臂机器人实验平台。只需简单组合,即可获得满足实验需求的定制化机器人,让硬件适配不再成为科研阻碍,专注于核心技术的突破与论证。
论文核心方法论
交互感知导航策略:将移动操作任务分解为子任务,针对每个子任务确定目标对象,通过识别目标对象上的交互关键点(TK)和机械臂上的手臂关键点(AK),控制机器人移动至两关键点对齐的位置,确保机械臂能有效操作目标对象。
VLM-based 关键点生成:采用两阶段流程生成关键点。先利用DINOv2和SAM提取图像中的可操作点作为关键点提议,再通过VLM根据任务描述从提议中选择最合适的TK和AK;对于TK,还通过多视图投票机制聚合多视角预测,提升3D空间中的定位准确性。
关键点引导的优化:以最小化TK与AK距离为目标,结合碰撞成本(避免机器人与场景物体碰撞)、平滑性成本(保证运动轨迹连续平滑)和余量成本(确保机械臂有足够操作空间),通过双退火算法求解最优的移动基座和机械臂轨迹。

图2:MoTo的流程。基于机器人扫描RGB-D观测获取3D场景点云和图,我们利用视觉语言模型(VLM)和多视图一致性投票获取交互关键点,并通过提出的成本约束优化生成移动操作轨迹。
硬件设施
机器人平台:
仿真实验中采用Hello Robot作为代理;
真实世界实验中,以HEXMOVE为基座,配备两个由松灵PiPER组成的双臂移动操作机器人。
传感器配置:
配备Femto Bolt RGB-D传感器作为头部相机,用于获取高质量场景点云;
两个Gemini 336L RGB-D传感器作为腕部相机,辅助操作任务执行;
英特尔追踪相机T265用于获取机器人相机姿态,辅助场景重建。
计算资源:仿真实验在8块RTX 3090 GPU上进行;真实世界实验在单块RTX 4060 GPU上完成
实验设计与突破
仿真实验:基于OVMM基准测试,该基准包含60个室内场景和18k + 日常物体3D模型,任务为 “将目标对象从容器A移至容器B”。对比MoTo与现有先进方法(如 Home-Robot、UniTeam等)在目标查找、抓取、容器查找和放置等阶段的成功率,验证其在仿真环境中的有效性。

表 1:(OVMM)基准测试的对比结果。部分成功率表示每个阶段的执行情况,其前提是前一阶段成功完成。“RL” 和 “Heuristic” 分别指基于强化学习和启发式的物体放置方法。默认使用强化学习方法。
ablation研究 :针对优化成本项(碰撞、平滑性、余量)和关键点生成方式(不同视觉模型、是否融合多视图等)进行消融实验,分析各组件对性能的影响。

表2:优化成本项和关键点生成变体的消融实验
真实世界实验:部署多种固定基座操作模型(AnyGrasp、iDP3、RDT-1B),测试机器人在 “取食物”“递水”“准备餐食” 等任务中的表现,通过任务成功率和子任务完成率评估 MoTo 的插件扩展性和实际应用效果。
移动操作新突破

图 3:真实世界实验结果。所有方法在三类移动操作任务上均运行10次,图中的点代表每次测试的性能(彩色视图效果最佳)。
关键成果与突破
技术突破:首次实现了零样本插件式移动操作框架,无需额外训练数据即可将任意固定基座操作模型扩展至移动场景,解决了传统方法泛化能力差、依赖大规模训练数据的问题。
性能提升:在OVMM 仿真和真实世界实验中,成功率分别比最先进的移动操作方法高出2.68% 和16.67%,验证了其在不同场景下的有效性。
应用价值:为机器人在家庭服务、制造业等领域的实际部署提供了通用解决方案,推动了移动操作技术从实验室向现实应用的转化。
研究启示:强调了3D egocentric操作策略在提升移动操作性能中的潜力,为后续研究指明了方向。
结语
MoTo模块的提出,不仅为移动操作领域提供了一种全新的零样本解决方案,更打破了固定基座操作模型与移动场景之间的壁垒,推动了通用移动操作技术向实际应用迈出关键一步。这一研究的核心意义在于,它证明了通过插件式模块赋能现有机器人系统的可行性 —— 无需重构底层架构,即可让机器人在复杂环境中自主完成多样化任务,为家庭服务、智能制造等场景的自动化升级提供了高效路径。
由松灵PiPER机械臂组成的双臂移动机器人,进一步提升了复杂任务的执行效率。凸显了优质硬件平台与先进算法结合时产生的协同效应。
论文详情:https://arxiv.org/pdf/2509.01658v1