引子
我们常常在科幻电影、小说或动画片中看到那种能“自动做家务”的机器人——它们能整理房间、洗碗、叠衣服,总是动作干净利索、反应迅速,让人不禁想象:未来的生活里,我们是不是也能拥有这样的“机器人管家”?
现实世界中,衣物操作机器人(例如折叠、展开、整理衣服)其实并非凭空而来。它代表着一项极具挑战但又贴近人类生活的机器人学研究方向。你或许好奇,为什么“叠衣服”这么普通的家务动作,在今天的科学家眼里会变得这么“不简单”?这背后融合了柔性物体操作、传感融合、智能控制等多个前沿学术领域。
然而,Figure AI 公司最近发布了一段令人侧目的演示视频:他们的人形机器人 Figure 02 ,在毫无人工干预、无脚本逻辑的情况下,成功地从一堆毛巾中抓起一条,精准地“拂平、找角、对折、叠入篮中”——完成了一整个折叠流程,动作流畅自然,看起来就像人类在做家务。该系统基于他们最新的多功能 AI 模型 Helix,这一次,它跨越了工业物流,可能真正迈进家庭场景中去。mikekalil.com
Figure 02 is folding Laundry
紧接着,另一家科技巨头 Google DeepMind 宣布推出其令人瞩目的离线 AI 模型——Gemini Robotics On‑Device。这款模型针对机器人进行了优化,可直接在设备本地运行。Google 的演示中,机器人无需联网也能完成诸如“折衣服”“解拉链”“倒调料”“系鞋带”等涉及复杂操控的家务动作,准确性和效率让人惊叹不已。manufacturingdigital.com
Gemini Robotics On‑Device
再看字节跳动其研究部门展示了基于 GR‑3 大规模视觉—语言—动作模型的家务机器人,该机器人能够从语音指令出发,完成将衬衫挂在衣架、整理餐桌、依尺寸区分物件等动作。这套系统通过虚拟现实演示和人机交互数据训练,展示了家务机器人向“真正理解人类意图并执行复杂操作”的愿景迈出的坚实一步。Engineering
GR‑3
这些最近新闻事件,告诉我们一个明显的趋势:机器人折叠衣物不再只是实验室中复杂的课题,而正变成现成可行的家务场景。这不仅是技术的突破,更是未来家庭服务机器人真正入户的前兆。
机器人的”衣物操作“的由来
其实,衣物操作机器人(即操控布料、衣物等可变形物体的机器人)或机器人的”衣物操作“一直是服务机器人领域的一个重要但极具挑战的方向 Berkeley 。
1. 早期探索(2010年前后)
2010 年,UC Berkeley(Willow Garage PR2)展示首个能折叠毛巾的机器人—机器人从衣物堆中抓起待折叠的毛巾,通过空中翻动扫描形状,再依据角点进行折叠,尽管每次折叠耗时较长,但在当时印证了机器人处理柔性物体的可行性 Berkeley。
PR2 Towel Folding
2015–2016 年间,FoldiMate 和 Laundroid 等商业设备萌芽,尝试将折叠衣物技术导入家电级产品,但因成本高、结构复杂最终未能持续 维基百科。
FoldiMate prototype
2. 定位与机制研究阶段(2020年前后)
2021年,SoftGym是一套在NVIDIA FleX引擎上构建的变形物体操作基准环境,包含布料折叠、展开、抹平等多种任务danieltakeshi,CoRL。
Visualizations of all tasks in SoftGym
2022 年,De Gusseme 等研究使用高保真模拟探索仅用两参数描述折叠轨迹(one parameter for the trajectory's height and one parameter to tilt it,即轨迹的高度和倾斜度),发现简化轨迹方式也可适配多种衣物和速度情况,增强仿真稳定性 frontiersin。
Method overview: a selected scenario (left) for which a search space is automatically set up (middle) and which is subsequently evaluated (right).
2023 年 IROS/ICRA 比赛(ICRA 2023设立了衣物折叠和展开比赛,IROS 2022也有布料操作比赛):这些赛事推动了可泛化系统的研发:参赛队伍需应对未知材质和图案的衣物,在限定时间内完成展开/折叠。这些比赛成为推动该领域发展的里程碑,通过统一标准让不同团队比较各自系统能力,引发研究增长 workshop ugent。
The Household Cloth Object Set in ICRA 2023
3. 多模态融合与系统整合(2023–2024 年)
2023 年及之后,参赛系统融合视觉与触觉感知:机器人结合摄像头与触觉传感器(如下图的UnfoldIR 9 tactile sensors),通过边缘滑动识别 obscured 布料角点(因为视觉往往难以看到被遮挡的布料边缘或层叠情况,于是研究者为机器人手指安装触觉传感器,通过触摸反馈来分离叠在一起的多层布料或沿隐藏的布料边缘滑动),实现更加鲁棒的展开与折叠操作 ResearchGate。
UnfoldIR 9 tactile sensors. One fingertip emits infrared (IR) light, the other receives it. A grasped layer of cloth reduces the light captured by the receiver grid, as can be seen in the exemplary sensor readout (right).
2023年还出现了针对衣物操作的标准数据集和仿真平台:如UGent发布了包含1000次折叠示范的多视角视频数据集(如下图)idlab.ugent.be,以及用于ICRA 2024比赛的悬挂衣物抓取点数据集nih。这些资源为训练数据驱动模型、推动算法公平对比提供了条件。
Cloth Folding Dataset
2024 年,相关综述文章指出当前方法受限于特定布料或场景,缺少考虑布料变化、任务多样性和方法通用性的问题亟待解决,亟需提升泛化能力(每种衣物的物理和化学特性不同,参考下图例子) arXiv。
Object properties variations
2025年的研究热点与发展趋势
1. 大模型与语言指导的决策: 将机器人操控与大规模预训练模型相结合,成为2025年最引人注目的方向之一workshop。研究者利用视觉-语言模型(VLM)和大型语言模型(LLM)的语义理解能力,让机器人从高层指令出发规划布料操作动作。例如,Oriol Barbany等提出的BiFold模型利用预训练视觉语言模型来预测双臂折叠动作,能够将抽象的文字指令翻译为具体操作。BiFold在一个语言条件的折叠基准上达到最新性能,并证明可泛化到新的指令和衣物arxiv.org。
BiFold model architecture
又如,Deng等提出CLASP框架,通过语义关键点连接LLM任务规划和低级动作执行,实现了“折叠、铺平、挂起、摆放”等多任务统一操作。从深度相机图像提取衣物的语义关键点(如“左袖口”、“领口”),LLM据此规划步骤,再由控制模块完成动作。该方法在仿真中对不同衣物和不同任务均取得优于基线的表现,并在真实双臂机器人上成功完成多种衣物操作任务arxiv.org。
CLASP
除了决策规划,LLM还用于技能分解与整合。Zhao等提出一种管道,先让LLM从人类长演示中发掘基础技能,再通过LLM规划将这些技能序列化以完成新任务。这种方法在长序列布料操作(如多步骤折叠)中比端到端模仿学习表现更佳,展现了LLM在长期规划上的优势arxiv.org。
Generalizable multi-step cloth manipulation
总的来说,趋势是将大模型作为智能决策层,赋予机器人理解人类指令和推理新情境的能力。这使衣物操作从固定脚本走向更加灵活的自然语言交互。需要注意的是,大模型带来了强大的泛化性,但也引入了推理慢、缺乏安全保证等新挑战,如何高效、安全地在机器人回路中使用仍在探索中。
2. 多模态感知与表示学习: 面对布料的复杂形态,研究强调构建更全面的状态感知和通用的状态表示。在感知层面,视觉+触觉+语言多模态融合受到关注。一方面,新方法致力于提高布料三维状态估计的精度,例如, Alberta Longhini等的Cloth-Splatting , 利用动作条件动力学模型来预测未来状态,并使用3D 高斯Splatting 来更新预测状态,在布料的状态空间和图像空间之间定义了一个可微分映射 arXiv ;
Cloth-Splatting
Oriol Barbany等分析了BiFold模型在仅有静态观察和加入历史帧时的内部表示差异,证明时间序列上下文可以显著改善对被遮挡衣物局部的理解deformable-workshop.github.io。
BiFold’s Motivation
另一方面,一些工作引入生成模型来进行感知。Tongxuan Tian等提出用扩散模型(Diffusion Model)同时处理布料状态估计和动态预测arxiv.org。他们的方法将稀疏RGB-D观测“扩散”生成完整的布料形状,并用Transformer扩散模型预测后续演变,集成于模型预测控制实现了机器人折叠操作。实验显示,与传统图神经网络动力学模型相比,该生成模型在长时预测上的误差降低一个量级arxiv.org。这表明生成式AI用于布料感知具有巨大潜力。
(a) Diffusion Perception Model (DPM) and (b) Diffusion Dynamics Model (DDM)
在表示(或表征)学习方面,2025年出现了与布料形状无关的抽象状态表示方法,以提升策略的泛化。Jay Kamat等提出CloSE表示,将不同尺寸形状的布料折叠状态映射为统一的紧凑表示。他们采用拓扑解析,将布料边界分段映射到圆盘上生成“dGLI热力图”,再提取出对折痕、角等特征不变的环形编码。这种表示对衣物的大小和朝向不敏感,但能捕捉关键结构信息,从而在语义标注和高低层规划中表现良好。实验展示了CloSE在不同布料形状的折叠任务上一种模型即可泛化适用arxiv.org。
Different examples of the CloSE representation
类似地,A. Longhini等综述也强调需要跨织物种类的通用表示,以突破当前方法各自为政的局限iri.upc.edu。研究者还构建了大规模多模态数据集来辅助学习泛化表示。2024年发布的Flat’n’Fold数据集包含1212次人示范和887次机器人示范,覆盖44种衣物,从皱成团到折叠完成全过程,多视角RGB-D、点云和动作同步记录(如下图)。它建立了抓取点预测和子任务分解的benchmark,评测发现现有模型还有显著提升空间。如此丰富的数据对于训练能够“一通百通”的布料状态识别模型至关重要。
Flat’n’Fold
3. 强化学习与长时规划策略: 布料操作往往是长序列、多步骤的问题,需要机器人具备灵活的决策与策略优化能力。2025年的一大趋势是利用强化学习(RL)和分层策略来应对这类长时任务。在高层规划上,前述利用LLM拆解步骤是一种途径;同时,纯学习的方法也涌现出来。例如,Chen等提出GraphGarment模型arxiv.org,使用图神经网络学习衣物动态,用于指导双臂协同的挂衣任务。GraphGarment以图节点表示机械臂末端与衣物的交互,学得给定当前状态和动作的下一状态预测模型,再结合模型预测控制采样动作,将衣物从任意形状调整到方便悬挂的标准姿态。为缩小仿真-现实差距,他们加入了残差校正模型补偿预测误差,实现了从仿真到真实六种不同衣物挂衣的成功转移。这种将动力学模型+规划结合的方式,让机器人在面对全新衣物时也能通过预测未来效果来选择动作,增强了可靠性。
GraphGarment
另一方向是强化学习直接学得布料操作策略。传统RL在布料任务上面临高维连续状态和稀疏奖励的困难,2025年的研究通过分层策略和反馈加以改进。Changshi Zhou等提出的APS-Net框架将“展开”和“对齐标准化”两个子任务融合,通过多策略选择网络来决定何时采用动态抖动(fling)展开、何时用精确放置调整arxiv.org。其核心是在展开布料的同时尽量将其对齐到预定形状和朝向,为后续折叠等操作做好准备。APS-Net使用双臂分别执行不同primitive,并设计了结合覆盖率、关键点距离、交并比的分解奖励来引导标准化程度。在仿真中,它比之前单纯最大展平的方法取得更高的覆盖率和对齐度,在长袖衣物上覆盖率高出3.9%,IoU提高5.2%,关键点误差减少7.09%。实物实验也显示将布料标准化能简化后续折叠过程。此外,他们引入空间动作掩码避免对无效区域施加动作,并在抖动展开时重点关注衣物肩部等关键部位,大幅提高了效率。由此可见,通过多策略融合和精细奖励设计,RL代理能够学习到兼具速度和精度的布料操作策略。
APS-Net
类似地,Chen等在ICRA 2025的一项工作DeformPAM中,引入了人类偏好反馈来训练长序列布料操作策略arXiv;Bonyani等则提出GRPD图强化学习框架,利用图结构表示布料形状,不依赖具体衣物的网格拓扑,实现“形状无关”的操作策略学习researchgate。这些探索表明,分层学习、引入先验、图表示等技术正帮助RL突破高维布料操控的瓶颈,学得更加通用高效的策略。
4. 动作技能的多样化与动态操控: 早期机器人折衣多采用缓慢谨慎的逐步折叠,如今研究者开始探索更快速有力的动态动作来提升效率。2025年多个工作关注将人类抖动抛甩布料的技能赋予机器人。例如前述APS-Net用到了动态甩动动作加速展开arxiv.org。
APS-Net's Action Primitives
而在更早一些,Fu等在RA-L 2024提出FlingFlow框架,将静态拉伸和平面抹平与动态甩动相结合用于单臂展开布料researchgate.net。FlingFlow通过LLM根据当前布料状态选择是执行甩动还是拉平操作,并用视觉分割网络确定抓取点。实验证明该方法可在不到10次操作内将各种材质、形状的布料展开至95%以上覆盖率。相比之下,传统方法往往需要数十次反复调整。这一成果说明,巧妙地引入动态动作(如甩抛)能大幅提高操作效率。值得一提的是,2022年Meta AI开发的“SpeedFolding”系统曾使用两台机械臂和传送带配合,实现折叠T恤平均只需2分钟,接近人类速度。这启发了后续研究关注运动规划的时效性(如下图)。
SpeedFolding's Action Primitives
最近的趋势是,不再局限于缓慢精准的动作,而是尝试通过力学建模和闭环控制实现又快又好的布料操作。例如,有工作将高速相机与控制用于空中快速翻转折叠,实现布料在空中完成大部分对折,然后再轻触调整收尾。这些探索虽然增加了控制难度,但为实际应用中的效率提升提供了新思路。
5. 仿真平台、数据集与开源工具:最近的研究,支撑布料操作研究的公共资源更加丰富完善,推动了领域发展和成果复现。首先,各种布料仿真环境不断涌现并开源:之前提到的SoftGym github 基于粒子弹性模型提供了多种布料任务,而北京大学等发布的GarmentLab进一步引入了有限元法(FEM)和流体模拟,实现更高逼真度的布料-刚体、布料-流体交互仿真arxiv.org。GarmentLab涵盖了从衣物清洗(布料与流体)到穿衣(布料与人体)等丰富场景,提供多种仿真方法切换,并附带了与真实扫描对象对应的benchmark。它在多项布料操作任务上评测了视觉、强化学习、模仿学习算法,指出当前方法在泛化性上的不足arxiv.org。
GarmentLab
此外,北大和UC伯克利合作推出了DexGarmentLab环境,专注于灵巧手与衣物互动。DexGarmentLab包含2500+衣物模型和15种双手协调任务(如悬挂上衣、戴帽子、系围巾等)arxiv.org。它采用层次结构的HALO策略(如下图),实现了在类别级别泛化的双手操控,每种任务只需单次示范即可自动生成大量变形轨迹数据用于训练。实验显示HALO相比现有方法在不同衣物形变下的成功率有显著提升。这些仿真平台的推出大大降低了研究门槛,世界各地的团队都可在统一环境下测试算法,为公平比较和复现提供了基础。
Hierarchical gArment manipuLation pOlicy (HALO)
在数据集方面,除了前述Flat’n’Foldarxiv.org等,新近还有诸多公开数据集助力算法训练和评估。例如,IDLab发布了衣物折叠示范数据集,包含8.5小时多视角视频,记录了1000次不同类型织物的人工折叠过程ugent。还有Ghent大学提供的aRTF衣物数据集(如下图),收集了约2000张接近折叠状态的衣物图像,涵盖4类常见衣物,用于研究折叠前状态识别github.com。
aRTF Clothes Dataset
西班牙IRI研究所开发了一套虚拟现实采集管道,快速生成大量布料操作序列并自动标注语义状态iri.upc.edu。更早一些,苏黎世ETH等公开了ClothesNet衣物模型库(如下图),包含约4400个带注释的3D衣物模型,覆盖11种类别,并提供模拟环境,可用于衣物分类、关键点检测以及在仿真中进行折叠、悬挂、穿衣等交互任务arxiv.org。这些数据集极大地丰富了训练素材,使数据驱动的方法能够学习到布料的多样形态。
ClothesNet
值得注意的是,Franco Coltraro等人专门研究了布料仿真与现实差距问题,构建了一个包含布料动态运动的高质量数据集(使用动作捕捉记录)(如下图),并用其评估了MuJoCo、Bullet、FleX等模拟器的差异openaire。他们的论文提供了缩小模拟-现实差距的见解,如针对模拟中摩擦、张力建模不准提出修正github。
All the fabrics (size A2 and A3) recorded for the dataset
综上,2025年的趋势是开放数据与平台大繁荣,为学术界提供了前所未有的资源去训练更健壮泛化的模型,也方便了成果的复现和比较deformable。
6. 跨领域融合与应用拓展: 衣物操作研究正加速与其他领域技术交叉融合,并朝更多应用场景延伸。触觉技术方面,柔性触觉传感器和电子皮肤的发展为机器人提供了全新的感知维度。例如,有研究在机械手指上集成高分辨率触觉传感器,用于辨别布料的材料和厚度,甚至通过触觉探测布料的折痕和层叠researchgate。这种能力可使机器人在视觉受阻时仍能理清布料状态,提高鲁棒性。柔性机器人和仿生机构方面,仿照人手的多指灵巧手正运用于布料操作。人类处理衣物时经常需要多指协作(如捏、提、铺、抹等动作arxiv.org),多指机械手可以提供更丰富的操控动作(如下图)。例如DexGarmentLab就展示了多指手在打结领带、为假人穿戴等任务上的优势。同时,软体机器人技术也有应用潜力,比如设计柔软的夹持器更安全地抓取纤薄织物,或利用充气式软体手指更大面积地铺平布料。
DexGarmentLab
可穿戴智能织物也是一大融合方向:一些研究探索让衣物本身嵌入传感和致动元件,实现自适应形变,例如2025年有工作提出由软体致动展开自卷的衣服,从而辅助机器人的穿衣操作(如下图的Self-Wearing Adaptive Garment (SWAG))arxiv.org。这些跨领域结合为解决布料操作中的特殊难题提供了新思路。
Self-wearing demonstration using the SWAG system
在应用前景上,衣物操作机器人有望在家务劳动、护理医疗、工业生产等场景大显身手。在家务场景,能自主分类、洗烘、折叠衣物的机器人管家将极大解放人力;在护理领域,机器人可以帮助行动不便者更衣、整理床单,被视为未来智能护理的重要组成。事实上,一些研究已聚焦于机器人协助手术室布置无菌帷布、医院收纳布草等应用。工业方面,服装制造和电商物流中,布料的分类、包装等也可由机器人完成,从而提高效率并降低工人重复劳动强度。尽管当前商用产品(如折衣机)还十分有限,但随着研究的推进,未来五年内我们可能会看到初步走向市场的衣物整理机器人出现。
未解决问题与未来展望
尽管2025年的研究取得了显著进步,但衣物操作机器人距离真正实用仍有诸多挑战有待解决。
首先是泛化与鲁棒性问题:当前系统往往针对特定类别织物或特定任务优化,很难“一招鲜吃遍天”。正如最新综述指出,现有方法在模型、感知和控制上多半只适用于单一纺织品种类或单一操作流程,缺乏对更广泛真实世界纺织品的普适性iri.upc.edu。如何让机器人在面对前所未见的衣物(不同材质、不同形状)或复杂环境(如堆叠混杂、多件重叠)时仍能可靠工作,是一个长期难题。为此,未来研究需要在更大范围的变量上训练和验证,例如融入更多布料物理特性(摩擦、柔顺性、厚度等)的感知和建模,使机器人能根据材料属性自适应调整策略。同时,应探索元学习和自适应算法,让机器人能在线学习新衣物的特性,实现快速适应。
其次,效率与速度仍需提升: 虽然已有工作尝试动态动作加速折叠展开,但总体而言,当前机器人的操作速度远慢于人类。比如比赛中折叠一条毛巾可能耗时几分钟,而人类几秒即可完成。这制约了实际应用的可行性。未来需要结合运动规划优化与控制算法的改进,进一步缩短单步动作时间和减小冗余。例如,研究高效的运动轨迹生成,使机器人在保证安全的前提下以接近极限的速度运动关节;或使用并行双臂操作同时展开布料的两侧等方式减少序列步骤。此外,借鉴人类“抖一抖、甩一甩”的经验,深入研究布料动力学,寻找既快捷又不损伤织物的操作手法。
最后,仿真与现实之间的差距依然明显 : 尽管有Coltraro等人的研究评估并改进了模拟器逼真度openaire,机器人在现实中操作衣物时仍常遇到无法预料的情况,模拟中学到的策略有时会失效。这方面需要更高保真的模拟——例如,引入更精细的纱线级模型或布料内部结构模拟,以捕捉真实中的皱褶细节和接触力分布。同时,发展领域自适应和迁移学习技术,让模型能将仿真中学到的技能平稳过渡到现实场景。另外,充分利用真实世界数据进行校正也是方向,例如通过实时视觉/触觉反馈不断修正仿真模型(Sim2Real in Loop)。
总而言之,衣物操作机器人是一个充满挑战但潜力巨大的领域。2025年的研究突破为我们离“让机器人替我们叠衣做家务”这一愿景更近了一步。