全新的自动化时代已然来临。图形用户界面(GUI)智能体不再只是科幻电影中的概念,而是逐渐融入日常办公与生活场景的实用技术。
无论是手机App操作、PC软件控制还是Web页面交互,GUI智能体正在重塑我们与电子设备互动的方式。
阿里巴巴通义实验室推出的GUI-Owl与Mobile-Agent-v3以其创新的技术架构与卓越性能,成为这一领域的焦点突破。本文将深入解析这一技术革命的来龙去脉,探寻其背后的创新逻辑与未来潜力。
阿里巴巴通义实验室(Tongyi Lab, Alibaba Group)由阿里巴巴达摩院自然语言处理(NLP)领域的高级算法专家Ming Yan(严明) 领衔,汇聚了多位顶尖AI研究者。
团队长期专注于多模态大模型、智能体自动化、人机交互等前沿方向,在ICLR、NeurIPS、CCL等顶级会议与期刊上发表了多项重要成果。
Mobile-Agent系列的诞生,正是团队在“AI for Automation”战略下的关键布局。其核心目标非常明确:通过多模态大模型与智能体框架的结合,打破传统GUI自动化的技术瓶颈,实现真正通用、鲁棒、跨平台的智能操作能力。
Mobile-Agent-v1:单智能体多模态操作的奠基之作
2024年初,团队发布了初代Mobile-Agent(即Mobile-Agent-v1),相关论文被ICLR 2024 Workshop接收。这一版本主打“单智能体多模态手机操作”,首次实现了基于视觉感知的手机端GUI自动化。
其核心创新在于三个方面:多模态感知与决策统一、基于视觉的交互闭环、轻量化与实用性。Mobile-Agent-v1的问世,标志着手机GUI自动化从“规则驱动”向“智能驱动”的重要转变。
Mobile-Agent-v2:多智能体协作的突破性进展
2024年9月,Mobile-Agent-v2正式发布,并成功入选NeurIPS 2024。v2的最大升级在于引入“多智能体协作”机制,通过专业化分工、高效导航与状态管理、更强的异常处理能力,在多项手机操作基准测试中刷新纪录。
Mobile-Agent-v3:跨平台多智能体生态的成熟标志
2025年8月,团队发布了Mobile-Agent-v3,并同步推出全新的GUI-Owl基础模型。这一版本不仅是技术上的全面升级,更是战略上的生态扩展,实现了从手机到PC(Windows/macOS/Linux)、Web等多平台的全面支持。
GUI-Owl是Mobile-Agent-v3的核心基础模型,也是目前开源社区最强的GUI专用多模态大模型之一。其技术架构深度融合了视觉理解、语言推理、操作决策等多种能力,创新点主要体现在三个方向。
GUI-Owl的训练依赖于团队构建的大规模云环境基础设施,涵盖Android、Ubuntu、macOS、Windows等多种操作系统。通过“Self-Evolving GUI Trajectory Production”框架,实现了自动化查询生成、模型交互与轨迹采集、正确性验证与反馈以及迭代优化的完整闭环。
GUI-Owl通过多任务联合训练,构建了覆盖GUI自动化全流程的基础能力:包括UI感知与定位(Grounding)、任务规划(Planning)、操作语义理解(Action Semantics)以及推理与反思(Reasoning & Reflection)。
团队开发了可扩展的强化学习框架,包括统一多任务训练接口、异步训练与经验解耦、TRPO算法优化等技术,使GUI-Owl在复杂真实场景中的决策能力显著增强。
GUI-Owl提供7B与32B两种规模版本,均基于Qwen2.5-VL进行大规模后训练。在多项权威基准测试中,GUI-Owl展现出全面领先的开源模型性能:
注:AndroidWorld与OSWorld为GUI自动化领域两大权威基准,覆盖手机与PC端任务。
从数据可以看出,GUI-Owl与Mobile-Agent-v3在多项指标上实现了显著提升:AndroidWorld得分达到73.3,OSWorld得分达到37.7,在多模态理解能力方面甚至超越了GPT-4o与Claude 3.7等闭源竞品。
Mobile-Agent-v3能做什么?官方提供了多个典型场景的Demo视频,展示了Mobile-Agent-v3的强大能力。下面是美团点一碗山西刀削面演示:
视频来源: https://www.bilibili.com/video/BV1pPvyekEsa/?vd_source=baab71e487e2d06f92e784c5da002a65
Mobile-Agent系列自发布以来,迅速在GitHub上获得广泛关注(截至2025年8月,Star数近5k,Fork数近500)。项目完全开源,包括模型权重、训练代码、评估基准等,为社区提供了丰富的资源。
团队还积极推动社区协作,通过Hugging Face发布模型卡,支持开发者快速上手;通过ModelScope等平台提供在线Demo,降低使用门槛。
尽管Mobile-Agent系列目前仍以学术研究为主,其商业化潜力已引起行业广泛关注。潜在应用场景包括:企业办公自动化、软件测试与运维、智能助手与RPA、无障碍辅助等领域。
阿里巴巴内部已开始探索Mobile-Agent在电商、物流、客服等场景的应用,未来有望成为其AI生态的重要组成部分。
GUI智能体的时代才刚刚开始。
从单设备自动化到全平台智能生态,GUI-Owl与Mobile-Agent-v3用扎实的技术突破和全面开源的态度,为整个领域注入了新的活力。
开源地址: https://github.com/X-PLUG/MobileAgent
END