微软重磅发布Magentic UI，交互式AI Agent助手实测！-易微帮

微软重磅发布Magentic UI，交互式AI Agent助手实测！

请添加图片描述

何为Magentic UI？

Magentic UI 是微软于5.19重磅发布的开源Agent助手，并于24日刚更新了第二个版本0.04版

请添加图片描述

从官方的介绍来看，目标是打造一款 以人为中心 的智能助手，其底层由多个不同的智能体系统驱动，能够实现网页浏览与操作、代码生成与执行、文件生成与分析等功能。

它区别于其他一些AI浏览器工具的主要区别在于其 透明可控的交互界面，支持高效的人机协同参与。该系统基于微软的Agent构建框架 AutoGen 构建，目前还处在原型研究阶段。

核心功能包括：

🧑‍🤝‍🧑 协同规划：用户和AI通过聊天和计划编辑器协作创建并修订分步执行计划。
🤝 协同任务：用户可直接通过网页浏览器或聊天界面实时介入并指导任务执行。Magentic-UI 能在需要时主动确认或要求协助。
🛡️ 操作防护：敏感操作需经用户明确批准后方可执行。
🧠 计划学习与检索：从过往任务中学习经验以优化未来自动化流程，并将优秀方案保存至计划库。在后续任务中可自动或手动调用已存储的计划。
🔀 并行任务执行：支持多任务并行运行，会话状态指示器会实时提示 Magentic-UI 何时需要您的输入或任务已完成。

设计架构

请添加图片描述

Magentic-UI 的底层系统是由一组从 AutoGen 的 Magentic-One 系统（如上图所示）改造而来的专业化 Agent 组构成，各Agent通过模块化协作实现不同功能：

Agent功能说明

总控代理（Orchestrator）

功能定位：基于大语言模型（LLM）的主控智能体，负责与用户协同制定计划、决策何时请求用户反馈，并向其他智能体分配子任务。
协作流程：
1. 与用户共同制定分步执行计划；
2. 动态判断需用户介入的节点；
3. 将子任务分派至其他智能体执行。

网页浏览代理（WebSurfer）

功能定位：配备网页浏览器的 LLM 智能体，支持多轮次网页交互操作。
核心能力：
- 根据总控代理的指令，执行点击、输入、滚动、页面跳转等操作；
- 超越 AutoGen 多模态网页浏览器：新增标签管理、选项选择、文件上传及多模态查询支持。

代码执行代理（Coder）

功能定位：配备 Docker 代码执行容器的 LLM 智能体。
核心能力：
- 编写并执行 Python 和 Shell 命令；
- 将执行结果反馈至总控代理。

文件处理代理（FileSurfer）

功能定位：集成 Docker 容器与 MarkItDown 包文件转换工具的 LLM 智能体。
核心能力：
- 定位 Magentic-UI 控制目录下的文件；
- 将文件转换为 Markdown 格式并支持内容问答。

用户代理（UserProxy）

功能定位：代表用户与系统交互的代理角色。
协作模式：总控代理可将任务直接委派给用户（而非其他智能体）完成。

用户交互流程

用户利用 Magentic UI 的交互流程可以用下图表示：

微软重磅发布Magentic UI，交互式AI Agent助手实测！