微软重磅发布Magentic UI,交互式AI Agent助手实测!

发布于:2025-06-05 ⋅ 阅读:(68) ⋅ 点赞:(0)

微软重磅发布Magentic UI,交互式AI Agent助手实测!

请添加图片描述


何为Magentic UI?

Magentic UI 是微软于5.19重磅发布的开源Agent助手,并于24日刚更新了第二个版本0.04版

请添加图片描述

从官方的介绍来看,目标是打造一款 以人为中心 的智能助手,其底层由多个不同的智能体系统驱动,能够实现网页浏览与操作、代码生成与执行、文件生成与分析等功能。

它区别于其他一些AI浏览器工具的主要区别在于其 透明可控的交互界面,支持高效的人机协同参与。该系统基于微软的Agent构建框架 AutoGen 构建,目前还处在原型研究阶段。

核心功能包括:

🧑‍🤝‍🧑 协同规划:用户和AI通过聊天和计划编辑器协作创建并修订分步执行计划。
🤝 协同任务:用户可直接通过网页浏览器或聊天界面实时介入并指导任务执行。Magentic-UI 能在需要时主动确认或要求协助。
🛡️ 操作防护:敏感操作需经用户明确批准后方可执行。
🧠 计划学习与检索:从过往任务中学习经验以优化未来自动化流程,并将优秀方案保存至计划库。在后续任务中可自动或手动调用已存储的计划。
🔀 并行任务执行:支持多任务并行运行,会话状态指示器会实时提示 Magentic-UI 何时需要您的输入或任务已完成。

设计架构

请添加图片描述

Magentic-UI 的底层系统是由一组从 AutoGen 的 Magentic-One 系统(如上图所示)改造而来的专业化 Agent 组构成,各Agent通过模块化协作实现不同功能:

Agent功能说明

总控代理(Orchestrator)
  • 功能定位:基于大语言模型(LLM)的主控智能体,负责与用户协同制定计划、决策何时请求用户反馈,并向其他智能体分配子任务。
  • 协作流程
    1. 与用户共同制定分步执行计划;
    2. 动态判断需用户介入的节点;
    3. 将子任务分派至其他智能体执行。
网页浏览代理(WebSurfer)
  • 功能定位:配备网页浏览器的 LLM 智能体,支持多轮次网页交互操作。
  • 核心能力
    • 根据总控代理的指令,执行点击、输入、滚动、页面跳转等操作;
    • 超越 AutoGen 多模态网页浏览器:新增标签管理、选项选择、文件上传及多模态查询支持。
代码执行代理(Coder)
  • 功能定位:配备 Docker 代码执行容器的 LLM 智能体。
  • 核心能力
    • 编写并执行 Python 和 Shell 命令;
    • 将执行结果反馈至总控代理。
文件处理代理(FileSurfer)
  • 功能定位:集成 Docker 容器与 MarkItDown 包文件转换工具的 LLM 智能体。
  • 核心能力
    • 定位 Magentic-UI 控制目录下的文件;
    • 将文件转换为 Markdown 格式并支持内容问答。
用户代理(UserProxy)
  • 功能定位:代表用户与系统交互的代理角色。
  • 协作模式:总控代理可将任务直接委派给用户(而非其他智能体)完成。

用户交互流程

用户利用 Magentic UI 的交互流程可以用下图表示:

具体步骤执行

网站公告

今日签到

点亮在社区的每一天
去签到