主要科技公司与新创公司 AI Agent 进展调研-EW帮帮网

引言

AI 智能体（Agent）正在成为新一代人工智能应用范式，能自主理解意图、规划步骤、调用工具并执行复杂任务[1][2]。当前，国内外多家科技巨头和创业公司都在开发通用型以及垂直领域的 AI Agent 产品。本文将按公司/产品逐一介绍其代理产品的名称定位、主要功能、技术架构、使用方式、应用场景与商业模式，并对比不同策略（如开源 vs. 商业闭源、自主模型 vs. 第三方模型等）的差异。最后附上一个表格对比各产品要点。

大厂 AI Agent 动向

OpenAI – ChatGPT Agent（通用智能体）

产品定位：OpenAI 于 2025 年7月推出 ChatGPT Agent，是 ChatGPT 的通用目的智能代理模式[3]。它将 ChatGPT 原有的对话能力与 OpenAI 早期 Agent 工具 Operator（网页操作）和 Deep Research（网络信息综述）的优势融合为“一体化超级智能体系统”[4]。这标志着 ChatGPT 从纯聊天助手升级为能自主执行任务的智能代理。

主要功能：ChatGPT Agent 能自主负责多步骤任务，使用其“虚拟电脑”为用户完成工作[3]。例如，自动规划日程、预订餐厅（通过读取日历空闲时间并调用订餐服务）[5]、生成演示文稿和表格，或运行代码执行数据分析[6][7]。它可浏览网站内容、筛选搜索结果、自动点击网页按钮和填写表单等[7]。Agent 还能连接用户授权的应用（称为 ChatGPT Connectors），如 Gmail、GitHub 等，以获取相关信息处理任务[8]。通过自然语言对话即可指示 Agent 完成诸如“查看我的日历并简报近期客户会议信息”这类复杂请求[7]。总的来说，ChatGPT Agent 不再只是回答问题，而是能够主动“想”“查”“做”，代替用户执行繁琐操作。

技术架构：ChatGPT Agent 背后由 OpenAI 专门开发的新高性能模型提供支持（尚未公开命名），通过强化学习掌握多工具的使用[9]。底层依然是大型语言模型（推测为改进的GPT-4系列），但加入了工具使用接口（如内置文本浏览器、可视化浏览器、终端等）和超长上下文能力（官方关闭了长期会话记忆以防敏感信息泄露[10]）。Agent 采用 ReAct 模式决策，可将任务拆解为 Thought→Action→Observation 循环执行。它同时注重实时安全监控，对涉及生物/化学等敏感任务的请求会附加检测和二次审查[11][12]。在实际执行诸如提交表单、下单购买等关键操作前，Agent 会征求用户确认，并拒绝高风险事务（如金融交易）[13]。

使用方式：ChatGPT Agent 集成在 ChatGPT 界面中。订阅了 ChatGPT Pro、Plus或Team计划的用户，可在聊天对话中从工具下拉菜单启用“Agent模式”[14]。启用后，用户用自然语言下指令，Agent 将自动调用浏览器、终端等完成任务并返回结果。OpenAI 尚未开放通用API直接调用Agent，但已发布了一系列 Agent 构建模块供开发者定制自己的智能体[15]。ChatGPT Agent 每位用户每月有任务次数上限（Plus/Team用户50次，Pro用户~400次）[16]用于控制成本。

典型应用场景与用户：ChatGPT Agent 面向知识工作者和个人用户，可用于日程助理（自动整理待办、会议安排）、资料调研（汇总多网页信息并产出报告）、办公自动化（生成幻灯片、分析数据表）、编程助手（编写并运行代码）等场景[6][17]。例如市场分析师让Agent调研竞争对手并制作要点幻灯片，或个人用户请Agent规划旅行行程并整理成文档[18]。这类用户希望借助AI减轻多工具切换和繁琐流程的负担。

商业模式：OpenAI 采取闭源+订阅模式。ChatGPT Agent 是付费订阅服务（Pro/Plus/Team）的一部分[19], 未向免费用户开放。OpenAI 未开源其核心模型和代理框架，仅提供有限的开发者接口。营收来自订阅费和未来企业API调用计费。OpenAI 强调通过快速迭代和自有技术整合提供80分以上的产品来保持竞争力[20]。由于掌握最先进模型，其闭源策略在高端通用智能体上仍具领先优势。

Google – Bard Extensions（通用Agent增强）

产品定位：Google 将自家通用对话模型 Bard 升级为具备代理能力的助手。Bard Extensions 是 2023年下半年推出的功能扩展，让 Bard 能访问和操作 Google 自家应用服务（如 Gmail、文档、地图等）[21]。虽然 Google 没有将其单独命名为“Agent”，但实质上 Bard 正朝着通用 AI 助手/智能体方向发展，即不仅对话，还能执行跨应用任务。此外，Google 也在研发更先进的多模态基础模型（如 Gemini），未来将进一步增强代理智能。

主要功能：通过 Extensions，Bard 可连接谷歌应用生态，帮助用户完成日常个人事务。例如，用户可以让 Bard 查找并汇总 Gmail 中最近的邮件、从云端硬盘/Docs 中提取某项目资料，或规划出行：自动查询航班和酒店信息并提供路线地图[22]。Bard 还能根据对话内容，将草稿发送至 Gmail 作为电子邮件，或把生成文本直接导出为Google Docs文档[23]。这些功能使 Bard 从单纯对话扩展为“懂你数据”的私人助理，在一个对话中串联邮件、文件、地图、视频等多源信息[24][22]。例如，计划旅行时，Bard 可自动从 Gmail 获取同行好友空闲日期、调用航班和酒店服务实时查询预订选项、使用 Maps 获取机场路线、甚至从YouTube找相关旅游视频推荐，一并整理呈现[22]。对于办公，Bard 能读懂云端文档内容，回答问题或生成摘要供用户参考[25]。整体而言，Bard Extensions让 Bard 具备了有限的工具使用和用户数据接入能力，向通用代理更近一步。

技术架构：Bard 背后的模型 PaLM2 已经过强化学习调教，更善于遵循指令并提供可信回答[26]。Extensions在架构上相当于插件/工具集成：Google为Bard预置了对Gmail、Drive、Maps等服务的API访问接口，并设计提示模板让 Bard 知道何时调用哪个服务。Bard 查询这些数据时会通过安全代理获取信息，Google 声称用户授权的数据不会被人查看或用于广告/训练[27]。Bard 目前以谷歌账号 OAuth 方式访问用户数据，并在回答时结合检索到的内容生成。相对于OpenAI Agent的广泛工具箱，Bard Extensions主要局限在谷歌生态系统，但胜在深度整合——在理解用户指令时，可自动决定调用何种谷歌服务。Bard 也支持图像输入（Lens 图像识别）和图像输出功能，增加了多模态交互能力[28]。没有公开迹象表明 Bard 使用多智能体架构；Google更多依赖提升单模型多任务能力和后端调用服务的结合。

使用方式：Bard Extensions 通过网页端的 Bard 实验提供，用户需登陆 Google 账号并授权各类权限。在 Bard 界面中，可以开启所需的扩展插件（如 Gmail、Maps 等）[29]。用户在提问时，Bard 会在后台自动使用已授权的服务，无需显式指定工具。在响应中 Bard 将引用邮件或文件内容，或给出地图/视频等直观结果。目前 Bard 对公众免费开放（部分国家），Extensions同样免费但仅支持英文界面且存在地区限制[30]。对于企业用户，Google 还推出了Duet AI 助手（付费）集成于Workspace，用于邮件自动回复、文档生成等，可视为垂直领域的生产力Agent，但背后也是Bard或类似模型提供支持。Google 未来可能将这些代理能力融入 Android / Assistant 等平台，实现更广泛的终端覆盖。

典型应用场景与用户：Bard Extensions 面向个人和专业用户，特别是深度使用谷歌全家桶的群体。常见场景如：邮件助理（快速总结大量未读邮件并智能回复建议）、日程安排（综合邮件与日历确定会议安排）、信息检索（从Drive/Docs中寻找特定资料）、旅行规划（结合地图/航班/酒店服务给出行程方案），以及学习和内容创作（比如通过YouTube扩展找教学视频等）。由于 Bard 能访问用户私密数据，其贴身助理性质更强，适合需要高效处理个人信息的用户。但也正因如此，企业和个人需考虑数据隐私风险[25]。整体来看，Bard+Extensions瞄准与ChatGPT竞争，让用户在熟悉的Google工具中获得AI辅助，提高办公和生活效率。

商业模式：目前 Bard（包括Extensions）对公众免费使用，以获取用户和数据为主，未有单独付费版。但 Google 计划通过云服务和企业订阅盈利，例如 Workspace 的Duet AI功能需付费订阅，以及在Google Cloud上提供模型API（如 PaLM API）供企业构建自定义Agent。这体现 Google “基础免费、增值收费”的策略：普通用户免费体验增强Bard，企业客户则通过付费服务将其定制化应用。Google 在模型上趋向闭源（Gemini等未开源），但在应用层与伙伴合作（例如 Replit 接入其代码模型）形成生态。与OpenAI等直接卖API不同，Google更强调自家生态绑定和硬件终端整合（未来在Android设备中部署AI代理），以巩固其用户基础和数据优势。

Anthropic – Claude 2 + Research（通用助手加强版）

产品定位：Anthropic 的 Claude 系列是与ChatGPT、Bard并列的新一代通用AI助手。2023年推出Claude 2（后续有Claude 2.1升级），主打超长上下文和更高安全性。2025年，Anthropic为Claude引入了“Research”自主研究模式，让Claude从单一聊天升级为能自主上网搜索和执行复杂任务的智能体[31]。虽然Anthropic未将Claude包装为单独Agent产品，但其实在Claude API和应用中已经集成了工具调用、检索增强、长短期记忆等agent特性[32]。Claude定位于对话助手+知识分析，强调可靠性，可看作“稳健型通用Agent”。

主要功能：Claude 2 本身支持高质量对话问答、内容创作和代码编写调试（它在编码和推理方面表现优异）。其突出特点是支持100k甚至200k Token长上下文输入，方便处理长文档总结或多轮对话引用[33]。围绕Claude，Anthropic最近开发了多Agent协作的“研究”功能[34]：Claude 可以自主使用搜索引擎工具查找网页信息，或接入用户的 Google Workspace 数据库来完成复杂的开放式任务[34]。这个Research模式下，Claude会将用户的大问题拆分成子任务，并行启动多个子代理同时搜索不同方向的信息，最后汇总出全面的调研结果[35][36]。例如，用户问“找出2025年IT行业标普500公司所有董事会成员”，Claude的多Agent系统会把任务分给若干子代理分别检索各公司董事名单并汇总，从而比单一Agent更快更全地完成[37]。Claude 还能在结果中自动添加引用来源[38]（通过一个CitationAgent提取出处），增强答案可信度。这些功能让Claude不仅能聊天编程，还能自主调研和执行任务，类似ChatGPT Agent的能力。

技术架构：Claude 基于 Anthropic 自研的大型对话模型（Claude 2 号称约参数52B左右），使用 Constitutional AI 方法训练，有更高对齐和安全性。Anthropic 在Claude中集成了工具使用 API和检索增强（RAG）机制[32]。尤其Research模式采用多智能体架构：包含一个主代理（LeadResearcher）负责规划和统筹，以及多个并行子代理（Subagents）负责具体搜索任务[39][36]。各子代理有各自的上下文窗口，彼此独立搜索，再将结果汇报主代理综合。为了管理超长过程，Claude引入内存机制：会将中间的计划和发现记录到长期记忆储存，以防超过上下文窗口后丢失[38]。Claude 模型本身擅长遵循复杂指令，Anthropic还为其开发了函数调用接口（在API中，Claude可调用工具函数）。在安全方面，Claude有内置行为准则（通过“宪法”规则自我约束），并在工具使用上有人为权限设置，防止滥用。总之，Claude架构强调可靠性与透明度：多Agent并行提高效率，但代价是更多Token消耗，Anthropic指出只有高价值任务才值得这样做[40]。

使用方式：普通用户可以通过 claude.ai 网站体验 Claude，对话界面目前免费开放有限次数（但地理限制较多）。Anthropic的主要商业途径是Claude API，企业开发者可购买调用其模型（包括快速版Claude Instant和高性能版Claude 2）。Anthropic也与合作伙伴集成，如Slack的内置AI助手就由Claude提供支持。Claude 的Research模式预计对企业客户更有吸引力，比如整合公司知识库做内部问答。Anthropic 还发布了Claude Pro订阅（美国市场），提供更多对话次数和更高并发工具使用给个人专业用户。Claude 没有独立的软件可本地部署，一般通过云API或网页使用。开发者也可利用Anthropic提供的工具接口将Claude嵌入自定义Agent系统中。

典型应用场景与用户：Claude 定位为安全可靠的通用AI助手，其用户包括注重信息准确性的专业人士和开发者。典型场景有：长文档处理（如法律文档分析，Claude能读10万字并给摘要）、商业情报研究（借助Research模式调研行业信息并写报告）、编程帮手（提供代码建议并调试，100k上下文可放整份代码库）以及日常问答创作。Claude 的风格较严谨守规，比起追求最新花哨功能，Anthropic更强调稳定增量：如在企业客户需要的合规、保密环境下部署问答系统。这使其受一些金融、法律、医疗等对AI输出要求高的领域青睐。这些用户往往愿意为较低的幻觉率和良好的解释性付费。

商业模式：Anthropic 采用闭源+API收费模式。Claude 模型未开源，API 按调用量计费（类似OpenAI但价格略高），其Pro个人订阅也是一种变现手段。Anthropic获得大额投资（包括Google投资），短期内专注拓展企业市场份额。它的策略与OpenAI不同之处在于：1）专注安全和长上下文作为卖点；2）愿意与大公司合作嵌入（如Slack、Notion等产品集成Claude）；3）探索多Agent增强但不会一下开放太多不成熟功能（比较保守）。Anthropic没有直接面向消费者的大规模免费产品，这与OpenAI、Google策略有别。但Anthropic也逐步构建生态，如发布“Building Effective Agents”指南鼓励开发者用Claude定制Agent[32]。总的来说，Anthropic走的是商业闭源路线，通过技术优势（长上下文、高可靠）在特定市场立足，与开源派和大厂商业模型形成差异竞争。

百度 – 心响 App（通用超级智能体）

产品定位：百度在2025年4月推出了通用AI Agent手机应用 「心响」（XinXiang）[41]。心响被称为“复杂任务全托管的超级AI”，旨在做用户的全能任务指挥官。它基于百度自研的大模型文心（ERNIE）和多智能体协同技术，可一站式解决任意领域的复杂问题[41]。相较传统聊天机器人，心响定位为更主动的智能任务执行者，面向C端普通用户，提供通用型AI助理服务（也为后续B端定制奠定基础）。

主要功能：用户只需一句话描述需求，心响就能自动拆解任务、动态规划步骤，调度多个子智能体/工具协同工作，最终以直观形式交付结果[42][41]。它内置数百种任务能力，官方称覆盖200多种任务类型[43]。典型功能包括：知识问答与分析（复杂问题咨询，给出结构化解答）、旅游规划（自动生成行程、比价机酒、输出地图和攻略）、办公助理（整理会议记录、分析数据、生成PPT）、学习辅导（知识点讲解、习题解答）等等[41]。心响还能进行多模态输出，例如在回答中插入图表、地图等[44]。通过调用外部工具，心响可以执行诸如网络搜索、访问特定API服务（如航班查询）等操作，实现闭环完成任务[41]。一句话，它试图承担用户交给它的任何任务，从需求理解到结果呈现，全流程自动化。

技术架构：心响的核心是百度文心大模型4.0系列，结合了知识增强和多Agent协同架构[45]。百度研发了“MCP多智能体协同平台”，使心响可以在后台并行运行多个子代理：例如一个负责理解拆解意图，一个负责调用某API获取数据，一个负责结果汇总呈现[45]。各子智能体基于微调的小模型或预设工具（如地图查询、表格生成等）完成子任务，然后由主智能体整合。心响还具备AI任务完成引擎，预置了常见领域的解决方案模板[41]。在记忆方面，可能利用文心知识图谱和向量存储实现长期记忆（官方未明说，但文心大模型有知识增强特性）。同时，心响可以调用多种外部工具插件（类似浏览器、计算器等），通过自然语言控制这些工具。值得注意的是，百度强调心响的多模态协同：文心基础模型本身已多模态（图文音），再加上心响上层架构，可处理混合模态任务（如输入图片让它根据图上内容做决策）。安全上，心响依托百度在搜索和内容审核方面的经验，对不良请求会进行过滤拦截。总之，心响架构融合了大模型+工具调用+多Agent，体现了百度对AGI（通用智能）的探索，把各种AI能力打包在一个App里。

使用方式：心响目前作为移动应用提供（Android版已上线应用商店[41]，iOS版本可能在开发），用户下载安装后即可使用。通过与心响App 对话式交互来提需求，无需懂提示工程。应用内置任务广场或示例库，用户也可浏览模板任务一键执行[46]。心响主要针对C端用户免费开放，可能需要百度账号登录。对于开发者和企业，百度在其智能云的「千帆AI平台」上提供了 AgentBuilder 工具，可让企业利用文心大模型和心响的技术框架定制自己的智能体[47]。因此B端则通过云服务/API的方式使用百度的Agent方案。值得一提，百度还有一系列垂直Agent，例如医疗问诊Agent、教育助教Agent等，通常作为心响能力的扩展或在千帆平台上开发的垂直应用。

典型应用场景与用户：心响的用户首先是普通消费者，希望获得“一句话解决问题”的个人助理体验。例如，上班族用心响规划出差行程、家庭主妇用它制定采购清单和菜谱、学生用它查资料写报告等[41]。由于心响擅长跨应用流程，繁琐任务托付给它能极大节省时间。其次，心响在行业应用上也有潜力，通过定制可成为企业员工的智能助手：如客服坐席利用心响快速查询知识库并回复客户，市场人员用它做竞品分析报告等。当前版本的心响更偏向通用消费场景，百度后续可能推出企业版心响接入内部数据，为企业提供一站式AI助理。

商业模式：百度心响当前对个人免费使用（属于产品冷启动期以获取数据和用户），未见直接收费。但百度的战略是通过闭源商业化大模型赋能生态：文心模型本身不开放权重，只通过云API或产品形式输出能力。心响一旦用户规模和功能成熟，未来可能采用订阅制（如高级版收费）或者任务收费（按调用第三方API成本计费）。对于企业客户，百度更倾向云服务收费模式：例如通过百度智能云千帆平台提供Agent定制与托管服务，按调用量或套餐计费[47]。在开源策略上，百度目前未开源核心大模型，但在Agent构建框架层面可能会部分开放接口吸引开发者。整体看，百度走的是“模型平台+应用产品”双线：既输出平台供别人造Agent，也自己推出C端Agent应用抢占用户心智。这和字节跳动等策略相似，都是希望占领未来AI Agent入口。

阿里巴巴 – 通义千问 & 代理应用（通用大模型+垂直方案）

产品定位：阿里巴巴将 AI Agent 视为云服务和企业软件的新形态，当前采取“双轨”：一方面推出自研大模型 通义千问（Qwen），为各种Agent提供底座；另一方面，与创业团队合作推出具体Agent产品。例如，2024年阿里达摩院孵化团队与初创Monica合作推出据称全球首款通用Agent Manus[48]；阿里云也在为企业开发Agent开发框架。总体而言，阿里并未有像ChatGPT Agent那样的单一明星Agent应用，而是扮演平台提供者角色，更关注支撑各行业定制智能体。其策略是 “模型+平台开放”，赋能生态伙伴打造垂直Agent，同时探索自身应用如办公助手、客服Agent等。

主要功能：阿里旗下没有直面消费者的通用Agent App，但在不同领域有布局：
- 通义千问 本身是类似ChatGPT的对话模型，可回答通用知识问答、多语言对话、内容生成和代码编写等。它作为底层大脑提供NLP能力。
- Manus（与阿里合作）：定位为通用型自主智能体，能将用户想法拆解成具体行动并执行，被称为“真正意义上的通用AI Agent”[49]。Manus集成多模型和多Agent协作，具备独立思考能力和工具使用能力，突出特点是高性能（在GAIA基准超越OpenAI同类）[50]。据报道，Manus可自动上网搜索、规划任务清单并逐步完成，实现从想法到成品的自动化[50]。阿里通义团队与Manus有战略合作，将通义千问模型能力融入Manus[48]。
- 企业代理方案：阿里云面向企业推出了Agent开发与运行框架（据阿里云开发者社区介绍[51]）。该框架支持像达尔文进化一样，让多个Agent模块竞赛优化，具有模型管理、工具调用、知识库集成等功能，帮助企业构建适者生存的智能体体系。阿里云还发布过开源推理模型 QwQ-33B，为Agent提供本地化部署选择[52]。
- 办公助手：阿里将Agent理念融入自家产品，如钉钉的智能助手“宜搭”，天猫精灵语音助理集成大模型，实现跨应用的对话操作能力（如语音让精灵发起会议、记录纪要等）。虽然未冠名Agent，但功能接近智能体。

综上，阿里的Agent相关功能涵盖通用对话、自主任务执行和行业场景自动化。特别是和Manus的合作，让阿里拥有了一个All in的全能Agent雏形，其能处理创意策划、日程安排、资料分析等广泛任务[50]。同时阿里针对电商也有一些垂直Agent，例如商品导购智能体、内容审核智能体等，利用大模型理解和行动能力提升业务效率。

技术架构：阿里采用自主大模型+开放框架架构。通义千问系列模型（7B/14B参数版本已开源）为基础，它支持插件工具调用和较长上下文。阿里将模型能力封装进低代码平台方便调用（类似字节的Coze平台）[51]。Manus的架构是多模型MoE（混合专家，总参数达数万亿）与多Agent结合[53]。这意味着背后有路由不同子任务到不同专家模型的机制，提升综合能力。阿里云提供的Agent框架支持多模态输入、知识检索和工作流编排，并强调安全（提供权限控制、防退化、防泄露机制）[54]。由于阿里选择了部分开源策略，Qwen-7B/14B模型权重公开，开发者可在此基础上微调训练自有Agent，阿里提供算力和工具支持[55]。同时，阿里在云上优化对国产GPU的适配，让大模型推理更高效（比如与AMD合作，通过Lamini平台优化多卡并行[56]）。整体来说，阿里的架构重心在于让不同规模的模型和Agent组件灵活组合，满足企业的定制需求，而非打造单一封闭Agent应用。

使用方式：阿里系Agent能力主要通过云服务/API提供。开发者可以在阿里云上调用通义千问API，或使用Qwen开源模型本地部署。对于Manus，用户可通过其官网注册体验，该产品目前在全球发布，用户输入目标任务，Manus自动执行（需要联网）。企业客户则可通过阿里云 “灵杰”大模型平台接入阿里的Agent框架，将自有数据融合，开发内置于自身系统的智能体。值得一提，阿里将 Agent 能力嵌入其行业解决方案：如面向客服的智能质检Agent、面向运营的自动投放Agent等，这些通常作为阿里云SaaS的一部分交付，而非独立App。面向个人的，目前没有针对普通用户的通用Agent产品，预计未来可能推出类似“TaobaoGPT”这样懂电商购物的Agent来增强消费者体验。

典型应用场景与用户：阿里的Agent技术主要服务于企业和开发者。例如：电商商家利用大模型Agent来自动生成商品文案、分析销售数据、调优广告投放方案；企业IT部门用Agent处理工单、监控运维（Autonomous IT Ops）；办公场景有智能秘书安排会议和纪要。由阿里投资的Manus更面对全球极客用户，可以让个人体验AutoGPT式的全能AI，比如让它帮忙写一份市场报告并设计方案。阿里的优势行业电商和企业服务，将是Agent落地重点：比如客服机器人过去基于规则，未来升级为能自主解决客户问题的Agent。对于开发者社区，由于Qwen模型开源，很多开源爱好者会用其训练垂直Agent（例如财报分析Agent等），反过来丰富阿里的生态。

商业模式：阿里采取开放生态+云增值模式。一方面通过开源模型（Qwen）扩大影响力和标准制定权[57]，吸引开发者使用；另一方面在云平台上收费提供大模型算力和Agent工具（吸引客户上云）。通义千问API和相关解决方案将按调用量或订阅收费，但价格可能比OpenAI更优惠以争夺市场。此外，阿里可能将Agent能力与其企业软件绑定销售（如钉钉企业版附带AI助手等）。阿里的开源举措与中国政策鼓励开源环境有关，也是一种和美国封闭模型竞争的差异化策略[57]。相比之下，OpenAI/Anthropic闭源独占模型赚取高利润，阿里则甘愿以开放换市场，用服务和定制盈利。这也符合阿里作为平台型公司的定位，即不追求Agent本身收费，而是推动整个云服务和商业应用升级，从中获取长期收益。

字节跳动 – Coze 扣子平台 & 扣子空间（通用Agent开发与应用）

产品定位：字节跳动推出了Coze（中文名“扣子”）平台，主打“下一代AI应用零代码开发平台”[58]。Coze可理解为字节版的GPTs，可让用户快速创建各种聊天机器人、智能体和AI插件，并将其部署到社交平台[59]。基于Coze平台，字节在2025年4月发布了面向终端用户的通用智能体应用 “扣子空间 (Coze Space)”[60][61]。扣子空间被称为通用型 AI Agent，目标是帮助用户低门槛地定制和管理属于自己的AI应用/助手[61]。一句话，字节的策略是同时提供平台（Coze，让大众都能造Agent）和应用（Coze Space，即字节自家的全能Agent示范）。

主要功能：在Coze平台上，用户无需编程即可通过图形界面配置，构建各种类型的聊天机器人或多Agent应用[59]。平台提供丰富的插件库（超过60个MCP模块）和知识库、长期记忆、定时任务、工作流自动化等功能，支持从单Agent到多Agent协作的场景[62]。举例来说，用户可以用Coze创建一个自动汇总新闻的Bot，配置定时每天早上8点爬取新闻源并通过微信发送摘要；或打造一个客服机器人连接公司FAQ知识库和数据库，实现有记忆的对话[63][64]。扣子空间作为应用，进一步封装了这些能力：它内置了60+插件（涵盖资讯、旅行、办公等）[65]和一系列专业AI助手模板[66]。扣子空间支持两种模式：探索模式用于即时任务（AI快速响应，追求时效），规划模式用于复杂项目（AI深度思考分步完成）[67]。用户可以上传本地文件或提供网址，让Agent处理内容；还可以将做好的Agent一键发布到微信、飞书等平台供他人使用[68]。扣子空间的示例包括：让Agent规划一次上海亲子两日游，选择探索或规划模式，它会调用地图、文档等插件给出行程和攻略；或者分析一份用户调研数据并上传到飞书表格，Agent能读懂数据文件并借助插件完成上传[69]。总之，字节的Agent系统功能非常齐全，从信息检索、内容生成、工具操作、记忆存储到多步骤流程皆可支持，能尝试用户能想到的几乎所有任务[46]。

技术架构：Coze/扣子空间的架构体现为模块化和开放性。底层模型方面，Coze国际版使用OpenAI GPT-4/GPT-3.5 API[70]，国内版采用字节自研豆包大模型（推测是一系列对话模型）[70]。它兼容多种大模型插件，如内置了通义千问-Max等模型供选择[71]。工具调用通过MCP（模块化能力插件）框架实现，每个插件封装一个功能（如调用高德地图、读取PDF等）[72]。Coze为每个工具定义了规范的描述（包括输入输出格式），LLM通过解析用户意图决定调用哪个插件。平台还提供知识库模块，支持向Agent注入用户自己的数据并使用RAG检索[73]。长期记忆由内置数据库实现，Agent可将对话中重要信息存入表格备忘[73]。此外，Coze有图像生成功能（基于Stable Diffusion等模型）[74]和工作流引擎（允许用节点方式设计复杂流程，包括条件判断、代码执行节点等）[74]。多Agent模式下，不同Agent之间通过预设的节点连接通信[75]。为了方便开发者调试，Coze支持输出日志和提示调优界面，开发者可以查看Agent每一步动作及使用的工具结果[76]。总的来看，字节的架构偏向开发者友好：提供大量可组合组件和GUI界面，降低开发Agent的门槛[77]。而作为成品的扣子空间，本质是Coze的一个配置集合，字节官方预置了许多常用任务流程，用户直接调用即可，从而兼顾小白用户体验和高级用户定制。

使用方式：对于开发者/企业，可以直接访问 Coze平台网站（国内coze.cn，国际coze.com）注册使用[70][78]。平台完全免费开放，目前已积累了海量用户自制的智能体，涵盖图文、音视频、编程等各领域[59]。开发者在平台上调试好Agent后，可一键发布到Coze商店或集成到飞书、抖音、微信等应用中[79]。对于普通用户，可以使用 扣子空间：访问其官网申请邀请码后，就能在网页版创建任务并与Agent对话[80]。由于扣子空间仍在测试阶段，需要轮候邀请码来控制增长[81]。一旦进入，用户界面类似一个任务面板，可以选择插件、输入任务描述并执行，Agent会在后台完成功能。执行完的Bot还能分享给他人使用。字节还将Agent能力嵌入自家产品，如飞书文档中加入Coze插件，实现智能问答；抖音平台上可能出现AI内容创作助手等。总体而言，平台模式+社交分发是字节的重要打法，寄希望于用户自发创造丰富Agent应用。

典型应用场景与用户：Coze平台的用户群非常广泛：
- 零代码开发者：产品经理、运营人员等没有编程能力的人，可以用Coze快速搭建业务所需AI助手（如客服机器人、舆情监测机器人）[82]。
- 企业团队：Coze支持团队协作开发智能体，团队成员共享项目和权限控制[75]。企业可在内部搭建自己的Agent助理，例如咨询顾问公司制作一个行业资料问答Agent供员工使用。
- AI爱好者：个人用户借助Coze免费调用GPT-4等API，可打造创意聊天角色（比如虚拟女友、多模态互动娱乐等）[83]。
- 专业领域：平台上已出现金融分析助手（如股票早报生成[66]）、用户研究助手[66]等专业Agent，方便相关从业者使用。

扣子空间则更面向希望个性化AI助理的一般用户。他们可以不写代码直接让AI帮忙完成日常任务：如日程管理（定时提醒+发消息）、内容创作（协作写故事、视频脚本[84][85]）、旅行美食（自动汇总攻略和地图[18]）等。通过双模式设计，急事用探索模式立即得到结果，复杂任务用规划模式拿到深思熟虑的方案[67]。而字节通过内置一些行业专家Agent模板，也吸引特定领域用户试用（例如证券助手、教育助教等[66]）。

商业模式：字节跳动目前对 Coze 完全免费，包括使用GPT-4 API的成本都由平台承担[59]。可见其战略是先积累用户和优秀Agent案例，打造生态。在中国市场，字节自研豆包模型降低了成本，免费策略可承受一段时间。未来变现上，可能有以下路径：1）高级版订阅：对某些高性能模型或高并发需求收费；2）流量抽成：Agent商店里优秀Agent被大量使用，可考虑付费精品或广告分成；3）企业服务：为有定制需求的公司提供专属部署或私有化方案收费。就开源而言，字节没有开源Coze代码或模型，只提供国际版接口，这属于闭源平台策略。但它大量使用开源模型（国外版整合社区模型，国内版融合第三方插件），所以某种程度上字节站在开源社区之上做集成。与OpenAI等直接卖模型不同，字节更像应用商店运营者，通过繁荣生态最终可以引流至自家社交平台（飞书、抖音）并加强用户粘性。从长远看，字节的野心在于成为AI时代的“App Store”，聚合海量Agent应用获取价值，而非仅靠单个Agent收费。

科大讯飞 – 星辰Agent平台（垂直智能体开发）

产品定位：科大讯飞于2024年底发布了新一代 AI 智能体开发平台「星辰Agent」[86]。区别于面向C端的助手，星辰Agent专注为开发者和企业提供一站式构建生产级智能体的能力[86]。它支持多种Agent类型（指令驱动、工作流、自主Agent），内置丰富场景模板，号称可以让开发者“从0到1打造商用AI Agent”[87]。讯飞本身在教育、医疗等垂直AI有深厚积累，因此星辰Agent被视为赋能行业智能体的利器。总体定位偏B端，为各行业快速定制垂直领域Agent。

主要功能：星辰Agent平台提供全栈AI能力矩阵，兼容多种模型和工具，涵盖复杂推理、跨模态生成、智能决策等[88]。它有16000+预建的MCP Server模块资源，覆盖各种场景，可以零代码/低代码拖拽组装[88][89]。具体功能模块包括：
- 模型即插即用：集成了多源优质大模型，既有讯飞自研星火认知大模型，也支持开源模型接入，开发者可按需调用[88]。
- 工具与插件：内置海量工具接口，如数据库查询、API调用、第三方服务SDK等，Agent可在流程中任意调用[89]。还有插件广场可获取社区贡献的插件。
- 多模态交互：支持文本、语音、图像等输入输出。例如场景模板中有多模态图表理解，Agent能看图读表并给出结构化分析[90]。讯飞强项语音能力也融入，可让Agent听说读写齐备。
- 场景模板：提供预置的典型应用模板，如旅行规划助手（调用天气、景点、票务插件，为用户定制行程）[90]、AI播客生成（根据配置自动生成播客音频）[90]、金融投资顾问、教育助教、智能客服 等[90]。开发者可以一键启用模板再修改，极大加快垂直Agent开发。
- 测试调优：支持多模型Prompt效果对比、批量用例测试、人工评估等工具，帮助开发者深度定制Agent行为[91]。
- 多终端部署：开发好的Agent可发布为HTTP应用、API服务或私有MCP Server[92]。这意味着可以很方便地集成进企业已有系统或App中。
- 安全与管理：提供文件系统权限控制、数据可见性控制，保证Agent在企业内部使用时数据不泄露[91]。

简而言之，星辰Agent平台把智能体开发涉及的模型、工具、流程、安全等环节做了封装，让不同行业的技术团队都能快速定制自己的“专属AI助手”。

技术架构：星辰Agent采用模块化分层设计。底层是全开放模型架构：可以灵活挂接讯飞星火大模型或客户自有模型，甚至同时使用大小模型编排（如一个小模型Agent控制一个大模型Agent协作解决问题）[93]。在Agent执行层，平台区分系统模块（通用功能，如身份认证、日志等）、Agent模块（智能体主体逻辑）和工具模块（可调用外部能力）[91]。这些模块通过拖拽连线构成工作流。平台支持渐进式开发：初学者用零代码图形界面，进阶者可写自定义代码节点或接入自定义MCP Server[89]。特别的是，讯飞提供了一键托管自定义MCP的能力[89]，方便开发者把自己的服务封装成Agent可用的工具。为保证效果，平台允许对Prompt链路进行精细调优和比较[91]。星辰Agent也注重数据闭环：提供知识库挂载（外挂企业文档作为Agent知识）[94]和防退化机制（定期评估微调模型避免长期性能下降）[95]。结合讯飞在语音合成、OCR等AI技术，星辰Agent架构可无缝融入这些多模态能力，使Agent在本行业表现更专业。总之，其架构追求灵活组合和深度定制，以适应各行各业多样需求，不强调某一款Agent产品而是提供造无数Agent的工厂。

使用方式：星辰Agent面向企业开发者提供服务，方式包括：访问讯飞开放平台官网申请试用、购买私有部署版本等。讯飞可能在其AI开发者社区上提供星辰Agent的使用教程和案例。对于典型客户（如金融机构、政府），可以通过讯飞销售渠道获取本地部署套件或云上独立实例，以满足数据不出内网的要求[54]。开发者使用时，先在平台上选择所需模型和插件，设计好Agent逻辑，然后一键生成API或应用。最终用户（如企业员工）通过Web界面或企业微信等入口与该Agent交互。由于星辰Agent侧重B端，普通个人用户很难直接体验，但讯飞可能会将一些Agent成果输出为产品。例如2023年讯飞推出了面向个人的AI学习机、办公本，内置了星火大模型助手，可以看作星辰Agent在教育、办公垂直的成品化。这些硬件里的助手能答题讲解、会议纪要等，都是特定垂直Agent的应用形式。

典型应用场景与用户：星辰Agent平台瞄准各行业开发智能助手的场景。例如：
- 金融：券商研发团队用其创建投资顾问Agent，结合公司研究报告库，给理财经理提供快速查询和个性化投资建议工具[96]。
- 制造：工厂IT部门定制设备巡检Agent，调度摄像头图像识别和历史数据分析模块，实现异常检测和报告生成[97]。
- 政务：政府集成咨询Agent，能从政策知识库检索并回答市民提问；或会议纪要Agent自动整理会议要点等。
- 教育：学校用平台开发智能助教系统，为教师批改作业、提供教学建议[96]。
- 医疗：医院IT用其构建导诊问答Agent，基于医学知识库回答患者常见问题，并指引挂号。

总体来说，行业开发者（AI工程师、系统集成商）是星辰Agent的主要用户，他们利用平台模块快速开发满足业务需求的Agent应用，再交由终端用户（比如客服人员、老师、理财顾问等）在工作中使用。这减少了每个企业从头训练模型的成本，用平台提供的模块即可组合出专属行业大模型智能体。

商业模式：讯飞采取To B授权/服务收费模式。星辰Agent平台本身不会免费开放给个人使用，而是作为企业级产品出售。可能的收费方式包括：平台授权费、每年订阅费，或者按构建Agent数量/并发用户等计价。讯飞也可能提供私有部署版本收取一次性费用+维护费。对于使用其云API（如星火模型API、语音听写API等）的Agent，按调用量收费。因为讯飞自身有丰富的政企客户基础，星辰Agent可以成为打包增值方案卖给已有客户（例如卖给某银行一个“AI大脑”解决方案，其中包含星辰Agent平台的使用权）。在开源方面，讯飞目前未开源星火模型，星辰Agent也是闭源商业软件。不过平台兼容开源模型，反而鼓励企业引入自己训练的开源模型，从而降低成本依赖[88]。这体现讯飞更灵活务实的策略：不强推自家模型，只要客户想用别的模型也支持，但通过提供整体平台服务来赢利。与完全开源的社区方案相比（如LangChain等），星辰Agent胜在本地化支持和一站式，企业或许愿意付费省事。这也是国内厂商典型商业路径：卖解决方案而非单算法模型。

代表性创业公司 AI Agent 进展

Cognosys – Personal AI Agents（通用自主研究代理）

产品定位：Cognosys 是一家成立于2023年的初创公司，定位于打造“最先进的个人AI助理”[98][99]。其核心产品就是名为 Cognosys AI 的智能体平台，让用户可以将繁琐的知识工作委派给AI代理去完成[100]。Cognosys 主打个人生产力提升，比起ChatGPT这类问答机器人，它更强调自主执行复杂Objective的能力[101]。有人称其为“科研版ChatGPT on steroids”，因为它尤其擅长自动化研究、信息汇总等任务[102]。2024年该公司被Cohere收购，体现出其Agent技术的竞争力。

主要功能：Cognosys可以接受一个复杂目标而非具体问题，然后自主完成目标所需的一系列子任务[101]。例如，用户下达指令：“调研北美可持续包装行业的市场现状和未来前景，并涵盖趋势、消费者偏好、监管挑战、主要企业和增长机会”，Cognosys会：1）自动在网上搜索相关信息；2）拆分成如“查询行业趋势”“调查消费者偏好”等子任务并行执行[103][104]；3）综合多来源资料编写一份深入的研究报告[105]。它不仅能回答问题，更能定期自动执行：例如每周自动发送市场动态报告，或监控收件箱每天汇总要点[106][107]。Cognosys还集成了邮件代理功能，可扫描用户邮箱总结邮件、分类标注，甚至根据邮件内容起草回复[108][109]。其工作流自动化支持定时任务（如每日8AM新闻简报）和事件触发（如新邮件到来触发自动处理）[110][109]。另外，它能连接多个常用应用：支持Google日历、Drive、Gmail、Notion、地图、Outlook等，这使它成为用户工作应用的中枢[111][112]。综合来说，Cognosys的功能聚焦在知识分析、自动文秘和个人信息管理等方面，让AI 24/7为用户打理信息繁杂的任务。

技术架构：Cognosys 的架构类似AutoGPT类自主Agent。其背后使用了强大的大型语言模型作为大脑（官方未明确，但推测早期用OpenAI GPT-4 API，后续可能用Cohere自己的模型）。它实现了网络检索（能够上网搜索多条查询[113]）、工具集成（连接第三方应用API如日历、邮件等[111]）、长期工作流（在后台持续运行并定期触发）。Cognosys有一套任务拆解和调度逻辑：接受目标后，LLM会产出一个任务列表，然后逐项执行，遇到需要信息时调用搜索工具查资料[113]。还有条件判断，根据中间结果决定下一步（这超出了简单对话模型的范畴）。在和用户应用对接方面，Cognosys通过OAuth连接谷歌服务等，使AI可以读取用户数据（在用户许可下）。为保障安全，敏感操作（如发邮件）通常需要用户确认发送。Cognosys 也实现了多步推理与规划（类似树搜索），提升了应对复杂任务的可靠度[114]。此外，它能输出结构化结果：例如生成PPT提纲或带图表的报告，让成果更易用。由于被Cohere收购，后续架构可能融合Cohere类ChatGPT功能并加强企业集成，但核心思想仍是Agent执行引擎 + 大模型智能 + 用户应用连接。

使用方式：Cognosys 以SaaS云服务形式提供。用户可以注册登录其网页应用（有免费试用），在仪表盘配置自己需要的Agent任务[115]。例如设置邮件摘要每天几点发来、设定每周报告主题等。也可以即时对话让其执行一次性任务。Cognosys 支持Webhook和API，高级用户可把它接入自己的工作流（如通过Zapier等）。目前Cognosys主要面向英语市场专业人士。移动端方面，似乎没有独立App，但网页在手机浏览器上可用。由于和Cohere合并，不排除未来Cognosys功能融入Cohere的AI工具包供企业通过API使用。

典型应用场景与用户：Cognosys 吸引的是忙碌的知识工作者、研究人员以及追求效率的职场人。例如：
- 投资分析师：用它每周自动收集行业新闻并生成简报，节省手动检索整理时间。
- 市场营销：让Agent监控社交媒体趋势，每天发一封包含竞品动态和用户反馈要点的邮件。
- 学术研究者：输入一个研究课题，Agent自动查找文献、列出关键观点并形成综述报告（附引用来源）。
- 高管助理/创业者：将日程管理、邮件分类、会议准备等交由Agent处理，自己只看结果汇总[116][117]。
- 客服/HR等事务性岗位：Agent阅读邮件并拟草回复节省大量重复劳动。

总的来说，那些信息过载、任务琐碎的人群可极大受益于Cognosys的自动化。而对技术爱好者，Cognosys则提供了体验未来自主AI的前沿机会，被视为AutoGPT在真实产品上的成功实践之一[99]。

商业模式：Cognosys 属于商业闭源产品。其官网提供订阅套餐：一般有免费基础版（限制任务数/用量）和付费专业版。具体价位未公开，但猜测按月收费数十美元级，或按Agent的运行耗时/调用次数计费。因为Agent调用外部API（如OpenAI或搜索）的成本不低，所以收费模式需要覆盖这些成本。Cognosys 被 Cohere 收购后，可能整合进Cohere的企业产品线，成为企业付费功能。Cohere偏向To B服务，未来Cognosys或将主攻企业知识助手市场，按席位或用量收费。开放性方面，Cognosys并未开源，也没有开放模型，只输出应用接口。因此，其竞争力在于用户体验和完成度而非社区贡献。Cognosys以先发优势聚拢了一批忠实用户[118]，口碑不错，这也是其价值所在。面对免费开源的AutoGPT变种，Cognosys选择强调可靠性和便利。总之，它走的是SaaS订阅路线，通过持续改进Agent能力留住付费用户，现被大公司收购也是寻求进一步商业化的举措。

Hugging Face – Transformers Agents 2.0（开源Agent框架）

产品定位：Hugging Face（简称HF）作为开源AI社区领军者，其在2023年发布了 Transformers Agents 框架，2024年升级到 2.0 版本[119]。与其他公司直接提供Agent应用不同，HF的定位是为开发者提供构建AI Agent的工具库。Transformers Agents旨在让任何人都可以用开源模型方便地创建具备工具调用和多步推理能力的Agent程序[120]。因此HF不针对终端用户，而是为AI研究者、工程师赋能，相当于Agent领域的“基础设施提供者”。这延续了HF一贯策略：构建开放平台，推动社区在这一领域的发展。

主要功能：Transformers Agents 2.0 引入了几类Agent模板和配套的工具接口，使得LLM能够借助工具完成复杂任务[121]。其功能特色包括：
- 多种 Agent 类型：2.0版本在原先简单单步Agent基础上，新增了两种可迭代执行的Agent[122]。即支持 ReAct（思考-行动-观察循环）模式的Agent，让LLM可以根据先前观察调整后续行动，从而逐步解决复杂任务[123]。具体实现上，有 ReactCodeAgent（以Python代码作为动作输出）和 ReactJsonAgent（以JSON格式决策）。还有简单版 CodeAgent（一次性输出整个解决方案代码）。通过这些模板，开发者可轻松选择合适Agent逻辑。
- 工具箱机制：HF Agents提供标准化的 Tool 类，开发者可将任意功能封装成工具（定义名字、描述、输入输出类型等），框架会自动将工具使用说明注入LLM提示，使模型“知道”可用的工具及用法[124]。内置了丰富的工具集，包括计算器、搜索引擎查询、数据库查询、图像生成/识别等等[125]。Agent可以动态调用工具执行，解决LLM本身不擅长的计算、逻辑或外部访问问题[121]。
- 易用与透明：框架注重简洁和模块化设计[126]。开发者可以很容易地查看Agent最终拼接的Prompt或每一步动作（提高调试可解释性）[127]。HF还提供了Agent共享功能，允许社区公开自己的Agent配置，其他人可直接复用[127]。
- Benchmark表现：Agents 2.0极大优化了性能，HF声称使用开源Llama-3 70B模型构建的Agent在一些基准（如GAIA）上超过了基于GPT-4的Agent系统[128]。这证明合理的Agent框架可以发挥开源模型潜力，与闭源大模型相抗衡。
- 示例场景：HF给出了一些示例用例，如自校正的RAG（检索增强生成）Agent，会自动验证检索结果并修正答案[129]；多Agent网页浏览Agent，可并行抓取多个网页提高搜索效率[129]。这些例子展示了框架可用于学术研究、数据处理等任务。

总的来说，HF Transformers Agents提供了标准组件来实现LLM+Tools模式，让开发者不用从零开始构建Agent逻辑就能拥有强大功能。这大大降低了实现定制AI助手的难度，也推动开源Agent系统在社区百花齐放。

技术架构：HF Agents 基于流行的 Transformers库，可以与HF模型Hub和Inference API无缝结合[125]。架构上，核心包括：
- Agent类：封装了与LLM交互和决策循环的逻辑。ReActAgent内部会反复执行“LLM产生Thought+Action，执行Action得到Observation，再反馈LLM”流程直到完成条件满足[123]。CodeAgent则一次性产出代码。
- LLM引擎抽象：HF将LLM（如GPT-4、Llama2等）视为可替换的引擎。提供了 HfAgent（调用HF Hub上的开源模型推理API）、LocalAgent（本地模型）和 OpenAIAgent（调用OpenAI API）三种实现[125]。这样无论是用本地模型还是云模型，都能以同样接口构建Agent[130]。
- Tool & Toolbox：Tool对象包含执行函数和元数据[124]。Toolbox则是工具集合，可以预先初始化好避免每次重建耗时[131]。Agent在运行时会读取Toolbox里的工具清单，构造提示。
- Prompt模板：框架内置了适合不同Agent类型的Prompt模板，引导LLM按照需要的格式输出（例如ReactAgent需要模型按 Thought/Action/Obs 格式对话）。HF花了很多精力优化这些prompt和解析逻辑，使模型输出易于解析。
- smolAI：值得一提，HF后来将Agents模块提取为独立的 smolagents 库[132]。smolagents更加轻量，但API类似，这体现HF希望Agent框架简洁独立，方便社区贡献和快速迭代。

通过上述架构，HF Agents实现了LLM与外界环境交互的一套标准方案。它没有追求复杂的调度器或多Agent交互（社区可自行扩展），而是提供基础积木，让开发者按需求搭建自己的智能体系统。得益于HF生态，开发者可方便地选用各种模型（包括开源或第三方闭源）作为Agent大脑，拥有极大灵活性。

使用方式：Transformers Agents 是一个开源Python库。开发者只需安装最新版本的 transformers（或 smolagents），就能使用Agents API。在Python中编写几行代码即可：选择Agent类型，构建工具列表（可以使用HF提供的现成工具，也可自定义），然后调用 agent.run(query) 来执行[133]。HF文档也提供了笔记本实例和教程[134]，非常易于上手。对于不想自己动手的，HF Spaces上也有社区分享的Agent可以直接体验，或通过HF提供的 Web UI 交互。HF的目标之一是通过Benchmark促进Agent发展，如搭建了 GAIA挑战榜，鼓励大家用开源Agent挑战复杂任务。由于框架完全开源且Apache许可，企业也可安心使用定制自己的Agent应用而无版权顾虑。HF本身不提供商业云Agent服务，但其Inference Endpoint可以托管模型用于Agent调用，HF可能从中赚取API费用。

典型应用场景与用户：HF Agent框架的直接用户是AI工程师和研究人员。他们会用它来：
- 快速实验 Agent 想法，如学术论文验证某种multi-tool agent效果，就用HF框架实现[135]。
- 将Agent集成进应用：如某开发者想给自己的网站加上聊天客服Agent，使用HF框架+自选模型+内置知识库，就能较快实现。
- 教学和入门：AI课程会使用HF Agents演示何为Agentic AI，让学生通过修改工具或prompt理解Agent行为[136]。
- 社区创新：很多个人用HF框架造出有趣Agent，如结合语音识别+家庭自动化的语音助理，或游戏中的NPC Agent等，然后在GitHub上分享。

对于最终用户来说，他们不会直接使用HF框架，但会间接受益于使用该框架开发的应用。例如，有人用HF Agents构建了一个Excel助手，可以理解自然语言编辑表格；有人构建了浏览器插件Agent自动执行网页任务等。这些产品面向普通用户，而HF框架作为幕后功臣加速了这些Agent创意落地。可以说，HF通过服务开发者，赋能了无数垂直微创新Agent。

商业模式：Hugging Face坚持开源社区驱动，Transformers Agents本身不收费，不闭源。这与OpenAI、Anthropic形成鲜明对比，也与国内许多Agent平台闭源不同。HF的商业利益来自其Hub和付费服务：更多人用HF框架，就会有更多模型部署需求和更多流量到HF Hub，HF可通过企业订阅（如模型托管、团队协作空间等）赚钱。因此HF策略是以开源占领标准。目前Agent框架方面，LangChain等也很流行，但HF Agents作为transformers官方方案，有模型接口和社区支持的优势。HF还通过组织竞赛、发布榜单等方式提升其Agent框架影响力，从而吸引可能的企业客户选型时采用HF方案。简而言之，HF在Agent赛道扮演的是“AI应用的GitHub”角色，不直接向终端用户收钱，而是通过服务开发者生态获取价值（提供API算力、Pro账户等）。这种模式在开源圈比较长远稳健。HF Agents的出现也让开源社区在Agent技术上不至于落后商业巨头，是AI开源对抗闭源的重要一步[57]。

Reka – Reka Nexus（多模态企业AI劳动力）

产品定位：Reka 是一家由前DeepMind和Meta研究员创立的AI公司，定位于开发业界领先的多模态模型和应用[137]。2025年3月，Reka发布了Reka Nexus平台，标榜为“AI劳动力”（AI Workforce）平台[138]。Nexus允许企业创建和管理多个AI Worker（AI数字员工），以自动化工作流程、提升运营效率[138]。这实际上是一种通用AI Agent的企业级实现——每个AI Worker就是一个定制的Agent，可以胜任特定工作角色。Reka强调 Nexus 是“未来工作方式”，让人类和AI协同，AI承担繁琐低效任务，人类专注更有价值的部分[139]。因此Reka Nexus面向企业（尤其是中大型企业）提供可部署的通用Agent解决方案。同时，Reka构建自己的多模态基础模型作为核心竞争力。

主要功能：Reka Nexus的主要功能在于快速生成和部署企业AI Worker，这些Worker可视为特定职能的垂直智能体。功能点包括：
- 自定义AI员工：企业可按照任务类型配置不同AI Worker，如“市场调研员”“财务分析师”“客服助理”等[139]。每个Worker可以专精不同任务，比如能进行深入主题研究、处理发票单据、生成销售线索等[139]。
- 自动化工作流：Nexus中的AI Worker能够串联多个步骤完成工作流程。例如，Research类Worker会自动搜索内部知识库和网络资料，整理调研报告；Ops类Worker可以查询数据库、执行代码脚本来完成业务流程[140]。
- 数据接入：AI Worker原生支持访问企业内部文档、数据库等数据源（有权限控制），还能浏览外部网页查找信息[140]。这一点类似“连接外脑”，确保Agent有足够知识完成任务。
- 工具使用：Worker可以写代码并执行（Reka提供了安全的代码运行环境）[140]。这意味着Agent不但能提出方案，还能直接用代码实现部分任务（如数据清洗、生成可视化图表等）。
- 多模态处理：得益于Reka自研模型是多模态的，Nexus Worker可以分析PDF文档、图像、视频、音频等各种数据[140]。例如读取扫描的发票图片提取信息，或从一段客户服务电话录音中归纳问题。这让Agent应用范围超越纯文本领域。
- 透明的推理过程：Reka强调其模型经特殊训练，可以输出可解释的思考过程和执行轨迹[141]。Nexus的Worker在工作时，会产生人类可读的执行日志，让企业审计和调优更容易[141]。这在需要合规性的行业（金融、法律）特别重要。
- 性能领先：Reka宣称其21B参数的Flash模型在很多任务上达到业界领先水平[142]。尤其在代码能力和Agent任务方面超越同规模模型（对标Anthropic等）[143]。这保证了Nexus Worker有强大智能。

综上，Reka Nexus提供的是企业AI员工的全套能力：理解任务→获取所需信息（内部+外部）→执行所需操作（思考/计算/编码）→产出成果，并可处理多种数据格式。对于企业来说，它就像雇佣了一批 tireless AI实习生，可以24/7并行处理许多工作。

技术架构：Reka在技术上非常强调自研多模态基础模型。其模型系列包括 Reka Core 67B、Flash 21B、Edge 7B、Spark 2B，它们从零开始在文本、代码、图像、视频、音频的混合数据上训练，采用新颖的多模态架构[144][145]。Flash 21B是Nexus的核心推理引擎，支持在设备、本地或云上部署（有量化技术便于本地化）[146]。模型经过强化学习（含基于规则和模型的奖励）专门优化了透明中间步骤输出[141]。
Nexus系统本身采用主-副Agent模式：当用户提出一个复杂请求时，Nexus会启动一个Lead AI Worker分析任务，规划子任务，并派生多个Sub-worker并行处理不同部分[39][35]（此思路与Anthropic多Agent类似）。Lead Worker汇总sub结果后，再产出最终交付物[35]。为了实现这一点，Reka在Nexus中构建了Orchestrator组件，管理Agent的创建、通讯和销毁。
在工具和数据接入上，Nexus提供连接器：可连接企业的数据库、API服务，以及Open Web。Agent通过调用这些连接器来获取信息或执行操作。例如，对接Salesforce API让Agent直接读取CRM数据。
部署架构上，Reka Nexus可以本地部署在企业服务器，以满足数据安全需求[147]。其模型Flash可在本地GPU上运行（21B参数经过优化可以在单机甚至高端设备上部署）。也可云端部署由Reka托管。
安全方面，Reka通过规则约束和权限设定来防止AI Worker误操作关键系统。例如AI下单、转账等敏感行为需要人工审核。此外，引入CitationAgent为输出内容添加来源引用[38]避免不实信息。
总之，Reka构建的是模型+平台一体化架构：靠强模型能力减少依赖外部API，靠平台协调保证Agent流程可靠、高效并可审计。

使用方式：Reka Nexus主要通过企业签约提供服务。企业可联系Reka获取 Nexus 平台的部署或云接入。Reka网站提供了 Playground（试玩场）[148]和 API接口[149]，感兴趣的开发者可以试用Reka Flash模型的问答、推理性能[150]。但完整的Nexus AI Workforce需要购买。Reka提到Nexus支持在本地或云各种环境部署[146]，因此可能有软件许可或私有云安装模式售卖。对于没有AI开发团队的企业，Reka预计提供端到端解决方案：派专家帮助配置适合该企业的AI Worker角色，训练必要的专用技能，集成数据源，然后交付使用。后续企业用户（员工）通过一个Dashboard界面管理和调用AI Worker。例如一个经理可以在Nexus界面分配某AI员工去做市场分析，然后在完成后收到报告。Nexus也可以对接Slack、Teams等，让员工用熟悉的聊天工具调遣AI Worker完成任务（这点类似Slack中用/Claude命令）。随着产品成熟，Reka可能开发简单编排UI，让企业用户自己配置AI Worker。然而目前要发挥Nexus威力，多半需要Reka参与定制。

典型应用场景与用户：Reka Nexus聚焦中大型企业，特别是那些重复性知识工作多、内部知识库庞大的组织。例如：
- 咨询公司：有大量行业报告、案例知识。Nexus可部署几个AI分析师，每当顾问需要调研新客户所在行业，AI可以快速搜集资料、编写初步报告。
- 金融机构：投资银行让AI助手处理财报分析，法遵部门让AI扫描合规文件找出要点异常。AI Worker还能作为数据管家，每晚自动生成各交易部门的风险摘要。
- 电商运营：AI Worker自动处理供应商发票（OCR识别发票PDF内容填入系统）[140]；或每周汇总用户反馈生成改进建议。
- 人力资源：AI Worker从招聘网站筛选候选人信息，或入职培训助手回答新员工问题。
- IT运维：AI Worker监控日志，发现异常时执行诊断脚本甚至尝试自动修复（低风险动作），提高系统可靠性。

总的来说，Nexus最适合跨部门、跨数据源的复杂任务，以及需要处理多模态数据（文字、表格、图像等混合）的任务，这正是人工员工费时之处。使用AI Worker可显著节省成本并减少人为错误。典型用户是企业管理层（希望降本增效）和数据密集部门（痛点明显）。员工个人可能也喜欢AI Worker分担基础工作，但高层买单动力更强。

商业模式：Reka采用企业付费授权模式。其收入来源包括：
- 软件许可/订阅：Nexus平台按年订阅、按用户规模或AI Worker数量收费。考虑到其客户多为大企业，合同额可能相当可观。
- 模型授权：Reka的自研模型Flash、Core等可能单独授权费用。如果企业只想用模型自己开发Agent，也许可以付费获得模型权重或推理服务。
- 专业服务：为企业做定制开发和集成的咨询服务费。很多传统大厂销售AI方案时都会收服务费。
- 云服务：如果客户使用Reka云平台托管AI Worker，则按用量（调用次数、Token数等）收费，类似OpenAI API商业模式，但按Agent服务计价。

Reka已获得Nvidia、Snowflake等巨头投资，估值达10亿美元[151]。这意味着其商业上非常被看好。Reka的差异化在于多模态自有模型和允许本地部署，所以能打入那些对数据敏感又需要强AI的客户。这区别于OpenAI仅云服务。Reka还选择了部分开放，如发布技术报告和一些模型测试版，让社区了解其技术进展[152]。但核心模型和平台是闭源的。总之，Reka采取高端B2B路线，卖的不是通用模型API而是解决方案，单客户价值高。它和Anthropic有点类似，但更强调多模态和本地私有部署，这在高度重视数据主权的市场（欧洲、亚洲一些企业）有吸引力。

Lamini – LLM Engine for Vertical Agents（企业大模型定制平台）

产品定位：Lamini 是硅谷一家专注于 定制大模型 的初创公司，号称提供“Large Language Model Engine”来让开发者以最小代价训练和部署专用LLM。Lamini 不直接推出终端Agent应用，而是帮助企业和开发者构建垂直领域的大模型及Agent。可将其视作AI Agent背后的训练调优平台：当通用模型不满足特定业务时，利用Lamini可以快速fine-tune出高准确率的垂直模型，并嵌入Agent应用减少幻觉。其宣传语中提到“让AI具备专家知识和记忆”，可见Lamini致力于打造有领域精度和长期记忆的智能体[153]。因此Lamni定位于To B的AI模型基础设施，服务那些需要定制Agent的企业，特别在需要高知识可靠性的场景。

主要功能：Lamini 平台提供一系列功能来提升垂直LLM性能，这些也正是构建垂直Agent的关键：
- 模型微调：Lamini允许用户用行业专属数据快速微调开源基础模型，以获得领域专家级的LLM[154]。它声称只需3行代码就能fine-tune一个模型[155]。比如给定一批法律文档问答，就能训练出懂法律的Agent模型。微调过程在Lamini优化的分布式架构上进行，对硬件要求相对低。
- Memory Tuning（记忆调校）：这是Lamini的独门技术，用于将事实性知识嵌入模型，提升准确率，减少幻觉[156]。通过这种记忆微调，模型可以像拥有领域“摄影式记忆”一样精准回忆信息[153]。据报道可将幻觉减少90%，正确率提升到95%[157]。这对Agent非常重要，因为垂直Agent必须给出可靠答案。Memory Tuning本质上是用结构化知识库数据训练，使模型内建知识，优于简单RAG检索。
- 多模态与工具：Lamini平台也支持多模态输入（若底模支持）和代码执行等。比如配合Meta Llama，可用Lamini训练能执行特定函数的Agent。虽然Lamni没有自己工具库，但它能与LangChain等结合，让微调后的模型用于Agent框架。
- 高性能部署：Lamini优化了在多节点GPU集群上的模型运行，特别对AMD GPU支持良好[158]。这为企业在自有基础设施上部署Agent降低门槛。Lamini甚至有“LLM pods”概念，预封装了最佳实践的推理服务器[159]。企业可在其私有云快速上线微调模型并通过API给Agent使用。
- 评估套件：Lamini推出了Photographic Memory Benchmarks，用各行业任务测试模型记忆精度[160]。这帮助用户衡量自定义Agent模型是否达到可用标准。Lamni还提供日志分析等，让开发者监控模型输出，迭代改进。
- 示例和教程：为了降低使用门槛，Lamini提供示例如“如何把LLM微调成准确的SQL查询Agent”[161]。deeplearning.ai课程也把Lamini用于Agent实现教学[162]。这些资源帮助开发者更快掌握构建垂直Agent的方法论。

概括来说，Lamini的功能面向让模型适配特定场景：通过微调赋予模型领域知识和指令遵循习惯，并在推理阶段结合Memory和工具，使Agent输出既正确又实用。它不像ChatGPT那样通用回答，而是帮助造出各行各业可靠的“专家AI”。

技术架构：Lamini架构分训练和推理两部分：
- 训练管线：支持主流开源模型（如Llama、GPT-J等）作为基模型，通过参数高效微调方法（可能使用LoRA、QLoRA等）在用户提供的数据上训练。训练过程封装在Lamini云上，用户只需上传数据并配置目标，剩下由Lamini调度集群完成[56]。Memory Tuning的技术类似Mixture of Memory Experts[163]，推测是对模型局部层进行知识定制，以embedding形式存储事实。Lamni还会自动超参数搜索和早停等，确保得到较好模型。
- 推理与应用：训练好的模型可以托管在Lamini的Inference Server上，用户通过API调用。这个推理服务器有Memory模块，可以将模型按需挂载外部知识库实现RAG融合，也可以固定使用Memory tuned内容。Lamini的文档也展示了如何结合工具：如通过输出结构化格式，让模型执行某些函数[164]。Lamni自身不提供LangChain那样的agent loop，但能与之配合。架构的核心是保证模型有效性：Lamni自己也提供 like JSON output enforcement[164]，可降低模型自由生成带来的不可控性，这对Agent调用API非常有用（JSON结构可直接解析执行）。
- 扩展性：Lamini的引擎对多GPU很友好，甚至多机多卡，以便大模型调优和部署[158]。这使得企业可以在现有算力上用Lamni跑比原先更大的模型或更快。Lamni还专门优化了在AMD GPU上的性能[158]（这填补Nvidia之外的空白）。

总之，Lamni架构围绕模型定制展开，没有单独的Agent runtime，但却是让别人的Agent更聪明的“隐形支柱”。通过Lamni，可以在自有领域打造一个Claude或ChatGPT替代品，然后再embedding到工作流中。

使用方式：Lamini 提供云平台和Python SDK两种使用方式。开发者可以在Lamni网站申请账号，然后：
1. 上传/导入自己的训练数据集（比如产品FAQ问答对、知识库文章等）。
2. 在控制台选择预训练模型基底，设置训练参数，然后启动微调任务。
3. 训练完成后，通过SDK加载这个模型，或直接在Lamni云通过API调用。

Lamni也支持本地部署选项，企业可购买其软件在本地训练，但大部分中小企业会用其云服务。Lamni Python SDK使开发者可在熟悉环境（如Jupyter Notebook）使用Lamni功能，比如 lamini.train(model, data) 这样简单调用。很多教程在Medium和GitHub上说明了如何用Lamni微调，包括将输出格式设定为SQL查询Agent这种案例[161]。Lamni的Memory Tuning等高级功能也通过SDK打开相应开关即可使用。

完成模型定制后，开发者一般会将Lamni模型集成进自己的Agent应用（web服务、聊天机器人等）。Lamni支持与LangChain集成，LangChain官网也提到如何用Lamni fine-tune模型作为LLM Source。这意味着开发者可以用Lamni获得模型，然后用LangChain做agent orchestration+工具调用，二者结合打造垂直Agent。Lamni也兼容Bedrock等第三方平台[165]，方便AWS上的应用访问Lamni模型。

典型应用场景与用户：Lamni的用户主要是需要专属大模型的企业和开发团队。例如：
- 电商：训练模型熟悉自家商品和客户问答，再做客服Agent，回答准确率大幅提升。Lamni Memory Tuning将商品库嵌入模型，让AI几乎不出错地给产品咨询答复[166]。
- 医疗：用医学资料fine-tune模型，开发医疗问询Agent，提供患者咨询时能引用专业知识且少犯错。普通大模型在医疗上幻觉多，Lamni让它变得可信。
- 金融：训练模型掌握公司内的策略文件和法规，然后用它作为投研助手或风险合规Agent，确保回答符合公司政策。
- 软件开发：Lamni帮助fine-tune模型具有代码库上下文记忆，用于AI pair programmer。相比OpenAI默认模型只凭通识，Lamni微调后AI能记住项目特定库和风格（如Accuracy达95%）[157]。
- 政府法务：微调模型存储法律条文和案例，实现法律问答Agent，为工作人员提供精确依据。

这些场景共同点是需要高准确性和领域知识，Lamni通过embedding知识直接进模型而非每次查找，大大提高了Agent出错成本高场合下的可靠度。Lamni的客户多数会是AI工程团队，他们已经有要构建Agent的大致框架，只是模型效果不够好，于是借助Lamni来加强模型部分。对于小公司或个人开发者，Lamni降低了训练复杂模型的门槛，因此不少AI爱好者也用其做项目（如Kaggle比赛选手用Lamni fine-tune模型提精度）。

商业模式：Lamni属于企业软件+云服务模式。其收费分为：
- 云平台订阅/按量：使用Lamni云训练和推理需要付费，包括算力使用和软件服务费。可能按GPU小时或者每1K token训练价计费。Memory Tuning等可能是高级功能需更高套餐。Lamni likely提供免费试用额度，然后按照用量收费（类似AWS SageMaker)。
- 企业许可证：大型客户可购买Lamni Enterprise，在自己硬件上跑无限制训练。这种license费用较高，但对要求数据不出内网的客户有吸引力。
- 支持服务：Lamni团队可以提供专家支持协助fine-tune，或者定制优化某模型，这部分咨询服务收费。
- 合作收益：Lamni和一些硬件厂商（AMD）合作，可能有市场合作收益；或者和模型提供方（Meta等）合作推广，在生态中分成。

Lamni的开源程度：其平台本身闭源，但所用开源模型遵守原License（如Llama2需商业许可）。Lamni旨在把开源和闭源世界连接：利用开源模型实现私有部署Agent效果，同时提供比闭源OpenAI更高的定制自由度。这对很多担心被OpenAI锁定的企业是福音[57]。Lamni目前融资情况未知，但创始人 Sharon Zhou 是斯坦福出身，社区人脉不错，这家公司走的是技术领先+企业合作路线而非消费者市场。其成功与否取决于能否持续让模型调优效果领先行业和易用性最好。如果可以，Lamni将成为AI Agent背后不可或缺的一环，以卖铲子方式在这波Agent热潮中获利。

Moonshot – Kimi Agents (Kimi-Chat & Kimi-Researcher)（开源大模型与自主Agent）

产品定位：Moonshot AI 是中国北京的一家明星初创，被誉为中国“AI四小龙”之一[167]。其核心产品是 Kimi 大语言模型及相关AI Agent应用。Moonshot在2024年推出了Kimi聊天机器人，积累了大量用户，以超长文本分析和智能搜索见长[168]。2025年7月，Moonshot发布了新一代开源大模型Kimi K2，重点增强了代码能力和Agent任务能力[143]。Kimi K2被称为全球首个面向通用智能体优化的模型之一，擅长复杂任务拆解和工具整合[143]。此外，Moonshot推出了Kimi-Researcher等自主Agent功能（类似AutoGPT），用于学术研究等多步检索场景[169]。Moonshot的定位一方面是提供开源大模型重夺国内市场话语权，另一方面直接提供可落地的Agent产品（Kimi系列）给终端用户，形成模型-应用闭环。

主要功能：Moonshot的Kimi智能体生态包括：
- Kimi Chat：这是对标ChatGPT的通用对话AI，能够聊天问答、写作创意、翻译和简单编程等。其特点是长文档分析能力出色，用户可以粘贴很长文本让它总结或提炼（得益于Kimi模型上下文长）[168]。它还内置AI搜索功能，可以访问互联网获取实时信息回答问题，这在2024年吸引了很多用户。Kimi Chat本质上是一个增强版LLM聊天机器人。
- Kimi Researcher：2025年推出的自主Agent，用于多文献综述、复杂信息查询等任务。用户给出一个研究主题，Kimi Researcher会自动检索多个来源，在后台并行爬取和阅读相关资料，然后整理成报告或答案[169]。它能自主决定搜索关键词、点击哪些结果，直到搜集充分信息。这个Agent能在无人介入下工作相当长时间，最后产出带引用的研究汇报，极大简化了用户的调研工作。
- Kimi Coder（推测）：基于Kimi K2模型在编程方面表现强，Moonshot的应用可能包含编程助手功能，可以理解代码问题、多文件调试等。虽然未明确推出独立Kimi Coder产品，但Kimi Chat内已有相当的coding支持，未来或许细分出专门面向代码的Agent。
- 垂直Agent应用：Moonshot也探索垂直场景，如与游戏公司合作开发游戏NPC智能体[170]，赋予游戏角色更智能的对话和情感。这类Agent通常用Kimi模型做基础，加上一些定制调校。
- 工具插件：Kimi模型具备调用工具的能力，Moonshot可能提供一些内置插件（如计算器、数据库查询等）以扩展其Agent应用的功能。这未公开详细，但Kimi K2明确定义上强调工具整合能力[143]。

总体来说，Moonshot提供的是从模型到应用的完整链条：Kimi大模型→Kimi通用聊天Agent→Kimi自主任务Agent，覆盖了聊天问答到全自动执行。特别Kimi-Researcher之类的Agent，将LLM的行动半径扩展到整个互联网和更复杂任务，代表了Moonshot在Agent赛道的雄心。

技术架构：Moonshot的技术核心是 Kimi系列大模型。Kimi K2 采用Mixture-of-Experts (MoE) 架构，拥有 32个专家，激活参数32B，总参数1万亿[171]。MoE让模型在处理不同任务时调用不同子模型，从而提升各项能力而保证推理成本。Kimi K2 专门强化了代码和Agent能力[143]，这可能通过预训练更多代码数据以及加入Reinforcement Learning训练模型学会ReAct式推理。它在一些评测如编码HumanEval上达到领先[172]。Moonshot将 Kimi K2 开源（可能采用Apache协议），鼓励开发者使用和改进[57]。
在Agent方面，Kimi-Researcher架构应该类似之前AutoGPT类项目：一个主循环，模型根据目标产生下一步行动（搜索/阅读/写出结论等），执行后观察结果，再决定下步[35]。Moonshot可能开发了自己的Agent执行器，让Kimi模型可以控制浏览器进行搜索和点击，实现自主网页浏览。这需要解决网页内容提取和多轮交互，应该在Kimi模型prompt中融入固定格式（如Chrome插件API）。Kimi Chat里整合的AI搜索功能就是简化版的Agent：用户问题->Kimi提出搜索query->抓取结果->模型基于结果回答。
Moonshot的架构特色还有超长上下文支持，Kimi模型擅长处理长文本[168]。推测Moonshot有实现检索+动态上下文扩充的系统，把相关文档embedding后引入模型输入，使其有效掌握更多信息。
另外，Moonshot注重开源生态：Kimi K2开源可以由社区在不同环境运行，Moonshot自己也会发布GitHub项目（如Kimi K2推理代码、模型权重）。这提升了架构透明度和社区合作度。
安全上，Moonshot由于用户基础大，也会做内容审核和防止模型输出违规。过去一年，其模型经历了国内法规考验，应该内置了违禁内容过滤词典和惩罚机制，Agent执行网络操作时也限制某些行为。
综上，Moonshot架构=强大自研模型+Agent工具链+开源开放，是在保证本土合规前提下，尽量与国际前沿对齐甚至赶超。

使用方式：Moonshot的Kimi聊天应用最初通过微信公众号和网页供用户使用（免费）。后来推出独立App或小程序，8月时Kimi月活用户曾排名第三[173]。用户可以像用ChatGPT一样，与Kimi Chat交流对话。对于Kimi Researcher，暂不清楚是独立入口还是整合在Kimi Chat中以命令触发。可能存在Kimi PC客户端，提供更复杂功能界面让用户配置研究课题等。
Moonshot也与阿里合作，将Kimi模型通过阿里云千问团队提供给开发者使用[48]。Kimi K2模型权重开源，开发者可以在huggingface等下载，用于本地部署或在自家产品中集成。这对想构建Agent的公司来说很有吸引力，因为Kimi K2据称性能很强还免费[174]。
普通用户目前仍可免费使用Kimi系列，但Moonshot也面临成本压力（模型大且要联网搜索）。他们可能采取会员订阅或者知识商店等方式探索盈利。例如一定高级功能（长文本分析、批量处理）要付费开通。
因Moonshot在国内有政府支持，App使用需要实名认证，这对使用一些Agent功能（如上网）也是一种约束和记录机制。
总之，普通用户通过Moonshot自己的产品体验AI Agent，而专业用户/企业则通过开源模型+云合作的形式获取Agent能力。

典型应用场景与用户：Moonshot服务的主要是中文互联网用户，包括个人和专业人士。常见用例：
- 一般用户把Kimi当聊天助手用，问各种问题、写段子、翻译、互动娱乐等。Kimi Chat中文能力强，开放早，吸引了大批AI爱好者。
- 媒体和自媒体人用Kimi整理资料、生成内容，尤其Kimi Researcher可以快速从网上汇总资料写稿，这对内容创作者很实用（注意需要核对真实性）。
- 开发者社区对Kimi的编程支持感兴趣，测试发现Kimi K2在代码方面接近GPT-4水平[172]。一些人用Kimi模型嵌入IDE做本地编程助手。
- 企业用户试水：一些创业公司或行业客户可能用Kimi模型fine-tune做自己的Agent，因为Kimi开源可以商业用（如果许可允许）。在模型能力和开源属性之间，Kimi提供了权衡解。

Moonshot的Kimi-Researcher定位很有特色，面向科研和分析工作者。比如学者让它做文献综述，记者让它调研某话题资料。这些专业用户需要快速浏览大量信息，而Agent非常契合。他们可能成为Kimi付费用户的主要群体，因为这样高级功能别家少见。

商业模式：Moonshot目前走的是开源+用户增长路径。Kimi K2开源以扩大开发者影响力，也帮助其模型成为国家支持的开源范例[57]。另一方面，Kimi应用曾拥有相当用户量，但2025年有所下滑[175]，Moonshot开源也是为重新提振热度和社区参与。
盈利方面，可能有：
- 企业合作：Moonshot已获阿里投资[176]，可通过与大厂合作定制模型或卖技术授权盈利。比如为阿里、腾讯等提供模型，收取费用（实际上Kimi K2开源后，Moonshot更可能靠服务费）。
- 增值功能收费：对个人用户，基础聊天免费，高级Agent功能收费。也许未来Kimi Researcher按次收费或订阅解锁。
- 政府/科研项目：Moonshot可能获得政府基金支持开源，这虽非商业收入但支撑运维。
- 社区赞助：开源模型如果影响大，可引来行业赞助或后续融资。

目前Moonshot最大的价值在于其技术实力和影响力，商业化才刚开始。开源Kimi K2实际上放弃了直接卖模型的机会，但换来了战略地位——有了来自社区的改进和推广，对抗OpenAI等。在Agent方面，如果Kimi Agent体验好，也能像ChatGPT那样推出Pro会员盈利。但考虑监管和竞争，Moonshot面临挑战。证券时报评论认为，最终可能“大模型厂商吃掉90%的Agents”[177]。Moonshot作为模型厂商，开源拉拢社区后，也许希望在这90%中占一席之地，不被大厂碾压[178]。未来要看Moonshot能否找到稳定的营收模式来支持其开源和应用两条线共同发展。

MiniMax – ABAB大模型 & 全能任务管家Agent（通用+多模态AI）

产品定位：MiniMax（稀宇科技）是中国上海的一家AI独角兽公司，凭借ABAB系列超大模型和全栈式智能体技术备受瞩目[179]。其目标是构建通用人工智能助手，成为用户的“全能AI任务管家”[180][18]。MiniMax的特色在于自研的万亿参数MoE大模型ABAB，以及围绕模型打造的一整套Agent能力：包括多智能体协作、超长上下文、多模态交互、自动应用生成等[181][182]。他们既有C端产品形态（如海螺AI助手、视频Agent），也服务开发者（开放模型API、Agent平台）。MiniMax志向不仅聊天对答，而是全面接管用户繁琐任务、自主完成需求，立足成为中国版的“超级AI”。

主要功能：MiniMax的Agent功能极其丰富，不止聊天：
- 海螺AI：据报道，MiniMax推出了一款名为“海螺AI”的生产力应用[183]。它整合MiniMax Agent能力，可理解自然语言指令，自动调用多智能体和工具来完成复杂任务一键交付。例如，用户说“下周去青岛出差三天，预算3000，订海景房机酒，列出特色小吃加地图，还做3页PPT思路给客户”，海螺AI几分钟内就输出航班比价、酒店链接、美食地图和PPT大纲[18]。这个应用实际就是MiniMax Agent能力的封装演示，体现出其“一人一句话，AI全包办”的愿景。
- MiniMax Agent开发平台：MiniMax也提供了开发环境，让用户/开发者生成完整Web/应用。其官方博客提到全栈开发Agent功能：一句话描述，Agent能自动写前端后端代码，部署一个可用的网页应用[184]。例如“帮我实现一个网页版钢琴，可以键盘弹奏”，Agent会自己写HTML/CSS/JS并打包成index.html交付[185]。这类似于软件开发智能体，将自然语言需求直接变成成品程序。
- 多模态内容创作：MiniMax Agent可以理解和生成文本、图像、音频、视频等多模态内容。测试中，它能根据提示写儿童绘本故事并生成插画描述[84]；还能生成短视频脚本并试着产出音频/视频（通过调用内部TTS和视频生成模型）[85][186]。虽然视频质量尚待提高，但它已初步具备了跨模态创意的流水线能力。
- 代码生成与调试：MiniMax Agent在代码方面表现出色。其ABAB-6.5模型支持32k以上长代码上下文[187]。测试示例中，它根据任务要求生成了完整的“打地鼠”网页游戏代码（包括HTML/JS，30秒倒计时等逻辑）[185]。说明Agent可执行复杂编程任务，在前端游戏、算法脚本等都有较好结果。
- 多工具协同：Agent具备多智能体协作和多工具调用的能力[188][189]（MiniMax也是MCP框架积极参与者）。比如处理文档数据时，它会调用上传工具把数据放到飞书文档，再调用表格分析工具整理格式[190]。它还能通过浏览器插件进行Web操作，类似OpenAI的Operator。
- 超长记忆：MiniMax自称Agent支持400万Token上下文窗口[191]——这个概念非常惊人，意味着可持续交互非常长内容不遗忘[191]。实现上，他们或使用外部记忆库分段检索，使Agent拥有“近似无限”的对话记忆。这让Agent可贯穿多个任务、长期陪伴，真正成为个人助手而非短时聊天工具。

技术架构：MiniMax技术上有两大支柱：ABAB大模型和MCP智能体框架。
- ABAB模型：MiniMax宣布的最新是 ABAB-6.5系列，包含6.5和6.5s两个模型[179]。其中6.5为万亿参数MoE模型，6.5s为精简版（参数规模未明）。ABAB-6.5 支持200k Token上下文[181]和先进的架构（上一代ABAB-7已实现线性Attention和MoE[192]）。推测6.5在此基础上进一步优化。MoE架构使模型能兼顾多能力，线性Attention则降低长上下文计算量。结合32k-200k上下文训练，造就ABAB模型处理长对话和复杂推理的独特优势[181]。据一财报道，ABAB-6.5对标GPT-4水准，在知识、推理、数学、编程等维度非常强[183]。
- 智能体架构：MiniMax构建了自己的一套Agent中枢，汇集多Agent和多工具[182]。它将多模态和任务流程结合：Agent不仅能感知文本、图像、语音，还能理解跨模态的任务流（如输入草图+文本需求→输出代码）[193]。这个架构像一个经验丰富的项目经理，可以自主规划、拆解任务，分配给不同子Agent或工具，然后检查整合结果[2]。例如在网页游戏例子中，一个子Agent负责前端UI，一个负责游戏逻辑，最后整合成文件。MiniMax官方将其几项前沿技术“捏合成拳头”给用户痛点[194]。由此可见，他们通过节点网络编排多Agent协作，每个Agent可能是ABAB模型的一个角色实例，专攻某类子任务。
- 插件和MCP：MiniMax积极构建插件生态，其Agent内置了上万种插件节点[71]。涵盖图像处理、文本搜索、数据分析、地图定位等等[71]。在Agent执行时，如果发现需要某功能，就调用相应插件节点。MCP模块化让Agent灵活扩展能力。例如当Agent需要上网，它就用浏览器插件；需要算表格，就调Excel插件。开放生态也让其他厂商工具（飞书、钉钉等）能接入Agent统一调度[195]。
- 记忆库：400万Token上下文显然不能真在Transformer中处理，MiniMax应该实现了外部记忆系统。可能使用向量数据库存储对话历史和用户提供信息，Agent通过检索调用历史片段，而非真把几百万Token塞入模型。这类似Chroma+LangChain的Memory，但MiniMax可能定制优化，使其无缝融入Agent对话而不露痕迹（用户感觉就是AI记得几乎所有事）。
- 安全：MiniMaxAgent具备执行操作如下单买票、发邮件等能力，为安全其加入用户确认和权限机制[13]（大多Agent都有类似设计）。同时，在模型训练时对有害指令做了避答调教，以符合中国政策。

使用方式：MiniMax目前提供多种方式：
- 面向个人用户：海螺AI等应用可能通过移动App或H5页面提供，让用户用对话形式提交任务得到整合结果。MiniMax暂未对公众完全开放全部Agent能力（估计内测阶段），因为能力太强也带来风险。但已有媒体深度测评表明其功能确实实现[18]。当准备成熟，MiniMax可能推出统一的超级App或接入微信/钉钉，让大众体验一站式AI助理。
- 开发者：MiniMax开放了ABAB大模型API，开发者可以申请使用，轻松上手各大模型[196]。还可能开放Agent API，例如通过自然语言直接调用Agent执行任务的HTTP接口。也有低代码平台界面帮助用户搭建自己的Agent技能[184]。
- 企业：MiniMax可以提供私有部署，让企业在内部使用ABAB模型和Agent能力（以SDK或容器形式）。此外，MiniMax推出了垂直行业方案，如Hailuo Video Agent用于视频创作[197]。企业客户可以购买这些Agent服务（比如媒体公司用视频Agent批量生成短视频）。
- 社区互动：MiniMax和腾讯、阿里等也合作。比如字节Coze已内置豆包模型（MiniMax的模型之一）[70]，腾讯云MCP广场也引入MiniMax Agent模板。这些都增加其使用途径。

典型应用场景与用户：MiniMax Agent几乎通吃所有场景，但优势在多模态内容创作和复杂流程自动化：
- 普通白领：让Agent处理出差行程、会议资料准备（如根据邮件自动做PPT）[18]。
- 内容创作者：用Agent创作故事绘本、短视频剧本甚至直接产出音频/视频雏形[84][85]。大幅加速创作流程，一人相当于一团队。
- 开发者：将Agent当“全栈码农”，从构思到前后端代码一次性生成[185]。这可用于原型开发、教学DEMO等。
- 学生和教师：复杂学习任务如做项目，可以让Agent帮忙查资料、设计实验方案、甚至做简易实现。
- 企业运营：Agent帮电商商家搭建促销H5页面，帮HR开发简单内部工具等等。以前需要IT介入，现在业务人员一句话生成。

这些用户看重的是AI节省脑力和手工：MiniMax Agent不像传统Office工具需要人一个个步骤，而是高抽象完成。它真正体现AGI对日常工作的改变。其用户潜力面极广，从个人到专业各层次，只要降低安全风险，几乎每个人都会愿意用这样的全能助手。

商业模式：MiniMax已成为国内估值极高的AI公司[198]。其商业模式可能包括：
- 模型授权/云服务：向大企业出售ABAB模型使用权（可能走政府采购、联盟等形式），或者通过自营云提供API按量收费。目前其API测试免费，但长期会转收费。
- 垂直Agent解决方案：如Video Agent、客服Agent、办公Agent等，打包卖给B端客户按年收服务费。这类似卖AI软件产品。
- 个人订阅：未来开放个人超级AI助手后，可采用会员制（月费）获取不限额使用、快速响应等特权。
- 硬件结合：MiniMax和手机厂、PC厂合作，把其大模型内置于终端（类似讯飞本、华为小艺升级版），授权费或分成。
- 政府补贴：作为上海独角兽，可能获得政策扶持和补贴，为其提供一定营收来源让利于用户。

MiniMax对开源态度较谨慎，目前未开源ABAB权重，只开放部分数据和模型评测结果[183]。因为他们相信模型和Agent是竞争关键，不宜开放。不过他们积极兼容外部开源资源，站在LangChain/MCP生态上开发。可见其策略是闭源商业（保留核心），开放接口（拥抱生态）。和OpenAI路径接近，但又有中国市场特色（更多垂直本地化场景）。随着Agent大战加剧，MiniMax也许会部分开放老版本模型来与社区交互，但短期内靠商业闭源占领市场才是重点。许小虎投资人观点认为最终大模型厂商占主要，MiniMax若扛得住大厂夹击，有望成中国OpenAI，对此他们已经想明白了15件事[199]。这番报道表明MiniMax在商业上很有思考，未来值得关注。

策略差异对比分析

综观以上公司，AI Agent 领域呈现出几条不同的战略路径：

开源 vs. 商业闭源： Hugging Face、Moonshot 等走开源路线，开放模型或框架来集聚开发者社区和全球影响力[57]。这为他们赢得技术话语权（如Kimi K2成为国内标杆）和潜在生态收益，但短期利润不明确。相反，OpenAI、Anthropic、MiniMax 等坚持闭源，依靠性能领先的独家模型商业化，短期盈利能力强，但需持续投入维持技术壁垒。中国企业中，阿里和Moonshot属于少数开源大模型派，其他如百度、讯飞、MiniMax多闭源。开源派往往期待以开放换生态，闭源派则以服务换收入，各有优劣。
模型自主 vs. 第三方依赖： 大厂和不少新创都倾向于自研大模型（OpenAI GPT-4、Anthropic Claude、Baidu文心、MiniMax ABAB等）作为Agent大脑，自主可控且优化统一。而 ByteDance Coze国际版、Cognosys 等最初借助OpenAI或别人的模型来实现Agent[70]，快速推出产品，但受制于外部API（成本和政策风险）。如今趋势是具备实力者都在构建自己模型，即便像字节这样一开始用GPT-4，也开发了豆包模型替代[70]。掌握大模型意味着对Agent能力和成本有更大掌控权。反之，Hugging Face不做模型而整合各种开源模型，为开发者提供灵活性。
通用Agent vs. 垂直Agent： OpenAI、Google、MiniMax 等押注通用全能Agent，试图一个产品满足各种任务（面向C端大众），这要求模型极强且辅以丰富工具[200]。而科大讯飞、Lamini、Reka更关注垂直行业Agent，强调领域专业性、与企业系统集成，愿意为每个行业定制不同Agent[90]。通用策略优先抢占大量个人用户市场，有望产生指数级平台效应，但也容易陷入“样样通不精”问题。垂直策略则脚踏实地解决具体行业痛点，短期更易变现，但规模受行业限制，需要逐行业拓展。部分公司两手抓：阿里既开源通义基础模型，又合作Manus做通用Agent，同时服务企业SaaS场景；百度既有心响通用App也开放行业Agent平台。未来或将融合：通用Agent提供基础，再通过插件或fine-tune形成各领域专家模式。
工具生态构建： 几乎所有Agent研发者都认识到工具扩展的重要性，但思路不同。有的（OpenAI、Anthropic）内部开发了标准插件接口，吸引外部服务适配，如ChatGPT Plugins；国内字节、腾讯等搭建MCP广场，聚合各家插件[195]。Hugging Face干脆开放Toolbox让社区自定义工具[124]。此外还有企业注重自带多模态能力（MiniMax、Reka），尽量少依赖外部工具，以模型一体解决。总体看，平台型公司（字节、腾讯云）倾向打造开放工具市场，模型公司（OpenAI、MiniMax）倾向先自给后开放合作。工具生态越繁荣，Agent越实用，但管理和标准化也更难，这也是差异所在。
部署策略：云 vs. 边缘： OpenAI/Anthropic基本云提供，不考虑本地部署。而 Reka、Huawei 等强调本地化部署（Reka Flash可在设备上跑[146]）。这体现客户群不同：2B服务者更注重私有化，2C公司推云服务易于大规模迭代。国内如华为、讯飞针对企业，都提供私有部署方案迎合需求[92]。阿里则两手都做：开源模型方便本地跑，阿里云也提供托管服务。未来Agent要真正普及，边缘部署在手机等终端或企业内网可能必不可少，因此拥有开源/可部署模型的公司会多一分优势。
安全及监管： 各家对Agent风险的重视程度不同。OpenAI、Anthropic在发布Agent功能时投入大量安全研究和限制（如OpenAI禁用Agent访问长时记忆、敏感操作需确认[10][16]）。百度、MiniMax也对Agent高风险操作设置防线甚至干脆不开放给普通用户试（以免出错）。相反，一些小公司（早期AutoGPT类）任Agent自由发挥结果经常出问题。可以预见，大厂更谨慎，创业公司更激进尝鲜。但安全与用户体验需要平衡，谁能让Agent既强又稳，将在竞争中胜出。

总的来说，不同玩家根据自身基因选择了不同切入点：大模型领先者希望延续领先到Agent产品，互联网巨头发挥产品生态优势赋能Agent，创业公司则或专攻细分场景，或以开放策略出奇制胜。未来格局可能是基础模型公司提供底座+平台公司提供分发渠道+行业公司打造定制Agent的分工合作。但短期内，各家仍会在全能Agent上正面竞争，试图成为用户首选的AI伙伴。正如业界所言，这场Agent之战才刚开始[177][178]。

公司/产品对比一览表

下面以表格形式总结各公司/产品的 AI Agent 特性：

公司 / 产品	Agent名称与定位	主要功能与能力	技术架构要点	使用方式 (平台/接口)	典型应用场景 / 用户群	商业模式 (开源/收费)
OpenAI – ChatGPT Agent	通用全能Agent（ChatGPT插件升级）[4]；命名直指旗舰，承担ChatGPT向AGI转型重任。	对话+网页操作+信息整合+代码执行[6]。自动浏览网页、点击按钮、筛选内容，连接日历/Gmail等完成日程、购物等复杂多步任务[8][3]。Pro用户几乎可将任意繁琐电脑工作托付其完成。	GPT-4新模型（未命名）经强化学习掌握工具使用[9]。融合ChatGPT对话能力+Operator浏览操作+DeepResearch网研整合为一体[4]。基于LLM的ReAct代理架构，可调用虚拟浏览器、终端等工具，支持有限上下文记忆（长对话记忆关闭以防泄密）[10]。实时安全监控每步操作[201]。	ChatGPT网页/应用：Plus/Pro订阅者在聊天界面下拉菜单启用Agent模式[14]。通过自然语言聊天指令驱动，后台自动执行操作。无直接API（仅模块开放给开发者DIY）[15]。使用有月任务次数限制（Pro400/Plus50）[16]。	知识工作者、专业人士、普通用户都可用作万能数码助理。如商务人士让Agent准备会议资料、制定行程（自动查资料+汇报PPT）[6]；个人用户请Agent网购比价、整理邮箱、管理待办等。能显著减负需要跨工具处理信息的人群。	闭源，订阅收费：ChatGPT Agent仅面向付费用户[19]。按月订阅+任务上限控制使用成本。模型和框架不开源（仅功能模块分享）[15]。OpenAI靠庞大用户基数和企业API销售盈利（Agent功能企业版将开放）。
Google – Bard Extensions	通用对话Agent增强（Bard集成Workspace）[21]；非独立Agent名，但赋予Bard工具行动力，使其从聊天扩展为用户日常助手。	连接Google服务：读/写Gmail、Docs、Drive等[24]；获取地图、航班、酒店、YouTube实时信息[24]。可总结邮件、提取文档要点、规划行程等，将多源数据整合回复[22]。支持图像输入/输出。通过Extensions，Bard可执行一些跨应用任务而不仅仅对话。	PaLM2对话模型强化版[26]。集成官方插件接口(Bard Extensions)：Bard通过后台API安全访问用户Gmail、日历、Maps等[27]。工具提示内置于系统prompt，模型自动决定调用哪个服务[24]。多轮中可持续引用上一步结果，实现上下文跨应用。注重数据隐私（用户授权、内容不用于广告）[27]。无复杂多Agent，仅单模型+多个工具。	Bard网页 (bard.google.com)：登录Google账号可用，需手动开启所需Extensions[202]。对话框中调用服务由Bard自主决定，无需用户指定工具名。Bard响应会引用所查邮件/文档等[25]。目前支持英文版，面向个人免费（Workspace企业Duet版收费）。	Google生态深度用户：例如白领办公（借助Bard快速处理邮件/文档例行工作[25]）、出行人士（一站查询航班酒店地图视频等[22]）、学生（从云端笔记资料中找答案）。主要服务已有Google账号的个人用户，帮助其更高效使用Google产品数据。	闭源，免费为主：Bard向公众免费提供，以抢占用户和数据[30]。后续通过Google Cloud/Workspace付费变现（Duet AI功能订阅、PaLM API收费）。模型不开源但Extensions体系半开放（第三方可扩展未来）。核心靠生态绑定盈利：更多用户依赖Google服务。
Anthropic – Claude 2 + Research	通用助手升级版（Claude对话+自主Research模式）[34]；以安全稳健著称的通用AI助手，引入多Agent研究模式拓展复杂任务能力。	超长对话+工具检索：Claude 2可处理超长文档（100k+字）摘要和持续对话[33]；代码编写/调试、内容创作能力强。新增Research自主调研功能：Claude可自动联网搜索Web、访问企业知识库，并行分身探索多个方向信息，再整合回答[35][39]。适合综合性开放问题，结果附来源引用[38]。	Claude 2大模型（52B+参数）提供基础NLP能力。多Agent架构用于Research模式：一个Lead Claude orchestrator + 多个Claude sub-agents并行搜索[35][39]。内部用Anthropic自行开发的工具接口（搜索、Google Workspace API等）[34]。具备长期Memory：利用内置Memory保存研究计划/中间结论，解决上下文超长问题[38]。模型对齐良好，集成“宪法”规则确保回答守规。	Claude网页 (claude.ai)：个人用户可在有限地区免费对话，Pro订阅解锁更多用量。Claude API：企业通过API使用Claude模型及其Memory、Tools功能[32]。Slack等集成Claude为内置AI。不提供自主Agent UI（Research模式用户通过特殊prompt触发，企业版UI或定制接口）。	要求高可靠输出的专业用户/企业：如企业分析师用Claude Research查海量资料并产出报告（省人工调研）[37]；法律/教育领域利用Claude长文档理解和安全性来分析合同、教材等。程序员用Claude处理整个代码库问题（200k上下文）。Claude特别受注重信息准确性的用户欢迎。	闭源，API收费：Claude模型不公开，Anthropic通过按Token计费的API和Claude Pro订阅盈利。定价较高，定位高端市场。Anthropic接受巨额投资维持闭源开发。策略上走To B为主，与Slack、Notion等合作分成。偏安全稳健风格，在开源压力下暂无开源计划，仅发布研究报告指导行业[32]。
百度 – 心响 App	通用超级Agent手机应用[41]；定位“复杂任务全托管”的全能AI指挥官，C端用户一句话即可一键完成复杂任务。	一站式任务解决：支持知识问答/分析、旅游规划、学习辅导、办公助手等200+任务类型[41]。能自然语言拆解复杂需求，自主规划步骤，调用多种工具/子智能体协作完成[41]。结果以直观形式交付（图表、地图、PPT等）[18]。让用户从繁琐流程中解放，一句需求AI闭环解决。	文心大模型4.x为决策大脑，结合多Agent协同架构[45]。心响的AI任务引擎会并行调度多个子Agent（基于细化模型或规则），各司其职（如一个理解需求、一个查知识、一个汇报生成）[45]。有庞大任务模板库支持快速响应常见需求。调用百度系服务（地图、搜索等）以及第三方API通过MCP插件实现[42]。多模态支持和知识增强赋能Agent处理图文音综合任务。	心响移动App：Android版已上线[41]、iOS待发布。用户以对话方式输入任务描述即可。App内置任务示例广场，用户也可创建个性任务。一键运行，AI完成后输出结果（文档、链接等）。百度同时提供千帆Agent平台供企业开发自己的智能体[47]。	大众消费者：如旅行者用心响规划定制行程，机酒比价+景点地图+美食攻略一应俱全[18]；学生用它解题讲解；上班族托管复杂Excel分析和PPT制作等。即面向广泛个人用户，承担私人助手角色。未来也推广到企业员工：如客服、营销等日常任务自动化助手，但目前侧重C端体验验证。	闭源，免费启航：心响对个人暂免费开放获取用户和数据[41]。商业模式预计是后向变现：附加增值服务订阅或企业版收费。百度不开放文心模型权重，仅通过API/云服务收费输出。其Agent框架可能部分API化售卖。整体上采用生态收费：以心响引流百度体系（云服务、广告等）的潜在价值，而非直接从App收费。
阿里巴巴 – 通义千问 & Manus	通用对话模型+通用Agent应用双轨；阿里自研通义千问大模型（Qwen）为基础，并战略合作初创推出Manus通用Agent[55]。阿里聚焦提供平台能力，少量示范应用。	通义千问：多语言对话、内容生成和编程问答通用能力。Manus Agent：可自主将想法转化为成品，多步骤拆解并独立执行[50]。擅长创意构思、任务规划和问题求解，被称为全球首个真通用Agent[49]。举例：用户一句业务想法，Manus能自动上网调研、产出方案文档。阿里云Agent框架另支持企业流程自动化应用。	Qwen大模型7B/14B开源，供社区和阿里云使用[57]。Manus基于混合多模型+多智能体[203]（GAIA基准SOTA），核心为Goal-Oriented Planner+Experts子模块。阿里云Agentic框架支持模型编排（大模型+小模型协同）[204]、外挂知识库和工具插件[51]。强调企业集成：可接入自有业务API、保障数据安全、逐步学习提升[205][206]。	阿里云API：通义千问模型API供开发者直接调Agent对话。Manus：用户可注册其官方平台体验（全球发布），或等其能力整合进阿里产品（钉钉助手等）。Agent开发平台：阿里云为ISV和企业提供Agent构建工具，低代码拖拽开发垂直Agent[51]。最终Agent通过钉钉小程序、天猫精灵、钉钉应用等交付。	企业开发者 & SaaS厂商：利用阿里平台快速打造行业Agent（客服自动处理工单、财务报表分析等），将AI直接输出结果而非仅辅助。C端用户则主要通过淘宝/钉钉等看不见的Agent功能提升（如智能客服、AI办公助手），当前没有阿里面向个人的独立Agent App。	模型开源+云收费：阿里选择Qwen模型开源降低门槛[57]，但通过云服务增值盈利（算力、定制服务费用）。Manus合作模式未知，可能后续SaaS收费或企业授权。整体阿里战略在于卖云基础设施和行业解决方案，Agent作为云服务新卖点，不直接向个人收费。
字节跳动 – Coze平台 & 扣子空间	Coze扣子：零代码AI应用开发平台[59]；扣子空间：字节官方推出的通用型AI Agent成品[61]。致力于让人人都能创造和使用个性化智能体，定位类似“Agent应用商店”。	Coze平台：支持快速创建聊天机器人、智能体应用和插件[59]。提供60+工具插件、知识库RAG、长期记忆、定时任务、工作流等功能[62]。用户可定制单Agent或多Agent协作流程[207]。扣子空间应用：内置60+ MCP插件（资讯、出行、办公等）[65]、多领域专家AI助手模板[66]。可探索模式（快速答）和规划模式（深度任务）满足不同复杂度需求[67]。支持多文件上传处理、结果发布分享到微信/飞书等[68][208]。	模型：国际版Coze用OpenAI GPT-4/3.5[70]；国内版用自研豆包大模型[70]（等价30B+参数）。平台内置多模型（含阿里通义等）供选择[71]。架构：高度模块化，工具作为Tool类封装统一注入prompt[124]（MCP机制），Agent按预设工作流调用[74]。支持多Agent并行（将任务拆给多个Agent分工后汇总）[75]。知识库功能提供企业自有数据RAG[73]。数据库记忆记录对话参数状态[73]。免费版国际Coze依赖外部API，国内版闭环用字节模型。	Coze网站：注册后可在浏览器里拖拽配置Agent[78]。发布的Bot可分享到Discord、WhatsApp、飞书、公众号等[59]。扣子空间：需申请邀请码，登录网页版或App使用[80]。在扣子空间UI中，可新建任务描述→选择需要的插件→执行Agent→获得结果内容。亦可将结果Bot部署到微信等供他人。	普通创作者、产品经理、小企业主：Coze让无编程者打造定制AI助手（客服机器人、内容创作Bot等）[82]。团队/企业：利用Coze团队协作能力一起开发复杂Agent[75]，发布到自有应用内。扣子空间面向终端用户，例如个人用其规划旅行、专业人士用其分析数据生成报告[209]。也能通过共享Bot提供服务获取粉丝。	闭源平台，免费策略：Coze/扣子空间核心代码未开放，但集成大量开源模型/插件。当前完全免费使用[59]。后期盈利或通过增值订阅（高性能模型、私有部署收费）或应用内生态（优秀Agent商业化抽成）。字节更看重用户规模和数据，以抢占Agent生态制高点，然后多渠道变现（如广告、企业付费等）。
科大讯飞 – 星辰Agent平台	新一代企业级智能体开发平台[86]；定位为企业和开发者快速构建垂直领域生产级Agent的一站式工具。主打行业场景落地。	多类型Agent开发：支持指令式单轮Agent、工作流式多步Agent、自主Agent自由决策[88]。提供16000+功能模块(MCP Server)覆盖各业务场景[88]。零/低代码拖拽搭建智能体逻辑[91]。内置旅行规划助手、AI播客生成、金融投资顾问、教育助教、智能客服等丰富模板[90]。支持多模态交互（图表理解、语音播报等）[96]。强调数据安全和深度定制。	模型层：全开放兼容，内置讯飞星火认知大模型，也可挂接第三方开源或私有模型[88]。架构：模块化+流程编排。提供系统模块(权限/日志等)、Agent模块(对话逻辑)、工具模块(外部能力)[91]任意组合。多源知识接入：外挂企业知识库[94]；防退化机制定期评估微调更新模型防止随时间性能下降[95]。输出链路可多模型对比调优[91]确保效果达标。支持一键发布为HTTP API或独立服务便于集成[92]。	讯飞星辰平台：企业开发者登录后可在Web IDE配置Agent。通过拖拽节点+设置参数完成功能链路，然后可部署Agent为API/应用[92]。最终用户通过Web界面、微信公众号、企业系统界面与Agent交互。某些场景讯飞也提供终端硬件集成（如教育助教Agent内置于学习机）。	各行业企业/组织的IT团队：如银行快速构建理财顾问Agent给员工用[96]；制造业开发设备巡检Agent联动IoT数据[210]；政府制作政策咨询Agent服务公众。对于缺乏AI大模型能力的传统行业，星辰Agent让他们以较低门槛拥有自己的业务AI助手，提高生产效率和服务质量。	闭源商用，按服务收费：平台软件不开源，以企业版授权或云SaaS形式出售。通常按年或项目收费。可能采用Seat或实例计费或模型调用量计费模式。讯飞通过提供平台解决方案获取收入，而模型本身不单独卖。开放兼容开源模型降低使用成本，提高客户接受度，但核心平台价值在于一站式和本地化支持，客户愿为此付费。
Cognosys – Cognosys AI Agent	“最先进个人AI助理”[211]；通用型自主Agent平台，侧重自动化知识工作流程，让个人“把任务交给AI代理去做”[100]。	复杂目标自主完成：输入宏观目标（非具体问答），Agent会自我分解子任务并一一执行[105]。特别擅长网络研究（自动多次搜索、多源阅读并综合输出报告）[103][104]。支持定时任务（如每日新闻摘要自动推送）[110]、事件触发（如新邮件自动分类/回复）[109]。邮件管家：总结要点、分类邮件，草拟回复[108]。工作协同：可串联Notion笔记→提炼要点→发邮件通告[212]。总之帮助用户持续监控处理信息，24/7待命自动跑流程。	LLM大脑：最初使用OpenAI GPT-4 API，后可能切换Cohere模型（Cognosys被Cohere收购）。Agent逻辑：采用AutoGPT式Plan-Execute循环。Cognosys实现了搜索引擎接入（LLM提出查询，调用Bing/GoogleAPI取结果）[113]；应用连接通过OAuth（Gmail/Calendar/Notion等API）[111]；规则触发引擎定期或监测事件调用Agent pipeline[110]。具备基本内存（上下文任务列表存储）和IFTTT功能。	SaaS平台（Web界面）：用户注册后在仪表盘配置任务。可选择预设用例（如“每周市场报告”），或自定义Objective让Agent运行[116]。Agent执行过程中会列出子任务清单和进度，可人工介入调整。结果通过网站通知或邮件发送给用户。还提供API/Webhook让用户将Cognosys集成自己系统。	忙碌的知识工作个人：如市场分析师用其做行业调研报告，高管助理用其整理每天邮件和会议材料[108]；研究员让其综述文献；小团队创业者设定Agent监控行业动态/客户邮件等，使团队聚焦核心任务。有稳定结构化工作流的人群最适合，因为Agent可学会模式持续自动跑。	闭源SaaS，订阅付费：提供免费试用基础功能，高级功能和更大量任务需付费（月度订阅或用量套餐）。以服务质量和结果让用户付费。被Cohere收购后，可能转变为企业服务（面向企业客户提供定制版本），收入模式类似软件license或大客户包年。Cognosys未开源技术，不售卖模型本身，专注提供端到端解决方案以体现价值。
Hugging Face – Transformers Agents	开源Agent框架库[119]；面向开发者的通用Agent编程工具，不是具体产品。旨在简化LLM+工具应用开发，让任何LLM变成可用工具解题的Agent。	Agent类型丰富：支持简单一次性CodeAgent或循环决策的ReActAgent[123]。能自动迭代思考调用工具直至任务完成[123]。海量工具：内置计算、搜索、翻译、数据库、图像生成等上百工具，并允许开发者轻松添加自定义Tool[213]。框架负责将工具使用说明插入prompt，让LLM学会选择用哪个工具[214]。Benchmark性能优：据HF实验，70B开源模型经框架包装可超越GPT-4 Agent在某些任务表现[128]。通过Agents，LLM能执行计算、调用API解决自身不擅长的逻辑/事实类问题[121]。	架构模块化：包含Agent类（管理LLM对话循环）、Tool类（封装可调用函数）[124]、Toolbox集合、Prompt模板等[213]。开发者可选HfAgent（用HF Hub模型远程推理）、LocalAgent（本地模型）或OpenAIAgent（OpenAI API）作为LLM后端[125]。Agent.run() 方法会构造包含工具列表的提示供LLM，解析LLM输出的Action，再调用相应Tool，将结果反馈LLM，循环进行[123]。高度透明：可打印每步决策，易调试调优[126]。开源且Extensible，社区可贡献新工具和Agent类型。	Python库使用：开发者安装最新版🤗 Transformers（集成Agents）或独立的smolagents库[132]。然后通过Python代码构建Agent：定义Toolbox（选用或自定义工具），实例化Agent（选择类型和底层模型），最后agent.run(prompt)即可得到任务结果[134]。HF提供Colab示例和文档降低上手门槛。HF Hub上也有分享的Agent Spaces，可供非编程用户在线体验一些Agent案例。	AI工程师、研究人员：框架广泛应用于Agent研究（快速试验新agent想法，验证多工具效果）、应用原型（如给自己程序加上AI+工具能力，几行代码即可），教学（演示Agent原理）。最终间接惠及终端用户：很多人用HF Agents实现了各类垂直Agent demo，并发布供大众用，例如一键生成网页设计Agent等[129]。HF Agents成为社区默认选择之一，使开源Agent应用百花齐放。	完全开源免费：Transformers Agents以Apache2.0开源[122]。HF通过企业版平台、模型托管API等商业服务变现：Agents框架的流行带动更多企业使用HF Hub模型和Inference Endpoint（收费）[125]。HF自身不卖Agent成品而卖开发者工具和算力。通过开放框架，HF巩固其在AI基础设施的地位，长远从生态中获利，而短期对个人和开发者完全免费。
Reka – Nexus AI Workforce	企业级“AI劳动力”平台[138]；为企业创建管理AI Worker（数字员工）的平台，定位用多个AI代理组成企业虚拟团队，自动化业务流程。	AI Worker角色定制：可创建如“研究员”“财务分析”“销售助理”等AI员工，每个专精特定任务（调研报告、发票处理、销售线索生成等）[139]。这些Worker能搜索内部文件+外部网找资料[140]、浏览网页、写代码执行（如处理数据、生成图表）[140]、理解多模态数据（PDF、图像、音频）[140]。多人类员工合作的任务可交给一组AI Workers并行完成。产出结果附执行过程日志，便于审计[141]。大幅提升企业信息处理和流程自动化水平。	自研多模态模型：Reka Flash 21B 等训练自带文本、图像、视频、音频能力[144]。Nexus架构：采用主-子多Agent模式，一个Lead Worker规划任务并行派给多个Sub-worker[39]。各Worker背后是自家LLM实例（可混用不同大小模型以兼顾速度和精度）。LLM经RL强化能输出透明思维链（execution traces）[141]供人审阅。Nexus提供企业系统连接器（数据库、CRM、邮箱等）和网络爬取工具。支持私有部署（模型可本地运行量化版）[146]。高度重视安全：每步Agent操作均日志记录，敏感动作需授权，最终结果引用来源确保可信[38]。	企业私有云或本地：购买Nexus后，部署在企业服务器或专属云上。企业AI管理员通过Nexus控制台定义AI Worker种类、配置其权限和数据接入。员工端通过简单界面或集成在如Slack的聊天界面，像指挥同事一样对AI Worker下达指令[139]。AI Worker执行后在系统中记录动作并反馈结果给发起人。Reka也提供Playground网页可体验Flash模型问答[150]和API供开发者试用模型，但完整Nexus功能只对付费客户开放。	中大型企业：尤其知识密集和流程重复的行业。如咨询公司让AI调研行业资料写PPT[139]；投行让AI扫描财报生成要点供分析师；电商用AI处理供应链单据或汇总用户反馈；IT运维利用AI监控日志、自动处理常见警报。目标用户是希望自动化中后台知识工作的企业，以AI Worker降低人力成本并提升效率。	闭源B2B，高价合同：Reka销售企业解决方案，按项目或年收费，金额可能达几十万美金级别。也提供API按量计费用于小客户试用。模型不开源，但部分发布小模型或研究供社区试验，以树立品牌技术形象[152]。依托Nvidia等投资方，Reka亦走合作路线（Snowflake等可能转售其服务[151]）。其收入模式类似传统企业软件+AI服务费，重在直销大客户而非大众市场。
Lamini – LLM Engine Platform	企业级大语言模型定制平台；聚焦通过微调和记忆调校打造垂直高精度LLM，为各类垂直AI Agent提供专用大脑。不是具体Agent应用，而是背后的“造脑工厂”。	模型微调：几行代码即可将开源LLM在企业自有数据上fine-tune得到高准确率模型[155]。Memory Tuning：将领域事实知识嵌入模型参数，使模型对专属知识问答达到95%准确率、幻觉减少90%[157]。显著提升垂直Agent回答可靠性。高效部署：优化LLM在多节点尤其AMD GPU上的训练推理性能[56]，降低企业硬件门槛。评估套件：自带专业领域Memory测试基准[160]，确保定制模型达生产要求。简化工具调用：支持模型输出JSON等结构，易对接Agent执行代码[164]。总之，为行业Agent“造一个懂行又听话的脑”。	平台：Lamini提供云端训练管道，支持如Llama等模型的PEFT微调。Memory模块以Mixture-of-Memory-Experts等技术将知识注入模型某些层[163]。SDK：开发者用Python SDK调用 lamini.train() 上传数据触发训练[164]。Lamni保证了可扩展性，能在分布式集群上跑大模型且兼顾成本（QLoRA等节省显存）。调优后的模型托管在Lamni推理服务供API调用，或导出给客户部署。本身不负责Agent工具逻辑，但易与LangChain等集成[136]。致力于形成领域专家LLM池，供Agent框架调用。	云服务：开发者登录lamini.ai云平台上传数据、配置参数，一键fine-tune并部署模型为API[56]。也可使用Lamini SDK在本地脚本中完成同样过程（仍在后台云算）。企业有需求可采购本地版Lamni引擎部署于自有集群。平台输出的模型或API再由企业应用或Agent框架使用（如将Lamini微调模型接入LangChain Agent）。Lamni强调ease-of-use，无需深度ML专业背景也能运行。	有专有数据和精度要求的企业/开发者：如医疗公司微调模型成医学顾问Agent，回答患者问题少出错；电商定制客服Agent模型，内置商品知识远准于通用Bot[166]；金融机构fine-tune LLM成合规审核Agent，熟悉法规条文并严格遵守[166]。Lamni也被AI初创用来加速开发，AI比赛团队提升模型准确度等[164]。	闭源引擎，服务收费：Lamni平台本身专有不开源。采用云订阅/算力计费：按使用的GPU小时或模型大小收费，Memory Tuning等高级功能另计。大型企业可谈判买断或私有部署费用。Lamni通过卖工具而非卖模型权重盈利。其模式是B2B2C：帮助企业做好的Agent更好服务C端，用高价值服务收费支撑自身。注重构建口碑：Memory Tuning等成果通过论文/博客公开理念[163]，但核心实现藏于引擎，保持商业护城河。
Moonshot – Kimi (Chat & Researcher)	开源大模型 + 自主Agent应用双管齐下；Kimi是高性能开源中文大模型品牌[57], Kimi-Chat 为大众聊天AI，Kimi-Researcher为自主多步研究代理[169]。Moonshot目标是以开源夺技术高地、以产品争用户规模。	Kimi-Chat：类似ChatGPT的对话助手，擅长长文理解、AI搜索回答实时问题。支持代码、创意等，中文能力强大。Kimi-Researcher：给定课题可自动上网多轮搜索、阅读大量网页/文献，并输出带引用的综合报告[169]。Agent可长时间自主运行探索复杂问题。代码能力：Kimi K2模型在编程任务上达到先进水准，Agent可以作为编码助手。Moonshot产品还探索游戏NPC智能体等垂直应用[170]。开源Kimi K2具备工具使用倾向（ReAct推理），可方便嵌入各种Agent场景[143]。	Kimi K2模型：32个专家MoE，总参1兆，32B激活参数[171]。专门优化代码和Agentic性能[143]。开源权重允许商用。Agent逻辑：Kimi-Researcher类似AutoGPT实现，Kimi模型循环生成动作（搜索/读取/总结）并执行，通过内置浏览器/搜索API实现自主Web导航[35]。Kimi-Chat也整合了AI搜索功能（调用搜索引擎实时查询，再由模型结合结果作答）。架构注重超长上下文（Kimi支持上百页文本输入）[168]和开源社区协作（模型、训练代码等开放促进改进）。	Kimi应用：早期通过微信公众号、小程序提供聊天服务，无需安装。后Moonshot或推独立App/PC客户端。用户可直接与Kimi-Chat对话，或使用Kimi-Researcher模式（比如特殊命令“/research”)启用自主调研Agent。Kimi K2模型权重开放下载，开发者可以本地运行（需多GPU）或在阿里云等加载，用于自定义Agent开发。Moonshot与阿里合作，Kimi模型也许在通义千问平台上可用。	普通中文用户：Kimi Chat吸引了大批AI聊天用户，用于日常问答、内容生成。专业人员：Kimi-Researcher特别适合记者、学者、分析师等需要快速调研的人群，一键得到综合资料初稿，大幅节省搜集整理时间。开发者：Kimi开源模型提供了免费的高性能基座，他们能将Kimi融入自己的Agent项目，或fine-tune在行业数据上（其许可应允许）。游戏公司：与Moonshot合作，将Kimi模型用于NPC对话等。	模型开源+增值服务：Kimi K2模型开源免费[57]，Moonshot通过其他方式获益：如企业合作（模型定制及服务由投资方阿里支持）、专业版订阅（可能推出Kimi Pro会员提供更强Agent功能）、政府项目（开源促进国内AI生态或获政策资金）。目前Moonshot暂以融资支撑运营，商业化仍在探索。开源为其赢得知名度但短期放弃模型直销收入，未来可能靠云服务收费（例如托管Kimi模型/API收费）和行业方案（卖垂直Agent应用给B端，如游戏AI）。