从最顶级的30个AI Agent产品里,看懂了这三个趋势这样也行?

释放双眼,带上耳机,听听看~!

当62%的企业开始试水AI Agent,MIT和哈佛联合发布的《2025 AI Agent Index》揭示了行业三大真相:产品形态向聊天式、企业自动化和浏览器型三极分化,自主性呈现阶段性跃迁特征,而安全披露不均与责任边界模糊正成为最大隐患。

本文通过30个顶级产品的深度拆解,展现Agent技术从实验室走向真实业务场景的进化路径进入2026 年,Agent 彻底火了Claude Code、ChatGPT Agent、Manus,再加上一堆大厂的企业级工作流平台,动不动就喊“替代打工人”“创造万亿美元价值”。

麦肯锡的报告也在推波助澜:62% 的企业正在试水 Agent但把热闹先放一边,真正的问题是——在真实工作场景里,Agent 到底走到哪一步了?最近,MIT、哈佛、斯坦福等机构的研究团队发布了一份《2025 AI Agent Index》。

这帮学者干了一件很有价值的事:他们把市面上最具代表性的30 个代理系统逐一拆开来看了一遍,并设计了45 个维度,仔细扒了扒这些产品的技术细节、部署情况、设计架构、工具使用和安全机制等信息,得出了当下Agent最硬核的3个真相。

透过这部分报告,我们就能更清晰地了解当下Agent发展的真实情况。01 产品形态收拢在这3个方向大多数代理产品集中在2024–2025 年发布。

从最顶级的30个AI Agent产品里,看懂了这三个趋势这样也行?

(蓝色柱状图代表与代理型人工智能产品相关的谷歌新增搜索词,红线则代表谷歌学术中包含“人工智能代理”或“代理型人工智能”关键词的论文发表数量)从产品形态看,AI代理基本收拢在了三个方向:聊天式代理(12个):以对话为入口,挂载各种工具箱;

企业自动化平台(13个):主打B端工作流的自动化编排,已经成为与聊天界面分庭抗礼的主流形态;浏览器/GUI型Agent(5个):直接接管屏幕,模拟人类点击和输入,类似于之前的豆包手机企业工作流平台已成为与聊天界面并列的主流形态。

其中,中国开发的GUI 型代理更倾向于整合电话与电脑操作能力(5个中有3个具备双能力),功能整合度更高按应用场景来分,排名前三个的例子是:信息研究与集成(12个)、跨部门工作流自动化(11个)、以及表单填写和预订等浏览器操作(7个)。

在底层模型上,除了Anthropic、Google、OpenAI这几家“前沿实验室”以及部分中国厂商在使用自研模型外,大多数的代理都在高度依赖GPT、Claude或Gemini系列尽管“模型开源”已经成为行业趋势,但在Agent产品上则呈现了完全不同的局面。

30 个代理中,有 23 个选择完全闭源只有7 个开源了代理框架或工具层,包括 阿里MobileAgent、Browser Use、TARS、Gemini CLI、n8n、OpenAI Codex、WRITER。

生态在变开放,商业产品却仍以封闭为主这是一种典型的“框架开放、产品闭源”结构02 从行动空间到自主性,AI代理正在分化、虽然都叫“Agent”,但这30个产品的功能相差很大其中,一个核心区别在于,行动空间。

企业工作流代理,主要通过CRM、数据库等系统连接器来执行操作(8/30)它们更像企业流程里的自动执行节点命令行界面(CLI) 代理则直接操作文件系统和终端命令(4/30),能力更偏工程环境浏览器代理的方式最直观:点击、输入、导航网页(5/30),它们直接“代替人类”操作界面。

值得注意的是,企业代理的行动空间通常被严格限制,并优先设置工具权限与使用防护换句话说,越贴近真实业务系统,控制就越严格在用户界面上,Agent产品也出现了不同的选择在企业场景中,画布式编排界面已成为标准。

8/13 的企业平台采用可视化流程组合界面,让用户配置触发器、动作与防护规则而在消费级场景里,聊天界面依然是主流入口(14/30)这意味着,设计层强调流程构建,使用层强调自然语言最重要的是,不同类型的代理,在“自主性”上也呈现出明显分层。

最常见的仍然是“轮次式助手”Claude、Gemini、ChatGPT 等产品采用的是低至中等自主性模式(L1–L3):每执行一组动作,便等待用户下一条指令这种结构本质上仍以人类为中心,模型只是延长了操作链条。

但在同一产品内部,自主性差异可能极大例如“普通聊天”与“深度研究”功能之间,已接近两个不同范式:前者只是响应式生成,后者则可在一定程度上自主规划任务路径浏览器代理则代表了另一端它们通常达到L4–L5,自主性显著更高。

一旦接收指令,便独立完成整个执行流程,过程中几乎没有实时干预空间用户的控制权,在提交任务那一刻就已经让渡而在企业级代理上,则呈现出一种更复杂的结构:设计阶段低自主,运行阶段高自主简单来说,在设计阶段,用户通过可视化画布配置触发器、流程与防护规则,部分平台提供AI 辅助(L1–L2)。

但部署完成后,代理通常由邮件、数据库更新等事件自动触发,运行时无需人工参与,进入 L3–L5 状态这意味着,自主性并非线性增长,而是“阶段性切换”03 自主性在变强,责任边界也在模糊从接口层看,MCP 已成为代理生态的主流标准。

30 个系统中有 20 个支持这一协议,说明“如何接入工具”正在趋于统一企业平台中,还有一部分开始支持代理间协议(A2A),但整体仍处于早期阶段尽管协议层在收敛,身份层却在分化多数代理默认不向终端用户或第三方披露自身的AI 身份。

21/30 没有记录默认披露行为,只有极少数支持生成内容水印也就是说,企业平台往往将披露责任交给客户,是否告知用户“你正在与 AI 交互”,并不由平台承担在技术识别层面,情况更加复杂大部分浏览器代理通常无视robots.txt 文件,直接以“代表用户”身份运行。

企业认为,代理不应被视为传统爬虫,但这一逻辑正在引发法律争议代理绕过网络限制的趋势,正在改变控制权结构——从内容托管方转移至代理运行方目前,ChatGPT Agent 是唯一采用加密请求签名的系统多数代理缺乏可验证的身份机制。

随着更多任务交由代理执行,“谁在行动”将变得越来越重要同时,将披露责任转交给运营方,也带来一个问题:终端用户是否真正知道自己正在与AI互动?同时,当构建者将安全责任转移给用户时,责任边界变得模糊一个更现实的问题开始浮现:当代理开始执行任务,人类还能在多大程度上掌控它?。

在这30个代理产品里,大部分都设计了审批与监督机制,但方式并不一致比如,开发者或CLI 类代理,在涉及文件修改、命令执行等高敏感操作时,通常会要求明确确认;浏览器代理则把控制节点更多放在身份验证与支付环节。

一部分产品甚至提供“实时监控模式”,允许用户在关键步骤中观察执行过程但如果你仔细观察就会发现,不同产品之间的透明度差距很大少数代理会展示完整的行动轨迹和推理过程,让用户清楚看到它如何决策、调用了哪些工具;更多系统只提供概括性的说明,甚至在执行过程中几乎不留下可追踪的痕迹。

而对于不少企业级平台来说,外界甚至无法确认单次运行是否存在实时监控这意味着,控制机制“存在”,但不均衡;监督逻辑“可见”,但并不标准化随着代理能力提升,人类对执行过程的可见度,并没有同步提高04 总结这份指数在1350 个维度上记录了 30 个代理系统,但更重要的,是它揭示了三个结构趋势:

第一,安全披露高度不均仅有极少数代理发布针对自身架构的系统卡片大多数系统要么只披露基础模型信息,要么只强调合规认证能力基准与安全评估之间存在明显不对称当代理风险越来越多地来自规划能力与工具调用,而不仅是模型输出时,仅依赖模型层面的文档已不足够。

第二,基础模型高度集中几乎所有代理都依赖GPT、Claude 或 Gemini模型供应集中带来效率与评估便利,但也意味着单点风险定价调整、服务中断或安全漏洞,都可能向下游系统扩散风险管理因此不能只停留在代理部署方,而必须延伸至上游模型提供商。

第三,责任链条分散。代理系统往往形成一条多层依赖链:基础模型、编排层、构建平台、部署方、最终用户。没有单一实体对完整行为负责。在这种分布式架构下,仅凭模型文档做安全判断,很容易形成虚假保障。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
AI动态

字节跳动AI大战复盘:全场景探索、多模型筑基、生态化布局墙裂推荐

2026-3-3 15:42:40

AI动态

2026年最值得关注的AI大模型盘点深度揭秘

2026-3-3 16:01:12

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
通知图标

欢迎访问Aetheris 以光