通用人工智能(AI)智能体的目标是彻底改变我们与技术的关系。我们设想的未来是,AI 不仅提供答案,更能成为一个得力的伙伴——预订旅行、管理复杂项目,并在我们日常使用的所有应用程序之间无缝地协调任务。推动这场革命的引擎是“工具使用”,即 AI 智能体通过 API 连接并操作外部应用程序。Model Context Protocol (MCP) 作为一个旨在成为“AI 的 USB”的开放标准,已成为实现这种互操作性的“默认”框架,为智能体和工具的沟通创建了一种通用语言。
然而,在 AI 智能体成为我们日常生活中可靠的一部分之前,整个行业必须克服一个严峻而紧迫的瓶颈:工具可靠性与可扩展性的双重危机。
从日常角度来看,这个问题很简单:如果一个 AI 智能体不能保证每一次都正确执行任务,人们就不会使用它。如果你让一个智能体预订机票,它三次中失败了一次,你很快就会回到自己动手预订。对企业而言,风险更高;不可靠性对于关键业务流程是完全不可接受的。此外,如果一个智能体在性能下降之前只能连接少数几个工具——这就是可扩展性问题——它将永远只是一个利基产品,无法处理那些能使其真正具有变革性的广泛而多样的用例。要让 AI 智能体从新奇事物转变为不可或缺的实用工具,它们必须既可靠又能随着我们的需求而扩展。
工具瓶颈表现为两个截然不同但又紧密交织的问题:可靠性和可扩展性。尽管两者相关,但它们代表了同一个核心架构缺陷的不同方面。
首先是可靠性问题:即便是面对有限的工具集,智能体也从根本上无法正确、一致地使用工具。这是一个基本的信任问题。用于评估智能体性能的综合框架 MCP-Universe 基准测试 为这场危机提供了确凿的实证。该测试通过复杂的、需要长远推理和使用大型陌生工具集的多步骤任务来检验智能体。

结果令人警醒。即便是最先进的模型也惨遭失败,暴露出系统性地无法可靠使用工具的问题。

如排行榜所示,表现最佳的模型 GPT-5 的成功率仅为 43.7%,而所有 16 个领先模型的平均成功率更是骤降至 23.0%。一个失败率超过一半的智能体——正如 GPT-5 和 Grok-4(成功率 33.3%)等顶级模型所表现的那样——不是一个有用的工具,而是一个隐患。
其次是可扩展性问题。这是指随着可用工具的数量从几十个扩展到几百甚至几千个时,如何保持性能的挑战。一个智能体在使用 5 个工具时可能表现尚可,但在面对 50 个工具时则可能完全崩溃。对于采用 MCP 的企业来说,集成服务的数量可能呈指数级增长,这是一个关键且紧迫的问题。正如 MCP 开发者峰会的 Shalev Shalit 所指出的,管理这种“工具过载”是组织大规模部署 AI 智能体的主要障碍。

这种普遍的失败并非偶然;它源于主流的单一智能体、单一模型范式中特定且可识别的局限性。在这种架构中,一个单体的大型语言模型(LLM)承担了全部的认知负荷:理解用户意图、识别正确工具、格式化 API 调用、执行操作并解析结果。这种方法天生脆弱,无法应对现实世界的复杂性,并因以下原因直接导致了可靠性和可扩展性危机:
create_event 与 update_event)、生成精确的语法并处理错误。这种多任务的负担降低了其“思考”的质量,导致决策不佳。要解决这个工具瓶颈,需要从单体模型转向根本性的架构变革。这正是 Jenova 所开创的道路。早在去年初,“工具使用”成为主流概念之前,Jenova 就已经开始着手解决这个具体问题。Jenova 认识到,真正的可扩展性和可靠性无法仅通过简单的架构或系统创新来实现。相反,它需要多年复合的工程经验和积累,并执着地专注于一个目标:让多智能体架构能够可靠且可扩展地使用工具。
这个新范式以专有的多智能体、专家混合(MoE)系统为核心,旨在正面解决可靠性和可扩展性的双重挑战。以下是 Jenova 架构如何通过多年专注的工程实践解决该问题的技术分解:
这种方法的有效性已由 Jenova 的真实世界性能指标所证实。其报告的工具使用成功率高达 97.3%。关键在于,这并非来自受控基准测试或微调的实验室环境。这个指标反映的是在生产环境中的性能,涵盖了成千上万用户与众多 MCP 服务器和工具进行交互的、多样化且不受控的场景。
实现如此高的可靠性,不仅仅是复杂架构的结果。构建一个真正可扩展的智能体系统,最困难的部分在于确保无数种不同的工具能与来自不同实验室、基于不同数据训练的不同模型无缝协作。这构成了一个极其复杂的兼容性矩阵。解决这个问题好比制造喷气发动机:拥有蓝图是一回事,但要制造出能在真实压力下可靠运行的高性能引擎,则需要多年的专业知识、迭代以及深厚的复合工程经验。这种经过生产环境考验的稳健性,才是理论设计与功能性企业级系统之间的真正区别。
这一突破已获得 AI 社区关键人物的认可。MCP 生态系统中的杰出思想领袖和社区建设者、Acorn Labs 的联合创始人以及广受欢迎的 k3s Kubernetes 发行版的创造者 Darren Shepherd 观察到,这种架构有效地解决了核心问题。

实证数据和架构原则导向一个不容否认的结论:功能强大、可靠且可扩展的 AI 智能体的未来不可能是单体的。当前盛行的单一模型范式是导致工具瓶颈的直接原因,这个瓶颈正阻碍着 MCP 生态系统和整个智能体 AI 的发展。
尽管业内许多人试图从服务器端解决这个问题,但这种方法从根本上是错误的,因为它未能解决智能体认知能力有限的核心问题。真正的解决方案必须以智能体为中心。正如 Jenova 的成功所证明的,解决这个问题是可能的,但这远不止是提升模型的基础能力或增加一个轻量级的逻辑层。它需要向复杂的、以智能体为中心的架构进行范式转变,这种架构建立在深厚的、复合的工程和架构专业知识之上,并专门针对智能体系统的独特挑战。