这项由ServiceNow研究院、Mila-魁北克人工智能研究所以及蒙特利尔大学联合开展的大规模研究于2026年3月发表通过编号arXiv:2603.13594v1可以查阅完整论文。研究团队构建了迄今为止最全面的企业级AI助手评测基准深入揭示了当前最先进的AI模型在真实工作环境中面临的根本性挑战。当我们谈论AI助手时很多人脑海中浮现的可能是能够回答问题、写邮件或总结文档的聊天机器人。但真正的企业级AI助手需要承担更复杂的任务——它们必须像熟练的办公室员工一样在多个系统之间协调工作严格遵守公司政策并且绝对不能出错。研究团队为了测试这些能力构建了一个名为EnterpriseOps-Gym的综合测试环境这就像是为AI助手建造的一个虚拟办公楼里面包含了真实企业中的各种部门和工作流程。研究结果令人警醒。即使是目前最强大的Claude Opus 4.5模型在这个测试环境中的成功率也仅有37.4%远低于企业实际应用所需的可靠性水平。更令人担忧的是当面对无法完成的任务时最好的模型也只能在53.9%的情况下正确拒绝执行这意味着在近一半的情况下AI助手会盲目尝试执行不可能或违反政策的操作可能对企业系统造成意外损害。这项研究的独特之处在于它模拟了真实企业环境的复杂性。研究团队与专业数据标注公司Turing合作招募了超过160名贡献者包括在客户服务管理、人力资源和IT服务管理方面的专业人士。他们共同构建了一个包含164个相互关联数据库表和512个功能工具的虚拟企业环境设计了1150个专家级任务涵盖八个核心业务领域。一、企业AI助手面临的真实挑战想象一下你刚入职一家大公司需要同时处理客户服务、人事管理、IT支持等多个部门的工作。每个部门都有自己的系统和规则而且这些规则之间经常相互影响。比如当你处理一个客户投诉时可能需要先查看客户的服务合同然后检查产品保修信息接着可能还要创建一个技术支持工单最后还要确保所有操作都符合公司的隐私政策。这就是现代企业AI助手每天面临的现实。研究团队发现当前的AI模型在处理这种多步骤、多系统的复杂任务时表现不佳。以客户服务管理为例AI助手需要像一名经验丰富的技术支持专员那样工作不仅要处理客户问题还要严格遵守服务级别协议验证客户权限管理物理或虚拟资产的安装并处理支持案例的状态转换。但研究发现即使是最先进的模型在这个领域的成功率也只有36.4%。更复杂的是跨部门协作任务研究称之为混合任务。这类任务要求AI助手在多个业务系统之间无缝切换就像一个万能的办公室助理既要懂技术支持又要会人事管理还得熟悉财务流程。在这种情况下最好的AI模型的成功率下降到了30.7%这表明当前的AI技术在处理真实企业环境的复杂性时仍然力不从心。研究还发现了一个令人深思的现象AI模型在简单的协作工具上表现相对较好比如在电子邮件、团队协作和文档管理方面顶级模型能达到51-52%的成功率。但一旦涉及政策约束较多的领域如IT服务管理和跨部门混合任务性能就会急剧下降。这说明AI助手虽然能够处理相对标准化的操作但在需要深度理解企业政策和复杂业务逻辑的场景中仍然存在根本性局限。二、详细的测试环境设计为了真实模拟企业环境研究团队构建的EnterpriseOps-Gym就像一个完整的虚拟公司生态系统。这个系统包含八个核心业务领域每个领域都有其独特的挑战和复杂性。在客户服务管理领域AI助手需要扮演技术支持运营专家的角色。它必须处理整个客户问题解决流程从问题接收到最终解决同时严格遵守服务级别协议。比如当一个VIP客户报告服务器问题时AI助手需要自动识别这是一个高优先级事件即使问题本身看似简单也要按照VIP客户的处理流程进行。这种业务逻辑的复杂性正是企业环境的特色。人力资源管理领域可能是所有测试领域中最敏感的。AI助手在这里需要像一个值得信赖的HR管理员处理员工生命周期管理和数据隐私合规。可见性规则在这里至关重要确保薪资或不当行为调查等敏感信息只能被适当的机密群体访问。研究团队设计了一些安全离职任务要求AI助手启动非自愿离职程序触发法律保留和取证任务并立即撤销所有物理和数字访问权限。这类任务测试的不仅是AI的执行能力更是它对企业安全和合规要求的理解。IT服务管理领域严格遵循ITIL标准AI助手需要扮演IT服务台工程师管理事件、问题、变更和配置项目等结构化记录。这个领域的推理往往是关系性和因果性的AI助手必须在复杂的实体关系图中导航将事件与其根本原因联系起来。例如在紧急变更实施任务中AI助手必须记录重大事件创建紧急变更请求以重启服务器然后解决事件。这种多步骤的关联操作正是现实企业IT管理的日常。三、惊人的测试结果分析研究团队测试了14个前沿AI模型结果令人深思。Claude Opus 4.5作为表现最好的模型其37.4%的总体成功率听起来可能不算太差但在企业环境中这意味着每10个任务中有超过6个会失败这样的可靠性显然无法满足实际部署需求。更细致的分析揭示了有趣的模式。模型在协作任务上的表现明显优于业务流程任务。具体来说在电子邮件、团队协作和云端硬盘管理等相对标准化的工具上顶级模型能够达到51-52%的成功率。但当涉及到需要深度理解业务规则的领域时性能就会显著下降IT服务管理只有28.5%跨部门混合任务只有30.7%。这个差异说明了什么实际上这反映了当前AI模型的一个根本特点它们更擅长处理相对简单、模式化的操作但在需要复杂推理和策略规划的场景中就显得力不从心。电子邮件和文档管理虽然也有复杂性但其操作模式相对固定而企业业务流程则充满了条件判断、异常处理和政策约束。开源模型的表现更加引人关注。最强的开源模型DeepSeek V3.2的成功率只有24.5%与闭源模型存在显著差距。但更重要的是所有模型在成本效益方面的表现。研究显示Gemini-3-Flash在闭源模型中提供了最佳的性价比以每任务0.03美元的成本达到31.9%的成功率而更昂贵的模型如GPT-5虽然成本更高每任务0.16美元但性能提升有限29.8%。关于拒绝不可行任务的测试结果特别值得关注。研究团队精心设计了30个不可行的任务这些任务由于工具不足、明确的政策违规或资源不可用而无法完成。结果显示即使是最好的模型也只能在53.9%的情况下正确拒绝这些任务。这意味着在近一半的情况下AI助手会尝试执行不可能或有害的操作可能对系统造成意外副作用。四、深入的失败模式分析研究团队不仅记录了模型的失败率更深入分析了失败的具体原因这为改进AI助手提供了宝贵的洞察。最常见的失败模式是缺少先决条件查找。AI模型经常调用创建数据库对象的工具但没有先查询必要的先决条件结果产生了带有断开外键链接的悬空记录。比如在需要为特定类别创建HR主题的任务中模型会跳过检索可用类别的步骤直接插入一个孤立的记录。这就像在烹饪时没有检查冰箱里有什么食材就开始做菜结果做出了一道缺少关键配料的失败料理。另一个重要的失败模式是级联状态传播失败。当某些状态转换发生时系统政策会要求触发后续行动但模型经常忘记执行这些必需的后续步骤。这类似于点燃了炉子但忘记放锅或者发送了会议邀请但忘记预订会议室。错误的ID解析也是一个频繁出现的问题。模型会将未经验证的标识符传递给工具调用而不是通过先前的工具交互来解析正确的ID。最后过早完成幻觉是指模型在所有必需步骤完成之前就声称任务已完成这种情况在复杂的多步骤任务中尤为常见。为了更系统地理解这些失败模式研究团队将验证检查分为三类任务完成验证检查是否实现了主要用户目标完整性约束验证检查系统是否保持一致状态和有效的外键关系权限和流程合规验证检查是否遵守了管理权限和程序规则的系统政策。结果显示模型在权限和流程合规方面表现最差这正是企业部署中最关键的安全考虑。五、规划能力是核心瓶颈研究中最重要的发现之一是确认了规划能力而非工具使用能力是当前AI助手的主要瓶颈。研究团队进行了一系列对照实验来验证这个结论。在计划条件执行基线测试中研究团队让专门的规划代理使用Claude Sonnet 4.5生成高级计划然后让单独的执行器执行工具操作。结果显示三个较弱的模型在所有测试领域都获得了6-13%的性能提升证实了规划质量确实是一个有意义的瓶颈。更令人印象深刻的是人工编写计划的实验。当研究团队为这些执行器模型提供人工编写的参考计划时性能提升达到了14-35个百分点几乎是自动规划改进的两倍。这个巨大的差距说明了什么它表明当策略推理被外化时主要的剩余挑战是忠实的指令遵循和精确的工具调用这两个能力现代语言模型无论规模大小都表现出了广泛的胜任力。这个发现还有一个有趣的含义较小的模型在配备人工计划的情况下能够与更大模型在相同条件下的性能相当或超越。这表明一旦策略推理被外化模型规模对执行质量的影响就大大降低了。为了进一步验证这个结论研究团队测试了添加干扰工具对性能的影响。他们让Claude Sonnet 4.5在增加5、10和15个干扰工具的情况下执行任务。令人惊讶的是性能保持了显著的稳定性平均完成率实际上轻微增加了约1%。这强烈支持了工具发现和选择不是主要瓶颈的观点。六、思考时间的影响研究团队还测试了增加思考预算对性能的影响使用GPT-OSS-120B模型在低、中、高三种思考预算下进行测试。结果显示增加思考预算在几乎所有领域都产生了显著的任务完成改进。在低思考预算下模型在复杂的服务和人员相关领域如客户服务管理、IT服务管理和人力资源方面几乎无法取得成功成功率接近零。但扩展到高预算后显著提升了能力在云端硬盘管理方面从8.6%提升到41%在日历管理方面从8.7%提升到35.6%在团队协作方面从4%提升到32%。然而研究也发现性能扩展并不是普遍单调的。例如电子邮件处理在中等预算时达到峰值45.2%然后略有回退而IT服务管理很早就达到平台期。这表明仅仅分配更多思考token并不能普遍克服某些工作流程中的基本能力瓶颈。七、多智能体系统的限制为了探索更复杂的解决方案研究团队评估了两种多智能体系统配置一个规划器加执行器系统以及一个规划器加分解加子任务执行器系统。规划器加执行器设置在条件自动生成计划上的ReAct基础上持续超越基线在客户服务管理方面产生10.7%的绝对收益在人力资源方面产生8.8%的收益。然而分解架构的鲁棒性较差。虽然它在IT服务管理方面提供了轻微提升但在客户服务管理和人力资源方面都出现了回归甚至在客户服务管理中低于基础ReAct性能。这种情况与EnterpriseOps-Gym任务具有强顺序状态依赖关系是一致的分解会破坏这种依赖关系。最终自动化系统和带有人工计划的ReAct之间仍然存在相当大的差距这表明进展需要约束感知计划生成的进步而不仅仅是架构复杂性。八、成本效益权衡分析在实际企业部署中成本效益平衡是一个关键考虑因素。研究团队的分析显示了当前AI模型在这方面的现实图景。在闭源模型中Gemini-3-Flash提供了最强的实用权衡以每任务0.03美元的成本实现31.9%的性能比GPT-5等更昂贵的模型提供更高的成功率成本却只是后者的一小部分。在开源生态系统中DeepSeek V3.2和GPT-OSS-120B成为帕累托主导选项分别以0.014美元和0.015美元的成本实现24.5%和23.7%的性能。然而考虑到所有模型的成功率都低于40%这些系统还不够可靠无法在没有人工监督的情况下自主部署。对于最高的绝对可靠性Claude Opus 4.5仍然是首选尽管每任务需要0.36美元的高昂成本。九、任务复杂度对性能的影响研究团队分析了任务复杂度以预期步骤数衡量对模型性能的影响结果显示了一个令人担忧的趋势。所有模型的性能都随着任务复杂度的增加而一致下降反映了在多步骤序列中维护推理完整性的累积难度。闭源模型群体以Claude Opus 4.5为首表现出更大的韧性即使在平均性能从4步时的约35%下降到16步时的20%以下时仍保持性能领先。相比之下开源队列显示了更陡峭的下降像Kimi K2和GPT OSS 120B这样的模型在最大复杂度时收敛到接近10%的成功率。这种近乎普遍的趋势表明虽然当前模型可以处理短到中等的序列但长复杂度任务中的快速错误积累仍然是生产环境中自主可靠性的关键障碍。说到底这项研究让我们清醒地认识到尽管AI技术发展迅速但要让AI助手真正在企业环境中发挥作用我们还有很长的路要走。当前最先进的AI模型在面对真实企业工作的复杂性时表现出了明显的局限性。它们就像刚入职的实习生能够处理一些简单明确的任务但在需要深度理解业务逻辑、严格遵守政策规定的复杂场景中往往力不从心。更重要的是研究发现问题的根源主要不在于工具使用能力而在于策略规划能力。这就像是说AI助手知道怎么使用各种办公软件但不知道什么时候该用哪个软件以及如何将多个操作组合成一个完整的解决方案。这个发现为未来的AI助手改进指明了方向我们需要的不是更多更复杂的工具而是更好的规划和推理能力。对于普通企业用户来说这意味着在可预见的未来AI助手更可能作为人类员工的得力助手而不是完全的替代者。它们可以帮助处理一些标准化、重复性的工作但在涉及复杂决策和跨部门协调的任务中仍然需要人类的监督和干预。这样的发现某种程度上也为那些担心被AI完全取代的办公室工作者提供了一些安慰。对于AI技术的研究和开发者而言EnterpriseOps-Gym提供了一个宝贵的测试平台让他们能够在接近真实的企业环境中测试和改进AI系统。研究团队已经承诺将这个基准测试开源这意味着全球的研究者都能够使用这个工具来推进企业级AI助手的发展。随着企业对自动化需求的不断增长相信这项研究将激发更多针对性的技术突破。也许在不久的将来我们会看到专门针对策略规划、政策理解和跨系统协调优化的AI模型。那时真正可靠的企业AI助手才可能从科幻小说走进现实办公室。QAQ1EnterpriseOps-Gym是什么AEnterpriseOps-Gym是ServiceNow研究院等机构开发的企业级AI助手测试基准包含1150个专家设计的任务涵盖客户服务、人力资源、IT管理等八个业务领域用于评估AI模型在真实企业环境中的表现。Q2为什么最好的AI模型成功率只有37.4%A主要原因是企业环境的复杂性远超一般应用场景。AI助手需要在多个系统间协调工作、严格遵守政策规定、处理复杂的业务逻辑而当前AI模型在策略规划和跨系统状态管理方面存在根本性缺陷。Q3这个研究对普通企业用户有什么意义A研究表明当前AI助手还无法完全胜任复杂的企业工作更适合作为人类员工的辅助工具处理标准化任务。对于担心被AI取代的办公室工作者短期内AI更可能是协助者而非替代者。
ServiceNow实验室揭示当前模型在真实工作环境中的严重局限性
这项由ServiceNow研究院、Mila-魁北克人工智能研究所以及蒙特利尔大学联合开展的大规模研究于2026年3月发表通过编号arXiv:2603.13594v1可以查阅完整论文。研究团队构建了迄今为止最全面的企业级AI助手评测基准深入揭示了当前最先进的AI模型在真实工作环境中面临的根本性挑战。当我们谈论AI助手时很多人脑海中浮现的可能是能够回答问题、写邮件或总结文档的聊天机器人。但真正的企业级AI助手需要承担更复杂的任务——它们必须像熟练的办公室员工一样在多个系统之间协调工作严格遵守公司政策并且绝对不能出错。研究团队为了测试这些能力构建了一个名为EnterpriseOps-Gym的综合测试环境这就像是为AI助手建造的一个虚拟办公楼里面包含了真实企业中的各种部门和工作流程。研究结果令人警醒。即使是目前最强大的Claude Opus 4.5模型在这个测试环境中的成功率也仅有37.4%远低于企业实际应用所需的可靠性水平。更令人担忧的是当面对无法完成的任务时最好的模型也只能在53.9%的情况下正确拒绝执行这意味着在近一半的情况下AI助手会盲目尝试执行不可能或违反政策的操作可能对企业系统造成意外损害。这项研究的独特之处在于它模拟了真实企业环境的复杂性。研究团队与专业数据标注公司Turing合作招募了超过160名贡献者包括在客户服务管理、人力资源和IT服务管理方面的专业人士。他们共同构建了一个包含164个相互关联数据库表和512个功能工具的虚拟企业环境设计了1150个专家级任务涵盖八个核心业务领域。一、企业AI助手面临的真实挑战想象一下你刚入职一家大公司需要同时处理客户服务、人事管理、IT支持等多个部门的工作。每个部门都有自己的系统和规则而且这些规则之间经常相互影响。比如当你处理一个客户投诉时可能需要先查看客户的服务合同然后检查产品保修信息接着可能还要创建一个技术支持工单最后还要确保所有操作都符合公司的隐私政策。这就是现代企业AI助手每天面临的现实。研究团队发现当前的AI模型在处理这种多步骤、多系统的复杂任务时表现不佳。以客户服务管理为例AI助手需要像一名经验丰富的技术支持专员那样工作不仅要处理客户问题还要严格遵守服务级别协议验证客户权限管理物理或虚拟资产的安装并处理支持案例的状态转换。但研究发现即使是最先进的模型在这个领域的成功率也只有36.4%。更复杂的是跨部门协作任务研究称之为混合任务。这类任务要求AI助手在多个业务系统之间无缝切换就像一个万能的办公室助理既要懂技术支持又要会人事管理还得熟悉财务流程。在这种情况下最好的AI模型的成功率下降到了30.7%这表明当前的AI技术在处理真实企业环境的复杂性时仍然力不从心。研究还发现了一个令人深思的现象AI模型在简单的协作工具上表现相对较好比如在电子邮件、团队协作和文档管理方面顶级模型能达到51-52%的成功率。但一旦涉及政策约束较多的领域如IT服务管理和跨部门混合任务性能就会急剧下降。这说明AI助手虽然能够处理相对标准化的操作但在需要深度理解企业政策和复杂业务逻辑的场景中仍然存在根本性局限。二、详细的测试环境设计为了真实模拟企业环境研究团队构建的EnterpriseOps-Gym就像一个完整的虚拟公司生态系统。这个系统包含八个核心业务领域每个领域都有其独特的挑战和复杂性。在客户服务管理领域AI助手需要扮演技术支持运营专家的角色。它必须处理整个客户问题解决流程从问题接收到最终解决同时严格遵守服务级别协议。比如当一个VIP客户报告服务器问题时AI助手需要自动识别这是一个高优先级事件即使问题本身看似简单也要按照VIP客户的处理流程进行。这种业务逻辑的复杂性正是企业环境的特色。人力资源管理领域可能是所有测试领域中最敏感的。AI助手在这里需要像一个值得信赖的HR管理员处理员工生命周期管理和数据隐私合规。可见性规则在这里至关重要确保薪资或不当行为调查等敏感信息只能被适当的机密群体访问。研究团队设计了一些安全离职任务要求AI助手启动非自愿离职程序触发法律保留和取证任务并立即撤销所有物理和数字访问权限。这类任务测试的不仅是AI的执行能力更是它对企业安全和合规要求的理解。IT服务管理领域严格遵循ITIL标准AI助手需要扮演IT服务台工程师管理事件、问题、变更和配置项目等结构化记录。这个领域的推理往往是关系性和因果性的AI助手必须在复杂的实体关系图中导航将事件与其根本原因联系起来。例如在紧急变更实施任务中AI助手必须记录重大事件创建紧急变更请求以重启服务器然后解决事件。这种多步骤的关联操作正是现实企业IT管理的日常。三、惊人的测试结果分析研究团队测试了14个前沿AI模型结果令人深思。Claude Opus 4.5作为表现最好的模型其37.4%的总体成功率听起来可能不算太差但在企业环境中这意味着每10个任务中有超过6个会失败这样的可靠性显然无法满足实际部署需求。更细致的分析揭示了有趣的模式。模型在协作任务上的表现明显优于业务流程任务。具体来说在电子邮件、团队协作和云端硬盘管理等相对标准化的工具上顶级模型能够达到51-52%的成功率。但当涉及到需要深度理解业务规则的领域时性能就会显著下降IT服务管理只有28.5%跨部门混合任务只有30.7%。这个差异说明了什么实际上这反映了当前AI模型的一个根本特点它们更擅长处理相对简单、模式化的操作但在需要复杂推理和策略规划的场景中就显得力不从心。电子邮件和文档管理虽然也有复杂性但其操作模式相对固定而企业业务流程则充满了条件判断、异常处理和政策约束。开源模型的表现更加引人关注。最强的开源模型DeepSeek V3.2的成功率只有24.5%与闭源模型存在显著差距。但更重要的是所有模型在成本效益方面的表现。研究显示Gemini-3-Flash在闭源模型中提供了最佳的性价比以每任务0.03美元的成本达到31.9%的成功率而更昂贵的模型如GPT-5虽然成本更高每任务0.16美元但性能提升有限29.8%。关于拒绝不可行任务的测试结果特别值得关注。研究团队精心设计了30个不可行的任务这些任务由于工具不足、明确的政策违规或资源不可用而无法完成。结果显示即使是最好的模型也只能在53.9%的情况下正确拒绝这些任务。这意味着在近一半的情况下AI助手会尝试执行不可能或有害的操作可能对系统造成意外副作用。四、深入的失败模式分析研究团队不仅记录了模型的失败率更深入分析了失败的具体原因这为改进AI助手提供了宝贵的洞察。最常见的失败模式是缺少先决条件查找。AI模型经常调用创建数据库对象的工具但没有先查询必要的先决条件结果产生了带有断开外键链接的悬空记录。比如在需要为特定类别创建HR主题的任务中模型会跳过检索可用类别的步骤直接插入一个孤立的记录。这就像在烹饪时没有检查冰箱里有什么食材就开始做菜结果做出了一道缺少关键配料的失败料理。另一个重要的失败模式是级联状态传播失败。当某些状态转换发生时系统政策会要求触发后续行动但模型经常忘记执行这些必需的后续步骤。这类似于点燃了炉子但忘记放锅或者发送了会议邀请但忘记预订会议室。错误的ID解析也是一个频繁出现的问题。模型会将未经验证的标识符传递给工具调用而不是通过先前的工具交互来解析正确的ID。最后过早完成幻觉是指模型在所有必需步骤完成之前就声称任务已完成这种情况在复杂的多步骤任务中尤为常见。为了更系统地理解这些失败模式研究团队将验证检查分为三类任务完成验证检查是否实现了主要用户目标完整性约束验证检查系统是否保持一致状态和有效的外键关系权限和流程合规验证检查是否遵守了管理权限和程序规则的系统政策。结果显示模型在权限和流程合规方面表现最差这正是企业部署中最关键的安全考虑。五、规划能力是核心瓶颈研究中最重要的发现之一是确认了规划能力而非工具使用能力是当前AI助手的主要瓶颈。研究团队进行了一系列对照实验来验证这个结论。在计划条件执行基线测试中研究团队让专门的规划代理使用Claude Sonnet 4.5生成高级计划然后让单独的执行器执行工具操作。结果显示三个较弱的模型在所有测试领域都获得了6-13%的性能提升证实了规划质量确实是一个有意义的瓶颈。更令人印象深刻的是人工编写计划的实验。当研究团队为这些执行器模型提供人工编写的参考计划时性能提升达到了14-35个百分点几乎是自动规划改进的两倍。这个巨大的差距说明了什么它表明当策略推理被外化时主要的剩余挑战是忠实的指令遵循和精确的工具调用这两个能力现代语言模型无论规模大小都表现出了广泛的胜任力。这个发现还有一个有趣的含义较小的模型在配备人工计划的情况下能够与更大模型在相同条件下的性能相当或超越。这表明一旦策略推理被外化模型规模对执行质量的影响就大大降低了。为了进一步验证这个结论研究团队测试了添加干扰工具对性能的影响。他们让Claude Sonnet 4.5在增加5、10和15个干扰工具的情况下执行任务。令人惊讶的是性能保持了显著的稳定性平均完成率实际上轻微增加了约1%。这强烈支持了工具发现和选择不是主要瓶颈的观点。六、思考时间的影响研究团队还测试了增加思考预算对性能的影响使用GPT-OSS-120B模型在低、中、高三种思考预算下进行测试。结果显示增加思考预算在几乎所有领域都产生了显著的任务完成改进。在低思考预算下模型在复杂的服务和人员相关领域如客户服务管理、IT服务管理和人力资源方面几乎无法取得成功成功率接近零。但扩展到高预算后显著提升了能力在云端硬盘管理方面从8.6%提升到41%在日历管理方面从8.7%提升到35.6%在团队协作方面从4%提升到32%。然而研究也发现性能扩展并不是普遍单调的。例如电子邮件处理在中等预算时达到峰值45.2%然后略有回退而IT服务管理很早就达到平台期。这表明仅仅分配更多思考token并不能普遍克服某些工作流程中的基本能力瓶颈。七、多智能体系统的限制为了探索更复杂的解决方案研究团队评估了两种多智能体系统配置一个规划器加执行器系统以及一个规划器加分解加子任务执行器系统。规划器加执行器设置在条件自动生成计划上的ReAct基础上持续超越基线在客户服务管理方面产生10.7%的绝对收益在人力资源方面产生8.8%的收益。然而分解架构的鲁棒性较差。虽然它在IT服务管理方面提供了轻微提升但在客户服务管理和人力资源方面都出现了回归甚至在客户服务管理中低于基础ReAct性能。这种情况与EnterpriseOps-Gym任务具有强顺序状态依赖关系是一致的分解会破坏这种依赖关系。最终自动化系统和带有人工计划的ReAct之间仍然存在相当大的差距这表明进展需要约束感知计划生成的进步而不仅仅是架构复杂性。八、成本效益权衡分析在实际企业部署中成本效益平衡是一个关键考虑因素。研究团队的分析显示了当前AI模型在这方面的现实图景。在闭源模型中Gemini-3-Flash提供了最强的实用权衡以每任务0.03美元的成本实现31.9%的性能比GPT-5等更昂贵的模型提供更高的成功率成本却只是后者的一小部分。在开源生态系统中DeepSeek V3.2和GPT-OSS-120B成为帕累托主导选项分别以0.014美元和0.015美元的成本实现24.5%和23.7%的性能。然而考虑到所有模型的成功率都低于40%这些系统还不够可靠无法在没有人工监督的情况下自主部署。对于最高的绝对可靠性Claude Opus 4.5仍然是首选尽管每任务需要0.36美元的高昂成本。九、任务复杂度对性能的影响研究团队分析了任务复杂度以预期步骤数衡量对模型性能的影响结果显示了一个令人担忧的趋势。所有模型的性能都随着任务复杂度的增加而一致下降反映了在多步骤序列中维护推理完整性的累积难度。闭源模型群体以Claude Opus 4.5为首表现出更大的韧性即使在平均性能从4步时的约35%下降到16步时的20%以下时仍保持性能领先。相比之下开源队列显示了更陡峭的下降像Kimi K2和GPT OSS 120B这样的模型在最大复杂度时收敛到接近10%的成功率。这种近乎普遍的趋势表明虽然当前模型可以处理短到中等的序列但长复杂度任务中的快速错误积累仍然是生产环境中自主可靠性的关键障碍。说到底这项研究让我们清醒地认识到尽管AI技术发展迅速但要让AI助手真正在企业环境中发挥作用我们还有很长的路要走。当前最先进的AI模型在面对真实企业工作的复杂性时表现出了明显的局限性。它们就像刚入职的实习生能够处理一些简单明确的任务但在需要深度理解业务逻辑、严格遵守政策规定的复杂场景中往往力不从心。更重要的是研究发现问题的根源主要不在于工具使用能力而在于策略规划能力。这就像是说AI助手知道怎么使用各种办公软件但不知道什么时候该用哪个软件以及如何将多个操作组合成一个完整的解决方案。这个发现为未来的AI助手改进指明了方向我们需要的不是更多更复杂的工具而是更好的规划和推理能力。对于普通企业用户来说这意味着在可预见的未来AI助手更可能作为人类员工的得力助手而不是完全的替代者。它们可以帮助处理一些标准化、重复性的工作但在涉及复杂决策和跨部门协调的任务中仍然需要人类的监督和干预。这样的发现某种程度上也为那些担心被AI完全取代的办公室工作者提供了一些安慰。对于AI技术的研究和开发者而言EnterpriseOps-Gym提供了一个宝贵的测试平台让他们能够在接近真实的企业环境中测试和改进AI系统。研究团队已经承诺将这个基准测试开源这意味着全球的研究者都能够使用这个工具来推进企业级AI助手的发展。随着企业对自动化需求的不断增长相信这项研究将激发更多针对性的技术突破。也许在不久的将来我们会看到专门针对策略规划、政策理解和跨系统协调优化的AI模型。那时真正可靠的企业AI助手才可能从科幻小说走进现实办公室。QAQ1EnterpriseOps-Gym是什么AEnterpriseOps-Gym是ServiceNow研究院等机构开发的企业级AI助手测试基准包含1150个专家设计的任务涵盖客户服务、人力资源、IT管理等八个业务领域用于评估AI模型在真实企业环境中的表现。Q2为什么最好的AI模型成功率只有37.4%A主要原因是企业环境的复杂性远超一般应用场景。AI助手需要在多个系统间协调工作、严格遵守政策规定、处理复杂的业务逻辑而当前AI模型在策略规划和跨系统状态管理方面存在根本性缺陷。Q3这个研究对普通企业用户有什么意义A研究表明当前AI助手还无法完全胜任复杂的企业工作更适合作为人类员工的辅助工具处理标准化任务。对于担心被AI取代的办公室工作者短期内AI更可能是协助者而非替代者。