企业AI生产遇瓶颈,可观测性工具如何升级破局?

企业AI生产遇瓶颈,可观测性工具如何升级破局? AI可观测性现状与挑战这看似是个简单的问题但如今却没有令人满意的答案。随着企业纷纷将AI投入生产发现用于监控传统软件的工具无法直接应用于AI系统。根本原因在于AI出现故障的方式与软件不同它不会抛出清晰的错误代码也不遵循可预测的执行路径性能下降、产生幻觉和退化的方式往往微妙、具有间歇性且难以复现。结果是团队期望的可观测性与当前工具实际能提供的功能之间的差距越来越大。残酷的现实是我们如今使用的AI可观测性工具是为解决过去的问题而设计的。要了解该行业的发展方向需审视现状以及为何现有工具不够完善。当下的AI可观测性评估时代如今的AI可观测性领域由评估概念主导。大多数工具主要在事后对模型输出进行评分依靠测试数据集、人工评估人员或采用“大语言模型LLM作为评判者”的方法判断系统是否正常运行。这些评估流程有用能为模型质量提供基准帮助团队衡量改进情况。但它们有关键局限即静态、离线且回顾性强。评估只能告知模型在一组预定义输入上的表现无法说明生产环境中发生了什么因为生产环境输入不可预测上下文也可能变化。在评估过程中需捕捉长期交互、多步骤工作流以及由多个模型和工具组成的系统的行为。即使团队采用人工反馈也难大规模应用因为高质量反馈需要领域专业知识、一致性和时间而大多数工程团队往往缺乏这些。此外还需深入了解模型本身以及它们在生产环境中的运行方式以便识别错误来源并提供反馈比如是缺乏上下文、检索增强生成RAG实现不佳、模型本身问题还是错误的反馈影响了结果。目前已取得一些进展。OpenTelemetryOTel和LLM跟踪技术开始尝试为AI系统提供运行时可见性但这些只是初步尝试核心问题仍存在事后评估无法让人全面了解AI系统需要在它们运行时进行观测。安全转向护栏、个人身份信息PII和提示注入随着AI系统投入生产可观测性更多涉及风险管理。攻击面大幅扩大团队需应对提示注入攻击、越狱尝试、包括个人身份信息PII在内的敏感数据泄露、边缘情况输入引发的意外模型行为。为此一类新的“护栏”工具应运而生这些系统旨在实时监控输入和输出标记或阻止不安全的行为。理论上它们为用户和模型之间提供了一层安全保障但实际上情况更复杂。如今的大多数护栏工具是被动的依赖预定义的规则或分类器来捕捉已知模式但AI系统本质上是开放的对抗性输入变化迅速今天有效的方法明天可能失效。还有一个更根本的问题护栏工具的运行基于一个假设即已对系统有足够的可见性但实际上许多团队缺乏了解故障发生原因和方式所需的基础遥测数据这导致了护栏工具承诺的实时保护与实际能可靠提供的功能之间存在差距。要缩小这一差距需要重新思考可观测性本身。即将到来的转变从模型到智能体下一波AI浪潮围绕自主智能体展开。现在看到的不再是单个推理调用而是能编排多个模型、与外部工具和API交互并长时间执行多步骤工作流的系统。这些系统不仅能生成输出还能做出决策这彻底改变了可观测性问题。就像容器需要Kubernetes这样的编排平台才能实现大规模管理一样AI智能体也需要自己的可观测性和控制层。这个层必须超越对输入和输出的跟踪还需捕捉决策路径、工具使用情况、资源消耗、智能体之间的交互、随时间变化的行为而不仅仅是某个时间点的行为。从很多方面来看这与云原生可观测性的发展类似。我们从简单的指标发展到结合日志、指标和跟踪来理解分布式系统现在需要为智能体系统找到类似的方法。随着AI融入软件开发的整个生命周期从代码生成到测试再到运维可观测性正演变成一个为人类和机器提供信息的真相系统。只有当AI智能体能够访问丰富、高保真的生产环境上下文时它们才能构建、调试和改进系统而可观测性正是提供这种上下文的关键。内核空间可观测性为何至关重要AI可观测性的核心存在一个基本的信任问题。如果一个AI智能体负责报告自己的行为如何确保报告的准确性传统的可观测性很大程度上依赖于应用层的插桩但插桩可能不完整、配置错误、被意外绕过或本身就是错误的。随着AI系统开始自己生成代码这个问题变得更加严重。在插桩方面智能体的思维方式与人类工程师不同也不应被期望如此。因此对独立的带外可观测性的需求日益增长这就是eBPF等内核级方法变得至关重要的原因。通过在内核层面运行eBPF使团队能够在不修改应用代码的情况下捕捉系统行为、消除因缺少插桩而产生的盲点、确保所有工作负载包括人工驱动和AI生成的都具有一致的可见性。更重要的是eBPF提供了一个可信的真相来源。在合规、安全和可靠性不容置疑的高风险环境中这种独立性至关重要需要不受被观测系统影响的遥测数据。AI可观测性的三个需求如果现有工具存在不足接下来该怎么做呢答案是改变我们对可观测性的看法。1.行为异常检测传统的可观测性侧重于延迟、错误和资源利用率但AI系统需要从不同的角度来检测行为何时偏离预期即使没有明确的“错误”发生。2.防篡改审计跟踪随着AI系统承担更多责任必须能够重现决策过程。团队需要了解发生了什么更重要的是为什么会发生而且需要相信数据没有被篡改。3.动态自适应可观测性静态仪表盘和预定义指标已经不够用了。AI系统在不断变化的环境中运行可观测性必须能够实时调整数据收集、在发生事件时提高数据粒度、关注当下最重要的事情。最后可观测性必须直接集成到AI工作流中。仅仅将洞察呈现给人类操作员已经不够了同样的遥测数据必须能够被反馈到开发、调试和优化循环中的AI智能体所使用。可观测性应成为基础设施的一部分而非事后考虑我们仍处于AI可观测性发展的早期阶段。如今的大多数工具是现有范式为适应AI而进行的扩展而非为AI进行的根本性重新设计。可以预见它们只能解决部分问题而非全部。下一代系统将大不相同它们会将可观测性视为一个核心层使AI系统能够安全、高效且自主地运行。能够取得成功的团队将是那些尽早认识到这一转变的团队。最终在一个充满非确定性系统、长期工作流和自主智能体的世界里有一点变得很明确AI的可靠性与可观测性层密切相关。New Tech Forum为技术领导者包括供应商和其他外部贡献者提供了一个平台让他们能够以前所未有的深度和广度探索和讨论新兴的企业技术。内容选择是主观的基于对认为重要且对InfoWorld读者最有吸引力的技术的挑选。InfoWorld不接受用于发布的营销资料并保留对所有投稿内容进行编辑的权利。如有任何疑问请发送邮件至doug_dineleyfoundryco.com。标签Devops、软件开发、软件部署、人工智能、生成式AI