01 引言:LLM应用的可观测性之痛在过去一年里,我先后参与了三个基于大语言模型的工程项目。从最初简单的RAG问答系统,到后来复杂的多Agent协作框架,一个痛点始终如影随形:当线上出现bad case时,我根本不知道发生了什么。传统后端监控工具(Prometheus、Grafana、ELK)擅长监控CPU、内存、QPS、错误率,但对于LLM应用来说,这些指标远远不够。你需要知道的是:这次调用用了哪个prompt版本?消耗了多少token?花了多少钱?为什么LLM返回了这个结果?Agent在哪个步骤走了岔路?2026年3月,Langfuse正式发布了v4版本,将数据模型从“trace-centric”全面转向“observation-centric”。这一架构变革,恰好回应了Agentic应用爆发式增长带来的可观测性挑战。本文基于Langfuse v4(2026年3月发布)、Python SDK v4.7.1(2026年5月)、JS SDK v5.4.1(2026年5月)等最新版本撰写。所有代码示例和配置均可在Langfuse官方文档及GitHub仓库中验证。02 LangFuse是什么?根据Langfuse官方文档的定义,Langfuse是一个开源AI工程平台(GitHub),帮助团队协作调试、分析和迭代LLM应用
接入 LangFuse 实现全链路可观测:Token 消耗追踪、调用链分析与成本核算
01 引言:LLM应用的可观测性之痛在过去一年里,我先后参与了三个基于大语言模型的工程项目。从最初简单的RAG问答系统,到后来复杂的多Agent协作框架,一个痛点始终如影随形:当线上出现bad case时,我根本不知道发生了什么。传统后端监控工具(Prometheus、Grafana、ELK)擅长监控CPU、内存、QPS、错误率,但对于LLM应用来说,这些指标远远不够。你需要知道的是:这次调用用了哪个prompt版本?消耗了多少token?花了多少钱?为什么LLM返回了这个结果?Agent在哪个步骤走了岔路?2026年3月,Langfuse正式发布了v4版本,将数据模型从“trace-centric”全面转向“observation-centric”。这一架构变革,恰好回应了Agentic应用爆发式增长带来的可观测性挑战。本文基于Langfuse v4(2026年3月发布)、Python SDK v4.7.1(2026年5月)、JS SDK v5.4.1(2026年5月)等最新版本撰写。所有代码示例和配置均可在Langfuse官方文档及GitHub仓库中验证。02 LangFuse是什么?根据Langfuse官方文档的定义,Langfuse是一个开源AI工程平台(GitHub),帮助团队协作调试、分析和迭代LLM应用