没有指标的代价Skill 变差了,你怎么知道?等到用户投诉,已经发生了多少次糟糕体验等到有人抱怨"AI 最近感觉变差了",无法定位是哪个 Skill、哪个维度等到业务指标下降,追溯成本极高有了指标,质量下降可以在用户感知之前被发现。L1/L2/L3 分层框架L3 — 系统健康(System Health) ↳ 可用率、时延、Token 消耗、错误率 ↳ 采集:每次调用自动记录 L2 — 输出质量(Output Quality) ↳ 格式合规率、LLM-as-Judge 质量分 ↳ 采集:定期抽样评测(高频 Skill 每天,低频每周) L1 — 业务价值(Business Outcome) ↳ 任务完成率、输出采纳率、用户评分 ↳ 采集:用户反馈 + 行为追踪三层依赖关系:L3 健康 → L2 质量 → L1 价值 L3 频繁超时 → L2 输出被截断 → L1 任务失败 L3 健康但 L2 质量差 → L1 用户不采纳 三层正常 → Skill 真正有价值L3 是基础,L2 是中间层,L1 是最终目标。报警时从 L3 往上排查,比从 L1 往下倒推快得多。Demo 设计测试对象:rnd-technical-writer,给定主题写 Markdown 技术文章。6 次调用覆盖中英文混合:ID输入(截断)语言T01Python asyncio event loop internalsENT02Redis 缓存穿透、击穿、雪崩CNT03Docker multi-stage buildsENT04LangGraph 状态管理入门教程CNT05HTTP/2 multiplexingENT06Rust 所有权模型(面向 Python 读者)CNL2 格式检查规则(代码检查,不依赖 LLM):defcheck_format(article:str)-tuple[bool,list[str]]:issues=[
Skill 系列(04):Skill 指标体系——L1/L2/L3 三层监控,让质量下降有据可查
没有指标的代价Skill 变差了,你怎么知道?等到用户投诉,已经发生了多少次糟糕体验等到有人抱怨"AI 最近感觉变差了",无法定位是哪个 Skill、哪个维度等到业务指标下降,追溯成本极高有了指标,质量下降可以在用户感知之前被发现。L1/L2/L3 分层框架L3 — 系统健康(System Health) ↳ 可用率、时延、Token 消耗、错误率 ↳ 采集:每次调用自动记录 L2 — 输出质量(Output Quality) ↳ 格式合规率、LLM-as-Judge 质量分 ↳ 采集:定期抽样评测(高频 Skill 每天,低频每周) L1 — 业务价值(Business Outcome) ↳ 任务完成率、输出采纳率、用户评分 ↳ 采集:用户反馈 + 行为追踪三层依赖关系:L3 健康 → L2 质量 → L1 价值 L3 频繁超时 → L2 输出被截断 → L1 任务失败 L3 健康但 L2 质量差 → L1 用户不采纳 三层正常 → Skill 真正有价值L3 是基础,L2 是中间层,L1 是最终目标。报警时从 L3 往上排查,比从 L1 往下倒推快得多。Demo 设计测试对象:rnd-technical-writer,给定主题写 Markdown 技术文章。6 次调用覆盖中英文混合:ID输入(截断)语言T01Python asyncio event loop internalsENT02Redis 缓存穿透、击穿、雪崩CNT03Docker multi-stage buildsENT04LangGraph 状态管理入门教程CNT05HTTP/2 multiplexingENT06Rust 所有权模型(面向 Python 读者)CNL2 格式检查规则(代码检查,不依赖 LLM):defcheck_format(article:str)-tuple[bool,list[str]]:issues=[