智能体灰度放量:按比例分流新旧版本

智能体灰度放量:按比例分流新旧版本 新版 prompt 改完别一把梭全量上先灰度。我吃过一次亏直接把客服智能体的 prompt 整个换掉上线两小时投诉翻倍因为新版在某类长问题上会胡乱截断回答。要是当时只放 5% 流量问题早就在小范围暴露了不至于全员翻车。下面是我现在固定用的灰度放量套路。核心按比例把请求分到两个版本灰度的本质就一件事——来一个请求按你设定的比例决定它走老版本还是新版本。比例从 5% 起步观察没问题再往上抬5% → 20% → 50% → 100%。分流的 key 很关键。别用随机数要用稳定 ID比如用户 ID 取哈希再取模。为什么我第一次图省事用random() 0.05来判结果同一个用户这次进新版、下次进老版回答风格忽冷忽热用户直接问你怎么换了个人似的。改成按用户 ID 哈希后同一个人始终落在同一版体验才连贯。桶 hash(user_id) % 100 if 桶 5: 走新版 else: 走老版灰度期间盯哪几个指标指标看什么我的红线错误率新版报错/超时比例不高于老版 1%回答长度是否异常变短/变长偏离均值不超 30%人工转接率用户放弃 AI 转人工不升负反馈点踩比例不升最容易被忽略的是回答长度。新 prompt 经常因为多塞了几句约束把模型管得太死回答突然变短用户觉得敷衍——这个光看错误率发现不了得单独盯。一个真实的取舍灰度放量天然慢。我有次老板催着要新版全量灰度才跑到 20%数据看着没问题但样本量不够。我顶着压力又压了一天才放结果第二天还真在 20% 里逮到一个低频 bug某种带表情符号的输入会让新版解析出错。慢确实慢但这一天换来不翻车值。还有个细节灰度切流量得能秒回滚。我把比例做成一个可热改的配置项发现不对直接拉回 0%老版立刻全接管不用重新发布。怎么搭的我用的是一个零代码就能搭智能体、还能发布成 API 的平台里面工作流支持加条件分支我就在入口节点按用户 ID 取模拉了两条路分别接新旧两套 prompt比例改配置就行。底层模型 API 我接的讯飞星辰MaaS现成调用省了自己维护模型服务。灰度不是麻烦是给你留的后悔药。