用 JiuwenSwarm 搭建 SRE 智能值班体系:告警分级、根因分析与应急手册生成

用 JiuwenSwarm 搭建 SRE 智能值班体系:告警分级、根因分析与应急手册生成 背景凌晨 3 点手机被 PagerDuty 唤醒。你打开告警面板几十条 P1/P2 告警同时涌入CPU 飙升、磁盘 IO 等待拉满、接口超时…… 你需要快速判断哪个是根因、哪些是关联告警还要一边翻 Confluence 找应急手册。JiuwenSwarm提供了 Team 模式多智能体协作、Skill 技能系统、Heartbeat 心跳巡检、Cron 定时任务等能力可以帮助 SRE 团队构建智能值班体系。JiuwenSwarm 是基于 openJiuwen 框架构建的智能 AI Agent支持多智能体 Team 协作、技能扩展、心跳定时任务、多渠道接入等能力。官方站点https://www.openjiuwen.com代码仓库https://atomgit.com/openJiuwen核心能力介绍在动手之前先了解 JiuwenSwarm 中与 SRE 场景相关的几个核心能力Team 模式多智能体协作JiuwenSwarm 支持 Agent / Code / Team 三种运行模式。其中Team 模式支持配置 Leader 多个 Agent 的协作团队通过选择集群模式切换。Team 模式在config.yaml中配置modes: team: sre_oncall_team: # 团队名称 team_name: sre_oncall_team lifecycle: persistent teammate_mode: build_mode spawn_mode: inprocess leader: member_name: sre_leader display_name: SRE值班长 persona: 资深SRE工程师擅长告警分级、根因分析和应急响应协调 agents: leader: workspace: stable_base: true max_iterations: 200 completion_timeout: 600.0 workspace: enabled: true transport: type: inprocess storage: type: sqliteSkill 技能系统Skill 是 JiuwenSwarm 的可安装能力模块。每个 Skill 是一个包含SKILL.md的文件夹my-skill/ ├── SKILL.md # 技能定义必须 ├── references/ # 参考文档可选 └── scripts/ # 辅助脚本可选技能来源包括内置技能、SkillNet基于 GitHub、skillhub、ClawHub技能商店、本地导入。Heartbeat 心跳巡检JiuwenSwarm 的 Heartbeat 机制可以按固定间隔触发 Agent 执行任务。在HEARTBEAT.md中定义巡检任务Agent 会在每次心跳时读取并执行。配置位于config.yamlheartbeat: every: 3600 # 间隔秒数3600 每小时 target: web # 结果推送到哪个渠道 active_hours: # 生效时间段本地时间 start: 08:00 end: 22:00也支持 Web UI 直接编辑心跳配置和任务内容。Cron 定时任务Cron 功能支持创建定时执行的 Agent 任务在 Web UI 的Cron / Scheduled tasks面板中配置。支持标准 5 字段 cron 表达式结果可推送到 web、飞书等渠道。实操搭建 SRE 值班告警处理体系一、安装与初始化pip install jiuwenswarm jiuwenswarm-init初始化完成后工作空间位于~/.jiuwenswarm/可通过jiuwenswarm-start启动服务浏览器访问http://localhost:5173。二、配置 SRE 值班团队Team 模式编辑~/.jiuwenswarm/config/config.yaml在modes部分添加 Team 配置modes: team: sre_oncall_team: team_name: sre_oncall_team lifecycle: persistent teammate_mode: build_mode spawn_mode: inprocess leader: member_name: sre_leader display_name: SRE值班长 persona: 资深SRE工程师擅长告警分析。收到告警后你需要1)对告警进行分级P0-P3并去重关联告警2)进行根因分析输出根因假设和证据链3)生成包含诊断步骤、修复步骤、回滚方案的应急操作手册。所有分析结果以结构化格式输出。 agents: leader: workspace: stable_base: true max_iterations: 200 completion_timeout: 600.0 workspace: enabled: true transport: type: inprocess storage: type: sqlite说明Team 模式中 Leader 的persona字段定义了该角色的行为方式。我们在 persona 中注入了 SRE 告警分析的完整指令分级 → 根因分析 → 应急手册生成。启动或重启服务后在 Web 界面直接选择集群模式切换到团队模式。三、创建 SRE 告警分析技能Skill除了 Team 模式也可以创建一个专用的 Skill 来处理告警分析。方法 1本地创建 Skill 文件在~/.jiuwenswarm/agent/jiuwenswarm_workspace/skills/下创建技能目录cd ~/.jiuwenswarm/agent/jiuwenswarm_workspace/skills mkdir sre-alert-analysis创建SKILL.md--- name: sre-alert-analysis version: 1.0.0 description: SRE告警分析技能支持告警分级、根因分析和应急手册生成 tags: [sre, alert, monitoring, runbook] allowed_tools: [webSearch, readFile] --- # SRE 告警分析 当收到告警信息需要分析时按以下流程处理 ## 步骤 1. 告警分级按影响面和紧急程度将告警分为 P0全局不可用、P1核心功能受损、P2非核心异常、P3性能预警。将同一服务的关联告警归为一组并去重。 2. 根因分析对最高优先级的告警组使用 5-Whys 方法进行根因分析输出根因假设、置信度评分0-1.0和证据链。 3. 生成应急手册基于根因分析结果生成包含以下三部分的应急操作手册 - 诊断步骤用于确认问题的只读命令 - 修复步骤解决问题的操作命令 - 回滚方案修复失败时的回退操作方法 2通过 Web UI 导入在 Web 界面左侧栏 →Skills→Local import→ 选择上述技能文件夹即可安装。技能自演进JiuwenSwarm 支持技能自演进Skill Evolution。开启后Agent 会根据使用反馈自动优化 SKILL.md 内容。在config.yaml中配置evolution: enabled: true auto_scan: false # 建议先用手动 /evolve skill_base_dir: workspace/agent/skills四、配置心跳巡检Heartbeat编辑~/.jiuwenswarm/agent/jiuwenv_workspace/HEARTBEAT.md添加 SRE 巡检任务心跳任务 检查是否有新增的 P0/P1 级别告警 如有新告警按 sre-alert-analysis 技能流程进行分析 汇总过去一段时间的告警统计在config.yaml中调整心跳间隔SRE 值班场景建议缩短间隔heartbeat: every: 300 # 每 5 分钟巡检一次 target: web # 结果推送到 Web 界面 active_hours: # 24小时覆盖 start: 00:00 end: 23:59也可以在 Web UI 的Heartbeat面板中直接编辑配置和任务。五、配置定时告警汇总Cron在 Web UI 中打开Cron / Scheduled tasks→ 点击New jobnamedaily_alert_summarycron_expr0 9 * * *每天上午 9 点timezoneAsia/Shanghaitargetswebdescription汇总过去 24 小时的告警数据包括各级别告警数量、Top-5 频繁告警、未解决的 P0/P1 事件列表保存后Agent 会在每天 9:00 自动执行汇总任务。提示也可以通过对话创建定时任务。例如在对话框中说创建一个每天早上 9 点的定时任务汇总过去 24 小时告警统计推送到 web。实际使用示例场景数据库主从延迟引发的服务异常在 JiuwenSwarm 的 Web 对话框中直接切换到集群模式后模式后输入收到以下告警 [prod-db-master] MySQL replication lag 60s [prod-api-gateway] HTTP 500 rate spike to 15% [prod-cache-redis] connection pool exhausted [prod-api-gateway] response time P99 3s [monitor] disk usage 90% on /data partition (prod-db-master)Agent 响应示例告警分级根因分析应急操作手册相关资源openJiuwen 官方网站https://www.openjiuwen.comopenJiuwen 代码仓库https://atomgit.com/openJiuwen