用AI把“救火记录”变成可执行的SRE实战手册

你有没有经历过这样的深夜：
– 报警响了，服务挂了；
– 手忙脚乱查日志、翻文档、问同事；
– 终于修好了，松一口气；
– 三个月后——同样的报警又响了。

不是没写过“修复步骤”，而是写的那篇文档：
– 要么太笼统：“重启Pod就行”（但没说哪个命名空间、哪个标签、会不会丢数据）；
– 要么太私人：“我上次在dev-cluster上用kubectl patch -n default……”（可现在集群叫prod-v2，default命名空间早没了）；
– 更常见的是：压根没写，或者写在飞书某条已折叠的聊天记录里。

RunbookAI 就是为终结这个循环而生的。

它不给你模板填空，也不让你从零写Markdown。你只需要告诉它你的真实技术栈（比如：AKS集群 + Node.js微服务 + PostgreSQL主从 + Prometheus+Alertmanager告警链），它就能自动生成带上下文、带命令、带风险提示、带验证步骤的可执行运行手册（Runbook）。

举个真实场景对比：
❌ 传统跑本（无效版）：

“数据库连接超时 → 检查PostgreSQL”

✅ RunbookAI生成的跑本（片段示意）：

# 【STEP 1】确认是否为主库连接异常（避免误操作从库）
kubectl exec -n prod-db pg-bouncer-0 -- psql -U monitor -c "SELECT pg_is_in_recovery();"
# ✅ 返回 'f' 表示是主库；若返回 't'，请跳转「从库故障」分支

# 【STEP 2】检查主库连接数是否打满（常见原因）
kubectl exec -n prod-db postgres-primary-0 -- psql -U postgres -c "SELECT count(*) FROM pg_stat_activity;"
# ⚠️ 若 > 95% max_connections（当前配置为200），需先 kill 空闲长连接：

# 【STEP 3】安全清理 idle in transaction > 5min 的会话（附带确认命令）
kubectl exec -n prod-db postgres-primary-0 -- psql -U postgres -c "
  SELECT pid, now() - backend_start AS duration, state 
  FROM pg_stat_activity 
  WHERE state = 'idle in transaction' AND (now() - backend_start) > interval '5 minutes';
"
# 👉 若结果非空，执行：pg_terminate_backend(pid) —— 建议先手动确认PID再批量终止

所有命令都带中文注释，关键判断加✅/⚠️/👉图标引导，连“为什么这一步不能跳过”都写清楚。背后不是GPT胡编，而是基于SRE黄金信号（延迟、错误、流量、饱和度）、云平台API规范、主流数据库运维手册深度对齐生成的。

它不是知识库，是能直接粘贴进终端、按回车就能跑的排障流水线。

你现在用的runbook，是“写给未来的自己看的备忘录”，
RunbookAI生成的，是“写给此刻正在值班的陌生同事用的生存指南”。

直达网址：runbookai.in

用AI把“救火记录”变成可执行的SRE实战手册

每天自动发一篇博客：零手动日更的 GitHub Actions + Claude 流水线实战

开发者实测：2026年免费AI改写工具横向对比，只有一款能打

我试了12个静态网站生成器，只推荐这3个（附实测性能对比）

2026年项目管理神仙打架：Hive vs ClickUp，谁才是团队真正能用的工具？

手把手教你为Open Claw安装自定义技能，AI Agent从此更懂你

必须经过指定点的最大和非递减子序列（带 checkpoint 的 LIS 变种）

类似文章