用AI把“救火记录”变成可执行的SRE实战手册

👉 工具网址:https://runbookai.in

你有没有经历过这样的深夜:
– 报警响了,服务挂了;
– 手忙脚乱查日志、翻文档、问同事;
– 终于修好了,松一口气;
– 三个月后——同样的报警又响了。

不是没写过“修复步骤”,而是写的那篇文档:
– 要么太笼统:“重启Pod就行”(但没说哪个命名空间、哪个标签、会不会丢数据);
– 要么太私人:“我上次在dev-cluster上用kubectl patch -n default……”(可现在集群叫prod-v2,default命名空间早没了);
– 更常见的是:压根没写,或者写在飞书某条已折叠的聊天记录里。

RunbookAI 就是为终结这个循环而生的。

它不给你模板填空,也不让你从零写Markdown。你只需要告诉它你的真实技术栈(比如:AKS集群 + Node.js微服务 + PostgreSQL主从 + Prometheus+Alertmanager告警链),它就能自动生成带上下文、带命令、带风险提示、带验证步骤的可执行运行手册(Runbook)。

举个真实场景对比:
❌ 传统跑本(无效版):

“数据库连接超时 → 检查PostgreSQL”

✅ RunbookAI生成的跑本(片段示意):

# 【STEP 1】确认是否为主库连接异常(避免误操作从库)
kubectl exec -n prod-db pg-bouncer-0 -- psql -U monitor -c "SELECT pg_is_in_recovery();"
# ✅ 返回 'f' 表示是主库;若返回 't',请跳转「从库故障」分支

# 【STEP 2】检查主库连接数是否打满(常见原因)
kubectl exec -n prod-db postgres-primary-0 -- psql -U postgres -c "SELECT count(*) FROM pg_stat_activity;"
# ⚠️ 若 > 95% max_connections(当前配置为200),需先 kill 空闲长连接:

# 【STEP 3】安全清理 idle in transaction > 5min 的会话(附带确认命令)
kubectl exec -n prod-db postgres-primary-0 -- psql -U postgres -c "
  SELECT pid, now() - backend_start AS duration, state 
  FROM pg_stat_activity 
  WHERE state = 'idle in transaction' AND (now() - backend_start) > interval '5 minutes';
"
# 👉 若结果非空,执行:pg_terminate_backend(pid) —— 建议先手动确认PID再批量终止

所有命令都带中文注释,关键判断加✅/⚠️/👉图标引导,连“为什么这一步不能跳过”都写清楚。背后不是GPT胡编,而是基于SRE黄金信号(延迟、错误、流量、饱和度)、云平台API规范、主流数据库运维手册深度对齐生成的。

它不是知识库,是能直接粘贴进终端、按回车就能跑的排障流水线

你现在用的runbook,是“写给未来的自己看的备忘录”,
RunbookAI生成的,是“写给此刻正在值班的陌生同事用的生存指南”。

直达网址:runbookai.in

作加

类似文章