runbook-writer¶

Skill 简介¶

在现代复杂的 IT 基础设施中，运维团队经常面临各种突发事件，例如服务宕机、节点故障或数据库切换失败。面对这些情况，运维工程师需要在高压环境下快速定位问题、采取正确的解决步骤并确保系统恢复正常。然而，在没有详细操作指南的情况下，工程师可能会遗漏关键步骤，甚至导致问题恶化。runbook-writer 正是为了解决这一问题而设计的 Skill。

runbook-writer 是一个基于 OpenClaw 平台的智能工具，它能够将系统架构和历史事件转化为结构化的操作指南（即 runbook）。通过分析过去的故障和系统的当前配置，runbook-writer 能够生成包含详细步骤、CLI 命令、验证检查、回滚方案以及升级路径的完整文档。这不仅提高了运维效率，还减少了人为错误，确保任何值班工程师在紧急情况下都能有条不紊地处理问题。

主要功能¶

1. 生成结构化的操作指南
runbook-writer 能够将系统架构和历史事件转化为清晰、有序的操作指南。每个 runbook 都包含问题症状、解决步骤、CLI 命令、验证步骤、回滚方案和升级路径，确保工程师在处理问题时能够按照预定的流程进行操作。

2. 自动提取关键信息
该 Skill 能够自动从历史事件中提取关键信息，例如故障时间、影响范围、解决步骤等，并将其整合到新的 runbook 中。这不仅节省了手动编写文档的时间，还确保了信息的准确性和完整性。

3. 动态生成 CLI 命令
runbook-writer 能够根据不同的故障场景动态生成相应的 CLI 命令。例如，对于 Kubernetes 节点故障，它可以生成 kubectl drain 命令及相关参数，确保工程师能够快速执行正确的操作。

4. 提供验证和回滚方案
每个 runbook 都包含详细的验证步骤和回滚方案。工程师在执行完操作后，可以通过这些步骤确认问题是否解决，并在必要时快速回滚到之前的状态，避免对系统造成更大的影响。

5. 生成升级路径
在某些复杂情况下，工程师可能需要将问题升级到更高层级或联系特定的技术专家。runbook-writer 能够生成包含 SLA 计时器和沟通模板的升级路径，确保问题能够及时得到解决。

使用场景¶

1. 日常运维
在日常运维中，工程师可以使用 runbook-writer 生成常见故障的操作指南，例如服务宕机、节点故障、数据库切换失败等。这有助于提高运维效率，减少人为错误。

2. 突发事件处理
在突发事件发生时，runbook-writer 能够快速生成详细的操作指南，帮助工程师在高压环境下有条不紊地处理问题。例如，对于突发的 Kubernetes 节点故障，它可以生成包含 kubectl drain 命令的 runbook。

3. 知识管理
runbook-writer 可以将历史事件和解决方案整理成文档，方便团队成员共享和学习。这有助于新成员快速上手，也方便团队积累经验。

4. 系统升级和变更管理
在进行系统升级或变更时，runbook-writer 可以生成详细的操作步骤和验证步骤，确保升级过程顺利进行，并在出现问题时快速回滚。

5. 自动化运维
结合其他自动化工具，runbook-writer 可以实现运维流程的自动化。例如，它可以与监控工具集成，在检测到故障时自动生成并执行相应的 runbook。

如何使用¶

安装和配置¶

安装 OpenClaw CLI 工具
首先，确保你已经安装了 OpenClaw CLI 工具。如果尚未安装，可以参考 OpenClaw 官方文档进行安装。
创建工作目录
bash mkdir -p ~/.openclaw/agents/runbook-writer/agent
复制配置文件
将 SOUL.md 文件复制到工作目录中：
bash cp SOUL.md ~/.openclaw/agents/runbook-writer/agent/
添加 runbook-writer Agent
使用以下命令添加 runbook-writer Agent：
bash openclaw agents add runbook-writer --workspace ~/.openclaw/agents/runbook-writer

前置条件¶

系统架构文档
确保你有最新的系统架构文档，以便 runbook-writer 能够准确生成 runbook。
历史事件记录
提供详细的历史事件记录，以便 runbook-writer 能够提取关键信息。

示例¶

示例 1：生成 Kubernetes 节点故障的 runbook¶

openclaw runbook-writer generate --request "Write a runbook for Kubernetes node not ready"

输出示例：

# Runbook: Kubernetes Node Not Ready

## Symptoms
- Kubernetes node is marked as NotReady.

## Prerequisites
- Access to Kubernetes cluster.
- kubectl installed and configured.

## Steps
1. Check node status:
   ```bash
   kubectl get nodes
   ```
2. Drain the node:
   ```bash
   kubectl drain <node-name> --ignore-daemonsets --delete-local-data
   ```
3. Verify the node is drained:
   ```bash
   kubectl get pods -o wide
   ```
4. Check for any issues:
   ```bash
   kubectl describe node <node-name>
   ```
5. Bring the node back:
   ```bash
   kubectl uncordon <node-name>
   ```

## Verification
- Node is marked as Ready.
- All pods are running.

## Rollback
- If the issue persists, consider restarting the kubelet:
  ```bash
  sudo systemctl restart kubelet
  ```

## Escalation
- Contact the Kubernetes administrator if the issue continues.

示例 2：生成 RDS 故障的 runbook¶

openclaw runbook-writer generate --request "Convert last week's RDS failover incident into a runbook"