iSkills 原始文档
🔧

runbook-writer

Top Agent Skill


runbook-writer

Skill 简介

在现代复杂的 IT 基础设施中,运维团队经常面临各种突发事件,例如服务宕机、节点故障或数据库切换失败。面对这些情况,运维工程师需要在高压环境下快速定位问题、采取正确的解决步骤并确保系统恢复正常。然而,在没有详细操作指南的情况下,工程师可能会遗漏关键步骤,甚至导致问题恶化。runbook-writer 正是为了解决这一问题而设计的 Skill。

runbook-writer 是一个基于 OpenClaw 平台的智能工具,它能够将系统架构和历史事件转化为结构化的操作指南(即 runbook)。通过分析过去的故障和系统的当前配置,runbook-writer 能够生成包含详细步骤、CLI 命令、验证检查、回滚方案以及升级路径的完整文档。这不仅提高了运维效率,还减少了人为错误,确保任何值班工程师在紧急情况下都能有条不紊地处理问题。

主要功能

1. 生成结构化的操作指南
runbook-writer 能够将系统架构和历史事件转化为清晰、有序的操作指南。每个 runbook 都包含问题症状、解决步骤、CLI 命令、验证步骤、回滚方案和升级路径,确保工程师在处理问题时能够按照预定的流程进行操作。

2. 自动提取关键信息
该 Skill 能够自动从历史事件中提取关键信息,例如故障时间、影响范围、解决步骤等,并将其整合到新的 runbook 中。这不仅节省了手动编写文档的时间,还确保了信息的准确性和完整性。

3. 动态生成 CLI 命令
runbook-writer 能够根据不同的故障场景动态生成相应的 CLI 命令。例如,对于 Kubernetes 节点故障,它可以生成 kubectl drain 命令及相关参数,确保工程师能够快速执行正确的操作。

4. 提供验证和回滚方案
每个 runbook 都包含详细的验证步骤和回滚方案。工程师在执行完操作后,可以通过这些步骤确认问题是否解决,并在必要时快速回滚到之前的状态,避免对系统造成更大的影响。

5. 生成升级路径
在某些复杂情况下,工程师可能需要将问题升级到更高层级或联系特定的技术专家。runbook-writer 能够生成包含 SLA 计时器和沟通模板的升级路径,确保问题能够及时得到解决。

使用场景

1. 日常运维
在日常运维中,工程师可以使用 runbook-writer 生成常见故障的操作指南,例如服务宕机、节点故障、数据库切换失败等。这有助于提高运维效率,减少人为错误。

2. 突发事件处理
在突发事件发生时,runbook-writer 能够快速生成详细的操作指南,帮助工程师在高压环境下有条不紊地处理问题。例如,对于突发的 Kubernetes 节点故障,它可以生成包含 kubectl drain 命令的 runbook。

3. 知识管理
runbook-writer 可以将历史事件和解决方案整理成文档,方便团队成员共享和学习。这有助于新成员快速上手,也方便团队积累经验。

4. 系统升级和变更管理
在进行系统升级或变更时,runbook-writer 可以生成详细的操作步骤和验证步骤,确保升级过程顺利进行,并在出现问题时快速回滚。

5. 自动化运维
结合其他自动化工具,runbook-writer 可以实现运维流程的自动化。例如,它可以与监控工具集成,在检测到故障时自动生成并执行相应的 runbook。

如何使用

安装和配置

  1. 安装 OpenClaw CLI 工具
    首先,确保你已经安装了 OpenClaw CLI 工具。如果尚未安装,可以参考 OpenClaw 官方文档 进行安装。

  2. 创建工作目录
    bash mkdir -p ~/.openclaw/agents/runbook-writer/agent

  3. 复制配置文件
    SOUL.md 文件复制到工作目录中:
    bash cp SOUL.md ~/.openclaw/agents/runbook-writer/agent/

  4. 添加 runbook-writer Agent
    使用以下命令添加 runbook-writer Agent:
    bash openclaw agents add runbook-writer --workspace ~/.openclaw/agents/runbook-writer

前置条件

示例

示例 1:生成 Kubernetes 节点故障的 runbook

openclaw runbook-writer generate --request "Write a runbook for Kubernetes node not ready"

输出示例:

# Runbook: Kubernetes Node Not Ready

## Symptoms
- Kubernetes node is marked as NotReady.

## Prerequisites
- Access to Kubernetes cluster.
- kubectl installed and configured.

## Steps
1. Check node status:
   ```bash
   kubectl get nodes
   ```
2. Drain the node:
   ```bash
   kubectl drain <node-name> --ignore-daemonsets --delete-local-data
   ```
3. Verify the node is drained:
   ```bash
   kubectl get pods -o wide
   ```
4. Check for any issues:
   ```bash
   kubectl describe node <node-name>
   ```
5. Bring the node back:
   ```bash
   kubectl uncordon <node-name>
   ```

## Verification
- Node is marked as Ready.
- All pods are running.

## Rollback
- If the issue persists, consider restarting the kubelet:
  ```bash
  sudo systemctl restart kubelet
  ```

## Escalation
- Contact the Kubernetes administrator if the issue continues.

示例 2:生成 RDS 故障的 runbook

openclaw runbook-writer generate --request "Convert last week's RDS failover incident into a runbook"

输出示例:

# Runbook: RDS Failover Incident

## Symptoms
- RDS instance failed over.

## Prerequisites
- Access to AWS console.
- AWS CLI installed and configured.

## Steps
1. Verify failover:
   ```bash
   aws rds describe-db-instances --db-instance-identifier <instance-id> --query "DBInstances[0].Status" --output text
   ```
2. Check for any alarms:
   ```bash
   aws cloudwatch describe-alarms --alarm-name-prefix RDS-
   ```
3. Review logs:
   ```bash
   aws rds describe-validators --db-instance-identifier <instance-id>
   ```
4. Perform failover if necessary:
   ```bash
   aws rds failover-db-instance --db-instance-identifier <instance-id>
   ```

## Verification
- RDS instance is available and accessible.
- No alarms are active.

## Rollback
- If failover fails, consider failing back to the original instance.

## Escalation
- Contact the DBA team if the issue continues.

总结

runbook-writer 是一个强大的工具,能够帮助运维团队快速生成详细且结构化的操作指南。它不仅提高了运维效率,还减少了人为错误,确保系统能够在突发事件中快速恢复正常。对于任何需要处理复杂 IT 基础设施的团队来说,runbook-writer 是一个不可或缺的工具。通过使用 runbook-writer,团队可以更好地管理知识、应对突发事件,并实现运维流程的自动化。

GitHub 参考 iSkills 专业中文解析 · 2026-03-22 更新

探索更多 Top Agent Skills