self-healing-server¶

Skill 简介¶

Self-Healing Server 是一个基于 OpenClaw 的 AI 基础设施恢复工具，旨在帮助开发者和运维团队实现服务器的高效管理和自动化故障处理。随着现代应用对服务器稳定性和持续运行的要求日益提高，传统的人工运维方式已难以满足需求。Self-Healing Server 通过实时监控服务器的各项关键指标（如 CPU、内存、磁盘和网络等），自动检测常见故障并执行修复措施，从而减少系统宕机时间，提高整体可用性。它就像一位不知疲倦的“值班工程师”，在凌晨三点也能迅速处理 Docker 容器崩溃、磁盘空间不足以及僵尸进程等问题，让开发者无需再为这些重复性工作而烦恼。

主要功能¶

1. 系统健康监控与自动修复

Self-Healing Server 持续监控系统各项关键指标，包括 CPU 使用率、内存占用、磁盘空间、网络连接状态以及进程数量等。当检测到异常情况时，例如 CPU 使用率超过设定的阈值（默认 95% 为严重级别），它会立即触发相应的自动修复流程。例如，对于内存占用过高的问题，它会尝试重启相关服务或清理临时文件，以恢复正常运行。

核心功能代码示例：

thresholds:
  cpu_warning: 80%
  cpu_critical: 95%
  memory_warning: 85%
  memory_critical: 95%

2. Docker 容器管理与故障恢复

该 Skill 集成了对 Docker 容器的全面监控和管理功能。它能够实时检查容器的健康状态，例如通过访问容器的健康检查端点（如 http://localhost:18789/health）来判断容器是否正常运行。一旦检测到容器异常退出（例如因内存不足而被杀死），它会按照预定的规则自动重启容器，并采用指数退避算法来避免频繁重启。如果容器在一定时间内连续失败多次（例如 3 次），它会停止自动恢复并发出警报，通知人工介入。

3. 磁盘空间管理与自动清理

Self-Healing Server 提供了强大的磁盘空间管理功能。它会定期分析磁盘使用情况，并在磁盘空间超过设定的阈值（例如 90%）时，自动执行清理操作。清理内容包括删除旧的日志文件（保留最近 7 天的日志）、移除未使用的 Docker 镜像以及清理临时文件等。此外，用户还可以手动触发磁盘清理操作，例如通过命令立即释放磁盘空间。

4. 进程监控与僵尸进程处理

该 Skill 具备对系统进程的实时监控能力，能够识别并处理僵尸进程、内存泄漏以及 CPU 占用过高等问题。当检测到僵尸进程时，它会尝试自动杀死相关进程并重启相应的服务，确保系统资源的合理利用。

5. SSL 证书监控与自动续订

为了保障服务器的网络安全，Self-Healing Server 还集成了 SSL 证书监控功能。它会定期检查证书的有效期，并在证书即将过期（例如 7 天内到期）时，自动触发续订流程（例如使用 Certbot 进行续订），从而避免因证书过期导致的服务中断。

6. 数据库连接池监控与恢复

对于依赖数据库的应用，Self-Healing Server 提供了数据库连接池的监控功能。它能够检测连接池的状态，并在连接池异常时尝试恢复连接，例如重启数据库服务或重置连接池，以确保应用的正常运行。

使用场景¶

自动化运维平台：对于需要 24/7 稳定运行的线上应用，Self-Healing Server 可以作为自动化运维平台的一部分，实时监控系统状态并自动处理常见故障，减少人工干预，提高运维效率。
容器化部署环境：在 Docker 等容器化部署环境中，Self-Healing Server 可以有效监控和管理容器生命周期，自动处理容器崩溃、内存不足等问题，确保容器化应用的稳定运行。
资源受限的服务器环境：对于资源有限的服务器（例如 VPS），Self-Healing Server 的磁盘清理和进程管理功能可以帮助优化资源使用，避免因磁盘空间不足或进程异常导致的服务器宕机。
多服务器集群管理：在多服务器集群环境中，Self-Healing Server 可以集中监控和管理所有服务器的运行状态，自动处理单个服务器的故障，确保整个集群的稳定性和可用性。
开发与测试环境：在开发和测试环境中，Self-Healing Server 可以帮助快速恢复系统状态，例如自动重启服务或清理磁盘空间，提高开发和测试效率。

如何使用¶

安装¶

首先，确保系统已安装 Python 3.6 及以上版本。然后，使用 pip 安装 OpenClaw：

pip install openclaw

配置¶

创建一个配置文件 self_healing_server.yaml，并根据需求配置各项参数。以下是一个示例配置：

thresholds:
  cpu_warning: 80%
  cpu_critical: 95%
  memory_warning: 85%
  memory_critical: 95%
  disk_warning: 80%
  disk_critical: 90%
  container_restart_limit: 3

services:
  - name: "openclaw-gateway"
    type: "docker"
    container: "openclaw_gateway"
    health_check: "http://localhost:18789/health"
  - name: "postgresql"
    type: "systemd"
    unit: "postgresql.service"
    health_check: "pg_isready"
  - name: "nginx"
    type: "systemd"
    unit: "nginx.service"
    health_check: "curl -s http://localhost:80"

auto_remediate:
  - trigger: "container_exited"
    action: "docker restart"
    max_retries: 3
    backoff: "exponential"
  - trigger: "disk_above_90%"
    action: "cleanup_routine"
    targets: ["docker_images", "old_logs", "tmp_files"]
  - trigger: "process_zombie"
    action: "kill_and_restart"
  - trigger: "ssl_expiry_7d"
    action: "certbot_renew"

schedule:
  health_check: "*/5 * * * *"
  disk_cleanup: "0 3 * * *"
  weekly_report: "0 9 * * 1"

启动服务¶

使用以下命令启动 Self-Healing Server：

openclaw start --config self_healing_server.yaml

示例¶

示例 1：自动重启 Docker 容器¶

假设 Docker 容器 openclaw_gateway 因内存不足而崩溃，Self-Healing Server 会自动检测到该事件并执行以下操作：

docker restart openclaw_gateway

并在日志中记录以下信息：

[Auto-Remediation] Container 'openclaw_gateway' exited with code 137 (OOM killed). Restarting...

示例 2：磁盘空间清理¶

当磁盘使用率超过 90% 时，Self-Healing Server 会自动执行清理操作，并记录清理结果：

# 清理 Docker 未使用的镜像
docker image prune -a

# 清理旧日志
rm -rf /var/log/*.log

# 清理临时文件
rm -rf /tmp/*

清理完成后，Self-Healing Server 会生成以下报告：

Disk Cleanup Report:
- Docker unused images: 2.8 GB
- Old logs (>7 days): 1.2 GB
- Temp files (/tmp): 0.3 GB
- Total freed: 4.7 GB

总结¶

Self-Healing Server 是一个功能强大的自动化运维工具，能够帮助开发者和运维团队有效监控和管理服务器资源，自动处理常见故障，提高系统稳定性和可用性。无论是对于需要 24/7 稳定运行的线上应用，还是资源受限的服务器环境，Self-Healing Server 都能提供可靠的解决方案。对于那些希望减少人工干预、提高运维效率的团队来说，Self-Healing Server 是一个值得尝试的工具。

self-healing-server