跳转到主要内容
可靠的备份与恢复流程对保持节点可用性和防止数据丢失至关重要。本节将介绍要备份什么、备份频率、存储位置以及如何从故障中恢复。
计划备份存储为当前链上数据大小的 1.5–2 倍。备份操作执行期间通常会增加 10–20% 的 I/O 负载。

需要备份的内容

非验证者节点存储着继续运行所需的关键状态与配置数据。关键组件包括:
  • 区块链数据库
    存储完整的 Plasma 链状态。相比完全重新同步,备份速度要快得多。
  • 配置文件
    包括 Docker Compose 文件、.env 变量以及自定义脚本。
  • 密钥库与对等状态
    无需手动重新配置即可干净重启。可能包含认证令牌与网络元数据。

备份策略

频率

根据使用情况与风险情况设置备份间隔。对大多数非验证者节点而言,每日快照已经足够。高吞吐部署可能需要更频繁的备份,以最大限度减少故障期间的数据丢失。

存储注意事项

将备份存储在独立的基础设施上:云存储桶、远程主机或离线磁盘。避免将备份与主节点放在同一台机器上。
不要将备份与正在运行的节点存储在同一台物理机器上。单一硬件故障可能导致所有数据丢失。
为敏感数据实施备份加密,尤其是在使用外部存储提供商时。确保备份存储具有足够的容量满足保留要求与未来增长。

恢复场景

部分恢复

仅在某些文件受影响时使用针对性恢复:
  • 误改后恢复配置文件
  • 恢复已损坏的数据库,且无需重置同步进度
  • 重新应用对等状态,以保留现有的网络设置
部分恢复可减少停机时间,并避免完整的重新同步。

完整恢复

当节点或主机系统丢失时需要执行:
  1. 配置新机器或 VM
  2. 从备份恢复区块链数据库和配置
  3. 启动节点并重新加入网络
  4. 确认已与最新最终化区块同步
恢复时间将取决于数据大小、带宽和存储情况。

校验

定期验证备份的完整性:
  • 对已存储文件运行校验和验证
  • 在非关键基础设施上定期执行测试恢复
  • 监控备份成功率、耗时与数据大小

最佳实践

  • 自动化备份并在失败时告警
  • 对配置文件使用版本控制
  • 每季度测试一次恢复流程
  • 跟踪恢复时间以评估 RTO/RPO 目标

故障排查

备份失败

  • 检查磁盘空间、权限和存储连接
  • 查看日志中是否有 I/O 或超时错误

损坏检测

  • 定期校验校验和
  • 监控同步日志以发现数据库不一致的迹象

恢复性能

  • 通过使用高速存储和本地磁盘优化恢复
  • 如果存储后端支持,使用并行 I/O
完备的备份与恢复方案可防止数据丢失并最大限度减少停机时间。请定期测试、安全地存储备份,并遵循结构化的恢复流程,以保持可靠的节点运行。