日常巡检需覆盖机房三大维度:网络层、物理设备与机房环境。网络层应包括链路状态、路由表、BGP会话、丢包与延迟统计等;物理设备需检查交换机、路由器、服务器、UPS和机柜PDU的运行状态与告警;机房环境则关注温湿度、空调运行、门禁与防火系统。
建议将以下指标作为重点:链路抖动/丢包率、CPU/内存/磁盘使用率、接口错误与丢包计数、UPS负载与电池健康、温度阈值超限告警、空调备用切换状态。对接入cn2线路的链路应额外关注双向延迟与丢包。
例行巡检建议为:光纤链路与BGP会话实时监控,关键设备值班小时级检查,整体验厂(机房)环境日检,周检做一次全面日志与配置核对,月度进行容量与安全审计。对于影响SLA的问题设定高优先级并即时上报。
推荐部署集中的监控系统(如Zabbix/Prometheus+Alertmanager)用于设备与链路的指标收集。对接cn2链路应采集延迟、丢包、BGP状态与流量统计。告警应分级并通过短信/邮件/钉钉/PagerDuty等通道通知值班人员。
编写自动化脚本时,优先实现基础自检:接口状态汇总、路由表对比、设备版本与配置一致性、重要日志关键字检索。脚本需具备安全认证(SSH key)与超时重试机制,输出结构化结果并存入日志系统以便审计。
常用工具包括ping/traceroute/mtr、iperf、netstat/ss、SNMPwalk、ipmitool(用于服务器远程电源/温度检查)。建议建立标准化脚本仓库与CI流程,变更脚本前在测试环境回归验证并记录变更历史。
常见故障可分为四类:链路类(丢包/断链/高延迟)、硬件类(交换机/服务器/光模块故障)、环境类(空调、电源、火灾告警)、安全类(DDoS攻击或未授权接入)。每类故障有不同的首要判定点。
接到报警后按以下顺序判定:1) 验证告警真伪(是否为监控误报);2) 确认影响范围(单端口、单交换机或整体链路);3) 收集关键指标(接口错误计数、CPU/温度、BGP邻居状态、PDU/UPS事件);4) 根据指标快速定位是链路、设备或环境问题。
例如体验到丢包时:先用mtr确认路径并定位哪个跃点丢包,再检查本端与对端接口错误计数,若为单接口错误则考虑物理链路或光模块故障;若多个点都异常则可能是上游链路或DDoS攻击。
SOP应划分为:发现与确认、分级与通知、临时隔离与快速恢复、根因定位与修复、事后复盘与文档化。每阶段明确责任人、时间节点与可执行动作清单。
1. 发现与确认:值班接到告警,先在监控中确认,查看相关日志并标注告警类型。2. 分级与通知:依据影响面与SLA将事件分为P1/P2/P3并通知对应工程与客户代表。3. 临时隔离与快速恢复:必要时进行流量切换、BGP路径切换、重启坏掉的设备或启用备用链路以尽快恢复服务。
快速恢复后进入根因分析阶段,收集完整日志、配置快照、流量抓包,判断根因并制定修复计划。任何配置修改需走变更控制流程,评估风险并在维护窗口执行,变更后进行回归验证。
沟通需遵循及时、透明、可追踪原则。重大事件应在规定时间内发送初次通报(包含影响范围、临时措施、预计影响时间),随后定期更新进展与恢复时间估计,事件结束后提交事后报告与改进措施。
关键告警、配置变更、操作记录与抓包数据应集中存储并设置访问权限。建议日志保存期限至少90天,重要事件的原始抓包和配置快照需长期归档并做备份,以支持后续审计和根因分析。
定期(建议至少半年一次)进行故障演练,模拟链路中断、BGP故障、UPS切换等场景,检验SOP与沟通流程。演练后形成复盘报告,更新手册与脚本,持续优化报警阈值与自动化恢复策略,以提升对cn2新加坡托管机房的应急能力。