在实际运维中,台湾CN2常见的故障类型包括:物理链路抖动或断链、接口丢包、BGP邻居不稳定(会话掉线、路由泄露)、中间转发链路拥塞导致的高时延、以及对端运营商的路由策略变更引起的流量绕行。识别时优先关注链路/接口、路由表和端到端时延。
判断步骤可以按优先级进行:先用连续 ping 检查丢包与延迟是否在第一跳发生;若第一跳稳定但后续跳异常,倾向于路由或中间网络问题;若第一跳就有丢包或接口错误计数,倾向于链路或物理层问题。结合设备接口统计、光功率(SFP/光模块)和接口错误计数快速定位。
常用工具包括:ping(连通性与抖动)、traceroute(路由路径)、MTR(时延与丢包趋势)、SNMP/Netflow(流量与接口指标)、以及设备本地命令如show interfaces、show ip bgp/ipv6 bgp、show bgp summary。记得在排查时保存原始输出并标注时间戳,方便后续比对与上报。
跨ASN问题通常涉及到对端路由策略、社区(community)策略或中间承载链路。排查流程:先确认本端BGP路由是否正确广播;使用public looking glass或对端接入点的traceroute确认路径;查看是否存在AS_PATH变化或Route Leak;必要时与对端工程师交换BGP调试日志和prefix列表,一步步定位到发生问题的ASN或交换点。
沟通要点应包括:明确故障影响范围、提供时间线和已执行的排查步骤、共享关键日志与命令输出。记录方面需保存原始汇报、排查记录与变更清单。回滚策略要在每次变更前预置:明确回滚条件、触发者与回滚步骤,并在变更窗口内进行流量切换或配置回退,确保快速恢复并留存变更审计记录。