【剖析】交换机CPU告急:ARP Miss风暴的成因、诊断与立体防御

【剖析】交换机CPU告急:ARP Miss风暴的成因、诊断与立体防御 1. 当交换机突然发烧ARP Miss风暴现象全解析那天凌晨3点值班手机突然狂震。监控系统显示核心交换机的CPU使用率飙到98%整个办公区的网络时断时续。我边穿衣服边远程登录设备看到满屏的ARP Miss告警——又是这个熟悉的老朋友在搞事情。ARP Miss风暴就像网络世界的狼来了故事。当交换机收到需要转发的数据包时会先查ARP表找目标MAC地址。如果找不到对应条目Miss就会触发ARP请求广播。这本是正常流程但当每秒出现成千上万次ARP Miss时交换机CPU就会陷入处理这些请求的泥潭。典型症状有三联征CPU过载通过display cpu-usage能看到某个核的利用率长期高于90%临时ARP表爆炸display arp输出里满是Incomplete状态的表项业务卡顿ping测试时延波动大视频会议卡成PPT有次我给医院做巡检发现一台接入交换机CPU持续100%。查ARP表竟有300多个临时条目都是来自同一网段的IP。后来发现是某科室新装的体温监测终端在疯狂发送目标不可达的探测包。这种设备级联时如果配置不当就会变成网段扫描器。2. 抽丝剥茧ARP Miss的三大罪魁祸首2.1 网段扫描的机关枪效应某次金融客户割接后核心交换机突然CPU报警。用display arp anti-attack arpmiss-record-info一看有个IP在1分钟内发送了2万多次ARP Miss。原来是新部署的资产扫描系统把扫描间隔设成了0秒相当于用机关枪对着交换机扫射。网段扫描的特征非常明显源IP固定但目标IP连续变化每个包都会触发ARP查询常见于新上线设备或安全扫描工具HUAWEI display arp anti-attack arpmiss-record-info Interface IP address Attack time Block time GigabitEthernet1/0/0 192.168.1.100 2023-05-12 14:30:15 2023-05-12 14:35:152.2 TC报文引发的记忆丧失更隐蔽的是TC拓扑变更报文攻击。某学校网络每到课间就卡顿最后发现是某个接入交换机在发送伪造的TC报文。这会导致交换机清空MAC表连锁反应使得ARP表项也失效就像给交换机打了失忆针。识别TC攻击的关键点检查日志中的%MAC_FLAPPING提示使用display mac-address flapping record突发大量ARP Miss前有MAC表项变更记录2.3 配置不当的自残行为有次帮客户排查问题发现他们为了安全把ARP老化时间设成了10分钟。结果办公高峰期ARP表很快填满新ARP学习就要先淘汰旧条目反而制造了大量ARP Miss。这就像为了省电把电梯速度调慢结果更多人被困在等电梯的队伍里。3. 急诊室级别的诊断手法3.1 快速体检三步定位法第一步查CPU负荷分布HUAWEI display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 98% Max: 99% TaskName CPU Runtime(CPU Tick High/Tick Low) CPU Usage% ARP 12345678/0 85%看到ARP进程吃掉了85%的CPU基本可以锁定问题。第二步看CPCAR丢包统计HUAWEI display cpu-defend statistics packet-type arp-miss all Statistics on slot 1: PacketType Pass(Packet/Byte) Drop(Packet/Byte) arp-miss 1024/81920 20480/1638400丢包数是通过数的20倍典型的ARP Miss风暴特征。第三步验ARP表状态HUAWEI display arp | include Incomplete 192.168.1.1 Incomplete - Vlanif10 192.168.1.2 Incomplete - Vlanif10 ...超过20条类似记录3.2 深度CT扫描抓包分析当基础命令不能确定攻击源时需要用镜像抓包HUAWEI system-view [HUAWEI] observe-port 1 interface GigabitEthernet 1/0/1 [HUAWEI] interface GigabitEthernet 1/0/2 [HUAWEI-GigabitEthernet1/0/2] port-mirroring to observe-port 1 inbound用Wireshark分析抓包文件时重点关注高频出现的ARP Who-has包目标IP呈规律性变化的IP包同一源IP在短时间内重复请求不同目标4. 立体防御战术手册4.1 第一道防线CPCAR限流就像给洪水开闸泄洪调整CPCAR可以控制ARP Miss上送CPU的速率[HUAWEI] cpu-defend policy anti-arpmiss [HUAWEI-cpu-defend-policy-anti-arpmiss] car packet-type arp-miss cir 256 [HUAWEI-cpu-defend-policy-anti-arpmiss] quit [HUAWEI] cpu-defend-policy anti-arpmiss global参数调优经验办公网建议CIR设为512-1024生产网可放宽到2048配合display cpu-defend statistics观察丢包率调整4.2 精准打击源抑制技术对于确定的攻击源可以实施外科手术式打击[HUAWEI] arp-miss speed-limit source-ip maximum 10 [HUAWEI] arp-miss speed-limit source-ip 192.168.1.100 maximum 1这条规则让192.168.1.100这个IP每秒只能触发1次ARP Miss超出部分直接丢弃。有次我们用这个方法瞬间把CPU从95%降到30%。4.3 防御工事ARP表优化合理配置ARP表能减少Miss概率[HUAWEI] interface Vlanif 10 [HUAWEI-Vlanif10] arp expire-time 1200 # 设置ARP老化时间为20分钟 [HUAWEI-Vlanif10] arp fake expire-time 5 # 临时ARP表项5秒超时黄金配置法则终端密集区域适当增大arp expire-time临时表项超时应小于ARP探测间隔对重要服务器配置静态ARP4.4 终极武器硬件防护高端交换机可以启用硬件防攻击功能[HUAWEI] cpu-defend policy anti-arpmiss [HUAWEI-cpu-defend-policy-anti-arpmiss] hardware-car packet-type arp-miss cir 2048这相当于给ARP Miss处理装了涡轮增压性能比软件处理提升10倍以上。某数据中心启用后即使遭遇攻击CPU也能保持在50%以下。5. 从救火到防火运维最佳实践经历过多次ARP Miss风暴后我总结出这些经验监控预警设置CPU利用率超过70%持续5分钟告警基线建立记录正常时段的ARP Miss速率作为基准变更管理新设备上线前先做网络扫描测试定期审计每月检查一次ARP表项数量和CPCAR配置有家客户按照这个方案改造后ARP Miss导致的故障从每月3-4次降为零。最让我欣慰的是他们后来自己用display arp anti-attack arpmiss-record-info定位并解决了一次潜在攻击。