相信大家都听过网络环路这个词吧,网络环路会对企业网络存在很大的威胁,它会造成网络里的广播风暴,耗尽交换资源,造成交换机瘫痪,最终导致的就是直接的经济损失。今天我们就来聊聊,环路的产生、排查、解决以及如何防范。
一、什么是环路
以太网交换网络中为了提高网络可靠性,通常会采用冗余设备和冗余链路,然而现网中由于组网调整、配置修改、升级割接等原因,经常会造成数据或协议报文环形转发,不可避免的形成环路。如图所示,三台设备两两相连就会形成环路。当设备未部署环路保护协议或者组网配置发生变更时,环形组网中就可能会产生广播风暴。
二、环路的危害
二层环路最大的危害就是会产生广播风暴,以太网是一个支持广播的网络,在没有环路的环境中,广播包在网络中以泛洪的形式被送达到网络的每一个角落,以保证每个设备都能够接受到它。在带宽允许的情况下,每个网桥在接收到广播报文以后,都会向除接收端口以外的其他所有接口转发这个广播包,一旦网络中有环路,这种简单的广播机制就会引发灾难性后果。
环路中一个广播报文被反复转发了千万次,产生了广播风暴并且很快达到或接近端口线速,并迅速消耗链路带宽。根据转发规则,这些广播报文不仅仅只是在环路上无限转发,环路设备还会向其他端口转发一份,这样整个网络中都充斥着大量重复广播报文。
二层网络设备处于同一个广播域下,广播报文在环路中会反复持续传送,无限循环,形成广播风暴,引发MAC地址表不稳定等现象描述,进而影响正常业务,导致用户通信质量较差,甚至通信中断。
三、如何判断环路故障
所有这些诱发故障的内在因素绝大多数都有其“外在异常表现”,具体会反映在特定网元的告警、日志、流量统计、端口状态等信息中。因此故障快速定位的关键在于,如何有效而快速的通过事发时间、影响范围、所做操作及故障网络范围的网元基本信息的查看,快速发现这些“外在异常表现”所在的点,进而锁定故障网元节点,找出原因分析。
四、环路故障诊断步骤
判断网络中是否存在二层环路,一般可以使用查看接口带宽流量、查看MAC漂移告警、部署环路检测、查看CPU占用率四种方法进行确认。这四种方法没有严格的操作顺序,为更加准确判断故障属性,可以使用其中的一种或多种方法来进行问题定位。
五、如何快速破环
以太网环路会在短时间内形成数据风暴,当端口的流量达到带宽的最大负荷,会形成链路拥塞,影响网络业务。因此,在确认现网存在数据环路后,需要第一时间按照如下步骤处理,尽快恢复数据业务。
梳理网络拓扑并识别环路
环形网络拓扑一般较为复杂,可以寻求到网络拓扑结构全图,具体到网络的VLAN规划信息,每台设备名称、系统MAC、管理IP,本端端口名称、对端端口名称。
完整的拓扑信息是解决环路问题的首要条件,如果没有拓扑图,需要从发现环路的设备,通过逐跳登录,记录设备信息、端口信息和VLAN信息,手动绘制完整的拓扑。
紧急破环
紧急破环又称手动破环,当网络风暴严重影响正常的业务时,需要使用此方法尽快恢复业务。
端口退出已成环的VLAN
在已经成环的网络上,将其中一个端口退出成环VLAN,属于影响面最小的破环方法。
shutdown已经成环的端口
shutdown已经成环的物理端口,也可以达到破环的效果。需要注意的是执行此动作之前,您需要确保在接口视图下执行命令shutdown关闭接口后,不会影响正常的数据业务。
拔出成环接口破环
通过拔出成环的端口的连接光纤或网线,也可以紧急破环。该方法可以使用Shutdown端口代替,在设备无法远程登录时可以使用。
确认业务已经恢复
通过Ping等操作测证网络通信质量,并观察现网业务是否已经恢复。环路拓扑存在冗余链路和配置,因此环路破除后业务一般会自行恢复。
六、网络加固和优化
部署适当的破坏协议
如果当前的环路问题是由于物理环路引入,按照网络规划合理部署破环协议。以太网交换机常见的破环协议为STP/RSTP/MSTP/VBST、RRPP、SEP、ERPS等。
部署广播抑制提升网络健壮性
为了避免再次成环,成环后再次引入数据风暴,建议在环上设备端口下,部署广播抑制,按照经验,部署5%的广播抑制可以很好的防止广播风暴,具体抑制的比例值可以按照现网并发广播流量来评估确认。
优化网络设计,提升网络
复杂组网可以通过分层控制,建议合理规划设计接入层、汇聚层,通过堆叠、集群等横向虚拟化技术简化网络架构。单层组网内设备数量较多时,建议按照逻辑组织和地理分布,划分不同的域。