交换机频繁中断祸起何处

01-10

交换机设备作为局域网中的一种很重要交通“枢纽”设备,它的工作状态的好坏直接决定着整个局域网的运行稳定性。一般来说,在自身质量比较过硬的情况下,交 换机设备是很少容易出现故障现象的;当然,这并不能说明交换机设备能一直稳定地工作,伴随着其“服役”时间的推移,交换机的工作稳定性也会不断下降,这除 了是其内部的元气件性能不断老化造成的外,还有可能是交换机系统的版本低下引起的。这不,笔者曾经遭遇到的一则交换机频繁中断故障现象,就是由于交换机系 统版本低下引起的!考虑到由这种因素引起的网络故障现象发生机率不是非常高,解决起来可能会走一些弯路,为此本文现在就将该故障的具体解决过程还原出来, 供各位朋友借鉴参考!

故障现象

最近一段时间,单位局域网中的某一汇聚层交换机频繁发生网络中断故 障现象;每次发生这种故障现象时,笔者都需要赶到故障现场,采用手工断开电源的办法进行重新启动交换机设备,或者远程登录到故障交换机上联的核心设备,将 连接交换机的那个下行端口重新启动一次,才能将网络故障恢复正常。目标故障交换机平时连接两个虚拟工作子网,这两个工作子网日常的网络传输流量并不是很 大,即使不在上班访问高峰期,该故障交换机也会莫名其妙地发生中断现象,因此笔者基本排除了网络流量过大造成故障交换机不能正常工作的因素,同时也排除了 网络病毒从中捣乱的可能。//本文转自www.脚本之家

故障排查

考虑到这台故障交换机是通过宽带光纤与上行核心设备保持连接 的,于是笔者担心该宽带光纤线路的稳定性存在问题,于是特意请当地的电信技术人员使用专业工具对宽带光纤线路进行了测试,经过多次测试,证明宽带光纤线路 的工作状态是正常的。就在自己毫无头绪的情况下,笔者偶然发现有一层厚厚的灰尘覆盖在故障交换机的外壳上,这时笔者头脑中才想到该故障交换机已经持续为单 位“服役”了有将近4年的时间了,并且该交换机的后台管理系统版本也比较低,目前仍然还是沿用传统的旧命令行,而且局域网曾经发生过的一则网络故障就与交 换机系统的BUG有关,难道这一次频繁发生的网络中断故障也是由于交换机系统版本较低引起的?为了验证自己的分析是否正确,笔者立即以telnet命令远 程登录进故障交换机系统的后台管理界面,在该界面的命令行提示符下执行“dis cpu”字符串命令,发现该交换机的系统CPU资源始终处于95%以上的 占用率,这显然是不正常的,因为在正常工作状态下,交换机设备的CPU资源消耗率应该在50%以下,超过这个数值交换机的反应能力就会明显下降;后来,笔 者又执行了字符串命令“dis ver”,从其后返回的结果信息中笔者发现该故障交换机使用的VRP平台软件版本比较低,难道本文中提到的故障现象真的是 由于交换机系统软件版本较低引起的?

故障解决

考虑到连接交换机的物理线路经过详细检查是没有任何 问题的,而当交换机发生网络中断故障现象时,笔者只是简单地重新启动一下故障交换机设备或对应的连接端口,故障交换机的工作状态就能在短时间内恢复正常, 这说明该故障现象的确与交换机自身有一定关系。为了排除交换机系统软件版本较低的因素,笔者打算对该故障交换机的VRP平台软件进行一次在线升级,将其更 新到最新版本状态。

在对交换机系统进行在线升级时,笔者先查看了该故障交换机的具体型号,之后到对应品牌产品的官方网站中,下载得到 最新版本的VRP升级文件以及Bootrom升级文件;为了方便操作,笔者选用了FTP方式进行升级,也就是说将保存有VRP升级文件以及Bootrom 升级文件的本地普通工作站作为FTP服务器,而将故障交换机作为FTP客户端系统,这样操作的好处就是步骤简单,不需要对交换机设备进行任何复杂的设置操 作;

下面从交换机系统中通过FTP命令连接到保存有VRP升级文件以及Bootrom升级文件的FTP服务器上,从中下载得到升级包 文件;当然,在下载升级包文件之前,笔者先对FTP服务器进行了适当配置,让其与故障交换机位于相同的工作子网中,确保交换机与FTP服务器之间可以相互 顺利访问;同时,笔者还直接将VRP升级文件以及Bootrom升级文件保存到FTP服务器的主目录下,这样一来交换机系统通过FTP命令与FTP服务器 成功建立连接之后,就能直接查阅到需要的升级包文件;此外,为了方便记忆,笔者又将下载得到的VRP升级文件换名保存为aaa.bin,将Bootrom 升级文件换名保存为bbb.btm。

在将升级文件aaa.bin、bbb.btm下载保存到交换机的Flash缓存中后,现在笔者就 能正式开始交换机系统在线升级操作了。当然,为了稳妥起见,笔者对目标交换机的旧配置文件进行了备份操作,以防止升级过程中出现意外,而不能恢复交换机的 工作状态;备份好旧的配置文件后,笔者立即在交换机的后台命令行模式状态下,执行字符串命令“boot aaa.bin”,在该命令被成功执行后,笔者又 重新启动了一次交换机系统,在启动过程中交换机会自动调用aaa.bin文件,这么一来交换机的VRP平台软件就能被成功升级到最新版本了,当然这个操作 过程也可以通过远程登录的方式来完成;

接下来,我们需要通过Console连接到交换机,以便在本地完成Bootrom文件的升级操 作,这是因为在更新了VRP平台后,新平台的部分配置命令与旧平台有些不同,这时该交换机往往无法通过网络进行管理;按照同样的操作方法,我们再执行字符 串命令“boot bbb.btm”,之后重新启动交换机系统,如此一来交换机的升级操作就算成功了。这时,笔者再尝试通过“dis ver”字符串命令 观察交换机的系统版本状态时,发现该系统果然已经被升级到最新版本了。

在确认交换机升级操作成功后,笔者又根据以前的旧配置,对交换 机的上网参数进行了重新更新配置,并且将交换机的工作状态恢复到正常;经过一段时间的实践测试,笔者发现这台交换机之后再也没有发生过网络中断的故障现 象,并且笔者经过不间断的检查,发现升级之后的交换机CPU消耗率始终为25%左右,这说明升级之后的交换机运行性能还是十分稳定的。

故障总结

从上面的解决过程来看,我们不难发现交换机频繁中断的故障现象真的是由于其后台管理系统的版本太低引起的,但是由于系统版本太低这个因素不常出现,所以 很多网络管理员在实际解决故障的过程中很少会注意到这个因素,这样一来故障解决起来自然就容易走弯路了。事实上,我们可能会遭遇各式各样的网络故障,当我 们在尝试了很多办法都无法成功解决目标故障现象时,不妨静下心来多想想自己平时很少注意到的一些细节因素。

一般来说,我们只要掌握了合理的故障排除顺序,完全能够有效地提高交换机的故障排除效率:

首先按照由远到近的线路连接顺序进行排查,因为交换机存在的多数故障往往都是通过与其直接相连的工作站而发现的,所以我们在排查故障时尽可能地按照“终端工作站-连接线缆-端口模块-网络跳线-交换机”这样的顺序依次检查。

按照上面的顺序排查之后,如果确认交换机的确存在故障的话,那我们接着就要按照由外而内的顺序来检查交换机设备了。我们不妨先从交换机控制面板中的各种 信号灯来辨别,并依照信号灯的故障指示,检查交换机内部对应部件是否发生了故障。例如,交换机的Link信号灯要是处于熄灭状态,那就表明对应端口没有连 接好或者该端口存在问题,要是Link信号灯处于绿色闪烁状态,那就表示交换机当前处于100 Mb/s数据传输状态,要是Link信号灯处于黄色闪烁状 态,那就说明交换机此刻正处于10 Mb/s数据传输状态;要是交换机的Power信号灯处于绿色常亮状态,那就表示交换机的电源供应一切正常,要是处于 熄灭状态就说明没有电源供应。

当确认交换机内部存在故障时,我们肯定不会轻易地动手去拆卸交换机,因此在检查内部故障时,我们应该先 从系统程序或参数配置上着手来排查。要是参数配置或系统程序没有问题的话,那几乎就能断定是硬件有问题了。比方说,某个端口不能正常使用时,那我们不妨先 检查一下指定工作站所连的端口是否在对应的VLAN中,或者检查一下指定端口是否已经被其他的管理员关闭掉了等。

当然,在实际排查交换机故障的过程中,我们常常会遇到一些相当复杂的故障,此时我们尽量按照先易后难的顺序,来从系统配置或简单操作下手,来逐步分析、排查故障,相信这样能够提高故障的解决速度和故障排除效率。