[网络工程师]-网络规划与设计-网络故障分析与处理

2023-09-24 09:55:27

网络环境越复杂,发生故障的可能性越大,引发故障的原因也就越难确定。网络故障往往具有特定的故障现象。这些现象可能比较笼统,也可能比较特殊。利用特定的故障排查工具及技巧,在具体的网络环境下观察故障现象,细致分析,最终必然可以查出一个或多个引发故障的原因。一旦能够确定引发故障的根源,那么故障都可以通过一系列的步骤得到有效的处理。

1、网络故障排除思路

在排除网络中出现的故障时,使用非系统化的方法可能会浪费大量的时间以及资源,事倍功半,使用系统化的方法往往更为有效。系统化的方法流程如下:定义特定的故障现象,根据特定现象推断出可能发生的所有潜在的问题,直到故障现象不再出现为止

下图给出了一般性故障问题的解决模型,这一流程并不是解决网络故障时必须严格遵守的步骤,只是为建立特定网络环境中的故障排除流程提供了基础。

一般性故障问题的解决步骤如下:

(1)分析网络故障,要对网络故障有清晰的描述,并根据故障的一系列现象以及潜在的症结来对其进行准确的定义。

要想对网络故障做出准确的分析,首先应该了解故障表现出来的各种现象,然后确定可能会产生这些现象的故障根源或现象。例如,主机没有对客户机的服务请求做出响应,可能产生这一现象的原因主要包括主机配置错误、网络接口卡损坏或路由器配置不正确等。

(2)收集有助于确定故障症结的各种信息。向受故障影响的用户、网络管理员、经理及其他关键人员询问详细的情况。从网络管理系统、协议分析仪的跟踪记录、路由器诊断命令的输出信息以及软件发行注释信息等信息源中收集有用的信息。

(3)依据所收集到的各种信息考虑可能引发故障的症结。利用所收集到的这些信息可以排除一些可能引发故障的原因。例如,根据收集到的信息也许可以排除硬件出现问题的可能性,于是就可以把关注的焦点放在软件问题上。应该充分利用每一条有用的信息,尽可能缩小目标范围,从而制定出高效的故障排除方法。

(4)根据剩余的潜在症结制定故障的排查计划。从最有可能的症结入手,每次只做一处改动。之所以每次只做一处改动,是因为这样有助于确定针对固定故障的排除方法。如果同时做了两处或多处改动,也许能排除故障,但是难以确定到底是哪些改动消除了故障现象,而且对日后解决同样的故障也没有太大的帮助。

(5)实施制定好的故障排除计划,认真执行每一步骤,同时进行测试,查看相应的现象是否消失。

(6)当做出一处改动时,要注意收集相应操作的反馈信息。通常,应该采用在步骤(2)中使用的方法(利用诊断工具并与相关人员密切配合)进行信息的收集工作。

(7)分析相应操作的结果,并确定故障是否已被排除。如果故障已被排除,那么整个流程到此结束。

(8)如果故障依然存在,就得针对剩余的潜在症结中最可能得一个制定相应的故障排除计划。回到步骤(4),依旧每次只做一处改动,重复此过程,直到故障被排除为止。

如果能提前为网络故障做好准备工作,那么网络故障的排除也就变得比较容易了。对于各种网络环境来说,最为重要的是保证网络维护人员总能够获得有关网络当前情况的准确信息。只有利用完整、准确的信息才能够对网络的变动做出明智的决策,才能够尽快、尽可能简单地排除故障。因此,在网络故障的排除过程中,最为关键的是确保当前掌握的信息及资料是最新的。

对于每个已经解决的问题,一定要记录其故障现象以及相应的解决方案。这样,就可以建立一个问题/回答数据库,今后发生类似的情况时,公司里的其他人员也能参考这些案例,从而极大地降低对网络进行故障排除的时间,最小化对业务的负面影响。

2、网络故障排除工具

排除网络故障的常用工具有多种,总的来说可以分为三类:设备或系统诊断命令、网络管理工具以及专用故障排除工具。

2.1设备或系统诊断命令

许多网络设备及系统本身就提供大量的集成命令来帮助监视并对网络进行故障排除。下面介绍一些常用命令的基本用法:

  • show可以用于检测系统的安装情况与网络的正常运行状况,也可以用于对故障区域的定位;
  • debug命令帮助分离协议和配置问题;
  • ping命令用于检测网络上不同设备之间的连通性;
  • trace命令可以用于确定数据包在从一个设备到另一个设备直至目的地的过程中所经过的路径。

2.2网络管理工具

一些厂商推出的网络管理工具如Cisco Works、HP OpenView等都含有监测以及故障排除功能,这有助于对网络互连环境的管理和故障的及时排除。下面以CiscoWorks2000为例介绍网络管理工具在排除网络故障方面的主要功能:

  • CiscoView提供动态监视和故障排除功能,包括Cisco设备、统计信息和综合配置信息的图形显示;
  • 网络性能监视器(IPM)使网络工程师能够利用实时和历史报告主动地对网络响应进行故障诊断与排除;
  • TrafficDirector RMON应用程序是一个远程监测工具,它能够收集数据、检测网络活动并查找潜在的问题;
  • VlanDirector交换机管理应用程序是一个针对VLAN的管理工具,它能够提供对vlan的精确描绘。

2.3专用故障排除工具

在许多情况下专用故障排除工具可能比设备或系统中集成的命令更有效。例如,在网络通信负载繁重的环境中,运行需要占用大量处理器时间的debug命令将会对整个网络造成巨大影响。然而,如果在“可疑”的网络上接入一台网络分析仪,就可以尽可能少地干扰网络的正常工作,并且很有可能在不打断网络正常工作的情况下获得有用的信息。以下为一些典型的用于排除网络故障的专用工具:

  • 欧姆表、数字万用表即电缆测试器可以用于检测电缆设备的物理连通性;
  • 时域反射计(TDR)与光时域反射计(OTDR)可以用于测定电缆断裂、阻抗不匹配以及电缆设备其他物理故障的具体位置;
  • 断接盒、智能测试盘和BERT/BLERT可以用于外围接口的故障排除;
  • 网络检测器通过持续跟踪穿越网络的数据包,能每隔一段时间提供网络活动的准确图像;
  • 网络分析仪可以对OSI所有7层上出现的问题进行解码,自动实时地发现问题,对网络活动进行清晰的描述,并根据问题的严重性对故障进行分类。

3、常见的网络故障

在信息化社会,各企事业单位对网络的依赖程度越来越高,网络随时都可能发生故障,影响正常工作。所以,必须掌握相应的技术及时排除故障。从网络故障本身来说,经常会遇到的故障有:

  • 物理层故障
  • 数据链路层故障
  • 网络层故障
  • 以太网络故障
  • 广域网络故障
  • TCP/IP故障
  • 服务器故障
  • 其他业务故障

根据相关资料的统计,网络发生故障的具体分布为:

  • 应用层占3%
  • 表示层占7%
  • 会话层占8%
  • 传输层占10%
  • 网络层占12%
  • 数据链路层占25%
  • 物理层占35%

引起网络故障的原因有以下几种:

3.1逻辑故障

逻辑故障中最常见的情况有两类:一类是配置错误,是因为网络设备的配置错误而导致的万罗异常或故障。配置错误可能是路由器端口参数设定有误,或路由器的路由配置错误,以至于路由循环找不到远端地址,或者是路由掩码设置错误等;另一类是一些重要进程或端口被关闭,主要是系统的负载过高,路由器的负载过高。

3.2配置故障

配置错误也是导致故障发生的重要原因之一。配置故障主要表现在不能实现网络所提供的各种服务,如不能接入Internet,不能访问某种代理服务器等。配置故障通常表现为以下几种情况:

  • 网络链路测试正常,却无法连接到网络;
  • 只能与某些计算机,而不能与全部计算机进行通信;
  • 计算机只能访问内部网络中的服务器,但无法接入Internet,这可能是路由器配置错误,也可能是交换机配置错误;
  • 计算机无法登录至域控制器;
  • 计算机无法访问任何其他设备。

3.3网络故障

网络故障的原因是多方面的,一般分为物理故障和逻辑故障。物理故障,又称硬件故障,包括线路、线缆、连接器件、端口、网卡、网桥、集线器、交换机或路由器的模块出现故障。

3.4协议故障

计算机和网络设备之间的通信是靠协议来实现的,协议在网络中扮演非常重要的角色。协议故障通常表现为以下几种情况:

  • 计算机无法登录至服务器;
  • 计算机在网上邻居中既看不到自己,也看不到其他计算机或查找不到其他计算机;
  • 计算机在网上邻居中能看到自己和其他计算机,但无法在局域网络中浏览Web、收发E-mail;
  • 计算机无法通过局域网接入Internet;
  • 与网络中其他计算机的名称重复,或者与其他计算机使用的IP地址相同。

3.5DDos攻击

由于遭受DDoS攻击引起的网络资源不可用。

3.6网络管理员差错

网络管理员差错占整个网络故障的5%以上,主要发生在网络层和传输层,是由于安装没有完全遵守操作指南,或者网络管理员对某个处理过程没有给予足够的重视造成的。

3.7海量存储问题

数据处理的故障最主要原因是硬盘问题,据有关报道,有超过26%的系统失效都归结到海量存储的介质故障。

3.8计算机硬件故障

大约有25%的故障是由计算机硬件引起的,如显示器、键盘、鼠标、CPU、RAM、硬盘驱动器、网卡、交换机和路由器等。

3.9软件问题

软件引起的故障表现为:

  • 软件有缺陷,造成系统故障;
  • 网络操作系统缺陷,造成系统失效。

3.10使用者发生的差错

使用者没有遵守网络赋予的权限,例如:

  • 超权访问系统和服务;
  • 传入其他系统;
  • 操作其他用户的数据资料;
  • 共享账号;
  • 非法复制。

4、网络故障分层诊断

网络故障诊断是管好、用好网络,使网络发挥最大作用的重要技术工作。网络故障诊断是从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络的正常运行。

诊断网络故障的过程应沿着OSI七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,确定故障点。故障诊断的步骤如下:

(1)确定故障的具体现象,分析造成这种故障现象的原因;

(2)收集需要的用于帮助确定可能故障原因的信息;

(3)根据收集到的情况考虑可能得故障原因,排除某些故障原因;

(4)根据最后的可能故障原因,建立一个诊断计划;

(5)执行诊断计划,认真做好每一步的测试和观察,每改变一个参数都要确认其结果。

4.1物理层及其诊断

物理层建立在通信媒体的基础上,实现系统和通信媒体的物理接口,为数据链路实体之间进行透明传输,为建立、保持和拆除计算机和网络之间的物理连接提供服务。

物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确。确定路由器端口物理连接是否完好的最佳方法是使用sho winterface命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议建立状态和EIA(environment impact appraisal,环境影响评价)状态。

4.2数据链路层及其诊断

数据链路层的主要任务是使用网络层无须了解物理层的特征而获得可靠的传输。数据链路层具有为通过链路层的数据进行打包和解包、差错检测盒一定的校正能力,并协调共享介质。在数据链路层交换数据之前,协议关注的是形成帧和同步设备。查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享统一数据链路层的封装情况。每对接口要和与其通信的其他设备有相同的封装。通过查看路由器的配置检查其封装,或者使用show命令查看相应接口的封装情况。

4.3网络层及其诊断

网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查开确定是否输入适当的静态路由、默认路由或者动态路由。然后手动配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或IGRP路由协议出现的故障。例如,对于IGRP路由选择信息只在同一AS的系统之间交换数据,查看路由器配置的AS号的匹配情况。

4.4应用层及其诊断

应用层提供最终用户服务,如文件传输、电子信息、电子邮件和虚拟终端接入等。排除应用层故障的基本方法是:首先可在服务器上检查配置,测试服务器是否可以正常运行,如果没有问题,在检查应用客户端是否配置正确。