通信人家园

标题: 常见传输故障处理方法  [查看完整版帖子] [打印本页]

时间:  2015-11-8 22:47
作者: wjscwjsc     标题: 常见传输故障处理方法

常见传输故障处理方法
  常见的传输故障处理方法包括观察分析法、环回测试法、插拔法、替换法、配置数据分析法、更改配置法、仪表测试法和经验处理法。
  1.观察分析法
  系统故障时一般会伴有相应的告警信息。通过观察告警灯运行情况,可以及时发现故障。故障发生时,网管上也会记录非常丰富的告警事件和性能数据信息,通过分析这些信息,并结合SDH帧结构中的开销字节和SDH告警原理机制,初步判断故障类型和故障点的位置。
  2.环回测试法
  有时观察分析法不能解决问题,如组网、业务以及故障信息相当复杂的情况和无明显告警和性能信息上报的特殊故障情况。系统维护者可以利用网管提供的维护功能进行测试,判断故障点和类型。最常见的方法是环回。
  环回是定位故障点最有效和常用的方法,它不需要对告警和性能做太深入的分析,缺点是会影响业务,一般在业务量小的时候使用。
  3.插拔法
  当发现某种电路板有故障时,系统维护者可以通过插拔一下电路板和外部接口插头的方法,排除因接触不良或处理机异常产生的故障。在插拔时,系统维护者要注意遵循单板插拔的操作规范,以免导致其它问题甚至损坏板件。
  4.替换法
  当用插拔法不能解决问题时,可以考虑替换法。替换法就是使用一个正常的备件去替换一个被怀疑工作不正常的元件,从而实现故障的定位和排除。
  替换法适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等。或故障定位到单站后,用于排除单站内单板的问题。如某站光板有告警,我们怀疑收发光纤接反,则可将收、发两根光纤互换。若互换后,光板告警消失,就说明确实光纤接反。
  替换法的优点在于方法简单,对维护人员要求不高,比较实用,但对备件有要求。另外替换插拔电路板时,需要按照操作规范执行。
  5.配置数据分析法
  配置数据分析法是指通过开销字节配置及状态分析、更改交叉连接等手段对告警进行辅助判断和处理的故障排除方法。
  配置数据分析法的优点是不影响业务,不需要仪表,能够正确识别硬件连接错位,处理效率高。但是故障定位的时间相对较长,且对维护人员的要求非常高。一般只有对设备非常熟悉且经验非常丰富的维护人员才能使用。在使用该方法时,应尽量选择J0/J1/V3等不影响业务的踪迹字节和其他状态字节。
  6.更改配置法
  更改配置法是对时隙、板位、单板参数重新进行配置。故适用于故障定位到单个站点后,排除由于配置错误而导致的故障。
  当通过更改时隙配置不能将故障确切地定位到是哪块单板的问题时,需进一步通过替换法进行故障定位。因此该方法适用于没有备板的情况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。
  该方法操作起来比较复杂,对维护人员的水平要求较高。因此,除非在没有备板的情况下用于临时恢复业务,或用于定位指针调整问题,一般情况不推荐使用。
  7.仪表测试法
  仪表测试法一般用于排除传输设备外部问题以及与其它设备的对接问题。传输设备常用测试仪表包括2Mbit/s误码测试仪、SDH测试仪、光谱分析仪等。
  通过仪表测试法分析定位故障比较准确。缺点是对仪表有需求,同时对维护人员的要求也较高。
  8.经验处理法
  在一些特殊的情况下,如由于瞬间供电异常,低压或外部强烈的电磁干扰,致使传输设备某些单板进入异常工作状态。此时的故障现象,如业务中断、ECC通信中断等,可能伴随相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。经验证明,在这种情况下,系统维护者通过复位单板,网元掉电重启,重新下发配置或将业务倒换到备用通道等手段,可有效地及时排除故障、恢复业务。
  建议系统维护者尽量少使用该方法来处理,因为该方法不利于故障原因的彻底查清。遇到这种情况,除非情况紧急,一般还是应尽量使用前面介绍的几种方法,或通过正确渠道请求技术支援,尽可能地将故障定位出来,以消除设备内外的隐患。
  典型案例分析
  为了更深入地理解传输故障的处理思路和方法,现对几个典型的案例进行分析。
  1.传输2Mbit/s线故障引起业务中断
  故障现象:某网元2Mbit/s业务中断,传输设备为华为155/622H,传输设备上有T-LOS告警。
  故障分析:由于传输设备上有T-LOS告警,系统维护者可以肯定传输设备光路没有任何问题。因为在传输设备到网元的2Mbit/s电路上有故障,所以问题可能出在传输设备电接口板SP1D或是2Mbit/s线故障。
  故障定位和解决步骤:到站先用环回的方式判断故障点,在DDF架上做远端环回时,传输设备仍有T-LOS告警,做近端环回时通路正常,说明是DDF架到SP1D板的2Mbit/s线有问题,且是SP1D板到DDF架上的发支路故障,与开始的分析吻合。由于SP1D板到DDF架上的2Mbit/s线是成品线,无法修复,只有将SP1D板上未用的2Mbit/s成品线与故障线成功对换后,告警消除,放通2Mbit/s,业务才恢复正常。为保证以后业务的正常开通,系统维护者最后将坏的那根2Mbit/s成品线换下,以保证所有2Mbit/s线是正常的。
  结论:此故障是一个典型的2Mbit/s线故障引起业务中断案例,在这个案例中,我们根据故障现象,预先分析出故障属于2Mbit/s电路故障,并由最常规的环回方式来判断故障点,找到故障点后迅速地恢复业务。
  2.电压异常导致业务中断
  故障现象:某局传输组网为4个OptiX2500设备组成双向复用段保护环,1号网元为业务中心点,接有网管计算机。某日,该局3号网元业务中断,从网管无法登录该网元,且2、4号网元对应3号网元光板报“R-LOS”告警。
  故障分析及排除:从故障现象分析,应该是3号网元掉电;当系统维护者赶到3号网元,发现3号网元机架告警灯及单板指示灯全灭。测量-48V与BGND接线柱之间的电压为0V;测量电源设备输出电压,为-53.7V,但电源设备有输出电压不正常告警。
  此时系统维护者怀疑传输设备内部短路。关闭3号网元机柜子架电源开关,重新测量-48V与BGND接线柱之间的电压,为-20.39V,可能是机柜电源盒局部短路将电位拉低。
  关闭电源设备给传输设备供电的一路电源(拔下电源保险),断开传输设备电源输入电缆,在子架电源开关关闭的情况下测量-48V与BGND之间的电阻,为几千欧姆,正常。
  系统维护者怀疑电源电缆压降过大,测量-48V、BGND电缆的电阻,均为零点几欧姆,正常。进一步测量拔下的电源保险,发现其电阻已达到十千欧级,故障原因就出在电源保险上
  换上正常的保险,重新给3号网元加电,一切正常。
  结论:电源保险损坏,但并未开路,由于其电阻值变得很大,因此虽然输出电压正常,但实际并无带负载的能力。因此,在遇到传输设备输出电压不正常的时候,系统维护者除了考虑传输设备的故障因素,还要同时对电源设备进行检查。
  3.线路人为盗割中断引起业务中断
  故障现象:某传输网XXX01网元~XXX网元,两传输网元互报R-LOS告警,在该环上部分网元上报PS告警,所有网元均能登录,该环上及环到链间的业务均得到保护,无业务中断。告警信息有R-LOS、PS、部分备用通道TU-AIS。
  原因分析:由于无业务中断,表明环倒换正常,且两网元互保R-LOS告警且均能登录,初步断定为该中继段的光缆断或设备尾纤故障。
  该环为PP环,其保护属性为支路板倒换,当主用通道发生故障时,支路板会倒换到另一个方向进行选收业务,同时上报PS告警和备用通道TU-AIS告警,属正常告警。
  处理过程:检查设备尾纤、连接件、光板等,一切正常,断定为光缆故障。经OTDR测试,发现XXX01网元出局1.2km处光缆断,巡线至XXX01网元出局1.2km处,发现该处被人为盗割。修复光缆,故障解决。
  结束语
  在SDH传输网络的日常维护过程中,我们经常会遇到各种故障现象并伴随着不同的告警指示,有时甚至出现一样的告警指示,貌似同一故障,却由不同的原因导致。只有透过故障的表象找到其本质,才能实现故障的准确定位并迅速排除。这就需要我们了解故障定位的基本原则,明确故障处理的思路,掌握常见的故障处理方法,从而从容应对各种异常现象,提高日常维护的效果
时间:  2015-11-9 07:46
作者: shenqiang

学习!!!!!!!!!!
时间:  2015-11-20 22:29
作者: aijiusan12

谢谢楼主的讲解!
时间:  2017-2-20 13:17
作者: 李维东

感谢前辈的总结,学习了




通信人家园 (https://www.txrjy.com/) Powered by C114