通信人家园

标题: 爱立信LTE基站告警处理手册  [查看完整版帖子] [打印本页]

时间:  2015-8-12 10:44
作者: loveforeverhyc     标题: 爱立信LTE基站告警处理手册


目录
1        版本信息        1
2        前言        2
3        常见故障处理        2
3.1        告警Disk Volume C Full        2
3.2        告警Disk Volume D Full        3
3.3        告警FanFailure        4
3.4        告警loss of synch reference redundancy        6
3.5        告警Gigabit Ethernet Link Fault        7
3.6        告警Synch Reference Path HW Fault        9
3.7        告警NoContact        10
3.8        告警License Key File Fault        12
3.9        告警NTP Server Reachability Fault        12
3.10        告警Plug-In Unit General Problem        13
3.11        告警Power feeding fault        15

1        版本信息

日期        版本        修订信息
2013年5月10日        初稿       

2        前言
本文档描述了爱立信LTE EnodeB基站的一些常见故障现场处理方法。本手册适用于RBS6000系列。软件版本为L12B。
本文档的目的在于提供现场操作流程以及故障处理方法的中文描述,以帮助了解一些常见故障的处理过程,实际操作时请严格按照爱立信的ALEX文档步骤进行。
3        常见故障处理
3.1        告警Disk Volume C Full
3.1.1        故障描述
Disk Volume C Full是一个主要告警,这个告警由MO ManagedElementData发出。
如果Main Processor(主处理器MP)的C卷上存储的数据过多,会导致该卷的可用空间耗尽或几乎耗尽,此时系统会发出Disk Volume C Full告警。系统一般每隔15分钟对C卷进行一次检测,如果可用空间小于等于MO ManagedElementData的属性minimumHdVolumeCFreespace的值(单位为兆),告警就会出现。
只要可用空间比minimumHdVolumeCFreespace的值大1M,告警就能消除。当该告警出现时,需要删除C卷的文件,令C卷有足够空间,使告警消除。
产生告警的可能原因如下:
•        存放了太多UpgradePackage MO,或者存放的UP MO非常大。
•        C卷上有大量其他文件
•        C卷的最小可用空间设置得过大。也就是说,虽然有足够的可用空间,但是属性minimumHdVolumeCFreespace的值太大,使得C卷中允许使用的空间过小。
3.1.2        处理流程
执行以下步骤:
1)        确定是否有应该删除的旧UpgradePackage MO。如果有,请按照ALEX OPI中的Delete Upgrade Package删除。
2)        读取属性hdVolumeCFreespace。其值必须比属性minimumHdVolumeCFreespace的值大至少1兆。否则,需删除至少一个以上的UpgradePackage MO,直到C卷的可用空间足够大。
3)        完成以上操作后,等待15分钟,看看告警是否消除。或者读取属性minimumHdVolumeCFreespace的值,然后将其设置为相同的值,告警可能会立即消除。
4)        如果告警没有消除,磁盘上可能有其他可删除的文件占用了空间,请联系爱立信技术支持。
3.2        告警Disk Volume D Full
3.2.1        故障描述
Disk Volume D Full是一个主要告警,这个告警由MO GeneralProcessorUnit发出。
如果Main Processor(主处理器MP)的D卷上存储的数据过多,会导致该卷的可用空间耗尽或几乎耗尽,此时系统会发出Disk Volume D Full告警。系统一般每隔15分钟对C卷进行一次检测,如果可用空间小于等于MO GeneralProcessorUnit的属性minimumHdVolumeDFreespace的值(单位为兆),告警就会出现。
只要可用空间比minimumHdVolumeDFreespace的值大1M,告警就能消除。当这个告警出现时,需要删除D卷的文件,令D卷有足够空间,使告警消除。
如果出现了这个告警,也许D卷就没有足够空间去存储重要的新数据,新的升级包及创建新文件。
产生告警的可能原因如下:
•        太多UpgradePackage MO,或者MO非常大。
•        ENB上有太多configuration version(CV),或者CV非常大。
•        D卷上有大量其他文件(文件不属于任何UpgradePackage MO或configuration Version的一部分)。
•        D卷的最小可用空间设置得过大。也就是说,虽然有足够的可用空间,但是属性minimumHdVolumeDFreespace 的值太大,使得D卷中允许使用的空间过小。
3.2.2        处理流程
执行以下步骤:
1)        确定是否有应该删除的旧Upgrade Package MO。如果有,请删除。
2)        如果告警仅因Core MP而发出,则检查是否有应该删除的旧CV(检查属性faulttolerantCoreStates)。如果有,请删除。
3)        读取属性hdVolumeDFreespace。其值必须比属性minimumHdVolumeDFreespace的值大至少1兆。
4)        完成以上操作后,等待15分钟,看看告警是否消除。或者读取属性minimumHdVolumeCFreespace的值,然后将其设置为相同的值,告警可能会立即消除。
5)        如果告警没有消除,请检查是否有其他可以删除的UpgradePackage MO或可以删除的CV。如果有,请如上所述删除。
6)        如果告警仍然没有消除,磁盘上可能有其他可删除的文件占用了空间,请联系爱立信技术支持。
3.3        告警FanFailure
3.3.1        故障描述
此告警是一个主要告警。
告警细节描述如下表:
Alarm Cause        Managed Object        Description        Impact
设备故障        FanGroup        当系统检测到风扇工作不正常的时候,就会出现该告警,风扇接口的LED会亮黄灯。        环境控制系统工作不正常,很有可能会导致RBS机柜中的设备过热。
3.3.2        处理流程
执行以下步骤:
1)        在RBS EM中重启SCU(Support Control Unit)。
2)        检查告警是否已消除,如果已消除,故障处理完毕。
3)        如果告警未消除,检查风扇。
4)        如果告警未消除,在RBS EM中锁定SCU。锁板流程请参考ALEX OPI Lock Board。
5)        更换风扇。具体流程请参考ALEX OPI Replacing Fans and Climate Units。
6)        在RBS EM中解锁SCU。解锁流程请参考ALEX OPI Unlock Board。
7)        检查告警是否已消除,如果已消除,故障处理完毕。
8)        如果告警仍然没有消除,请联系爱立信技术支持。
3.4        告警loss of synch reference redundancy
3.4.1        故障描述
此告警是次生告警,是由MO Synchronization发出。可以参考主告警:
TU Synch Reference Loss of Signal
Network Synch Time from GPS Missing
Loss of Tracking
Synch Reference Path HW Fault
Packet Server Availability Fault
Synch Reference Not Reliable
Sync Reference PDV Problem
SDH相关告警: Loss of Signal, Loss of Frame, MS Alarm Indication Signal, MS Degraded Signal, MS Excessive Bit Error Rate, Plug-In Unit HW Failure, or ET Hardware Fault
IP同步源: NTP Server Reachability Fault, or Gigabit Ethernet Link Fault
此告警的后果是,同步源的数量减少或者只剩一个同步源,如果最后一个同步源也丢失,系统时钟会进入”holdover mode”,然后是”free-running mode”,这样就不能满足无线模块所要求的时钟精度。
3.4.2        处理流程
执行以下步骤:
1)        检查MO Synchronization的syncRefStatus值
2)        如果同步参考源的状态是FAILED,DEGRADED,REF_PATH_FAILED_A或者REF_PATH_FAILED_B,则检查是否同时有告警” Synch Reference Path HW Fault”,如果有,则参考告警” Synch Reference Path HW Fault”处理。
3)        检查GPS模块,确保GPS天线按要求安装,并尝试GPS模块重启,并更换。
4)        检查时钟源线缆,并尝试更换。
5)        如果同步参考源的状态是NOT_RELIABLE,根据MO IpSyncRef的NtpServerIpAddress,确定时钟服务器,并检查该服务器是否工作正常。
6)        如果同步参考源的状态是LOSS_OF_TRACKING,删除所有状态是LOSS_OF_TRACKING的同步源,然后重新添加1条或者多条同步源,等待2分钟,看告警是否还会出。
7)        如果告警继续出现,根据ALEX OPI Lock Board 来锁定故障板。 Lock type 是 Hardlock;
8)        根据ALEX OPI Restart Board重新启动故障板。 RestartRank 是Cold with Test;
9)        根据ALEX OPI Unlock Board来解锁板。
3.5        告警Gigabit Ethernet Link Fault
3.5.1        故障描述
此告警是主告警,是由MO GigaBitEthernet发出。告警补充信息中,会有告警原因,Link Fault或者Autonegotiation Failed to Meet Minimum Configured Requirements。
如果是Link Fault,则话务会受到影响。
如果是Autonegotiation Failed to Meet Minimum Configured Requirements,则话务会继续,但是工作在比配置更低的速率。
3.5.2        处理流程
执行以下步骤:
•        Link Fault:
1)        检查MO GigaBitEthernet的autoNegotiation,本地和远端设置相同
2)        如果问题是在远端,则处理远端故障;否则找到发出告警Gigabit Ethernet Link Fault的板
3)        根据ALEX OPI Lock Board来锁定故障板。 Lock type 是 Hardlock;
4)        根据ALEX OPI Restart Board重新启动故障板。 RestartRank 是Cold with Test;
5)        根据ALEX OPI Unlock Board来解锁板;
6)        如果板件重启后,告警不能消失,如果有光模块(SFP),则检查光模块,并尝试更换;
7)        检查以太网交换机或者路由器,检查网线,保证连接不松动,将网线连接到其他以太网端口,或者测试端口。
•        Autonegotiation Failed to Meet Minimum Configured Requirements:
1)        自动协商的速率低于配置的速率,导致端口工作在低于配置的速率。
2)        检查配置的速率,以及网络接口的处理能力。如果硬件不能满足,则寻求允许更低速率,或者升级硬件,请联系爱立信技术支持。
3.6        告警Synch Reference Path HW Fault
3.6.1        故障描述
此告警是一个主要告警,告警由 Managed Object (MO) Synchronization发出。
当从主用的同步参考源到Timing Uint模块的同步路径被干扰或者中断时,将出现该告警。告警细节描述如下表:

3.6.2        处理流程
1)         锁定DU ,重启DU, 解锁DU
A.        在RBS EM 中,锁定DU
B.        重启DU, restartRank 选择RESTART_COLDWTEST (cold with test) , restartReason 选择 UNPLANNED_O_AND_M_ISSUE, restartInfo 输入告警名称
C.        解锁DU,检查EM alarm list,查看告警是否清除
D.        如果告警未被清除,请执行以下操作。
2)        更换DU
A.        在 RBS EM 中,锁定DU
B.        按照OPI Replacing Digital Units更换DU        C.       
D.        更换 DU
E.        解锁DU,检查 RBS EM 告警列表,查看告警是否清除
F.        如果告警没有清除,则按照流程更换回原来的硬件,请联系爱立信技术支持。
3.7        告警NoContact
3.7.1        故障描述
此告警是一个主要告警,细节描述如下表:

Probable Cause        Managed Object        Description        Impact
Equipment Malfunction        AuxPlugInUnit        连接丢失        该单元无法承载业务
        AntennaNearUnit        与AntennaNearUnit连接丢失        AntennaNearUnit 无法正常运作
        AntennaCtrlDevice        与AntennaCtrlDevice无法连接,或者无法识别        无法倾斜天线
Configuration Or Customizing Error        AntennaNearUnit        没有加载相应license,导致无法激活设备        AntennaNearUnit 无法正常运作
        AntennaCtrlDevice        没有加载相应license,导致无法激活设备        无法倾斜天线
3.7.2        处理流程
1)        AuxPlugInUnit故障 对应操作:
A.        确认riport的MO配置与现场物理连接匹配,并更正
B.        如果告警未被清除,请执行以下操作
C.        锁定对应AuxPlugInUnit,更换硬件,解锁
D.        如果告警未被清除,则按照流程更换回原来的硬件,并联系爱立信技术支持。
2)        AntennaNearUnit 的 Equipment故障对应操作:
A.        确认对应MO配置与现场物理连接匹配,并更正
B.        如果告警未被清除,请执行以下操作
C.        重启连接该设备的RU
D.        如果告警未被清除,请联系爱立信技术支持。
3)        AntennaNearUnit 的Configuration Or Customizing Error对应操作:
A.        确认并安装和激活license
B.        如果告警未被清除,请联系爱立信技术支持。
4)        AntennaCtrlDevice的 Equipment故障对应操作:
A.        重启对应AIR 单元
B.        如果告警未被清除,请执行以下操作
C.        更换AIR,并再次重启
D.        如果告警未被清除,则按照流程更换回原来的硬件,并请联系爱立信技术支持。
5)        AntennaCtrlDevice的Configuration Or Customizing Error对应操作:
A.        确认并安装和激活license
B.        如果告警未被清除,请联系爱立信技术支持。
3.8         告警License Key File Fault
3.8.1        故障描述
此告警是一个主要告警,告警由 Managed Object (MO) Licensing发出。
告警细节描述如下表:

3.8.2        处理流程
确认新的LKF 已经从Ericsson Customer License Center 申请并获取到,并进行下一步;如果未获取到,请联系Ericsson Customer License Center进行申请
通过FTP或者SFTP使用Licensing MO的updateLicenseKeyFile Action进行LKF 安装
如果告警未被清除,请联系爱立信技术支持。
3.9        告警NTP Server Reachability Fault
3.9.1        故障描述:
这是一个主要告警,是由MO IpSyncRef 触发的,当NTP(Network Time Protocol) 客户端检测到NTP服务器为 not reachability 时,产生该告警. 同步参考信号的状态会变为NOT_REACHABLE。
可能的原因如下:
•        网络中负荷太高,导致丢包
•        网络中节点硬件故障
•        NTP 服务器配置不正确,或者NTP 服务器disable
•        无效的NTP服务器IP地址
•        DNS 服务器问题
•        域名问题.
3.9.2         处理流程:
1)        等待2分钟,如果告警消除,可能是由于网络临时拥塞导致的.
2)        检查MO IpSyncRef下的属性 ntpServerAddress ,获得ntpserver的location.
3)        如果ntpserver 的location不是一个域名,使用MO ipaccesshostEt的ping功能,看是否能ping 通ntpserver的ip.如果不能ping通,需要联系NTP server维护人员,查看配置是否正确,如果能ping通, 告警仍存在,请联系爱立信技术支持。
4)        如果ntpserver的location是域名, 检查MO  IP 下的属性dnsServer,获取dns的IP地址, 查看是否能ping通,如果不能,需要联系DNS的维护中心,查看配置是否正确。如果能ping通,再使用MO ipaccesshostEt的ping功能,看是否能ping 通ntpserver,如果不能ping通, 需要联系NTP server维护人员, 查看配置是否正确,如果能ping通,告警仍存在,请联系爱立信技术支持。
3.10        告警Plug-In Unit General Problem
3.10.1        故障描述:
此告警是一个主要告警,是由MO PIU(plug-in-unit)产生,造成的后果是该PIU携带的业务将会受到影响。
可能原因如下:
•        重复出现的软件错误
•        配置错误
•        硬件错误
•        PIU未接好
•        由于没有足够的电源供应,PIU 由于系统的保护功能而被下电
3.10.2        处理流程:
告警分析:
1)        查看alarm log 及event log,查看与该告警相关的信息。
2)        查看该告警是否在近几天间断的出现,如果是,有可能是PIU的硬件问题。
3)        如果同时出现power feeding fault的告警,有可能是由于电源保护功能而PIU被下电。
4)        确认最可能的原因,按以下处理过程进行处理。
处理过程:
1)        如果是软件问题导致的,执行第6步,如果告警消除,退出本次处理过程,如果未消除,请联系爱立信技术支持,进一步行动不在本操作指南讨论的范围之内。
2)        如果是配置问题,修改错误的软件或者硬件配置,有些配置需要重启才能生效,执行第6步. 如果告警消除,退出本次处理过程,如果未消除,请联系爱立信技术支持。
3)        如果是硬件问题,先执行第6步,如果告警消失,退出本次处理过程,如果未消失,需要更换硬件,lock对应的PIU,执行更换PIU的流程,再unlock PIU。更换硬件之后,如果告警未消失,请联系爱立信技术支持。
4)        如果是因为PIU未接好,需要现场接入该板件,确认硬件连接正确后,执行第6步,如果告警未消除,请联系爱立信技术支持。
5)        如果是电源保护功能的问题,请参照power feeding fault 告警处理。
6)        LOCK有问题的PIU,重启该PIU,RestartRank选择 Cold with Test,RestartReason选择Restart ordered to resolve O&M issues,RestartInfo 写入告警名字.在PIU重启完之后,解开该PIU。
3.11        告警Power feeding fault
3.11.1        故障描述:
这是一个主要告警,是由MO PIU(plug-in-unit)产生的,该告警产生的条件是提供-48V直流电源与机框的连接丢失,或者电压的范围超过了允许的范围.
可能的原因:
•        外部电源系统故障
•        DU 与供电系统之间的cable出问题
•        DU硬件故障  
3.11.2        处理流程:
检查外部电源供应系统,电压范围是否正确.
验证电源线和DU板是否连接正确.
确认DU正确安装好,并且DU上的连线都正常.
以上如果都没问题,怀疑DU有问题,根据流程更换DU.
如果问题还存在,请联系爱立信技术支持。

时间:  2015-9-8 15:14
作者: kyh789

参考一下
时间:  2015-10-19 10:15
作者: fkeje

参考一下!
时间:  2015-10-25 13:23
作者: lioujing1234

学习
时间:  2015-10-28 23:06
作者: lidan75250

参考一下
时间:  2016-2-26 16:31
作者: lengchaotian

学习
时间:  2016-9-17 09:50
作者: smdsk111

学习告警处理,感谢分享
时间:  2016-12-9 14:41
作者: orchid_lan

快看快看
时间:  2016-12-20 14:31
作者: orchid_lan

怎么看不到下载呢?
时间:  2017-3-27 14:16
作者: ccphw

谢谢分享
时间:  2017-4-1 17:41
作者: dz520534

非常感谢
时间:  2017-9-27 12:57
作者: fssw

手册呢?




通信人家园 (https://www.txrjy.com/) Powered by C114