通信人家园

标题: 华为CE12808 EBGP路由异常处理  [查看完整版帖子] [打印本页]

时间:  2021-5-23 16:14
作者: tommytang     标题: 华为CE12808 EBGP路由异常处理

一、问题描述
1.1 涉及产品和版本
CE12808版本为CE12800 V100R003C00SPC600 补丁V100R003SPH006
1.2组网情况(Networking)
CE12808作为机房核心设备,下联汇聚交换机汇聚交换机接入服务器集群.CE12808通过100GE链路与外网互通,作为出口。CE12808与外网路由器启EBGP,用于引入路由和发布路由。
1.3故障现象
服务器部分业务时断时通。
告警信息
Sequence    : 609      
AlarmId     :0x95E2022            AlarmName :hwBoardResThresholdExceed                                       
AlarmType   :processing_error      Severity  :Major            State :cleared
StartTime   : 2015-06-2608:08:47                     
Description : The number of forwarding resourcesreaches the alarm threshold. (Slot = 7, Chassis = 1, Threshold = 90, Reason =2, Description : The number of IPv4 FIBs exceeded the warning threshold.)
ClearTime   : 2015-06-2608:38:43                     
ClearType   :verify_clear        
ClearReason : The number of forwarding engineresources is less than the threshold. (Slot = 7, Chassis = 1, Threshold = 90,Reason = 2, Description: The number of IPv4 FIBs exceeded the warningthreshold.)

Sequence    :608      
AlarmId     :0x95E2022            AlarmName :hwBoardResThresholdExceed                                       
AlarmType   :processing_error      Severity  :Major            State :cleared
StartTime   : 2015-06-2607:41:05                     
Description : The number of forwarding resourcesreaches the alarm threshold. (Slot = 7, Chassis = 1, Threshold = 100, Reason =57, Description : The number of Large Exactly Match database exceeded thespecification of the forwarding engine resources.)
ClearTime   : 2015-06-2608:11:03                     
ClearType   :verify_clear        
ClearReason : The number of forwarding engineresources is less than the threshold. (Slot = 7, Chassis = 1, Threshold = 100,Reason = 57, Description: The number of Large Exactly Match database exceededthe specification of the forwarding
engine resources.)
二、故障分析处理
根据客户反映的情况服务器业务时断时通:
a) 先查看内网汇聚交换机链路和设备健康状况是否正常。发现链路均正常,也无流量超标现象。设备CPU和内存等健康状况良好。
b) 再看核心交换机路由是否有震荡,对等体状态是否正常。查看发现设备BGP对等体状态正常,没有路由震荡迹象。
c) 然后查看设备告警信息。结合客户提供异常时间段,查看设备告警信息。发现异常告警。综合分析告警内容(告警内容详见2告警信息)和网络故障现象。推断IPv4 FIB表项数量超过了转发引擎资源的规格。导致部分路由信息时有时无。部分业务也因此时通时断。
d) 导致这种问题的原因很可能是IPv4路由表数量已到设备上限。根据推断先恢复客户业务。
恢复方法参考:
减少EBGP接收的IPV4路由数量。通过路由策略实现。
1、IPv4地址前缀列表
ip ip-prefix Filter_TO_BJ_10GE index 10 deny 0.0.0.0 0 less-equal 32
2、以地址前缀列表为过滤条件控制EBGP接收路由的数量。
peer 183.136.167.9 ip-prefix Filter_TO_BJ_10GE import
3、添加静态路由引导流量出去。
ip route-static 0.0.0.0 0.0.0.0 183.136.167.9 preference 40
4、联系研发确认设备IPv4 FIB表项数量。研发回复:CE12808设备IPv4 FIB表项最大支持100万条。但是设备默认只允许了52万条。此数值可根据客户需要调高。
5、与客户沟通,确认其实际需要的IPV4路由数量。与客户共同规划后将IPV4FIB表项增加至70万。
三、问题根因
CE12808设备IPv4 FIB表项最大支持100万条。但是设备默认只允许了52万条。因此导致超过了转发引擎资源的路由被丢弃。
四、解决方案
执行命令system tcam template-name,创建外扩TCAM的资源模板并进入资源模板视图。最多可以创建32个资源模板(不包括系统缺省的资源模板)。
执行命令external tcam { acl | u4router | u6router | m4router | m6router }upper-limit,配置业务占用资源的规格。 //u4router为ipv4单播路由 缺省情况下,外扩TCAM资源模板未配置业务占用的资源规格。
执行命令quit,退出资源模板视图。
执行命令system tcam template-name slot { slot-id | all },将外扩TCAM资源模板绑定至单板。
说明:
•        外扩TCAM资源模板绑定至单板后,需要重启单板才能生效。
•        外扩TCAM资源模板绑定至单板后,模板不可以被修改或删除。
执行命令commit,提交配置。
执行命令quit,退出系统视图。
执行命令reset slot slot-id,重新启动单板,使配置的资源规格生效。
五、建议与总结
在工程师网络规划时除了要明确设备的能力是否符合网络规模需要。还要确认设备默认是否将功能参数以调至最优数值,免得事倍功半。






通信人家园 (https://www.txrjy.com/) Powered by C114