MSCPOOL解决方案应急预案(DOC 65页).doc
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《MSCPOOL解决方案应急预案(DOC 65页).doc》由用户(2023DOC)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MSCPOOL解决方案应急预案DOC 65页 MSCPOOL 解决方案 应急 预案 DOC 65
- 资源描述:
-
1、MSOFTX3000&UMG8900 MSCPOOL 应急指导书1 概述1.1 目的MSOFTX3000&UMG8900产品在MSCPOOL组网时,可能会因为POOL中的某个网元单点故障或承载网故障导致整个POOL范围内业务受到影响,这种情况发生时造成的后果将比单MSC组网时更为严重。本文专门针对MSC POOL组网情况制定应急处理措施。1.2 使用对象一线用服人员;二线用服人员;MSOFTX3000&UMG产品开发、维护人员。1.3 MSCPOOL组网时故障处理的基本思想针对以上POOL组网的特点,在对POOL网络进行故障处理时,需要:1)树立全局观,从网络层面观察问题现象,尽量从网管上进行
2、话统和告警信息收集和分析;若网管上的信息不全,则需要尽快使用信息收集工具并行收集POOL内所有MSC Server的信息;2)通过对POOL内所有MSC Server和MGW网元上的告警和话统进行综合分析,来界定故障网元(也包括故障的承载网路径)并进行故障隔离;3)了解POOL组网情况下网元间的信令消息广播和重传机制,必要时切断广播路径;4)对IP承载网的Qos质量检查手段、承载网平面倒换方法充分掌握;5)对SIGTRAN链路在承载网质量下降或中断时的处理机制、外在表现和定位手段充分了解。POOL组网下,事故处理总流程:关键点:1)明确POOL网络级组网方案;2)故障网元或故障承载网路径的定界
3、;1.4 POOL组网时网络维护所需提前准备的工作1.4.1 准备并配置好M2000网管解决方案版本MSOFTX3000版本UMG8900M2000版本CS8.1R007C05/R008C03V200R008C03SPC100(推荐)V200R008C02B027V200R007C03B048V200R007C03B041V200R006C03B045公共层:M2000-II V200R009C00SPC230适配层:iManagerM2000_MSOFTX3000_MATCH_CHS_V200R008C03SPC002CS8.0R007C03/R008C02V200R008C02(推荐)V2
4、00R008C01B032V200R007C03B045V200R007C03B041V200R005C10B039V200R005C10B048V200R005C02B065公共层:M2000V200R008C03SPC110(推荐)M2000V200R006C01B060SPC007M2000V200R008C01B060SPC008适配层:iManagerM2000_MSOFTX3000_MATCH_CHS_V200R008C02SPC002CS7.0R007C01V200R007C03B041(国内使用推荐版本)V200R007C03B045(海外使用推荐版本)公共层:iManager
5、M2000V200R008C01B060 SP05(推荐)iManagerM2000V200R006C01B060 SP03适配层:iManagerM2000(MSOFTX3000_MATCH_ENG)V200R007C01B011iManagerM2000(MSOFTX3000_MATCH_CHS)V200R007C01B011CS6.5R006C05iManagerM2000V200R006C01B060SP03CS6.2R006C02iManagerM2000V200R006C01B022SP01注:M2000的V200R008版本需要安装专门的RPS模块才能支持POOL性能统计功能;因
6、此M2000的版本使用V200R009C00版本更合适。1.4.2 获取MSC POOL组网图和MSCPOOL规划数据方法1:从M2000上查看MSCPOOL网络拓扑在M2000上一般已经设置了MSC POOL的网络拓扑关系,从M2000上可以直观的查看POOL中各种网元(MSC和MGW)的数量;且可以查询简单的MSC POOL的全局规划数据,如CN-ID、NRI、NullNRI、以及CN-ID与NRI的对应关系等配置信息。(仅能收集到最简单的拓扑关系,网管上可能尚未配置)方法2:从网规网设文档中查看MSCPOOL网络拓扑(网规网设文档可能无法及时获取,网规网设文档中的信息可能不是最新);方法
7、3:咨询一线人员,临时获取网络拓扑(速度慢,准确度低); 方法4:手工从数据库获取MSCPOOL的网络组网情况(效率低,速度慢);1.4.3 在M2000上设置实时监控在M2000上,可以创建MSCPOOL实时监控任务来查看POOL的实时运行状态,具体方法:通过选择“维护 Pool操作维护”菜单,打开“Pool操作维护”界面。在导航树中选中要监控的MSC Pool,右键选择“实时监控”。下面是在M2000上创建的MSC POOL实时监控的输出结果图例:1.4.4 在M2000上查询MSC POOL话统注意:在M2000上查询MSCPOOL的话统前提是已经使用M2000在POOL内各网元上已经登
8、记所依赖的话统任务。在网元上所需要预先登记的话统任务如下表所示:M2000上的MSCPOOL话统依赖的MSX3000网元上话统任务POOL内全局话务量入局话务测量GSM用户发话话务测量UMTS用户发话话务测量中继局向入局话务测量POOL内本地话务量局内话务测量中继局向入局话务测量入POOL话务量入局话务测量中继局向入局话务测量出POOL话务量出局话务测量中继局向出局话务测量移动局向入局话务量移动局向入局话务测量移动局向出局话务量移动局向出局话务测量VLR各类用户数测量VLR各类用户数测量MSC POOL切换测量MSC切换测量位置区话务分布测量位置区话务分布测量GSM掉话率GSM掉话测量WCDM
9、A掉话率TD-SCDMA/WCDMA掉话测量短消息业务测量短消息业务测量寻呼测量寻呼过程测量位置更新测量位置管理业务测量BSC局向指配测量GSM指配过程测量RNC局向指配测量TD-SCDMA/WCDMA指配过程测量在M2000上,可以通过“Performance- Query Result”菜单项开启话统查询导航树,导航树种会列出POOL支持的话统任务,通过右键菜单即可开始进行话统结果查询。查询话统时需要选择对象类别、查询对象、查询时间段。M2000上查询话统的界面如下图所示:1.4.5 在MSC Server和MGW上登记以LAI或BSC为对象的话统任务在MSC POOL组网情况下,以LAI
10、/BSC为单位的话统可以正确反映故障网元的表现情况,因此需要在MSC Server上登记下列以LAI或BSC为对象的话统任务:1)承载话务量-MSC CSSR话务测量;2)全局组件-BSC话务分布测量3)全局组件-RNC话务分布测量4)全局组件-位置区话务分布测量5)MSC基本测量-位置管理业务测量6)MSC基本业务测量-TMSI重分配业务过程测量7)MSC基本业务测量-寻呼过程测量8)全局组件-接入侧动态流控测量9)信令与接口-H248_MGW事务测量需要在MGW上登记下列话统:1)MSC Pool CN节点统计2)MSC Pool NRI统计以上话统结果建议使用CMC【M2000】上集成的
11、信息收集工具或版本配套的信息收集工具来收集。2 MSC POOL组网时各种事故场景2.1 MGW退服问题2.1.1 MSCPOOL组网时如何判断MGW退服的场景通过M2000告警进行检查n M2000上出现MSC网元的“MGW退出服务”告警(告警ID:1522),或出现MGW的“MGC失去连接”告警(告警ID:1802)通过MSC Server告警进行检查n ALM-1522 MGW退出服务n ALM-1453 H.248 SCTP链路故障或ALM-1524 H.248 UDP链路故障,所有链路全部故障n DSP MGW结果为不是“正常”状态2.1.2 MGW退服的主要原因1)承载网故障2)数
12、据配置错误3)MGW故障4)Server内部异常2.1.3 MGW退服事故恢复和处理可以归类为三种MGW退服场景:1) 所有Server上同一个MGW退服在POOL组网情况下,一旦出现单MGW在所有Server上退服故障,则可能为MGW本身故障,或MGW到IP承载网接入路由器之间承载网路径上出现故障。2)单个Server上所有MGW退服单个Server到所有MGW故障可能为Server数据配置异常,或MSC Server到IP承载网接入路由器之间承载网路径上出现故障,或者MSC Server内部异常等。3)其他场景单个Server上单MGW退服:一般是数据配置错误或维护操作导致的MGW退服。单
13、个Server上多个MGW退服:可能是承载网拥塞导致;POOL内所有Server上多个或全部MGW退服:一般是IP骨干承载网出现故障。通用处理步骤问题确认步骤1)在MSC上获取出现退服的MGW的IP地址,然后通过Ping和TraceRT跟踪观察IP承载网是否存在不通、丢包或时延过长(Ping跟踪时,包长可以设置为500左右)如果是,则记录故障的IP对,端口号,业务类型,尽快联系IP承载网解决2)观察H248链路是否正常如果H248链路故障,则按照步骤3)检查配置是否正确如果H248链路正常,则跟踪所有H248链路,观察MGW与Server交互是否正常,MGW是否上报了注册请求。如果MGW没有上
14、报注册请求或者请求内容错误,则可能为MGW内部问题,需要更进一步分析。如果MGW上报了注册请求,而Server没有返回,则可能为Server内部问题,需要Server更进一步分析。3)检查Server和MGW上数据配置是否异常,关键参数是否一致Server上:LST MGWLST H248LNKLST SCTPPARALST BCPARADSP H248VERMGW上:LST VMGWLST H248LNKLST H248PARALST SCTPINIT4)如果配置正常则分析是否IP承载网隐性故障使用IP承载网故障应急手册定位是否承载网问题。恢复措施:如果数据配置错误,则修正对应的配置如果是承
15、载网问题,则首先需要界定MGW到IP骨干承载网之间故障发生的位置,然后尽快恢复承载网。如果承载网存在主备用双平面,应该切换信令和业务的承载网平面来恢复故障(单归属情况下倒换接口板,多归属情况下,重新调整链路主备IP)。如果可能是Server或MGW内部问题,则可以在Server上尝试去激活、激活MGW,在MGW上去激活、激活VMGW。所有Server上同一个MGW退服暂时找不到原因的情况下1)复位MGW的接口板2)倒换MGW近端IP承载网平面3)可以考虑复位MGW尝试恢复单个Server上所有MGW退服1)确认故障Server的业务是否已经被接管2)如果没有被接管(可能MGW到Server的M
16、3UA路由还没中断),则尽快将该Server业务迁移到其他Server上(在所有MGW依次上将该故障Server状态设置为“卸载”)3)如果已经接管,确认业务没有影响情况下,再继续分析退服原因。4)倒换近端承载网平面;5)可以复位BSG,倒换IFM、MGC来尝试是否故障可以恢复其他场景1)多个MGW在多个Server上出现退服,则IP骨干网拥塞或故障的可能性较大,需按照IP承载网问题定位指导书进行处理。2)可以尝试在一个Server和MGW上倒换平面2.2 接通率下降问题2.2.1 如何判断接通率下降事故发生1、用户投诉或者拨测发现有呼叫困难。2、从M2000观察 “移动局向入局话务量”话统的
17、结果,确认某些B侧局向或者全部B侧局向接通率出现下降。3、如果M2000无法使用,则收集POOL内任意两个MSC Server的“MSC CSSR话务测量”话统任务的话统结果,该话统是按照B侧局向位对象进行统计的,因此可以从话统结果中确认是全部B侧局向还是部分B侧局向出现了问题(CSSR指标下降)。4、通过对比两个或更多MSC Server的CSSR话统,观察是否某个MSC的全部BSC的接通率指标下降;2.2.2 接通率下降事故的常见原因单BSC/RNC局向接通率下降的常见原因有:1、错误的数据配置2、到BSC局向链路故障3、到BSC局向电路故障4、该BSC局向话务量过高6、其他设备原因MSC
18、 POOL全网接通率下降的常见原因有:1、错误的数据配置2、到STP(HLR、SCP)链路故障,或者链路对端网元故障或过载3、BICC承载面异常导致的局间话务成功率低4、增强流控原因5、License异常6、话单池拥塞7、补丁质量问题8、其他设备原因MSC POOL中单个MSC的全部BSC接通率下降的常见原因有:1、MSC间数据配置不一致;2、该MSC在Mc接口上出现链路拥塞情况;3、MSC内部MTP/SCCP协议层出现DPC状态异常;2.2.3 接通率降低事故恢复和处理2.2.3.1 单BSC/RNC接通率下降问题解决步骤问题解决思路在POOL组网情况下,一旦出现单BSC/RNC接通率下降问
19、题,首先需要确定BSC/RNC局向,然后初步界定出故障的原因、以及发生故障的MSC/MGW网元,然后针对故障原因尝试进行恢复处理;如果在短时间内故障无法恢复、并且故障呈现蔓延之势时,需要针对故障范围采取相应措施避免故障扩散:如果故障集中在某个MSC或某个MGW网元,需要及时隔离出现问题的网元,接着将故障网元的业务转移到正常MSC/MGW网元上;如果故障涉及所有MSC、以及故障局向连接的所有MGW,那么需要考虑采用按接入网局向进行流控,必要情况下需要考虑禁止该故障局向、待故障根因排除后再做恢复。排查是否错误的数据配置导致接通率下降问题确认步骤:1)在MSX3000上,通过LST CMDLOG命令
20、获取近三天的操作日志,排查与该B侧局向相关的数据是否被更改;2)在UMG8900上,使用LST LOG命令获取近3天的操作日志,排查SET/ADD/MOD/RMV等命令的配置是否正确。注意:需设置LST LOG命令的“返回记录数”参数为1000.恢复措施:1)如果有可疑的数据配置被执行,则需要尽快评估相应的数据配置的影响,排除错误的数据配置。排查是否BSC局向链路故障问题确认步骤:1)在M2000上或MSX3000上,查询MSC Server是否出现到B侧网元M3UA链路故障(告警ID:1811)、M3UA链路拥塞(告警ID:1809)、M3UA路由不可用(告警ID:1815)、SCCP禁止(
21、告警ID:2754)等告警;2)在M2000上或UMG8900上,查询MGW是否出现到B侧网元的链路故障(告警ID:3981)、DPC不可达(告警ID:3980)等告警。如果出现以上告警,且告警的目的信令点或局向为B侧网元,则可确定MSC和BSC/RNC之间的链路出现了异常恢复措施1)对于在MSX3000上查询到M3UA链路拥塞、故障以及M3UA路由不可达的情况,需要在MSC Server上使用PING跟踪去确认MSC Server到MGW之间的承载网是否通畅。如果不能PING通,则按承载网故障进行处理。2)如果可以从MSC Server PING通MGW,则需要对故障链路和SCTP链路进行跟
22、踪,将跟踪的结果反馈到研发。3)对于在MGW上查询到的MTP3链路相关告警和N7DSP不可达告警,需要逐个排除下面原因:E1帧滑码;时钟状态;E1端口状态;E1自环测试;排查BSC局向电路故障问题确认步骤:1)在M2000上或UMG8900上,执行MGW的MML命令DSP AIETG,查看指定BSC中继群的A接口电路状态;如果出现大量端点故障,则可以断定出现了电路不可用情况;2)如果指定BSC中继群的80%以上端点处于忙状态,则需要继续使用M2000的“移动局向入局话务量”话统确认忙电路数量与该局向的呼叫话务量是否相符,若该话统的“占用话务量”远小于忙电路数量,则可以断定出现了A接口电路吊死问
23、题。2)在M2000上或MSX3000上,MSC的MML命令DSP OFTK,查看指定BSC局向的A接口电路状态;如果出现大量电路故障,则可以断定出现了电路不可用情况;如果80%以上电路处于忙状态,则需要继续使用M2000的“移动局向入局话务量”话统确认忙电路数量与该局向的呼叫话务量是否相符,若该话统的“占用话务量”远小于忙电路数量,则可以断定出现了A接口电路吊死问题。注:当MGW管理A口电路时,MSC上查询到的A口电路数不包括未安装电路数。恢复措施:1)大量电路/端点电路故障的场景的恢复措施:分析UMG上的历史配置命令,排除误配置;在UMG客户端上使用LST OFCTKC查得A口电路的E1端
展开阅读全文