2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2020 全球 大会 最大 呼叫 平台 监控 实践 课件
- 资源描述:
-
1、全球最大呼叫平台监控实践之路 目录目录背景背景-全国集中全国集中维维护护、全全球球最最大大1出路出路-选择开源选择开源2转型转型-几个问题几个问题3蜕变蜕变-AIOPS在监在监控控报报警警方方面面的的尝尝试试4 中移在线公司中移在线公司移动全网集中服务移动全网集中服务 提供者提供者移动全网业务移动全网业务后台集中处理者后台集中处理者移动全网渠道运营移动全网渠道运营 集中支撑者集中支撑者201431省呼叫业务完省呼叫业务完 成划转成划转奠定全网集中化奠定全网集中化 运营基础运营基础2016实现盈利实现盈利业务发展和改革业务发展和改革 创新初见成效创新初见成效全集团首批入选国全集团首批入选国 资委
2、国企改革资委国企改革“双双 百行动百行动”三家公司三家公司 之一之一2018201710月注册成立月注册成立全集团集中化、专全集团集中化、专 业化运营试验田业化运营试验田发展历程发展历程 传统呼叫中心传统呼叫中心传统呼叫中心是基于PBX、专用硬件排队机、硬件语音板卡等专用设备组成的客服系统。软硬一体,不够灵活软硬一体,不够灵活建设成本高、周期长、维护升建设成本高、周期长、维护升级级困难困难无法满足多渠道多媒体互联网无法满足多渠道多媒体互联网相相 关增值业务的融合关增值业务的融合无法实现多客服中心坐席跨网无法实现多客服中心坐席跨网协协 同同无法快速响应业务需求无法快速响应业务需求缺点缺点排队机C
3、TIIVR应用PSTN/ PLMNPBX坐席坐席 新形态呼叫中心新形态呼叫中心语音坐席视频坐席互联网坐席热热 线线互互 联联 网网新形态下的呼叫中心新形态下的呼叫中心质量管控质量管控大数据平台支持客户 全渠道交 互智能 质检智能导航智能应答转人工转人工智能知识库坐席助手语音 客服视频 客服在线 客服智能IVR智能 运营运营管理运营管理呼叫平台呼叫平台统一排队 统一路由 统一监控纯软件纯软件:全媒体CTI、IVR、互联 网接入网关、软交换、中继网关、媒体加速服务、用户终端富媒体富媒体:支持传统语音、文本、 图片、视频、短语音、微信、微 博智能化智能化:与人工智能(AI)、大 数据技术结合,应用于
4、IVR、机 器人应答、质检、外呼等集中化集中化:接续、CRM、分析、质 检、话务监控等集中化特征特征 在线公司在线公司: 全球最大呼叫中心全球最大呼叫中心河南河南江苏江苏北京北京我们面临的运维挑战我们面临的运维挑战多多难难高高用户多用户多, IT规模接近一线互联网企业规模接近一线互联网企业9亿 用户, 超1亿微信粉丝,月服务超亿次,微博矩阵粉丝3038万(居行 业首位),10086APP超五千万用户 量20000+服务器50000+Tomcat业务变化快,运维环境复杂业务变化快,运维环境复杂支撑全国营销活动,总部/分公司/省公司多级协同日均上线 17 次,日处理 206 例工单技术新:微服务/
5、云计算/容器 要求高,提供电信级服要求高,提供电信级服务务99.99% 的可靠性15秒 接通要求7*24 小时保障 转变运维思路,适应新的时代挑战转变运维思路,适应新的时代挑战为了支持业务快速上线和高效运维。在线公司监控系统需具备敏捷、集中、自动、智能的关键能力。为了支持业务快速上线和高效运维。在线公司监控系统需具备敏捷、集中、自动、智能的关键能力。自动自动敏捷敏捷之之 前前能力建设能力建设智能智能现现 在在监控能力周粒度提供监控能力周粒度提供监控能力分钟级提供监控能力分钟级提供按专业划分的按专业划分的 “烟囱式监控烟囱式监控”混合集中化监控混合集中化监控手工添加手工添加基于策略的自动化闭环基
6、于策略的自动化闭环依赖专家经验依赖专家经验基于基于AI和大数据的自动识别和大数据的自动识别集中集中 目录目录1234背景背景-全国集中全国集中维维护护、全全球球最最大大出路出路-选择开源选择开源转型转型-几个问题几个问题蜕变蜕变-AIOPS在监在监控控报报警警方方面面的的尝尝试试 统一监控平台:开源工具统一监控平台:开源工具+二次开发,自主核心可控二次开发,自主核心可控监控管理监控管理Grafana统一门户统一门户ITSM运维平台运维平台自动化平台自动化平台CMDB统一告警平台统一事件分析告警告警接口性能看板告 警事件管理短信邮件工单信息故障定位或 修复场景业务看板根因分析业务建模业务模型和配
7、置数据被管环境被管环境Java App.NET AppPHP, Python, NodeJS应用 系统客服系统监控(I2000)应用性能监控(APM)告警信息场景执行调用性能看板业务看板业务数据PrometheusmetricElasticSearch数据库数据库监控(Prometheus)基础架构监控(Zabbix)CTI/UAP系统服务器、网络、存储、虚拟 化环境等告警看板Kafka实时融合监控:实时融合监控:引入业界开源开源工具, 进行二次开发与封装二次开发与封装, 形成核心自主可控、自主可控、 稳稳定高效定高效、海量秒级海量秒级 的监控能力。跨域/跨厂商/跨层的 IT/CT实时融合监控
8、。 有丰富丰富的管理对象。多样灵活灵活的数据展现形式,可以灵活配置, 适应不同场景,快速 定制。监控数据 统一监控平台:集中建设、统一管控、边缘节点标准化统一监控平台:集中建设、统一管控、边缘节点标准化为了更快速的建立监控能力、更全面的管控系统质量,在线服务公司统一监控平台采用了总部集中建设、统一管控,分公司标准化接入的建设模式。全网集中:全网集中:总部负责监控能力建设、 边缘节点的标准化,所有 监控数据的上收、分析、 展现与通知。分公司提供资源,遵照标 准化、封装后的监控模板 进行监控资源的维护与管 理。 一些小总结:半年时间一些小总结:半年时间2 万万200 万万90 万万30 万万主机主
9、机监控项监控项触发器触发器报警报警84400+5451.3KProxyDashBoard用户数用户数动作动作 一些小总结:广泛、丰富、多样、灵活一些小总结:广泛、丰富、多样、灵活 网络设备类型与网络设备类型与厂厂家家存活存活/丢包丢包/ 时延时延CPU/内存占内存占 用率用率snmp状态状态温度温度端口状态端口状态出出/入口带宽入口带宽 利用率利用率出出/入口丢、入口丢、 错包错包接口类型接口类型设备状态设备状态网卡状态网卡状态设备信息设备信息端口描述端口描述软件版本软件版本系统名称系统名称光功率光功率光模块接收光模块接收 功率功率网络协议网络协议光模块发送光模块发送BGP对等体对等体功率功率
10、连接状态连接状态ospf邻居邻居 状态状态vrrp虚拟虚拟 路由状态路由状态网络监控指标网络监控指标SNMP一些小总结:广泛、丰富、多样、灵活一些小总结:广泛、丰富、多样、灵活 一些小总结:广泛、丰富、多样、灵活一些小总结:广泛、丰富、多样、灵活看板可灵活制定,分钟级完成配置。图表多样化展现:折线图、柱状图、饼图、区域图、拓扑图等。 主机参数主机参数内核参数内核参数 TCP协议栈参数协议栈参数信号量信号量/IO(Zabbix启动失败启动失败不释放信号集不释放信号集)数据库数据库CPU/内存内存/IO 连接(最大连接数、超时时长)连接(最大连接数、超时时长)数据一致性数据一致性 强烈建议采用数据
11、库强烈建议采用数据库SSD硬盘硬盘WEBWEBNginx参数参数 Php参数参数php.ini:max_input_vars(影响模板应用大批量主机失败)ZabbixZabbix视具体需求配置启动模块和进程数视具体需求配置启动模块和进程数禁用自动发现,采用脚本调用禁用自动发现,采用脚本调用api实现实现禁用禁用housekeeper,启用数据库表分区启用数据库表分区 禁用禁用server直连直连agent配置参数优化配置参数优化defines.inc.php:QUEUE_DETAIL_ITEM_COUNT(定义监控项队列检索限制,影响消息队列积压显示)一些小总结:一些小总结:zabbix系统优
12、化系统优化 一些小总结:一些小总结:zabbix系统优化系统优化二、二、Preprocessing manager 负荷长期为负荷长期为100%三、三、Zabbix server主机反复重启,却无法启动成功主机反复重启,却无法启动成功问题现象与影响问题现象与影响一、大量消息队列积压(超过一、大量消息队列积压(超过20万),且呈现雪崩效应万),且呈现雪崩效应问题定位与解决方案问题定位与解决方案一、一、zabbix官网对于官网对于pre-process耗尽的说明:耗尽的说明:二、解决方案:二、解决方案:1、在zabbix server所在主机再单独部署一个proxy节点。2、将之前由zabbix
13、server直接监控的所有proxy所在主机的 agent节点,全部转到新增proxy管理。3、降低server的pollers、java pollers、pingers、trappers等 进程数配置。4、增加zabbix server的自监控项配置项及告警( Pre-process 进程占用率及zabbix_server.log的异常关键字告警)。 Zabbix配置的同步机制配置的同步机制 Zabbix的配置表比较多,大容量局点关联查询的配置表比较多,大容量局点关联查询sql耗时很长耗时很长如数据库控制sql执行时间的max_execution_time配置不合理,会导致无法将 相应配置表
14、数据同步到zabbix server以及proxy的cache,从而导致出现大量 监控项无法正常采集及消息队列积压现象。以下为zabbix_server.log相应日志: 数据库数据库sql执行超时配置建议执行超时配置建议根据现网的数据库根据现网的数据库IO处理性能以及局点规模合理配置数据库超时相关参数,将处理性能以及局点规模合理配置数据库超时相关参数,将max_execution_time设置为超过目前设置为超过目前zabbix server同步配置同步配置sql执行时长的执行时长的2倍以上,并定期检查倍以上,并定期检查zabbix_server.log日志的相应执行时长,或者增加自监控告警
展开阅读全文