从救火”走向防火”商业平台业务运维实践课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《从救火”走向防火”商业平台业务运维实践课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 救火 走向 防火 商业 平台 业务 实践 课件
- 资源描述:
-
1、从从“救火救火”走向走向“防火防火”商业平台业务运维实践救火救火防火防火时间都去哪儿了时间都去哪儿了救火救火防火防火 越是做到高级阶段,防火的工作所占的越是做到高级阶段,防火的工作所占的比重就会越高。比重就会越高。从救火到防火,不是一蹴而就的事情,从救火到防火,不是一蹴而就的事情,应该是个逐渐演进的过程应该是个逐渐演进的过程思考点思考点发生发生发现发现响应响应全部恢复全部恢复时间时间故障发现故障发现故障响应故障响应故障修复故障修复开始处理开始处理故障定位故障定位提升故障提升故障发现率发现率提升故障处理速度提升故障处理速度降低故障率降低故障率目标目标故障预防故障预防过程过程Agenda如何提升故
2、障处理速度如何提升故障处理速度如何提升故障发现率如何降低故障率123故障响应规范应急处理预案这些都做了,还有提升的空间吗?这些都做了,还有提升的空间吗?准确识别准确识别故障响应时间故障响应时间目标与措施目标与措施快速判断快速判断故障定位时间故障定位时间快速执行快速执行故障修复时间故障修复时间7*24值班规范 分析数据及图表 流量切换工具 报警内容 服务降级工具职责与分工 故障运维手册 数据修复工具故障预演 任务修复工具 回滚工具 数据提取工具 主要受哪些影响因素主要受哪些影响因素影响因素影响因素1、新手、新手2、故障处理步骤繁杂、故障处理步骤繁杂应对方法应对方法优化报警内容优化报警内容,使报警
3、内容变得可依赖。报警内容除了报告问题,还将故障的判断和处理方法附在其中。利用数据任务调度管理系统,对数据任务进行统一管理数据任务进行统一管理优化报警内容优化报警内容该报警对应的运维专员联系方式该报警对应的开发人员联系方式减少对运维人员经验的依赖,使得新人和值班人员都可以快速处理灵活配置报警内容灵活配置报警内容降低维护成本,提升工作效率繁杂数据故障处理繁杂数据故障处理存在的问题:存在的问题:不能快速识别哪些任务失败了,影响了谁 一个任务失败会导致多个任务失败,每个任务的任务都会发一个报警 处理多个任务失败时,需要人工确认修复顺序,还要等待每个任务执行完成后再人工执行下一个 如果所需数据源存在短暂
4、延迟到位,会导致任务执行失败并报警,有时会对运维人员产生干扰ABCDEFGHIJKLM繁杂数据故障处理繁杂数据故障处理数据任务调度管理系统数据任务调度管理系统:实时自动的可视化数据任务关系图 能快速识别哪些执行失败及影响范围 父节点任务失败后报警,子任务节点不再执行(也不会报警)恢复关键路径节点任务时,只需选择带依赖执行,后续子节点任务会自动执行,无需人工干预,等待 支持每个任务自定义重试次数和间隔,如果任务所需数据源存在延迟提供现象,不会马上报警,直到达到最大重试次数为止,降低对运维人员的干扰ABCDEFGHIJMLK繁杂数据故障处理繁杂数据故障处理Agenda如何提升故障处理速度如何提升故
5、障发现率如何提升故障发现率如何降低故障率123网络连通性机器存活远程可达丢包检测容量监控磁盘故障磁盘坏道内存条检测基础资源类基础资源类完善监控指标完善监控指标常规业务类常规业务类自定义业务类自定义业务类端口进程Curl工作日志任务始止类关键组件监控一致性类跨界类监控数据流监控超时/延时类失败率/成功率自定义业务类监控自定义业务类监控监监控控项项低位警界线低位警界线业务系统健康度趋势业务系统健康度趋势高位警界线高位警界线监监控控项项加强关注!加强关注!加强关注!加强关注!导致导致全面全面短信报警过多短信报警过多产生产生麻木麻木心理心理降噪降噪监控的系统:监控的系统:300+监控的实例:监控的实例
6、:20000+运维人员短信接收:人均每天运维人员短信接收:人均每天6条条报警策略报警策略报警分层报警分层精准下发精准下发取得的效果取得的效果采用的手段采用的手段报警分层报警分层网段可用网段可用机器存活机器存活远程可达远程可达业务类业务类ABCDEFGHIJMLK数据依赖任务数据依赖任务报警精准下发报警精准下发运维值班运维值班1运维值班运维值班2运维专员1运维专员2运维专员3运维专员4运维专员N开发人员1开发人员2开发人员NAgenda如何提升故障处理速度如何提升故障发现率如何降低故障率如何降低故障率123它山之石,可以攻玉它山之石,可以攻玉数据说话数据说话有针对性的推动改进!有针对性的推动改进
7、!避免重复性故障!避免重复性故障!代码发布是故障的导火索代码发布是故障的导火索上线次数趋势图上线次数趋势图异常处理趋势图异常处理趋势图推动开发人员有针对性解决推动开发人员有针对性解决 程序Bug 设计缺陷 代码配置 部署问题变更操作是故障的导火索变更操作是故障的导火索业务模块新增机器机房迁移,变更IP机器故障更换下线业务模块维护系统配置部署相关监控维护应用环境及配置维护访问控制关系更新代码配置(研发人员)常见运维变更常见运维变更涉及哪方面的操作涉及哪方面的操作涉及大量的涉及大量的IP、访问关系等信息,操作繁杂!、访问关系等信息,操作繁杂!机器机器1机器机器2机器机器N系统系统配置配置监控监控策
8、略策略访问访问关系关系其他其他操作繁杂,易出错操作繁杂,易出错某个业务某个业务抽象运维对象抽象运维对象减少人工干预减少人工干预优化技术架构优化技术架构抽象运维对象抽象运维对象机器机器1机器机器2机器机器N系统系统配置配置监控监控策略策略访问访问关系关系系统系统配置配置监控监控策略策略访问访问关系关系AppID机器机器1机器机器2机器机器N其他其他运维运维人员人员之前之前之后之后级别级别等等配置策略服务服务管理管理报警策略监控策略自动自动机制机制机器列表新机器发现自动生成监控项基础监控部署App1机器1 机器N策略变更嗅探通用配置分发私有监控部署App2机器1 机器N自动生成配置策略树私有配置分
展开阅读全文