全链路跟踪系统设计与实现.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《全链路跟踪系统设计与实现.pptx》由用户(无敌的果实)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 全链路 跟踪 系统 设计 实现
- 资源描述:
-
1、全链路跟踪系统设计与实现天机阁目录1. 背景介绍2. 功能介绍3. 总体架构及实现 采集层 计算层 存储层 应用层4. 总结背景分布式系统给开发带来四大挑战故障定位难链路梳理难容量评估难性能分析难业界解决方案链路跟踪系统链路跟踪系统主要处理以下三种数据:1. Tracing数据:按请求的纬度把rpc调用栈跟踪起来。MetricsTrace数据累加请求相关2. Metric数据:也叫模调数据, 特点是可累加。可以统计某个下钻场景的qps、成功率、耗时区间、返回码。3. 日志数据:普通的日志数据。日志数据离散事件业界相关产品Dapper鹰眼2016年,OpenTracing2013,zipkin2
2、012,ZipKin加入 CNCF 基金会阿里鹰眼2010,2016年开源JaegerGoogle2005,Google部署论文DapperskywalkingDapper天机阁主要功能介绍实时告警发现问题容量管理业务整体视图 容量预估调用链调用树业务拓扑图系统优化故障定位功能1告警收敛功能2:调用链功能3调用树功能4:业务拓扑图功能5容量评估链路跟踪总体架构集群状况DB中控服务中控管理实时告警metric s查询Metr ics(habo )心跳/控制统计信息Traceind ex(ES)调用链调用树日志共享内存tjg_apitjg_agen tflin k消息通道指标数据tr ace(Hb
3、ase)log(ES)log查询采集计算存储展示采集层-原理生成traceidCGIsvr1span_ctxspan_ctxsvr2用户请求traceidtraceidtraceidtraceidspanspanspanspanCGIsvr1svr2trace:代表一次完整的请求链路过程span_context:跨服务传输的上下文信息,包括trace_id,span_id,parent_id和采样flag等信息span:埋点上报的结构体,含有trace_id、span_id、caller、callee、func_name,耗时等信息,用于识别一次RPC采集层-Trace上报过程高可用低侵入低开
4、销1 api、 简单可靠2 agent、 自动保活34ack、消息通道 机制+、失败落盘 异步重试5、共享内存+socket采集层-采样策略设计面临的问题:如何用最少的上报展示最多的信息全量上报概率采样动态采样染色上报服务性能影响大,存储成本高怎么办?流量大的服务上报多,流量小的服务难以命中怎么办?针对不同接口,每秒上报数:未染色的请求出错了,且没被采样到怎么办?1,按100%采样率1=且10,不采样重要用户或行为未被采样到怎么办?逆向生成采集层-逆向生成退化成了A-E-F的直线采样后上报量:亿级/分=百万级/分A雪崩如何解决?对错误码再次动态采样BECD计算层集群状况DB中控服务中控管理实时
5、告警metric s查询Metr ics(habo )心跳/控制统计信息Traceind ex(ES)调用链调用树日志共享内存tjg_apitjg_agen tflin k消息通道指标数据tr ace(Hbase)log(ES)log查询采集计算存储展示计算层所处位置及功能1、批量消费队列中的数据。、分2 APPID做统计和监控。中控服务3、异常数据过滤。4、聚合调用链,提高写性能。5、实时生成调用树。Tjg_Agent0消消消计计计Kafka集群1Kafka集群2Tjg_Agent1Tjg_Agent2Tjg_AgentNflink处理集群+条数 时间窗口消费和计算分离哈希汇聚中控服务根据集
展开阅读全文