万亿级大数据平台的建设实践.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《万亿级大数据平台的建设实践.pptx》由用户(无敌的果实)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 万亿 数据 平台 建设 实践
- 资源描述:
-
1、万亿级大数据平台的建设实践万亿级大数据平台的建设实践目 录01万亿级实时数据分析面临的问题和挑战百分点超大规模实时数据分析典型架构基于业务场景进行核心组件的设计分享数据平台的持续运维与监控设计和实现02030405问题与挑战 大数据平台维度划分大数据平台4.数据查询问题与挑战 超大规模对平台提出的高要求日增: 100TB+系统结构复杂组件众多 | 依赖关系复杂 | 部署复杂硬件利用率(200台/两中心)故障常态化:设备宕机 | 磁盘损坏系统安全写入吞吐:200W/s数据量巨大历史存储:PB级小时/分钟/天的统计任务文件存储:2TB/天二地双中心数据存储实时流处理离线处理数据查询系统运维跨中心数
2、据同步跨中心透明访问2中心处理数据:2000亿+/天海量数据低延时复杂的即席查询跨数据中心的查询分析全文搜索查询处理到查询延时:200W/s熔断/限流离线统计任务的影响百分点超大规模实时数据分析典型架构数据服务:网关/接口服务/资源目录数据API生成-注册-发布-运行-监控服务注册-服务发布-服务网关路由面向业务的数据资源目录标签知识图谱数数据据资资产产管管理理平平台台数据治理数据标准数据工厂(离线/流任务开发平台)机器学习算法模型管理模型实验数据接入SparkStreaming任务Storm任务标签管理标签提取标签融合动态本体元数据管理数据质量模型开发数据加工任务开发融合配置关系映射SQL
3、on Streaming任务监控模型发布数据生命周期管理深度学习图谱API数据存储与查询HBaseElastic SearchNeo4jKylinClickHousePrestoOSSMySQL大大数数据据技技术术平平台台离线计算实时数据处理机器学习(深度)/算法处理MapReduceSparkSQLScalaShellPythonRSparkHiveSpark StreamingStormSpark MLlibRTensorFlowCaffeHDFSFlinkPythonPyTorchDataXFlumeSqoop数据接入KafkaFTPJDBC/ODBC实时数据分析典型架构应对的核心组件结
4、构化存储:结构化存储:ClickHouse消息通道消息通道 :kafka流处理框架:流处理框架: SparkStreaming全文搜索:全文搜索:ElasticSearch文件存储:文件存储:OSS (HBase + Ceph)组件设计 - 存储ClickHouse业 务:1、超大规模的单表查询/分析;2、有一定的并发要求;3、实时性要求;1.2.3.4.5.PB级的数据存储ClickHousePresto高性能的查询/分析能力低延时写入及吞吐能力数据压缩HAWQDruidElastic Search跨中心能力组件设计 - OLAP引擎的选型与评估组件设计 - ClickHouse整体设计Ng
5、inxGrafana日志监控展现ClickHouse 日志表SparkStreaming查询入口分布式表 (配置文件)DCDC日志本地表日志本地表Shard1Shard2Replication日志本地表Shard1DC2 数据日志本地表Shard2Shard1Shard2ReplicationDC1 数据客户端写入本地表1. ClickHouse跨中心透明访问。2. 业务端可以查询多中心数据,也可以查询特定分中心数据。3. 禁止分布式写。4. 性能影响:1/4 1/3组件设计 ClickHouse磁盘Raid的选择1、Raid5增加磁盘数据可靠性和读取能2、热备盘减少运维压力3、控制写入,保障
6、查询性能力Raid0 - Raid5演进演进/data1Raid5数据恢复影响本地表Shard1Raid5/data1单台物理机组件设计 ClickHouse的相关测试分析PageCache缓存对查询的影响横向扩展对查询性能几乎无影响可以基于单节点/分区评估查询性能数据预热对查询有数量级提升针对缓存更换条件同样生效组件设计 - 如何保障ClickHouse写入的稳定性1、20W/s (35次)提交,并发502、10W/s(17次)提交,并发90d3、5W/s(8次)提交,并发90确保业务命中在安全区域1、平衡好合并速度和Part数量的关系,一定是需要相对均衡的。2、Part数量,实际代表着提交
展开阅读全文