网易大数据平台架构实践课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《网易大数据平台架构实践课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网易 数据 平台 架构 实践 课件
- 资源描述:
-
1、网易大数据平台架构实践 技术创新 变革未来 01 02 03 04 05 大数据平台概述 Kudu:实时更新存储 Sloth:实时计算 Kyuubi:Spark 多租户 未来规划 PART 01 大数据平台概述 网易大数据发展历程 提速阶段(2014)平台化(20092010)大数据初体验 起步阶段(20112014)工具化 整合阶段 猛犸 有数 初级阶段(2008)传统方法 大数据系统为什么难用 SparkSQL 查询处理 FlinkSQL Spark 执行器 kafka Redo Log Flink HDFS Parquet 表 HDFS Parquet 物化视图 Hbase/ES 索引
2、平台的需求是什么 01 提供大数据基础能力 02 提升使用效率 03 提升管理效率 04 多租户和安全 大数据体系架构 大数据应用开发层 数据加工 数据计算 资源管理 数据存储 数据集成 数据源 数据集成 离线计算 Hive 大数据开发套件(可视化 IDE)作业流开发 数据开发 任务运维 流式计算 Sloth 统一资源管理与调度 Yarn 自助分析 数据管理 内存计算 Spark 权限管理 多租户管理 元数据管理 分布式文件系统 HDFS和Kudu 全量/非实时接入 Sqoop 结构化数据 如RDBMS备库 半结构化数据 如JSON 分布式数据库 HBase 实时/增量接入 NDC和DataS
3、tream 非结构化数据 如音频文件 数据质量校验 DQC 秘钥管理 Kerberos 运维监控 Ambari 平台特色 统一元数据服务 流计算服务?Hive,spark,impala,hbase元数据打通 数仓体系内,用户无需在不同的系统一 之间做元数据同步 不同系统组件之间,数据全增量同步 Sloth流计算服务化平台 通过增量计算的方式,来完成流计算任务 使用SQL作为开发方式,完全与离线SQL兼容,支持window/join/subquery/having等复杂SQL 功能?数据安全与权限?一站式?HDFS/Hive/Impala/Spark等组件自动权 限同步 支持到列级别的权限控制
4、基于角色访问控制,权限控制到个人 支持操作审计 一站式的数据平台 一站式的统一部署,监控,运维体系 自研和开源相结合 Kafka服务化 自研日志和数 据库同步工具 扩展Ranger 统一授权、性 能优化 Spark高可用 多租户 Kudu优化 PART 02 Kudu:可更新存储 Kudu定位 HDFS:批量数据写入能力,没有数据更改能力;在实时性要 求较高的场景下,510min需要写入一个文件,造 成小文件数量比较多,对NameNode压力较大;对 大批量数据扫描比较又好,基本没有随机查询能力 HBase:大批量数据写入能力;极高的随机数据读写能力;支 持指定rowkey的update操作;
5、扫描分析能力非常低 下 Kudu:兼备HDFS大数据量写入与分析扫描能力,同时具备 HBase的随机读写能力 与HBase对比 HBase Kudu 集群架构 Master-Slave 结构 Master-Slave 结构 选主方式 ZK选主 Raft内部自动选主 数据分布 Range方式分区 Range、HASH分区,支持组合分区 数据写入 HDFS(Pipleline)Raft多副本 数据格式 ColumnFamily 级别列存 RowGroup形式,同一个RG内部列存(类似Parquet)Kudu原理 Kudu的缺陷?Impala/Kudu与Impala/Parquet比有不小差距 没有
6、Split&Merge功能 官方TPCH 测试结果 结论:我们性能比 Parquet 就好那么一点点 _ 1T数据Kudu&Parquet 性能测试 3000.00 2500.00 2000.00 1500.00 1000.00 我们TPCH测试结果 500.00 大家都是搞技术的,还是诚实点好_ 0.00 q1 q2 q3 q6 q7 q10 q12 q14 q15 q16 q17 q18 q19 parquet kudu_raw Kudu Runtime Filter 没有runtime filter User表a(10万记录)Event表b(10亿记录)加入runtime filter功
7、能 select xxx from user a,event b on a.userid=b.userid where xxx 通过runtime filter 功能,小表的连接键被做成 BF形式通过 Impalad 下发到Kudu节点,联合大表的连接键,在大表读取数据时参与数据 的过滤,从而使得大表传递到 Impalad 层的数据大量减少,即在计 算前减少参与计算的数据量,达到提升效率的结果 Kudu Runtime Filter Kudu Runtime Filter 1T数据Kudu&Parquet 性能测试 3000.00 2500.00 2000.00 1500.00 1000.00
8、 500.00 0.00 q1 q2 q3 q6 q7 q10 q12 q14 q15 q16 q17 q18 q19 parquet kudu_new kudu_raw Kudu Tablet Split?支持Range分区分裂?仅修改元数据,在线完成分裂,compaction时再做物理分裂?主从协同 应用场景 01 秒级实时 02 点查询和多维分析融合 03 实时维表(一)秒级实时 共享单车解决了出行最后一公里问题 Kudu解决分析数据最后半小时的实时性问题 实时写入 小批量写入(二)点查和多维分析融合 游戏用户行为日志系统 游戏用户行为日志主要作用:?指定用户行为查询(给定用户id,查询
展开阅读全文