DM针对大数据量环境下分析型应用的支持方案v2.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《DM针对大数据量环境下分析型应用的支持方案v2.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DM 针对 数据量 环境 分析 应用 支持 方案 v2
- 资源描述:
-
1、DM针对大数据量环境下分析型 应用的支持方案大纲一个实际案例挑战和解决方案下一步工作规划一个实际案例案例简介 海量数据 基于已有硬件投资 单服务器节点 操作库和分析库合并 以查询分析为主,兼顾少量数据维护硬件与拓扑数据汇总文本 数据 源文本数据源文本 数据 源Excel数据源数据清洗与入 库4GB光线通道应用服务 器P550Cpu x 4 Mem 32GB数据库 服务器P550Cpu x 4 Mem 32GB16 X 1TB SAS RAID 5千兆交换机案例简介-数据 以常规数据为主,主要为数值、字符串、时间类型 日增长数据量为约56G,3亿条元组 当前数据量3TB 最大单表为计费表,目前约
2、150亿条记录 数据保存20年后归档为历史数据 在线数据规模将超过400TB典型业务流程 源数据清洗入库 分析统计型查询 第一步过滤的筛选条件不确定 试错式的查询分析过程,成功后固化,一般包含20多个步骤 大规模的连接查询、子查询、联合查询、数据分组与排序、临时结果集与临时表等 复杂SQL不多,但IO非常大 日常数据维护 手工修改记录内容 批量删除 定期维护案例需求 关键在查询性能 第一个过滤步骤 筛选字段由用户随机定义,因此无法使用索引 一般会得到千万级别的结果集 大量的多表连接查询 数据装载性能 初始入库48亿条,近1T:限48小时,相当于3万条/s 后续每3天入库一次,9亿条,168G,
3、限10小时内完成挑战-核心是性能 只支持行式存储 查询优化器比较简陋 虚拟机实现不尽合理 物理存储设计有待优化 日志系统过于复杂 不能充分利用多机资源提升性能 数据分片技术不完善于2009年开始新一代产品DM7的研制原有产品难以支持分析型应1988-2003DM42004DM5.6200720091DM1-DM323DM6实验室原型实验室原型 技术积累阶段技术积累阶段 实现各类标准实现各类标准 稳定性及功能稳定性及功能与开源系与开源系 统有差距统有差距5DM72011对DM4-DM6的技 术总结融合列存储与行 存储基于向量数据的 执行内核原生的MVCCOLAP应用的支 持持续的技术积累持续的技
4、术积累5.6引入物理操作符引入物理操作符,虚拟机虚拟机6.0引入高级特性和引入高级特性和oracle 兼容特性兼容特性4DM系统研对于性能的理解优化器优化器数据数据/控制权控制权 传递传递应用系统的应用系统的 设计设计表达式计算表达式计算I/O效率效率并发并发/并行并行综合性能综合性能 向量数据处理 在数据泵一次传送一批数据 减少控制转移的CPU损耗;有利于批量的表达式计算数据控制权传递-批量技术一次只传递一条记录每个操作符一次只处理一行记录控制权需要反复传递PROJECTFILTERSCAN111传统的数据减少控制权限的反复传递提升CPU的有效利用率便于表达式批量计算PROJECTFILTE
5、RSCAN1122NN向量式的数据批量技术-数据入库 将系统的初始数据入库 原有BCP接口达到5000条/s,仍无法满足要求 改进:在服务器端实现批量,减少执行流程中的控制跳转 效率提升倍批量技术-全表更新普通批量 绑定计划生成单趟扫描一个ID进行 更新,执行20万次针对大表更 新的特定的 批量绑定消 息生成特定计 划,减少执 行流程ID进行排序,单趟扫描20万个ID并进行更新性能提升性能提升100100倍以上,控制在倍以上,控制在2 2秒以内秒以内普通普通批量批量 select count(*)from orders where o_comment not like%special%requ
6、ests%批量技术-LIKE谓词DBMS O 11g:3.3DBMS S 2005:10DM7:0.4orders:1,500,000记录 cpu 2.2G,多次执行 一个表达式出现多次 Select sum(2*c1),sum(3*(2*c1)from t 只计算一次,结果缓存 v1=2*c1;Select sum(v1),sum(3*v1)from t 类似思路:中间结果重用 一个复杂查询在一条sql语句中使用多次的情况 将复杂查询提取,并将结果缓存,多次使用表达式计算-表达式结果重用 一次计算一批数据 利用CPU的CACHE 利用CPU的SIMD特性 避免传统DBMS的函数反复调用代价
7、接近于C的效率 比一次一行模式快10-100倍以上for(i=0;i 1001.80Q181.279.2122.012.90Q191.929.065.624.17Q200.789.231000.79Q212.248.8833.015.49Q220.240.341001.16TPCHDM7DBMS O11PGSQL8.3DBMS S2005Q11.3149.0916.0112.87Q20.160.0460.190.14Q30.8621.619.302.78Q40.989.030.800.68Q51.49.054.611.58Q60.7892.720.96Q71.6111.7319.542.35Q
8、82.30.282.972.01Q931.6118.015.45Q101.369.165.832.23Q110.1944.670.550.46TPC-H/SF=1对比测语法分析语法分析语义分析语义分析关系代数变换关系代数变换代价优化代价优化语法树语法树SFW结构结构关系树关系树优化优化了的了的关关系树系树SQL脚本脚本物理计划生成物理计划生成执行计划执行计划优化器-分析器流程智能优化器 基于多趟分析的代价优化器 语义分析、代价优化过程分离 灵活的计划变换控制 基于时间单位(ms)的代价计算 解决统计信息的使用性问题 增加频率直方图 增加高度直方图的桶数查询优化:关系变换 SFW结构转换为关系树
9、投影(PROJECT)连接(JOIN)半连接(SEMI JOIN)选择(SELECT)基本表(BASE TABLE)Select:ID,nameFrom:TWhere:ID=10PROJECT(ID,name)SELECT (ID=10)BASE _ TABLE(T)SFW结构关系树 消除子查询,“平坦”的关系树 子查询一律转化为半连接(SEMI JOIN)例例:selectselect fromfrom T1T1 wherewhere t1.idt1.id inin (select(select IDID fromfrom T2)T2)PROJECTSEMIJOINT1T2查询优化:关系变换
10、的关键 考虑三个因素 A.确定的连接次序 B.确定的卡特兰2叉树形状 C.是否下放过滤条件 采用临时结果减少重复计算 代价模型基本覆盖所有情况 对连接表的个数非常多的情况,特殊处理查询优化:待选关系树的生查询优化:统计信息 记录数据分布情况,用于精确行数估计,特别是数据分布不规则的情况,对基数及 代价计算有重大影响 频率直方图:不同值较少 等高直方图:不同值较多124400167200238432300500450400350300250200150100500w_id=0w_id=1w_id=2w_id=3 w_id=4 w_id=5 w_id=63950396038884002399040
11、323980385038003900395040004050(0,1000(1000,1500(1500,1800(1800,2000(2000,2100(2100,3000(3000,5000 列存储:数据按列存储结合自适应压缩技术与批量计算技术紧密结合 列存储优缺点大幅提升扫描性能适合批量装载与删除 不适合频繁的插入、删除和更新 融合列存储和行存储提供按列存储选项 结合分区技术同时适应OLAP和OLTP应用需求I/O效率-融合列存储和行存I/O效率 行存储优化简化物理记录格式字段物理次序与逻辑次序分离 多buffer类型常驻内存和常规方式淘汰用户可以指定 批量读:预处理 支持垂直分区和水平
展开阅读全文