GBase关系模型与非关系型技术分析课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《GBase关系模型与非关系型技术分析课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GBase 关系 模型 技术 分析 课件
- 资源描述:
-
1、关系模型与非关系模型关系模型与非关系模型的的融合融合 :技术实践与展:技术实践与展望望目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望2EMSCRMSCM风控大数据 全视角ERP反洗钱预警从数据孤岛到大数据分析OA系统FOL3企业数据处理面临的“三座大山”过去:业务数据孤岛现在:MPP数据库解决了结构化业务数据的分析问题未来:大数据的挑战,全数据、多模型、异构、新技术CRMERPEMSFOLDM GDSODS4Gartner预测:企业数据库面临的4大挑战Velocity数据延时长,无法实时指导运营数据延时长,无法实时指导
2、运营Operational Data WarehouseValue传统数据模型无法有效支持深度挖传统数据模型无法有效支持深度挖 掘并且快速发现数据价值掘并且快速发现数据价值Context Independent Data WarehouseVariety数据源增多,数据交互和同步复杂数据源增多,数据交互和同步复杂,支持结构化,半结构化和非结构,支持结构化,半结构化和非结构 化数据类型化数据类型Logical Data WarehouseVolume数据量大,应用增多,数据库无法数据量大,应用增多,数据库无法存储数据,承载负担存储数据,承载负担Scalable Data Warehouse企业数
3、企业数 据库据库处理变快处理变快5价值变高价值变高类型变多类型变多负载变大负载变大传统数据库传统数据库分析分析事务事务互联网互联网一种架构支持多类应用(One Size Fits All)多种架构支持多类应用 (Not only one Fits All)大数据分析大数据分析NewSQLMPP数据库数据库 GBase Greenplum Vertica6OldSQL 事务数据库事务数据库 Oracle Altibase Timesten交易中心交易中心NoSQL开源数据库开源数据库 Hadoop MySQL Key-value移动、互联网移动、互联网大数据引収的处理架构多元化:M. Stone
4、braker目前数据处理的有效架构:混搭架构,多种技术Hadoop NoSQLMPPNewSQLSMP小机小机 OldSQL容量7数据多样性数据价值密度 实时性高高低低低低高高TBPBEB结构化数据半结构化数据非结构化数据SMP 垂直扩展、单一数据处理垂直扩展、单一数据处理引引擎的擎的时时代正代正在在成为成为过过去去目前数据处理的有效架构:混搭架构,多种技术 大数据平台类型复杂,既涵盖了结构化数据,又涉及到实时流数据,以及各类非结构化数据, 单一技术无法满足需求 未来大数据平台的技术选择应以“适才适所”的原则,进行多种平台的数据集成,集成各个技术的价值MPMPP P数据数据仓仓库库 Worka
5、bleWorkable流流处理处理 W Workaborkabl le e流流处理处理 BeBes st-Fitt-FitMPMPP P/Hado/Hadoo op p Best-fitBest-fit数数据量据量处处理时间理时间| | 秒秒| | | |分分小时小时天天| | 月月| | 年年| | 毫秒毫秒低延时低延时中中延时延时高延时高延时KB -PB -大大 100TB -10TB -TB -中中 100GB -10GB-GB-MB-小小MPP数据库结构化数据Hadoop非结构 化数据通用数据库结构化数据8分析复分析复杂杂度度数据量数据多数据多样样性性10000120008000600
6、040002000013579 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99执行耗时(秒)8a MPP vs SQL on Hadoop8a MPPSQL on Hadoop测试产品测试产品8a MPPGBase 8a MPP ClusterSQL on Hadoop某Hadoop商业収行版(SQL引擎基亍Hive on Spark)测试环境测试环境9服务器台数4操作系统R
7、edhat 6.5 x86_64硬盘SAS 15K rpm(RAID 0)CPUXeon E5-2650 2 * 16 cores网络10Gb/S内存128GBTPC-DS1000 Scale factorTPC-DS基准测试的特点: 共99个测试案例,遵循SQL99和SQL 2003的语法标准,SQL案例比较复杂 测试案例包含各种业务模型(如分析报告,迭代式联机分析,数据挖掘等) 分析的数据量大,幵丏测试案例是在回答真实的商业问题 几乎所有的测试案例都有很高的IO负载和CPU计算需求TPCDSMPP与与Hadoop性能对比:性能对比:MPP整体快整体快5.8倍倍SQL价值:价值:TPC-DS
8、 MPP与与Hadoop性性能能对比对比SQL on Hadoop异常语句说明异常语句说明Q14、Q64、Q67、Q72超3小时没有执行完毕,均按3小时计时总耗时(秒)总耗时(秒)SQL on Hadoop129,025(35.8小时)8a MPP22,320(6.2小时)耗时比5.88a MPP/SQL on Hadoop性能比性能比8a MPP慢亍SQL on Hadoop 语句个数010倍以上语句个数4720倍以上语句个数24SQL特征查询数量子表达式31关联的子查询15丌相亏关联的子查询76Group By78Order By64Rollup9Partition11Exists5Uni
9、on17Intersect2Minus1Case24Having510SQL价值:价值:TPC-DS MPP与与Hadoop性性能能对比对比TPCDSMPP与与Hadoop性能对比:性能对比:MPP整体快整体快10倍以上倍以上! GBase MPP整体快整体快7.3倍以上倍以上TPC-DS SQL查询特征查询特征序号序号impala耗时(秒)耗时(秒)MPP耗耗时时(秒)(秒)结果集结果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054
10、.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907总计1253.19170.91-11SQL价值价值:TPC-H MPP与与Impala性能对比性能对比GBase MPP整体快整
11、体快7.3倍以上倍以上TPC-H基准测试的特点: 同数据、同环境下的性能,Impala不MPP对比,根据数据特点 丌同,Impala较MPP会有低亍712.3倍的性能差异 Impala优化手段极其复杂,需要与业人士才能完成 丌支持高精度decimal类型, 因此在实际生产环境中基本丌可用 没有事务能力,加载和执行insert过程中可以看到脏数据,因此在实际生产环境中基本丌可用 750G左史的数据,MPP加载17分钟,Impala + kudu加载需要23.5小时, 因此在实际生产环境中基本丌可用 查询执行丌稳定,执行SQL有时报错,当丌执行仸何仸务时,也 収现后台在做大量的IO操作,此时执行仸
12、何SQL都会报错(包括 执行select count(*)这样简单的SQL), 因此在实际生产环境 中基本丌可用。Hadoop价值:非结构化数据价值:非结构化数据 & 深度机器学习深度机器学习Hadoop非结构化数据接入和实时分析历叱数据查询分析12Spark流数据处理深度机器学习图算法引擎R语言非结构数据算法分析混搭架构的成功案例1中国农业银行大数据平台案例数据源层数据源层数据交换层数据交换层数据处理层数据处理层数据集市层数据集市层数据服务数据服务接口层接口层数据应用层数据应用层总总 行行 数数 据据 交交 换换 平平 台台统一访问、统一监控、统一调度统一访问、统一监控、统一调度核心系统信用
13、卡客户管理网上银行.业务系统n主库备库HadoopODS预处理预处理历史数据区历史数据区非结构化处理非结构化处理基础数据共性数据指标数据.集市集市1集市集市2 集市集市3分行集市分行集市1 分行分行集市集市2 分析挖掘分析挖掘1 分析挖掘分析挖掘2数据提取平台数据提取平台分析挖掘平台分析挖掘平台统一展示、统一报送、统一元数据统一展示、统一报送、统一元数据管管理理直接访问数据文件WebService 服务接口数据库快速 复制数据挖掘数据挖掘 应用应用业务应用1业务应用2业务应用3 业务应用4业务应用5业务应用n.结构化数据非结构化数据MPP大数据平台大数据平台双活环境双活环境.基础数据共性数据指
14、标数据业务系统1业务系统2IC卡直接加载 LZO文件备仹 恢复导出13混搭架构的成功案例2浙江移劢大数据平台案例J接DB口C工接具口接口 工具接口 工具MPP应急库应急库经分系统访问门户经分系统访问门户指标应用报表应用主题分析与题分析临时需求MISBOSSCRM业务平台结构化数据MPP主仓库主仓库MPP专题库专题库/历史库历史库互联网互联网半/非结构化数据DPI信令互联网日志互联网日志 Hadoop集群集群ETL报表库OLAP前台库VGOP地市数据中心ESOP创新平台14Gartner预测:RDBMS仍然主导价值,但数据融合更能产生价值 当前数字商业的场景越来越复杂,数据容量越来 越大,数据也
15、越来越分布。数据的集成,分享和组细管理成为重要目标,统一管理是大势所趋关关系型系型数数据库据库HadoopHadoop新鲜数据 常规处理历史数据 深度分析 市场表现斱面,传统数据库5强依然占据88.7% 市场仹额。表明传统SQL数据库依然有着很大的用户市场15 尽管传统SQL数据库和Hadoop有各自独立的工 作场景,它们之间的数据融合和双向数据流通越来越成为趋势Next:混搭架构2.0 = 融合架构企业用户的传统数据库应用和大数据应用JDBC、ODBCJDBC、ODBCJDBC/ODBC、Thrift、Protocol Buffer 开収语言: Java、 Scala、 Python、 go
16、、 C/C+、 SQLISQL on Hadoop:HivBigSQL、Cloudera计算引擎:MR、Tez、Spa、HAWQ、Phoenix、Tajompala、Presto、Sharkk;资源管理:YARN、MESOSDFS:HDFS、CEPHGBase 8tX 无法集成数据数据接入层、安全管理、运营管理企业用户的传统数据库应用和大数据应用Hadoop生态GBGaBsaese8a8a MMP PP PGBase 8tSpark 栈r安全管理、运营管理混混融融搭搭合合1架架.0构构:(GBase UP 统一层统一层):):16X数数据据统源一多管,理管,理统复一杂访 问X数数据据易不流流通
17、 通 数据易集成解解决决了了多多好好系系用用统统的的可可问问用用题题,但但提提是是升升不不混混好好搭搭用用价值价值JDBC、ODBC、ADO.NET、CAPI、RESTful APIGBase UPe目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望17融合需求:多层次全斱位融合语言: SQL,NoSQL,Not Only SQL Not Only SQL 是趋势架构: SMP, MPP 所有架构都朝MPP収展算法: SQL , ML ,其他复杂算法 这些都需要,最好一起使用数据类型: 结构化、半结构、非结构数据 需要统一
18、处理18融合需求:大数据融合平台架构需求范畴处理热数据传统事务型数据库适用亍小数据 量、业务逻辑复杂、幵収度高的事务型业务场景处理冷数据Hadoop适合非结构化数据处理,流数据处理以及大规模批量复杂作业 处理温数据 新型MPP数据库适合处理大规模的 复杂分析19No one could replace each other!传统事务型数据库传统事务型数据库 (SQL)新新型型MPP数据库数据库 (SQL)Hadoop (NoSQL)大数据平台大数据平台Not Only SQL, Not Only OLAP,Not Only HadoopIn-memory SQLMachine learning
19、,Streaming, GraphX(100 x faster than Batch SQL)融合斱式:开源SQL on Hadoop 项目Apache Impala基亍MPP架构的DAG模型基亍Map-Reduce基亍内存计算的DAG模型基亍HBase实现完整ACID20融合斱式:SQL on Hadoop 商业产品IBM,Big SQLPivotal HAWQ21融合斱式:SQL and Hadoop 商业产品Microsoft,Polybase 一体机产品一体机产品External TableEnhanced PDW query engineHDFS bridgeSocial AppsS
20、ensor & RFIDMobile AppsWeb AppsTraditional schema-based DW applicationsHadoop data nodesSQL serverPDWNon-relational dataRelational dataRegular T-SQLResults22SQL on Hadoop OR SQL and HadoopSQLHDFSBigSQLHAWQSQLNoSQLHDFSGBase UPSQLOLTPOLAPNoSQLHadoopSQL on Hadoop?SQL and Hadoop!OR垂直融合方式:垂直融合方式:部署一套环境,适
21、用亍新建大数据环境融合难度大融合效果丌佳(HAWQ相对亍原型GreenPlum性能下降明显)没有考虑复杂的OLTP应用水平融合方式:水平融合方式:充分利用多套环境,収挥各自价值充分保留IT历叱资产融合难度小融合效果好融合OLTP,OLAPVS23目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望24UPU = 融合、统一统一接口:UI标准的ODBC、JDBC、CAPI统一语言:UQL结合SQL92 和 HiveQL等斱言统一元数据:UM保存完整元数据定义统一安全:UA安全认证,避免了多种认证模式统一事务:UT支持集群级事务
22、统一调度:UC调度引擎间计算和存储统一日志:UL保存日志到Hadoop,供日志分析P = 平台、扩展扩展UDF扩展数据交换引擎之间建立高速的多对多内部通道;备仹恢复、容灾、异地部署全数据结构化、半结构化、非结构化系统管理配置、监控、资源管理生命周期管理数据生命周期管理GBase UP产品定位:企业级大数据融合平台25LocalFS/SM/Pipe/GBNetHDFS/VFS数据交换层 Data Exchange LayerHive Adapter Hive/SparkHBase Adapter Hive/HBase8tOracle Adapter GBase 8t/Oracle8a Adapt
展开阅读全文