华为FusionInsight-LibrA-2.8-技术主打胶片.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《华为FusionInsight-LibrA-2.8-技术主打胶片.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 华为 FusionInsight LibrA 2.8 技术 主打 胶片
- 资源描述:
-
1、华为FusionInsight-LibrA-2华为FusionInsight LibrA 技术主打胶片 华为大数据营销团队2018-04-12目录l数据库的发展线路图 lFusionInsight概述lFusionInsight LibrA基础功能介绍 lFusionInsight LibrA的竞争力特性lFusionInsight LibrA的典型场景 lFusionInsight LibrA的规划数据库发展历史System R1973-1977DB21983-SDL1977-1979System R1980-1982数据库关系理论1970 F.CoddRSI1979-1983ORACLE1
2、983-ORACLEExadataDB2 9.7兼容OracleTeradata1983-NCR1990-Teradata2009-关系型数据库发展谱系MySQL1994-SkySQL2010-MariaDB2009-7080902010MySQL5.52009Postgres951995-Ingres项目1974-Michael StonebrakerIngres1982-Informix1984-Sybase1984-MSSQL1992-Postgresql1997-Vertica2005-Greenplum2003-Netezza1999-Informix UEMSSQL 2012Syb
3、ase ASEAsterDB2007-开源数据库之祖关系型数据库之祖BSDApacheGPL2012Gauss MPPDB2012FusionInsight MPPDB2014FusionInsight LibrA2017DWS2017闭源闭源云服务AWS、Aliyun、HEC一脉相承生态兼容,内核自研与LibrA对标的主流数据库厂家技术路线7080902010BSDApache2012闭源闭源SDL1977-1979数据库关系理论1970 F.CoddRSI1979-1983ORACLE1983-ORACLE Exadata x1x62008Teradata1983-NCR1990-Tera
4、data2009-Postgres951995-Ingres项目1974-Michael StonebrakerIngres1982-Postgresql1997-Vertica2005-Greenplum2003-开源数据库之祖关系型数据库之祖ORACLE Exadata x72017软硬件一体机,共享磁盘架构,最大支持8机柜x8计算节点。从x6开始主推Oracle Exadata数据库云平台技术特点:技术特点:开放平台开放平台,基于x86平台构建,无硬件lock-in无共享架构易扩展:并行分布式计算并行分布式计算:MPP并行架构,分布式SQL执行支持列存:支持列存:专为数据分析而设计的数据
5、库存储引擎SQL on Hadoop:支持通过SQL访问HDFS上的数据趋势:趋势:云化,与Hadoop互通,企业级内核,更大的集群规模FusionInsight LibrA2012领头羊,一体机封闭架构,昂贵,聚焦世界500强企业FusionInsight LibrA 在行业中的位置实时性&可靠性要求低传统OLTP数据库高MPP数据仓库HP Vertica IBM PureDataTeradata FusionInsight LibrAGreenplumGBase云服务Amazon RedshiftAliyun HybridDBHuawei DWS 大数据混合型场景Oracle Exadat
6、a数据量小的情况下,OLTP数据库用于构建数仓FusionInsight LibrA发展历程技术演进技术演进市场进展市场进展MPP架构行存储HA机制分布式框架20122012年年20132013年年 极致性能:列存向量化引擎、高级压缩、LLVM、智能优化器 高扩展:大集群通信技术、在线扩容、弹性伸缩、SQL on LocalDisk/HDFS 高可靠:全组件HA、动态负载管理、故障检测 易用性和生态:Data Studio SQL编辑工具、Migration Tool、多租户20142014年年20172017年年 极致性能:智能优化器 高扩展:在线扩容、SQL on LocalDisk/HD
7、FS 高可靠:CRC故障检测 易用性和生态:多租户、快速升级、Migration Tool、NodeGroup多业务统一管理原型开发与技术验证在5050+客户成功商用:金融(工行融合数仓)、平安城市项目、运营商(辽宁移动经分项目)等全球商用。已在金融、平安城市、电信领域广泛应用LibrA 2.8刷新FusionInsight LibrA在全球50+客户成功商用市场市场进展进展:金融、平安城市、运营商、电商、能源、电力等场景两两类场景类场景:企业数据仓库和数据集市场景,样板项目包括平安城市大数据项目、银行融合数据仓库项目、运营商经分项目、详单分析项目等。关键关键客户:客户:中国工商银行(全球市值
8、最大商业银行)中国移动(全球最多用户数的运营商)中国某省平安城市项目华为Vmall商城沃达丰子网凭借在电信领域的积累,华为凭借在电信领域的积累,华为FusionInsight LibrAFusionInsight LibrA在海外在海外成功拓展,已在菲律宾成功拓展,已在菲律宾PLDTPLDT,沃达沃达丰子网等客户实现商用丰子网等客户实现商用上线。上线。菲律宾中国肯尼亚莫桑比克坦桑尼亚刚果民主共和国印度尼西亚党张波:海外的项目,是OceanStor N9000转售Gauss200 OLAP的时候销售的,当时是Gauss200 OLAP V1R3版本,咱现在最新是V1R7了,品牌不是FusionI
9、nsight。从产品能力上来说LibrA肯定能Cover,没用LibrA收编是商务的原因。只能替换,技术上不支持升级。目录l数据库的发展线路图 lFusionInsight概述lFusionInsight LibrA基础功能介绍 lFusionInsight LibrA的竞争力特性lFusionInsight LibrA的典型场景 lFusionInsight LibrA的规划大数据是华为ICT战略的重要支柱Source:Huawei corporate presentation 华为公司战略地图华为大数据研发全球配置全球8个研究所,保持千千人人+的规模投入拥有PMC/Committer、IE
10、EE Fellow等世界级数据挖掘和人工智能专家Professional ServiceBig Data Analytics PlatformData Center InfrastructureCore NetworkIP+OpticalFBBEnterprise NetworkMBBThings(M2M Module)People(Smart Device)EnterpriseAppsSDPBSS/OSS3rdPartnersContent&App3rd ISVsFusionInsight平台架构:分层解耦开放数据接入数据接入LoaderSqoop批量采集批量采集 Flume实时采集实时采集
11、 Oozie作业调度作业调度Kafka消息队列消息队列FtpOnHDFS文件传输文件传输 电信行业金融行业政务行业安平行业管理平台管理平台Manager租户管理租户管理配置管理配置管理故障管理故障管理性能管理性能管理安全管理安全管理 大数据服务大数据服务大数据服务AI平台平台算法调度引擎算法调度引擎算法算法仓库仓库深度深度学习学习DataIDE数据集成开发工具数据集成开发工具DataCubeLibrAMPP DB并行数据库并行数据库数据处理数据处理 HDHDFS 分布式文件系统HBase Spark 批处理框架Elk标准SQL引擎Flink 流处理框架YARN 资源管理ES搜索搜索Carbon
12、Data 新型文件格式协同计算(协同计算(co-computing)Tagram图引擎DerechoOLTP并行数据库并行数据库标签标签引擎引擎行业分析引擎行业分析引擎关系关系引擎引擎轨迹轨迹引擎引擎实时决策实时决策引擎引擎Miner StudioRDS(3rd)DWSDerecho服务目录l数据库的发展线路图 lFusionInsight概述lFusionInsight LibrA基础功能介绍 lFusionInsight LibrA的竞争力特性lFusionInsight LibrA的典型场景 lFusionInsight LibrA的规划Data Node-1CoordinatorNod
13、e-nLocal-DiskData Node-2Local-DiskData Node-3Local-DiskData Node-nLocal-Disk业务应用2CMGTMWLMCoordinatorNode-2OMGDS LoaderCoordinatorNode-1OMCMGTMWLMCoordinatorData NodeStorageGDS Loader软件逻辑架构:无共享架构,按需横向扩展x86服务器,实现海量数据高性能SQL分析业务应用1网络通道(10GE)性能SQL和兼容性架构Data Node-1CoordinatorNode-nLocal-DiskData Node-2Loc
14、al-DiskData Node-3Local-DiskData Node-nLocal-Disk业务应用2CMGTMWLMCoordinatorNode-2OMGDS LoaderCoordinatorNode-1业务流向图业务应用1网络通道(10GE)123451业务应用下发SQL给Coordinator,SQL可以包含对数据的增(insert)、删(delete/drop)、改(update)、查(select)。2Coordinator利用数据库的优化器优化器生成执行计划,每个DN会按照执行计划的要求去处理数据。3因为数据是通过一致性Hash技术均匀分布在每个节点,因此DN在处理数据的
15、过程中,可能需要从其他DN获取数据,LibrA提供了三种stream流(广播流、聚合流和重分布流)来降低数据在DN节点间的流动。4DN将结果集返回给Coordinate进行汇总。5Coordinator将汇总后的结果返回给业务应用。性能SQL和兼容性架构SQL基础功能列表SQL标准:支持ANSI SQL 99和2003;事务支持(ACID):具备完整的OLTP事务支持能力(事务隔离级别支持可提交读,无脏读)。数据类型数值类型:字符类型、日期类型、布尔类型、大对象类型。操作符:数值运算、逻辑运算、比较运算、字串拼接(类型强转)函数:数值函数、字符函数、日期函数、类型转换、条件表达式、正则表达式、
16、安全函数、聚合函数、窗口分析函数支持表空间支持临时表支持索引支持函数索引支持视图存储过程及功能完备性支持Sequence支持丰富字符集支持dblink性能SQL和兼容性架构SQL On HDFS,实现互联互通,且兼容标准SQLLocal File SystemFusionInsight LibrA通过外表访问SparkHiveANSI SQL类SQL/APIHDFS/HBase大数据分析平台StormFusionInsight HDDNDNDNDNDNDNDNDN兼容标准兼容标准SQL:SQL:标准ANSI SQL92、SQL2003部分兼容Oracle语法、Teradata语法标准开发接口J
17、DBC、ODBC支持事务和存储过程应用应用透明透明:l支持SQL2003标准访问HDFS高高性能交互查询性能交互查询:l支持HDFS远端访问l支持ORC文件格式(查询)l支持HDFS事务l支持HDFS数据导入本地表性能SQL和兼容性架构LibrA将HDFS上存储的结构化数据映射为外部表,从而利用数据库SQL引擎的能力对HDFS上的数据进行分析。全并行架构,最大化利用系统计算资源利用率,提升处理性能核心问题:x86 PC Server集群架构下,单核处理能力有限,如何利用x86多核计算资源,提升集群处理性能;未来ARM64众核架构下,解决众核、Numa架构资源利用问题;核心技术:分布式执行框架,
18、VPP用户态TCP协议,支持1000服务器,万级CPU核并行计算;核心技术:多线程并行算法,实现核心算子内并行执行;众核(64 cores)支持,NUMA架构优化;MPP:节点并行分布式执行框架集群内并行N降低查询内并行N降低SMP:算子并行算子并行CPUCPUCPUSystem busSelect*FromCustomerOrder byLast_name;ParallelQueryPlanDispatchParallelthreadMergeResultsetThreadexecutionThreadexecutionThreadexecutionTablePartition1TableP
19、artition2TablePartition3性能SQL和兼容性架构SIMD:指令级并行指令级并行操作数归并IC降低核心技术:SIMD+向量化引擎,一个指令执行一批数据的操作;支持X86,ARM指令;核心技术:LLVM编译执行,将热点函数预编译成机器码,减少SQL执行指令数,提升性能;总计算代价=IC(降低)*CPI*N1(降低)*N2(降低),性能提升100 xIC:单记录计算指令数 CPI:每指令的CPU周期 N:记录数行列混存、向量化执行技术X百万1亿6千万10亿O#FusionInsight LibrA时间过车记录表车辆信息表卡口配置信息表 传统分析型数据库,无法应对海量数据复杂查询
20、场景下快速响应的诉求应用程序APP统一的SQL引擎:对业务透明并行执行引擎行列混存、向量化执行引擎以某市交通套牌车分析为例,6000w条记录,全市1000智能卡口,查询分析计算量大:6000w x 6000w*1000*1000在数据量达到千万级别时,传统数据库的查询响应时间极速增大6000w条记录:O#2hLibrA只需要20s行列混存、向量化执行技术带来100倍分析性能的提升实现万亿数据关联分析秒级响应性能SQL和兼容性架构行列混存技术详解,更好的场景适应性Columnar storageRow storageVector EngineRow EngineR2V V2R Query Eng
21、ineNative interface Native interface complimentaryinterface New libpq protocolExisting libpq protocolStorage Enginel表级别指定行存/列存l根据不同的场景选择不同的存储类型行/列存场景选择行列混合引擎场景 行存点查询B+树索引,直接定位到行(页)粗粒度索引,定位到CU数据更新支持行级别锁支持CU级别并发更新支持CU级别锁,支持CU级别并发更新统计分析Pipeline执行天然和向量化引擎对接,降低CPU Cache Miss和指令Miss,效率成倍提升批量加载并行批量加载压缩率高,I
22、O量更小注:用户在建表时,通过CREATE TABLE语法指定建立行存表或者列存表,在对数据进行增删改查操作时,LibrA会自动选择使用行存储引擎或者列存储引擎。性能SQL和兼容性架构列存向量化执行技术-详解数据库的“执行引擎”位于SQL引擎与存储引擎之间,执行引擎以SQL引擎执行计划为输入,调用存储引擎接口,将元组按执行计划的要求进行加工并输出给客户端。大多数主流商业数据库的执行模型:控制流向下(下图实线)、数据流向上(下图虚线)、上层驱动下层(上层节点调用下层节点要数据)、一次一元组(下层节点每次只返回一个元组给上层节点)。传统的数据库查询执行都是采用一次一tuple的pipleline执
23、行模式:1、导致CPU耗费在遍历查询操作树的时间远大于处理数据的时间;2、导致低指令缓存性能和频繁跳转;3、不能够利用到现在新硬件的新的能力来加速查询的执行。迭代器模型向量化执行相对于传统的执行模式:一次一元组的模型-一次一批元组1.提高CPU利用率:一次一元组模型函数调用次数较大,每一条元组都会根据执行树的形态遍历执行树,导致CPU耗费在遍历查询操作树的时间远大于处理数据的时间,面对OLAP场景巨量的函数调用次数,开销非常大。而向量化引擎的一次一批元组的执行模式则大大减小的遍历执行节点的开销。2.新硬件加速:一次一批元组的数据运载方式为某些表达式计算的SIMD化提供了机会,SIMD化能带来性
24、能的提升。3.提升磁盘I/O效率:一次一批元组的数据运载方式天然对接列存,列存引擎能够很方便的在底层扫描节点装填向量化的列数据。性能SQL和兼容性架构智能优化器优化器是数据库的大脑优化器是数据库的大脑执行引擎解析器RunTime:10sRunTime:1s基于规则的SQL重写聚合&表连接执行计划生产与搜索执行引擎代价评估子系统l统计信息l迭代计算统计信息lCost API-存储:知识库存储 执行计划存储SQL解析迭代过程基于代价的SQL重写存储/文件系统机器学习引擎智能优化器智能优化器关键突关键突破点破点优化器相当于数据库的优化器相当于数据库的“大脑大脑”,在PB级的海量结构化数据场景下,10
25、00+数据表,客户利用SQL语言定义出想要探寻的结果,优化器的作用就是根据数据特征和系统资源状况,从10K+的备选方案中,选择制定出最优的执行计划,不同计划,性能往往相差千倍以上。LibrA内置基于规则的优化器(RBO)和基于代价的优化器(CBO)。基于Global hint table技术的plan management:Global hint table技术取代传统SQL embedded hint,客户应用不需改写;Cost-based query rewrite技术:rule-based query rewrite技术,自动优化常见SQL不规范使用的场景;性能SQL和兼容性架构SQL极
展开阅读全文