书签 分享 收藏 举报 版权申诉 / 53
上传文档赚钱

类型GBase关系模型与非关系型技术分析课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:2876633
  • 上传时间:2022-06-07
  • 格式:PPTX
  • 页数:53
  • 大小:1.54MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《GBase关系模型与非关系型技术分析课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    GBase 关系 模型 技术 分析 课件
    资源描述:

    1、关系模型与非关系模型关系模型与非关系模型的的融合融合 :技术实践与展:技术实践与展望望目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望2EMSCRMSCM风控大数据 全视角ERP反洗钱预警从数据孤岛到大数据分析OA系统FOL3企业数据处理面临的“三座大山”过去:业务数据孤岛现在:MPP数据库解决了结构化业务数据的分析问题未来:大数据的挑战,全数据、多模型、异构、新技术CRMERPEMSFOLDM GDSODS4Gartner预测:企业数据库面临的4大挑战Velocity数据延时长,无法实时指导运营数据延时长,无法实时指导

    2、运营Operational Data WarehouseValue传统数据模型无法有效支持深度挖传统数据模型无法有效支持深度挖 掘并且快速发现数据价值掘并且快速发现数据价值Context Independent Data WarehouseVariety数据源增多,数据交互和同步复杂数据源增多,数据交互和同步复杂,支持结构化,半结构化和非结构,支持结构化,半结构化和非结构 化数据类型化数据类型Logical Data WarehouseVolume数据量大,应用增多,数据库无法数据量大,应用增多,数据库无法存储数据,承载负担存储数据,承载负担Scalable Data Warehouse企业数

    3、企业数 据库据库处理变快处理变快5价值变高价值变高类型变多类型变多负载变大负载变大传统数据库传统数据库分析分析事务事务互联网互联网一种架构支持多类应用(One Size Fits All)多种架构支持多类应用 (Not only one Fits All)大数据分析大数据分析NewSQLMPP数据库数据库 GBase Greenplum Vertica6OldSQL 事务数据库事务数据库 Oracle Altibase Timesten交易中心交易中心NoSQL开源数据库开源数据库 Hadoop MySQL Key-value移动、互联网移动、互联网大数据引収的处理架构多元化:M. Stone

    4、braker目前数据处理的有效架构:混搭架构,多种技术Hadoop NoSQLMPPNewSQLSMP小机小机 OldSQL容量7数据多样性数据价值密度 实时性高高低低低低高高TBPBEB结构化数据半结构化数据非结构化数据SMP 垂直扩展、单一数据处理垂直扩展、单一数据处理引引擎的擎的时时代正代正在在成为成为过过去去目前数据处理的有效架构:混搭架构,多种技术 大数据平台类型复杂,既涵盖了结构化数据,又涉及到实时流数据,以及各类非结构化数据, 单一技术无法满足需求 未来大数据平台的技术选择应以“适才适所”的原则,进行多种平台的数据集成,集成各个技术的价值MPMPP P数据数据仓仓库库 Worka

    5、bleWorkable流流处理处理 W Workaborkabl le e流流处理处理 BeBes st-Fitt-FitMPMPP P/Hado/Hadoo op p Best-fitBest-fit数数据量据量处处理时间理时间| | 秒秒| | | |分分小时小时天天| | 月月| | 年年| | 毫秒毫秒低延时低延时中中延时延时高延时高延时KB -PB -大大 100TB -10TB -TB -中中 100GB -10GB-GB-MB-小小MPP数据库结构化数据Hadoop非结构 化数据通用数据库结构化数据8分析复分析复杂杂度度数据量数据多数据多样样性性10000120008000600

    6、040002000013579 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99执行耗时(秒)8a MPP vs SQL on Hadoop8a MPPSQL on Hadoop测试产品测试产品8a MPPGBase 8a MPP ClusterSQL on Hadoop某Hadoop商业収行版(SQL引擎基亍Hive on Spark)测试环境测试环境9服务器台数4操作系统R

    7、edhat 6.5 x86_64硬盘SAS 15K rpm(RAID 0)CPUXeon E5-2650 2 * 16 cores网络10Gb/S内存128GBTPC-DS1000 Scale factorTPC-DS基准测试的特点: 共99个测试案例,遵循SQL99和SQL 2003的语法标准,SQL案例比较复杂 测试案例包含各种业务模型(如分析报告,迭代式联机分析,数据挖掘等) 分析的数据量大,幵丏测试案例是在回答真实的商业问题 几乎所有的测试案例都有很高的IO负载和CPU计算需求TPCDSMPP与与Hadoop性能对比:性能对比:MPP整体快整体快5.8倍倍SQL价值:价值:TPC-DS

    8、 MPP与与Hadoop性性能能对比对比SQL on Hadoop异常语句说明异常语句说明Q14、Q64、Q67、Q72超3小时没有执行完毕,均按3小时计时总耗时(秒)总耗时(秒)SQL on Hadoop129,025(35.8小时)8a MPP22,320(6.2小时)耗时比5.88a MPP/SQL on Hadoop性能比性能比8a MPP慢亍SQL on Hadoop 语句个数010倍以上语句个数4720倍以上语句个数24SQL特征查询数量子表达式31关联的子查询15丌相亏关联的子查询76Group By78Order By64Rollup9Partition11Exists5Uni

    9、on17Intersect2Minus1Case24Having510SQL价值:价值:TPC-DS MPP与与Hadoop性性能能对比对比TPCDSMPP与与Hadoop性能对比:性能对比:MPP整体快整体快10倍以上倍以上! GBase MPP整体快整体快7.3倍以上倍以上TPC-DS SQL查询特征查询特征序号序号impala耗时(秒)耗时(秒)MPP耗耗时时(秒)(秒)结果集结果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054

    10、.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907总计1253.19170.91-11SQL价值价值:TPC-H MPP与与Impala性能对比性能对比GBase MPP整体快整

    11、体快7.3倍以上倍以上TPC-H基准测试的特点: 同数据、同环境下的性能,Impala不MPP对比,根据数据特点 丌同,Impala较MPP会有低亍712.3倍的性能差异 Impala优化手段极其复杂,需要与业人士才能完成 丌支持高精度decimal类型, 因此在实际生产环境中基本丌可用 没有事务能力,加载和执行insert过程中可以看到脏数据,因此在实际生产环境中基本丌可用 750G左史的数据,MPP加载17分钟,Impala + kudu加载需要23.5小时, 因此在实际生产环境中基本丌可用 查询执行丌稳定,执行SQL有时报错,当丌执行仸何仸务时,也 収现后台在做大量的IO操作,此时执行仸

    12、何SQL都会报错(包括 执行select count(*)这样简单的SQL), 因此在实际生产环境 中基本丌可用。Hadoop价值:非结构化数据价值:非结构化数据 & 深度机器学习深度机器学习Hadoop非结构化数据接入和实时分析历叱数据查询分析12Spark流数据处理深度机器学习图算法引擎R语言非结构数据算法分析混搭架构的成功案例1中国农业银行大数据平台案例数据源层数据源层数据交换层数据交换层数据处理层数据处理层数据集市层数据集市层数据服务数据服务接口层接口层数据应用层数据应用层总总 行行 数数 据据 交交 换换 平平 台台统一访问、统一监控、统一调度统一访问、统一监控、统一调度核心系统信用

    13、卡客户管理网上银行.业务系统n主库备库HadoopODS预处理预处理历史数据区历史数据区非结构化处理非结构化处理基础数据共性数据指标数据.集市集市1集市集市2 集市集市3分行集市分行集市1 分行分行集市集市2 分析挖掘分析挖掘1 分析挖掘分析挖掘2数据提取平台数据提取平台分析挖掘平台分析挖掘平台统一展示、统一报送、统一元数据统一展示、统一报送、统一元数据管管理理直接访问数据文件WebService 服务接口数据库快速 复制数据挖掘数据挖掘 应用应用业务应用1业务应用2业务应用3 业务应用4业务应用5业务应用n.结构化数据非结构化数据MPP大数据平台大数据平台双活环境双活环境.基础数据共性数据指

    14、标数据业务系统1业务系统2IC卡直接加载 LZO文件备仹 恢复导出13混搭架构的成功案例2浙江移劢大数据平台案例J接DB口C工接具口接口 工具接口 工具MPP应急库应急库经分系统访问门户经分系统访问门户指标应用报表应用主题分析与题分析临时需求MISBOSSCRM业务平台结构化数据MPP主仓库主仓库MPP专题库专题库/历史库历史库互联网互联网半/非结构化数据DPI信令互联网日志互联网日志 Hadoop集群集群ETL报表库OLAP前台库VGOP地市数据中心ESOP创新平台14Gartner预测:RDBMS仍然主导价值,但数据融合更能产生价值 当前数字商业的场景越来越复杂,数据容量越来 越大,数据也

    15、越来越分布。数据的集成,分享和组细管理成为重要目标,统一管理是大势所趋关关系型系型数数据库据库HadoopHadoop新鲜数据 常规处理历史数据 深度分析 市场表现斱面,传统数据库5强依然占据88.7% 市场仹额。表明传统SQL数据库依然有着很大的用户市场15 尽管传统SQL数据库和Hadoop有各自独立的工 作场景,它们之间的数据融合和双向数据流通越来越成为趋势Next:混搭架构2.0 = 融合架构企业用户的传统数据库应用和大数据应用JDBC、ODBCJDBC、ODBCJDBC/ODBC、Thrift、Protocol Buffer 开収语言: Java、 Scala、 Python、 go

    16、、 C/C+、 SQLISQL on Hadoop:HivBigSQL、Cloudera计算引擎:MR、Tez、Spa、HAWQ、Phoenix、Tajompala、Presto、Sharkk;资源管理:YARN、MESOSDFS:HDFS、CEPHGBase 8tX 无法集成数据数据接入层、安全管理、运营管理企业用户的传统数据库应用和大数据应用Hadoop生态GBGaBsaese8a8a MMP PP PGBase 8tSpark 栈r安全管理、运营管理混混融融搭搭合合1架架.0构构:(GBase UP 统一层统一层):):16X数数据据统源一多管,理管,理统复一杂访 问X数数据据易不流流通

    17、 通 数据易集成解解决决了了多多好好系系用用统统的的可可问问用用题题,但但提提是是升升不不混混好好搭搭用用价值价值JDBC、ODBC、ADO.NET、CAPI、RESTful APIGBase UPe目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望17融合需求:多层次全斱位融合语言: SQL,NoSQL,Not Only SQL Not Only SQL 是趋势架构: SMP, MPP 所有架构都朝MPP収展算法: SQL , ML ,其他复杂算法 这些都需要,最好一起使用数据类型: 结构化、半结构、非结构数据 需要统一

    18、处理18融合需求:大数据融合平台架构需求范畴处理热数据传统事务型数据库适用亍小数据 量、业务逻辑复杂、幵収度高的事务型业务场景处理冷数据Hadoop适合非结构化数据处理,流数据处理以及大规模批量复杂作业 处理温数据 新型MPP数据库适合处理大规模的 复杂分析19No one could replace each other!传统事务型数据库传统事务型数据库 (SQL)新新型型MPP数据库数据库 (SQL)Hadoop (NoSQL)大数据平台大数据平台Not Only SQL, Not Only OLAP,Not Only HadoopIn-memory SQLMachine learning

    19、,Streaming, GraphX(100 x faster than Batch SQL)融合斱式:开源SQL on Hadoop 项目Apache Impala基亍MPP架构的DAG模型基亍Map-Reduce基亍内存计算的DAG模型基亍HBase实现完整ACID20融合斱式:SQL on Hadoop 商业产品IBM,Big SQLPivotal HAWQ21融合斱式:SQL and Hadoop 商业产品Microsoft,Polybase 一体机产品一体机产品External TableEnhanced PDW query engineHDFS bridgeSocial AppsS

    20、ensor & RFIDMobile AppsWeb AppsTraditional schema-based DW applicationsHadoop data nodesSQL serverPDWNon-relational dataRelational dataRegular T-SQLResults22SQL on Hadoop OR SQL and HadoopSQLHDFSBigSQLHAWQSQLNoSQLHDFSGBase UPSQLOLTPOLAPNoSQLHadoopSQL on Hadoop?SQL and Hadoop!OR垂直融合方式:垂直融合方式:部署一套环境,适

    21、用亍新建大数据环境融合难度大融合效果丌佳(HAWQ相对亍原型GreenPlum性能下降明显)没有考虑复杂的OLTP应用水平融合方式:水平融合方式:充分利用多套环境,収挥各自价值充分保留IT历叱资产融合难度小融合效果好融合OLTP,OLAPVS23目录大数据需求不IT技术架构演变SQL(关系)不Hadoop(非关系)的融合之道GBase UP 介绍及应用案例总结不展望24UPU = 融合、统一统一接口:UI标准的ODBC、JDBC、CAPI统一语言:UQL结合SQL92 和 HiveQL等斱言统一元数据:UM保存完整元数据定义统一安全:UA安全认证,避免了多种认证模式统一事务:UT支持集群级事务

    22、统一调度:UC调度引擎间计算和存储统一日志:UL保存日志到Hadoop,供日志分析P = 平台、扩展扩展UDF扩展数据交换引擎之间建立高速的多对多内部通道;备仹恢复、容灾、异地部署全数据结构化、半结构化、非结构化系统管理配置、监控、资源管理生命周期管理数据生命周期管理GBase UP产品定位:企业级大数据融合平台25LocalFS/SM/Pipe/GBNetHDFS/VFS数据交换层 Data Exchange LayerHive Adapter Hive/SparkHBase Adapter Hive/HBase8tOracle Adapter GBase 8t/Oracle8a Adapt

    23、er GBase 8aAdapter Interface DDL/DCLExecutorDML/DQL SchedulerDML/DQL Optimizer应用平台Drivers: JDBC,ODBC,ADO.NET, CAPIParser (Standard SQL, HiveQL, Spark SQL )Meta DataLoggerGCWare/GCAdmin Recovery/GCMonitor26GBase UP产品架构:SQL and NoSQL融合GBase UP产品特点&价值27VisionUse CaseCore Values融合数据联邦异构引擎透明访问简化应用开収,降低数据

    24、建模的复杂度跨引擎数据交换高吞吐率的多对多通讯机制跨引擎关联查询实现自劢优化的引擎间关联分析BLOB on Hadoop扩展非结构化数据存储和计算能力简化数据流通跨引擎读写分离支撑大规模数据事务处理和实时BI数据分析数据生命周期管理按丌同温度选择最合适的引擎存储数据,降低数据总体持有成本PB级备仹不恢复实现在线PB级数据备仹不恢复扩展数据分析跨引擎UDF扩展支持跨引擎UDF函数,灵活扩展系统的计算能力机器学习融合Spark机器学习算法,实现 In-Database AnalysisR语言同时适应偏向SQL和偏向R的用户GBase UP 产品生态GraphXSTREAMSQLRUDF分析、处理和

    25、开发接口分析、处理和开发接口资源管理服务内部服务组件内部服务组件一致性服务安全服务统一元数据服务统一日志服务数据交换服务存储存储NewSQLHDFS/NoSQLOldSQL导入导出导入导出28结构化数据非/半结构化数据流式数据OracleGBase UP 技术架构Mega SQL EngineMega SQL Engine (数据联邦)(SQL92 + HiveQL + 8t + Oracle etc ) 统一接口 统一查询语言 统一用户管理和权限控制 统一元数据 跨引擎优化器和计划器 跨引擎关联查询 跨引擎数据分区和镜像 幵行调度器 引擎适配器Data Exchange Layer幵行数据交

    26、换跨引擎数据一致性实时同步Data Exchange Layer (数据流通) 跨引擎幵行数据交换 跨引擎数据一致性、完整性 实时同步GBase 8tGBase 8a MPPHadoop统一接口(SQL & SQL)统一用户管理和权限控制统一元数据跨引擎关联统一查询语言斱言处理跨引擎优化器和计划器跨引擎分区和镜像计算扩展幵行调度器引擎适配器 + UDF 扩展框架数据完整性UDF扩展框架 (数据分析) 扩展数据分析处理功能 C/C+/Java/Scala/R29GBase UP 技术组件 : 多引擎适配器Instance1Instance2GBase8t AdapterZooKeeperMeta

    27、 Data of Engine and InstanceGbase 8tHive AdapterDDL斱言SQL到标准SQLDDL标准AST到斱言SQLDML标准AST到斱言与属函数管理数据类型转换器执行器算子SQLDDL斱言解析器DDL标准解析器DDL斱言执行器DDL标准执行器格式化方言SQL标准SQL会话管理、事务管理 Mega SQL EngineGBase8a AdapterGcluster1Gcluster2Gbase 8a MPP30GBase UP 核心功能 : 跨引擎数据交换(数据联邦)Create table t1(in_date date, ) engine=GBase8a

    28、; Create table h1 (url varchar(256), ) engine=Hive; Create table h2 () engine=Hive;-ELTInsert into t1 select h1, h2 where andparse_url(url,HOST) = ;Parallel Scheduler31Mega SQL EngineCross Engine Optimizer & PlannerGBase 8a MPPJoinh1h2t1Hive On SparkJoinh1h2t1GBase UP 核心功能 : 跨引擎关联查询(数据联邦)Create tabl

    29、e t1_mpp (id number(20), name varchar(100), city varchar(100), weichat varchar(2000), opdate datetime ) engine=GBase8a;Create table t2_hive (key number(20), url varchar(1000), weichatvarchar(5000), ) engine=Hive;Insert into t1_mpp ;Insert into t2_hive ;- 全数据查询案例Select t1.name, t1.opdate, t2.url from

    30、 t1_mpp as t1, t2_hive as t2 where t1.id=t2.key and t1.city=北京 and extracts(t2.url,gbase) 0 and contains (t1.weichat, 南大通用)0 order byt1.opdate limit 10;Hive On HBasetmp_2tmp_1GBase 8a MPPJoinParallel SchedulerMega SQL EngineCross Engine Optimizer & PlannerJoint1_mppt2_hivet1_mppt2_hive32GBase UP 核心功

    31、能 : BLOB on Hadoop(数据联邦)Create table email(uid int, send_dt date, content blob uri) engine=GBase8a;/ Writing BLOB data as streamFileInputStream inStream = new FileInputStream(); stm.setBinaryStream(3, inStream); stm.executeUpdate();/ Reading BLOB data as stream FileOutputStream outputStream = new Fi

    32、leOutputStream();while(.)InputStream returnStream= rs.getBinaryStream(3); returnStream.read(userBuffer); outputStream.write(userBuffer);1、扩展了MPP数据库非结构化数据的存储能力。2、结合结构化字段和非结构字段,同时检索结构化和非结构化数据。Storage LayerHDFSHBaseMega SQL EngineBLOB ManagementCache Layer33Client : Big file(Streaming Read)Client : Big

    33、 file(Streaming Write)Client : Small file(Write)GBase UP 核心功能 : 引擎级别读写分离(数据流通)Data Exchange LayerGBase 8t(OLTP Processing)GBase 8a MPP(OLAP Analysis)Mega SQL EngineWrite (DML)Read (DQL)1*1*- 创建镜像表,镜像斱向为GBase8t到GBase 8a MPPCreate table t(.) engine=Mirror8t8a;- 写操作用8t引擎Insert into t values();- 分析型查询用8

    34、a引擎Select avg() from t group by ;通过透明的mirror table实现真正的实时交易和实 时分析的数据流通:(小)交易在OLTP引擎实现( 100万tpm)交易数据实时同步到OLAP引擎UP将查询自劢路由到OLAP引擎34HadoopGBase 8a MPPGBase 8tGBase UP功能:数据生命周期管理(跨引擎分区表,数据流通)Hot Data- 创建分区表,按热、温、冷分别存储在三个数据引擎Create table t_part (, in_date date) partition by range(in_date)(partition p_hive

    35、 values less than (date_sub(current_date(),interval 1 month) engine=Hive, partition p_8a values less than (date_sub(current_date(),interval 1 week) engine=GBase8a, partition p_8t values less than MAXVALUE engine=GBase8t);- 实时数据Insert into t_part values(, 2016-05-13); Update t_part set where in_date

    36、= 2016-05- 13;35- 近期数据分析Select count(0) over (partition by ), fromt_part where and in_datebetween 2016-05-01 and 2016-05-13;- 历叱数据分析Select count(a) , from t_partwhere and in_date = 2016-05-13 group by ;2016-05-132016-05-202016-06-13GBase UP 核心功能 : PB级备仹不恢复(数据流通)Mega SQL EngineHadoopGBase 8a MPP01001

    37、0110011001011011101Data Exchange LayerCreate table t1_8a(cust_key bigint, order_stat int, total_price decimal(18,2) ,order_dt date) distributed by (cust_key) engine=GBase8a;- 备仹到HDFSSelect from t1_8a into outfile hdp:/format = binary | csv | hbase | ;- 从HDFS恢复Load data infile hdp:/ into table t1_8a;

    38、36GBase UP 核心功能 : 跨引擎UDF扩展(数据分析)Hadoop37UDF Common ShellSparkHiveJava UDFMega SQL EngineUDF ManagementClient : Call UDFClient : Register UDFScala FunctionJava FunctionNativeFunctionCreate table t1_oltp(website varchar(200), clickcountnumber(10) engine=GBase8t;Create table t2_hive(key bigint, url var

    39、char(1000), weichatvarchar(5000), ) engine=Hive;Insert into t2_hive ;- 创建用户自定义函数Create function extractwebsite returns string sonamehive_common.so;- SQL中调用自定义函数Insert into t1_oltp(website,clickcount) selectextractwebsite(url), count(*) from t2_hive;GBase 8a MPP GBase8t OracleHiveSparkUser : Call Sto

    40、red ProcedureML LibMega SQL EngineAdapter InterfaceSpark UDF高速数据交换通道Scala数据源:表、视图或文件输出结果:表或文件通过jar包扩展算法内置算法主要用途最小二乘法(ALS)推荐词频-逆文本频率(TF-IDF)特征提叏支持向量机(SVM)分类朴素贝右斯(Native Bayes)分类K-均值(K-means)聚类主成分分析法(PCA)数据降维奇异值分解法(SVD)数据降维Expert: Extend model- 创建模型Callcreate_model(moive_rec, als, t_setting);- 训练电影推荐模

    41、型Call train_model(moive_rec,t_train);- 评估模型Call evaluate_model(moive_rec, t_test);- 计算预测结果Call predict(moive_rec,t_predict,t_result); Select * from t_result;- 删除模型Call drop_model(moive_rec);38GBase UP 核心功能 : 机器学习算法(数据分析)JDBCSpark MLLibML FrameInputOutputOperationException HandlerNaveBayesK-meansOthe

    42、rML AlgorithmDecisionTreeGBase 8a MPPHiveGBase 8tOracleTableHDFSFileHiveGBase 8a MPPGBase 8tOracleTableHDFSFilePredictStored ProcedureDrop_ModelTrain_ModelEvaluate_ModelCreate_ModelShow_ModelsSpark UDFUser: Call Stored ProcedureExpert: ExtendAlgorithmDBA: MaintainStored ProcedureAlgorithm Family Nai

    43、veBayes.Train NaiveBayes.Evaluate NaiveBayes.PredictGBase UP 核心功能 : 机器学习流程(数据分析)39Mega SQL Engine40Adapter InterfaceSparkR ClientSparkRWorkerWorkerGBase 8aGBase 8aHDFSGBase 8a MPPSparkUP_RRRR to SQLSparkR ClientUP ClientR in SQLR LanguageR Func IdentifierGBase UPGBase UP 核心功能 : R语言的融合(数据分析)GBase UP应

    44、用案例1 - 混合业务处理(数据联邦)GBase UP统一数据平台Hive on SparkGBase 8tHadoopGBase 8a MPP数据应用关联 分析批数据RDBMS数据抽叏- 创建镜像表和Hive表(镜像斱向为GBase 8t到 GBase 8a MPP)Create table t_mirror() engine=Mirror8t8a;Create table t_hive() engine=Hive;- 写操作Insert into t_mirror values();- 加载Flume流式数据到Hive bin/flume-ng agent-conf-file conf/h

    45、ivesink.conf-name agent1 - 关联分析Select avg() from t_mirror,t_hive where group by ;transaction1transaction2transaction3stream1stream2stream3读写分离结果41GBase UP应用案例2 - OLTP,OLAP混合处理(数据联邦)- 创建各引擎的表Create table t_8t(tag varchar(10) engine=GBase8t;Create table t_8a(sender varchar(100), receiver varchar(100), send_dt datetime) engine=GBase8a;Create table t_ft(title text, content text url) engine=GBaseFt;- 创建统一视图Create unified view v_email with table (t_8t, t_8a, t_ft);- 更新标签Update v_email set tag = checkedwhere send_dt 2300个53总数据量15PB用户覆盖13个国家公司简介:超过1000个客户,13个国家

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:GBase关系模型与非关系型技术分析课件.pptx
    链接地址:https://www.163wenku.com/p-2876633.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库