金融大数据解决方案.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《金融大数据解决方案.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金融 数据 解决方案
- 资源描述:
-
1、金融大数据解决方案汇报Content大数据发展趋势大数据平台行业实践大数据平台关键技术1234大数据平台案列详述未来银行:客户更加移动化、个性化、社交化,实时未来银行:客户更加移动化、个性化、社交化,实时化化固定时间地点获取服务 被动接受数据传统客传统客户户 寻求更多资源信任市场信息被动接受传播互动参与内容、产 品和体验的创建随时随地获取服务 分析、创造数据 寻找有意义的体验 审视细节新客户新客户传统银行传统银行标准化和产业化提供服务 关注过程和步骤被动接受信息且信息来源单一通过客户经理联系客户 固定渠道单一交互关注场景关注场景营销客户运营客户服务 客户个性化的个性化的 灵活服务灵活服务效率效
2、率全渠道全渠道新银行新银行第二数据平台成为驱动业务创新的新平台第二数据平台成为驱动业务创新的新平台或有金融资产统一历史明细实时营销精准营销在线征信第一数据平面:交易核心单次、事务性第二数据平面:大数据平台并发、查询/分析POSATM柜面电话银行网上银行金融脉络关系实时批量互联网大数据业务:大数据业务:实时在线性 业务持续性 跨多元数据对大数据平台的对大数据平台的要要求:求:企业级质量标准企业级质量标准:金融等保、可靠、易用;支持现有系统的对接。3开放性:开放性:多分析引擎统一管理,满足多样化的数据分析场景挖掘能力:挖掘能力:支持机器学习、深度学习等新的数据挖掘能力,实现更精准的洞见数据:存量数
3、据:存量.增量增量.行内行内.行外行外社交日志 影像 帐户 明细行外数据行外数据行内数据行内数据历史数据越来越多历史数据越来越多非结构化数据越来越多非结构化数据越来越多社交、网购数据社交、网购数据企业数据平面企业数据平面“在大数据领域,不能在大数据领域,不能充充分形分形成成大数大数据据使用使用能能力力的竞争者将被淘汰的竞争者将被淘汰”-McKinsey Global Institute业务系统业务系统帐户 明细 交易交易数据分析数据分析信用混合型数据平混合型数据平台台-体系架构体系架构新核心系统老核心系统 客户系统 外围系统 渠道系统外部系统操作型 数据区数据 交换区数 据 采 集 和 交 换
4、 平 台集成型数据区实时事件处理平台历史数据区历史数据平台历史数据平台分析型数据区监管报送平台统一报表平台管理会计系统流动风险系统市场风险系统数据挖掘平台国家审计平台应用服务区应用服务器报表 工具W E 服 务 器即席查询数据 挖掘 工具历史 数据 访问 应用技 术 缓 冲 层贴 源 模 型 层共 性 加 工 层ETL调度数据标准元数据数据质量数据管控数据交换基 础 模 型 层传统平台传统平台应 用 集 市 层基础数据平台基础数据平台大数据平台大数据平台对应系统对应系统:客户管理系统、各类产品系统、帐务处理系统、各类渠 道系统、管理流程系统。功能定功能定位位:主要承担面向客户的交易、帐务处理,
5、面向内部的流程、事务管理等功能。数据特征数据特征:存储业务处理和流程管理过程中产生的客户、协议、账 户、交易等原始数据,数据基本为当前状态,保存一定周期的交易 流水数据。混合型数据平台混合型数据平台-数据区数据区域域对应系统对应系统:主要是历史数据平台。功能定位功能定位:根据数据生命周期管理,承担对操作型系统、分析型系统 的历史数据,以及数据集成平台部分历史数据的在线归档保存,为客 户交易明细历史查询、公检法查询等应用提供支持。数据特征数据特征:状态类数据采用全表历叱拉链存储,交易类数据保留长期 历史。操作型数据区操作型数据区对应系对应系统统:基础数据平台、大数据平台和实时事件处理平台。功能定
6、位功能定位:实现全行关系型结构化数据、非结构化数据的处理,包 括离线分析和实时事件数据的集中管理和加工,为业务运营和决策 分析提供数据支持。数据特征数据特征:1.利用大数据技术,实现ODS、EDW、汇总层数据统计等一系列 的离线数据分析功能,而传统数据库则实现复杂的交于和事务处理 逻辑。2.大数据平台同时可以实现非结构化数据的集中管理,结构化及非 结构化数据的初加工为主;3.实时事件处理平台以实时事件数据的集中管理和加工为主。集成型数据区集成型数据区对应系统对应系统:统一报表平台、监管报送平台、管理会计、风险管理等系统。功能定位功能定位:主要获取数据集成平台提供的汇总数据,按照应用主题 进行数
7、据的高粒度汇总加工、图形化分析和展现。数据特征数据特征:存储汇总、聚合类数据,主要以星型结构、宽表等形式 存储,存储周期较长。分析型数据区分析型数据区历史数据区历史数据区数据处理技术分布式演进趋势数据处理技术分布式演进趋势:Hadoop成为开放的事实标准成为开放的事实标准特点特点:Share Everything 结构化、关系型 Flash Cache+分布式块存储+IBSMPSMP+MPP混混合合MPPHadoop特点特点:Share Nothing 开放,、全球生态 结构化、半结构化、非结构化 高性能、实时特点特点:Share Nothing 结构化、关系型 通用的硬件特点:单机特点:单机
8、、Scale up 性能存在瓶颈 扩展性差内存计算兴起内存计算兴起,Hadoop生态系统持续壮生态系统持续壮大大实时化:内存计算兴起实时化:内存计算兴起Hadoop生态系统持续扩大生态系统持续扩大AMPlab开发的Spark,提供迭代式内存计算模型,非常适合用于数据挖掘算法的并行化预计Spark将成为编写和分享数据挖掘算法的标准平台Spark目前已经成为Apache顶级项目HadoopHadoop 2.0发布支持多种计算模型调度的Yarn,实现多种计算模型在同一个集群中并存,将帮助Hadoop 进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建,不断吸收更多组建集成到Ha
9、doop。HDFSStormMapReduceYARN/ZookeeperSparkHBaseFlumeSqoopIntegrationSearchMachineLearningComplex Event Process3rd Party or customized wordloadBatchProcessingPigInteractiveAnalyticsImpalaHiveSolrMLLIB融入融入混合负载的统一计算平台,满足数据多样化Content大数据发展趋势大数据平台行业实践大数据平台关键技术1234大数据平台案列详述大数据大数据:提供大数据存储、处理、分析和服务平台:提供大数据存储
10、、处理、分析和服务平台Manager统一管理通用X86服务器分布式存储数据处数据处理平台理平台大数据基础设施数据集成数据集成 平台平台收集 清洗 转换特征/模型/挖掘/可视/服务数据洞察/数据服务电信电信详单查询、经分分析、精准营销银行银行全生命周期分析、历史明细、精准营销、在线征信与风控 等行业 应用政府政府交通、公安情报分析、人口管理海量数据存储,批处理,流处理、交互式分析HIVE/Impala/ElkPorterMinerDataFarmHadoopStormSolr系统管理Farmer元数据管理ManagerHadoop APIPlugin APIOpenAPI/SDK应用服务层RES
11、T/SNMP/SyslogDataInformationKnowledgewisdomM/RSpark Yarn/Zookeeper安全管理MPP DBHDFS/HBase FusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增基于社区开源软件增强强,按照场景选择业界最佳实践 FusionInsight的DataFarm层提供支撑端到端数据洞提供支撑端到端数据洞察察,构建数据到信息到知识到智慧的数据供应链,其中包括相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer FusionInsight Manager是一个分布式系统管理框架,管
12、理员可以从单一接入点操控分布式集管理员可以从单一接入点操控分布式集群群,包括系统管理(OM/NTP/灾备)、数据安全管理和数据治理大数据软件平台大数据软件平台FusionInsightPorter用来简化大数据的数据集成 除了开源的Sqoop2支持的DB和HDFS外,porter还支持从SFTP,FTP和NAS进行数据导入和导出 除了Sqoop2支持的HDFS外,porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制 Sql请求和响应可以通过SFTP和FTP提交,实现和现有系统的无缝集成 轻量汇总的Sql和结果可以通过 SFTP和FTP提交,并且能够自动调度按天/按月调度。
13、FusionInsight Porter:大数据全能搬运工大数据全能搬运工RM DBHadoop HDFS HBaseSFTPServerFTP ServerOther Data SourcePorterDB文件服文件服 务器务器MR/spark/Hive任务提交目标系统HDFS/HiveHBaseRDMS数据数据FTP/SFTP/NFSJDBCPorterFusionInsight Miner:基于分布式内存计算的数据分析平台:基于分布式内存计算的数据分析平台主要特点主要特点:端到端分析平台:端到端分析平台:一站式平台支撑数据分析全流程 特征工程特征工程/社交化:社交化:特征复用;支持1,0
14、00万维度 建模算法:建模算法:自研自研HiGraph算法,比MLlib快35倍 开放性:开放性:对Operator的扩展性;与R无缝对接;与SAS、SPSS等对接;业务驱动:业务驱动:基于业务问题驱动的闭环解决方案,比如推荐引擎使能套件业 务 理 解业 务 理 解特 征 提 取特 征 提 取模 型模 型 构 建模 型 构 建模 型 模 型 评 估模 型 评 估模 型 应 用模 型 应 用应 用 效 果 评 估应 用 效 果 评 估结 束开 始模 型 评 估 好应 用 效 果 好典型数据分析流程数 据 预 处数 据 预 处 理理 数 据 理数 据 理 解解 并行化机器学习算法库并行化机器学习算
15、法库(Mahout/MLlib/HiGraph)可视化可视化金融行业模型使能套件电信行业模型 使能套件FusionInsight Miner行业应用使能器行业应用使能器(Enabler)通用使能套件(标签管理、推 荐引擎)数据处理平台数据处理平台数据探索数据探索特征工程特征工程 建模分建模分析析0500100015002000Top1000 Top10000Top60000Conversion 40 x专家系统学习系统14000DimensionsFusionInsight Farmer:大数据应用使能器大数据应用使能器Server or VMPaaSBLU1Farmer SDKDeploy
16、onDeploy onRegisterManagerRESTMQAccess Load Balance&MQRedisHadoopHadoop API客户开发的应用Farmer SDKREST:REQ/RESPBLU2BLU3Container大数据实时应用使能器,支撑企业快速开发基于大数据平台的应用。1、分布式大数据服务框架和标准服务(如推荐)二次开发SDK,透明化访问Hadoop,聚焦业务逻辑高可靠的分布式处理框架,去中心化的负载均衡能力,和服 务实例的弹性伸缩能力基于Activiti的服务编排支持应用的灰度发布隔离的轻量级应用容器2、多协议接入和缓冲简化应用集成高性能的多协议接入部件,通
17、过ALB隐藏内部拓扑细节高性能、高可靠消息队列部件热点数据redis加速为行业业务负载优化的统一大数据处理平台为行业业务负载优化的统一大数据处理平台 FusionInsight用100开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景 开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式 所有的组件都通过Manager提供的插件框架来按需安装开源 轻度增强开源 孵化特性开源 深度增强自研DSLIDE分布式计算框架HDFS/HBasePigHiveMapReduce/TezSparkStormYARN/ZookeeperFlumeLoa
18、derIntegrationBatchProcessingInteractiveSearch QueryMachineLearningEvent Stream ProcessImpalaSolrMLLIB分布式存储StreamingCalculation基础设施Standard ServerIMC ServerStorage ServerPluggable AcceleratorNetworkSparkStreamingCQLElkHiGraphOnline QueryCTBasePhoenixMPP DBSQL能力支持能力支持(SQL-on-Hadoop)每一种SQL on Hadoop产品
19、都在尽量满足某一类应用的特征,典型需求:interactive query(ms3min)data analyst,reporting query(3min20min)data mining,modeling and large ETL(20 min hr day)架架 构构 模模 型型模式模式定义定义主要主要应用应用场场景景产品产品类MPP架构在线查询作业时间小于秒级有查询要求的场景,响应几乎是实时的Phoenix(HBase),交互查询作 业 时 间 秒 级 左 右,并 且 返 回 结 果 集 很 小,一 般 在万条记录以内小数据的查询场景,如报表展示、数据钻 取等Elk、Impala、M
20、PPDB(OLAP)类MR架构批处理作 业 时 间 超 过 分 钟 级 别,中 间 结 果 或 最 终 结 果 集 比较大对作业时间要求不敏 感场景,主要以后台 长时间作业为主,如 系统每天、每周、每 月定时处理汇总的业 务Hive、SparkSQL数据挖掘作 业 时 间 超 过 分 钟 级 别,数 据 计 算 量 比 较 大,内 存 消 耗 比 较 多 的 场景作业对内存和CPU要求比较高的场景,如迭代计算的场景,主要 应用于数据挖掘、科 学计算等场景Spark SQL基于应用场景选择最适合的流处理技术基于应用场景选择最适合的流处理技术BatchStreamingMini-BatchSpar
21、k-StreamingStormSpark Streaming:微微批批流流式式计计算算适用于在Spark集群上同时提供更低时延要求的微批流处理处理,如KPI统计等Storm:事件驱动模式的实时计算:事件驱动模式的实时计算适用于更低时延要求(毫秒级),高并发的实时事件处理场景Kevent/sStorm1460Spark Streaming5001 node,Mini-batch is set to 5s安全安全可靠-所有业务和管理节点HA-跨数据中心容灾、备份-第三方备份系统集成-在线更换硬盘-HBase容灾业界最早推出-代码基线是Apache开源-经过系统STRIDE分析加固-完善RBAC和
22、多租户体系-与现存AAA系统标准协议对接-全方位数据审计功能-STRIDE+电信系统安全红线易用-易安装,集成NTP等-易运维,增加图形化运维-易开发,标准接口+实用案例-易定位,日志收集搜索-HBase可视化建模可靠、安全、易用、高可靠、安全、易用、高效效高效高效-平台核心代码性能优化-高性能分析挖掘算法(Miner)-存储效能提升(EC,ARM)-高性能网络优化(RDMA)-新型存储优化(大型SSD)高效高效-SparkSQL:平易近人,快速上手平易近人,快速上手H Q LS Q LU n r e s o l v e d Logi cal P l a nLogi cal P l a nO
23、p t i m i z e d Logi cal P l a nP h y s ic a l P l a n sS c h e m a C a ta lo gRel ati on E x e c u t i o n O p e r a t o r sN a t i v e R D D s语 法 增 强S Q L P a r s e r SQLSQL parserparser:实现:实现插插件式件式的的SQLSQL ParserParser,基于,基于插插件接件接口口实现实现SQL99SQL99语语法法解析。解析。LogicalLogical PlanPlan:新新增增SQL99LogicalP
24、lansSQL99LogicalPlans,支持支持SQL99SQL99逻逻辑辑计划。计划。元数元数据管据管理理:使:使用用HiveHive metastoremetastore进行进行元元数据数据管管理,理,与与社区社区演演讲发讲发现现对齐。对齐。性能性能提提升升:原原则则上上重重用用社社区区的的优优化化器器,必必要要时时增增加加SQL99OptimizerRulesSQL99OptimizerRules,新新增增and/orand/or优优化化,innerinner joinjoin优化优化,hivehive indexindex优化优化应用场景价值:SQL是一个常用的分析语言,客 户接受
25、度较高,各种业务场景对SQL诉 求也较明确。解决方案方案:基于插件式方案构建基于Spark SQL 框架的差异化语法解析器和性能优 化器用户价值实现标准SQL的TPC-DS用例99个全部通 过。满足客户常用的标准SQL诉求。高效高效-Spark Carbon:提升查询效率:提升查询效率Cube EngineDistributed Data Store(HDFS)Cube FileCube FileCube FileCubeProcessorCubeProcessorCubeProcessorSparkRDDPartitionRDDPartitionRDDPartitionSpark CoreS
展开阅读全文