书签 分享 收藏 举报 版权申诉 / 59
上传文档赚钱

类型金融大数据解决方案.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3223398
  • 上传时间:2022-08-07
  • 格式:PPTX
  • 页数:59
  • 大小:4.41MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《金融大数据解决方案.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    金融 数据 解决方案
    资源描述:

    1、金融大数据解决方案汇报Content大数据发展趋势大数据平台行业实践大数据平台关键技术1234大数据平台案列详述未来银行:客户更加移动化、个性化、社交化,实时未来银行:客户更加移动化、个性化、社交化,实时化化固定时间地点获取服务 被动接受数据传统客传统客户户 寻求更多资源信任市场信息被动接受传播互动参与内容、产 品和体验的创建随时随地获取服务 分析、创造数据 寻找有意义的体验 审视细节新客户新客户传统银行传统银行标准化和产业化提供服务 关注过程和步骤被动接受信息且信息来源单一通过客户经理联系客户 固定渠道单一交互关注场景关注场景营销客户运营客户服务 客户个性化的个性化的 灵活服务灵活服务效率效

    2、率全渠道全渠道新银行新银行第二数据平台成为驱动业务创新的新平台第二数据平台成为驱动业务创新的新平台或有金融资产统一历史明细实时营销精准营销在线征信第一数据平面:交易核心单次、事务性第二数据平面:大数据平台并发、查询/分析POSATM柜面电话银行网上银行金融脉络关系实时批量互联网大数据业务:大数据业务:实时在线性 业务持续性 跨多元数据对大数据平台的对大数据平台的要要求:求:企业级质量标准企业级质量标准:金融等保、可靠、易用;支持现有系统的对接。3开放性:开放性:多分析引擎统一管理,满足多样化的数据分析场景挖掘能力:挖掘能力:支持机器学习、深度学习等新的数据挖掘能力,实现更精准的洞见数据:存量数

    3、据:存量.增量增量.行内行内.行外行外社交日志 影像 帐户 明细行外数据行外数据行内数据行内数据历史数据越来越多历史数据越来越多非结构化数据越来越多非结构化数据越来越多社交、网购数据社交、网购数据企业数据平面企业数据平面“在大数据领域,不能在大数据领域,不能充充分形分形成成大数大数据据使用使用能能力力的竞争者将被淘汰的竞争者将被淘汰”-McKinsey Global Institute业务系统业务系统帐户 明细 交易交易数据分析数据分析信用混合型数据平混合型数据平台台-体系架构体系架构新核心系统老核心系统 客户系统 外围系统 渠道系统外部系统操作型 数据区数据 交换区数 据 采 集 和 交 换

    4、 平 台集成型数据区实时事件处理平台历史数据区历史数据平台历史数据平台分析型数据区监管报送平台统一报表平台管理会计系统流动风险系统市场风险系统数据挖掘平台国家审计平台应用服务区应用服务器报表 工具W E 服 务 器即席查询数据 挖掘 工具历史 数据 访问 应用技 术 缓 冲 层贴 源 模 型 层共 性 加 工 层ETL调度数据标准元数据数据质量数据管控数据交换基 础 模 型 层传统平台传统平台应 用 集 市 层基础数据平台基础数据平台大数据平台大数据平台对应系统对应系统:客户管理系统、各类产品系统、帐务处理系统、各类渠 道系统、管理流程系统。功能定功能定位位:主要承担面向客户的交易、帐务处理,

    5、面向内部的流程、事务管理等功能。数据特征数据特征:存储业务处理和流程管理过程中产生的客户、协议、账 户、交易等原始数据,数据基本为当前状态,保存一定周期的交易 流水数据。混合型数据平台混合型数据平台-数据区数据区域域对应系统对应系统:主要是历史数据平台。功能定位功能定位:根据数据生命周期管理,承担对操作型系统、分析型系统 的历史数据,以及数据集成平台部分历史数据的在线归档保存,为客 户交易明细历史查询、公检法查询等应用提供支持。数据特征数据特征:状态类数据采用全表历叱拉链存储,交易类数据保留长期 历史。操作型数据区操作型数据区对应系对应系统统:基础数据平台、大数据平台和实时事件处理平台。功能定

    6、位功能定位:实现全行关系型结构化数据、非结构化数据的处理,包 括离线分析和实时事件数据的集中管理和加工,为业务运营和决策 分析提供数据支持。数据特征数据特征:1.利用大数据技术,实现ODS、EDW、汇总层数据统计等一系列 的离线数据分析功能,而传统数据库则实现复杂的交于和事务处理 逻辑。2.大数据平台同时可以实现非结构化数据的集中管理,结构化及非 结构化数据的初加工为主;3.实时事件处理平台以实时事件数据的集中管理和加工为主。集成型数据区集成型数据区对应系统对应系统:统一报表平台、监管报送平台、管理会计、风险管理等系统。功能定位功能定位:主要获取数据集成平台提供的汇总数据,按照应用主题 进行数

    7、据的高粒度汇总加工、图形化分析和展现。数据特征数据特征:存储汇总、聚合类数据,主要以星型结构、宽表等形式 存储,存储周期较长。分析型数据区分析型数据区历史数据区历史数据区数据处理技术分布式演进趋势数据处理技术分布式演进趋势:Hadoop成为开放的事实标准成为开放的事实标准特点特点:Share Everything 结构化、关系型 Flash Cache+分布式块存储+IBSMPSMP+MPP混混合合MPPHadoop特点特点:Share Nothing 开放,、全球生态 结构化、半结构化、非结构化 高性能、实时特点特点:Share Nothing 结构化、关系型 通用的硬件特点:单机特点:单机

    8、、Scale up 性能存在瓶颈 扩展性差内存计算兴起内存计算兴起,Hadoop生态系统持续壮生态系统持续壮大大实时化:内存计算兴起实时化:内存计算兴起Hadoop生态系统持续扩大生态系统持续扩大AMPlab开发的Spark,提供迭代式内存计算模型,非常适合用于数据挖掘算法的并行化预计Spark将成为编写和分享数据挖掘算法的标准平台Spark目前已经成为Apache顶级项目HadoopHadoop 2.0发布支持多种计算模型调度的Yarn,实现多种计算模型在同一个集群中并存,将帮助Hadoop 进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建,不断吸收更多组建集成到Ha

    9、doop。HDFSStormMapReduceYARN/ZookeeperSparkHBaseFlumeSqoopIntegrationSearchMachineLearningComplex Event Process3rd Party or customized wordloadBatchProcessingPigInteractiveAnalyticsImpalaHiveSolrMLLIB融入融入混合负载的统一计算平台,满足数据多样化Content大数据发展趋势大数据平台行业实践大数据平台关键技术1234大数据平台案列详述大数据大数据:提供大数据存储、处理、分析和服务平台:提供大数据存储

    10、、处理、分析和服务平台Manager统一管理通用X86服务器分布式存储数据处数据处理平台理平台大数据基础设施数据集成数据集成 平台平台收集 清洗 转换特征/模型/挖掘/可视/服务数据洞察/数据服务电信电信详单查询、经分分析、精准营销银行银行全生命周期分析、历史明细、精准营销、在线征信与风控 等行业 应用政府政府交通、公安情报分析、人口管理海量数据存储,批处理,流处理、交互式分析HIVE/Impala/ElkPorterMinerDataFarmHadoopStormSolr系统管理Farmer元数据管理ManagerHadoop APIPlugin APIOpenAPI/SDK应用服务层RES

    11、T/SNMP/SyslogDataInformationKnowledgewisdomM/RSpark Yarn/Zookeeper安全管理MPP DBHDFS/HBase FusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增基于社区开源软件增强强,按照场景选择业界最佳实践 FusionInsight的DataFarm层提供支撑端到端数据洞提供支撑端到端数据洞察察,构建数据到信息到知识到智慧的数据供应链,其中包括相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer FusionInsight Manager是一个分布式系统管理框架,管

    12、理员可以从单一接入点操控分布式集管理员可以从单一接入点操控分布式集群群,包括系统管理(OM/NTP/灾备)、数据安全管理和数据治理大数据软件平台大数据软件平台FusionInsightPorter用来简化大数据的数据集成 除了开源的Sqoop2支持的DB和HDFS外,porter还支持从SFTP,FTP和NAS进行数据导入和导出 除了Sqoop2支持的HDFS外,porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制 Sql请求和响应可以通过SFTP和FTP提交,实现和现有系统的无缝集成 轻量汇总的Sql和结果可以通过 SFTP和FTP提交,并且能够自动调度按天/按月调度。

    13、FusionInsight Porter:大数据全能搬运工大数据全能搬运工RM DBHadoop HDFS HBaseSFTPServerFTP ServerOther Data SourcePorterDB文件服文件服 务器务器MR/spark/Hive任务提交目标系统HDFS/HiveHBaseRDMS数据数据FTP/SFTP/NFSJDBCPorterFusionInsight Miner:基于分布式内存计算的数据分析平台:基于分布式内存计算的数据分析平台主要特点主要特点:端到端分析平台:端到端分析平台:一站式平台支撑数据分析全流程 特征工程特征工程/社交化:社交化:特征复用;支持1,0

    14、00万维度 建模算法:建模算法:自研自研HiGraph算法,比MLlib快35倍 开放性:开放性:对Operator的扩展性;与R无缝对接;与SAS、SPSS等对接;业务驱动:业务驱动:基于业务问题驱动的闭环解决方案,比如推荐引擎使能套件业 务 理 解业 务 理 解特 征 提 取特 征 提 取模 型模 型 构 建模 型 构 建模 型 模 型 评 估模 型 评 估模 型 应 用模 型 应 用应 用 效 果 评 估应 用 效 果 评 估结 束开 始模 型 评 估 好应 用 效 果 好典型数据分析流程数 据 预 处数 据 预 处 理理 数 据 理数 据 理 解解 并行化机器学习算法库并行化机器学习算

    15、法库(Mahout/MLlib/HiGraph)可视化可视化金融行业模型使能套件电信行业模型 使能套件FusionInsight Miner行业应用使能器行业应用使能器(Enabler)通用使能套件(标签管理、推 荐引擎)数据处理平台数据处理平台数据探索数据探索特征工程特征工程 建模分建模分析析0500100015002000Top1000 Top10000Top60000Conversion 40 x专家系统学习系统14000DimensionsFusionInsight Farmer:大数据应用使能器大数据应用使能器Server or VMPaaSBLU1Farmer SDKDeploy

    16、onDeploy onRegisterManagerRESTMQAccess Load Balance&MQRedisHadoopHadoop API客户开发的应用Farmer SDKREST:REQ/RESPBLU2BLU3Container大数据实时应用使能器,支撑企业快速开发基于大数据平台的应用。1、分布式大数据服务框架和标准服务(如推荐)二次开发SDK,透明化访问Hadoop,聚焦业务逻辑高可靠的分布式处理框架,去中心化的负载均衡能力,和服 务实例的弹性伸缩能力基于Activiti的服务编排支持应用的灰度发布隔离的轻量级应用容器2、多协议接入和缓冲简化应用集成高性能的多协议接入部件,通

    17、过ALB隐藏内部拓扑细节高性能、高可靠消息队列部件热点数据redis加速为行业业务负载优化的统一大数据处理平台为行业业务负载优化的统一大数据处理平台 FusionInsight用100开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景 开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式 所有的组件都通过Manager提供的插件框架来按需安装开源 轻度增强开源 孵化特性开源 深度增强自研DSLIDE分布式计算框架HDFS/HBasePigHiveMapReduce/TezSparkStormYARN/ZookeeperFlumeLoa

    18、derIntegrationBatchProcessingInteractiveSearch QueryMachineLearningEvent Stream ProcessImpalaSolrMLLIB分布式存储StreamingCalculation基础设施Standard ServerIMC ServerStorage ServerPluggable AcceleratorNetworkSparkStreamingCQLElkHiGraphOnline QueryCTBasePhoenixMPP DBSQL能力支持能力支持(SQL-on-Hadoop)每一种SQL on Hadoop产品

    19、都在尽量满足某一类应用的特征,典型需求:interactive query(ms3min)data analyst,reporting query(3min20min)data mining,modeling and large ETL(20 min hr day)架架 构构 模模 型型模式模式定义定义主要主要应用应用场场景景产品产品类MPP架构在线查询作业时间小于秒级有查询要求的场景,响应几乎是实时的Phoenix(HBase),交互查询作 业 时 间 秒 级 左 右,并 且 返 回 结 果 集 很 小,一 般 在万条记录以内小数据的查询场景,如报表展示、数据钻 取等Elk、Impala、M

    20、PPDB(OLAP)类MR架构批处理作 业 时 间 超 过 分 钟 级 别,中 间 结 果 或 最 终 结 果 集 比较大对作业时间要求不敏 感场景,主要以后台 长时间作业为主,如 系统每天、每周、每 月定时处理汇总的业 务Hive、SparkSQL数据挖掘作 业 时 间 超 过 分 钟 级 别,数 据 计 算 量 比 较 大,内 存 消 耗 比 较 多 的 场景作业对内存和CPU要求比较高的场景,如迭代计算的场景,主要 应用于数据挖掘、科 学计算等场景Spark SQL基于应用场景选择最适合的流处理技术基于应用场景选择最适合的流处理技术BatchStreamingMini-BatchSpar

    21、k-StreamingStormSpark Streaming:微微批批流流式式计计算算适用于在Spark集群上同时提供更低时延要求的微批流处理处理,如KPI统计等Storm:事件驱动模式的实时计算:事件驱动模式的实时计算适用于更低时延要求(毫秒级),高并发的实时事件处理场景Kevent/sStorm1460Spark Streaming5001 node,Mini-batch is set to 5s安全安全可靠-所有业务和管理节点HA-跨数据中心容灾、备份-第三方备份系统集成-在线更换硬盘-HBase容灾业界最早推出-代码基线是Apache开源-经过系统STRIDE分析加固-完善RBAC和

    22、多租户体系-与现存AAA系统标准协议对接-全方位数据审计功能-STRIDE+电信系统安全红线易用-易安装,集成NTP等-易运维,增加图形化运维-易开发,标准接口+实用案例-易定位,日志收集搜索-HBase可视化建模可靠、安全、易用、高可靠、安全、易用、高效效高效高效-平台核心代码性能优化-高性能分析挖掘算法(Miner)-存储效能提升(EC,ARM)-高性能网络优化(RDMA)-新型存储优化(大型SSD)高效高效-SparkSQL:平易近人,快速上手平易近人,快速上手H Q LS Q LU n r e s o l v e d Logi cal P l a nLogi cal P l a nO

    23、p t i m i z e d Logi cal P l a nP h y s ic a l P l a n sS c h e m a C a ta lo gRel ati on E x e c u t i o n O p e r a t o r sN a t i v e R D D s语 法 增 强S Q L P a r s e r SQLSQL parserparser:实现:实现插插件式件式的的SQLSQL ParserParser,基于,基于插插件接件接口口实现实现SQL99SQL99语语法法解析。解析。LogicalLogical PlanPlan:新新增增SQL99LogicalP

    24、lansSQL99LogicalPlans,支持支持SQL99SQL99逻逻辑辑计划。计划。元数元数据管据管理理:使:使用用HiveHive metastoremetastore进行进行元元数据数据管管理,理,与与社区社区演演讲发讲发现现对齐。对齐。性能性能提提升升:原原则则上上重重用用社社区区的的优优化化器器,必必要要时时增增加加SQL99OptimizerRulesSQL99OptimizerRules,新新增增and/orand/or优优化化,innerinner joinjoin优化优化,hivehive indexindex优化优化应用场景价值:SQL是一个常用的分析语言,客 户接受

    25、度较高,各种业务场景对SQL诉 求也较明确。解决方案方案:基于插件式方案构建基于Spark SQL 框架的差异化语法解析器和性能优 化器用户价值实现标准SQL的TPC-DS用例99个全部通 过。满足客户常用的标准SQL诉求。高效高效-Spark Carbon:提升查询效率:提升查询效率Cube EngineDistributed Data Store(HDFS)Cube FileCube FileCube FileCubeProcessorCubeProcessorCubeProcessorSparkRDDPartitionRDDPartitionRDDPartitionSpark CoreS

    26、park CoreSpark CoreOLAP PlannerSpark Application(Cube Load)EncodingEncodingEncodingDataSource API特点:分布式,多维索引,物化视图,分布式入库,Schema固定存储:计算:语言:CubeFile,一种按多维Key排序的文件格式HDFS+Shortcut基于Catalyst框架新增OLAP Planner,对Cube支持过滤下压、计算下压等优化Cube Processor:Cube数据读取,跳转,聚合计算使用SparkSQL DMLDDL:新增CREATE CUBE,LOAD INTO CUBE23P

    27、L/SQLSQL99SQL2003HQLHDFSHBaseElk Sql ParserSql Eexcutejdbc/odbc/BIWebETLData ExplorerHive Metadata采用通用的SQL标准接口,全面兼容传统的数据库SQL和Hadoop的HQL全面支持传统应用的接口JDBC、ODBC,并提供丰富的扩展接口如PL/C,PL/Jaca,PL/Python交互式查询性能达到或超越Impala灵活的存储格式HDFS(ORC、Parquet),HBase(KV)Elk与Impala性能对比,TPC-H(单位:秒/查询N)测试环境:4 节点:2*8 core CPUs,96GB

    28、RAM,6 7200rpsSATA 盘,10GE网卡,HDFS 3副本.全面超越Impala,大部份指标是impala两倍01002003004005006007001 2 3 4 5 6 7 8 9 10111213141516171819202122Impala ELkElk:交互式交互式SQL on Hadoop智智慧慧 HiGraph,高高性性能能优优质质算算法法库库Mahout:基于MR的并行算法库MLlib:基于Spark的并行算法库HUAWEIHiGraph:超过60种算法,半数由 研发及优化ClouderaHortonworksHuawei FusionInsight性能提升性

    29、能提升2-32-3倍倍线性加速线性加速优质算法优质算法HiGraph网络平面隔离网络平面隔离集群管理平面集群外维护网络OMS-Server集群业务平面APP-ServerAPP-ServerWebUI-ClientHadoop是全分布式计算系统,要求业务节点之间全互 联。为应对由此带来的可靠性、安全性风险,FusionInsight支持将网络划分为三级:集群业务平面、集群管理平面和集群外维护网络,彼此之间实施物理隔离。实施网络隔离,可以避免业务平面的高负载阻塞集群管 理通道,也可以阻止外部攻击者通过管理通道入侵实际 业务数据。网网络类别络类别信信任程度任程度说明说明集群业务 平面高Hadoop

    30、集群核心部件,业务数据在其 中存储、流转。集群管理平面中仅具备集群管理功能,不接触实际的业务数据。集群外维护网络低仅能访问OMS Server提供的Web服务,除 非 连 续 攻 破 OMS Server 和 APP Server,否则无法访问业务数据。电信级可靠性电信级可靠性业务可靠性:业务可靠性:系统系统无单无单点点:OMS,HDFS,HBASE,YARN,HIVE,OOZIE,HUE,ZOOKEEPER,BOOKEEPER采用主备,负荷分担方式实现服务无 单点故障数据可靠性:数据可靠性:管理管理节点节点HAHA:OMS节点及所有业务组件中心管理节点实现HA跨数跨数据中据中心心数据数据备备

    31、份份:HBase集群通过HLOG准 实时复制,HDFS/Hive集群通过 BackupAdmin 异步复制实现跨数据中心灾备硬盘硬盘热插热插拔拔:支持在线集群硬盘更换不影响业务.OSOS层可层可靠靠性加性加固固:RAID/OS写缓存保护实现掉电数据保护RaidRaid策策略略:OS,OMS,NameNode,ZK 及HDFS数据节点采用不同硬盘分区及Raid策略,兼顾性能情况下保证数据可靠性第三第三方备方备份份系统系统集集成成:数据可以灵活的备份在外部111111122333446578 系统如NAS、磁带库,只是和NBU等备份软件集成665781Hadoop clusterNAS异地异地灾备

    32、灾备表级别集群在线备份,用于在线业务故障灾备数据恢复批量导出本地本地备份备份支持库级别本地备份、批量导出 和数据恢复,支持全量、增量两 种模式。用于集群故障、人为误 操作导致的数据丢失数据备份与集群容灾数据备份与集群容灾本地备份LdapServerHMHMHDFSRSRSHBaseLdapServerHDFSRSRSHBaseHMHMRSRSRSHLog SyncAuthentication Data Sync敏感数据加密存储敏感数据加密存储Hive/HBaseHDFS敏感数据写 入加密/解密敏感数据 读取*(&#$%!%$#$!(*&*5!$!%$!$!%#$%#!$#!非敏感数 据非敏感数

    33、据技术特点保密性高保密性高:采用业界流行的算法加密。除业务接口外,其他手段读取文件均为乱码(如通过shell、或HDFS接口查看)。灵活灵活:加密算法插件化,支持AES、SMS4等,允许用户自定义。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。业务透明业务透明:上层业务只需指定敏感数据(Hive表级/列、HBase表/列族/列级加密),加解密过程业务完全不感知。HiveHBaseContent大数据发展趋势大数据平台关键技术大数据平台行业实践1234大数据平台案列详述业 务 价 值应 用 场 景营销支持营销支持产品运营产品运营内部管理内部管理风险管控风险管控实实实实时时时时风风征征控

    34、控信信反反 欺欺 诈诈客客 户户 风风 险险 报报 告告运运 维维 日日 志志 分分 析析信信 息息 安安 全全 分分 析析灵活深专业化整体解决安全可入的客的营销方案与个靠的渠户细分与销售性化服务定制道风险控制风险集成的业 务运营高效的运营效 率实时的风险决策员员 工工 挽挽 留留事事 件件 营营 销销客客 户户 画画 像像舆舆 情情 分分 析析获获客客客客 户户 挽挽 留留交交 叉叉 销销 售售个个 性性 化化 理理 财财小小 微微 贷贷大数据应用场景大数据应用场景优化管理流程,提升运作效率降低管理成本智智 能能 客客 服服账账 务务 追追 溯溯网网 站站 分分 析析知知 识识 管管 理理产

    35、产 品品 绩绩 效效 评评 价价数据行内业务数据行内业务数据账户账户/流水流水/产产品品/组组件件日志日志行内非业务数据行内非业务数据运维日志运维日志/对内对内服服务务系系统统数数据据新型数据新型数据移动应用移动应用/微信微信/呼呼叫叫中中心心/微博微博第三方数据第三方数据互联网互联网/电信电信/医医疗疗/交交通通/咨咨询询报告报告客户标签客户标签对公客户细分对公客户细分商机挖掘信息商机挖掘信息零售客户评分零售客户评分客户贡献度客户贡献度客户风险测评客户风险测评产品运营产品运营KPI黑名单黑名单知识图谱知识图谱品牌美誉度品牌美誉度第三方资信第三方资信用户位置用户位置用户消费倾向用户消费倾向大数

    36、据平台参考架构大数据平台参考架构数据 采集数据转换平台管理结构化数据客户数据账务数据第三方数据微信微博流式数据刷卡事件结构化转换统计/关联非结构转换XML/JSON文本多媒体转换视频摘要 语音转文本半/非结构数据挖掘文本分析分词视频分析语义NLP互联网分搜析索社交网络 推荐引擎多媒体分影像析分析音频分析过滤/匹配结构化数据挖掘分类聚类预测关联流处理ESP/CE P流式数据处理RTD商业智能(BI)报表多维分析引擎实时查询数据服务批量查询访问框架分布式缓存数据可视数据探察数据多维展示元数据管理作业调度数据安全管理非结构数据日志 呼叫中心语音网站点击流数据集市实时计算交互式探索多维关联数据聚集应用

    37、计算数据 存储基础数据区实时查询区公共访问区应用数据区数据 采集转换平台管理结构化数据第三方数据数据 结构化转换 非结构转换 多媒体转换半/非结构数据挖掘文本分析分词视频分析社交网络推荐引擎多媒体分影像析分析过滤/匹配 结构化数据挖掘 预测关联CEP流式数据处理RTD报表商业智能(BI)多维分析引擎实时查询数据服务批量查询访问框架分布式缓存数据多维展示元数据管理作业调度数据安全管理数据集市实时计算 数据聚集数据存储应用数据区公共访问区大数据平台总体框大数据平台总体框架架-技术视角技术视角流式数据刷M卡Q事件kafka客F户T P数据账S务q数o o据p非结构数据日志 F呼lu叫m中e心语音网F

    38、站T点P击流微信Crawler 微博H基D础F数S据区实时查询H区BASEXMML/J/SRON文本视频摘S要par语k音转文本Storm流处理Miner(Ma语h o义ut/MLLib/HiGrap音h频)分析分类SAS 聚类S Q交L互o式n 探索Hadoop互联网分S搜析o索lrCognosHIVE/I统m计p/关al联a分布式I应M用DB计算数据T探a察bleau数据可D视3.js多维关联GPYarnM/R NLPSparkHIVE/ImpalaContent大数据发展趋势大数据平台关键技术大数据平台案列详述1234大数据平台行业实践Content大数据平台案列详述4TDTD数数仓卸载

    39、仓卸载HDSHDS运维日运维日志实时分析志实时分析影像存储影像存储智能运维业务智能运维业务现有数据仓库应用负现有数据仓库应用负载载卸载卸载-现状和挑现状和挑战战现状现状一般采用贴源层+基础层+应用层三层数据架构数据贴源层存放贴源数据数据贴源层数据除了用来加工为基础层数据 外,一般很少被下游应用直接用到,可视为冷数 据数据贴源层占据EDW宝贵存储资源贴源跑批占据大量EDW系统资源挑战挑战伴随业务的增长,数据增长快,扩容压力大通常采用国外厂商一体机,存储成本高,扩 容成本大跑批占用数据仓库时间窗口越来越长,可使 用时间窗口越来越少,给数据仓库的使用带来巨 大压力数据仓库数据仓库 应用层 基础层 贴

    40、源层一体机核心信贷中间业务信用卡网银数据源数据源FTP卸载加载作业管理ETL平台平台CRM信用评级绩效考核精准营销管理报表下游应用下游应用数据转数换据转换现现有有数据仓库应用负数据仓库应用负载载卸卸载载联合创新方联合创新方案案联合创新方案联合创新方案与金融机构一起联合创新,将数据仓库系统 中的贴源批处理过程迁移至基于通用X86服务器 的使用大数据技术的Hadoop或MPPDB平台注:方案过程见动画卸载平台卸载平台基础层客户价值客户价值开放,不被单一供应商锁定;提高数仓体系拓展能力、降低拓展成本降低数据存储成本减少数仓跑批时间窗口,提高数仓使用效率数据仓库数据仓库应用层基础层贴源层核心信贷中间业

    41、务信用卡网银数据源数据源CRM信用评级绩效考核精准营销管理报表下游应用下游应用卸载平台要求卸载平台要求卸载平台能够满足一定的处理时间窗口要求卸载平台具有较低的每TB数据成本卸载平台具备非常好的水平扩展能力卸载平台支持通用X86服务器卸载平台能够提供较好的企业级特性(可靠 性、易管理性、易用性),满足一定的性能SLA X86服务器ETLETL贴源层FTP体 机Content大数据平台案列详述4TDTD数数仓卸载仓卸载HDSHDS运维日运维日志实时分析志实时分析影像存储影像存储智能运维业务智能运维业务历史数据应用四种模式历史数据应用四种模式应用模式应用模式用户群体用户群体应用场景应用场景数据归档行

    42、内用户组件内生产数据清理后,在历史数据区进行归档保存在线查询在线同步(访问数据库)(响应时间:60(秒)查询条件比较精确;响应时间不是非常紧迫;访问频率比较高;在线异步(访问文件)(响应时间:300(秒)访问频率:=50次/天)查询条件比较宽泛;响应时间不是非常紧迫;访问频率比较 低批量供数外部监管(部分包括行内用户)月末/季末的银监会、外管局、审计署的外部监管数据需求;数据需求比较确定、供数操作频率比较固定、供数格式比较 固定零星供数行内用户数据需求不确定、供数操作频率不固定、数据结果集不确定。HDS区整体视图区整体视图归档批量供数在线查询应用计算区指标计算区查询服务区统一在线查询HDS区查

    43、询集群在线同步查询区在线数据(HBASE)在线同步查 询服务在线异步查询服务数据源源数据区主档全量主档增量 明细增量HDS区归档集群接入数据区 组合计算区 多表关联Hbase装载主档全量主档增量明细增量数据源源数据区主档全量主档增量明细增量应用加工计算区(Hive)HQL数据加工MR数据加工批量供应数据区表截面文件加工数据文件数据源源数据区主档全量主档增量明细增量归档数据区(Hive)x系统.x表归档数据x系统.x表归档数据HDS区归档集群接入数据区主档全量主档增量明细增量应用加工计算区(Hive)HQL数据加工MR数据加工批量供应数据区表截面文件加工数据文件归档数据区(Hive)x系统.x表

    44、归档数据x系统.x表归档数据接入数据区HDS区归档集群 组合计算区 多表关联 Hbase装载 主档全量主档增量明细增量应用加工计算区(Hive)HQL数据加工MR数据加工归档数据区(Hive)x系统.x表归档数据x系统.x表归档数据44关键技术:关键技术:HBase二级索引二级索引+Phoenix+SparkHBase二级索引特性支持在非RowKey列上建立索引,大幅提高检索 速度。使用Phoenix为HBase提供基础SQL能力,在使用HBase高速查询能力的同时,降低系统的学习使用成本。构建统一的混合结构数据存储平台,通过Spark支持全量业务数据+外部数据的挖掘分析。高性能、高并发:HB

    45、ase规模可达到数十亿行以及数百万列,同时读、写访问可以达到实时级别。提供SQL支持:降低学习成本和系统改造成本。易扩展:HBase基于HDFS文件系统,性能线性增长,利于横向扩展。HBase:较开源产品提供二级索引、Region多点分割、一千公里容灾 备份等增强特性,其中二级索引特性已被社区接受并纳入Phoenix组 件。Spark:贡献了Spark on HBase(Astro)特性,可以使用SparkSQL 操作HBase数据,执行高效、复杂的查询操作,为HBase提供在线分 析引擎。特性价值特性描述UserTableUserTableRowKeyColumnFamilycolAcolB

    46、colCa00001*a00002*a00003*a00004*a00005*a00006*目 标 行数 据 扫 描 区 域无索引无索引:“Scan+Filter”,扫描大量数据扫描大量数据a00004*UserTableUserTableRowKeyColumnFamilycolAcolB colCa00001*a00002*a00003*a00005*a00006*UserTable_idxUserTable_idxRowKeyRowKeyCFa00001coluA*a00001a00001coluA*a00002a00001coluA*a00003a00001coluAxxxxxxxxx

    47、xa00004a00001coluA*a00005a00001coluA*a00006Content大数据平台案列详述4TDTD数数仓卸载仓卸载HDSHDS运维日运维日志实时分析志实时分析影像存储影像存储智能运维业务智能运维业务项项目目背景背景与现状与现状问题问题数据量巨大,效率低:数据量巨大,效率低:日志收集与检索的效率低、成本高,无法满足故障排查问题定位的快速运维需求。因日志数据量 巨大,监控系统目前只对日志文件进行基本的监控,只对日 志大小、日志更新时间进行监控。数据类型复杂数据类型复杂:传统关系型数据库不能处理半结构化或者非 结构化数据Splunk日志分日志分析:析:Splunk日志分

    48、析工具仅支持离线的、片 段的日志分析,且许可成本较高,仅应用于少量的应用系统,不满足应用日志分析需要。46现状现状每日产生大量的应用日志,分布于各应用系统及历史磁带监控系统目前对日志文件进行基本的监控,只对日志大小、日志更新时间进行监控,利用价值不大。场景特点场景特点实时性要求高(高吞吐、低延迟)*实时:达到秒级以内大数据量的离线分析(总数据量、日增数据量都不断增长)*历史回溯:一小时以外的历史统计分析*历史日志检索:日志快速检索,故障快速定位业务应用日志离线分析 业务性能分析 运维风险评估 模型训练历史日志检索 日志集中存储 日志快速检索 故障快速定位日志实时分析 实时风险探测 业务实时监控

    49、 模型训练一体化日志分析平台7 7项目目标项目目标和定位和定位建立企业级的日志采集、存储、分析一体化平台,运用数据建模、离线分析、实 时流计算、搜索引擎等技术,实现业务性能分析、运维风险评估、实时预警监 控、日志快速检索等功能,促进业务能力与运维水平的提高本期项目本期项目内容内容1、日志采集子平台、日志采集子平台搭建企业级的分布式日志采集平台支持文件、Syslog等主流日志源实现日志文件的实时采集与离线采集日志采集平台架构灵活扩展2、历史日志文件检索平台、历史日志文件检索平台历史日志文件分布式存储基于开源搜索引擎Lucene,实现 历史日志文件检索支持全文检索与可配置的文本分析4、实时日志分析

    50、预警平台、实时日志分析预警平台使用流计算技术实现在线日志分析平台提供实时接口与监控等第三方应用系统 对接,实现实时分析结果的消费实时风险探测业务实时监控项目需求项目需求483、离线日志分析平台、离线日志分析平台基于HADOOP搭建离线日志分析平台分析模型设计与训练优化日志分析结果报表展示运维风险评估业务性能分析技技术术方方案案-系统逻辑架构系统逻辑架构X X8 86 6服服务器务器X X8 86 6服服务器务器X X8 86 6服服务器务器X X8686服服务器务器服务器服务器应用日志系统日志渠道渠道网银网银柜面柜面K Kafafk ka aFlumeFlumeS St to ormrmH H

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:金融大数据解决方案.pptx
    链接地址:https://www.163wenku.com/p-3223398.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库