金融大数据解决方案最新PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《金融大数据解决方案最新PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金融 数据 解决方案 最新 PPT 课件
- 资源描述:
-
1、金融大数据解决方案汇报 Content 1 大数据发展趋势 2 3 4 大数据平台关键技术 大数据平台行业实践 大数据平台案列详述 未来银行:客户更加移动化、个性化、社交化,实时化未来银行:客户更加移动化、个性化、社交化,实时化 随时随地获取服务 分析、创造数据 寻找有意义的体验 审视细节 固定时间地点获取服务 互动参与内容、产 品和体验的创建 新客户新客户 运营 客户 全渠道全渠道 传统客户传统客户 寻求更多资源 被动接受数据 信任市场信息 被动接受传播 关注场景关注场景 标准化和产业化提供服务 关注过程和步骤 被动接受信息且信息来源单一 通过客户经理联系客户 固定渠道单一交互 营销 客户
2、效率效率 个性化的个性化的 灵活服务灵活服务 传统银行传统银行 新银行新银行 服务 客户 第二数据平台成为驱动业务创新的新平台第二数据平台成为驱动业务创新的新平台 POS ATM 柜面 电话银行 网上银行 第一数据平面: 交易核心 单次、事务性 统一历史明细 实时营销 精准营销 在线征信 大数据业务:大数据业务: 实时在线性 业务持续性 跨多元数据 实时 第二数据平面: 大数据平台 并发、查询/分析 或有金融资产 金融脉络关系 互联网 批量 对大数据平台的要求:对大数据平台的要求: ?企业级质量标准:企业级质量标准:金融等保、可靠、 易用;支持现有系统的对接。 ?开放性:开放性:多分析引擎统一
3、管理,满 足多样化的数据分析场景 ?挖掘能力:挖掘能力:支持机器学习、深度学习等新 的数据挖掘能力,实现更精准的洞见 3 数据:存量数据:存量 . 增量增量 . 行内行内 . 行外行外 历史数据越来越多历史数据越来越多 数据分析数据分析 信用 业务系统业务系统 非结构化数据越来越多非结构化数据越来越多 帐户 社交 日志 影像 帐户 行外数据行外数据 明细 交易交易 行内数据行内数据 明细 社交、网购数据社交、网购数据 企业数据平面企业数据平面 “在大数据领域,不能充分形成大数据使用能力在大数据领域,不能充分形成大数据使用能力 的竞争者将被淘汰的竞争者将被淘汰” -McKinsey Global
4、 Institute 混合型数据平台混合型数据平台-体系架构体系架构 操作型 数据区 新核心系统 数据 交换区 集成型数据区 基础数据平台基础数据平台 大数据平台大数据平台 技 术 缓 冲 层 贴 源 模 型 层 基 础 模 型 层 共 性 加 工 层 分析型数据区 监管报送平台 传统平台传统平台 应 用 集 市 层 应用服务区 应用 服务器 W E 服 务 器 老核心系统 客户系统 外围系统 渠道系统 外部系统 数 据 采 集 和 交 换 平 台 数据标准 统一报表平台 管理会计系统 报表 工具 即席 查询 数据 挖掘 工具 历史 数据 访问 应用 流动风险系统 市场风险系统 数据挖掘平台
5、实时事件处理平台 历史数据区 国家审计平台 历史数据平台历史数据平台 元数据 数据质量 数据管控 ETL调度 数据交换 混合型数据平台混合型数据平台-数据区域数据区域 操作型数据区操作型数据区 对应系统对应系统:客户管理系统、各类产品系统、帐务处理系统、各类渠 道系统、管理流程系统。 功能定位功能定位:主要承担面向客户的交易、帐务处理,面向内部的流程、 事务管理等功能。 数据特征数据特征:存储业务处理和流程管理过程中产生的客户、协议、账 户、交易等原始数据,数据基本为当前状态,保存一定周期的交易 流水数据。 集成型数据区集成型数据区 对应系统对应系统:基础数据平台、大数据平台和实时事件处理平台
6、。 功能定位功能定位:实现全行关系型结构化数据、非结构化数据的处理,包 括离线分析和实时事件数据的集中管理和加工,为业务运营和决策 分析提供数据支持。 数据特征数据特征: 1.利用大数据技术,实现ODS、EDW、汇总层数据统计等一系列 的离线数据分析功能,而传统数据库则实现复杂的交于和事务处理 逻辑。 2.大数据平台同时可以实现非结构化数据的集中管理,结构化及非 结构化数据的初加工为主; 3.实时事件处理平台以实时事件数据的集中管理和加工为主。 分析型数据区分析型数据区 对应系统对应系统:统一报表平台、监管报送平台、管理会计、风险管理等 系统。 功能定位功能定位:主要获取数据集成平台提供的汇总
7、数据,按照应用主题 进行数据的高粒度汇总加工、图形化分析和展现。 数据特征数据特征:存储汇总、聚合类数据,主要以星型结构、宽表等形式 存储,存储周期较长。 历史数据区历史数据区 对应系统对应系统:主要是历史数据平台。 功能定位功能定位:根据数据生命周期管理,承担对操作型系统、分析型系统 的历史数据,以及数据集成平台部分历史数据的在线归档保存,为客 户交易明细历史查询、公检法查询等应用提供支持。 数据特征数据特征:状态类数据采用全表历叱拉链存储,交易类数据保留长期 历史。 数据处理技术分布式演进趋势:数据处理技术分布式演进趋势:Hadoop成为开放的事实标准成为开放的事实标准 SMP SMP+M
8、PP混合混合 MPP Hadoop 特点:单机、特点:单机、 Scale up ?性能存在瓶颈 ?扩展性差 特点:特点:Share Everything ?结构化、关系型 ?Flash Cache+分布式块存储+IB 特点:特点:Share Nothing ?结构化、关系型 ?通用的硬件 特点:特点:Share Nothing ?开放,、全球生态 ?结构化、半结构化、非结构化 ?高性能、实时 内存计算兴起,内存计算兴起,Hadoop生态系统持续壮大生态系统持续壮大 Hadoop生态系统持续扩大生态系统持续扩大 实时化:内存计算兴起实时化:内存计算兴起 Integration Batch Pro
9、cessing Interactive Analytics Search Machine Learning Sqoop 融入融入 Flume Pig Hive Complex Event Process 3rd Party or customized wordload Impala Solr MLLIB MapReduce YARN/Zookeeper HDFS Spark Storm ?AMPlab开发的Spark,提供迭代式内存计算模型,非 常适合用于数据挖掘算法的并行化 ?预计Spark将成为编写和分享数据挖掘算法的标准平HBase 台 ?Spark目前已经成为 Apache顶级项目 H
10、adoop Hadoop 2.0发布支持多种计算模型调度的Yarn,实现多种计算模型在同一个集群中并存,将帮助 Hadoop 进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建,不断吸收更多组建集成到 Hadoop。 混合负载的统一计算平台,满足数据多样化 Content 1 大数据发展趋势 大数据平台关键技术 大数据平台行业实践 大数据平台案列详述 2 3 4 大数据:提供大数据存储、处理、分析和服务平台大数据:提供大数据存储、处理、分析和服务平台 行业 应用 电信电信 银行银行 详单查询、经分分析、 精准营销 全生命周期分析、历史明细、 精准营销、在线征信与风控 等
11、政府政府 交通、公安 情报分析、人口管理 数据洞察/数据服务 特征/模型/挖掘/可视/服务 数据集成数据集成 平台平台 数据处理平台数据处理平台 海量数据存储,批处理,流处理、交互式分析 收集 清洗 转换 Manager 统一管理 大数据基础设施 分布式存储 通用X86服务器 大数据软件平台大数据软件平台FusionInsight 应用服务层 OpenAPI/SDK REST/SNMP/Syslog DataFarm Data Porter Information Miner Knowledge Farmer wisdom Manager 系统管理 元数据管理 Hadoop API Plugi
12、n API Hadoop HIVE/Impala/Elk M/R Spark Storm Solr Yarn/ Zookeeper HDFS/HBase MPP DB 安全管理 ? FusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增强基于社区开源软件增强,按照场景选择业界最佳实践 ? FusionInsight的DataFarm层提供支撑端到端数据洞察提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链, 其中包括 相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer ? FusionInsight Manager是一个分
13、布式系统管理框架,管理员可以从单一接入点操控分布式集群管理员可以从单一接入点操控分布式集群,包括系统管理 (OM/NTP/灾备)、数据安全管理和数据治理 FusionInsight Porter:大数据全能搬运工:大数据全能搬运工 Porter RM DB FTP/SFTP/NFS SFTP Server Porte r 目标 系统 HDFS /Hive HBase FTP Server Hadoop ?HDFS ?HBase 数据 文件服文件服 务器务器 JDBC DB 数据 MR/spark/Hive 任务提交 Other Data Source RDMS Porter用来简化大数据的数据
14、集成 ?除了开源的Sqoop2支持的DB和HDFS外, porter还支持从SFTP, FTP和NAS进行数据导入和导出 ?除了Sqoop2支持的HDFS外, porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制 ?Sql请求和响应可以通过SFTP和FTP提交, 实现和现有系统的无缝集成 ?轻量汇总的Sql和结果可以通过 SFTP和FTP提交, 并且能够自动调度按天/按月调度。 FusionInsight Miner:基于分布式内存计算的数据分析平台:基于分布式内存计算的数据分析平台 典型数据分析流程 模模 型型 应应 用用 模 型 模模 型型 评评 估估 模 型 模模
15、型型 构构 建建 应应 用用 效效 果果 评评 估估 FusionInsight Miner 行业应用使能器(行业应用使能器(Enabler) 通用使能套件 金融行业模型 电信行业模型 (标签管理、推 使能套件 使能套件 荐引擎) 特特 征征 提提 取取 数数 据据 预预 处处 理理 模 型 评 估 好 应 用 效 果 好 数据探索数据探索 特征工程特征工程 建模分析建模分析 可视化可视化 数数 据据 理理 解解 并行化机器学习算法库并行化机器学习算法库(Mahout/MLlib/HiGraph) 业业 务务 理理 解解 数据处理平台数据处理平台 14000 Dimensions 结 束 开
16、始 2000 Conversion 1500 主要特点:主要特点: ?端到端分析平台:端到端分析平台:一站式平台支撑数据分析全流程 ?特征工程特征工程/社交化:社交化:特征复用;支持 1,000万维度 ?建模算法:建模算法:自研自研HiGraph 算法, 比MLlib快35倍 ?开放性:开放性:对Operator 的扩展性;与R无缝对接;与SAS、SPSS等对接; ?业务驱动:业务驱动: 基于业务问题驱动的闭环解决方案,比如推荐引擎使能套件 40 x 专家系统 学习系统 1000 500 0 Top1000 Top10000Top60000 FusionInsight Farmer:大数据应用
17、使能器:大数据应用使能器 大数据实时应用使能器,支撑企业快速开 发基于大数据平台的应用。 客户开发的应用 Farmer SDK REST MQ Register Access Load Balance & MQ REST:REQ/RESP BLU1 Farmer SDK 1、分布式大数据服务框架和标准服务(如推荐) ?二次开发SDK,透明化访问 Hadoop,聚焦业务逻辑 ?高可靠的分布式处理框架,去中心化的负载均衡能力,和服 BLU2 BLU3 Redis Manager 务实例的弹性伸缩能力 ?基于Activiti的服务编排 ?支持应用的灰度发布 Hadoop API ?隔离的轻量级应用容
18、器 Deploy on Container Deploy on Server or VM PaaS Hadoop 2、多协议接入和缓冲简化应用集成 ?高性能的多协议接入部件,通过ALB隐藏内部拓扑细节 ?高性能、高可靠消息队列部件 ?热点数据redis加速 为行业业务负载优化的统一大数据处理平台为行业业务负载优化的统一大数据处理平台 开源 轻度增强 开源 孵化特性 开源 深度增强 自研 IDE DSL Integration Batch Processing Hive Pig Interactive Query Elk Impala Search Machine Learning HiGrap
19、h Streaming Calculation Event Stream Process Online Query Loader Flume CTBase Spark Streaming Solr MLLIB CQL Phoenix 分布式计算框架 MapReduce/Tez YARN/Zookeeper Spark Storm 分布式存储 HDFS/HBase MPP DB 基础设施 Standard Server IMC Server Storage Server Network Pluggable Accelerator ? FusionInsight用100开源的核心支持混合负载,从批
20、量、交互查询、数据挖掘,到实时流和查询等各种场景 ?开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式 ?所有的组件都通过Manager提供的插件框架来按需安装 SQL能力支持(能力支持(SQL-on-Hadoop) 架架 构构 模模 型型 模式模式 定义定义 主要应用场景主要应用场景 产品产品 类 作业时间秒级左 MPP 架构 交互查询 右,并且返回结 果集很小,一般 在万条记录以内 作业时间超过分 钟级别,中间结 批处理 果或最终结果集 每一种SQL on Hadoop 产品都在尽量满足某一类应用的特征,典型需 比较大 类 求: MR 作业时间超过分 架
21、构 ?interactive query (ms3min) 钟级别,数据计 ?data analyst,reporting query (3min20min) 数据挖掘 算量比较大,内 ?data mining,modeling and large ETL (20 min hr day) 存消耗比较多的 场景 作业时间小于秒 在线查询 级 有查询要求的场景, 响应几乎是实时的 小数据的查询场景, 如报表展示、数据钻 取等 Phoenix(HBase), Elk、Impala、 MPPDB(OLAP) 对作业时间要求不敏 感场景,主要以后台 长时间作业为主,如 Hive、Spark 系统每天、每
22、周、每 SQL 月定时处理汇总的业 务 作业对内存和CPU要 求比较高的场景,如迭 代计算的场景,主要 Spark SQL 应用于数据挖掘、科 学计算等场景 基于应用场景选择最适合的流处理技术基于应用场景选择最适合的流处理技术 Batch Mini -Batch Streaming Kevent/s Storm Spark Streaming 1460 500 Spark-Streaming ?Storm 1 node,Mini-batch is set to 5s Spark Streaming:微批流式计算:微批流式计算 适用于在Spark集群上同时提供更低时延要求的微批流处理处理,如KP
23、I统计等 Storm:事件驱动模式的实时计算:事件驱动模式的实时计算 适用于更低时延要求(毫秒级),高并发的实时事件处理场景 可靠、安全、易用、高效可靠、安全、易用、高效 -所有业务和管理节点HA -跨数据中心容灾、备份 -第三方备份系统集成 -在线更换硬盘 -HBase容灾业界最早推出 -代码基线是Apache 开源 可靠 安全安全 -经过系统STRIDE 分析加固 -完善RBAC 和多租户体系 -与现存AAA系统标准协议对接 -全方位数据审计功能 -STRIDE+ 电信系统安全红线 -易安装,集成NTP等 -易运维,增加图形化运维 -易开发,标准接口+实用案例 -易定位,日志收集搜索 -H
24、Base 可视化建模 -平台核心代码性能优化 -高性能分析挖掘算法( Miner) 易用 高效高效 -存储效能提升( EC,ARM) -高性能网络优化( RDMA) -新型存储优化(大型SSD) 高效高效-SparkSQL:平易近人,快速上手:平易近人,快速上手 ?SQL parserSQL parser :实现插件式的:实现插件式的 SQL ParserSQL Parser ,基于插件接口实现,基于插件接口实现 SQL99SQL99语法解析。语法解析。 ?Logical PlanLogical Plan:新增:新增SQL99LogicalPlansSQL99LogicalPlans,支持,支
25、持SQL99SQL99逻辑计划。逻辑计划。 ?元数据管理:使用元数据管理:使用 Hive metastoreHive metastore 进行元数据管理,与社区演讲发现对齐。进行元数据管理,与社区演讲发现对齐。 ?性能提升:原则上重用社区的优化器,必要时增加性能提升:原则上重用社区的优化器,必要时增加SQL99OptimizerRulesSQL99OptimizerRules,新增,新增 and/orand/or 优化,优化,inner joininner join优化,优化,hive indexhive index 优化优化 ?应用场景 价值:SQL是一个常用的分析语言,客 户接受度较高,各
展开阅读全文