大数据技术重构数据仓库应用架构课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据技术重构数据仓库应用架构课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 数据仓库 应用 架构 课件
- 资源描述:
-
1、大数据技术重构数据仓库应用架构目录1平台建设背景2数仓应用体系建设3风控领域创新应用4取得成果与未来展望烟囱式应用现状存在的问题应用野蛮生长 数仓地位尴尬01硬件资源分散峰值服务能力和大数 据量处理能力受限04数据治理目标难实 现:企业数据模型、 数据标准统计口径03跨应用数据共享困 难,大量的数据冗余02大数据技术助力构建大规模数据处理平台1高性价比1.相同计算与容错能力,基础 环境软硬件成本只需原来的 1/3-1/5,大幅降低项目预算2.分布式并行计算技术解决传 统数据库架构海量数据的加工 能力难题2弹性伸缩1.构建大规模计算与存储资源 池,用个平台承载以数据仓库 为核心的大部分数据应用;
2、SSD 介质加速随机读写速度2.在线横向扩容,实现资源弹性 分配与隔离,快速满足应用需求 变化3开放便利1.开源技术促进平台快速升 级迭代,提升核心技术自主 掌控能力 2.整合存储、加工、实时流 处理、机器学习等多样化能 力,降低集成难度基础数据平台技术选型性能优异1. 兼顾大数据批量处理和小样本数据精确查询统计的性能需2. 优化的数据存储与访问技术,支持 索引、分区、行列混合存储3. 尽量避免GC引发的性能抖动,避免大数据量广播4. 计算资源有效管控容易开发1. 支持SQL2003标准和存储过 程,原有应用迁移成本低2. 编程接口与开源主流兼容, 支持ODBC/JDBC标准接口运维简单1.
3、高度容错,无单点故障2. 完善的运维监控管理,开 放的监控输出接口3. 支持在线弹性扩容支持到位1. 厂商掌握核心技术2. 有经验的运维支持团队3. 晌应及时的产品开放团队24.11.2015构建统的数据管理平台释放软件开发生产力构建统的数据管理平台释放软件开发生产力强化数据仓库核心地位促进数据应用开放协同统规划企业信息模型从全局视角规划设计,整合提 炼多应用共性需求,构建公共 数据模型层01应用轻装上阵削减基础数据加工任务,应用 数据集市瘦身,共享融合的企 业级信息视图03份数据,直接共享统调度,集中授权,直接访 问,统计口径致,实现数据 标准化目标02数据服务专业化聚焦专业领域数据价值提炼
4、, 开放专业数据视图与应用服务04拓展数据仓库新能力业务数据开放能力业务数据开放能力开放高时效性的业务主题应用集市,提供 自主数据探索与业务建模的可视化工具多样化数据整合能力多样化数据整合能力内外部结构化与非结构化数据的整合加 工与共享,构建更全面的客户信息视图准实时数据应用能力准实时数据应用能力全渠道数据实时整合,实现客户营销、风险管理、业务分析等领域的实时智能 应用技术平台规划海量数据海量数据 实时智能实时智能A数据管理平台B应用服务平台D高性能计算平台C数据探索平台1.海量数据高效采 集、存储、加工2.数据标准化治理、 数据生命期管理3.多租户数据服务资源管理1.高并发低延迟的微 服务架
5、构2.大数据技术集成1.业务数据可视化2.交互式数据分析3.图形化的挖掘建模 工具1.CPU/GPU混合并 行计算架构2.并行挖掘算法和深 度学习框架3.并行处理语言、实时流与图计算构建企业级数据应用能力决策支持决策支持数据探索与业务预测数据探索与业务预测统计分析统计分析数据存储与联机查询数据存储与联机查询自主学习自主学习 无监督深度学习 自适应进化演算 产品差异化定价 业务数据探索 模型测试验证 即席业务统计报表 生产数据实时与T+1复制 作业数据直接存储 事件触发式自动推理引擎 自然语言理解与虚拟机器人 区域行业规划 业务趋势预测 客户行为预测 客户细分统计分析支持历史数据在 线查询离线批
6、 处理准实时实时目录1平台建设背景2数仓应用体系建设3风控领域创新应用4取得成果与未来展望数仓基础应用架构历史数据平台文件交换区FSA历史数据服务接口非结构化数据接入半结构化/ 非结构化数据源系统结构化数据非结构数据区社交媒体信息第三方数据.统 一调 度数 平据 台运 维 体 大 系 数据 管 理 平 台在线数据平台源数据数据 接入数 据 存 储公共数据模型层CDM公共数据模型层CDM源数据基础数 历史层据模型HDM层FDM源数据基础数历史层据模型HDM层FDM源数据缓冲区ODM/结构化数据接入数据服务数据集市客户关系管理集市综合监管集市数据分析集市审计、反洗钱等其他数据服务接口DSI数据应用
7、总体技术架构Far far away, behind the word mountains, far from the countries Vokalia and Consonantia, there live the blindtexts. Separated they live in Bookmarksgrove right at the coast of the Semantics, a large language ocean.Sign核心系统理财系统渠道支付系统内部内部 数据层数据层微服务AkkaMQ-Kafka缓存RedisSkyline大数据应用服务平台大数据实时流处理平台非结构
8、化数据服务平台实时智能 决策引擎知识图谱与 认知计算平台互联网数据采集与与文本分析平台数据挖掘工 具Discover/Midas可视化报表工 具Tableau数据库基础工具Waterdrop公 共公 共 技 术技 术 服 务服 务 组件组件数据数据 库工具库工具分行数据集市各应用集市部门分析集市Spark企业级数据模型/公共数据模型贴源层数据集市应用应用 服务服务 技术技术 平台平台数据数据 仓库仓库Hadoop+Spark TDH数据库内存数据库Voltdb半结构化数据库SDB数据库数据库 平台平台应用应用 系统系统关联关联 应用应用 系统系统数据数据 应用应用 服务服务ESB手机银行微信网
9、银信贷评审贷后管理柜面系统智能顾投服务客户营销服务家庭金融服务信贷平台风险预 警服务实时反欺诈非结构化数据应 用服务CRM系统系统财富管理系统家庭金融精准营销平台统一绩效统一绩效 考核考核平台平台客户生命周期管理系统业务发展规划台大数据资讯平台全面风险预警全面风险预警运营风险监测系统“恒丰足迹恒丰足迹”银联数据舆情数据工商数据司法数据外部外部 数据层数据层.公共数据模型层设计 面向主题 覆盖银行分析决策的各个方面 满足维度模型的高效性和易理解性采用维度建模为主数据的准确性数据的准确性模型的稳定性、可扩展性模型的稳定性、可扩展性数据的整合性数据的完整数据的完整性性模型的可用性模型的可用性 数据具
10、有可逆性,能够真实地反映 原始数据的面貌 数据具有可回溯性,能够准确地反 映历史数据清况 结构上应该是稳定的、灵活的、可扩展的 足够的灵活性才能适应复杂业务清况以及业务的变化 高抽象化的模型能便于扩展 便于最终用户理解 统的规范、规则定义、业务语言 层次、关系清晰 数据无二义性 文档完备 能涵盖银行现有的业务范畴以及数 据范围 重要实体、重要关系、重要分析维 度属性均保持完整 Single Source, Single View 数据共享平台 为各种分析应用提供单的、整合的数据来源 统的数据定义标准和编码规则采用维度建模为主采用维度建模为主数据的整合性数据的整合性数据的完整性数据的完整性模模模
11、型型型设设设计计计原原原则则则公共数据模型主题成果交易产品协议银行银行客户客户客 户 信 息财务 绩效汇总层汇总层明细层指标层指标层财务绩效资产主要是科目总账和统 计科目信息主要是银行持有资产 和押品信息交易主要是交易、传票以 及特定业务、渠道的 交易产品协议主要是通用产品信息 以及特定产品信息主要是容器账户、结 算账户、授信业务和 国结业务客户信息主要是客户基本信息、客户关联信息和客 户分类信息实施过程遇到的问题与对策技术支持工具问题:跨集群数据自动复制,系统监控、SQL性能分析诊断等技术工具尚不完善。 对策:与平台厂商合作,自开发技术工具 作为补充避免复杂的SQL编写问题:编译器难以判断嵌
12、套SQL在每个节点上的初始 结果集是否可以驻留直接使用,结果往往需要汇聚后 再广播给每个节点,增加大量的网络IO成本对策:尽可能把过滤条件放到嵌套SQL内部执行,减 少中间结果集大小,降低数据广播带来的处理延迟跨节点的数据网络传输带来 的IO成本问题:IO成为性能瓶颈对策:客户号存在并作为分片键,并且在表关联 操作中将客户号相等的计算条件作为必要条件; 元数据表尽可能设计为复制表;避免在分片键上出现空值,导致数据分在过度倾 示分布式计算任务带来的调度协调成本问题:看似较小成本的SQL实际执行成本(时间) 比传统数据库要高很多对策:包括规避存储过程内游标使用,尽可能用聚 合成复合SQL语句或拆分
展开阅读全文