数据仓库系统的设计及开发.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库系统的设计及开发.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 系统 设计 开发
- 资源描述:
-
1、数据仓库系统的设计及开发数据仓库系统的设计及开发2022年8月3日22.3.数据仓库设计数据建模最佳实践构建高性能的数据仓库数据仓库设计ETL设计数据仓库设计建模过程日程安排日程安排数据仓库设计界面设计数据仓库的开发应用过程2022年8月3日3能够很好的分离出底层技术的实现和上层业务的展现1)当上层业务发生变化时,通过数据模型,底层技术实现可以较为轻松的完成业务的变动,从而达到整个数据仓库系统的灵活性能够全面了解业务系统的业务架构图和整个业务运行情况2)能够将业务按照特定的规律进行分门别类和程序化1)建立全方法的数据视角;2)保证整个企业的数据的一致性;3)消除各个部门之间的信息孤岛;为什么需
2、要数据模型为什么需要数据模型2022年8月3日4数据仓库建模人员所需的技能和能力数据仓库建模人员所需的技能和能力 分析能力见树又见林模拟论证 学习能力抽象综合 交流能力组交互演示调查访谈 原型设计能力企业体系架构2022年8月3日5数据仓库设计建模的要点和原则数据仓库设计建模的要点和原则建模原则 选择创建什么模型对如何动手解决问题和如何解决方案有深远影响 每一种模型可以在不同的精度级别上表示 最好的模型是与现实相联系 单个模型不充分,需要一组模型去处理建模的要点 正确认识建模方法论2022年8月3日6利用图形来建立数据模型利用图形来建立数据模型 图形具有直观性、简单性以及可理解性等优点 图形能
3、自然地表达客观世界 理解图中路径探索2022年8月3日7什么是数据模型什么是数据模型 业务建模,生成业务模型,主要解决业务层面的分解和程序化。领域建模,生成概念模型,主要是对业务模型进行抽象处理,生成领域概念模型。逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。2022年8月3日8思考思考 需求建模与业务建模 需求建模与业务建模谁先谁后?软件开发过程是否应该是:业务调研,业务建模(业务分析),(业务模型分析)需求调研(这时,已经有一部分需求可从业务模型
4、中获得),需求建模,需求分析2022年8月3日9业务建模业务建模组织结构分析组织结构分析组织结构组织结构,用户及权限的分析用户及权限的分析客户组织结构的分析n公司组织机构n区域位置n集团/省/地市用户的分析n用户n组n角色权限的分析n功能权限分析n数据权限分析2022年8月3日102022年8月3日星期三11例:三大运营商的组织架构调整2022年8月3日12业务建模业务建模业务流程分析业务流程分析什么是业务流程什么是业务流程2022年8月3日13业务流程分析的内容业务流程分析的内容(1)原有流程的分析。(2)业务流程的优化。(3)确定新的业务流程(4)新系统的人机界面。2022年8月3日14业
5、务流程分析的步骤业务流程分析的步骤 1.系统环境调查 2.组织机构和职责的调查 3.功能体系的调查与分析 4.管理业务流程的调查与分析2022年8月3日15案例学习:案例学习:新业务客户服务业务流程新业务客户服务业务流程新业务查询流程新业务查询流程2022年8月3日16业务流程可以代替业务建模吗业务流程可以代替业务建模吗 在业务流程的背后,有一个更加根本的因素商业需求。商业需求才是真正的业务模型,业务流程只是一种实现手段而已。例:新用户入网业务流程:1:首先把SIM卡和号码在交换网络上做对应关系的注册;2:市场部把SIM卡存入一定的金额,发给销售商,收取销售商的货款;3:销售商把卡卖给用户,用
6、户填写入网合同,SIM装入手机可以立即通话;4:销售商把入网合同交给市场部,市场部资料录入人员将用户的资料录入系统;5:计费系统按照用户选择的资费对话单进行计费;6、市场部按照用户的消费情况给销售商计算佣金和返利。思考:真正的业务模型(需求)是什么?2022年8月3日17从业务流程中提取概念和逻辑模型从业务流程中提取概念和逻辑模型 心得体会:看到背后的商业需求,你会发现模型原来非常稳定 不需要急于知道所有的细节性的需求,只要了解比较重要的20的需求2022年8月3日182022年8月3日19数据仓库数据模型数据仓库数据模型-星型模型与雪花模型星型模型与雪花模型2022年8月3日20数据仓库建模
7、的原则数据仓库建模的原则2022年8月3日21数据仓库建模的三个阶段数据仓库建模的三个阶段概念模型设计概念模型设计(Concept Data Modeling):这一阶段之前的首要工作是通过需求分析,明确需求所涵盖的业务范围。然后再对需求范围内的业务及其间关系进行高度概括性的描述,把密切相关业务对象进行归类,即划分主题域。概念模型的设计是为逻辑模型的设计做准备,它没有统一的标准,主要根据设计者的经验。逻辑模型设计逻辑模型设计(Logical Data Modeling):分别对概念模型的各个主题域进行细化,根据业务定义、分类和规则,定义其中的实体并描述实体之间的关系,并产生实体关系图(ERD)
8、,然后遵照规范化思想在实体关系的基础上明确各个实体的属性。实体产生于中国移动开展的业务、服务及其涉及的对象(如客户、帐户、员工、机构、资源),实体间的对应、约束关系则来自于各业务过程中的规则。可以说,这一阶段面对的是业务。物理模型设计物理模型设计(Physical Data Modeling):n物理模型设计主要依据逻辑模型针对具体的分析需求和物理平台采取相应的优化策略。此时会在一定程度上增加数据冗余或者隐藏实体之间的关系或者进行实体的合并和拆分,目的是提高数据分析的速度,适应具体数据库的容量、性能等限制。可以说,这一阶段面对的是具体软硬件平台和性能要求。n一旦逻辑模型到位,物理模型就有了可参
9、照的依据,开发工作内容也同时得到明确。物理模型设计一般在架构设计阶段2022年8月3日22数据仓库系统所采用的建模流程数据仓库系统所采用的建模流程 概念模型为逻辑模型的设计作准备,没有统一标准,主要根据设计者经验 逻辑模型对概念模型的各个主题域进行细化,根据业务定义、分类和规则,定义其中的实体并描述实体之间的关系,并产生实体关系图(ERD)一旦逻辑模型到位,物理模型就有了可参照的依据,开发工作内容也同时得到明确 2022年8月3日23数据仓库概念模型数据仓库概念模型主题域的设计主题域的设计 DW主题的划分必须是基于需求的主题划分,而不仅仅是基于已有查询和报表数据的主题划分 DW主题是通过对业务
10、人员的访谈,充分了解业务流程和信息使用需求为主要根源的 DW主题的设计必须能够满足业务人员的内在的分析需求 DW主题设计的过程中,业务环节点分析是关键 DW细化分析主题,解决指标的歧义问题,为模型设计、数据提取、数据展现等多个方面奠定基础2022年8月3日24数据仓库的数据模型数据仓库的数据模型 系统记录域(System of Record):这部分是主要的数据仓库业务数据存储区,数据模型在这里保证了数据的一致性。内部管理域(Housekeeping):这部分主要存储数据仓库用于内部管理的元数据,数据模型在这里能够帮助进行统一的元数据的管理。汇总域(Summary of Area):这部分数据
11、来自于系统记录域的汇总,数据模型在这里保证了分析域的主题分析的性能,满足了部分的报表查询。分析域(Analysis Area):这部分数据模型主要用于各个业务部分的具体的主题业务分析。这部分数据模型可以单独存储在相应的数据集市中。反馈域(Feedback Area):可选项,这部分数据模型主要用于相应前端的反馈数据,数据仓库可以视业务的需要设置这一区域。2022年8月3日25数据模型的技术功能结构划分 分段存储区(Staging Area)是为了保证数据移动的顺利进行而开设的阶段性数据存储空间,它是业务系统原始数据进入数据仓库前的缓存区。基础数据仓库 根据业务需求的不同,基础数据仓库的组织形式
12、以三范式模型为主,在有的系统中也可能采用星型或雪花模型。数据集市(Data Mart)数据集市中的数据通常由基础数据仓库的详细数据聚合而来,根据数据聚合程度的不同包含轻度聚合、中度聚合和高度聚合三种不同的层次。汇总的方式将依据数据量的大小和使用频度综合考虑 2022年8月3日26数据仓库的模型数据仓库的模型关系模型关系模型2022年8月3日27数据仓库的模型数据仓库的模型星型模型星型模型 通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。2022年8月3日28数据仓库的模型数据仓库的模型雪
13、花模型雪花模型 许多维度存在着比较复杂的结构,它们有的还具有多层的层次结构。因此,很难将这样的维表只采用一个关系表的形式表达出来,必须将这些维表规范成有多个外键关联的关系表2022年8月3日29星型模型星型模型 VS 雪花模型雪花模型比较项目比较项目优点优点缺点缺点星型模式1.查询效率高,事实表作连接时其速度较快;2.便于用户理解。比较直观,通过分析星形模式,很容易组合出各种查询增加了存储空间雪花模式1.在一定程度上减少了存储空间2.规范化的结构更容易更新和维护1.比较复杂,用户不容易理解;2.浏览内容相对困难3.额外的连接将使查询性能下降2022年8月3日30宽表宽表 横表与纵表 处理方便性
14、与业务支撑灵活性的差异 宽表 在横表的基础上拓展,强化处理方便性 开放给业务人员使用,直接解决业务问题 单条记录包括用户基本信息、产品选择和使用量、费用信息明细帐单表1PK account_datePK user_idPK account_idPK item_id item_fee item_favour明细帐单表2PK account_datePK user_idPK account_id base_fee toll_fee message_fee other_fee.2022年8月3日31数据仓库建模方法数据仓库建模方法范式建模法范式建模法 优点:从关系型数据库的角度出发,结合了业务系统的
15、数据模型,能够比较方便的实现数据仓库的建模 缺点:在某些时候反而限制了整个数据仓库模型的灵活性,性能等2022年8月3日32数据仓库建模方法数据仓库建模方法维度建模法维度建模法 优点:维度建模非常直观,紧紧围绕着业务模型,可以直观的反映出业务模型中的业务问题 缺点:如果只是依靠单纯的维度建模,不能保证数据来源的一致性和准确性2022年8月3日33数据仓库建模方法数据仓库建模方法实体建模法实体建模法 优点:能够很轻松的实现业务模型的划分,因此,在业务建模阶段和领域概念建模阶段,实体建模法有着广泛的应用 缺点:不太适用于物理建模2022年8月3日34数据仓库建模的十大戒律数据仓库建模的十大戒律 1
16、)必须回答紧迫的问题;2)必须有正确的事实表;3)将有正确的维表,描述必须按最终用户的业务术语表达;4)必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;5)对于事实表,应该有正确的“粒度”;6)根据需要存储正确长度的公司历史数据;7)以一种对于公司有意义的方式来集成所有必要的数据;8)创建必要的总结表;9)创建必要的索引;10)能够加载数据仓库数据库并使它以一种适宜的方式可用。2022年8月3日35数据仓库缓慢变化维的一个案例数据仓库缓慢变化维的一个案例一个案例 在一个零售业数据仓库中,事实表保存着各销售人员的销售记录,某天一个销售人员从北京分公司调到上海分公司了,那么如何来保存这个
17、变化呢?也就是说销售人员维度要怎么恰当的处理这一变化。如果我们要统计北京地区或上海地区的总销售情况的时候,这个销售人员的销售记录应该算在北京还是算在上海?当然是调离前的算在北京,调离后的算在上海,但是如标记这个销售人员所属区域?这里就需要处理一下这个维度的数据,即我们缓慢变化维需要做的事情。2022年8月3日36数据仓库缓慢变化维的解决方案数据仓库缓慢变化维的解决方案 新数据覆盖旧数据 保存多条记录,并添加字段加以区分添加记录的生效日期和失效日期来标识新旧数据 不同字段保存不同值,这种方法用不同的字段保存变化痕迹.但是这种方法不能象第二种方法一样保存所有变化记录,它只能保存两次变化记录.适用于
18、变化不超过两次的维度。另外建表保存历史记录,而维度只保存当前数据 混合模式2022年8月3日37数据仓库建模数据仓库建模_案例案例2022年8月3日38案例:怎样构建数据仓库模型案例:怎样构建数据仓库模型确定主题域确定主题域及各主题域之间的关系确定主题域的业务数据确定业务数据中的业务实体确定业务实体之间的关系确定物理模型2022年8月3日39确定确定主题域及各主题域之间的关系主题域及各主题域之间的关系服务通过网络实现/网络支持服务网络产生事件/事件包括网络类产品被销售给客户/参与人使用和管理产品跟踪应付&应收/提供成本&收入历史事件包含财务类参与人产生和经历事件/事件包括参与人的产品/服务产生
19、事件 事件包括产品类营销产生事件事件实现营销营销被锁定位置/位置定位营销针对特定产品/产品通过营销推向市场为参与人建立帐户、帐单/记录帐户、成本和付款服务使用的帐务信息/帐务记录产品的成本和付款定位网络/网络支持的位置营销的目标针对参与人/参与人是营销的受众包括消费者和运营商在内/位置定位Finance Management(财务管理)(财务管理)BILLING(帐务)(帐务)NETWORK(网络资源)(网络资源)PRODUCT(产品)(产品)MARKETING(市场营销)(市场营销)LOCATION(地域)(地域)PARTY(参与人)(参与人)EVENT(事件事件)跟踪总帐/负责2022年8
20、月3日40基基 本本 结结 构构特特 征征奖奖 励励隐隐 私私 参与人主题描述了和电信运营商有着业务联系的参与人主题描述了和电信运营商有着业务联系的 任何个人、企业、组织、团体等。任何个人、企业、组织、团体等。确定主题域的业务数据确定主题域的业务数据2022年8月3日41参与人间参与人间关联关联 参与人角色参与人角色组织组织层次结构层次结构层次结构层次结构级别级别层次结构层次结构类型类型商业组织商业组织内部组织内部组织标准分类标准分类代码代码确定基本结构业务数据的业务实体及关系确定基本结构业务数据的业务实体及关系参与人:和电信运营商有参与人:和电信运营商有着业务联系的任何个人、着业务联系的任何
21、个人、组织机构、家庭和虚拟客组织机构、家庭和虚拟客户户 。例:例:财务财务市场营销市场营销网管网管例:例:客户客户潜在客户潜在客户电信运营商电信运营商代理商代理商供应商供应商管理者管理者雇主雇主职工职工个人个人家庭家庭组织组织参参 与与 人人2022年8月3日42特征特征符合程度符合程度特征特征类别值类别值客客 户户 特特 征征帐帐 户户 特特 征征特特 征征 类类 别别例:例:个人喜好个人喜好信用类信息信用类信息家庭类信息家庭类信息教育类信息教育类信息职业类信息职业类信息机构类信息机构类信息 例:例:信用等级信用等级职业状态职业状态收入收入子女数子女数教育程度教育程度特特 征征 分分 组组完
22、全符合完全符合部分符合部分符合不符合不符合确定特征业务数据中的业务实体及关系确定特征业务数据中的业务实体及关系2022年8月3日43奖励计划管理奖励计划管理参与人角色参与人角色奖励目标客户群奖励目标客户群目目 标标 群群奖奖 励励 等等 级级奖奖 励励 类类 型型参与人参与人奖励历史记录奖励历史记录奖奖 励励 计计 划划奖励计划:记录电信奖励计划:记录电信运营商向客户提供奖运营商向客户提供奖励和回报的历史。励和回报的历史。确定奖励业务数据中的业务实体及关系确定奖励业务数据中的业务实体及关系2022年8月3日44隐私信息隐私信息类别类别同意周期同意周期组织隐私组织隐私策略信息策略信息参与人帐户参
23、与人帐户隐私信息隐私信息帐户同意帐户同意等级信息等级信息参与人同意参与人同意等级信息等级信息参与人参与人隐私信息隐私信息隐私信息类别隐私信息类别确定隐私业务数据中的业务实体及关系确定隐私业务数据中的业务实体及关系2022年8月3日45业务系统与业务系统与数据仓库模型的数据仓库模型的映射映射2022年8月3日46数据仓库建模数据仓库建模_案例实践案例实践国内社保行业背景2022年8月3日47n目前我们国家的社保主要分为养老,失业,工伤,生育,医疗保险和劳动力市场这 6 大块主要业务领域。n在这 6 大业务领域中,目前的状况养老和事业的系统已经基本完善,已经有一部分数据开始联网检测。n对于工伤,生
24、育,医疗和劳动力市场这一块业务,有些地方发展的比较成熟,而有些地方还不够成熟。?请大家思考并简单描述社保行业的数据仓库模型:大致的业务模型大致的概念模型社保行业数据仓库业务模型社保行业数据仓库业务模型2022年8月3日48社保行业数据仓库领域概念模型社保行业数据仓库领域概念模型2022年8月3日49社保行业数据仓库逻辑模型社保行业数据仓库逻辑模型2022年8月3日50通过领域概念模型细化逻辑模型每一个抽象的实体,例如:“人”的属性包括年龄,性别,受教育程度等等。各个抽象实体间的联系。例如:对于养老金征缴这个“事件”的属性得考虑,对于失业劳动者培训这个“事件”的属性得考虑等等。找出抽象事件的关系
25、,并对其进行说明。例如:对于“事件”中的地域,事件等因素的考量等等。建议:可以参考 3NF 的建模方法,表达出实体的属性,以及实体与实体之间的联系。例如:在这个阶段,我们可以通过采用 ERWIN 等建模工具等作出符合 3NF 的关系型数据模型来。社保行业数据仓库物理模型社保行业数据仓库物理模型2022年8月3日51完成物理模型生成创建表的脚本。不同的数据仓库平台可能生成不同的脚本。针对数据集市的需要,按照维度建模的方法,生成一些事实表,维表等工作。针对数据仓库的ETL车和元数据管理的需要,生成一些数据仓库维护的表,例如:日志表等。注:根据业务实际的需要和自己对抽象能力的把握来创建适合根据业务实
展开阅读全文