基于数据仓库的高校数据统计服务平台研究课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基于数据仓库的高校数据统计服务平台研究课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据仓库 高校 数据 统计 服务 平台 研究 课件
- 资源描述:
-
1、基于数据仓库的高校数据统计服务平台研究提纲背景需求分析平台设计平台实现平台部署背景 各高校建成的信息管理系统越来越多,海量数据背后隐藏着许多重要信息,是学校正常运转的核心资源,以灵活便捷的方式对数据进行统计、分析,进而为高校管理与决策提供支持的需求日益强烈背景 商业智能(BI,business intelligence)Gartner Group,Howard Dresner,1996:一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成,以帮助企业决策为目的的技术及其应用。背景 微软的BI体系框架背景 IBM的BI体系框架背景 建立BI系统的基本步骤包括:确认
2、和解读数据源;进行数据采集和存储管理;构建模型并在此基础上分析数据背景 商业智能的基础是数据仓库(DW,Data Warehouse)数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库为有效地为BI系统提供了全局一致的数据环境,也为历史数据综合数据的处理提出了一种行之有效的解决方法。背景 国外:BI应用已经进入了数据分析阶段,有些已经积累了高端的数据挖掘经验;国内:BI的应用则还停留在数据整合的初级阶段,应用的主要领域集中在电信、保险、销售等行业,国内高校的情况不容乐观:数据分散在不同的源系统中,数据的规范性和共享性还存在很大问题;数据统计和分析基本上是基于单个系统
3、中的操作型数据进行的,既不能反映出不同系统之间的数据关联,又缺乏对数据的全局把握;还会因为操作型数据的动态性和分散性影响统计结果的准确性,也无法对历史数据进行统计和分析。背景 要建立高校的BI应用,满足为高校管理与决策提供支持的需求,首先必须打破不同应用系统之间的“藩篱”,建立全局一致的数据仓库,将操作型数据转换为静态的、稳定的、规范化的、能够反映历史的分析型数据,然后在此基础上搭建统一的数据统计服务平台。需求分析 数据统计需求按用途不同分为2类:一是以年报表或者季度报表的形式上报上级部门的统计数据,有着固定的报表格式、复杂的报表内容、专门的统计口径,有的报表甚至还有严格的填报流程;二是部门日
4、常所需要统计数据,往往和某种类型具体业务相关,和第一类需求相比,统计数据的格式和内容比较简单,没有复杂的填报流程,但时间粒度要求更细,要以月报表、周报表乃至日报表的形式提供统计结果,并且要求提供数据钻取的功能。需求分析 这些需要统计的数据涉及高校人事、学生、科研、教学等各个领域,每个领域下面又细分为了很多不同的细类,具体如图1所示。平台设计 总体架构 数据仓库建模 统计数据模型总体架构 高校数据统计服务平台由源系统、数据仓库和统计平台三部分组成。总体架构 源系统:高校业务涉及的数据源比较广泛,主要有人事系统、教务系统、研究生系统、科研系统等,再加上校园网之外的一些其他外部数据源,构成了数据统计
5、服务平台的数据基础,由于系统业务职能和具体需求不同,在实现时会选用不同的数据库,数据结构也可能存在较大差异,从而导致数据间有较大的异构性和不一致性。总体架构 数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析;整个数据仓库包含四大层次:复制层(SSA,system-of-records-staging-area)原子层(SOR,system-of-record)汇总层(SMA,summary-area)集市层(DM,data mart)总体架构 复制层(SSA,system-of-records-stag
6、ing-area):直接复制源系统的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,复制层中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息;原子层(SOR,system-of-record):基于模型开发的一套符合3NF范式规则的表结构,它存储了数据仓库内最细层次的数据,并按照不同的主题域对数据分类存储;根据目前部分需求,将全校数据在原子层中按人事、学生、教学、科研四大主题存储;原子层是整个数据仓库的核心和基础,在设计过程中应具有足够的灵活性,以能应对添加更多的数据源、支持更多的分析需求,同时能够支持进一步的升级和更新;总体架构 汇总层(SMA,summar
7、y-area):汇总层是原子层和集市层的中间过渡,由于原子层的数据是高度规范化数据,因此要完成一个查询需要大量的关联工作,同时集市层中的数据粒度往往要比原子层高很多,对要生成集市层中的汇总数据需要进行大量的汇总工作,因此,汇总层根据需求把原子层数据进行适度的反范(例如,设计宽表结构将人员信息、干部信息等多个表的数据合并起来)和汇总(例如,一些常用的人头汇总、机构汇总等);从而提高数据仓库查询的性能。总体架构 集市层(DM,data mart):集市层保存的数据是供用户直接访问的;可以将集市层理解成最终用户直接最终想要看的数据;集市层主要是各类粒度的事实数据,通过提供不同粒度的数据,适应不同的数
8、据访问需求;集市层中的数据以2种不同类型存储:一类以星型模型建设,便于部门日常的灵活查询和统计,另一类按宽表以及重新组织的适应固定报表的表结构存储,便于高校的年统和季度统计工作。总体架构 统计平台:高校数据统计服务平台采用B/S架构的3层体系结构,即:数据操作层、逻辑层、表示层。数据操作层 逻辑层 表示层总体架构 数据操作层:充分考虑系统的高可用性,数据统计服务平台与数据仓库所使用的数据库互相独立,由此保证数据统计服务平台对数据进行加工处理时不会影响数据仓库中的数据;数据存取模块实现对数据统计服务平台数据的访问。总体架构 逻辑层:分为报表预定义、报表查询、报表生成、报表填报、报表审核及报表汇总
9、等模块;每个模块分别实现不同的功能;在统计平台中,不同身份的用户其功能权限和数据权限是不一样的:报表预定义是给系统管理员用的;报表生成、报表填报是给院系管理人员使用的,只能查看和操作本院系的数据;报表审核、报表汇总是给学校相关部门的管理人员用的,可以操作全校数据;功能权限和数据权限通过公用层与身份认证服务平台对接,统一进行管理总体架构 表示层:提供交互界面给用户使用,此外还提供一些服务接口供其他系统调用数据仓库建模 目前较为流行的数据仓库的建模方法较多,常用的有Inmon所提倡的范式建模法和Kimball所提倡的维度建模法。数据仓库建模 维度建模法针对各个维做了大量的预处理,通过这些预处理能够
10、极大地提升数据仓库的处理能力,相对于范式建模法来说,在性能上占据了明显的优势;同时维度建模非常直观,紧紧围绕着业务模型,可以直观地反映出业务模型中的业务问题。不需要经过特别的抽象处理即可以完成维度建模。因此高校数据统计服务平台的数据仓库采取维度建模的方式构建。维度建模法采用事实表维表的方式来构建数据仓库,数据集市、事实表存储实际的数据,维表存储事实表中对象的属性,事实表和维表的关联关系常用的是“星型模型”。数据仓库建模 维度建模的步骤 结合具体需求确定分析主题,结合高校主要业务定义了一个公共维度主题和人事、学生、教学、科研4个业务主题:公共维度包含时间维、地理维、国标及校标,时间维和地理维在不
展开阅读全文