数据仓库的建模模型智能科学网站课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库的建模模型智能科学网站课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 建模 模型 智能 科学 网站 课件
- 资源描述:
-
1、2023-2-6高级人工智能 史忠植1高级人工智能高级人工智能第十四章第十四章 知识发现知识发现(一)(一)史忠植史忠植 中国科学院计算技术研究所2023-2-6高级人工智能 史忠植2知识发现知识发现概述知识发现的任务数据仓库知识发现工具2023-2-6高级人工智能 史忠植3 知识发现知识发现知识发现是指从数据集中抽取和精炼新的模式。范围非常广泛:经济、工业、农业、军事、社会 数据的形态多样化:数字、符号、图形、图像、声音 数据组织各不相同:结构化、半结构化和非结构 发现的知识可以表示成各种形式规则、科学规律、方程或概念网。2023-2-6高级人工智能 史忠植4 数据库知识发现数据库知识发现
2、目前,关系型数据库技术成熟、应用广泛。因此,数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。该术语于1989年出现,Fayyad定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”2023-2-6高级人工智能 史忠植5 不同的术语名称不同的术语名称 知识发现是一门来自不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。知识发现:人工智能和机器学习界。数据挖掘(data mining):统计界、数据分析、数据库和管理信息系统界q知识抽取(information extraction)、
3、q信息发现(information discovery)、q智能数据分析(intelligent data analysis)、q探索式数据分析(exploratory data analysis)q信息收获(information harvesting)q数据考古(data archeology)2023-2-6高级人工智能 史忠植62023-2-6高级人工智能 史忠植7知识发现的任务知识发现的任务 数据总结:对数据进行总结与概括。传统的最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示。分类:根据分类模型对数据集合分类。分类属
4、于有导师学习,一般需要有一个训练样本数据集作为输入。聚类:根据数据的不同特征,将其划分为不同的类。无导师学习2023-2-6高级人工智能 史忠植8知识发现的任务知识发现的任务 相关性分析:发现特征之间或数据之间的相互依赖关系关联规则 偏差分析:基本思想是寻找观察结果与参照量之间的有意义的差别。通过发现异常,可以引起人们对特殊情况的加倍注意。建模:构造描述一种活动或状态的数学模型 2023-2-6高级人工智能 史忠植9知识发现的方法知识发现的方法 统计方法:传统方法:回归分析、判别分析、聚类分析、探索性分析 模糊集(fuzzy set)Zadeh 1965 支持向量机(Support Vecto
5、r Machine)Vapnik 90年代初 粗糙集(Rough Set)Pawlak 80年代初2023-2-6高级人工智能 史忠植10知识发现的方法知识发现的方法 机器学习:规则归纳:AQ算法 决策树:ID3、C4.5 范例推理:CBR 遗传算法:GA 贝叶斯信念网络2023-2-6高级人工智能 史忠植11知识发现的方法知识发现的方法 神经计算:神经网络是指一类新的计算模型,它是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型。常用的模型:Hopfield网 多层感知机 自组织特征映射 反传网络 可视化:2023-2-6高级人工智能 史忠植12KDDKDD的技术难点的技术难点 动态
6、变化的数据 噪声 数据不完整 冗余信息 数据稀疏 超大数据量2023-2-6高级人工智能 史忠植13数据仓库数据仓库 在过去几十年,数据库技术,特别是OLTP(联机事务处理),主要是为自动化生产、精简工作任务和高速采集数据服务。它是事务驱动的、面向应用的。20世纪80年代,人们要利用现有的数据,进行分析和推理,从而为决策提供依据。这种需求既要求联机服务,又涉及大量用于决策的数据。而传统的数据库系统已无法满足这种需求:所需历史数据量很大,而传统数据库一般只存储短期数据。涉及许多部门的数据,而不同系统的数据难以集成。对大量数据的访问性能明显下降 2023-2-6高级人工智能 史忠植14数据仓库的定
7、义数据仓库的定义信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格。随着此过程的发展和完善,这种九十年代初出现的支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse)。Inmon将数据仓库明确定义为:数据仓库(Data Warehouse)是面向主题的,集成的,内容相对稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。2023-2-6高级人工智能 史忠植15数据仓库的特征数据仓库的特征 数据仓库中的数据是面向主题的 与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域 数据仓
8、库中的数据是集成的 在数据进入数据仓库之前,必然要经过加工与集成。要统一原始数据中的所有矛盾之处,还要进行数据综合和计算2023-2-6高级人工智能 史忠植16数据仓库的特征数据仓库的特征 数据仓库中的数据是稳定的 数据仓库的数据主要供决策分析之用,所涉及的操作主要是数据查询,一般不进行修改操作 数据仓库中的数据又是随时间不断变化的 数据仓库的数据不是实时更新的,但并不是永远不变的,也要随着时间的变化不断地更新、增删和重新综合。更新周期 2023-2-6高级人工智能 史忠植17元数据元数据元数据(Metadata)是关于数据的数据,它描述了数据的结构、内容、编码、索引等内容。传统数据库中的数据
9、字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更加丰富和复杂。设计一个描述能力强、内容完善的元数据,是有效管理数据仓库的具有决定意义的重要前提 2023-2-6高级人工智能 史忠植18元数据的重要性元数据的重要性 数据仓库使用者往往将使用元数据作为分析的第一步。元数据如同数据指示图,指出了数据仓库内各种信息的位置和含义 从操作型数据环境到数据仓库的数据转换是复杂的、多方面的,是数据仓库建设的关键性步骤,元数据要包含对这种转换的清晰描述,保证这种转换是正确、适当和合理的,并且是灵活可变的元数据还管理粒度的划分、索引的建立以及抽取更新的周期等,以便管理好数据仓库中的大规模数据
10、2023-2-6高级人工智能 史忠植19数据仓库的相关概念数据仓库的相关概念事实表事实表(Fact):存储用户需要查询分析的数据,事实表中一般包含多个维(Dimension)和度量(Measurement)。维:维:代表了用户观察数据的特定视角,如:时间维、地区维、产品维等。每一个维可划分为不同的层次来取值,如时间维的值可按年份、季度、月份来划分,描述了不同的查询层次。度量:是数据的实际意义,描述数据“是什么”,即一个数值的测量指标,如:人数、单价、销售量等。2023-2-6高级人工智能 史忠植20数据仓库的建模模型数据仓库的建模模型 度量的实际数据存放在事实表中。维的详细信息,如不同的层次划
11、分和相应数据等在维表中存储,事实表中存放各个维的标识码键。事实表和维表将通过这些键关联起来,构成一种星型模型 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模型2023-2-6高级人工智能 史忠植21OLAPOLAP数据仓库技术中,多维数据分析(Multidimensional Data Analysis)方法是一种重要的技术,也称作联机分析处理(On-Line Analytical Processing,简称OLAP)或数据立方体(Data Cube)方法,主要是指通过各种即席复杂查询,对数据仓库中存储的数据进行各种统计分析的应用 数据仓
12、库是面向决策支持的,决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。2023-2-6高级人工智能 史忠植22OLAPOLAP的类型的类型ROLAP:数据保留在原有的关系型结构中,并且将聚合表也存储在关系数据库,在技术成熟及各方面的适应性上较之MOLAP占有一定的优势,性能较差MOLAP:数据和聚合都存储在多维结构中,效率较高,便于进行优化操作。维数多数据量大时,存储是难点。HOALP:数据保留在原有的关系型结构中,聚合存储在多维结构。结合ROLAP和MOLAP两者的优点2023-2-6高级人工智能 史忠植23OLAP的分析操作的分
展开阅读全文