数据仓库与数据挖掘课件1-(4).ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库与数据挖掘课件1-(4).ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 课件
- 资源描述:
-
1、23.4 OALP的多维数据分析(下)的多维数据分析(下)3.4.3 广义广义OLAP功能功能3.4.4 数据立方体数据立方体3.4.5 多维数据分析的多维数据分析的MDX语言及其应用语言及其应用3 1 1、基本代理操作、基本代理操作 当系统处于某种特殊状态时当系统处于某种特殊状态时“代理代理”提醒分析员。提醒分析员。 (1 1)示警报告)示警报告 定义一些条件,一但条件满足,系统会提醒分析员去做定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。分析。如每日报告完成或月定货完成等通知分析员作分析。 (2 2)时间报告)时间报告 按日历和时钟提醒
2、分析员。按日历和时钟提醒分析员。 (3 3)异常报告)异常报告 当超出边界条件时提醒分析员。如销售情况已超出预定当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。义阈值的上限或下限时提醒分析员。4 2数据分析模型数据分析模型 (1)绝对模型)绝对模型 通过比较历史数据值或行为来描述过通过比较历史数据值或行为来描述过去发生的事实。去发生的事实。 绝对模型只能对历史数据进行比较,绝对模型只能对历史数据进行比较,并且利用回归分析等一些分析方法得出并且利用回归分析等一些分析方法得出趋势信息。趋势信息。 5(2)解释模型)解释模型n利用系统已有的多层次的综合路径层层利用系统
3、已有的多层次的综合路径层层细化,找出事实发生的原因。细化,找出事实发生的原因。 n假设今年销售量下降,那么解释模型应假设今年销售量下降,那么解释模型应当能找出原因,即下滑与时间、地区、当能找出原因,即下滑与时间、地区、商品及销售渠道四者中的何种因素有关。商品及销售渠道四者中的何种因素有关。 6(3)思考模型)思考模型n说明在一维或多维上引入一组具体变量说明在一维或多维上引入一组具体变量或参数后将会发生什么。或参数后将会发生什么。 n例如该公司决策者为了了解某商品的销例如该公司决策者为了了解某商品的销售量是否与顾客的年龄有关,引入了行售量是否与顾客的年龄有关,引入了行变量年龄,即在当前的多维视图
4、上增变量年龄,即在当前的多维视图上增加了顾客的年龄维。加了顾客的年龄维。 7(4)公式模型)公式模型n该模型表示在多个维上,需要引入哪些该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。变量或参数,以及引入后所产生的结果。n公式模型自动完成上述变量引入工作,公式模型自动完成上述变量引入工作,从而最终找出与销量有关的全部因素,从而最终找出与销量有关的全部因素,并给出了引入后的结果。并给出了引入后的结果。83.商业分析模型商业分析模型(1)分销渠道的分析模型)分销渠道的分析模型(2)客户利润贡献度模型)客户利润贡献度模型(3)客户关系(信用)优化模型)客户关系(信用)优化模型(
5、4)风险评估模型)风险评估模型9(1)分销渠道的分析模型)分销渠道的分析模型n通过客户、渠道、产品或服务三者之间通过客户、渠道、产品或服务三者之间的关系,了解客户的购买行为、客户和的关系,了解客户的购买行为、客户和渠道对业务收入的贡献、哪些客户比较渠道对业务收入的贡献、哪些客户比较喜好由什么渠道在何时和银行打交道。喜好由什么渠道在何时和银行打交道。n为此,银行需要建立客户购买倾向模型为此,银行需要建立客户购买倾向模型和渠道喜好模型等。和渠道喜好模型等。10(2)客户利润贡献度模型)客户利润贡献度模型n通过该模型能了解每一位客户对银行的通过该模型能了解每一位客户对银行的总利润贡献度。总利润贡献度
6、。n知道哪些利润高的客户需要留住,采用知道哪些利润高的客户需要留住,采用什么方法留住客户,交叉销售改善客户什么方法留住客户,交叉销售改善客户的利润贡献度,哪些客户应该争取,完的利润贡献度,哪些客户应该争取,完成个性化服务。成个性化服务。11(3)客户关系(信用)优化模型)客户关系(信用)优化模型n银行对客户的每一笔交易中,知道客户需要什银行对客户的每一笔交易中,知道客户需要什么产品或服务,例如,定期存款是希望退休养么产品或服务,例如,定期存款是希望退休养老使用,申请信用卡需要现金消费,询问放贷老使用,申请信用卡需要现金消费,询问放贷利息需要住房贷款等。利息需要住房贷款等。n通过模型计算,主动地
7、对客户沟通并进行交叉通过模型计算,主动地对客户沟通并进行交叉销售,达到留住客户和增加利润的目标。销售,达到留住客户和增加利润的目标。12(4)风险评估模型)风险评估模型 模拟风险和利润间的关系,建立风险模拟风险和利润间的关系,建立风险评估的数学模型:评估的数学模型: 在满足高利润、低风险客户需求的前在满足高利润、低风险客户需求的前提下,达到银行收益的极大化。提下,达到银行收益的极大化。133.4.4 数据立方体数据立方体1概述概述 1996年,年,Jim Gray等首次提出了数据立方等首次提出了数据立方体体(Data Cube)的概念。的概念。 数据立方体就是数据仓库结构图(图数据立方体就是数
8、据仓库结构图(图2.1)中的综合数据层(轻度和高度)。基于数据中的综合数据层(轻度和高度)。基于数据立方体的生成方法一直是立方体的生成方法一直是OLAP和数据仓库领和数据仓库领域研究者所关注的热点问题。域研究者所关注的热点问题。14对于多维数据分析而言,本质上是沿着不同的对于多维数据分析而言,本质上是沿着不同的维度进行数据获取的过程。维度进行数据获取的过程。在数据立方体中,不同维度组合构成了不同的在数据立方体中,不同维度组合构成了不同的子立方体。子立方体。不同维值的组合及其对应的度量值构成了不同不同维值的组合及其对应的度量值构成了不同的查询和分析。的查询和分析。数据立方体的构建和维护等计算方法
9、成为了多数据立方体的构建和维护等计算方法成为了多维数据分析研究的关键问题。维数据分析研究的关键问题。15nOLAP和数据仓库通常和数据仓库通常预先计算好预先计算好不同细不同细节层次和不同维属性集合上的节层次和不同维属性集合上的聚集聚集,并,并把聚集的结果存储到物理磁盘上把聚集的结果存储到物理磁盘上(称为称为物物化化)。n把所有可能的聚集把所有可能的聚集(即全聚集即全聚集)都计算出都计算出来,可以得到最快的系统查询响应时间,来,可以得到最快的系统查询响应时间, 16数据立方体是在所有可能组合的维上进行分组数据立方体是在所有可能组合的维上进行分组聚集运聚集运算算(group by 操作操作)的总和
10、的总和。聚集函数聚集函数有:有:sum( )、count( )、average( ) 等。等。数据立方体中的每一个元组(立方体的度量属性)被数据立方体中的每一个元组(立方体的度量属性)被称为该立方体的上个格(称为该立方体的上个格( cell),每个格在),每个格在n 个维个维属性上有相应的值。属性上有相应的值。在未参与在未参与group by 操作的维属性上操作的维属性上具有具有All 值(用值(用表示表示),而在参与),而在参与group by 操作的维属性具有非操作的维属性具有非All 值。值。17例如,对于一个具有三个维属性例如,对于一个具有三个维属性 A、B、C 和和一个度量属性一个度
11、量属性 M 的的数据集数据集R(A,B,C,M).其对应的数据立方体是在维属性集其对应的数据立方体是在维属性集 ,A,B,C,AB,AC,BC,ABC上分别对度量属性进行聚集操作后的并集。上分别对度量属性进行聚集操作后的并集。其中其中: 表示进行聚集运算表示进行聚集运算*,*,*,聚集函数,聚集函数 (M); A表示进行聚集运算表示进行聚集运算A,*,*,聚集函数,聚集函数(M)等。等。18这些聚集运算与操作结果是数据仓库中的这些聚集运算与操作结果是数据仓库中的一种高度综合级数据一种高度综合级数据.实质上是进行了数据的浓缩(压缩),也实质上是进行了数据的浓缩(压缩),也可称为泛化。最终所获得的
12、这些数据立可称为泛化。最终所获得的这些数据立方体可用于决策支持、知识发现,或其方体可用于决策支持、知识发现,或其它许多应用。它许多应用。19例如,对如表例如,对如表3.12所示的超市的基本数据集所示的超市的基本数据集POS (product,type,counter,price),前三个属),前三个属性分别代表(产品名、类型、柜台)为维属性性分别代表(产品名、类型、柜台)为维属性. 现在对度量属性价格现在对度量属性价格 price 进行取平均值(进行取平均值(average)的聚集运算,的聚集运算,通过通过Cube 操作可以得到一个具有三个维属性和一个操作可以得到一个具有三个维属性和一个度量属
13、性的数据立方体度量属性的数据立方体Dpos,如表,如表3.13所示。所示。 20表3.12 基本数据集POSproduct type counter priceKONKATV SET 011000TCLTV SET 011500NOKIAPHONE 012000producttypecounterM(AVG(price)1500KONKA1000TCL 1500NOKIA 2000TV SET1250PHONE2000011500KONKATV SET1000TCLTV SET1500NOKIAPHONE2000TV SET011250PHONE012000KONKA011000TCL0115
14、00NOKIA012000KONKATV SET011000TCLTV SET011500NOKIAPHONE01200022全聚集的数据占据的空间是原始数据空间的全聚集的数据占据的空间是原始数据空间的数百倍,花费很长时间。数百倍,花费很长时间。 故数据立方体构建故数据立方体构建部分物化部分物化:即按照一定:即按照一定的规则选择的规则选择数据立方体的一个子集数据立方体的一个子集进行预进行预先计算。这种选择是存储空间和响应时间先计算。这种选择是存储空间和响应时间的一种折衷。的一种折衷。23典型的压缩型数据立方体,包括典型的压缩型数据立方体,包括: 冰山立方体、紧凑数据立方体、外壳冰山立方体、紧凑
展开阅读全文