SPSS在数据挖掘中的应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《SPSS在数据挖掘中的应用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 数据 挖掘 中的 应用 课件
- 资源描述:
-
1、第第16章章 SPSS在数据挖掘中的应用在数据挖掘中的应用16.1 实实例提出:168信息点播业务业务 数据16-1.sav是某月陕西主要地区各类业务的流量数据,数据16-2.sav是该月每天各类业务的流量数据。请利用这些资料分析以下问题: 问题一:请分析在168信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。 问题二:请指出该月点播业务最好三项栏目,并分析它们之间的流量有无显著性差异。 问题三:请预测该月点播业务最好栏目的长期发展趋势。 16.2 实实例的SPSS软软件操作详详解问题一操作详解 问题一要求分析在168信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。
2、由于各地区在股票点播、指数点播等业务上的流量数据差异较大,并没有统一的大小顺序关系,因此可以采用聚类分析研究陕西各地区的总流量差异。 问题一操作详解问题一操作详解 Step01:打开数据文件及对话框 打开数据文件16-1sav,选择菜单栏中的【Analyze(分析)】【Classify(分类)】【Hierarchical Cluster(系统聚类)】命令,弹出【Hierarchical Cluster Cluster Analysis(系统聚类分析)】对话框。Step02:选择聚类分析变量 在左侧的候选变量列表框中选择西安、宝鸡、榆林等十个地区变量设定为聚类分析变量,将其添加至【Variabl
3、es(变量)】列表框中。同时点选【Variable(变量)】单选钮,表示选择聚类对象为指标变量。Step03:输出聚类数目 在主对话框中单击【Statistics】按钮,弹出相应对话框。点选【Single solution(单一方案)】单选钮,并在【Number of clusters(聚类数)】文本框中键入数字“3”表示利用聚类分析将十个地区分为三类。其他选项保持系统默认,单击【Continue】按钮返回主对话框。问题一操作详解问题一操作详解 Step04:输出聚类图 在主对话框中单击【Plots】按钮,弹出【Plots(绘制)】对话框。勾选【Dendrogram(树状图)】复选框,表示输出
4、样品的聚类树形图。其他选项保持系统默认,单击【Continue】按钮返回主对话框。Step05:聚类方法选择 在主对话框中单击【Method】按钮,弹出【Method(方法)】对话框。在【Transform Values(转换值)】选项组的【Standardize】下拉菜单中选择【Z scores(Z得分)】标准化方法。其他选项保持系统默认,单击【Continue按】钮返回主对话框。Step06:单击【OK】按钮,完成操作。问题一操作详解问题一操作详解 问题二操作详解问题二操作详解 Step01:计算各项业务的日平均流量 打开数据文件16-2.sav,选择菜单栏中的【Analyze(分析)】
5、【Compare Means(比较均值)】【Means(均值)】命令,弹出【Means(均值)】对话框。在左侧的候选变量列表框中选择“股票点播”、“指数点播”等业务。其他选项保持系统默认,单击【OK】按钮完成操作。 接着根据输出的业务流量统计数据表16-2.sav,可以确定日平均流量最大的三项业务“股票点播”、“每日运程”和“劲爆笑话”为点播业务最大的业务。问题二操作详解问题二操作详解 问题二操作详解问题二操作详解 Step02:业务流量的差异性研究 选择菜单栏中的【Analyze(分析)】 【Nonparametric Tests(非参数检验)】【Legacy Dialogs(旧对话框)】【
6、K Related Samples(K个相关样本)】命令,弹出【Tests for Sevearl Related Samples(多个关联样本检验)】对话框。在候选变量列表框中同时选择“股票点播”、“每日运程”和“劲爆笑话”变量作为配对检验变量,将其同时添加至【Test Variable(s)(检验变量)】列表框中。在【Test Type(检验类型)】选项组中勾选【Friedman】复选框作为配对样本检验的方法。最后单击主对话框中的【OK】按钮,完成操作。 问题二操作详解问题二操作详解问题三操作详解问题三操作详解1. Step01:绘制序列图 打开数据文件16-2.sav,选择菜单栏中的【A
7、nalyze(分析)】 【Forecasting(预测)】【Sequence Charts(序列图)】命令,弹出【Sequence Charts(序列图)】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【Variables(变量)】列表框。其他选项保持系统默认,单击【OK】按钮完成操作。 根据序列图,观测到股票点播数据虽然平稳,但具有明显的周期性波动特征,因此可以利用ARMA模型来描述点播数据的波动性。问题三操作详解问题三操作详解问题三操作详解问题三操作详解 Step02:时间序列ARMA模型 选择菜单栏中的【Analyze(分析)】 【Forecasting(预测)】【Creat
8、e Models(创建模型)】命令,弹出【Time Series Modeler(时间序列建模器)】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【Dependent Variables(因变量)】列表框,表示对其进行ARMA模型分析。选择【Method(方法)】下拉菜单中的【ARIMA】选项,表示进行ARMA模型估计。接着单击【Criteria(条件)】按钮,弹出ARIMA模型阶数设定窗口。 观察序列图发现点播数据以7天为周期进行波动,反复进行ARMA模型滞后阶数的尝试后,最终选择AR(7)模型来描述股票点播流量的波动性。于是在【Time Series Modeler(时间序列建
9、模器)】窗口【Autogressive(p)(自回归(p)】选项组的【Nonseasonal(非季节性)】文本框中填入数字“7”。在【Transformation(转换)】选项组中点选【Natural log(自然对数)】单选钮,再单击【Continue】按钮,返回主对话框。问题三操作详解问题三操作详解 问题三操作详解问题三操作详解问题三操作详解问题三操作详解单击【Statistics】按钮,勾选其中的【Parameter estimates(参数估计)】复选框,表示输出模型参数估计结果和模型预测值;同时取消勾选【Goodness of fit(拟合优度)】复选框,其他选项保持系统默认。单击【
10、Plots】选项,勾选其中的【Residual autocorrelation function(ACF)(残差自相关函数)】和【Residual partial autocorrelation function(PACF)(残差部分自相关函数)】复选框,表示绘制残差的自相关图和偏相关图。不仅如此,勾选【Fit values(拟合值)】复选框输出模型的拟合效果图。其他选项保持系统默认。最后,单击【OK】按钮完成操作。16.3 实实例的SPSS输输出结结果详详解问题一输出结果详解问题一输出结果详解 (1)聚类过程表 SPSS软件首先给出了进行系统聚类分析的过程表,它动态显示了所有地区的聚类过程。
11、下表显示第二地区和第九个地区首先被合在一起,聚类系数等于2.356,它们将在第二步中与其他类再进行合并。其他结论可以依此类推。问题一输出结果详解问题一输出结果详解 StageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 21292.3560022266.12310637106.48900743810.45900553411.16640762520.56420973727.80153881336.82307991242.702860问题一输出结
12、果详解问题一输出结果详解(2)聚类分析结果表 下表显示了系统聚类法的聚类结果。可以看到聚类结果分为两大类: 第类:西安; 第类:宝鸡、咸阳、铜川、汉中; 第类:榆林、延安、渭南、安康、商洛。 其中第类地区西安是168信息各类点播业务流量最大的地区,第类的五个地区在所有地区中是相对168信息点播业务流量最低,而第类地区的点播业务流量是介于第类和第类之间,保持中游水平。 分析地区间的点播量的差异部分是由于地区特征的差异引起的,例如人口数量、经济发展状况(收入水平、手机拥有量、物价水平等),同时也与地区业务的宣传力度有密切联系。分析清楚这些原因后公司就可以采取相应的措施扩大业务。问题一输出结果详解问
13、题一输出结果详解Case3 Clusters西安1宝鸡2榆林3延安3咸阳2铜川2渭南3安康3汉中2商洛3问题一输出结果详解问题一输出结果详解(3)树形图 上表已给出了相关聚类结果,最后用树形图(Dendrogram)直观反映整个聚类过程和结果。问题一输出结果详解问题一输出结果详解问题二输出结果详解问题二输出结果详解 下表(部分)是利用【Means(均值)】功能计算的各项业务在当月的平均点播量。表中具体给出了均值、统计数目及标准差等基本统计量。比较均值大小可以看到,“股票点播”、“每日运程”和“劲爆笑话”为点播量最大的业务,说明这些业务深受消费者欢迎,公司应努力增加在这些业务方面的内容更新及促销
14、。而相反的,“商讯点播”、“区号邮编”等业务的点播量太低,因此公司可以考虑停止这些服务功能以节约成本。 问题二输出结果详解问题二输出结果详解 MeanNStd. Deviation股票点播7317.9677314634.75391指数点播278.548431164.77658外汇点播38.41943114.17927到价提示11.6452318.24439到价报警176.064531125.84486新闻点播2040.225831204.82427外地天气139.83873132.26153本地天气185.12903154.01280航班点播156.93553152.17786列车时刻49.0
展开阅读全文