R语言数据建模课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《R语言数据建模课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 数据 建模 课件
- 资源描述:
-
1、第九章 数据建模9.1Rattle包9.2聚类模型习题9.3关联分析模型9.4传统决策树模型9.8线性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1 Rattle包第九章 数据建模install.packages(cairoDevice)install.packages(RGtk2)install.packages(rattle)用上述代码可以完成rattle 包的安装。在Rstudio命令控制台输入如下脚本载入Rattle包:library(rattle)在Rstudio命令控制台输入如下脚本启动Rattle:rattle()lRattle的安
2、装与启动9.1 Rattle包第九章 数据建模lRattle选项卡介绍第九章 数据建模习题大数据应用人才培养系列教材9.3关联分析模型9.4传统决策树模型9.8线性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型 聚类模型指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类是一种把两个观测数据根据它们之间的距离计算相似度来分组的方法(没有指导样本)。已经开发了大量的聚类算法,如K-means、Hierachical、Ewkm和BiCluster,操作界面见下图。9.2 聚类模型第九章 数据建模9.2 聚
3、类模型第九章 数据建模(1)算法描述K-means聚类算法属于非层次聚类法的一种,是最简单的聚类算法之一,但是运用十分广泛。k-means的计算方法如下:Step1:随机选取k个中心点。Step2:遍历所有数据,将每个数据划分到最近的中心点中。Step3:计算每个聚类的平均值,并作为新的中心点。Step4:重复Step2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代。方法有两个特点:通常要求已知类别数;只能使用连续性变量。lK-means聚类9.2 聚类模型第九章 数据建模(2)操作实例 数据集是weather,K=4时的聚类结果,24个变量中数值变量有16个,由于没有选择聚类
4、变量个数,默认对所有数值变量聚类。在下图点击【Data】按钮对聚类结果可视化。lK-means聚类9.2 聚类模型第九章 数据建模(2)操作实例 下图是对变量MinTemp和Rainfall的可视化展示。lK-means聚类9.2 聚类模型第九章 数据建模参数Iterate Clusters允许建立多个聚类模型,利用度量每个模型的结果指导建立多聚类模型。图9.6显示了对变量MinTemp和Rainfall建立3个聚类模型,可视化报告见图9.7。lK-means聚类实线表示每个聚类模型的类内数据的平方和,虚线表示当前聚类模型的类内数据的平方和与前一个聚类模型的类内数据的平方和的差,或改进度量。9
5、.2 聚类模型第九章 数据建模 一旦完成建模,按钮Stats、Data Plot、Discriminant可用。单击“Stats”按钮,将在结果展示区显示每个聚类簇所有参与模型质量评估的统计量,并比较不同K-means模型。单击“Data Plot”按钮输出数据分布可视化图形,单击“Discriminant”按钮输出判别式坐标图,该图突出原始数据簇与簇之间的关键差异,类似于PCA(principal components analysis)。点击“Discriminant”按钮判别式坐标图显示在下图。lK-means聚类第九章 数据建模习题大数据应用人才培养系列教材9.4传统决策树模型9.8线
6、性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.3 关联分析模型第九章 数据建模l基本术语9.3 关联分析模型第九章 数据建模l基本术语9.3 关联分析模型第九章 数据建模lApriori算法9.3 关联分析模型第九章 数据建模l实验指导9.3 关联分析模型第九章 数据建模通过【Data】选项卡导入数据l实验指导9.3 关联分析模型第九章 数据建模变量ID自动选择Ident角色,但需要改变Item变量的角色为Target。在Associate选项卡,确保参数Baskets打钩,单击“Execute
7、”按钮建立由关联规则组成的模型,下图展示区显示相关分析结果,支持度=0.1,置信度=0.1的情况下,共挖掘了29条规则。l实验指导9.3 关联分析模型第九章 数据建模单击“Freq Plot”按钮显示频繁项直方图,如下图所示。l实验指导9.3 关联分析模型第九章 数据建模单击“Plot”按钮显示可视化规则图,如下图所示。第九章 数据建模习题大数据应用人才培养系列教材9.8线性回归模型9.5随机森林决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.4传统决策树模型9.4 传统决策树模型第九章 数据建模一般上一般下不是北京人脾
8、气是北京家住址不温柔温柔长相个头一般下一般上lID3算法Step 1:将训练集S分为1.N个类别。Step 2:计算S的总信息熵INFO(S),改值等于最终类别的各自信息量和概率质量函数的乘积,即每个类别所占训练集的比例乘以该比例的对数值取负,然后加和。Step 3:确定用来进行分类的属性向量V1,V2.VnStep 4:计算每个属性向量对应的该属性向量对训练集的信息熵INFO(S)Vi,比如对应的属性Vi将训练集分为了M类,那么改值等于在该属性划分下的某一类值出现的概率乘以对应的该值所在的集的信息熵。改值所在的集的信息熵再套公式发现等于最终分类在Vi属性划分下的某一个类里的概率值乘以该概率值
9、的对数值取负。表述的有些复杂,最好看公式。Step 5:在众多属性对于训练集的信息熵之中取最小的,这样信息增益最大。信息增益最大代表着分类越有效。Step 6:完成了一次属性的分裂,之后的递归。9.4 传统决策树模型第九章 数据建模lC4.5算法C4.5算法既可以处理离散型描述属性,也可以处理连续型描述属性。在选择某节点上的分支属性时,对于离散型描述属性,C4.5算法的处理方法与ID3相同,按照该属性本身的取值个数进行计算;对于某个连续性描述属性Ac,假设在某个节点上的数据集的样本数量为total,C4.5算法将做以下处理:将该节点上的所有数据样本按照连续型描述的属性的具体数值,由小到大进行排
10、序,得到属性值的取值序列为A1c,A2c,Atotalc。在取值序列生成total-1个分割点。第i(0itotal)个分割点的取值设置为Vi=(Aic+A(i+1)c)/2,它可以将该节点上的数据集划分为两个子集。从total-1个分割点中选择最佳分割点。对于每个分割点划分数据集的方式,C4.5算法计算它的信息增益比,并且从中选择信息增益比最大的分割点来划分数据集。9.4 传统决策树模型第九章 数据建模l传统决策树9.4 传统决策树模型第九章 数据建模l分组汇总 单击“Draw”按钮得到可视化的决策树,如下图所示9.4 传统决策树模型第九章 数据建模第九章 数据建模习题大数据应用人才培养系列
11、教材9.8线性回归模型9.4传统决策树模型9.6自适应选择决策树模型9.7SVM9.9神经网络模型9.1Rattle包9.2聚类模型9.3关联分析模型9.5随机森林决策树模型 为了克服决策树容易过度拟合的缺点,随机森林算法(Random Forests,RF)在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度,对多元共线性不敏感,可以很好地预测多达几千个解释变量的作用,是当前最好的算法之一。9.5 随机森林决策树模型第九章 数据建模 (1)随机森林的定义 随机森林是一个由决策树分类器集合h(x,k),k=1,
12、2构成的组合分类器模型,其中参数集k是独立同分布的随机向量,x是输入向量。当给定输入向量时,每个决策树有一票投票权来选择最优分类结果。每个决策树是由分类回归树(CART)算法构建的未剪枝的决策树。(2)随机森林的基本思想 随机森林是通过自助法(Bootstrap)重复采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本以生成新的训练集样本集合,然后根据自助样本生成k决策树组成的随机森林。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每棵树的分类能力和分类树之间的相关性。9.5 随机森林决策树模型第九
展开阅读全文