机器学习经典算法ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习经典算法ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 经典 算法 ppt 课件
- 资源描述:
-
1、经典算法1机器学习十大经典算法1.C4.52.分类与回归树3.朴素贝叶斯4.支持向量机(SVM)5.K近邻(KNN)6.AdaBoost7.K均值(K-means)8.最大期望(EM)9.Apriori算法10.Pagerank机器学习方法的分类机器学习方法的分类基于学习方式的分类基于学习方式的分类(1)有监督学习:有监督学习:输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。(2)无监督学习:无监督学习:输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。(3)强化学习(增强学习):强化学习(
2、增强学习):以环境反馈(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法。有监督学习(用于分类) 标定的训练数据 训练过程:根据目标输出与实际输出的误差信号来调节参数 典型方法 全局:BN, NN,SVM, Decision Tree 局部:KNN、CBR(Case-base reasoning)S(x)=0 Class AS(x)0Class BS(x)=0ObjectsX2(area)(perimeter) X1Object Feature Representation无监督学习(用于聚类) 不存在标定的训练数据 学习机根据外部数据的统计规律(e.g. Cohension &
3、 divergence )来调节系统参数,以使输出能反映数据的某种特性。 典型方法 K-means、SOM.示例:聚类半监督学习 结合(少量的)标定训练数据和(大量的)未标定数据来进行学习 典型方法 Co-training、EM、Latent variables.一、C4.5 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存
4、放着该元组的预测。 决策树的优势在于不需要任何领域知识或参数设置,产生的分类规则易于理解,准确率较高。适合于探测性的知识发现。 缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 增益比率度量是用增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)来共同定义的 设S代表训练数据集,由s个样本组成。A是S的某个属性,有m个不同的取值,根据这些取值可以把S划分为m个子集,Si表示第i个子集(i=1,2,m),|Si|表示子集Si中的样本数量。数据集如图1所示,它表示的是天气情况与去不去打高尔夫球之间的关系二、分类和回归树(Classi
5、fication and Regression TreesCART,可简写为C&RT) CART算法中的每一次分裂把数据分为两个子集,每个子集中的样本比被划分之前具有更好的一致性。它是一个递归的过程,也就是说,这些子集还会被继续划分,这个过程不断重复,直到满足终止准则,然后通过修剪和评估,得到一棵最优的决策树。 在ID3算法中,用“熵”来度量数据集随机性的程度。在CART中我们把这种随机性的程度称为“杂度”(impurity,也称为“不纯度”),并且用“吉尼”(gini)指标来衡量它。 决策树停止生长的条件满足以下一个即停止生长。 (1) 节点达到完全纯性; (2) 数树的深度达到用户指定的深
6、度; (3) 节点中样本的个数少于用户指定的个数; (4) 异质性指标下降的最大幅度小于用户指定的幅度。 剪枝:完整的决策树对训练样本特征的描述可能“过于精确”(受噪声数据的影响),缺少了一般代表性而无法较好的用对新数据做分类预测,出现 ”过度拟合”。移去对树的精度影响不大的划分。使用 成本复杂度方法,即同时度量错分风险和树的复杂程度,使二者越小越好。 剪枝方式:A、 预修剪(prepruning):停止生长策略B、后修剪(postpruning):在允许决策树得到最充分生长的基础上,再根据一定的规则,自下而上逐层进行剪枝。优点(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重
7、要性,减少变量数据提供参考;(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);(3)估计模型通常不用花费很长的训练时间;(4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型)(5)比其他模型更易于理解从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成 IFTHEN的形式(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;(7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本
展开阅读全文