大数据十大经典算法讲解课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据十大经典算法讲解课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 经典 算法 讲解 课件
- 资源描述:
-
1、小组成员:徐佳、张俊飞、刘志伟、孔祥玉Kmeans实战实战聚类算法简介聚类算法简介Kmeans算法详解算法详解Kmeans算法的缺陷及若干改进算法的缺陷及若干改进 Kmeans的单机实现与分布式实现策略的单机实现与分布式实现策略 123聚类的目标:聚类的目标:将一组向量分成若干组,组内数据是相似的,将一组向量分成若干组,组内数据是相似的,而组间数据是有较明显差异而组间数据是有较明显差异。与分类区别:与分类区别:分类与聚类最大的区别在于分类的目标事先已分类与聚类最大的区别在于分类的目标事先已知,聚类也被称为无监督机器学习知,聚类也被称为无监督机器学习聚类手段:传统聚类算法聚类手段:传统聚类算法
2、划分法划分法 层次方法层次方法 基于密度基于密度方法方法 基于网络方法基于网络方法 基于模型方法基于模型方法Q1:K是什么?是什么?A1:k是聚类算法当中类的个数。是聚类算法当中类的个数。Summary:Kmeans是用均值算法把数是用均值算法把数据分成据分成K个类的算法!个类的算法!Q2:means是什么?是什么?A2:means是均值算法。是均值算法。步骤一:取得步骤一:取得k个初始初始中心点个初始初始中心点Min of threedue to the EuclidDistance步骤二:把每个点划分进相应的簇步骤二:把每个点划分进相应的簇Min of threedue to the Eu
3、clidDistance步骤三:重新计算中心点步骤三:重新计算中心点步骤四:迭代计算中心点步骤四:迭代计算中心点步骤五:收敛步骤五:收敛1.从数据中随机抽取从数据中随机抽取k个点作为初始聚类个点作为初始聚类的中心,由这个中心代表各个聚类的中心,由这个中心代表各个聚类2.计算数据中所有的点到这计算数据中所有的点到这k个点的距离,个点的距离,将点归到离其最近的聚类里将点归到离其最近的聚类里3.调整聚类中心,即将聚类的中心移动到调整聚类中心,即将聚类的中心移动到聚类的几何中心(即平均值)处,也就是聚类的几何中心(即平均值)处,也就是k-means中的中的mean的含义的含义4.重复第重复第2步直到聚
4、类的中心不再移动,步直到聚类的中心不再移动,此时算法收敛此时算法收敛最后最后kmeans算法时间、空间复杂度是:算法时间、空间复杂度是:时间复杂度:上限为时间复杂度:上限为O(tKmn),下限为,下限为(Kmn)其中,)其中,t为迭代次数,为迭代次数,K为簇的数为簇的数目,目,m为记录数,为记录数,n为维数为维数 空间复杂度:空间复杂度:O(m+K)n),其中,其中,K为簇为簇的数目,的数目,m为记录数,为记录数,n为维数为维数Input¢roidsSelected kMaxIterations&ConvergenceMeassures数据的采集和抽象初始的中心选择最大迭代次数收敛值
5、k值的选定 度量距离的手段factors?初始中初始中心点心点输入的数输入的数据及据及K值值的选择的选择距离度距离度量量我们主要研究的三个方面因素。我们主要研究的三个方面因素。讨论初始中心点意义何在?下面的例子一目了然吧?讨论初始中心点意义何在?下面的例子一目了然吧?初始中心点初始中心点收敛后收敛后你你懂懂的的 在进一步阐述初始中心点选择在进一步阐述初始中心点选择之前,我们应该先确定度量之前,我们应该先确定度量kmeans的算法精确度的方法。的算法精确度的方法。一种度量聚类效果的标准是:一种度量聚类效果的标准是:SSE(Sum of Square Error,误差平方和误差平方和)SSE越小表
6、示数据点越接近于越小表示数据点越接近于它们的质心,聚类效果也就越它们的质心,聚类效果也就越好。因为对误差取了平方所以好。因为对误差取了平方所以更重视那些远离中心的点。更重视那些远离中心的点。一种可以肯定降低一种可以肯定降低SSE的方法的方法是增加簇的个数。但这违背了是增加簇的个数。但这违背了聚类的目标。因为聚类是在保聚类的目标。因为聚类是在保持目标簇不变的情况下提高聚持目标簇不变的情况下提高聚类的质量。类的质量。现在思路明了了我们首先以缩现在思路明了了我们首先以缩小小SSE为目标改进算法。为目标改进算法。为了克服为了克服k均值算法收敛于局部的问题,提出了二分均值算法收敛于局部的问题,提出了二分
7、k均值算法。该算法首先将所有的点作为一个簇,然后均值算法。该算法首先将所有的点作为一个簇,然后将该簇一分为二。之后选择其中一个簇继续划分,选将该簇一分为二。之后选择其中一个簇继续划分,选择哪个簇进行划分取决于对其划分是否可以最大程度择哪个簇进行划分取决于对其划分是否可以最大程度降低降低SSE值。值。伪代码如下:伪代码如下:将所有的点看成一个簇将所有的点看成一个簇当簇数目小于当簇数目小于k时时对于每一个簇对于每一个簇计算总误差计算总误差在给定的簇上面进行在给定的簇上面进行K均值聚类均值聚类(K=2)计算将该簇一分为二后的总误差计算将该簇一分为二后的总误差选择使得误差最小的那个簇进行划分操作选择使
8、得误差最小的那个簇进行划分操作既然是改进算法就要体现改既然是改进算法就要体现改进算法的优越性。为此控制进算法的优越性。为此控制变量,在相同的实验环境下,变量,在相同的实验环境下,取相同的取相同的k值取。值取。选取相同的的距离度量标选取相同的的距离度量标准(欧氏距离)准(欧氏距离)在相同的数据集下进行测在相同的数据集下进行测试。试。一组不好的初始点产生的一组不好的初始点产生的Kmeans算法结果算法结果二分二分kmeans产生的结果产生的结果要强调的是尽管只是这一组实验不得以得出二分要强调的是尽管只是这一组实验不得以得出二分kmeans的的优越性,优越性,但是但是经过大量实验得出的结论却是在大多
展开阅读全文