kmeans与高斯混合模型课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《kmeans与高斯混合模型课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- kmeans 混合 模型 课件
- 资源描述:
-
1、 K-means算法,也被称为K-均值,是一种得到最广泛使 用的聚类算法。它是将各个聚类内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚类性能的准则函数能达到最优,从而使生成的每个聚类内紧凑,类间独立。K-MEANS算法流程算法流程1.1.从样本选从样本选K K个对象作为初始聚类的中心个对象作为初始聚类的中心2.2.根据样本与聚类中心的相异度判断每个样根据样本与聚类中心的相异度判断每个样本属于哪个簇本属于哪个簇3.3.每个簇中重新计算聚类中心每个簇中重新计算聚类中心4.4.重复重复2 2、3 3步骤直到聚类不再变化步骤直到聚类不再变化 标
2、量:标量:闵可夫斯基距离:闵可夫斯基距离:曼哈顿距离曼哈顿距离:欧几里得距离欧几里得距离:对于每个样本,计算出它与每个样本中心的距离,距离最小的样本中心则视为相异度最低,则该样本属于该样本中心对应的簇,从而可以计算出每个样本都属于哪个簇。根据样本与聚类中心的根据样本与聚类中心的相异度相异度判断每个判断每个 样本属于样本属于哪个簇哪个簇 二元变量二元变量:取值不同的同位属性数取值不同的同位属性数/单个元素的属性位数单个元素的属性位数二元变量是只能取0和1两种值变量,例如X=1,0,0,0,1,0,1,1,Y=0,0,0,1,1,1,1,1,可以看到,两个元素第2、3、5、7和8个属性取值相同,而
3、第1、4和6个取值不同,那么相异度可以标识为3/8=0.375向量向量:(相似度)在每个簇中重新计算聚类中心:在每个簇中重新计算聚类中心:将同一个簇的样本的每个属性求平均值,从而计算出每个簇的聚类中心。此处可以生成新的K个聚类中心,用于下次计算样本属于的类别。例如:簇中有点(1,2,3)(4,5,6)。聚类中心就为(2.5,3.5,4.5)每个簇中重新计算聚类中心每个簇中重新计算聚类中心要点:要点:1、初始聚类中心的选取、初始聚类中心的选取这个过程大多数情况下采用随机选取的办法。因为k-means 并不能保证全局最优,是否能收敛到全局最优解其实和初值的选取有很大的关系,所以有时候我们会多次选取
4、初值跑 k-means,并取其中最好的一次结果K-means-test演示采用基于距离和的孤立点定义来进行孤立点的预先筛选不可预知孤立点就进行最远距离法首先整理移除孤立点后的数据集U,记录数据个数y,令m=1。比较数据集中所有数据对象两两之间的距离。找出距离最近的2个数据对象形成集合Am;比较Am中每一个数据对象与数据对象集合U中每一个对象的距离,在U中找出与Am 中最近的数据对象,优先吸收到Am 中,直到Am 中的数据对象个数到达一定数值,然后令m=m+1。再从U中找到对象两两间距离最近的2个数据对象构成Am,重复上面的过程,直到形成k个对象集合。这些集合内部的数据是相似的,而集合间是相异的
展开阅读全文