机器学习聚类课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习聚类课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 课件
- 资源描述:
-
1、统计与机器学习统计与机器学习统计学:从不完全的信息里取得准确知识的技巧。统计应用:用数理统计的原理和方法,分析和解释自然界界的种种现象和数据资料,以求把握其本质和规律性。机器学习:可以理解为计算机自动从数据中发现规律,并应用于解决新问题。内容比较杂,至今还没有统一的定义,而且也很难给出一个公认的和准确的定义。机器学习在大多数情况下应用概率论与统计学理论来设计算法;1 1机器学习机器学习给定数据 (X1,Y1),(X2,Y2),(Xn,Yn),机器自动学习 X 和 Y 之间的关系,从而对新的 Xi,能够预测 Yi。垃圾邮件识别:(邮件 1,垃圾),(邮件 2,正常),(邮件 3,垃圾),(邮件
2、N,正常)邮件 X=垃圾 or 正常?2 2测试数据发现规律预测预测结果规则邮件邮件XiYi:垃圾:垃圾or正常正常1.发件人邮件地址异常;2.标题含有“低价促销”3.机器学习机器学习一般流程:3 3训练数据测试数据学习预测预测结果模型训练过程应用过程(X1,Y1)(X2,Y2)(Xn,Yn)XiYi机器学习机器学习模型:问题的影响因素(特征)有哪些?它们之间的关系如何?策略:什么样的模型是好的模型;算法:如何高效的找到最优参数;分类:有监督的学习;无监督的学习;半监督的学习;增强学习;多任务学习;4 4统计与机器学习统计与机器学习内容:聚类与分类;统计推断:参数检验,假设检验;回归分析;马尔
3、科夫链与隐马尔科夫模型。遗传算法与神经网络;。5 5机器学习:聚类机器学习:聚类(CLUSTERING)聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;簇(或类Cluster):子集合最大化簇(或类)内的相似性;最小化簇(或类)间的相似性;聚类是一种无监督分类法:没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤;6 6机器学习机器学习:聚类:聚类(CLUSTERING)简单示例:聚类后预测:7 7训练数据待分类数据机器学习机器学习:聚类:聚类(CLUSTERIN
4、G)基因表达芯片(微阵列):预测新测序基因的功能是重要的生物学问题;基因表达微阵列提供了预测功能的途径;基因芯片对研究调控网络提供了最基本的数据;基因芯片可以衡量基因在不同条件下的表达量;基因如果被转录,就可以认为是处于激活状态;转录产物 mRNA 的数量代表基因的活性;8 8机器学习机器学习:聚类:聚类(CLUSTERING)DNA 芯片的应用:研究基因样本在在不同的时间段表达的差异;研究不同的基因样本在相同的条件下的表达差异9 9机器学习机器学习:聚类:聚类(CLUSTERING)DNA芯片数据:绿色:仅仅在参考状态表达;红色:仅仅在所研究的状态表达;黄色:在两种状态都表达;黑色:在两种状
5、态都不表达;表达强度数据会被标准化、组成表达强度矩阵。1010Time:Time XTime YTime ZGene 110810Gene 21009Gene 348.63Gene 4783Gene 5123机器学习机器学习:聚类:聚类(CLUSTERING)DNA 芯片数据的聚类:每组数据可以看做 n 维空间里的点;通过对每个点对计算距离构造距离矩阵;距离较近的基因表达情况相似、或许更有可能具有功能上的相关性;聚类能够构造功能相关基因集合;1111机器学习机器学习:聚类:聚类(CLUSTERING)DNA芯片数据的聚类:同质性:一个类中基因相似,即距离较小;差异性:不同类的基因非常不同,即距
6、离较大;聚类并非易事;算法不同可能得到不同的结果;1212机器学习机器学习:聚类:聚类(CLUSTERING)DNA芯片数据的聚类:两点之间的距离欧氏距离:平方欧氏距离:夹角余弦:绝对距离:Chebychev距离:皮尔森相关系数:Minkowski距离:13132()iiixy2()iiixy22(1)cosiiixyxyiiiix yCxy1()qqiiixy22()()(2)()()iiixyxyiiiixxyyCrxxyyiii-yx|maxiii-yx机器学习机器学习:聚类:聚类(CLUSTERING)DNA芯片数据的聚类:两类之间的距离最短距离法:最长距离法:重心法:类平均法:离差平
展开阅读全文