第四章近邻法则和聚类课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第四章近邻法则和聚类课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 近邻 法则 课件
- 资源描述:
-
1、第四章 近邻法则和聚类n近邻法则 最近邻法则 k-近邻法则 近邻法错误率分析 快速搜索近邻法 近邻法则是一种根据样本提供的信息,绕开概率的估计而直接决策的技术,所以它也属于非参数判别方法的一种。4.1近邻法近邻法 模式识别的基本方法有两大类,一类是将特征空间划分成决策域,这就要确定判别函数和分界面方程。而另一种方法则称为模板匹配,即将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类。上面我们讨论的方法可以说都是将特征空间划分为决策域,并用判别函数或决策面方程表示决策域的方法。而近邻法则在原理上属于模板匹配。它将训练样本集中的每个样本都作为模板,用测试样本与每个模
2、板做比较,看与哪个模板最相似(即为近邻),就按最近似的模板的类别作为自己的类别。譬如A类有10个训练样本,因此有10个模板,B类有8个训练样本,就有8个模板。任何一个待测试样本在分类时与这18个模板都算一算相似度,如最相似的那个近邻是B类中的一个,就确定待测试样本为B类,否则为A类。因此原理上说近邻法是最简单的。但是近邻法有一个明显的缺点就是计算量大,存储量大,要存储的模板很多,每个测试样本要对每个模板计算一次相似度,因此在模板数量很大时,计算量也很大的。那么有一个如此明显缺点的方法还有没有存在的必要性呢?这就要看其是否有优点,所以对近邻法的优点也要弄清楚。结论是:在模板数量很大时其错误率指标
3、还是相当不错的。这就是说近邻法有存在的必要。4.1.1最近邻法则最近邻法则 将与测试样本最近邻样本的类别作为决策的方法称为最近邻法。对一个C类别问题,每类有Ni个样本,i1,C,则第i类i的判别函数 其中Xik表示是i类的第k个样本。决策规则为:如果 则决策Xj。最近邻法在原理上最直观,方法上也十分简单,只要对所有样本(共NNi)进行N次距离运算,然后以最小距离者的类别作决策。min,1,2,kiiikgkN xxx max,1,2,jiiggicxx公式中用表示距离,其实这是一个象征性的表示,你可以采用任何一种相似性的度量,一般采用欧氏距离为相似性度量的较多。但由于特征向量各个分量之间对应的
4、物理意义很可能不一致,因此究竟采用何种相似性度量要看问题而定。最近邻规则是次优的方法,通常的错误率比最小可能错误率(即最小贝叶斯法则的错误率)要大。但在无限训练样本的情况下,这个错误率不会超过贝叶斯错误率的一倍。设X的最近邻点X的类别为一随机变量,i的概率就是后验概率P(i|X)。当样本数目越来越多时,可以认为X距离X 足够近,从而近似认为P(i|X)P(i|X)。近邻法则可以看成是一个随机化的决策:按照概率P(i|X)来决定X的类别。xxiimPPmax按贝叶斯决策法则:以概率1决策为m按最近邻法则:以概率P(m|X)决策为m设当P(m|X)接近于1,即当最小错误概率非常小时,近邻法则的结果
5、和最小错误率的Bayes法则的结果几乎相同,而其错误率也比较小,这说明两种方法同样“好”。而当各类的后验概率接近于 时,两种决策规则的分类结果就相差比较大了,但两者的错误率都接近 ,说明两种方法同样“坏”。c1c11 虽然需要更详细的理论分析,但粗略的感觉是:最近邻法则有比较好的结果并不是偶然的。最近邻法可以扩展成找测试样本的k个最近样本作决策依据的方法。其基本规则是,在所有N个样本中找到与测试样本的k个最近邻者,其中第个个类别所占个数为gi(X),i1,c,决策规则:如果则决策Xj。4.1.2 K-近邻法则近邻法则k近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。)(ma
6、x)(xgxgiijK近邻算法从测试样本点开始生长,不断扩大区域,直到包含进k各训练样本点为止,并且把X归为这最近的k个训练样本点中出现频率最大的类别中。如图为k=5的情况。4.1.3 近邻法则的错误率近邻法则的错误率其实近邻法的错误率是比较难算的,因为训练样本集的数量总是有限的,有时多一个少一个训练样本对测试样本分类的结果影响很大。譬如图中:红点表示A类训练样本,蓝点表示B类训练样本,而绿点O表示待测样本。假设以欧氏距离来衡量,O的最近邻是A3,其次是B1,因此O应该属于A类,但若A3被拿开,O就会被判为B类。这说明计算最近邻法的错误率会有偶然性,也就是指与具体的训练样本集有关。同时还可看到
展开阅读全文