PT0171-机器学习实战(2)-K-近邻算法(2)-计算机学习实战课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《PT0171-机器学习实战(2)-K-近邻算法(2)-计算机学习实战课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- PT0171_ 机器 学习 实战 近邻 算法 计算机 课件
- 资源描述:
-
1、机器学习实战K-近邻算法(2)上一小结学习了简单的k-近邻算法的实现方法,但是这并不是完整的k-近邻算法流程,k-近邻算法的一般流程:收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据。一般来讲,数据放在txt文本文件中,按照一定的格式进行存储,便于解析及处理。准备数据:使用Python解析、预处理数据。分析数据:可以使用很多方法对数据进行分析,例如使用Matplotlib将数据可视化。测试算法:计算错误率。使用算法:错误率在可接受范围内,就可以运行k-近邻算法进行分类。实战例程1:使用kNN改进某约会网站的配对效果实战背景实战背景海伦女士一直使用在线约会网站寻找适合
2、自己的约会对象。尽管约会网站会推荐不同的人选,但她并不是喜欢每一个人。经过一番总结,她发现自己交往过的人可以进行如下分类:1.不喜欢的人2.魅力一般的人3.极具魅力的人海伦收集约会数据已经有了一段时间,她把这些数据存放在文本文件datingTestSet.txt中,每个样本数据占据一行,总共有1000行。海伦收集的样本数据主要包含以下3种特征:1.每年获得的飞行常客里程数2.玩视频游戏所消耗时间百分比3.每周消费的冰淇淋公升数在将上述特征数据输入到分类器前,必须将待处理的数据的格式改变为分类器可以接收的格式。分类器接收的数据是什么格式的?从上节讲解我们已经知道,要将数据分类两部分,即特征矩阵和
3、对应的分类标签向量。下面我们先处理数据。截取的部分数据格式如下:运行结果如下:可以看到,我们已经顺利导入数据,并对数据进行解析,格式化为分类器需要的数据格式。接着我们需要了解数据的真正含义。可以通过友好、直观的图形化的方式观察数据。准备数据:数据归一化我们很容易发现,上面方程中数字差值最大的属性对计算结果的影响最大,也就是说,每年获取的飞行常客里程数对于计算结果的影响将远远大于其他两个特征,即玩视频游戏所耗时间占比和每周消费冰淇淋公斤数的影响。而产生这种现象的唯一原因,仅仅是因为飞行常客里程数远大于其他特征值。但海伦认为这三种特征是同等重要的,因此作为三个等权重的特征之一,飞行常客里程数并不应
4、该如此严重地影响到计算结果。归一化:归一化:处理这种不同取值范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为到或者-到之间。下面的公式可以将任意取值范围的特征值转化为到区间内的值:newValue=(oldValue-min)/(max-min)其中min和max分别是数据集中的最小特征值和最大特征值。虽然改变数值取值范围增加了分类器的复杂度,但为了得到准确结果,我们必须这样做。运行结果可以看到,我们已经顺利将数据归一化了,并且求出了数据的取值范围和数据的最小值,这两个值是在分类的时候需要用到的,直接先求解出来,也算是对数据预处理了测试算法:验证分类器测试算法:验证分类器机
展开阅读全文