《Python金融数据挖掘》课件第11章.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《Python金融数据挖掘》课件第11章.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python金融数据挖掘 Python 金融 数据 挖掘 课件 11
- 资源描述:
-
1、Python金融数据挖掘 高等教育出版第十一章第十一章K K近邻分类近邻分类与与K K均值聚类均值聚类算法算法【知识框架图】【知识框架图】K点分类聚类算法K近邻分类算法应用场景算法流程与实现K均值聚类算法应用场景算法流程与实现目 录目 录Contents第一节第一节K K近邻分类原理与实现近邻分类原理与实现第二节第二节K K均值聚类原理与实现均值聚类原理与实现第三节第三节案例案例本章本章学习目标学习目标1.掌握K近邻分类算法研究的对象、意义、应用场景、算法原理及其实现。2.掌握K均值聚类算法研究的对象、意义、应用场景、算法原理及其实现。需求背景需求背景lK近邻(KNN,K Nearest Ne
2、ighbors)算法属于分类算法。样本数据集中除了数据点的坐标,每个点还有一个分类标签。l如果现在新出现了一个待分类的数据点A,KNN算法是根据与A相邻的K个样本点分类归属情况,来决定A应该归属到哪一类。前面章节介绍过的决策树算法、贝叶斯算法和K近邻算法都属于分类算法。lK均值(K-Means)算法属于聚类算法。样本数据集中只有数据点的坐标,并没有其分类标签。l但是这些点并不是均匀分布在整个坐标空间中,而是相对密集地聚集在几个较小的范围内。l聚类算法的目标是发现这些聚集的范围,将所有那些没有分类标签的点,划分到某个聚集范围内。l聚类算法和分类算法的区别在于:聚类算法是无监督的,样本数据可以没有
3、贴标签;而分类算法是有监督的,样本数据需要有类别标签。通俗理解,分类算法是贴标签,而聚类算法是找朋友(物以类聚,人以群分)。K K近邻分类原理近邻分类原理与实现与实现lK近邻分类算法的逻辑非常直观:待分类的这个数据点归属到哪一类,由它的K个近邻样本点的分类情况决定。l每个样本数据点都有若干个属性,例如一个手机网银用户的信息构成这样一个属性集合:年龄,学历,收入,。l通过某种规则,将这些属性值转换成坐标值,即将用户转换成n维空间中的一个点。为了简单起见,后文阐述以二维空间的点为例。l如图 11-2所示,待分类的数据点为A,图中用圆表示;其他的数据分类结果是已知的(所谓有监督的学习,表示监督者已经
4、分好类,打好标签了),被分为1和2两类,分别用三角形和矩形表示。l图 11-2 K近邻算法示意图:lA点的分类结果可以简单地选择K近邻中相对多数的分类标签,例如,图 11-2中A的3个近邻中有2个分类结果为2,占据多数,因此A的分类结果为2。l也可以相对复杂地按照距离远近进行权重投票,图 11 2中分类标签为1的近邻虽然只有1个,但是它离A最近,如果权重比例足够大,也有可能影响到A的最终分类结果。lK近邻分类算法的流程图:【例 11-1】l下面代码首先新建了两个数据点testX和testY,再分别调用kNNClassify函数计算其分类归属。lK近邻算法有比较直观的解释(特别是在低维空间中),
5、其欧氏距离的计算量也相对比较小,是一个应用很广的基础分类算法。l定义一个用于计算欧氏距离的函数euclDistance,使用numpy中的函数计算由列表形式存储的两个向量的欧式距离。l创建一个数据集,包含2个类别共8个样本:lKNN分类算法函数实现:l定义一个kNNClassify函数。根据dataSet和labels的输入,选择待分类点newInput的k个近邻,决定其分类归属。l生成数据集和类别标签:K K均值聚类原理与实现均值聚类原理与实现l聚类算法不需要事先对样本点的类别归属进行判定和标识,而是能够挖掘出现有样本点的分布聚集规律,对样本点自动进行归属划分。l聚类算法被广泛应用于客户群体
6、划分、热点区域发现等业务场景。例如:某证券公司一共有N个客户,每个客户的资金量、交易频次等数据构成一个样本点。l现在希望能设计出一套手续费费率优惠方案,既能够较好地体现大客户优惠,又可以保证本公司的总体收入。l这时候就可以对这N个样本点进行聚类分析,找出客户支付手续费的不同聚集群体,有针对性地设计费率方案。又如:某银行要开展理财产品现场促销活动,需要选择热点商圈(即客户分布较密集的区域)来提升活动的潜在客户数量。l这时候就要对手机网银APP所提供的位置信息进行聚类,找出活动时间段内潜在客户的热点活动区域,从而让尽可能多的客户了解促销的信息。l假设现在采集到二维坐标空间中的由80个坐标点构成的数
7、据集(可以理解成是一个APP采集到的80个客户的某时点位置坐标),如表 11-1所示,将数据保存在Python工作目录下,命名为“testSet.txt”。:XYXYXYXY1.6589854.2851362.3364452.8751062.0967013.8860072.894222.489128-3.4536873.424321-1.7863452.554248-2.709032.923887-2.562542.8844384.838138-1.1515392.190101-1.906023.367037-3.184793.491078-3.94749-3.195883-2.283926-
展开阅读全文