机器学习算法的分类与选择课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习算法的分类与选择课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 算法 分类 选择 课件
- 资源描述:
-
1、机 器 学 习 算 法 的分 类&选 择2019年7月4日LDAPCAKNNDBSCANK-meansSVMGBDT逻辑回归逻辑回归随机森林随机森林决策树决策树AdaboostXgboost神经网络神经网络机机器器学学习习算算法法CHIMA 2019聚 类降 维Dimension ReductiLinearDiscriminantAnalysisTryPCASupervised分 类回 归CHIMA 201390102目目录录0304特征降维分类&回归聚类总结CHIMA 20149特征降维特征向量较多时使用SVM进行分类,结果并不理想;随机删除几个特征后,准确率反而提升?CHIMA 20159
2、特征降维特征降维=特征选择?特征选择?特征选择特征选择特征降维特征降维找一个高维到低维的映射!删除若干特征!通过属性间的关系(如组合不同的属性得新的属性)改变原来的特征空间从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间CHIMA 20169特征选择特征选择Filter(过滤法)Wrapper(包装法)Embedded(嵌入法)按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。如:移除
3、低方差的特征、移除相关性较高的特征如:递归地训练基模型,移除对模型贡献度较小的特征如:基于随机森林的特征选择方法CHIMA 20179特征降维特征降维PCA(主成分分析)SVD(奇异值分解)LDA(线性判别分析)A 无监督的降维 有监督的降维 无监督的降维 将矩阵A分解为三个矩阵UVT的乘积,选择中数值较大的几个奇异值及U和VT中对应的奇异向量,完成特征降维。相同类别在超平面上投影之间的距离尽可能近,不同类别投影之间的距离尽可能远,最多降到类别数-1的维数 找到一个能最大保留数据方差信息的子空间,降维后的数据是原来特征在新空间中的映射值CHIMA 20189降维算法的注意事项:PCA、SVD、
4、LDA均为线性降维方法,但可引入核函数实现非线性降维,此外还有一些非线性降维方法如Isomap谱嵌入法等 LDA作为有监督的降维方法,容易使后续的分类过程发生过拟合应用:应用:PCA是最常用的数据降维方法,可用于图像压缩等领域 SVD可用于推荐系统、自然语言处理等领域,如电子病历文本潜在语义分析 LDA既可以用于降维也可用于分类缺点:缺点:经过降维后的数据与原特征不存在一一对应关系,较难解释CHIMA 20199案例分享1利用PCA对数据集去噪心衰患者是否发生院内死亡预测心衰患者是否发生院内死亡预测基本信息基本信息 共病信息共病信息3项项 6项项检查信息检查信息检验信息检验信息选取2015-2
5、018年于解放军总医院住院的心衰患者,根据是否发生院内死亡选择正样本1094例,随机筛选负样本1094例,选用94个特征用SVM做分类,利用5折交叉验证法进行结果评估。9项项76项项性别呼衰射血分数缩短分数胸腔积液心包积液血常规类15项年龄BMI肾衰血生化类38项脑梗冠心病糖尿病高血压尿类化验23项二尖瓣反流SVM训练集AUC0.9591测试集AUC0.84365折交叉验证结果未经过PCA降维特征分布情况经过PCA降维到90维0.90090.8605CHIMA 201190聚 类想做一个分类问题,但是却没有分类标签?如:疾病可能存在的亚型研究如:疾病风险因素的归类分析CHIMA 201191聚
6、类方法的类别凝聚方法AGNES分裂方法DIANA层次聚类AGNESDBSCANGMM聚类密度聚类原型聚类DBSCANGMMK-meansCHIMA 201192K-MEANS(K均值聚类)对数值型数据进行聚类 随机选取K个对象作为初始的聚类中心,把每个对象分配给距离它最近的聚类中心,根据聚类中现有的对象重新计算聚类中心,不断重复此过程直到满足终止条件K-modes(k众数聚类)对分类型数据进行聚类K-means聚类(不断迭代过程)采用差异度(属性不相同的个数)来代替k-means算法中的距离CHIMA 201193聚类方法优缺点:聚类方法优缺点:分层聚类密度聚类K-means 高斯混合聚类优点
7、:优点:让数据变得有意义缺点:缺点:结果难以解读,针对不寻常的数据组,结果可能无用 分层聚类分层聚类:不需要预先制定聚类数,可以发现类的层次关系;耗时,受离群值影响大 密度聚类密度聚类:不需要输入类别数,可发现任意形状的聚类簇,可识别离群值;无法反映数据尺寸,对高维数据密度难以定义 K-means聚类聚类:简单,最常用;仅适用凸的样本集聚类,受离群值影响大 高斯混合聚类高斯混合聚类:在各类尺寸不同、聚类间有相关关系时可能比k-means聚类更合适;需要初始化多个参数原型聚类https:/scikit-learn.org/stable/modules/clustering.htmlCHIMA 2
展开阅读全文