书签 分享 收藏 举报 版权申诉 / 26
上传文档赚钱

类型机器学习算法的分类与选择课件.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4293490
  • 上传时间:2022-11-26
  • 格式:PPTX
  • 页数:26
  • 大小:2.13MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《机器学习算法的分类与选择课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    机器 学习 算法 分类 选择 课件
    资源描述:

    1、机 器 学 习 算 法 的分 类&选 择2019年7月4日LDAPCAKNNDBSCANK-meansSVMGBDT逻辑回归逻辑回归随机森林随机森林决策树决策树AdaboostXgboost神经网络神经网络机机器器学学习习算算法法CHIMA 2019聚 类降 维Dimension ReductiLinearDiscriminantAnalysisTryPCASupervised分 类回 归CHIMA 201390102目目录录0304特征降维分类&回归聚类总结CHIMA 20149特征降维特征向量较多时使用SVM进行分类,结果并不理想;随机删除几个特征后,准确率反而提升?CHIMA 20159

    2、特征降维特征降维=特征选择?特征选择?特征选择特征选择特征降维特征降维找一个高维到低维的映射!删除若干特征!通过属性间的关系(如组合不同的属性得新的属性)改变原来的特征空间从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间CHIMA 20169特征选择特征选择Filter(过滤法)Wrapper(包装法)Embedded(嵌入法)按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。如:移除

    3、低方差的特征、移除相关性较高的特征如:递归地训练基模型,移除对模型贡献度较小的特征如:基于随机森林的特征选择方法CHIMA 20179特征降维特征降维PCA(主成分分析)SVD(奇异值分解)LDA(线性判别分析)A 无监督的降维 有监督的降维 无监督的降维 将矩阵A分解为三个矩阵UVT的乘积,选择中数值较大的几个奇异值及U和VT中对应的奇异向量,完成特征降维。相同类别在超平面上投影之间的距离尽可能近,不同类别投影之间的距离尽可能远,最多降到类别数-1的维数 找到一个能最大保留数据方差信息的子空间,降维后的数据是原来特征在新空间中的映射值CHIMA 20189降维算法的注意事项:PCA、SVD、

    4、LDA均为线性降维方法,但可引入核函数实现非线性降维,此外还有一些非线性降维方法如Isomap谱嵌入法等 LDA作为有监督的降维方法,容易使后续的分类过程发生过拟合应用:应用:PCA是最常用的数据降维方法,可用于图像压缩等领域 SVD可用于推荐系统、自然语言处理等领域,如电子病历文本潜在语义分析 LDA既可以用于降维也可用于分类缺点:缺点:经过降维后的数据与原特征不存在一一对应关系,较难解释CHIMA 20199案例分享1利用PCA对数据集去噪心衰患者是否发生院内死亡预测心衰患者是否发生院内死亡预测基本信息基本信息 共病信息共病信息3项项 6项项检查信息检查信息检验信息检验信息选取2015-2

    5、018年于解放军总医院住院的心衰患者,根据是否发生院内死亡选择正样本1094例,随机筛选负样本1094例,选用94个特征用SVM做分类,利用5折交叉验证法进行结果评估。9项项76项项性别呼衰射血分数缩短分数胸腔积液心包积液血常规类15项年龄BMI肾衰血生化类38项脑梗冠心病糖尿病高血压尿类化验23项二尖瓣反流SVM训练集AUC0.9591测试集AUC0.84365折交叉验证结果未经过PCA降维特征分布情况经过PCA降维到90维0.90090.8605CHIMA 201190聚 类想做一个分类问题,但是却没有分类标签?如:疾病可能存在的亚型研究如:疾病风险因素的归类分析CHIMA 201191聚

    6、类方法的类别凝聚方法AGNES分裂方法DIANA层次聚类AGNESDBSCANGMM聚类密度聚类原型聚类DBSCANGMMK-meansCHIMA 201192K-MEANS(K均值聚类)对数值型数据进行聚类 随机选取K个对象作为初始的聚类中心,把每个对象分配给距离它最近的聚类中心,根据聚类中现有的对象重新计算聚类中心,不断重复此过程直到满足终止条件K-modes(k众数聚类)对分类型数据进行聚类K-means聚类(不断迭代过程)采用差异度(属性不相同的个数)来代替k-means算法中的距离CHIMA 201193聚类方法优缺点:聚类方法优缺点:分层聚类密度聚类K-means 高斯混合聚类优点

    7、:优点:让数据变得有意义缺点:缺点:结果难以解读,针对不寻常的数据组,结果可能无用 分层聚类分层聚类:不需要预先制定聚类数,可以发现类的层次关系;耗时,受离群值影响大 密度聚类密度聚类:不需要输入类别数,可发现任意形状的聚类簇,可识别离群值;无法反映数据尺寸,对高维数据密度难以定义 K-means聚类聚类:简单,最常用;仅适用凸的样本集聚类,受离群值影响大 高斯混合聚类高斯混合聚类:在各类尺寸不同、聚类间有相关关系时可能比k-means聚类更合适;需要初始化多个参数原型聚类https:/scikit-learn.org/stable/modules/clustering.htmlCHIMA 2

    8、01194聚类方法在医学中的应用:聚类方法在医学中的应用:1.无监督的医学图像分割2.疾病可能存在的亚型分类研究 采用聚类分析为早期帕金森疾病分亚型,对致病机制假说的提出和治疗策略的制定有重大暗示3.疾病与模式基因之间的关联关系分析研究4.特征解释特征解释CHIMA 201195案例分享2利用层次聚类解释模型肠道菌群与年龄之间的关系研究肠道菌群与年龄之间的关系研究从公共数据库中选用江苏地区923个健康人(按照年龄被分为7组)粪便检材的16S测序数据,从中获取5621个菌群的丰度值,特征筛选后得到278个菌群的丰度值,用来对不同年龄分组的样本做层次聚类。分组分组幼儿园学生幼儿园学生小学生小学生年

    9、龄年龄3-6人数人数103161114135868-12长寿老人老年人青年人幼儿园学生小学生中年人中学生中学生中学生青年人青年人中年人中年人老年人老年人13-1419-2430-5060-799486长寿老人长寿老人198CHIMA 201196分类&回归疾病发病风险预测 术后恢复时间预测术式选择药效评估CHIMA 201197分类&回归常用方法分类分类回归回归Logistic Regression(逻辑回归)Decision Tree(决策树)Random Forest(随机森林)GBDT(梯度提升树)Linear Regression(线性回归)Decision Tree(决策树)Rand

    10、om Forest(随机森林)GBDT(梯度提升树)Neural Network(神经网络)SVM(支持向量机)Neural Network(神经网络)SVR(支持向量回归)Naive Bayes(朴素贝叶斯)CHIMA 201198分类&回归算法常见问题:A B C D缺失值、异常值对算法的影响是否可进行模型解释,得到特征权重各种算法的优缺点冗余特征对算法的影响CHIMA 201199问题一:各种算法的优缺点模型模型优点优点缺点缺点线性线性/逻辑回归逻辑回归要求数据线性可分;容易欠拟合。1.2.1.容易使用和解释。1.易于理解和解释,运行速度快;2.对于噪声干扰具有较好鲁棒性。1.训练速度快

    11、;1.容易过拟合;2.模型结构不稳定。决策树决策树随机森林随机森林梯度提升树梯度提升树1.取值划分较多的属性会对模型产2.泛化能力强,预测精度高。生更大的影响。1.难以并行训练数据,数据维度较高计算复杂度也高。1.预测精度高,能处理非线性数据。1.需要大量的参数,学习时间过长;2.学习过程为黑盒,输出结果难以解释。1.分类准确度高,对噪声有较强的鲁棒性;2.具备联想记忆的功能。神经网络神经网络支持向量机支持向量机(回归)(回归)可解决小样本情况下的机器学习问题;对缺失数据敏感;1.2.1.泛化性能较强2.运行复杂度较高。1.稳定的分类效率;2.模型所需估计的参数很少,算法简单。2.分类决策存在

    12、错误率。1.需要计算先验概率;朴素贝叶斯朴素贝叶斯CHIMA 201290案例分享3树模型会赋予连续变量更大的权重?数据来源:2015年解放军总医院连续变量离散化前连续变量离散化后医院开展的社区流行病学调查0.30.250.2 研究目的:发掘冠心病的发病风险因素0.150.1 样本情况:正、负样本各1590例0.050 29个特征向量:性别、年龄、BMI、腰臀比、抽烟、喝酒 共病信息、家族史 生命体征信息、ECG检查信息 采用模型:随机森林CHIMA 201291问题二:缺失值、异常值对算法的影响问题三:冗余特征对算法的影响问题四:是否可进行模型解释,得到特征权重对缺失值、异常值对缺失值、异常

    13、值模型模型对冗余特征的敏感度对冗余特征的敏感度 是否可得到特征权重是否可得到特征权重的敏感度的敏感度线性线性/逻辑回归逻辑回归决策树决策树敏感一般敏感不敏感不敏感不敏感不敏感敏感可以可以不敏感不敏感不敏感不敏感敏感随机森林随机森林可以梯度提升树梯度提升树神经网络神经网络可以不可以不可以不可以支持向量机(回归)支持向量机(回归)朴素贝叶斯朴素贝叶斯不敏感敏感CHIMA 201292案例分享4不同分类器对缺失值的敏感度 朴素贝叶斯对缺失值的敏感程度最低 KNN(K-最近邻,基于距离的方法)对缺失值的敏感程度最高 决策树、神经网络对缺失值的敏感程度不高Liu P,Lei L,Wu N.A Quant

    14、itative Study of the Effect of Missing Data in ClassifiersC/FifthCHIMA 201293International Conference on Computer&Information Technology.2005.分类算法选择的建议:分类需要得到特征权重逻辑回归不需要得到特征权重逻辑回归SVM、神经网络随机森林随机森林其他基于树的bagging或boosting算法其他基于树的bagging或boosting算法CHIMA 201294总 结CHIMA 201295如何选择机器学习算法:123确定数据分析目的确定数据分析目的了解数据了解数据考虑资源合理性考虑资源合理性降维聚类分类回归数据量大小缺失值、异常值冗余度软硬件的配置是否满足当前数据集下算法的正常运行数据的分布情况CHIMA 201296

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:机器学习算法的分类与选择课件.pptx
    链接地址:https://www.163wenku.com/p-4293490.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库