特征选择、学习机器选择和样本选择课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《特征选择、学习机器选择和样本选择课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 选择 学习 机器 样本 课件
- 资源描述:
-
1、 特征选择特征选择、学习机器、学习机器选择选择和和样本选择样本选择 大数据与信息时代,我们并不缺大数据与信息时代,我们并不缺少数据,缺少的是对数据深入分析、少数据,缺少的是对数据深入分析、挖掘、获取知识的能力。挖掘、获取知识的能力。数据变现,算法为王数据变现,算法为王 Y离散,分类(二分类或多分类);离散,分类(二分类或多分类);Y连续,回归连续,回归。任务任务:从:从m个自变量中找到个自变量中找到m个保留自变量,建立模型,个保留自变量,建立模型,对待测样本做出可信预测。对待测样本做出可信预测。非纵向数据有监督学习:非纵向数据有监督学习:数据矩阵数据矩阵(Yi,Xij)样本样本YX1X2XjX
2、m1Y1X1,1X1,2X1,jX1,m2Y2X2,1X2,2X2,jX2,miYiXi,1Xi,2Xi,jXi,mnYnXn,1Xn,2Xn,jXn,mY:因变量(表型、性状等)因变量(表型、性状等)X:自变量(特征、基因等)自变量(特征、基因等)行行:样本个数,:样本个数,n列列:自变量个数,:自变量个数,m 经典经典统计学统计学Y二分类二分类-X连续:连续:t 测验测验,|t|(0,)Y多分类多分类-X连续:连续:F 测验测验,F(0,)Y离散离散-X离散:卡方测验,离散:卡方测验,2(0,)Y连续连续-X连续连续:决定系数,:决定系数,R2(0,1)一、一、特征选择特征选择(1):两变
3、量关联:两变量关联单变量过滤,即单变量过滤,即Y与某个与某个X的两变量的两变量关联。关联。Y=f(X)非线性显性表达式未知而不可穷尽。)非线性显性表达式未知而不可穷尽。缺陷多多!缺陷多多!0.511.522.533.5x PositiveNegtive3.884.565.295.73IGLC1 Prostate tumorNontumor prostate1(00.5)2(00.5)3(00.5)传统两变量关联测度的缺陷:传统两变量关联测度的缺陷:t测验测验R2不能反映非线性关联不能反映非线性关联,不具不具普适性普适性。Y=ax2+bx+cR20实际实际Y与与X为完全关联为完全关联传统两变量关
4、联测度的缺陷:传统两变量关联测度的缺陷:R2两变量关联新测度两变量关联新测度-MIC 最大信息系数最大信息系数Maximal information coefficient(MIC)Reshelf et al,2011,Science,纯方法学论文纯方法学论文 源于互信息:源于互信息:I 0,+MIC0,1,0 完全独立完全独立,1 完全关联完全关联MIC 的普适性(的普适性(1)任意形式无噪音函数任意形式无噪音函数(线性或非线性线性或非线性),得分均为得分均为1。圆等非函数关联亦能检测到。圆等非函数关联亦能检测到。MIC 的普适性(的普适性(2)WHO:不同国家妇女肥胖程度与收入的关系不同国
5、家妇女肥胖程度与收入的关系 原因:几个太平洋岛国,妇女肥胖程度与社会地位正相关!原因:几个太平洋岛国,妇女肥胖程度与社会地位正相关!R20,不显著。,不显著。MIC=0.26,弱关联但显著弱关联但显著见前人之所未见!见前人之所未见!MIC 的等价性的等价性等噪音强度的不同函数等噪音强度的不同函数,MIC得分接近。得分接近。1-R2(y-y)MIC的简单理念的简单理念:画格子计数画格子计数不等间隔离散化寻优不等间隔离散化寻优频次分布频次分布,组距相等组距相等X0.330.33X0.66Y0.55205Y0.535035X0.250.25X 0.75Y0.50500Y0.525025等间隔均分等间
6、隔均分不等间隔划分不等间隔划分MIC实现算法实现算法ApproxMaxMI 分多少段?如何分段?分多少段?如何分段?强力搜索强力搜索,计算密集型计算密集型,动态规划算法动态规划算法 划分族划分族(clump)与超族与超族(Superclump)最大分段数最大分段数 B(n):xyn0.6 标准化矫正标准化矫正:logmin(x,y)MIC的局限的局限 MIC统计势低,统计势低,在小样本时易导致虚假关联在小样本时易导致虚假关联。MIC0 0,1,1,两个独立变量的两个独立变量的MIC趋于趋于0仅在仅在样本无穷大时成立。样本无穷大时成立。n=100,两个独立变量的,两个独立变量的MIC约为约为0.
7、24。简单情形,分段数要少;复杂情形,分段数可简单情形,分段数要少;复杂情形,分段数可多!不能多!不能统一采用最大分段数统一采用最大分段数 B(n):xyn0.6 MIC的改进:的改进:Chi-MIC Our work核心思想核心思想:在动态规划算法中每增加一个分段点实施一次卡方测验,在动态规划算法中每增加一个分段点实施一次卡方测验,若显著则增加该分段点,否则划分终止若显著则增加该分段点,否则划分终止。该多则多,该少则少!该多则多,该少则少!Chi-MIC的优点的优点(1)对对任意任意无噪音函数无噪音函数 ApproxMaxMI-MIC=Chi-MIC=1。Chi-MIC 同样具普适性。同样具
8、普适性。小样本小样本n=100,最大分段数最大分段数n0.6,两个独立变量,两个独立变量 ApproxMaxMI-MIC0.24 Chi-MIC0.06Chi-MIC的优点的优点(2)对有噪函数,对有噪函数,Chi-MIC有效地控制了格点划分过多有效地控制了格点划分过多。Chi-MICApproxMaxMI-MIC无噪函数无噪函数Chi-MIC的优点的优点(3)Chi-MIC有更高的统计有更高的统计势势,更能发现更能发现弱关联弱关联。统计势统计势是特定噪音强度下是特定噪音强度下假设测验假设测验正确拒绝零假设正确拒绝零假设的的比值。比值。1234567891000.51noise amplitu
9、depowerSinusoidal AMICChiMICdCor1234567891000.51noise amplitudepowerCircular BMICChiMICdCor1234567891000.51noise amplitudepowerCheckerboard CMICChiMICdCor双向双向控制分段控制分段后后B-chiMIC的统计的统计势更高。势更高。对对Chi-MIC的再改进的再改进-未发表未发表1234567891000.51noise amplitudepowerSinusoidal DMIC-Chi-MICdCor1234567891000.51Noise a
10、mplitudePowerCircular EMIC-Chi-MICdCor1234567891000.51noise amplitudepowerCheckerboard FMIC-Chi-MICdCorChi-MIC的优点的优点(4)Chi-MIC能更合理反映不同函数随噪音增加复杂度能更合理反映不同函数随噪音增加复杂度MCN的变化。的变化。MCN是最终划分格子数的对数是最终划分格子数的对数。Log24=2Log28=3Log26=2.58Chi-MIC的优点的优点(5)四个四个UCI实例实例,单变量过滤单变量过滤,前向选择,前向选择,SVM预测,预测,Chi-MIC可以可以更少的保留特更少
11、的保留特征获得更高的征获得更高的独立预测精度独立预测精度。Chi-MIC的优点的优点(6)Chi-MIC的搜索常常提前结束,更快捷,更适用于大数据。的搜索常常提前结束,更快捷,更适用于大数据。MIC的又一局限的又一局限:不能反映配对互作不能反映配对互作 两变量关联两变量关联Y=f(X)三变量关联三变量关联Y=f(X1,X2):配对互作配对互作 多变量关联多变量关联Y=f(X1,X2,Xm)?MIC is a great step forward,but there are many more steps to take.Speed.A Correlation for the 21st Cent
12、ury.Science,1502(2011)334 一、一、特征选择特征选择(2):考虑考虑配对互作的三变量关联配对互作的三变量关联仿真数据:仿真数据:MIC 不能检测到配对互作!不能检测到配对互作!红色:病人红色:病人绿色:健康绿色:健康三变量关联的分解三变量关联的分解(信息论信息论)Joint effect联合效应联合效应Interaction互作互作0 +三变量关联的分解三变量关联的分解(最大互信息最大互信息)Normalization Joint effect01Normalization Interaction-11Normalization single factor effect
13、01MIC(X1;X2;Y)实现算法实现算法:Our work?MIC(X1;X2;Y)实现算法实现算法MIC(X1 X2;Y)的普适性的普适性(1)X1、X2 均与均与 Y 无关。无关。样本大小样本大小 n=200,500 次重复次重复互作期望值:互作期望值:MIC(X1;X2;Y)=0互作计算值:互作计算值:MIC(X1;X2;Y)=0.08620.0130MIC(X1 X2;Y)的普适性的普适性(2)Y 完全由完全由X1 与与 X2的增效互作决定。的增效互作决定。互作期望值:互作期望值:MIC(X1;X2;Y)=1互作计算值:互作计算值:MIC(X1;X2;Y)=1Calculated
14、MIC(X1;Y)=0.0379Calculated MIC(X2;Y)=0.0533 Y 是是X1 与与 X2的无噪函数,且的无噪函数,且X1 与与 X2 完全冗余。完全冗余。如如:互作期望值:互作期望值:MIC(X1;X2;Y)=-1互互作计算值:作计算值:MIC(X1;X2;Y)=-1Calculated MIC(X1;Y)=MIC(X2;Y)=1MIC(X1 X2;Y)的普适性的普适性(3)Y 是是X1 与与 X2 的无噪函数的无噪函数联合效应期望值联合效应期望值:MIC(X1;X2;Y)+MIC(X1;Y)+MIC(X2;Y)=110个无噪音二元函数个无噪音二元函数 Y=f(X1,X
15、2)MIC(X1 X2;Y)的普适性的普适性(4)MIC(X1 X2;Y)的普适性的普适性(5)10个无噪二元函数的联合效应均接近于个无噪二元函数的联合效应均接近于1MIC(X1 X2;Y)的等价性的等价性 等噪音强度的不同等噪音强度的不同Y=f(X1,X2)函数,函数,联合效应联合效应MIC(X1 X2;Y)得分接近得分接近;近;近似满足等价性。似满足等价性。MIC(X1;X2;Y)发现增效基因:发现增效基因:真实数据真实数据Overlaps among MIC(X;Y),mRMR,SVM-RFE and TSGOverlaps among MIC(X;Y),mRMR,SVM-RFE and
16、 TSGOverlaps among MIC(X;Y),mRMR,SVM-RFE and TSGLittle overlaps between MIC(X1;X2;Y)and the othersLungDLBCLProstate俺能俺能找到他们找不到找到他们找不到的!的!增效基因验证增效基因验证-预测表现预测表现MIC(X1;X2;Y)选取的选取的增效基因增效基因具有具有与与单效应基因单效应基因 可比的预测可比的预测能力能力俺找到的也是有用的!俺找到的也是有用的!GO Annotation at Depth 5Ontology Annotations:ProstateMIC(X1;X2;Y)
17、MIC(Y;X)mRMRRFETSGresponse to pest,pathogen or parasiteresponse to external biotic stimulusresponse to abiotic stimulusregulation of nucleobase,nucleoside,nucleotide and nucleic acid metabolismregulation of cell proliferationprotein metabolismprogrammed cell deathphosphorus metabolismorganic acid me
18、tabolismorganelle organization and biogenesisnucleobase,nucleoside,nucleotide and nucleic acid metabolismneurogenesisnegative regulation of cellular physiological processmacromolecule catabolismmacromolecule biosynthesislipid metabolismion transportintracellular signaling cascadegeneration of precur
19、sor metabolites and energydefense responsecellular macromolecule metabolismcellular lipid metabolismcellular catabolismcellular biosynthesiscell surface receptor linked signal transductioncell cyclecarbohydrate metabolismbiopolymer catabolism -40-30-20-10010203040Prostate增效基因增效基因与单效应基因与单效应基因具具相同或类似的
20、相同或类似的生物学功能生物学功能.增效基因验证增效基因验证-GO 注释注释俺找到的还算可信!俺找到的还算可信!12600 genes,Prostate数据集数据集200 增效基因,增效基因,MIC(X1;X2;Y)选择选择67 增效基因与肿瘤相关,增效基因与肿瘤相关,Ougene数据库数据库18 增效基因与增效基因与prostate相关,相关,PubMed文献文献增效基因验证增效基因验证-文献报道文献报道俺找到的还算可信!俺找到的还算可信!与与Dendrogram-based方法比较方法比较与与Dendrogram-based方法比较方法比较67891011HPNDendrogram-base
21、d method4681012Dendrogram-based methodTRGV33.544.555.56MIC-based methodIGLC14.555.566.577.5MIC-based methodSLC43A1 57946810RBP1EEF1B2Dendrogram-based method468681012RBP1FTLDendrogram-based method5656RGS9DIAPH2MIC(X1;X2;Y)-based method5656DIAPH2CACYBPMIC(X1;X2;Y)-based method单效单效应基应基因因增效增效基因基因Dendrog
22、ram-basedMIC-basedProstate数据数据集,集,Top2基因基因是骡子是马,牵出来溜溜!是骡子是马,牵出来溜溜!沃尔玛周末啤酒与尿不湿销量的关联沃尔玛周末啤酒与尿不湿销量的关联全部数据:关联不明显全部数据:关联不明显周末:关联明显周末:关联明显原因:年轻爸爸,周末原因:年轻爸爸,周末球赛直播球赛直播组合摆放,销量增加!组合摆放,销量增加!该三变量关联发现纯属偶然,该三变量关联发现纯属偶然,MIC(X1;X2;Y)可主动发现!可主动发现!Chi-MIC(X;Y),可普适可普适选择单效应特征选择单效应特征MIC(X1;X2;Y),可普适选择配对增可普适选择配对增效特征效特征多多
23、变量关联:最优特征子集,变量关联:最优特征子集,?特征选择小结特征选择小结二二、学习机器选择、学习机器选择 线性线性:多元线性回归:多元线性回归MLR 非线性:人工神经网络非线性:人工神经网络ANN 归纳演绎:归纳(特殊归纳演绎:归纳(特殊一般),演绎(一般一般),演绎(一般特殊)特殊)转导推理:特殊转导推理:特殊特殊,特殊,支持向量机支持向量机SVM 都需要训练!都需要训练!MLR:Y=a+b1*x1+b2*x2,求,求参过程即训练参过程即训练 ANN:权重调整过程即训练权重调整过程即训练 SVM:核函数:核函数参数参数C、g、p优化过程即训练优化过程即训练二二、学习机器选择、学习机器选择
24、需要训练需要训练:MLR、ANN、SVM 不需要训练不需要训练:直接推理:直接推理?直接分类器直接分类器1:TSG 直接分类器直接分类器2:TSG 的改进版,的改进版,2-IRG-DC直接分类器直接分类器3:相对简单度,:相对简单度,RS-based DC 直接分类器决策过程示例直接分类器决策过程示例YX13且且X25X15X13且且X23且且X25+25224(25)3-0231(2)22训练集训练集n=100,保留特征为保留特征为X1和和X2某某待待测样本测样本(X1,X2)=(4,4)先假定其属于正类,则先假定其属于正类,则2425,得卡方值,得卡方值Chi+;再假定其属于负类,则再假定
展开阅读全文