特征选择、学习机器选择和样本选择课件.pptx

上传人（卖家）：晟晟文业

文档编号：4293650

上传时间：2022-11-26

格式：PPTX

页数：67

大小：4.31MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《特征选择、学习机器选择和样本选择课件.pptx》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 特征选择学习机器样本课件

资源描述：: 1、特征选择特征选择、学习机器、学习机器选择选择和和样本选择样本选择大数据与信息时代，我们并不缺大数据与信息时代，我们并不缺少数据，缺少的是对数据深入分析、少数据，缺少的是对数据深入分析、挖掘、获取知识的能力。挖掘、获取知识的能力。数据变现，算法为王数据变现，算法为王 Y离散，分类（二分类或多分类）；离散，分类（二分类或多分类）；Y连续，回归连续，回归。任务任务：从：从m个自变量中找到个自变量中找到m个保留自变量，建立模型，个保留自变量，建立模型，对待测样本做出可信预测。对待测样本做出可信预测。非纵向数据有监督学习：非纵向数据有监督学习：数据矩阵数据矩阵(Yi,Xij)样本样本YX1X2XjX
2、m1Y1X1,1X1,2X1,jX1,m2Y2X2,1X2,2X2,jX2,miYiXi,1Xi,2Xi,jXi,mnYnXn,1Xn,2Xn,jXn,mY：因变量（表型、性状等）因变量（表型、性状等）X：自变量（特征、基因等）自变量（特征、基因等）行行：样本个数，：样本个数，n列列：自变量个数，：自变量个数，m 经典经典统计学统计学Y二分类二分类-X连续：连续：t 测验测验，|t|(0,)Y多分类多分类-X连续：连续：F 测验测验，F(0,)Y离散离散-X离散：卡方测验，离散：卡方测验，2(0,)Y连续连续-X连续连续：决定系数，：决定系数，R2(0,1)一、一、特征选择特征选择(1)：两变
3、量关联：两变量关联单变量过滤，即单变量过滤，即Y与某个与某个X的两变量的两变量关联。关联。Y=f（X）非线性显性表达式未知而不可穷尽。）非线性显性表达式未知而不可穷尽。缺陷多多！缺陷多多！0.511.522.533.5x PositiveNegtive3.884.565.295.73IGLC1 Prostate tumorNontumor prostate1(00.5)2(00.5)3(00.5)传统两变量关联测度的缺陷：传统两变量关联测度的缺陷：t测验测验R2不能反映非线性关联不能反映非线性关联,不具不具普适性普适性。Y=ax2+bx+cR20实际实际Y与与X为完全关联为完全关联传统两变量关
4、联测度的缺陷：传统两变量关联测度的缺陷：R2两变量关联新测度两变量关联新测度-MIC 最大信息系数最大信息系数Maximal information coefficient(MIC)Reshelf et al,2011,Science,纯方法学论文纯方法学论文源于互信息：源于互信息：I 0,+MIC0,1，0 完全独立完全独立,1 完全关联完全关联MIC 的普适性（的普适性（1）任意形式无噪音函数任意形式无噪音函数(线性或非线性线性或非线性),得分均为得分均为1。圆等非函数关联亦能检测到。圆等非函数关联亦能检测到。MIC 的普适性（的普适性（2）WHO：不同国家妇女肥胖程度与收入的关系不同国
5、家妇女肥胖程度与收入的关系原因：几个太平洋岛国，妇女肥胖程度与社会地位正相关！原因：几个太平洋岛国，妇女肥胖程度与社会地位正相关！R20，不显著。，不显著。MIC=0.26，弱关联但显著弱关联但显著见前人之所未见！见前人之所未见！MIC 的等价性的等价性等噪音强度的不同函数等噪音强度的不同函数,MIC得分接近。得分接近。1-R2(y-y)MIC的简单理念的简单理念:画格子计数画格子计数不等间隔离散化寻优不等间隔离散化寻优频次分布频次分布,组距相等组距相等X0.330.33X0.66Y0.55205Y0.535035X0.250.25X 0.75Y0.50500Y0.525025等间隔均分等间
6、隔均分不等间隔划分不等间隔划分MIC实现算法实现算法ApproxMaxMI 分多少段？如何分段？分多少段？如何分段？强力搜索强力搜索,计算密集型计算密集型,动态规划算法动态规划算法划分族划分族(clump)与超族与超族(Superclump)最大分段数最大分段数 B(n):xyn0.6 标准化矫正标准化矫正:logmin(x,y)MIC的局限的局限 MIC统计势低，统计势低，在小样本时易导致虚假关联在小样本时易导致虚假关联。MIC0 0,1,1,两个独立变量的两个独立变量的MIC趋于趋于0仅在仅在样本无穷大时成立。样本无穷大时成立。n=100，两个独立变量的，两个独立变量的MIC约为约为0.
7、24。简单情形，分段数要少；复杂情形，分段数可简单情形，分段数要少；复杂情形，分段数可多！不能多！不能统一采用最大分段数统一采用最大分段数 B(n):xyn0.6 MIC的改进：的改进：Chi-MIC Our work核心思想核心思想:在动态规划算法中每增加一个分段点实施一次卡方测验，在动态规划算法中每增加一个分段点实施一次卡方测验，若显著则增加该分段点，否则划分终止若显著则增加该分段点，否则划分终止。该多则多，该少则少！该多则多，该少则少！Chi-MIC的优点的优点(1)对对任意任意无噪音函数无噪音函数 ApproxMaxMI-MIC=Chi-MIC=1。Chi-MIC 同样具普适性。同样具
8、普适性。小样本小样本n=100，最大分段数最大分段数n0.6，两个独立变量，两个独立变量 ApproxMaxMI-MIC0.24 Chi-MIC0.06Chi-MIC的优点的优点(2)对有噪函数，对有噪函数，Chi-MIC有效地控制了格点划分过多有效地控制了格点划分过多。Chi-MICApproxMaxMI-MIC无噪函数无噪函数Chi-MIC的优点的优点(3)Chi-MIC有更高的统计有更高的统计势势，更能发现更能发现弱关联弱关联。统计势统计势是特定噪音强度下是特定噪音强度下假设测验假设测验正确拒绝零假设正确拒绝零假设的的比值。比值。1234567891000.51noise amplitu
9、depowerSinusoidal AMICChiMICdCor1234567891000.51noise amplitudepowerCircular BMICChiMICdCor1234567891000.51noise amplitudepowerCheckerboard CMICChiMICdCor双向双向控制分段控制分段后后B-chiMIC的统计的统计势更高。势更高。对对Chi-MIC的再改进的再改进-未发表未发表1234567891000.51noise amplitudepowerSinusoidal DMIC-Chi-MICdCor1234567891000.51Noise a
10、mplitudePowerCircular EMIC-Chi-MICdCor1234567891000.51noise amplitudepowerCheckerboard FMIC-Chi-MICdCorChi-MIC的优点的优点(4)Chi-MIC能更合理反映不同函数随噪音增加复杂度能更合理反映不同函数随噪音增加复杂度MCN的变化。的变化。MCN是最终划分格子数的对数是最终划分格子数的对数。Log24=2Log28=3Log26=2.58Chi-MIC的优点的优点(5)四个四个UCI实例实例，单变量过滤单变量过滤，前向选择，前向选择，SVM预测，预测，Chi-MIC可以可以更少的保留特更少
11、的保留特征获得更高的征获得更高的独立预测精度独立预测精度。Chi-MIC的优点的优点(6)Chi-MIC的搜索常常提前结束，更快捷，更适用于大数据。的搜索常常提前结束，更快捷，更适用于大数据。MIC的又一局限的又一局限:不能反映配对互作不能反映配对互作两变量关联两变量关联Y=f(X)三变量关联三变量关联Y=f(X1,X2):配对互作配对互作多变量关联多变量关联Y=f(X1,X2,Xm)？MIC is a great step forward,but there are many more steps to take.Speed.A Correlation for the 21st Cent
12、ury.Science,1502(2011)334 一、一、特征选择特征选择(2)：考虑考虑配对互作的三变量关联配对互作的三变量关联仿真数据：仿真数据：MIC 不能检测到配对互作！不能检测到配对互作！红色：病人红色：病人绿色：健康绿色：健康三变量关联的分解三变量关联的分解(信息论信息论)Joint effect联合效应联合效应Interaction互作互作0 +三变量关联的分解三变量关联的分解(最大互信息最大互信息)Normalization Joint effect01Normalization Interaction-11Normalization single factor effect
13、01MIC(X1;X2;Y)实现算法实现算法:Our work？MIC(X1;X2;Y)实现算法实现算法MIC(X1 X2;Y)的普适性的普适性(1)X1、X2 均与均与 Y 无关。无关。样本大小样本大小 n=200，500 次重复次重复互作期望值：互作期望值：MIC(X1;X2;Y)=0互作计算值：互作计算值：MIC(X1;X2;Y)=0.08620.0130MIC(X1 X2;Y)的普适性的普适性(2)Y 完全由完全由X1 与与 X2的增效互作决定。的增效互作决定。互作期望值：互作期望值：MIC(X1;X2;Y)=1互作计算值：互作计算值：MIC(X1;X2;Y)=1Calculated
14、MIC(X1;Y)=0.0379Calculated MIC(X2;Y)=0.0533 Y 是是X1 与与 X2的无噪函数，且的无噪函数，且X1 与与 X2 完全冗余。完全冗余。如如：互作期望值：互作期望值：MIC(X1;X2;Y)=-1互互作计算值：作计算值：MIC(X1;X2;Y)=-1Calculated MIC(X1;Y)=MIC(X2;Y)=1MIC(X1 X2;Y)的普适性的普适性(3)Y 是是X1 与与 X2 的无噪函数的无噪函数联合效应期望值联合效应期望值:MIC(X1;X2;Y)+MIC(X1;Y)+MIC(X2;Y)=110个无噪音二元函数个无噪音二元函数 Y=f(X1,X
15、2)MIC(X1 X2;Y)的普适性的普适性(4)MIC(X1 X2;Y)的普适性的普适性(5)10个无噪二元函数的联合效应均接近于个无噪二元函数的联合效应均接近于1MIC(X1 X2;Y)的等价性的等价性等噪音强度的不同等噪音强度的不同Y=f(X1,X2)函数，函数，联合效应联合效应MIC(X1 X2;Y)得分接近得分接近；近；近似满足等价性。似满足等价性。MIC(X1;X2;Y)发现增效基因：发现增效基因：真实数据真实数据Overlaps among MIC(X;Y),mRMR,SVM-RFE and TSGOverlaps among MIC(X;Y),mRMR,SVM-RFE and
16、 TSGOverlaps among MIC(X;Y),mRMR,SVM-RFE and TSGLittle overlaps between MIC(X1;X2;Y)and the othersLungDLBCLProstate俺能俺能找到他们找不到找到他们找不到的！的！增效基因验证增效基因验证-预测表现预测表现MIC(X1;X2;Y)选取的选取的增效基因增效基因具有具有与与单效应基因单效应基因可比的预测可比的预测能力能力俺找到的也是有用的！俺找到的也是有用的！GO Annotation at Depth 5Ontology Annotations:ProstateMIC(X1;X2;Y)
17、MIC(Y;X)mRMRRFETSGresponse to pest,pathogen or parasiteresponse to external biotic stimulusresponse to abiotic stimulusregulation of nucleobase,nucleoside,nucleotide and nucleic acid metabolismregulation of cell proliferationprotein metabolismprogrammed cell deathphosphorus metabolismorganic acid me
18、tabolismorganelle organization and biogenesisnucleobase,nucleoside,nucleotide and nucleic acid metabolismneurogenesisnegative regulation of cellular physiological processmacromolecule catabolismmacromolecule biosynthesislipid metabolismion transportintracellular signaling cascadegeneration of precur
19、sor metabolites and energydefense responsecellular macromolecule metabolismcellular lipid metabolismcellular catabolismcellular biosynthesiscell surface receptor linked signal transductioncell cyclecarbohydrate metabolismbiopolymer catabolism -40-30-20-10010203040Prostate增效基因增效基因与单效应基因与单效应基因具具相同或类似的
20、相同或类似的生物学功能生物学功能.增效基因验证增效基因验证-GO 注释注释俺找到的还算可信！俺找到的还算可信！12600 genes，Prostate数据集数据集200 增效基因，增效基因，MIC(X1;X2;Y)选择选择67 增效基因与肿瘤相关，增效基因与肿瘤相关，Ougene数据库数据库18 增效基因与增效基因与prostate相关，相关，PubMed文献文献增效基因验证增效基因验证-文献报道文献报道俺找到的还算可信！俺找到的还算可信！与与Dendrogram-based方法比较方法比较与与Dendrogram-based方法比较方法比较67891011HPNDendrogram-base
21、d method4681012Dendrogram-based methodTRGV33.544.555.56MIC-based methodIGLC14.555.566.577.5MIC-based methodSLC43A1 57946810RBP1EEF1B2Dendrogram-based method468681012RBP1FTLDendrogram-based method5656RGS9DIAPH2MIC(X1;X2;Y)-based method5656DIAPH2CACYBPMIC(X1;X2;Y)-based method单效单效应基应基因因增效增效基因基因Dendrog
22、ram-basedMIC-basedProstate数据数据集，集，Top2基因基因是骡子是马，牵出来溜溜！是骡子是马，牵出来溜溜！沃尔玛周末啤酒与尿不湿销量的关联沃尔玛周末啤酒与尿不湿销量的关联全部数据：关联不明显全部数据：关联不明显周末：关联明显周末：关联明显原因：年轻爸爸，周末原因：年轻爸爸，周末球赛直播球赛直播组合摆放，销量增加！组合摆放，销量增加！该三变量关联发现纯属偶然，该三变量关联发现纯属偶然，MIC(X1;X2;Y)可主动发现！可主动发现！Chi-MIC(X;Y)，可普适可普适选择单效应特征选择单效应特征MIC(X1;X2;Y)，可普适选择配对增可普适选择配对增效特征效特征多多
23、变量关联：最优特征子集，变量关联：最优特征子集，？特征选择小结特征选择小结二二、学习机器选择、学习机器选择线性线性：多元线性回归：多元线性回归MLR 非线性：人工神经网络非线性：人工神经网络ANN 归纳演绎：归纳（特殊归纳演绎：归纳（特殊一般），演绎（一般一般），演绎（一般特殊）特殊）转导推理：特殊转导推理：特殊特殊，特殊，支持向量机支持向量机SVM 都需要训练！都需要训练！MLR：Y=a+b1*x1+b2*x2，求，求参过程即训练参过程即训练 ANN：权重调整过程即训练权重调整过程即训练 SVM：核函数：核函数参数参数C、g、p优化过程即训练优化过程即训练二二、学习机器选择、学习机器选择
24、需要训练需要训练：MLR、ANN、SVM 不需要训练不需要训练：直接推理：直接推理？直接分类器直接分类器1：TSG 直接分类器直接分类器2：TSG 的改进版，的改进版，2-IRG-DC直接分类器直接分类器3：相对简单度，：相对简单度，RS-based DC 直接分类器决策过程示例直接分类器决策过程示例YX13且且X25X15X13且且X23且且X25+25224（25）3-0231（2）22训练集训练集n=100,保留特征为保留特征为X1和和X2某某待待测样本测样本（X1，X2）=（4,4）先假定其属于正类，则先假定其属于正类，则2425，得卡方值，得卡方值Chi+；再假定其属于负类，则再假定
25、其属于负类，则12，得卡方值，得卡方值Chi-；如如Chi+Chi-，则待测样本属于正类，反之属于负类，则待测样本属于正类，反之属于负类。多分类类推。过程中无任何参数需要调整寻优。多分类类推。过程中无任何参数需要调整寻优。10010010010010010010010010010010098.4410010010098.531009796.7898.9722222276.4778.131007596.6795.5296.6771.6245.6581.74777778020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAver
26、ageAccuracy(%)FittingLOOCVtesting10010010010010010010010010010010010010010010010010010090.9798.9966666785.2978.1393.33959088.069093.2463.0486.23222222020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting需要需要训练分类器训练分类器泛化泛化性能性能过拟合过拟合！10096.8810010010095.599
27、1.3810010098.2055555610090.63100959095.5293.3378.3871.7490.5111111197.0678.1310010066.6794.0383.3382.4367.3985.44888889020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting97.3784.3898.2510010094.8594.8310096.5396.2455555697.3778.1398.2510094.4493.3894.83
28、91.0081.2592.0797.0681.2510010086.6795.5293.3379.7367.3988.99020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting直接直接分类器分类器泛化泛化性能性能有效控制有效控制过拟合过拟合！97.3795.3110010010094.8596.5599.0093.0697.3597.3792.1998.2510094.4494.1294.8397.0087.5095.0894.1284.38100100
29、93.3398.519090.5471.7491.40222222020406080100120Leuk1Lung1Leuk2SRBCTBreastLung2DLBCLCancersGCMAverageAccuracy(%)FittingLOOCVtesting直接直接分类器分类器泛化泛化性能性能有效控制有效控制过拟合过拟合！需要训练是多数分类器产生过拟合的主要原因。需要训练是多数分类器产生过拟合的主要原因。直接分类无任何参数需要优化，可有效控制过拟合！直接分类无任何参数需要优化，可有效控制过拟合！三、样本选择三、样本选择预测某个待测样本需要所有的训练样本吗？预测某个待测样本需要所有的训练样本
30、吗？三峡大坝建或不建？三峡大坝建或不建？全国人民投票，费时费力，未必准确全国人民投票，费时费力，未必准确水利部长一人说了算，最近邻，水利部长一人说了算，最近邻，1NN；不稳健不稳健若干不同领域专家（水利、发电、国防、生态、移民、若干不同领域专家（水利、发电、国防、生态、移民、泥沙沉积等）决策，泥沙沉积等）决策，K近邻，近邻，KNN。K=?K值选择难题值选择难题如何从全国如何从全国15亿人口中找出这亿人口中找出这K1个专家？个专家？换一个待测样本，葛洲坝水电站，换一个待测样本，葛洲坝水电站，K2=K1？个性化预测个性化预测（个性化医疗）（个性化医疗）基于基于地统计学地统计学GS的个性化的个
31、性化预测预测图1 半变异函数模式图Fig.1 A typical semivariogram距离(h)半变异函数值 r(h)随机变量：随机变量：经典统计学经典统计学区域化随机变量：区域化随机变量：地统计学地统计学a 变程变程C 基台基台C 0 块金块金变变程以内的样本被认为是相关的！程以内的样本被认为是相关的！特征加权：特征加权：MIC（Y；Xi）高维空间：加权明氏距离高维空间：加权明氏距离变变程程a a待测样本待测样本K1=14K2=10K3=8待测待测样本样本 1 Zhang,H.Y.,Wang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2012).Impro
32、ving accuracy for cancer classification with a new algorithm for genes selection.BMC Bioinformatics,13(1),298.(Highly accessed)(SCI,IF=3.02)2 Zhou,W.,Dai,Z.J.,Chen,Y.,Wang,H.Y.,&Yuan,Z.M.*(2012).High-dimensional descriptor selection and computational QSAR modeling for antitumor activity of arc-111 a
33、nalogues based on support vector regression(SVR).International journal of molecular sciences,13(1),1161-1172.(SCI,IF=2.6)3 Li,J.L.,Wang,L.F.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2012).High-accuracy splice sites prediction based on sequence component and position features.Genetics and Molecular Research,11
34、(3),3432-3451.(SCI)4 Qian,G.,Wang,H.Y.,Yuan,Z.M.*(2012).Using homology information from PDB to improve the accuracy of protein-turn prediction by NetTurnP.Progress in Biochemistry and Biophysics,39(5),472-482.(SCI)5 Wang,L.F.,Tan,X.S.,Bai,L.Y.,&Yuan,Z.M.*(2012).Establishing an interpretability syste
35、m for support vector regression and its application in QSAR of organophosphorus insecticide.Asian Journal of Chemistry,24(4),1575-1578.(SCI)6 Su,M.,Wang,L.F.,Dai,Z.J.,Yuan,Z.M.*,Bai,L.Y.(2012).Primary structural characterizations of polypeptide and antimicrobial peptides QSAM modeling.Chemical Journ
36、al Of Chinese Universities,33(11),2526-2531.(SCI)近近5年论文年论文1 Wang,H.Y.,Zhang,H.Y.,Dai,Z.J.,Chen,M.S.,&Yuan,Z.M.*(2013).TSG:a new algorithm for binary and multi-class cancer classification and informative genes selection.BMC medical genomics,6(Suppl 1),S3.(SCI,IF=3.47)2 WANG,Z.M.,HAN,N.,Yuan,Z.M.*,&WU
37、,Z.H.(2013).Feature selection for high-dimensional data based on ridge regression and SVM and its application in peptide QSAR modeling.Acta Physico-Chimica Sinica,29(3),498-507.(SCI)3 Zhou,W.,Dai,Z.J.,Chen,Y.,&Yuan,Z.M.*(2013).Computational QSAR models with high-dimensional descriptor selection impr
38、ove antitumor activity design of ARC-111 analogues.Medicinal Chemistry Research,22(1),278-286.(SCI)4 Wang,L.F.,Tan,X.S.,Yuan,Z.M.*,&Bai,L.Y.(2013).Novel QSAR combination forecast model for insect repellent coupling support vector regression and K-nearest-neighbor.Journal of the Chemical Society of P
39、akistan,35(4),1075-1080.(SCI)5 Han,N.,Yuan,Z.M.*,Chen,Y.,Dai,Z.J.,&Wang,Z.M.(2013).Prediction of HLA-A*0201 restricted cytotoxic T lymphocyte epitopes based on high-dimensional descriptor nonlinear screening.Acta Physico-Chimica Sinica,29(9),1945-1953.(SCI)6 Xie,Y.G.,Zhang,H.Y.,Wang,H.Y.,Wang,L.F.,Y
40、uan,Z.M.*(2013).Prediction of multidimensional time series based on GS-RSR-SVR and its application in agricultural economy.Bulgarian Journal of Agricultural Science,19(No 6),1327-1336.(SCI)1 Dai,Z.J.,Wang,L.F.,Chen,Y.,Wang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).A pipeline for improved QSAR analysis of pept
41、ides:physiochemical property parameter selection via BMSF,near-neighbor sample selection via semivariogram,and weighted SVR regression and prediction.Amino acids,46:1105-1119.(SCI,IF=3.65)2 Wang,L.F.,Dai,Z.J.,Zhang,H.Y.,Bai,L.Y.,&Yuan,Z.M.*(2014).QSAM Analysis of Oligopeptides Coupling an Improved H
42、igh Dimension Feature Selection Method with Support Vector Regression.Chemical Biology&Drug Design,83:379-391.(SCI,IF=2.469)3 Zhang HY,Li LZ,Luo C,Sun CW,Chen Y,Dai ZJ,Yuan ZM*.(2014).Informative gene selection and direct classification of tumor based on chi-square test of pairwise gene interactions
43、.BioMed Research International,http:/dx.doi.org/10.1155/2014/589290.(SCI,IF=2.706)4 Li Y,Zhou W,Dai ZJ,Chen Y,Wang ZM,Yuan ZM*.(2014).Predicting the protein folding rate based on sequence feature screening and support vector regression.Acta Physico-Chimica Sinica,30(6):1091-1098(SCI)5 Kai Wang,Li-Fe
44、ng Wang,Zhi-Jun Dai,Lian-Yang Bai,Zhe-Ming Yuan*.(2014).QSAR modeling of E.coli promoters with parameters selected by binary matrix shuffling filter.J.Indian Chem.Soc.,91:2247-2253(SCI)1 Zhou W.,Wu S.B.,Dai Z.J.,Chen Y.,Xiang Y.,Chen J.R.,Sun C.Y.,Zhou Q.M.,Yuan Z.M.*(2015).Nonlinear QSAR models wit
45、h high-dimensional descriptor selection and SVR improve toxicity prediction and evaluation of phenols on photobacterium phosphoreum.Chemometrics and Intelligent Laboratory Systems,145:30-38.(SCI,IF=2.321)2 Chen Y.,Zhou W.,Wang H.Y.,Yuan Z.M.*(2015).Prediction of O-glycosylation sites based on multi-
46、scale composition of amino acids and feature selection.Medical&Biological Engineering&Computing,53(6):535-544(SCI).3 Sun C.W.,Dai Z.J,Zhang H.Y.,Li L.Z.*,Yuan Z.M.*(2015)Binary matrix shuffling filter for feature selection in neuronal morphology classification.Hindawi Publishing Corporation Computat
47、ional and Mathematical Methods in Medicine.http:/dx.doi.org/10.1155/2015/626975(SCI)4 Li L.Z.,He X.H.,Zhang H.Y.,Wang Z.M.,Sun C.W.,Mou T.M.,Li X.Q.,Zhang Y.M.,Hu Z.L.(2015)Genomewide mapping reveals a combination of different genetic effects causing the genetic basis of heterosis in two elite rice
48、hybrids.Journal of Genetics,94(2):261-270.(SCI)教育部新世纪优秀人才支持计划教育部新世纪优秀人才支持计划(NCET-06-0710)国家自然科学基金国家自然科学基金(61300130,30570351)教育部博士点基金教育部博士点基金(200805370002,20124320110002)湖南省杰出青年基金湖南省杰出青年基金(10JJ1005)王海燕博士王海燕博士(Kansas State University)罗峰博士罗峰博士(Clemson University)周玮博士周玮博士/李兰芝博士李兰芝博士(湖南农业大学湖南农业大学)博士生博士生:（张红燕（张红燕,王志明王志明,王立峰王立峰,代志军代志军,陈渊）陈渊）

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：特征选择、学习机器选择和样本选择课件.pptx
链接地址：https://www.163wenku.com/p-4293650.html

晟晟文业

内容提供者

实名认证

联系作者