孙宝发-Negativeimpactofnoiseonthe-生物化学与分子生物学课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《孙宝发-Negativeimpactofnoiseonthe-生物化学与分子生物学课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 孙宝发 Negativeimpactofnoiseonthe 生物化学 分子生物学 课件
- 资源描述:
-
1、Negative impact of noise on the principal component analysisof NMR data对核磁共振数据进行主成分分析时噪音的负面影响Challenges of MetabonomicsSample Complexity and Data Handling a wide range of compound classes a wide variation in metabolite concentrations a large number of potential componentsmany sample analyses are req
2、uired for statistical relevancea complex raw dataset that needs to be processeddifferences between sample groups which need to be highlightedThe strategy for large scale metabonomics research核磁共振(NMR) 主要技术 能对样品实现非破坏性,非选择性的分析1H-NMR对含氢化合物均有响应,能完成代谢产物中大多数化合物的检测,满足代谢组学中的对尽可能多的化合物进行检測的目标. 不足: 其对每个分子的化学和物
3、理环境敏感,样品制备的要求很高,且数据处理比较复杂 NMR的动态范围有限,很难同时測定生物体系中共存的浓度相差较大的代谢产物 硬件投资较大 一、主成分分析一、主成分分析 主要原理 基本思想 几何意义 数学模型 软件应用 图形解释主成份分析的主要原理 在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。 从数学角度来看,这是一种降维处理技术。很显然,识辨系统在一个低维空间要比在一个高
4、维空间容易得多。主成分分析的基本思想 将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。 以两个指标为例,信息总量以总方差表示:2222112222112222112111)()(xxxxyyyyxxnxxnxxDxDiiiiii 其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1来分析问题,起到了降维的作用。 主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事物的一种方法。主成分分析的几何意义 为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有
5、两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,如果n个样本点形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的) 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;椭圆的长短轴相差得越大,降维越有道理。 在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F 主成分分析的几何解释平移、旋转坐标轴数学模型定义:记x1,x2
6、,xP为原变量指标,z1,z2,zm(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111.(3.5.2) 各主成分的得分nmnnmmzzzzzzzzzZ212222111211基本步骤基本步骤(1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用具体步骤具体步骤(1 1)、将所获得的)、将所获得的P P个指标个指标 (每一指标有(每一指标有n n个样品)的一批数据写成一个个样品)的一批数据写成一个(P
7、Pn)n)维数据矩阵维数据矩阵pYYY,21npppnnyyyyyyyyyy,2,1 ,22,21 ,2,12,11 ,1(2 2)为了消除各个变量量纲之间的差异,对数据矩阵)为了消除各个变量量纲之间的差异,对数据矩阵Y Y作标作标准化处理,即对每一个指标分量作标准化变换,变换公式为:准化处理,即对每一个指标分量作标准化变换,变换公式为:iiijijSYYXnjpi, 2 , 1, 2 , 1其中:样本均值其中:样本均值nkikiYnY11样本标准差样本标准差2111nkiikiYYnS得标准化后的数据矩阵得标准化后的数据矩阵pnppnnxxxxxxxxxX212222111211(3 3)、
8、计算样本相关系数矩阵)、计算样本相关系数矩阵R R11121221112pppprrrrrrXXR其中:其中:nkjkikijXXnr111(4 4)、由下列特征方程式)、由下列特征方程式0 RI(I I为单位矩阵)为单位矩阵)可求出可求出R R的特征值的特征值p21pii, 2 , 1再根据求出的特征向量再根据求出的特征向量piiii,21122221piiii(5 5)、把标准化后数据矩阵)、把标准化后数据矩阵X X的行向量的行向量 的线性组合的线性组合pXXX,21ipiiiiXXXF2211 称为主成份,称称为主成份,称F1F1是第一主成份,是第一主成份,F2F2是第二主是第二主成份,
9、成份,FiFi是第是第I I主成份。主成份。注:求各主成份的关键是求特征根(注:求各主成份的关键是求特征根( )及其相应的特)及其相应的特征向量(征向量( )。又称为主成分载荷()。又称为主成分载荷(loadingloading),它),它表示主成分和相应的原先变量的相关系数。表示主成分和相应的原先变量的相关系数。(6 6)主成份分析的方差贡献率)主成份分析的方差贡献率要说明主成份的方差贡献率先要说明特征值要说明主成份的方差贡献率先要说明特征值 的的意义意义i 是样本点在其第是样本点在其第 i i个主成份方向上的方差个主成份方向上的方差(分散程度),如果(分散程度),如果 的值很小,说明样本间
10、的值很小,说明样本间在坐标在坐标 的方向上分散程度很小,这个主成份的方向上分散程度很小,这个主成份在分析样本数据时所起作用不大,可以忽略不计。在分析样本数据时所起作用不大,可以忽略不计。那么那么 小到什么程度才认为无足轻重,可以忽略小到什么程度才认为无足轻重,可以忽略呢?为此引入方差贡献率。呢?为此引入方差贡献率。称比值称比值 为第为第k k个主成分个主成分 的方差贡献率。的方差贡献率。iiZipkkk1kZipiimii11为前为前m个主成分个主成分 的累计方差贡的累计方差贡献率。献率。mZZZ,21由于由于 ,所以,所以p个主成分的方差贡献率个主成分的方差贡献率是依次递减的,这样是依次递减
11、的,这样 对应的第一主成分对应的第一主成分F1起起的作用最大,其次是第二主成分的作用最大,其次是第二主成分F2。通常要求作为主成份的特征值通常要求作为主成份的特征值 要大于要大于1,各个主,各个主成分按累计方差贡献率要达到成分按累计方差贡献率要达到85%。其实,这只其实,这只是一个大体的说法;具体选几个,要看实际情况是一个大体的说法;具体选几个,要看实际情况而定。而定。p211i软件应用 成绩数据(成绩数据(student.sav) 100个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分史、英语的成绩如下表(部分)。)。 SPSS数据形式数据形式主
12、成分分析实例1不旋转使用默认值进行最简单的主成分分析(默认为主成分分析法:Principal components)菜单:菜单:AnalyzeData ReductionFactor(主成分分析法(主成分分析法Principal components,选取特征值,选取特征值1,不旋转,不旋转) Total Variance ExplainedTotal Variance Explained3.73562.25462.2543.73562.25462.2541.13318.88781.1421.13318.88781.142.4577.61988.761.3235.37694.137.1993.
13、32097.457.1532.543100.000Component123456Total% of Variance Cumulative %Total% of Variance Cumulative %Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method: Principal Component Analysis.这里的这里的Initial EigenvaluesInitial Eigenvalues就是这里的六个主轴长度,即就是这里的六个主轴长度,即特征值。特征值。 怎么解释这两个主成分。主成分是原始
14、六个变量的线性组合。这由下表给出。 Component MatrixComponent Matrixa a-.806.353-.040.468.021.068-.674.531-.454-.240-.001-.006-.675.513.499-.181.002.003.893.306-.004-.037.077.320.825.435.002.079-.342-.083.836.425.000.074.276-.197MATHPHYSCHEMLITERATHISTORYENGLISH123456ComponentExtraction Method: Principal Component An
15、alysis.6 components extracted.a. 这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分为11234562123456-0.806-0.674-0.6750.8930.8250.8360.3530.5310.5130.3060.4350.425yx
16、xxxxxyxxxxxx 这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。 可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。PCA实例2 不同嫌疑人头发中元素的含量(g/g) 样品CuMnClBrI19.20.30 173012.0 3.6 212.40.39 93050.0 2.3 37.20.32 275065.3 3.4 410.20.36 15003.4 5.3 510.10.50 104039.2 1.9 66.50.20 249090.0 4.6 75.60.29 294088.0 5.6 811.
展开阅读全文