电子教案与课件:化学信息学.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《电子教案与课件:化学信息学.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子 教案 课件 化学 信息学
- 资源描述:
-
1、1化学模式识别化学模式识别(一一)数据挖掘(Data Mining,DM)是从大量的数据中提取隐含的或隐藏的信息,是一种新的信息处理技术,其目的在于找到外在物理、化学、生物或生理表征与内在结构如化学组成、分子构型、构象、形态等之间的相互关系,并从中提取辅助决策的关键信息。2数据挖掘一般包含以下步骤:3图图 10-1 数数据据挖挖掘全掘全过过程程模式识别中将需作处理的样本集X一般用如下矩阵形式表示:4为了消除量纲和变化幅度不同带来的影响,原始数据可作标准化处理,有关计算公式如下:5 jjijijSxxx (10-2)(10-3)(10-4)其中 为所有样本第j个特征的平均值,为所有样本第j个特征
2、的方差,xij为经标准化处理后的数据,各变量权重相同,均值为0,方差为1。主成分分析偏最小二乘法逐步回归分析遗传算法6主成分分析也称主分量分析,是多元统计的一部分重要内容。在统计学中,主成分分析是一种简化数据集的技术。主成分分析的一般目的是对变量降维或对主成分解释。7主成分分析是将数据原来的p个指标作线性组合,作为新的综合指标()。其中 是“信息最多”的指标,即原指标所有线性组合中使 最大的组合所对应的指标,称为第一主成分;为除 外信息最多的指标,即 且 最大,称为第二主成分;依次类推。8PFFF,211F)var(1F2F1F1F0),cov(21FF)var(2F求主成分的一般步骤如下:1
3、.对样本数据的标准化2.计算相关矩阵 3.求特征值和特征向量4.求主成分(取线性组合)5.定义910 图图 10-2 主成分的空间投影图主成分的空间投影图(PC1是第一主成分,是第一主成分,PC2是第二主成分,是第二主成分,PC3是第是第3主成分)主成分)偏最小二乘法是在20世纪60年代末由Wold提出的,80年代开始应用于化学研究,该方法具有简单稳健、计算量小、预测精度高、无需剔除任何解释变量或样本点、所构造的潜变量较确定、易于定性解释等优点。学测量和数据挖掘中得到广泛应用。11PLS是对每个X 矩阵的潜变量方向进行修改,使它与Y矩阵间的协方差最大,即在原回归方程中删去那些特征值近似为零的项
4、,其X和Y矩阵分别按式10-16和10-17分解为较小的矩阵:12quFUQY (10-16)(10-17)式中:式中:T为为X的得分矩阵,的得分矩阵,为得分向量,为得分向量,P为为X的载荷的载荷矩阵,矩阵,为相应的载荷向量,为相应的载荷向量,E是残差矩阵,是是残差矩阵,是X中无中无法用法用 个潜变量个潜变量t反映的部分。反映的部分。U为为Y的得分矩阵,为得分向量,的得分矩阵,为得分向量,Q为为Y的载荷矩阵的载荷矩阵,为相应的载荷向量,为相应的载荷向量,F是残差矩阵,是是残差矩阵,是Y中无法用中无法用 个个潜变量潜变量u反映的部分。反映的部分。最佳回归方程:最佳回归方程应该包括所有对因变量作用
5、显著的变量13逐步回归分析法就是从一个预报因子开始,按自变量对因变量作用的显著程度,从大到小地依次逐个地引入回归方程,另一方面是当先引入的自变量由于后面自变量的引入变得不显著时,就将前者从回归方程中剔除。F检验法检验法14相关系数检验法相关系数检验法显著性检验,以确定自变量显著性检验,以确定自变量X与与因变量因变量Y之间确实线性相关。之间确实线性相关。两种常用的两种常用的回回归归方程方程检验检验方法:方法:首先将观测值和拟合值差值的平方和首先将观测值和拟合值差值的平方和(SS)分解分解为回归平方和为回归平方和(SSE)和残差平方和和残差平方和(SSR),用以,用以下统计量进行检验:下统计量进行
6、检验:(10-18)式中:式中:n为数据组数。当为数据组数。当F值大于一定的临界值值大于一定的临界值时,拒绝原假设,认为因变量与自变量之间是时,拒绝原假设,认为因变量与自变量之间是相关的。相关的。15相关系数相关系数R反映了回归平方和在总平方和中的比反映了回归平方和在总平方和中的比例,即反映了例,即反映了X与与Y之间线性相关的密切程度,之间线性相关的密切程度,|R|愈接近愈接近0,X与与Y之间的线性相关程度愈小,反之间的线性相关程度愈小,反之,之,|R|愈大,愈接近愈大,愈接近1,X与与Y之间的线性相关程之间的线性相关程度愈大。度愈大。16(10-19)对于一个具体问题,只有当|R|大到一定程
7、度时才可以认为X与Y之间有线性相关关系。遗传算法遗传算法(Genetic Algorithms,GA)最早最早由由Holland教授于教授于20世纪世纪70年代创建的。年代创建的。它以达尔文进化论和孟德尔遗传学说为它以达尔文进化论和孟德尔遗传学说为理论基础,通过模拟自然界生物理论基础,通过模拟自然界生物“遗传遗传变异变异适者生存适者生存”的进化过程,对优的进化过程,对优化空间进行随机搜索,从而得到全局最化空间进行随机搜索,从而得到全局最优解。优解。1718图图10-3 遗传算法基本流程遗传算法基本流程遗传算法的具体实施需要以下步骤:遗传算法的具体实施需要以下步骤:染色体的编码、初始化操作、染色
8、体染色体的编码、初始化操作、染色体适应度的计算和遗传操作。适应度的计算和遗传操作。19(1)染色体的编码和形成:直接采用二进染色体的编码和形成:直接采用二进制编码,用制编码,用0代表某个变量未被选中,代表某个变量未被选中,1代表代表选中。染色体的长度为待选变量的个数。选中。染色体的长度为待选变量的个数。(2)染色体适应度的确定:染色体适应度的确定:Hasegawa等人等人提出了用平方预测相关系数作为染色体适应提出了用平方预测相关系数作为染色体适应度,其计算公式为:度,其计算公式为:20其中,yi为实际值,y(-i),pred为用除掉第i个样本的数据建立的模型对yi的预测值,为yi的平均值,h为
9、公式(10-18)获得最大值时的主元个数。(3)确定最佳的主元个数:交叉有效性验确定最佳的主元个数:交叉有效性验证是最常用的确定主元个数的方法,式(证是最常用的确定主元个数的方法,式(10-21)中的最佳主元个数的确定为:如果)中的最佳主元个数的确定为:如果PRESSj/RSSj-10.952,则增加一个主元是,则增加一个主元是有益的。有益的。21(1)用随机方法来初始化种群,指定最大迭代次数用随机方法来初始化种群,指定最大迭代次数、交叉率和变异率;、交叉率和变异率;(2)根据式(根据式(10-19)计算种群各个个体的适应度值)计算种群各个个体的适应度值,再从当前种群中选择出优良的个体,使它们
10、随,再从当前种群中选择出优良的个体,使它们随机两两配对;机两两配对;(3)根据指定的交叉率,对以上各对染色体进行交根据指定的交叉率,对以上各对染色体进行交叉处理;叉处理;(4)根据指定的变异率,对染色体进行变异处理;根据指定的变异率,对染色体进行变异处理;(5)如果循环终止条件满足,则算法结束,否则转如果循环终止条件满足,则算法结束,否则转到第到第(2)步。步。22信号处理的目的就是对数字信息进行准信号处理的目的就是对数字信息进行准确的分析、诊断、编码压缩和量化、快确的分析、诊断、编码压缩和量化、快速传递或存储、精确重构(或恢复)。速传递或存储、精确重构(或恢复)。将信号处理的方法结合到蛋白质
11、序列分将信号处理的方法结合到蛋白质序列分析中,能发挥其特有的信息提取优势,析中,能发挥其特有的信息提取优势,已成为生物信息学研究领域的一个重要已成为生物信息学研究领域的一个重要的发展方向。的发展方向。23信号分成两大类信号分成两大类确知信号和随机信号。确确知信号和随机信号。确知信号具有一定的变化规律,因而容易分析,知信号具有一定的变化规律,因而容易分析,而随机信号无准确的变化规律,需要用统计特而随机信号无准确的变化规律,需要用统计特性进行分析。性进行分析。在工程技术中,一般采用描述随机过程的主要在工程技术中,一般采用描述随机过程的主要平均统计特性的几个函数,包括均值、方差、平均统计特性的几个函
展开阅读全文