生物数学模型第7讲扩展DNA序列分类模型研究课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《生物数学模型第7讲扩展DNA序列分类模型研究课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 数学模型 扩展 DNA 序列 分类 模型 研究 课件
- 资源描述:
-
1、 2000年年6月人类基因组计划中月人类基因组计划中DNA全全序列草图完成序列草图完成,2004年年10月绘制了精确的全月绘制了精确的全序列图序列图,标志着生命科学标志着生命科学“登月计划登月计划”又向又向前迈出一步前迈出一步,从此人类拥有了一部记录着自从此人类拥有了一部记录着自身生老病死及遗传进化全部信息的身生老病死及遗传进化全部信息的“天天书书”。DNA作为一种遗传物质作为一种遗传物质,早已在早已在50多年多年前就被发现。它是由前就被发现。它是由4种碱基种碱基:腺嘌呤腺嘌呤(A)、胞嘧呤胞嘧呤C)、鸟嘌呤、鸟嘌呤(G)及胸腺嘧呤及胸腺嘧呤(T)按一按一定顺序排成的长约定顺序排成的长约30亿
2、的序列。亿的序列。n虽然全序列图绘制成功,但这个几十亿的长序列中虽然全序列图绘制成功,但这个几十亿的长序列中既没有断句既没有断句,也没有标点符号,除了这也没有标点符号,除了这4个字符表示个字符表示4种碱基以外,人们对它包含的种碱基以外,人们对它包含的“内容内容”知之甚少,知之甚少,难以读懂。难以读懂。n 破译这部世界上最巨量信息的破译这部世界上最巨量信息的“天书天书”是二十一世是二十一世纪最重要的任务之一。在这个目标中,研究纪最重要的任务之一。在这个目标中,研究DNA全全序列具有什么结构,由这序列具有什么结构,由这4个字符排成的看似随机的个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部
3、天书的基础,序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(是生物信息学(Bioinformatics)最重要的课题之)最重要的课题之一。一。n但人们也发现了但人们也发现了DNA序列中的一些规律性和结构。例序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,如,在全序列中有一些是用于编码蛋白质的序列片段,即由这即由这4个字符组成的个字符组成的64种不同的种不同的3字符串,其中大多字符串,其中大多数用于编码构成蛋白质的数用于编码构成蛋白质的20种氨基酸。又例如,在不用种氨基酸。又例如,在不用于编码蛋白质的序列片段中,于编码蛋白质的序列片段中,A和和T的含量特别
4、多些,的含量特别多些,于是以某些碱基特别丰富作为特征去研究于是以某些碱基特别丰富作为特征去研究DNA序列的序列的结构也取得了一些结果。此外,利用统计的方法还发现结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人序列的某些片段之间具有相关性,等等。这些发现让人们相信,们相信,DNA序列中存在着局部的和全局性的结构,序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解充分发掘序列的结构对理解DNA全序列是十分有意义全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后
5、将其表示成适当的数学对象。这细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。和结构。作为研究作为研究DNA序列结构的尝试序列结构的尝试,提出以下提出以下DNA序列的序列的分类问题分类问题:(1)现有现有20个已知类别的人造个已知类别的人造DNA序列序列,其中第其中第110序列为序列为A类类,第第1120序列为序列为B类类,现要求从中提现要求从中提取特征取特征,构造分类方法构造分类方法,并用构造的方法对另外第并用构造的方法对另外第2140个未标明类别的人工序列进行分类个未标明类别的人工序列进行
6、分类,并写出结果。并写出结果。(2)用构造的分类方法来给部分天然用构造的分类方法来给部分天然DNA序列进序列进行分类行分类,给出分类结果。给出分类结果。序列n1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttggn2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagc
7、aaagga方法1 基于字母出现频率的分类不同段的不同段的DNA序列中,每个碱基出现的概率并不相同。序列中,每个碱基出现的概率并不相同。A组的组的G含量较高含量较高,B组的组的T含量较高含量较高,为做定量化的分析为做定量化的分析!引入引入数学中的内积概念数学中的内积概念,即将即将(A,T,G,C)的频率分别作为四的频率分别作为四维向量的四个分量维向量的四个分量(PA,PT,PG,PC),于是得到两组向量),于是得到两组向量Ai,Bi(i=1,10)然后将未知的然后将未知的某个某个序列作为一个新的向量序列作为一个新的向量C,将它归入将它归入A组或组或B组组。在。在Hilbert空间中将向量归一化
8、后计算内积空间中将向量归一化后计算内积内积小的两个序列内积小的两个序列!我们可以认为它们的相关性小我们可以认为它们的相关性小!而内积大的而内积大的序列序列!我们就认为其相关性大我们就认为其相关性大方法一 评价n方法一是从概率统计的角度分析问题方法一是从概率统计的角度分析问题n局限性:统计字母出现的频率时,忽略了局限性:统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关字母所在位置以及各个字母之间的相互关系,造成用这种方法对已知分类的序列进系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不行检验时,个别频率特性不明显的序列不太容易分类,所以这种方法虽然有其科学
9、太容易分类,所以这种方法虽然有其科学性,但还不够完善,不能完全体现序列的性,但还不够完善,不能完全体现序列的所有特征。所有特征。方法二 基于字母出现周期性对于某单个字母,以对于某单个字母,以a为例为例,,设它在序列中第,设它在序列中第t1,t2,tk+1个个位置出现,我们试图找出这些数字之间的关联,首先,可以认位置出现,我们试图找出这些数字之间的关联,首先,可以认识到考查识到考查ti 的分布及绝对值是意义不大的的分布及绝对值是意义不大的,因为序列是一大段因为序列是一大段DNA中的一个片断,片断的起始段不同会导致中的一个片断,片断的起始段不同会导致ti的不同,于是的不同,于是为了抵消为了抵消ti
10、的线性位移,考虑下面一组值的线性位移,考虑下面一组值即字母即字母a出现的间距。出现的间距。由所得数据知由所得数据知,Varg 与与Vart上述方法对上述方法对A、B组的区分率组的区分率很高很高,于是可以用,于是可以用 可以考虑序列可以考虑序列si的波动幅度,而表征波动幅度的量在统的波动幅度,而表征波动幅度的量在统计中是中心矩。计中是中心矩。作为这种方法的目标函数作为这种方法的目标函数可以把一串可以把一串DNA序列看成一个信息流,关于序列看成一个信息流,关于A、B的分类,的分类,可以考虑其单位序列所含信息量(即熵)的多少。从直观上可以考虑其单位序列所含信息量(即熵)的多少。从直观上来看,我们可以
11、认为重复得越多,信息量越少。来看,我们可以认为重复得越多,信息量越少。设序列为设序列为L(a1,a2,an),前,前m个字符所带的信息量为个字符所带的信息量为fm(L)记记即即gm(L)为加上第为加上第m个字母之后所增加的信息量个字母之后所增加的信息量现在的问题就归结为如何找出一个合适的现在的问题就归结为如何找出一个合适的gm(l),不妨设,不妨设g具有以下性质:具有以下性质:性质性质1:gm(l)0,即任意加上一个字符,它或多或少带有一定,即任意加上一个字符,它或多或少带有一定信息量。信息量。性质性质2:第:第m个字符个字符(或者是以它结尾的较短序列或者是以它结尾的较短序列)与前面的序与前面
12、的序列列(信息流信息流)重复得越多,重复得越多,gm(l)的值必然越小。的值必然越小。性质性质3:第:第m个字符个字符(或者是以它结尾的较短序列或者是以它结尾的较短序列)如果和与它如果和与它靠得越近的重复,靠得越近的重复,gm(l)的值越小,和与它离得越远的重复的值越小,和与它离得越远的重复gm(l)的值越大。的值越大。性质性质4:f0(l)=0。以第以第m个字符结尾的个字符结尾的i字串且以第字串且以第t个字符结个字符结尾的尾的i字串完全相同字串完全相同否则否则定义为单位长度所带的信息量定义为单位长度所带的信息量不妨设不妨设ti=ci-1,c0,p=6另外当取另外当取a=0.392,b=0.1
13、,c=2可以将可以将A、B组的组的F值分得较值分得较开,并可以用来处理未知数据。开,并可以用来处理未知数据。方法三讨论n这种方法从序列的信息量(熵)入手,认为当序列这种方法从序列的信息量(熵)入手,认为当序列中有大量的重复元素时,信息量就会比重复少的序中有大量的重复元素时,信息量就会比重复少的序列所含有的信息少,所以,其侧重点是是序列前后列所含有的信息少,所以,其侧重点是是序列前后的重复性,也就是序列元素的相关性。的重复性,也就是序列元素的相关性。n从从A、B两类数据中可以很清楚地看到两类数据中可以很清楚地看到B组中序列重组中序列重复量大,所含的信息明显少于复量大,所含的信息明显少于A组。而这
14、个特征就被组。而这个特征就被我们定义的熵函数凸显出来。我们定义的熵函数凸显出来。n将将DNA序列看成一个信息流的方法由于其在实际问序列看成一个信息流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法。统题中的广泛背景,将会是一个很有价值的想法。统计学和信息论的一套非常成熟的强大工具也会在计学和信息论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用。研究中发挥巨大的作用。考虑采用序列中的考虑采用序列中的A、G、T、C的含量百分比作为的含量百分比作为该序列的特征百分比分别记为该序列的特征百分比分别记为na,ng,nt,nc则得到一组表征则得到一组表征该序列特征的四维向量(该序列特
展开阅读全文