基因预测医学知识课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基因预测医学知识课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因 预测 医学知识 课件
- 资源描述:
-
1、文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。基因预测的背景基因预测的背景 生物学家开始研究基因结构主要是在实验的基础上进行的:构建cDNA文库、PCR扩增、Northern blot 和测序等。随着全基因组测序计划的实现,大量的基因组DNA序列产生,但对基因的注释远落后于基因测序。因此,应用计算机程序从DNA序列中寻找基因(尤其是那些编码蛋白质的基因),成为研究人员考虑的重要问题。一旦获得一个基因组序列,除了将这段序列通过数据库相似性和同源性比较,还可以计算DNA的碱基组成,分析密码子的偏好性,简缩重复序列,寻找DNA的特殊位点或信号,以及鉴定DNA的编码区。
2、用外显子-内含子结构和每个预测基因的位置信息,以及基于数据库搜索的任何功能信息来注释基因组DNA序列。随后可以鉴别最可能的蛋白质编码区。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。基因预测的同源比较算法和预测模型 1 同源比较算法:同源比较算法:Smith-Waterman算法:它是将一条序列代替另一条序列所需的“最小代价”(Weight)。FASTA算法 是用来进行DNA/DNA、DNA/蛋白质(将DNA按6个ORFs 翻译成氨基酸序列,再与蛋白质比较)和蛋白质/蛋白质的同源比较。2 隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model,HM
3、M)它将DNA看成是一个随机过程,根据编码和非编码的DNA序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的规律。广义隐马尔可夫模型广义隐马尔可夫模型(Generalized Hidden Markov Model,GHMM)是通过对HMM简化和在HMM下建立了相应的子模型,使其具有很大的可扩展性,是第二代基因预测软件的基础。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。3 动态规划法动态规划法 用来将预测的各个可能外显子和内含子拼接成完整的基因,这种算法将各种可能的拼接进行记分,从而得出最可能的基因结构。4 神经网络预测方法神经网络预测方法 该法是使用一个训
4、练数集来训练神经网络,使其达到局部极小,然后,神经网络去掉这些最小权重,将最低预测值加到整体预测值上,经过数据修剪后,再次训练神经网络使其达到局部极小,这个过程不断被重复,直至达到规定的误差值,最后给出一个预测结果。除了以上几种外,目前用于基因预测的算法还很多,如基因结构的线性判别式分析和概率模型等。不过大多数算法都是基于已知基因顺序,所以需要深入研究,寻找基因不同的内在规律。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。但目前最为流行的预测模型是HMM改进后的广义隐马尔科夫模型(GHMM)。GHMM比HMM的模型框架更具有良好的可扩展性。下面介绍几种以HMM和
5、GHMM为模型而发展的计算机识别软件:第一代基因识别软件:GENMARK,GeneID和GRAIL等,它们采用的方法包括神经网络、隐Markov模型等。但是它们通常假定序列中正好包含了一个完整的基因,因而预测的正确率不高。第二代基因识别软件:包括GenScan,HMMGene,FFG,GeneMark.hmm 等等,它们一般不需要假设序列中正好包含一个完整的基因,而且 其预测正确率也有大幅提高。它们的模型的框架基本上都是采用的广义隐Markov 模型,是对GHMM在简化方法和子模型的构建方上存在不同。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。GeneScan
6、 GeneScan是一种广义上的目的基因预测软件,用来分析多个物种的DNA序列,包括人类、其他脊椎动物、无脊椎动物和植物的基因组。它可以从下面网站获得:http:/genes.mit.edu/GENESCAN.html.其参数设置选定一个模式生物(脊椎动物、拟南芥或玉米)并选取一个亚适的截断值(1.0、0.50、0.25、0.10、0.05、0.02、0.01)。HMMGene HMMGene是专门为脊椎动物和线虫未知DNA 序列的基因预测,可以预测整个质粒基因,甚至更长的DNA序列。同时也可以预测剪切位点和起始/终止密码子。如果一段序列的一些特征是已知的,如ESTs,蛋白质或重复元件,那么这
7、些区域就被认定为编码区或者非编码区,甚至于在这一约束下找出最优的基因结构。这个程序是建立在HMM(Hidden Markov model)模型上的,HMM模型是一个基因结构概率模型,能够为一段序列提供多个最优的预测结果。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Pombe Pombe专门设计来寻找S.pombe的基因和预测外显子-内含子结构。识别位点,外显子,内含子和假位点,假内含子,假外显子。同时可以识别起始位点,供体位点和受体位点,而对于外显子和内含子的预测必须要结合线性判别分析。而且还要考虑到其他的因素如少数核苷酸偏好、三联体位点偏好和ORFs的定位。
8、同时把这些分析结果与动态分析程序相结合来预测基因的结构。http:/argon.cshl.org/genefinder/pombe/pombe.htmGeneMark GeneMark 依赖编码与非编码二者的非同源Mark链模型,是建立在已知基因和已确定其功能的基础上,用来预测E.coli.的DNA序列,甚至可以重新训练来预测H.influenz,M.jannaschia和其他的生物.文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。GeneMark-Genesis是是用来分析M.jannaschia和 H.pylori的软件,是确定可用于训练和能预测到单独使用Ge
9、nscan或BLASTX所不能检测到的编码区。GeneMark.hmm算法是对 DNA序列片段的编码和非编码区域的概率分析,力求更准确地找出明确的基因边界。以S.pombe和拟南芥(A.thaliana)为模式生物。HumGene HumGene是一个采用广义隐Markov模型(GHMM)的人类基因预测软件,是利用人类基因的结构特点,采用概率模型为基因结构中各个特定区域建立了独立的子模型,能够获得全局统一的评价指数,使得系统整体框架具有一定的扩展性,采用一种新的简化算法,有效地降低了计算的复杂度。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。FFG FFG是根据
10、N.crassa基因的序列特征统计分析建立起来的,可以直接对N.crassa基因进行预测。1 编码区含有较高的GC含量,表现出对C的偏好,对G的偏好其次。2 终止子:UAA比UAG和UGA更为常用,3 起始密码子ATG及其周围的共有序列:CAMMATGGCT 4 研究发现N.crassa许多基因至少有一个内含子:52691,平均为63,中等长度为70。而长度变化范围较宽,在3-5367,平均为509,中等长度为148。5 5供体位点:GGTAAGTnnYCnYY;剪切分支点:WRCTRACMnnnnnnYY;3受体位点:WACAG。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系
展开阅读全文