基因组序列注释的方法综述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基因组序列注释的方法综述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 序列 注释 方法 综述 课件
- 资源描述:
-
1、基因组序列注释的方法一、基因组序列注释一、基因组序列注释 以基因组序列为基础,确定全基因序列中基因的确切位置二、注释的方法二、注释的方法1、根据开放阅读框(ORF)预测 1)起始密码子ATG:第一个ATG的确定依据Kozak规则,所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律:若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好 碱基2)终止密码子 :终止密码子
2、:TAA,TAG,TGA GC%=50%终止密码子每 64 bp出现一次;GC%50%终止密码子每100200 bp 出现一次;由于多数基因ORF均多于50个密码子,因此最可能的选择应该是ORF选择不少于100个密码子。细菌基因组的ORF阅读相对比较简单,错误的概率较少,但单纯的ORF扫描对高等真核生物DNA效果不佳。内含子使ORF扫描复杂化 对ORF扫描的基本程序的编写要考虑以下几个问题:a、密码子偏倚 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。u 特定生物体的基因中并不是所有密码子的使用频率都是平等的。如Leu的密码子有6个(TTA、TTG、CTT、CTC、
3、CTA、CTG),在人类基因中,绝大多数Leu都是由CTG编码的,而且几乎不由CTA和TTA编码。u 特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。b、外显子内含子边界外显子和内含子的边界有一些明显的特征如:内含子的5端常见的顺序为 5-AGGTTAAGT-3;u 3端多为5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸,T或C);上游外显子-内含子边界的共有序列在真正基因中发现的真实序列之间的关系。运用外显子内含子边界特殊外显子内含子边界特殊序列的方法来注释基因的成功率不序列的方法来注释基因的成功率不高。高。c、上游调控顺序u 几乎所有基因
4、(或操纵子)上游都有调控序列,它们与DNA结合蛋白作用,控制基因表达,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project,Eukaryotic Promoter Database,EPD.http:/www.epd.unil.ch/)。u 另外个别基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有大约1kb长的CpG岛。2、同源查询 利用已存入数据库中的基因序列与待查基因组序列进行比较,从中查找可与之匹配的碱基序列及其比例用于界定基因的方法。A.DNA序列某些片段完全相同;B.开放阅读框排列类似;C.开
5、放阅读框翻译成的氨基酸序列的相同;D.模拟多肽高级结构相似。u 一般认为,氨基酸序列的相似性在25%以上可视为同源基因。u 这些结果均可作为基因判定的指标,可单独用,也可综合用。基因注释软件1)1)目前基因注释程序的编写主要依据两种信息内涵:1.1.signal terms(signal terms(信号指令),如起始密码,终止密码,终止信号,多聚嘧啶顺序,分支点等保守的顺序组成;2.2.content terms(content terms(内容指令),如密码子使用偏好.对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kbkb的内含子
展开阅读全文