位点东南大学生物电子学国家重点试验室课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《位点东南大学生物电子学国家重点试验室课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 东南大学 生物 电子学 国家重点 试验室 课件
- 资源描述:
-
1、第五节第五节 基因识别基因识别主讲人:孙主讲人:孙 啸啸 制作人:刘志华制作人:刘志华东南大学 吴健雄实验室基因识别基因识别v基因识别是生物信息学领域里的一个重基因识别是生物信息学领域里的一个重要研究内容要研究内容 v基因识别问题,在近几年受到广泛的重基因识别问题,在近几年受到广泛的重视视 当人类基因组研究进入一个系统测序阶段当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或技术,以处理大量已测定的但未知功能或未经注释的未经注释的DNA序列序列 v原核基因识别原核基因识别重点在于识别编码区域重点在于识
2、别编码区域v非翻译区域(非翻译区域(untranslated regions,UTR)编码区域两端的编码区域两端的DNA,有一部分被转录,有一部分被转录,但是不被翻译,这一部分称为非翻译区域但是不被翻译,这一部分称为非翻译区域 v5UTR-基因上游区域的非翻译区域基因上游区域的非翻译区域 v3UTR-基因下游区域的非翻译区域基因下游区域的非翻译区域v对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。v例如,序列ATTCGATCGCAAv这三种阅读顺序称为阅读框(reading frames)CAA A ATTCGATCGATTCGATCGCAAAT
3、TCGATCGCA(1)(3)(2)一个开放阅读框(一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序)是一个没有终止编码的密码子序列。列。原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。框,或者说识别长的编码区域。基于基因密码子特性的识别方法基于基因密码子特性的识别方法v辨别编码区域与非编码区域的一种方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率是检查终止密码子的出现频率 终止密码子出现的期望次数为:终止密码子出现的期望次数为:每每21个(个(64/3)密码子出现一次终止密)密码子出
4、现一次终止密码子码子 基本思想:基本思想:如果能够找到一个比较长的序列,其相应如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序的密码子序列不含终止密码子,则这段序列可能就是编码区域。列可能就是编码区域。v基本算法:基本算法:扫描给定的扫描给定的DNA序列,在三个不同的阅读序列,在三个不同的阅读框中寻找较长的框中寻找较长的ORF。遇到终止密码子以。遇到终止密码子以后,回头寻找起始密码子。后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的这种算法过于简单,不适合于处理短的ORF或者交叠的或者交叠的ORF。v识别编码区域的另一种方法是分析各种识别编码区域的另一种方法是
5、分析各种密码子出现的频率密码子出现的频率 将一个随机均匀分布的将一个随机均匀分布的DNA序列翻译成氨基酸序列翻译成氨基酸序列,则在氨基酸序列中上述序列,则在氨基酸序列中上述3种氨基酸出现的种氨基酸出现的比例应该为比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有例如,亮氨酸、丙氨酸、色氨酸分别有6个、个、4个和个和1个密码子个密码子但是在真实的氨基酸序列中,上述比例并不但是在真实的氨基酸序列中,上述比例并不正确正确这说明这说明DNA的编码区域并非随机的编码区域并非随机v假设在一条假设在一条DNA序列中已经找到所有的序列中已经找到所有的ORF,那么可以利用密码子频率进一步,那么可以利用密码子
6、频率进一步区分编码区分编码ORF和非编码和非编码ORFv马尔柯夫链模型马尔柯夫链模型v利用这种方法,可以计算一个利用这种方法,可以计算一个ORF成为成为编码区域的可能性。编码区域的可能性。v一个简单的统计模型一个简单的统计模型假设相继的密码子是独立的,不存在前后依假设相继的密码子是独立的,不存在前后依赖关系。赖关系。令令fabc代表密码子代表密码子abc在编码区域出现的频率在编码区域出现的频率给定序列给定序列a1,b1,c1,a2,b2,c2,an+1,bn+1从密码子从密码子a1b1c1开始的阅读框,其开始的阅读框,其n个密码子个密码子的出现概率为的出现概率为nnncbacbacbafffp
7、.2211111v第二种和第三种阅读框第二种和第三种阅读框n个密码子出现的概个密码子出现的概率分别为率分别为1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffpv第第i个阅读框成为编码阅读框的概率个阅读框成为编码阅读框的概率计算:计算:v算法:算法:在序列上移动长度为在序列上移动长度为n的窗口,计算的窗口,计算Pi根据根据Pi的值识别编码的阅读框的值识别编码的阅读框321ppppPii基于编码区域碱基组成特征的识别方法基于编码区域碱基组成特征的识别方法v编码序列与非编码序列在碱基组成上编码序列与非编码序列在碱基组成上有区别有区别单个碱基的组成比
8、例单个碱基的组成比例多个碱基的组成多个碱基的组成v通过统计分析识别编码序列通过统计分析识别编码序列分析实例分析实例2、真核基因识别问题、真核基因识别问题 真核基因远比原核基因复杂:真核基因远比原核基因复杂:v一方面,真核基因的编码区域是非连续一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。的,编码区域被分割为若干个小片段。v另一方面,真核基因具有更加丰富的基另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因因调控信息,这些信息主要分布在基因上游区域。上游区域。基因识别基本思路基因识别基本思路 找出基因两端的功能区域找出基因两端的功能区域:转录启动区转录启动
9、区 终止区终止区 在启动区下游位置寻找翻译起始密码子在启动区下游位置寻找翻译起始密码子 识别转录剪切位点识别转录剪切位点剪切给体位点剪切给体位点剪切接受体位点剪切接受体位点v各种不同的方法有不同的适应面,而不各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因同的方法有时可以结合起来以提高基因识别的准确率。识别的准确率。v关键问题是如何提高一个识别算法的敏关键问题是如何提高一个识别算法的敏感性(感性(sensitivity,Sn)和特异性)和特异性(specificity,Sp)。)。3、基因识别的主要方法、基因识别的主要方法两大类识别方法:两大类识别方法:v从头算方法(或基于
10、统计的方法)从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域通过统计值区分外显子、内含子及基因间区域 v基于同源序列比较的方法基于同源序列比较的方法利用数据库中现有与基因有关的信息(如利用数据库中现有与基因有关的信息(如EST序序列、蛋白质序列),通过同源比较,帮助发现新列、蛋白质序列),通过同源比较,帮助发现新基因。基因。v最理想的方法是综合两大类方法的优点,最理想的方法是综合两大类方法的优点,开发混合算法。开发混合算法。v基因识别方法有基因识别方法有:(1)基于规则的系统)基于规则
11、的系统(2)语义学方法语义学方法(3)线性辨别分析(线性辨别分析(LDA)(4)决策树决策树 (5)动态规划动态规划 (6)隐马尔柯夫模型隐马尔柯夫模型 (7)剪切对比排列剪切对比排列 (spliced alignment)4、编码区域识别、编码区域识别两类方法两类方法:v基于特征信号的识别基于特征信号的识别 内部外显子内部外显子剪切位点剪切位点5端的外显子一定在核心启动子的下游端的外显子一定在核心启动子的下游3端的外显子的下游包含多聚信号和终端的外显子的下游包含多聚信号和终止编码止编码 v基于统计度量的方法基于统计度量的方法 根据密码子使用倾向根据密码子使用倾向双联密码统计度量等双联密码统计
展开阅读全文