双序列比对的方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《双序列比对的方法课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 方法 课件
- 资源描述:
-
1、双序列比对郭志云Email:bioinfswjtu.edu1o 序列比对基本概念o 空位罚分o 相似性与同源性o 双序列比对方法n 点阵序列比较(Dot Matrix Sequence Comparison)n 动态规划算法(Dynamic Programming Algorithm)o 记分矩阵2o 序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法o 按比对序列条数分类n 双序列比对:两条序列的比对n 多序列比对:三条或以上序列的比对3o 相似的序列可能具有相似的功能与结构o 发现一个基因或蛋白
2、哪些区域容易发生突变,哪些位点突变后对功能没有影响 o 发现生物进化方面的信息4o 全局序列比对全局序列比对l定义:在全局范围内对两条序列进行比对打分的方法l适合于非常相似且长度近似相等的序列o 局部序列比对局部序列比对l定义:一种寻找匹配子序列的序列比对方法 l适合于一些片段相似而另一些片段相异的序列56(Gap Penalties)o 空位为了获得两个序列最佳比对,必须使用空位和空位罚分o 空位罚分分类:n 空位开放罚分(Gap opening penalty)n 空位扩展罚分(Gap extension penalty)o 最优的序列比对通常具有以下两下特征:n 尽可能多的匹配n 尽可能
3、少的空位o 插入任意多的空位会产生较高的分数,但找到的并不一定是真正相似序列71 GTGATAGACAC|1 GTGCATAGACAC允许空位但不罚分不允许有空位 match=5mismatch=-41 GTG-ATAGACAC|1 GTGCATAGACAC1 GTG-ATAGACAC|1 GTGC-ATAGACAC?Score:-21Score:558 A T G T T A T A CT A T G T G C G T A T A Score=4参数:匹配匹配=1非匹配非匹配=0g=3r=0.1x=3score:8-3.2=4.8Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空
4、位扩展罚分x:空位长度T A T G T G C G T A T A insertion/deletionA T G T-T A T A CWx=-3-(3-1)0.1=-3.29o 点阵序列比较(Dot Matrix Sequence Comparison)o 动态规划算法(Dynamic Programming Algorithm)o 词或K串方法(Word or K-tuple Methods)10o点阵(Dot Matrix)分析是一种简单的图形显示序列相似性的方法o沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相同的区域在点阵图中显示为由点
5、组成的对角线,对角线之外零散的点为背景噪音11IONIZATIONIONIZATION12IONIZATNOIIONIZATNOI13o自身比对n 寻找序列中的正向或反向重复序列n 蛋白质的重复结构域(domain)n 相同残基重复出现的低复杂区(Low Complexity)n RNA二级结构中的互补区域等o对两条序列的相似性作整体的估计14TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G-T C A T|T A C T G T T C A T插入空位插入空位15人类低脂受体(human low-density lipopr
6、otein receptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复16o 编码噬菌体c(水平轴)和噬菌体P22 c2(垂直轴)的氨基酸序列间的点阵分析o 相同的点打印全部打印,很难找到有用的信息17T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CC T A T G A C A T A C G G T A T GWindow=3 Word Si
7、ze=318ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Match=1 Mismatch=019ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Match=1 Mismatch=020ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Ma
8、tch=1 Mismatch=021G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size=5Stringency=3Match=1 Mismatch=022G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG23G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG24(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点
9、阵图(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab25o优点n 直观性,整体性n 点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配n 不依赖任何先决条件,是一种可用于初步分析的理想工具n 点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度26o 缺点n 不能很好地兼容打分矩阵n 滑动窗口和预值的选择过于经验化n 信噪比低 n 不适合进行高通量的数据分析27o DNA Strider(Macintosh)n cellbiol/soft.htm
10、o Dotter(Unix/Linux,X-Windows)o COMPARE,DOTPLOT(GCG软件)o PLALIGN(FASTA)o Dotletnisrec.isb-sib.ch/java/dotlet/Dotlet.html2829o动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决o在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)30o Eg.匹配=1,非匹配=0,空位罚分=-1n Sequence1:CACGAn
11、 Sequence2:CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA31Si,j这个位置的分数为图中箭头所示三个方向值中最大的一个i-xi-1j-1i-yji Si-x,j -wx Si 1,j-1 +s(ai,bj)Si,j-y-wy Si,j 32Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-x,j-wx),maxy 1(Si,j-y-wy)Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-1,j-wx),maxy 1(Si,j-1-wy)公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j
12、的分值,s(aibj)是位置i 和j上比对分值,wx是在序列a 中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分33ACTTCGACTAG匹配3错配-1空位-234ACTTCG0ACTAG匹配3错配-1空位-235ACTTCG0-2ACTAG匹配3错配-1空位-236ACTTCG0-2-4-6-8-10-12ACTAG匹配3错配-1空位-237ACTTCG0-2-4-6-8-10-12A-2CTAG匹配3错配-1空位-238ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10?S(2,2)-2+(-2)-2+(-2)0+3匹配3错配-1空位-239ACTTCG0-2
展开阅读全文