序列比对与算法和软件使用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《序列比对与算法和软件使用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 算法 软件 使用 课件
- 资源描述:
-
1、序列比对与算法和软件使用2o 第一节 双序列比对o 第二节 多序列比对o 第三节 常用序列比对软件的使用n第一节 双序列比对4o 1. 序列比对基本概念o 2. 空位罚分o 3. 双序列比对方法o 4. 记分矩阵56789(Gap Penalties)101 GTGATAGACAC | 1 GTGCATAGACAC允许空位但不罚分不允许有空位 match = 5mismatch = -41 GTG-ATAGACAC | |1 GTGCATAGACAC1 GTG-ATAGACAC | |1 GTGC-ATAGACAC? ?Score: -21Score: 5511 A T G T T A T A
2、 CT A T G T G C G T A T A Score=4参数:匹配匹配= 1非匹配非匹配= 0g= 3r = 0.1x = 3score:8 - 3.2 = 4.8Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空位扩展罚分x:空位长度T A T G T G C G T A T A insertion / deletionA T G T - - - T A T A CWx= 3 + 0.1*(3 -1) = 3.212o 点阵序列比较 (Dot Matrix Sequence Comparison)o 动态规划算法 (Dynamic Programming Algorith
3、m)o 词或K串方法 (Word or K-tuple Methods)13IONIZATIONIONIZATION15o自身比对n 寻找序列中的正向或反向重复序列n 蛋白质的重复结构域(domain)n 相同残基重复出现的低复杂区(Low Complexity)n RNA二级结构中的互补区域等o对两条序列的相似性作整体的估计TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G - T C A T| | | | | | | | |T A C T G T T C A T插入空位插入空位17人类低脂受体(human low-densi
4、ty lipoprotein receptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复1819T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CC T A T G A C A T A C G G T A T GWindow=3 Word Size = 320ATACTACAAGACACGTACCGG C G A T G C A T T G A G
5、 T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 021ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 022ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 023G C G A T
6、 G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size = 5Stringency = 3Match = 1 Mismatch = 024G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG25G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点阵图(b)利用滑动窗口对以上的两种球蛋白基
7、因序列进行比较的点阵图,其中窗口大小为10个核苷酸, 相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab272829o DNA Strider (Macintosh)n http:/ o Dotter (Unix/Linux, X-Windows)o COMPARE, DOTPLOT (GCG软件)o PLALIGN (FASTA)o Dotlet3031o Eg. 匹配=1,非匹配=0, 空位罚分=-1n Sequence1: CACGAn Sequence2: CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA32Sij=maxSi-1,j-
8、1,+s(aibj),maxx1 (Si-x,j-wx),maxy 1 (Si,j-y-wy)Sij=maxSi-1,j-1,+s(aibj),maxx1 (Si-1,j-wx),maxy 1 (Si,j-1-wy)公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j的分值, s(aibj)是位置i 和j上比对分值,wx是在序列a 中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分33ACTTCGACTAG匹配3错配-1空位-234ACTTCG0ACTAG匹配3错配-1空位-235ACTTCG0-2ACTAG匹配3错配-1空位-236ACTTCG0-2-4-6-8-10-1
9、2ACTAG匹配3错配-1空位-237ACTTCG0-2-4-6-8-10-12A-2CTAG匹配3错配-1空位-238ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10?S(2,2)-2+(-2)-2+(-2)0+3匹配3错配-1空位-239ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10?S(2,3)-4+(-2) 3+(-2)-2+(-1)匹配3错配-1空位-240ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配3错配-1空位-241ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C
10、-416420-2T-6-14?A-8-3 2G-10-50S(4,4) 4+(-2) 4+(-2) 6+3匹配3错配-1空位-242ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-3 2G-10-50匹配3错配-1空位-2ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA回回 溯溯ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 2786
11、4G-10-505679GGT-CATTCCAAACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGTAC-TTCCAA461.ACTTCGAC-TAG2.ACTTCGACT-AG3.ACTTCGACTA-G哪一个是最优比对哪一个是最优比对(optimal alignment)呢呢?记分矩阵47oDNA计分矩阵o蛋白质计分矩阵o广泛使用的两种矩阵n PAM n BLOSUMo空位罚分48actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaagg
12、acttaaagactSequence 1Sequence 2AGCTA1000G0100C0010T0001匹配: 1错配: 0分值:549CTAG嘧啶嘌呤 表示转换(transition),表示颠换(transversions)转换比颠换更容易发生AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2记分矩阵T:G= -2 T:T = 5Score= 48 CSTPAGND.C 9
13、S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 . CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .52 A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2
14、 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -
15、1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0
16、0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0
17、2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 u模
18、块替换矩阵BLOSUM以序列片段为基础,它是 基于蛋白质模块(Block)数据库而建立起来的 u 在模块比对的每一列中,分别计算 两两氨基酸的变化情况,来自所有 模块的数值被用来计算BLOSUM矩阵u矩阵后面的数字表示构建此矩阵所用的 序列的相似程度,如BLOSUM62表示由 相似度为62%的序列构建AACECA - C = 0A - E = -1C - E = -4A - A = 4C - C = 9AACEC (Blocks Substitution Matrix)555657585960o 寻找蛋白质家族,识别多个序列的保守区域;o 相似的蛋白质序列往往具有相似的结构与功能;o 辅助预测
展开阅读全文