书签 分享 收藏 举报 版权申诉 / 115
上传文档赚钱

类型序列比对与算法和软件使用课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2875344
  • 上传时间:2022-06-07
  • 格式:PPT
  • 页数:115
  • 大小:3.34MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《序列比对与算法和软件使用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    序列 算法 软件 使用 课件
    资源描述:

    1、序列比对与算法和软件使用2o 第一节 双序列比对o 第二节 多序列比对o 第三节 常用序列比对软件的使用n第一节 双序列比对4o 1. 序列比对基本概念o 2. 空位罚分o 3. 双序列比对方法o 4. 记分矩阵56789(Gap Penalties)101 GTGATAGACAC | 1 GTGCATAGACAC允许空位但不罚分不允许有空位 match = 5mismatch = -41 GTG-ATAGACAC | |1 GTGCATAGACAC1 GTG-ATAGACAC | |1 GTGC-ATAGACAC? ?Score: -21Score: 5511 A T G T T A T A

    2、 CT A T G T G C G T A T A Score=4参数:匹配匹配= 1非匹配非匹配= 0g= 3r = 0.1x = 3score:8 - 3.2 = 4.8Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空位扩展罚分x:空位长度T A T G T G C G T A T A insertion / deletionA T G T - - - T A T A CWx= 3 + 0.1*(3 -1) = 3.212o 点阵序列比较 (Dot Matrix Sequence Comparison)o 动态规划算法 (Dynamic Programming Algorith

    3、m)o 词或K串方法 (Word or K-tuple Methods)13IONIZATIONIONIZATION15o自身比对n 寻找序列中的正向或反向重复序列n 蛋白质的重复结构域(domain)n 相同残基重复出现的低复杂区(Low Complexity)n RNA二级结构中的互补区域等o对两条序列的相似性作整体的估计TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G - T C A T| | | | | | | | |T A C T G T T C A T插入空位插入空位17人类低脂受体(human low-densi

    4、ty lipoprotein receptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复1819T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CC T A T G A C A T A C G G T A T GWindow=3 Word Size = 320ATACTACAAGACACGTACCGG C G A T G C A T T G A G

    5、 T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 021ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 022ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 023G C G A T

    6、 G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size = 5Stringency = 3Match = 1 Mismatch = 024G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG25G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点阵图(b)利用滑动窗口对以上的两种球蛋白基

    7、因序列进行比较的点阵图,其中窗口大小为10个核苷酸, 相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab272829o DNA Strider (Macintosh)n http:/ o Dotter (Unix/Linux, X-Windows)o COMPARE, DOTPLOT (GCG软件)o PLALIGN (FASTA)o Dotlet3031o Eg. 匹配=1,非匹配=0, 空位罚分=-1n Sequence1: CACGAn Sequence2: CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA32Sij=maxSi-1,j-

    8、1,+s(aibj),maxx1 (Si-x,j-wx),maxy 1 (Si,j-y-wy)Sij=maxSi-1,j-1,+s(aibj),maxx1 (Si-1,j-wx),maxy 1 (Si,j-1-wy)公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j的分值, s(aibj)是位置i 和j上比对分值,wx是在序列a 中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分33ACTTCGACTAG匹配3错配-1空位-234ACTTCG0ACTAG匹配3错配-1空位-235ACTTCG0-2ACTAG匹配3错配-1空位-236ACTTCG0-2-4-6-8-10-1

    9、2ACTAG匹配3错配-1空位-237ACTTCG0-2-4-6-8-10-12A-2CTAG匹配3错配-1空位-238ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10?S(2,2)-2+(-2)-2+(-2)0+3匹配3错配-1空位-239ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10?S(2,3)-4+(-2) 3+(-2)-2+(-1)匹配3错配-1空位-240ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配3错配-1空位-241ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C

    10、-416420-2T-6-14?A-8-3 2G-10-50S(4,4) 4+(-2) 4+(-2) 6+3匹配3错配-1空位-242ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-3 2G-10-50匹配3错配-1空位-2ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA回回 溯溯ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 2786

    11、4G-10-505679GGT-CATTCCAAACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGTAC-TTCCAA461.ACTTCGAC-TAG2.ACTTCGACT-AG3.ACTTCGACTA-G哪一个是最优比对哪一个是最优比对(optimal alignment)呢呢?记分矩阵47oDNA计分矩阵o蛋白质计分矩阵o广泛使用的两种矩阵n PAM n BLOSUMo空位罚分48actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaagg

    12、acttaaagactSequence 1Sequence 2AGCTA1000G0100C0010T0001匹配: 1错配: 0分值:549CTAG嘧啶嘌呤 表示转换(transition),表示颠换(transversions)转换比颠换更容易发生AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2记分矩阵T:G= -2 T:T = 5Score= 48 CSTPAGND.C 9

    13、S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 . CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .52 A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2

    14、 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -

    15、1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0

    16、0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0

    17、2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 u模

    18、块替换矩阵BLOSUM以序列片段为基础,它是 基于蛋白质模块(Block)数据库而建立起来的 u 在模块比对的每一列中,分别计算 两两氨基酸的变化情况,来自所有 模块的数值被用来计算BLOSUM矩阵u矩阵后面的数字表示构建此矩阵所用的 序列的相似程度,如BLOSUM62表示由 相似度为62%的序列构建AACECA - C = 0A - E = -1C - E = -4A - A = 4C - C = 9AACEC (Blocks Substitution Matrix)555657585960o 寻找蛋白质家族,识别多个序列的保守区域;o 相似的蛋白质序列往往具有相似的结构与功能;o 辅助预测

    19、新序列的二级或三级结构;o 可以直观地看到基因的哪些区域对突变敏感;o PCR引物设计;我们为什么做多序列比对?o 分析多个序列的一致序列;o 用于进化分析,是用系统发育方法构建进化树的初使步骤; o 寻找个体之间单核苷酸多态性(SNPs);o 通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)基因;o 寻找同源基因(相似的序列往往具有同源性)。我们为什么做多序列比对?多序列比对与进化研究例子图中NYLS为树根一个多序列比对例子VTISCTGSSSNIGAG-NHVKWYQVTISCTGTSSNIGS-ITVNWYQLRLSCSSSGFIFSS-YAMYWVRLSLT

    20、CTVSGTSFDD-YYSTWVRPEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA-VTVAWKADS-AALGCLVKDYFPEP-VTVSWNSG-VSLTCLVKGFYPSD-IAVEWWSNG-多序列比对方法动态规划算法 (Dynamic Programming Algorithm)分而治之方法 (Divide and Conquer Methods)SP方法 (Sum of Pairs Methods) 累进方法 (Progressive Methods)迭代方法 (Iterative Methods)概形分析 (Pro)区块分析 (Block An

    21、alysis) (Statistical Methods)在多序列比对前要考虑的问题一、全局序列比对 (Dynamic Programming Algorithm) (Divide and Conquer Methods) (Sum of Pairs Methods) (Progressive Methods) (Iterative Methods) (Genetic Algorithms)o 序列长度为序列长度为 n 的双序列比对的双序列比对n n2 比对比对o 比对数目成指数增长比对数目成指数增长n 例如:序列长度为例如:序列长度为n,序列数为,序列数为N 的多序列比对数目的多序列比对数目

    22、是是nNo 对于数目较少且较短的序列来说都不切实际对于数目较少且较短的序列来说都不切实际1.动态规划算法(Dynamic Programming)Sequence 1Sequence 2Sequence 3多维的动态规划算法分而治之分而治之 (Divide and Conquer, DCA)方法方法将MSA(Measurement System Analysis)的空间复杂度减小DCA在线MSA2. 分而治之方法So in effect Sequence 1Sequence 2Sequence 33. SP(Sum of Pairs)方法4. 累进算法(Progressive Methods)

    23、o 针对基于动态规划算法的MSA程序比对序列数目有限, Feng & Doolittle(1987)发明了累进算法o CLUSTAL 和 PILEUP 是目前常用的基于累进算法的比对软件o CLUSTAL 是免费软件,目前应用非常广泛 igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html1 对所有序列做双序列比对,构建距离矩阵计算相似性分数值2 基于双序列距离矩阵,构建一个进化树 Scer Cele Dmel MouseHuman3 依据进化树进行渐进比对 依据进化树,开始对关系较 近的序列进行两两比对 逐渐加入关系较远的序列进行比对 构建多序列比对Mult

    24、iple alignmentScerevisiae 1Celegans 2 0.640Drosophia 3 0.634 0.327Human 4 0.630 0.408 0.420Mouse 5 0.619 0.405 0.469 0.289累进算法原理一般累进比对方法132513131325254droot果仁糖累进方法(Praline progressive strategy)13213131325254d d4累进算法的一些问题o 比对的准确性高度依赖于开始选择的双序列比对o 序列关系越远发生的错误可能越高o 选择合适的打分矩阵和罚分准则较困难ClLUSTALW/X简介CLUSTAL方

    25、法* CLUSTAL W (1.8) Multiple Sequence Alignments * 1.Sequence Input From Disc2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice:1CLUSTAL WSequences should all be in 1 file. 7 formats accepted: NBRF/PIR

    26、, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF. Enter the name of the sequence file: anti.fasta Sequence format is Pearson Sequences assumed to be PROTEIN Sequence 1: ANP4_PSEAM85 aa Sequence 2: ANP_LIMFE97 aa Sequence 3: ANPA_PSEAM82 aa Sequence 4: ANPX_PSEAM91 aa Sequence 5: ANPY_PS

    27、EAM91 aa CLUSTAL W* CLUSTAL W (1.8) Multiple Sequence Alignments * 1.Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 2 CLUSTAL WClustal W* * MULTIPLE ALIGNMENT MENU * * 1.

    28、 Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = OFF 8. Toggle screen display = ON 9

    29、. Output format options S. Execute a system command H. HELP or press RETURN to go back to main menuYour choice: 1 Enter a name for the CLUSTAL output file anti.aln: Enter name for new GUIDE TREE file anti.dnd: Start of Pairwise alignments Aligning. Sequences (1:2) Aligned. Score: 62 Sequences (1:3)

    30、Aligned. Score: 59 Sequences (1:4) Aligned. Score: 84 Sequences (1:5) Aligned. Score: 83 Sequences (2:3) Aligned. Score: 68 Sequences (2:4) Aligned. Score: 80 Sequences (2:5) Aligned. Score: 79 Sequences (3:4) Aligned. Score: 81 Sequences (3:5) Aligned. Score: 80 Sequences (4:5) Aligned. Score: 98 G

    31、uide tree : anti.dnd Start of Multiple Alignment There are 4 groups Aligning. Group 1: Sequences: 2 Score:1476 Group 2: Sequences: 3 Score:1499 Group 3: Sequences: 4 Score:1190 Group 4: Sequences: 5 Score:1404 Alignment Score 3470 Consensus length = 102 CLUSTAL-Alignment anti.aln Mac Vector界面的Clusta

    32、l WClustal X介绍ClustalX介绍ClustalX介绍ClustalX介绍ClustalX介绍ExampleMultiple sequence alignment of 7 neuroglobins using clustalxPILEUPOutput of Pileup 401 OATNFA1 TTCAG. .ACACTCAGG TCATCTTCTC AAGC OATNFAR TTCAG. .ACACTCAGG TCATCTTCTC AAGC BSPTNFA TTCAA. .ACACTCAGG TCCTCTTCTC AAGC CEU14683 TTCAG. .ACCCTCAGG

    33、 TCATCTTCTC AAGC HSTNFR CCCAG. .GCAGTCAGA TCATCTTCTC GAACSYNTNFTRP CCCAG. .GCAGTCAGA TCATCTTCTC GAAC CATTNFAA CCCAG. .ACACTCAGA TCATCTTCTC GAAC CFTNFA TCCAG. .ACAGTCAAA TCATCTTCTC GAAC RABTNFM CCCAGATGGT CACCCTCAGA TCAGCTTCTC GGGC RNTNFAA CCCAGACCCT CACACTCAGA TCATCTTCTC AAAAOutput of PileupClUSTAL和

    34、PILEUP存在的问题5. 迭代方法 (Iterative Methods)二、局部序列比对1. 概形分析 (Pro)概形分析 (Pro)不同物种HSP70蛋白的profile图用CLUSTALX进行Profile比对2. 区块分析MSA中的统计学方法(Statistical Methods)(Expectation Maximization Algorithm,EM)(Gibbs Sampler)(Hidden Markov Model,HMM)(Position-Specific Scoring Matrix, PSSM)(Sequence Logo)最大期望运算法则MEME (Multi

    35、ple EM for Motif Elicitation)o MEME程序是由加州大学san Diego 分校的超级计算中心所创立。o MEME的三种模体(Motif)模型:n OOPS每条序列中预期出现一次motif;n ZOOPS每条序列出现零次或一次motif;n TCM每条序列中出现任意次数的motif。基于Web的MEME软件o 在线MEME工具:n MEMEo Discover motifs (highly conserved regions) in groups of related DNA or protein sequences o http:/meme.sdsc.edu/m

    36、eme/website/meme.html n MASTo Search sequence databases using motifso http:/meme.sdsc.edu/meme/website/mast.html MEME结果隐马尔可夫模型(HMM)隐马尔可夫模型(HMM)o 优点:植根于概率论,无须序列的顺序信息,无需插入/缺失和罚分,可以用到很多先验信息。o 缺点:需要至少20条序列,有时需要更多才能了解进化历史。o 分析工具:HMMER(/)o Pfam: (protein domain alignments and profile HMMs) http:/ HMM示意图NKYLT是通过BEG-M1-I1-M2-M3-M4-END计算这条路径的概率位置特异性记分矩阵PSSM用途序列标语(Sequence Logos)X轴表示模式的位置,Y轴上字母高度代表该字母在此位置上出现的频率CINEMA

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:序列比对与算法和软件使用课件.ppt
    链接地址:https://www.163wenku.com/p-2875344.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库