多序列联配和系统进化树组织构建课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多序列联配和系统进化树组织构建课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 系统 进化 组织 构建 课件
- 资源描述:
-
1、多序列联配和多序列联配和系统进化树组织构建系统进化树组织构建序列同源性分析序列同源性分析 当我们在研究一个蛋白质或基因时,经常会考虑这样一个很基本当我们在研究一个蛋白质或基因时,经常会考虑这样一个很基本的问题:它与其他蛋白质的同源性关系如何?的问题:它与其他蛋白质的同源性关系如何?序列同源性分析:序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。是理论分析方法中最关键
2、的一步。 由于同源序列通常保持了相似的结构和功能,因而多序列比对就由于同源序列通常保持了相似的结构和功能,因而多序列比对就显得很有意义。显得很有意义。 尽管可以对蛋白质、尽管可以对蛋白质、DNA序列进行多重比对,但是很多数据库序列进行多重比对,但是很多数据库的比对只针对蛋白质家族。的比对只针对蛋白质家族。实际应用中常进行氨基酸序列的多序列比对,然后转化成相应的实际应用中常进行氨基酸序列的多序列比对,然后转化成相应的DNA比对比对多序列比对的定义多序列比对的定义 蛋白家族的特征是用存在一组同源序列的多重比对来定义的。蛋白家族的特征是用存在一组同源序列的多重比对来定义的。一个多重比对就是一组可以部
3、分或整体对齐的蛋白质或核苷酸一个多重比对就是一组可以部分或整体对齐的蛋白质或核苷酸序列序列(3个或个或3个以上个以上)。 相同或相似的氨基酸残基排在同一列上,这些对齐的残基在相同或相似的氨基酸残基排在同一列上,这些对齐的残基在进化意义上是同源的:来自共同的祖先。并且还可假定从结构进化意义上是同源的:来自共同的祖先。并且还可假定从结构角度看,这些残基也是同源的:在三维结构中,对齐的残基也角度看,这些残基也是同源的:在三维结构中,对齐的残基也倾向于占据对应的位置。倾向于占据对应的位置。 对于关系很近的一组序列,很容易产生多序列比对,甚至可对于关系很近的一组序列,很容易产生多序列比对,甚至可以直接观
4、察得到。但当序列间出现一些分歧时,多序列比对过以直接观察得到。但当序列间出现一些分歧时,多序列比对过程中出现的问题就很难解决了,如程中出现的问题就很难解决了,如gap数量和位置的估计就比数量和位置的估计就比较困难。较困难。 那么如何确定某些氨基酸残基是否对齐了呢?那么如何确定某些氨基酸残基是否对齐了呢? 可根据下面可根据下面4个特征来判断相应氨基酸残基是否已经对齐:个特征来判断相应氨基酸残基是否已经对齐: (1)一些高度保守的残基一些高度保守的残基(如参与形成二硫键的半胱氨酸如参与形成二硫键的半胱氨酸); (2)形成保守基序或结构域,如跨膜结构域和免疫球蛋白结构域形成保守基序或结构域,如跨膜结
5、构域和免疫球蛋白结构域等。等。 (3)蛋白质二级结构的保守特征,如参与形成蛋白质二级结构的保守特征,如参与形成-螺旋、螺旋、-折叠和折叠和可变区的残基;可变区的残基; (4)显示出一致插入或缺失模式的区域。显示出一致插入或缺失模式的区域。多序列比对的定义多序列比对的定义多序列比对的意义多序列比对的意义u 用于分析同一基因或蛋白质在不同物种中用于分析同一基因或蛋白质在不同物种中的进化的进化u 通过分析多个基因或蛋白质序列之间的同通过分析多个基因或蛋白质序列之间的同源性确定它们在进化上的关系源性确定它们在进化上的关系u 分析基因或蛋白质的功能分析基因或蛋白质的功能70 Mya70 Mya200 M
6、ya200 MyaWGD 14 and 42 MyaWGD 14 and 42 Mya67.7 Mya67.7 MyaPhylogenetic Phylogenetic analysisanalysisEo, Eo, 棕榈棕榈; Ma, ; Ma, 香蕉香蕉; Zo, ; Zo, 姜姜; ; Cl, Cl, 姜黄姜黄72 Mya72 Mya多序列比对的典型应用和实际策略多序列比对的典型应用和实际策略 什么时候使用和为什么使用多重比对什么时候使用和为什么使用多重比对若所研究的蛋白质或基因与另一组蛋白质有联系,那么这若所研究的蛋白质或基因与另一组蛋白质有联系,那么这些蛋白质可以提供可能的功能、结构
7、、进化方面的信息;些蛋白质可以提供可能的功能、结构、进化方面的信息;大多数蛋白质家族中有远缘的成员。与两两比对相比,多大多数蛋白质家族中有远缘的成员。与两两比对相比,多序列比对能够更敏感地发现同源关系;序列比对能够更敏感地发现同源关系;在检查某次数据库搜索结果时,多重比对形式的结果能更在检查某次数据库搜索结果时,多重比对形式的结果能更容易显示保守残基与基序;容易显示保守残基与基序;如果研究如果研究cDNA克隆,按照惯例我们会对相应序列进行测序。克隆,按照惯例我们会对相应序列进行测序。多序列比对可以显示结果中是否有矛盾之处;多序列比对可以显示结果中是否有矛盾之处;分析物种数据可以揭示很多生物学问
8、题(如进化、结构和分析物种数据可以揭示很多生物学问题(如进化、结构和功能等方面)。功能等方面)。Entrez的的PopSet部分包含了核酸和蛋白质部分包含了核酸和蛋白质的物种数据集,可以多重比对的形式显示。的物种数据集,可以多重比对的形式显示。多序列比对的典型应用和实际策略多序列比对的典型应用和实际策略 什么时候使用和为什么使用多重比对什么时候使用和为什么使用多重比对6. 当一个物种的基因组被完整测序,数据分析的一个主要部分当一个物种的基因组被完整测序,数据分析的一个主要部分是定义所有基于产物所归属的蛋白家族。数据库搜索进行高效是定义所有基于产物所归属的蛋白家族。数据库搜索进行高效的多重比对,
9、将每一个新蛋白或基因与其他所有家族的蛋白质的多重比对,将每一个新蛋白或基因与其他所有家族的蛋白质进行比较。进行比较。7. 利用多序列比对数据构建系统发生树。建树的一个最关键的利用多序列比对数据构建系统发生树。建树的一个最关键的步骤就是产生最佳的多序列比对。步骤就是产生最佳的多序列比对。8. 很多基因的调节区含有转录因子结合的共有序列。很多基因的调节区含有转录因子结合的共有序列。9. 功能分歧分析、分子进化分析等。功能分歧分析、分子进化分析等。10.其他应用,如构建其他应用,如构建profile,打分矩阵等。,打分矩阵等。HMMER就是利用就是利用已知同源序列的多序列比对结果构建已知同源序列的多
10、序列比对结果构建profile,然后再利用该,然后再利用该profile去搜索蛋白数据库查找相应蛋白的同源序列。去搜索蛋白数据库查找相应蛋白的同源序列。多序列比对的方法多序列比对的方法 同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。多序列比对的方法多序列比对的方法2. 计算机程序自动比对计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。基本上多序列比对可以分为基本
11、上多序列比对可以分为:1. 手工比对(辅助编辑软件如手工比对(辅助编辑软件如 bioedit,seaview,Genedoc等)等) 通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。Se-Al自动多序列比对的算法自动多序列比对的算法1. 同步法同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。2. 步进法步进法 最常见的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有进化相关性相似序列通常具有进化相
12、关性的这一假设。 Clustal的渐进比对过程的渐进比对过程 在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。多序列比对常用软件多序列比对常用软件1. Clustal W/ Clustal X2. MUSCLE3. MAFFT4. T-Coffee5. ProbCons6. POA7. DIALIGN性能比较 1. ClustalW/X: 最经典、最被广泛接受的工具 2. MUSCLE:
13、 目前最流行的多序列比对工具 3. DIALIGN: 序列相似性低时最准确 4. POA:性能接近T-Coffee和DIALIGN,速度最快(As sequences varied considerably in length, POA (Lee et al. 2002), which treats long indels very accurately, was the alignment program of choice.) 5. ProbCons:目前综合性能比较好 6. T-Coffee:序列相似性高时最准确 7. MAFFT:综合性能比较好Clustal工具工具 Clustal是一
14、个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustalw,clustalx等。 CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。Clustal的工作原理Clustal输入多个序列输入多个序列快速的序列两两比对,计算序列间的距离,快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。获得一个距离矩阵。
15、邻接法邻接法(NJ)构建一个树(引导树)构建一个树(引导树)根据引导树,渐进比对多个序列。根据引导树,渐进比对多个序列。Clustal的比对模式多序列比对模式多序列比对模式Profile比对模式比对模式:先对不同的亚家族成员进行多序:先对不同的亚家族成员进行多序列比对,然后将两个多序列比对进行整合。列比对,然后将两个多序列比对进行整合。Clustalx的工作界面(多序列比对模式多序列比对模式)Clustalx的工作界面(profile比对模式比对模式)Clustal X的应用1. 输入输出格式输入输出格式 输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-P
16、ROT、GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。2. 两种工作模式两种工作模式a. 多序列比对模式b. profile比对模式多序列比对实例输入文件的格式(fasta): HvNIP2-1MASNSRSNSRATFSSEIHDIGTVQNSTTPSMVYYTERSIADYFPPHLLKKVVSEVVSTFLLVFVTCGAAAISAHDVTRISQLGQSVAGGLIVVVMIYAVGHISGAHMNPAVTLAFAIFRHFPWIQVPFYWAAQFTGAICASFVL
17、KAVLHPITVIGTTEPVGPHWHALVIEVVVTFNMMFVTLAVATDTRAVGELAGLAVGSSVCITSIFAGAVSGGSMNPARTLGPALASNRYPGLWLYFLGPVLGTLSGAWTYTYIRFEDPPKDAPQKLSSFKLRRLQSQSVAADDDELDHIPVHvNIP2-2MSVTSNTPTRANSRVNYSNEIHDLSTVQDGAPSLAPSMYYQEKSFADFFPPHLLKKVISELVATFLLVFVTCGAASIYGADVTRVSQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFACFRHFPWIQVPFYWAAQFT
18、GAMCAAFVLRAVLHPITVLGTTTPTGPHWHALVIEIIVTFNMMFITCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVASGVYTGLWIYFLGPVIGTLSGAWVYTYIRFEEEPSVKDGPQKLSSFKLRRLQSQRSMAVDEFDHVOsNIP2-1MASNNSRTNSRANYSNEIHDLSTVQNGTMPTMYYGEKAIADFFPPHLLKKVVSEVVATFLLVFMTCGAAGISGSDLSRISQLGQSIAGGLIVTVMIYAVGHISGAHMNPAVTLAFAVFRHFPWIQVPFYWAAQ
19、FTGAICASFVLKAVIHPVDVIGTTTPVGPHWHSLVVEVIVTFNMMFVTLAVATDTRAVGELAGLAVGSAVCITSIFAGAISGGSMNPARTLGPALASNKFDGLWIYFLGPVMGTLSGAWTYTFIRFEDTPKEGSSQKLSSFKLRRLRSQQSIAADDVDEMENIQVOsNIP2-2MASTTAPSRTNSRVNYSNEIHDLSTVQSVSAVPSVYYPEKSFADIFPPNLLKKVISEVVATFLLVFVTCGAASIYGEDMKRISQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFAFFRHFPWI
20、QVPFYWAAQFTGAMCAAFVLRAVLYPIEVLGTTTPTGPHWHALVIEIVVTFNMMFVTCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVASNVYTGLWIYFLGPVVGTLSGAWVYTYIRFEEAPAAAGGAAPQKLSSFKLRRLQSQSMAADEFDNV读入序列数据读入序列数据设置多序列设置多序列比对参数比对参数Profile多序列比对步骤多序列比对步骤1:先读入文件:先读入文件1,并对文件,并对文件1中的序列进行中的序列进行比对,将比对结果进行保存;比对,将比对结果进行保存;然后读入文件然后读入文件2,并
21、对文件,并对文件2中的序列进行多序列比对,将比对结果中的序列进行多序列比对,将比对结果进行保存。进行保存。Profile多序列比对步骤多序列比对步骤2:分别读入文件:分别读入文件1多序列比对结果多序列比对结果(profile1)及文件)及文件2多序列比对结果(多序列比对结果(profile2) 。Profile多序列比对步骤多序列比对步骤3:将文件:将文件1多序列比对结果及文件多序列比对结果及文件2多序列多序列比对结果进行比对。比对结果进行比对。Clustal WClustalW is a general purpose multiple sequence alignment program
22、for DNA or proteins. It produces biologically meaningful multiple sequence alignments of divergent sequences. It calculates the best match for the selected sequences, and lines them up so that the identities, similarities and differences can be seen. Evolutionary relationships can be seen via viewin
23、g Cladograms or Phylograms. 原理同原理同Clustal X软件。软件。Clustal X是是Clustal W的图形界面版本,的图形界面版本,在开发了在开发了Clustal W之后,之后,Thompson等又再等又再Clustal W基础上增加基础上增加了图形界面便有了了图形界面便有了Clustal X,它的操作更加直观简单。它的操作更加直观简单。可下载到可下载到PC机,使用方法同机,使用方法同Clustal X输出输出格式格式设定参数设定参数其他多其他多序列比序列比对工具对工具的链接的链接粘贴序列粘贴序列或以文件的格式上传或以文件的格式上传部分参数定义部分参数定义
24、Gap opening penalty:增大数值使:增大数值使 gap 数目减少数目减少Gap extention penalty:增大数值使:增大数值使 gap 长度变短长度变短Weight transition:AG 转换或转换或 CT 转换转换(multiple DNA sequence alignment)Hydrophilic gap:选择:选择“on” 将增加形成将增加形成 gap 的机会的机会(multiple protein sequence alignment)Residue-specific gap penalties:选择:选择“ on” 将增加在某些氨将增加在某些氨基酸
25、残基处形成基酸残基处形成 gap 的机会,而减少在另一些氨基酸残基处形的机会,而减少在另一些氨基酸残基处形成成 gap 的机会的机会(multiple protein sequence alignment)此比对结此比对结果文件可果文件可下载下载Phylip输出格输出格式,可用于进式,可用于进化树构建化树构建可将输出结果可将输出结果重新进行排序重新进行排序以彩以彩色形色形式显式显示示Clustal W产生的进化树。由产生的进化树。由邻接法获得,多没有经过可邻接法获得,多没有经过可靠性检验,不建议直接使用靠性检验,不建议直接使用MUSCLE MUSCLE stands for MUltiple
展开阅读全文