书签 分享 收藏 举报 版权申诉 / 73
上传文档赚钱

类型(精编)生物信息学经典教程课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5216226
  • 上传时间:2023-02-17
  • 格式:PPT
  • 页数:73
  • 大小:2.91MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《(精编)生物信息学经典教程课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    精编 生物 信息学 经典 教程 课件
    资源描述:

    1、实习一实习一基因组数据注释和功能分基因组数据注释和功能分析析越努力越幸运课程内容课程内容基因组学基因组学转录物组学转录物组学蛋白质组学蛋白质组学系统生物学系统生物学越努力越幸运1.通过序列比对工具通过序列比对工具BLAST学习,了解学习,了解蛋白编码基因的功能注释原理蛋白编码基因的功能注释原理2.介绍多序列联配工具介绍多序列联配工具ClustalX3.分子进化分析软件分子进化分析软件MEGA4的基本知的基本知识,掌握系统发生树绘制的基本方法识,掌握系统发生树绘制的基本方法越努力越幸运序列比对的进化基础序列比对的进化基础什么是序列比对:什么是序列比对:将两个或多个序列按照最佳匹配方式排列在一起。

    2、对应的相同或相似的符号排列在同一列上。错配与突变相应,空位与插入或缺失对应。序列比对的目的:序列比对的目的:从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系通过判断两个序列之间的相似性来判定两者是否具有同源性 相似性:可以被数量化,如:序列之间相似部分的百分比 同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断越努力越幸运BLAST 基本局部比对搜索工具基本局部比对搜索工具(Basic Local Alignment Search Tool)NCBI上上BLAST服务的网址服务的网址:http:/www.ncbi.nlm.nih.gov/blast

    3、/NCBI上上blast程序的下载:程序的下载:ftp.ncbi.nlm.nih.gov/blast/executables/release/NCBI的的BLAST数据库下载网址:数据库下载网址:ftp:/ftp.ncbi.nlm.nih.gov/blast/越努力越幸运选择物种选择物种选择选择blast程序程序越努力越幸运QuerySequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDat

    4、abaseProteinDatabaseTranslatedTranslatedTranslated越努力越幸运越努力越幸运以以Blastx为例:为例:目标序列为目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC6个读码框翻译5端到端到3端端第一位起始:第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第二位起始:第二位起始:TGA GTA CCG CTA AAT TAG TTA AAT C

    5、AA AAG CGA CCA ATC TGC TTT ATA CCC GC第三位起始:第三位起始:GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到端到5端端第一位起始:第一位起始:GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第二位起始:第二位起始:CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第三位起始:第三位

    6、起始:GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T越努力越幸运越努力越幸运与核酸相关的数据库与核酸相关的数据库与蛋白质相关的数据库与蛋白质相关的数据库越努力越幸运选择数据库选择数据库序列或目标序列的序列或目标序列的GI号号以文件格式上传以文件格式上传BlastN越努力越幸运配对与错配配对与错配空位罚分空位罚分越努力越幸运BlastP越努力越幸运打分矩阵:打分矩阵:PAM30PAM30PAM70PAM70BLOSUM80BLOSUM80BLOSUM62BLOSUM62BLOSUM45BLOSUM45PA

    7、M模型可用于寻找蛋白质的进化起模型可用于寻找蛋白质的进化起源,而源,而BLOSUM模型则用于发现蛋模型则用于发现蛋白质的保守域。白质的保守域。越努力越幸运选择打分矩阵(选择打分矩阵(scoring matrix)The PAM familyBased on global alignmentsThe PAM1 is the matrix calculated from comparisons of sequences with no more than 1%divergence.Other PAM matrices are extrapolated from PAM1.The BLOSUM fa

    8、milyBased on local alignments.BLOSUM62 is a matrix calculated from comparison s of sequences with no less than 62%divergence.All BLOSUM matrices are based on observed alignments;they are not extrapolated from comparisons of closely related proteins.越努力越幸运进行比对的数据库进行比对的数据库图形化结果图形化结果越努力越幸运E值(值(E-value)

    9、表示仅仅因为随机性造成获得这一)表示仅仅因为随机性造成获得这一 比对结果的可能性。这一数值越比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。接近零,发生这一事件的可能性越小。越努力越幸运越努力越幸运上机实习上机实习1:网上运行:网上运行blastx和和blastn(NCBIblastNCBIblast网址:网址:http:/www.ncbi.nlm.nih.gov/BLAST/)lesson.seq.screen.Contig34lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTC

    10、TGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGTTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTG

    11、CTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGAT

    12、GATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCTGTTCAGATAGCCT

    13、GTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGAC

    14、AATCTGCCGGTTGTCAGAGGAGAAGGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGC

    15、AAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAG

    16、GCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACCCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGC

    17、ACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1.1.对对contig34contig34进行网上进行网上blastnblastn(演示),(演示),2.2.blastxblastx(自行操作)比对(自行操作)比对*由于时间关系,请参见预存结果。由于时间关系,请参见预存结果。越努力越幸运本地运行本地运行BLASTBLAST 下载下载NCBI上上blast程序:程序:ftp.ncbi.nlm.nih.gov/blast/executables/release/安装(安装到安装(安装到C:C:)数据库的格式化(数据库的格式化(formatdbformatdb)程序运行(

    18、程序运行(blastallblastall)越努力越幸运登陆登陆NCBI的的FTP下载下载blast程序程序越努力越幸运双击安装到双击安装到C盘盘产生三个文件夹产生三个文件夹bindatadoc将数据库文件将数据库文件(db)及目标序及目标序列文件列文件(in)保存在保存在Blast/bin文件夹下文件夹下bin含可执行程序含可执行程序(将数据库及需要比将数据库及需要比对操作的数据放入该文件对操作的数据放入该文件);data文件夹含打分矩阵及演示例子的文件夹含打分矩阵及演示例子的序列数据信息;序列数据信息;doc文件夹含关于各子程序的说明文文件夹含关于各子程序的说明文档。档。越努力越幸运本地数

    19、据库的构建本地数据库的构建查看查看db文件文件由由fasta格式的序列组成格式的序列组成越努力越幸运数据库的格式化数据库的格式化formatdbformatdb命令用于数据库的格式化:命令用于数据库的格式化:formatdb option1 option2 option3formatdb option1 option2 option3formatdbformatdb常用参数常用参数-i database_name i database_name 需要格式化的数据库名称需要格式化的数据库名称-p TF-p TF 待格式化数据库的序列类型待格式化数据库的序列类型(核苷酸选(核苷酸选F F;蛋白质选

    20、;蛋白质选T T;默认值为;默认值为T)T)例:例:formatdb-i db-p Tformatdb-i db-p T对对蛋白质蛋白质数据库数据库“db”进行格式化进行格式化越努力越幸运程序运行程序运行blastallblastall命令用于运行五个命令用于运行五个blastblast子程序子程序:blastall option1 option2 option3blastall option1 option2 option3*可在可在dos下输入下输入blastall查看各个参数的意义及使用查看各个参数的意义及使用blastallblastall常用参数常用参数 四个必需参数-p progr

    21、am_name,程序名,根据数据库及搜索文件序列性质进行选择;程序名,根据数据库及搜索文件序列性质进行选择;-d database_name,数据库名称数据库名称,比对完成格式化的数据库;比对完成格式化的数据库;-i input_file,搜索文件名称;搜索文件名称;-o output_file,BLASTBLAST结果文件名称;结果文件名称;两个常用参数-e expectation,期待值,期待值,默认值为默认值为10.010.0,可采用科学计数法来表示,如,可采用科学计数法来表示,如2e-52e-5;-m alignment view options:比对显示选项,其具体的说明可以用以下的

    22、比对实例比对显示选项,其具体的说明可以用以下的比对实例说明说明例:blastall-p blastx-d db-i in-o out-e 2e-5-m 9(表格显示比对结果表格显示比对结果)采用blastx程序,将in中的序列到数据库bd中进行比对,结果以表格形式输入到out文件越努力越幸运上机实习上机实习2:本地运行本地运行blastx 进入进入DOS命令行提示符状态(命令行提示符状态(“运行运行”cmd)进入进入C盘盘“cd”进入包含序列数据的进入包含序列数据的bin目录下目录下“cd Blastbin”察看目录下内容察看目录下内容“dir”格式化数据库格式化数据库db“formatdb-

    23、i db-p T”运行运行blastx “blastall-p blastx-i in-d db-o out-e 2e-5-m 9”察看结果察看结果“more out”或在或在 windows下双击打开下双击打开输入输入数据库类型:数据库类型:F/TBlast程序程序 序列输入序列输入 数据库数据库 结果输出结果输出越努力越幸运越努力越幸运输入输入“cd”-回车回车回到安装目录回到安装目录C盘盘输入输入“cd blastbin”-回回车车到达到达blast程序下程序下bin文件夹文件夹越努力越幸运输入输入“dir”-回车回车察看察看bin文件夹下内容文件夹下内容bin文件夹下包含文件夹下包含以

    24、以.exe为后缀的程序为后缀的程序文件以及这次实习文件以及这次实习需要用到的数据可需要用到的数据可文件文件“bd”和目标序和目标序列文件列文件“in”越努力越幸运输入输入“more db”-回车察看回车察看db文件内容文件内容空格键翻页输入“q”跳出越努力越幸运输入输入“formatdb i db p T”-回车回车对对db数据库进行格式化数据库进行格式化越努力越幸运输入输入“dir”-回车回车察看察看bin文件夹下内容文件夹下内容格式化以后产生的文件格式化以后产生的文件越努力越幸运输入输入“blastall-p blastx-i in-d db-o out-e 2e-5-m 9”-回车回车运

    25、行运行blastx程序程序越努力越幸运产生的结果文件产生的结果文件“out”越努力越幸运用用”more out”察看结果文件察看结果文件越努力越幸运不使用不使用m参数时参数时比对结果显示序列两两比对比对结果显示序列两两比对越努力越幸运用用”more out”察看结果文件察看结果文件越努力越幸运多序列比对的目的多序列比对的目的 从物种的一些分子特性出发,从而了解物种之从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。间的生物系统发生的关系。通过序列同源性的比较进而了解基因的进化以通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。及生物系统发生的内在规律。越努力越幸运

    26、多序列比对的应用:多序列比对的应用:系统发育分析系统发育分析(phylogenetic analysis)(phylogenetic analysis)结构预测结构预测(structure prediction)(structure prediction)序列基序鉴定序列基序鉴定(sequence motif(sequence motif identification)identification)功能预测功能预测(function prediction)(function prediction)ClustalW/ClustalXClustalW/ClustalX:一种全局的多序列比:一种全局

    27、的多序列比对程序,可以用来绘制亲缘树,分析进化关对程序,可以用来绘制亲缘树,分析进化关系。系。MEGA4MEGA4越努力越幸运ClustalW/XClustalW/X的运行的运行 本地运行本地运行 命令行操作的命令行操作的Clustal WClustal W(linux&windows)linux&windows)窗口化操作的窗口化操作的ClustalXClustalX(windowswindows)下载页面:下载页面:ftp:/ftp.ebi.ac.uk/pub/software/欧洲生物学中心(欧洲生物学中心(EBI)还提供了)还提供了Clustal W的网上的网上运行服务运行服务(htt

    28、p:/www.ebi.ac.uk/clustalwhttp:/www.ebi.ac.uk/clustalw)越努力越幸运目标序列目标序列各种参数设定各种参数设定下载下载ClustalX越努力越幸运Jalview结果下载结果下载越努力越幸运越努力越幸运上机实习上机实习3 3:本地运行:本地运行ClustalXClustalX17-RNASE1.fasta 多序列比对多序列比对(Multiple Alignment)越努力越幸运在在C:zcnishiyan1clustalx1.83文件夹下,找到文件夹下,找到clustalx.exe双击打开双击打开越努力越幸运Clustalx窗口窗口越努力越幸运点

    29、击点击File下拉菜单中下拉菜单中Load sequences选项,选项,打开序列文件打开序列文件17-RNASE1.fasta.txt越努力越幸运打开后的界面打开后的界面越努力越幸运点击进行多序列比对点击进行多序列比对越努力越幸运可在可在Alignment下拉菜单中的下拉菜单中的Alignment Parameters中设定各个参数中设定各个参数越努力越幸运点击点击Alignment下拉菜单中的下拉菜单中的Do Complete Alignment进行比对进行比对越努力越幸运比对结果比对结果“*”、“:”、“.”和空格依次代表改位点的序列一致性由高和空格依次代表改位点的序列一致性由高到低到低

    30、越努力越幸运MEGA4一个关于序列分析及比较一个关于序列分析及比较统计的工具包统计的工具包包含距离建树包含距离建树,MP等建等建树法树法自动或手动进行序列比对;自动或手动进行序列比对;推断进化树;推断进化树;估算分子进化率,进行进化假设测验;估算分子进化率,进行进化假设测验;联机进行数据库搜索;联机进行数据库搜索;越努力越幸运MEGA4MEGA4可以识别可以识别fastafasta格式文件格式文件将将17-RNASE1.fasta.txt17-RNASE1.fasta.txt重命名为重命名为17-RNASE1.fasta17-RNASE1.fasta越努力越幸运选择打开方式为选择打开方式为ME

    31、GA4,打开,打开17-RNASE1.fasta,自动跳,自动跳出序列窗口出序列窗口用用ClustalW做多序列联配做多序列联配越努力越幸运ClustalW参数设置参数设置越努力越幸运越努力越幸运以以.meg格式保格式保存结果存结果越努力越幸运回到回到MEGA主窗口主窗口激活所保存的文件(激活所保存的文件(.meg)越努力越幸运编辑标注编辑标注 保守区域标注保守区域标注 不匹配的区域不匹配的区域越努力越幸运回到回到MEGA4主窗口构建进化树主窗口构建进化树已被激活的文件已被激活的文件越努力越幸运选择选择Bootstrap重重复次数,至少为复次数,至少为100次次越努力越幸运四种系统进化树构建方

    32、法四种系统进化树构建方法 分分化化程程度度较较大大的的远远缘缘序序列列:邻邻位位相相连连法法(neighbor-joining,NJ)最最小小进进化化法法(ME)分分化化程程度度较较小小的的近近缘缘序序列列:最最大大简简约约法法(MP)除除权权配配对对法法(UPGMA)越努力越幸运进化树的可靠性分析BootstrapMethod从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性至少进行100次重复取样越努力越幸运原始数据多序列比对结果对序列中每个位置重复抽样,基于原比对结

    33、果生成多个样本越努力越幸运Original treeBootstrap consensus tree节点上的值为通过节点上的值为通过Bootstrap检验的次数检验的次数越努力越幸运不同树型不同树型Tree:树型选择树型选择Branch:分支信息修改分支信息修改Label:分支名称修改分支名称修改Scale:标尺设定标尺设定Cutoff:cutoff值值越努力越幸运越努力越幸运上机练习上机练习4:MEGA4.0越努力越幸运谢谢!越努力越幸运选择构树方法选择构树方法 最大简约法最大简约法(maximumparsimony,MP)(maximumparsimony,MP)对所有可能的拓扑结构进行计

    34、算,并计算出对所有可能的拓扑结构进行计算,并计算出所需替代数最所需替代数最小小的那个拓扑结构,作为最优树。的那个拓扑结构,作为最优树。基于距离矩阵基于距离矩阵 UPGMA(UnweightedPair-UPGMA(UnweightedPair-GroupMethodusingAnathematicAverage)GroupMethodusingAnathematicAverage)将类间距离定义为两个类成员距离的平均值,广泛应用于将类间距离定义为两个类成员距离的平均值,广泛应用于距离矩阵距离矩阵 NJNJ(Neighbor-joiningNeighbor-joining)把所有把所有n n个序列两两比对,构建个序列两两比对,构建NJNJ树(起指导作用),每树(起指导作用),每个对比后的成对序列都可以跟第三条序列或者另一个新的个对比后的成对序列都可以跟第三条序列或者另一个新的alignmentalignment比对,按照距离远近,用来决定下一个参与比对,按照距离远近,用来决定下一个参与比对的序列比对的序列越努力越幸运越努力越幸运

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:(精编)生物信息学经典教程课件.ppt
    链接地址:https://www.163wenku.com/p-5216226.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库