基因组数据分析解析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基因组数据分析解析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 数据 分析 解析 课件
- 资源描述:
-
1、基因组数据注释和功能分析基因组数据注释和功能分析 1.通过序列比对工具通过序列比对工具BLAST学习,了解学习,了解蛋白编码基因的功能注释原理蛋白编码基因的功能注释原理2.介绍多序列联配工具介绍多序列联配工具ClustalX3.分子进化分析软件分子进化分析软件MEGA4的基本知的基本知识,掌握系统发生树绘制的基本方法识,掌握系统发生树绘制的基本方法序列比对的进化基础序列比对的进化基础 序列比对的目的:序列比对的目的:从核酸以及氨基酸的层次去分析序列的相同点和不同从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系点,以推测他们的结构、功能以及进化上的联系 通
2、过判断两个序列之间的相似性来判定两者是否具有通过判断两个序列之间的相似性来判定两者是否具有同源性同源性 相似性:直接的数量关系,如:序列之间相似部分相似性:直接的数量关系,如:序列之间相似部分的百分比的百分比 同源性:质的判断,两个基因在进化上是否曾有共同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断同祖先的推断BLAST 基本局部比对搜索工具基本局部比对搜索工具(Basic Local Alignment Search Tool)NCBI 上上 BLAST 服务的网址服务的网址:http:/www.ncbi.nlm.nih.gov/blast/NCBI 的的 BLAST 程序及数据库
3、下载网址:程序及数据库下载网址:ftp:/ftp.ncbi.nlm.nih.gov/blast选择物种选择物种选择选择blast程序程序Query SequenceAmino acid SequenceDNA SequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslated程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白比较氨基酸序列
4、与蛋白质数据库质数据库使用取代矩阵寻找较使用取代矩阵寻找较远的关系,进行远的关系,进行SEG过滤过滤blastnNucleotideNucleotide比较核酸序列与核酸数比较核酸序列与核酸数据库据库寻找较高分值的匹配,寻找较高分值的匹配,对较远的关系不太适对较远的关系不太适用用blastxNucleotideProtein比较核酸序列理论上的比较核酸序列理论上的六框架的所有转换结果六框架的所有转换结果和蛋白质数据库和蛋白质数据库用于新的用于新的DNA序列和序列和ESTs的分析,可转的分析,可转译搜索序列译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸比较蛋白质序
5、列和核酸序列数据库,动态转换序列数据库,动态转换为六框架结果为六框架结果用于寻找数据库中没用于寻找数据库中没有标注的编码区,可有标注的编码区,可转译数据库序列转译数据库序列tblastxNucleotideNucleotide比较比较核酸核酸序列和核酸序序列和核酸序列数据库,列数据库,经过两次经过两次动动态转换为六框架结果态转换为六框架结果转译搜索序列与数据转译搜索序列与数据库序列库序列与核酸相关的数据库与核酸相关的数据库与蛋白质相关的数据库与蛋白质相关的数据库选择数据库选择数据库序列或目标序列的序列或目标序列的GI号号以文件格式上传以文件格式上传配对与错配配对与错配空位罚分空位罚分PSI-B
6、LAST:位点特异迭代位点特异迭代 打分矩阵:打分矩阵:PAM 30PAM 30PAM 70PAM 70BLOSUM80BLOSUM80BLOSUM62BLOSUM62BLOSUM45BLOSUM45选择打分矩阵(选择打分矩阵(scoring matrix)The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1%divergence.Other PAM matrices are extrapolate
7、d from PAM1.The BLOSUM family Based on local alignments.BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62%divergence.All BLOSUM matrices are based on observed alignments;they are not extrapolated from comparisons of closely related proteins.进行比对的数据库进行比对的数据库图形化结果图形化结
8、果The Expect value(E)is a parameter that describes the number of hits one can expect to see just by chance when searching a database of a particular size.上机实习上机实习1:网上运行:网上运行blastx和和blastn(NCBI blastNCBI blast网址:网址:http:/www.ncbi.nlm.nih.gov/BLAST/)lesson.seq.screen.Contig34 lesson.seq.screen.Contig34
9、 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCATTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAG
10、GGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGACAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCTCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGC
11、GTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGT
12、TGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGAGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACA
13、CCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGG
14、TTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGA
15、GAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGAT
16、GGCTTAGAGAAACTAGCACCACAGTCGACCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1.1.对对contig34contig34进行网上进行网上blastnblastn(演示),(演示),2.2.blastxblastx(自行操作)比对(自行操作)比对本地运行本地运行BLASTBLAST 下载下载 (http:/http:/www.ncbi.nlm.nih.gov/blast/download.shtmwww.ncbi.nlm.nih.gov/blast/download.shtml l )安装(安装到安
17、装(安装到C C:)数据库的格式化(数据库的格式化(formatdbformatdb)程序运行程序运行 (blastallblastall)双击安装到双击安装到D盘盘产生三个文件夹产生三个文件夹bindatadoc将将 db,in复制到复制到Blast/bin文件夹下文件夹下bin含可执行程序含可执行程序(将数据库及需要比将数据库及需要比对操作的数据放入该文件对操作的数据放入该文件);data文件夹含打分矩阵及演示例子的文件夹含打分矩阵及演示例子的序列数据信息;序列数据信息;doc文件夹含关于各子程序的说明文文件夹含关于各子程序的说明文档。档。数据库的格式化数据库的格式化formatdbfor
18、matdb命令用于数据库的格式化:命令用于数据库的格式化:formatdbformatdb option1option2option3 option1option2option3 formatdbformatdb常用参数常用参数 -i i database_namedatabase_name 需要格式化的数据库名称需要格式化的数据库名称 -p TF -p TF 待格式化数据库的序列类型待格式化数据库的序列类型 (核苷酸选(核苷酸选F F;蛋白质选;蛋白质选T T;默认值为;默认值为T)T)例:例:formatdb-i db-p T 对蛋白质数据库对蛋白质数据库“db”进行格式化进行格式化 程序
19、运行程序运行blastallblastall命令用于运行五个命令用于运行五个blastblast子程序子程序:blastallblastall option1option2option3 option1option2option3 blastallblastall常用参数常用参数 四个必需参数 -p program_name,程序名,根据数据库及搜索文件序列性质进行选择;程序名,根据数据库及搜索文件序列性质进行选择;-d database_name,数据库名称数据库名称,比对完成格式化的数据库;比对完成格式化的数据库;-i input_file,搜索文件名称;搜索文件名称;-o output_
展开阅读全文