基因组研究-功能基因分析课件1.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基因组研究-功能基因分析课件1.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 研究 功能 基因 分析 课件
- 资源描述:
-
1、11梅艳珍梅艳珍南京师范大学生命科学学院南京师范大学生命科学学院基因组学研究基因组学研究功能基因分析功能基因分析现代生物学实验技术现代生物学实验技术2要求:要求:1.掌握常用的序列比对工具掌握常用的序列比对工具2.能构建进化树能构建进化树3.能够预测蛋白质的二级结构、疏水区、跨膜区等能够预测蛋白质的二级结构、疏水区、跨膜区等4.能够进行简单的同源建模分析能够进行简单的同源建模分析5.了解了解KEGG数据库的检索数据库的检索3序列比对序列比对BLASTBLAST应用应用4 4 同源性同源性(homology)(homology):指从一些数据中推断出的两个基因或蛋白质序列具有共指从一些数据中推断
2、出的两个基因或蛋白质序列具有共同祖先的结论,属于同祖先的结论,属于质的判断质的判断。A A和和B B的关系上,是同源序的关系上,是同源序列,或者非同源序列两种关系。而说列,或者非同源序列两种关系。而说A A和和B B的同源性为的同源性为8080都是不科学的。都是不科学的。相似性相似性(similarity)(similarity):是指一种直接的是指一种直接的数量关系数量关系,如部分相同或相似的百分比或,如部分相同或相似的百分比或其它一些合适的度量。比如说,其它一些合适的度量。比如说,A A序列和序列和B B序列的相似性是序列的相似性是8080,或者,或者4/54/5。生物序列的同源性生物序列
3、的同源性序列间相似性越高,它们是同源序列的可能性就更高序列间相似性越高,它们是同源序列的可能性就更高5BlastBlast程序评价序列相似性的两个数据程序评价序列相似性的两个数据ScoreScore:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,基(或碱基)打分求和的结果,一般来说,匹配片段越长、匹配片段越长、相似性相似性越高越高,则则ScoreScore值越大值越大。E valueE value:在相同长度的情况下,两个氨基酸残基(或碱基)在相同长度的情况下,两个氨基酸残基(或碱基)随机排列随机
4、排列的序列的序列进行打分,得到上述进行打分,得到上述ScoreScore值的概率的大小。值的概率的大小。E E值越小表示随机值越小表示随机情况下得到该情况下得到该ScoreScore值的可能性越低。值的可能性越低。我们在获得一个我们在获得一个BlastBlast结果时需要看这两个指标。结果时需要看这两个指标。如果如果BlastBlast获得的目标序列的获得的目标序列的ScoreScore值越高并且值越高并且E-valueE-value越低表明结果越越低表明结果越可信可信,反之越不可信,反之越不可信.6主要的主要的BLASTBLAST程序(功能)程序(功能)程序名程序名查询序列查询序列数据库数据
5、库搜索方法搜索方法BlastnBlastn核酸核酸核酸核酸在核酸数据库中比对核酸序列在核酸数据库中比对核酸序列BlastpBlastp蛋白质蛋白质蛋白质蛋白质在蛋白质数据库中比对蛋白质序列在蛋白质数据库中比对蛋白质序列BlastxBlastx核酸核酸蛋白质蛋白质在蛋白质数据库中比对待检的核酸序在蛋白质数据库中比对待检的核酸序列(用所有列(用所有6 6种可读框翻译)种可读框翻译)TblastnTblastn蛋白质蛋白质核酸核酸在核酸数据库(用所有在核酸数据库(用所有6 6种可读框翻种可读框翻译)中比对待检的蛋白质序列译)中比对待检的蛋白质序列TBlastxTBlastx核酸核酸核酸核酸在核酸数据
6、库(用所有在核酸数据库(用所有6 6种可读框翻种可读框翻译)中比对待检的核酸序列(也译)中比对待检的核酸序列(也用所有用所有6 6种可读框翻译)种可读框翻译)71.登陆登陆blast主页主页http:/www.ncbi.nlm.nih.gov/BLAST/组装的基因组序列库基本blast特定的BLAST所有的BLAST基因数据库88核酸数据库中比对核酸序列蛋白质数据库中比对蛋白质序列蛋白质数据库中比对核酸序列蛋白质数据库中比对核酸序列核酸数据库中比对蛋白质序列9Fasta格式文件1010 什么是什么是fasta格式?怎么建立?格式?怎么建立?新建一个新建一个txt文本文件,命名如文本文件,命名
7、如:bph.txt Fasta的格式:的格式:序列名称序列名称序列序列1112121.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索1313去冗余GenBank编码序列PDB+SwissProt+PIR+PRF14常用的检索数据库14Pdb拥有三维空间结构的原子坐标的氨基酸序列库拥有三维空间结构的原子坐标的氨基酸序列库Nr GenBank 蛋白数据库蛋白数据库ESTExpressed sequence tags,表达序列标签数据库,表达序列标签数据库STSsequence tagged sites,序列标签位点数据库,序列标签位
8、点数据库Htgshigh throughput genomic sequences,高通量基因组序列,高通量基因组序列GSSgenome survey sequences,基因组测定序列,基因组测定序列Yeast酵母基因组中基因编码的全套蛋白质酵母基因组中基因编码的全套蛋白质E.coli大肠杆菌基因组中基因编码的全套蛋白质大肠杆菌基因组中基因编码的全套蛋白质Mito脊椎动物线粒体的全基因组序列脊椎动物线粒体的全基因组序列Alu搜集了灵长类动物的搜集了灵长类动物的Alu重复序列重复序列Swissprot蛋白质数据库蛋白质数据库15以下列蛋白序列为例,进行BLAST搜索:P1MSDNGPQSNQR
9、SAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPS
10、ASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA16171818基因名基因名来源物种来源物种一致程度,一致程度,登录号登录号19所选序列下载序列20Cluster比对21Clustalx的工作界面(多序列比对模式多序列比对模式)2222Clustal的工作原理ClustalClustal输入多个序列输入多个序列快速的序列两两比对,计算序列间的快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。距离,获得一个距离矩阵。邻
11、接法邻接法(NJ)(NJ)构建一个树构建一个树根据进化树,渐进比对多个序列。根据进化树,渐进比对多个序列。2323ClustalxClustalx的输出结果的输出结果.aln.aln格式文件格式文件 这个文件是默认输出,可以转换成各种格式,而且很多这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。软件都支持这种格式。.dnd.dnd格式文件格式文件 引导树。就是根据两两序列相似值构建的一个指导后面引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树多重联配的启发树 不能做进化分析。进化分析要考虑的所有同源位点的一不能做进化分析。进化分析要考虑的所有同源位点的一个综
展开阅读全文