BLAST原理及方法(课堂)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《BLAST原理及方法(课堂)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- BLAST 原理 方法 课堂 课件
- 资源描述:
-
1、.1第三章第三章 BLAST:Basic local alignment search toolBL A ST!.2Outline Summary of key points about pairwise alignment Introduction to BLAST:practical guide to database searching The BLAST algorithm BLAST search strategies.3Pairwise alignment:key points Pairwise alignments allow us to describe the percent
2、 identity two sequences share,as well as the percent similarity The score of a pairwise alignment includes positive values for exact matches,and other scores for mismatches and gaps PAM and BLOSUM matrices provide a set of rules for assigning scores.PAM10 and BLOSUM80 are examples of matrices approp
3、riate for the comparison of closely related sequences.PAM250 and BLOSUM30 are examples of matrices used to score distantly related proteins.Global and local alignments can be made.4BLASTBLAST(Basic Local Alignment Search Tool)allows rapid sequence comparison of a querysequence against a database.The
4、 BLAST algorithm is fast,accurate,and web-accessible.5Why use BLAST?BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具。BLAST搜索是研究一个蛋白质和基因的最基本的方法之一。.6Why use BLAST?BLAST 具有非常广泛的应用:v 确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。除了RBP外,还有哪些其他的脂质运载蛋白是我们所知道的?当一个新的细菌的基因组被测序后,几千种蛋白质被确定,其中有多少蛋白质是同源的?从这里面测出的基因中有多少是在GenBank中找
5、不到显著性同源物的?v 确定哪些蛋白质和基因在特定的物种中出现。植物中是否也存在像RBP这样的脂质运载蛋白?鱼类中是否有反转录酶基因(HIV-1 pol 基因)?.7Why use BLAST?BLAST 具有非常广泛的应用:v 确定一个DNA或蛋白质序列身份。如可能通过一个负杂交实验或芯片实验发现一个特殊的DNA序列中你所使用的实验条件下是被显著调控的,那么就可以通过将这个DNA序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质是与你的DNA序列所编码的蛋白质相关性最高的。v 发现新基因。如一个对于全基因组DNA的BLAST搜索可能会发现一个DNA所编码的蛋白质是以前所没有报道过的v 确定一
6、个特定基因或蛋白质有哪些已经发现了的变种。例如,很多病毒都具有极强的突变能力;HIV-1pol有哪些已知的变异体?.8Why use BLAST?BLAST 具有非常广泛的应用:v 研究可能存在多种剪切方式的表达序列标签。有专门用于BLAST搜索的EST数据库。实际上有许多用来进行搜索专门的数据库,如专门的包含同一个特定的物种、一种组织、一个染色体、一种DNA或一个蛋白质功能类的序列数据库。v 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基。一次BLAST搜索的结果可以放在一起比对,这时候,就会发现其中像半胱氨酸残基这样可能具有重要生物学功能的保守残基。.9Four componen
7、ts to a BLAST search(1)Choose the sequence(query)(2)Select the BLAST program(3)Choose the database to search(4)Choose optional parametersThen click“BLAST”.10.11NP_006735.12.13Step 1:Choose your sequence三种主要的输入方式:v 剪切然后粘贴DNA或蛋白质序列v使用FASTA格式的序列v简单地使用索引号码(如一个RefSeq或GenBank(GI)的序号)。Sequence can be input
8、 in FASTA format or as accession number.14Example of the FASTA format for a BLAST query一个一个FASTA格式的序列以一个单行的说明开始,接下来是格式的序列以一个单行的说明开始,接下来是若干个行的序列数据。若干个行的序列数据。在一个在一个BLAST搜索中输入搜索中输入accession number通常要容易通常要容易些。些。BLAST程序可以识别和忽略出现在你的输入序列字母程序可以识别和忽略出现在你的输入序列字母中间的数字。中间的数字。.15Step 2:Choose the BLAST program.1
9、6Step 2:Choose the BLAST programblastn(nucleotide BLAST)blastp(protein BLAST)tblastn(translated BLAST)blastx(translated BLAST)tblastx(translated BLAST).17.18Step 2:Choose the BLAST programblastn(nucleotide BLAST):将一个核酸的查询序列与一个核酸序列数据库相比较。blastp(protein BLAST):将一个氨基酸的查询序列与一个蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索相关
10、的可选参数,如对各种PAM和BLOSUM打分矩阵的选择。tblastn(translated BLAST):将一个蛋白质查询序列与一个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行比较。可以用此程序来判断一个DNA数据库是否编码所感兴趣的查询蛋白。用RBP查询是否可以在某个已测序的DNA数据库中找到匹配项呢?.19Step 2:Choose the BLAST programblastx(translated BLAST):将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。如若有一个DNA序列,想知道它编码什么蛋白质,用此程序进行搜索。它会自动将DNA翻译成6
11、种可能的蛋白质。然后此程序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的各个成员进行比较。tblastx(translated BLAST):将一个核酸查询序列的6种框架的翻译结果与一个核酸序列数据库的6种框架翻译产物进行比较。该程序不能使用BLAST网页上提供的主要的去冗余(nr)数据库,因这一操作很消耗计算机资源。.20Choose the BLAST programProgram InputDatabase 1blastnDNADNA 1blastpproteinprotein 6blastxDNAprotein 6tblastnprotein DNA 36tblastxDNA D
12、NA.21DNA potentially encodes six proteins5 CAT CAA 5 ATC AAC 5 TCA ACT 5 GTG GGT 5 TGG GTA 5 GGG TAG5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 33 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5.22Step 3:choose the database BLAST搜索可使用的数据库会列在每一个BLAST页面上,对于蛋白质数据库搜索(blastp和blastx),两个主要的选择
13、即nr数据库和SwissProt。nr=non-redundant(most general database)dbest=database of expressed sequence tagsdbsts=database of sequence tag sitesgss=genomic survey sequenceshtgs=high throughput genomic sequence.23Step 3:choose the database nr数据库是合并了若干个主要的蛋白质或DNA数据库得到的。这些数据库中经常包含有相同的序列,但nr数据库只收录其中的一个序列(即使在nr数据库中
14、出现看上去一样的序列,实际上还是具有一些细节上的区别)。nr数据库是在要搜索现有的绝大多数序列时典型和常用的数据库。.24去冗余GenBank编码序列PDB+SwissProt+PIR+PRF.25.26当确定了要输入的序列和要搜索的数据库之后,还有10个其他的可选参数要确定。Limit by Entrez Query:任何NCBI BLAST 搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters.27Step 4a:选择可选的搜索参数选择可选的搜索参数Sel
15、ect optional search parameters.28Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters.29 Max target sequences:比对之后显示的最大的比对序列的数目。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters.30Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters.31 期望expect:期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数
16、据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。对于blastn、blastp、blastxt和blastn期望值的默认设置是10。在这个E值下,随机出现得分等于或高于比对得分S的期望数为10个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时,返回的数据库搜索结果将变少,匹配被搜索到的概率也会变小。增大E值将返回更多的结果。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters.32Step 4a:选择可选的搜索参数选择可选的搜索参数Select opti
17、onal search parameters.33Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters 字段长度word size:BLAST程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短 序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分:如果碱基对完全相同(如A与A),得某一正值;如果碱基对不很匹配(W与A或T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的合计得分便决定了序列间的相似程
18、度。对于蛋白质搜索,窗口大小可以被设定为3(默认值)或者2。当用一个查询序列来进行数据库搜索时,BLAST算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的序列段(字段)。对于blastp,更大的字段长度将得到更高的搜索精度。对于任意的字段长度,每个字段的匹配结果将被延伸以得到BLAST的输出结果。实际应用中对于蛋白质搜索很少需要改变字段的长度。对于核酸序列,默认的字段长度是11,BLAST的字长缺省值为11,即BLASTN将扫描数据库,直到发现那些与未知序列的11个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源
19、性和几乎所有随机产生的显著联配。它可以被增大(15)或减小(7)。降低字段长度将会使搜索变得更准确同时也会变得更慢。.34Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters.35 矩阵matrix:对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵:PAM30,PAM70,BLOSUM45,BLOSUM62(默认值)以及BLOSUM80.一些其他的BLAST服务器还提供了很多其他的替代矩阵,如PAM250。通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵。Step 4a:选择可选的搜索参数选择可选的搜索
20、参数Select optional search parameters.36PAM1矩阵:Dayhoff和同事利用可接受点突变的数据和每个氨基酸的发现频率产生突变概率矩阵M。矩阵元素Mij表示在一给定进化时期内氨基酸j(列)替换成氨基酸i(行)的概率。进化时期为一个PAM(PAM定义为进化趋异的单位,表示两个蛋白1%氨基酸发生变化的时间)。PAM1矩阵基于紧密相关蛋白质的比对,这些蛋白质家族内的序列一致程度至少有85%。除PAM1矩阵外的其他PAM矩阵是如何得来的?Dayhoff等用PAM1矩阵乘以自身数百次,得到其他PAM矩阵。如PAM250矩阵就是PAM1矩阵乘以自身250次产生,是BLA
21、ST搜索数据库的常用矩阵之一。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters.37Dayhoffs PAM1 mutation probability matrix原始氨基酸原始氨基酸Each element of the matrix shows the probability that an originalamino acid(top)will be replaced by another amino acid(side)替代氨基酸.38PAM250 mutation probability matrix A R N
22、 D C Q E G H I L K M F P S T W Y V A 13 6 9 9 5 8 9 12 6 8 6 7 7 4 11 11 11 2 4 9 R 3 17 4 3 2 5 3 2 6 3 2 9 4 1 4 4 3 7 2 2 N 4 4 6 7 2 5 6 4 6 3 2 5 3 2 4 5 4 2 3 3 D 5 4 8 11 1 7 10 5 6 3 2 5 3 1 4 5 5 1 2 3 C 2 1 1 1 52 1 1 2 2 2 1 1 1 1 2 3 2 1 4 2 Q 3 5 5 6 1 10 7 3 7 2 3 5 3 1 4 3 3 1 2 3 E 5
展开阅读全文