第二章、生物分子数据库课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章、生物分子数据库课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 生物 分子 数据库 课件
- 资源描述:
-
1、第二章第二章分子生物信息数据库分子生物信息数据库 2022-9-27第一节第一节 分子生物信息数据库分子生物信息数据库第二节第二节 核酸与蛋白质序列格式核酸与蛋白质序列格式转换转换简简 介介2022-9-27第一节、分子生物信息数据库第一节、分子生物信息数据库一、分子生物信息数据库简介一、分子生物信息数据库简介二、各大类主要数据库介绍二、各大类主要数据库介绍2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子
2、数据库 2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介 生物分子数据库应满足生物分子数据库应满足5个方面的主要个方面的主要需求需求v(1 1)时间性)时间性v(2 2)注释)注释 v(3 3)支撑数据)支撑数据 v(4 4)数据质量)数据质量 v(5 5)集成性)集成性 2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介(1)数据库的更新速度不断加快,)数据库的更新速度不断加快,数据量呈指数增长趋势;数据量呈指数增长趋势;(2)数据库使用频率增长更快,接近)数据库使用频率增长更快,接近500;(3)数据库的复杂程度不断增加)数据库的复杂程度不断增加;
3、(4)数据库网络化)数据库网络化;(5)面向应用;)面向应用;(6)先进的软硬件配置。)先进的软硬件配置。2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库核酸序列数据库核酸序列数据库蛋白质序列数据库蛋白质序列数据库蛋白质结构数据库蛋白质结构数据库蛋白质结构分类数据库蛋白质结构分类数据库功能数据库功能数据库生物信息学数据库导航系统生物信息学数据库导航系统2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库 基因组数据库的主体是模式生物基因组数据库,
4、其中基因组数据库的主体是模式生物基因组数据库,其中主要有世界各国人类基因组研究中心,测序中心构建的主要有世界各国人类基因组研究中心,测序中心构建的各种人类的基因组数据库。还有模式生物基因组数据库,各种人类的基因组数据库。还有模式生物基因组数据库,如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组数据库也纷纷上网。数据库也纷纷上网。基因组信息资源除了基因组本身信息外,还包括染色基因组信息资源除了基因组本身信息外,还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因体、基因突变、遗传疾病、分类学、比较基因组、基因的调控与表达、放射杂交、基因图谱等
5、各种数据库的调控与表达、放射杂交、基因图谱等各种数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(一)(一)GDB The GDB Human Genome Database gdb.org/于于1990年由美国年由美国JOHNS HOPKINS大学建立,现大学建立,现在由加拿大儿童医院生物信息学中心负责管理。在由加拿大儿童医院生物信息学中心负责管理。基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其
6、它对功能和表型的描述2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(一)(一)GDB The GDB Human Genome Database gdb.org/目前目前GDB中有:人类基因组区域中有:人类基因组区域(包括基因、克隆、包括基因、克隆、amplimers PCR 标记、断点标记、断点breakpoints、细胞遗、细胞遗传标记传标记cytogenetic markers、易碎位点、易碎位点fragile sites、EST序列、综合区域序列、综合区域syndromic regions、contigs和重复序列和重复序列);人类基因组图谱
7、人类基因组图谱(包括细胞遗传图谱、连接图谱、包括细胞遗传图谱、连接图谱、放射性杂交图谱、放射性杂交图谱、content contig图谱和综合图谱图谱和综合图谱等等);人类基因组内的变异;人类基因组内的变异(包括突变和多态性,加上包括突变和多态性,加上等位基因频率数据等位基因频率数据)。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库2022-9-27二、各大类主要数据库介绍
8、二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensemblensembl.org/Ensembl 试图跟踪所有人类基因组的序列片段,并将试图跟踪所有人类基因组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的序列片段组装成单个长序列,进而分析这些经过组装的DNA 序列,搜索其中的基因,发现生物学家或医学工作者序列,搜索其中的基因,发现生物学家或医学工作者感兴趣的特征。感兴趣的特征。Ensembl 包括所有公开的基因组包括所有公开的基因组DNA 序列,如人类基序列,如人类基因组、小鼠和大鼠基因组等。通过注释形成的关于序列的因组、小鼠和
9、大鼠基因组等。通过注释形成的关于序列的特征。基因就是一种特征,基因或者是通过实验发现的,特征。基因就是一种特征,基因或者是通过实验发现的,或者是通过或者是通过Ensembl 的程序预测的。的程序预测的。Ensembl 所用的基因预测程序为所用的基因预测程序为GenScan。其他的特。其他的特征包括单核苷酸多态性(征包括单核苷酸多态性(SNP)、重复序列与其它序列高)、重复序列与其它序列高度相似(或同源)的序列。度相似(或同源)的序列。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensembl2022-9-
10、27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensembl2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(三)其他基因组数据库(三)其他基因组数据库1、EcoGene 大肠杆菌(E.coli)K-12的序列 bmb.med.miami.edu/2、MITOMAP人类线粒体基因组 mitomap.org/3、SGD 酵母基因组数据库 genome-stanford.edu/Saccharomyces 2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍核酸序列数据
11、核酸序列数据 核酸序列是了解生物体结构、功能、发育和进化的出发核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(美国生物技术信息中心(NCBI)的)的GenBank欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL-Bank日本遗传研究所的日本遗传研究所的DDBJ 三个组织相互合作,各数据库中的数据基本一致,仅在三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。结果一样。这三
12、个数据库是综合性的这三个数据库是综合性的DNA 和和RNA序列数据库,其数序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。系统。2022-9-27(一)(一)GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心它是由美国国立生物技术信息中心(NCBI)
13、建立和维护的。建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量提交的大量EST序列和其它测序数据;以及与其它数据机序列和其它测序数据;以及与其它数据机构协作交换数据而来。构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室每天都会与欧洲分子生物学实验室(EMBL)的数据的数据库,和日本的库,和日本的DNA数据库数据库(DDBJ)交换数据,使这三个数据交换数据,使这三个数据库的数据同步。库的数据同步。Genbank的数据可以从的数据可以从NCBI的的FTP服务器上免费下载完整服务器上免费下载完整的库,或下载积
14、累的新数据。的库,或下载积累的新数据。NCBI还提供广泛的数据查询、还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从序列相似性搜索以及其它分析服务,用户可以从NCBI的主的主页上找到这些服务。页上找到这些服务。2022-9-27 Genbank库里的数据按来源于约库里的数据按来源于约55,000个物种,个物种,其中其中56%是人类的基因组序列是人类的基因组序列(所有序列中的所有序列中的34%是人类的是人类的EST序列序列)。每条。每条Genbank数据记录包含数据记录包含了对序列的简要描述,它的了对序列的简要描述,它的科学命名,物种分类科学命名,物种分类名称,参考文献,序列特征
15、表,以及序列本身名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及细菌类、病毒类、灵长类、啮齿类,以及EST数数据、基因组测序数据、大规模基因组序列数据等据、基因组测序数据、大规模基因组序列数据等16类,其中类,其中EST数据等又被各自分成若干个文件。数据等又被各自分成若干个文件。(一)(一)Genbank2022-9
16、-27ncbi.nlm.nih.gov(一)(一)Genbank2022-9-27(一)(一)Genbank2022-9-27(二)(二)EMBL EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)服务完成。2022-9-27ebi.ac.uk/embl/(二)(二)EMBL2022-9-27(三)(三)DDBJ数据库数据库 日本日本DNA数据仓库数据仓库(DDBJ)也是一个全也是一个全面的核酸序列数
17、据库,与面的核酸序列数据库,与Genbank和和EMBL核酸库合作交换数据。可以使用其核酸库合作交换数据。可以使用其主页上提供的主页上提供的SRS工具进行数据检索和序工具进行数据检索和序列分析。列分析。DDBJ的网址是:ddbj.nig.ac.jp/index-e.html2022-9-27(三)(三)DDBJ数据库数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)pir.georgetown.edu/由美国生物医学基金会由美国生物医学基金会NBRF(National B
18、iomedical Research Foundation)于)于1984 年建立的。年建立的。目的是帮助研究者鉴别和解释蛋白质序列信息,研究目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。数据库。w 所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%的序列已按的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。分类。2022-9-27二、各大类主
19、要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)pir.georgetown.edu/除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下信息:还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。2
20、022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FASTA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。目前,目前,PIR 包括三个子数据库,分别是:包括三个子数据库,分别是:蛋白质序列数据库蛋白质序列数据库PIR-PSD蛋白质分类数据库蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数
21、据库以及非冗余的蛋白质参考资料数据库PIR-NREF。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库2、SWISS-PROT (ebi.ac.uk/swissprot/曾经的网址)曾经的网址)uniprot.org/是由是由Geneva 大学和欧洲生物信息学研究所(大学和欧洲生物信息学研究所(EBI)于)于1986 年联合建立年联合建立的,它是目前国际上权威的蛋白质序列数据库。
22、的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT 中的蛋白中的蛋白质序列是经过注释的。质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库)从蛋白质数据库PIR挑选出合适的数据;挑选出合适的数据;(3)从科学文献中摘录;)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据)研究人员直接提交的蛋白质序列数据 与其它蛋白质序列数据库相比较,与其它蛋白质序列数据库相比较,SWISS-PROT 有三个明显的特点:有三个明显的特点:(1)注释)注释(2)最小冗余
23、)最小冗余(3)与其它数据库的连接)与其它数据库的连接2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍2、SWISS-PROT (ebi.ac.uk/swissprot/)2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库3、TrEMBL (ebi.ac.uk/trembl/index.html 曾经的网址曾经的网址)uniprot.org/TrEMBL是一个计算机注释的蛋白质数据库,作为是一个计算机注释的蛋白质数据库,作为SWISS-PROT 数据库的补充。该数据库主要包含从数据库的补充。该数据库主要包含从EMBL/Genba
24、nk/DDBJ 核酸数核酸数据库中根据编码序列据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列翻译而得到的蛋白质序列,并且这些序列尚未集成到尚未集成到SWISS-PROT 数据库中。数据库中。TrEMBL 有两个部分有两个部分SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到包含最终将要集成到SWISS-PROT 的数据,所有的的数据,所有的SP-TrEMBL 序列都已被赋予序列都已被赋予SWISS-PROT 的的 登录号。登录号。REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入包括所有不准备放入SWISS-PROT 的数据,因
展开阅读全文