第四章生物信息学数据库(一)主要库及其文件格式课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第四章生物信息学数据库(一)主要库及其文件格式课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 生物 信息学 数据库 主要 及其 文件格式 课件
- 资源描述:
-
1、.生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库.(1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势(2)数据库使用频率增长更快)数据库使用频率增长更快(3)数据库的复杂程度不断增加)数据库的复杂程度不断增加(4)数据库网络化)数据库网络化(5)面向应用)面向应用(6)先进的软硬件配置)先进的软硬件配置.v生物分子数据库生物分子数据库 一级数据库一级数据库v数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于
2、实验获得的原始数据,只经过简单的归类整理和注释数据,只经过简单的归类整理和注释 二级数据库二级数据库v对原始生物分子数据进行整理、分类的结果,对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的础上针对特定的应用目标而建立的 。.生物信息学常用数据库种类生物信息学常用数据库种类 通用生物信息学数据库通用生物信息学数据库 特定(数据)数据库特定(数据)数据库 特定(物种)数据库特定(物种)数据库 各种通路数据库各种通路数据库 结构(图形结构(图形/图像)数据库图像)数据库.(1)美国生物技术信息中心(美
3、国生物技术信息中心(NCBI)的)的GenBank (http:/www.ncbi.nlm.nih.gov/Genbank/)(2)欧洲分子生物学实验室欧洲分子生物学实验室(EMBL)(http:/www.embl-heidelberg.de)的的 nucleotide sequence database(http:/www.ebi.ac.uk/embl/)(3)日本遗传研究所的日本遗传研究所的DDBJ (http:/www.ddbj.nig.ac.jp/)国际上三大权威数据库国际上三大权威数据库.NCBI (National Center for Biotechnology Informat
4、ion)http:/www.ncbi.nlm.nih.gov/全球最大的生物信息资源中心全球最大的生物信息资源中心 DNA 序列、蛋白质序列、出版物、数据挖掘工具等序列、蛋白质序列、出版物、数据挖掘工具等美国生物技术信息中心美国生物技术信息中心.美国的美国的GenBank从从1979年开始建设,年开始建设,1982年正式运行;年正式运行;.欧洲分子生物学实验室欧洲分子生物学实验室的的EMBL数据库也于数据库也于1982年开始服务年开始服务.EMBL(Germany).密密苏苏里里植植物物园园主主页页EMBL-EBI(UK).EBI,Hinxton(Cambridge),UK 2004年2月22
5、日摄.http:/www.ebi.ac.uk/embl/.http:/www.ebi.ac.uk/Databases/.21 Mar 2003 37,943,364,438 bases in 24,353,128 records.日本于日本于1984年开始建立国家年开始建立国家级的核酸数据库级的核酸数据库DDBJ,并于,并于1987年正式服务。年正式服务。.NCBI、EBI和和DDBJ之间的区别与联系之间的区别与联系.三个数据库中的数据基本一致,仅在数据三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数格式上有所差别,对于特定的查询,三个数据库的响应结果一样。据库的响应
6、结果一样。这三个数据库是综合性的这三个数据库是综合性的DNADNA和和RNARNA序列数序列数据库,每条记录代表一个单独、连续、附有据库,每条记录代表一个单独、连续、附有注释的注释的DNADNA或或RNARNA片段。片段。.人类基因组计划所得到的图谱数据人类基因组计划所得到的图谱数据 GDB包含对下述三种对象的描述:(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化
7、,包括基因突变和基因多态性,加上等位基因频率数据。20082008年年6 6月关闭月关闭.2、其他生物基因组数据库、其他生物基因组数据库.大肠杆菌大肠杆菌K12基因组数据库基因组数据库.酵母基因组数据库酵母基因组数据库.线虫基因组数据库线虫基因组数据库.果蝇基因组数据库果蝇基因组数据库.小鼠基因组数据库小鼠基因组数据库.玉米基因组数据库玉米基因组数据库.大肠杆菌K12基因组数据库 ecogene:http:/ecogene.org白色念珠菌基因组数据库 CGD(Candida Genome Database):http:/www.candidagenome.orgTIGR的微生物资源数据库 C
8、MR:http:/cmr.jcvi.org/tigr-scripts/CMR/CmrHomePage.cgi日本的微生物基因组数据库 MBGD:http:/mbgd.genome.ad.jp酵母基因组数据库 SGD(Saccharomyces Genome Database):http:/www.yeastgenome.orgTIGR的真菌基因组数据库:http:/www.tigr.org/tdb/fungal线虫基因组数据库 WormBase(the C.elegans genome database):http:/www.wormbase.org四膜虫基因组数据库 TGD(Tetrahym
9、ena Genome Database):http:/www.ciliate.org疟原虫基因组数据库 PlasmoDB(Plasmodium Genome Resource):http:/plasmodb.org/plasmo果蝇基因组数据库 FlyBase:http:/flybase.org(另可参看BDGP:http:/www.fruitfly.org)拟南芥信息资源 tair(The Arabidopsis Information Resource):http:/www.arabidopsis.org (另可参看The TIGR Arabidopsis thaliana Databas
10、e:http:/www.tigr.org/tdb/e2k1/ath1.水稻基因组数据资源:1、中国国际水稻基因组计划(IRGSP):http:/ 2、中国水稻信息系统(RISe):http:/ 3、美国 http:/rice.plantbiology.msu.edu 4、日本 RGP(Rice Genome Research Program):http:/rgp.dna.affrc.go.jp/E/index.html苜蓿属基因组数据库:http:/www.noble.org/medicago玉米基因组数据库 maizegdb:http:/www.maizegdb.org斑马鱼信息网 ZFIN
11、(Zebrafish Information Network):http:/zfin.org(另可参看The Danio rerio Sequencing Project:http:/www.sanger.ac.uk/Projects/D_rerio)小鼠基因组数据库 MGI(Mouse Genome Informatics):http:/www.informatics.jax.orgHIV 序列数据库 HIV Databases:http:/www.hiv.lanl.gov/content/index.Ensembl Ensembl(http:/www.ensembl.org/http:/w
12、ww.ensembl.org/)EnsemblEnsembl包括所有公开的人类基因组包括所有公开的人类基因组DNADNA序列,通过注序列,通过注释形成的关于序列的特征。释形成的关于序列的特征。现在包括脊椎动物和其他现在包括脊椎动物和其他真核生物基因组,如大鼠、小鼠、线虫、果蝇等。真核生物基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因例如:基因通过实验发现的通过实验发现的或者是通过或者是通过GenScan程序预测的程序预测的其他的特征:其他的特征:单核苷酸多态性(单核苷酸多态性(SNPSNP)、重复序列等)、重复序列等.Ensembl.Ensembl提供多种查询方式 通过关键字查询用BLAST进
13、行相似序列的搜索 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组.人的第人的第9号号染色体及大染色体及大鼠对应的染鼠对应的染色体片段色体片段.EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。DbEST(http:/www.ncbi.nlm.nih.gov/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。WEB页面或emailFTP有关EST的数据dbEST数据库.STS
14、(Sequence Tagged Sites)是序列标记位点dbSTS(http:/www.ncbi.nlm.nih.gov/dbSTS/)是NCBI的一个数据源,包含基因组短标记序列(STS)的组成和定位信息。可以通过BLAST搜索STS序列。.UniGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。目前,UniGene中包括人类、大鼠、小鼠
15、、牛的相关数据,因为这些生物有大量的EST数据。.目的:目的:帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。质序列数据库。所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%的序列已的序列已按蛋白质家族分类,一半以上还按蛋白质超家按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。族进行了分类。1 1、PIRPIR(Protein Information ResourceProtein Information R
16、esource).除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下还包含以下信息:信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。.SWISS-PROT(http:/cn.expasy.org/sprot)是由瑞士日内瓦大学医学生物化学系和欧洲生物信息学瑞士日内瓦大学医学生物化学系和欧洲生
17、物信息学研究所研究所(EBI)(EBI)合作维护(合作维护(19861986年)年)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据.(1 1)在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构
18、;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。SWISS-PROT有三个明显的特点:.尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。.TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS
19、-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。(2)REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。.包括:Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库,可以利用BLAST程序搜索数
20、据库,也可以直接通过FTP 下载数据。http:/www.uniprot.org/.UniProt Knowledgebase,是蛋白质序列、功能、分类、交叉是蛋白质序列、功能、分类、交叉引用等信息存取中心;引用等信息存取中心;UniProt Non-redundant Reference数据库,将密切相关的蛋白质序列组合数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;到一条记录中,以便提高搜索速度;UniProt Archive是一个资源库,记录所有蛋白质序列的历史。是一个资源库,记录所有蛋白质序列的历史。.第四节第四节 生物大分子结构数据库生物大分子结构数据库1、PDB(
21、Protein Data Bank)PDB中含有通过实验(中含有通过实验(X射线晶体衍射,核磁共振射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构)测定的生物大分子的三维结构 蛋白质蛋白质 核酸核酸 糖类糖类 其它复合物其它复合物 同时同时PDB也收录生物大分子结构的理论模型也收录生物大分子结构的理论模型.显示分子结构(显示分子结构(RasMol RasMol,ChemView ChemView).2、MMDB(Molecular Modeling Database)分子模型分子模型MMDB 是(是(NCBI)所开发的)所开发的生物信息数据库集成系统生物信息数据库集成系统Entrez的
22、一个的一个部分,数据库的内容包括来自于实验的部分,数据库的内容包括来自于实验的生物大分子结构数据。生物大分子结构数据。与与PDB相比,对于数据库中的每一个生相比,对于数据库中的每一个生物大分子结构,物大分子结构,MMDB具有许多附加的具有许多附加的信息,如分子的生物学功能、产生功能信息,如分子的生物学功能、产生功能的机制、分子的进化历史等的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、还提供生物大分子三维结构模型显示、结构分析和结构比较工具。结构分析和结构比较工具。.MMDB 实用工具.NDB(Nucleic Acid Database).第五节第五节 其它生物分子数据库其它生物分
23、子数据库 核酸序列变化核酸序列变化单碱基多态性单碱基多态性SNPsSNPs(Single nucleotide polymorphisms)SNPsSNPs对人类遗传学研究和医学应用具有重要的意义对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病性状分析或无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究个体化医疗,都需要深入地研究SNPsSNPs。1、单碱基多态性数据库dbSNP(http:/www.ncbi.nlm.nih.gov/SNP/),.实例:GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACT
24、CA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tggtctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatc
25、g tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC R=A/G.2、蛋白质结构分类数据库、蛋白质结构分类数据库SCOPSCOPSCOP数据库数据库 (http:/scop.mrc-lmb.cam.ac.uk/scop/http:/scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库详细描述,包括蛋白质结构数据
展开阅读全文