书签 分享 收藏 举报 版权申诉 / 41
上传文档赚钱

类型关键词或词组为基础的数据库检索(I)课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:3734471
  • 上传时间:2022-10-07
  • 格式:PPT
  • 页数:41
  • 大小:1.67MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《关键词或词组为基础的数据库检索(I)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    关键词 词组 基础 数据库 检索 课件
    资源描述:

    1、第三章第三章 关键词或词组为基础的关键词或词组为基础的数据库检索数据库检索(I)生物信息学检索数据库的方法检索数据库的方法 u 用关键词或词组进行数据库检索用关键词或词组进行数据库检索 (Text-based database searching)u 用核苷酸或蛋白质序列进行数据库检索用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching)Gene nameAuthorAccession numberDatabase关键词或词组为基础的数据库检索关键词或词组为基础的数据库检索关键词关键词名词、描述性词、词组名词、描述性词、词组序列注册号序列注册

    2、号 (Accession number)检索体系检索体系NCBI EntrezSequence Retrieval System(SRS)Integrated database retrieval system(DBGET)Trends in Biotechnology 1998,16(supplement 1):3-5.最准确可靠检索须知(检索须知(1)u 连接词连接词 AND,OR,NOT(Boolean operators)rice AND enzyme (AND为缺省值,可略去为缺省值,可略去)rice AND enzyme NOT kinaseretrotransposon OR r

    3、etroelement注意事项:注意事项:1、AND,OR,NOT must be entered in UPPERCASE2、Boolean operators are processed in a left-to-right sequencerice AND(microarray OR expression profile)rice AND microarray OR expression profile3、The order can be changed by enclosing individual concepts in parentheses(processed first)Pub

    4、Med27000 records 504 records u 用引号将两个单词组成一个词组用引号将两个单词组成一个词组16S rRNA=16S AND rRNA“16S rRNA”pseudopod*=pseudopod OR pseudopodia OR pseudopodium 检索须知(检索须知(2)Nucleotide 16S rRNA“16S rRNA”380000 sequences 3300000 sequences exact matchu wild card,*,放在单词后使检索范围扩大,但放在单词后使检索范围扩大,但专一性降低专一性降低u 表示范围表示范围,:,连接前后关键

    5、词,限定范围连接前后关键词,限定范围110:500Sequence Length 2009/3/1:2009/9/30Publication Date 1.Entrezhttp:/www.ncbi.nlm.nih.gov/gquery/NCBI 的检索体系的检索体系优点优点:三种检索体系中最容易操作的体系:三种检索体系中最容易操作的体系,帮助,帮助文档完备文档完备Entrez HelpEntrez可对可对6大类大类40个个数据库数据库进行检索进行检索Nucleic Acids Research 2013,41:D8-D20Entrez可对可对6大类大类40个个数据库数据库进行检索进行检索针对基

    6、因组已测序完成的物种针对GenBank中具有大于7万条EST的物种Prokaryotic,chloroplast,mitochondrial,virus,protist,plant针对17个广泛研究的模式生物Entrez系统中系统中数据库之间的连接数据库之间的连接NCBI主页主页选择选择“All Databases”或或Entrez主主页页,输入关键词,输入关键词各个数据库中检索到的各个数据库中检索到的信息数量信息数量点击相应数据库点击相应数据库查看信息目录查看信息目录,每一条信息与其它数据库的,每一条信息与其它数据库的相关信息链接相关信息链接检索方法(检索方法(1):跨库检索):跨库检索(c

    7、ross-database search)检索方法(检索方法(2):选择数据库检索):选择数据库检索NCBI主页主页选择数据库,输入关键词选择数据库,输入关键词检索到的检索到的信息目录信息目录,每一条信息,每一条信息与其它数据库的相关信息链接与其它数据库的相关信息链接查看查看信息内容信息内容序列数据库的搜索序列数据库的搜索精简搜索结果精简搜索结果查询查询insulin基因的序列基因的序列不是想要的结果!如何精简?不是想要的结果!如何精简?精简搜索结果的方法精简搜索结果的方法1:使用:使用Limits查询人(查询人(human)的)的insulin基因的序列基因的序列关键词 查询范围:insul

    8、in title human organism 精简搜索结果的方法精简搜索结果的方法2:使用:使用Advanced search如何定义查询范围?如何定义查询范围?LOCUS DQ176424 1980 bp DNA linear PLN 12-MAR-2006DEFINITION Oryza sativa(indica cultivar-group)pathogen-induced defense-responsive protein 8(DR8)gene,complete cds.ACCESSION DQ176424VERSION DQ176424.1 GI:73918052KEYWORD

    9、S HTG.SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Poales;Poaceae;BEP clade;Ehrhartoideae;Oryzeae;Oryza.REFERENCE 1 (bases 1 to 1980)AUTHORS Wang,G.,Ding,X.,Yuan,M.,Qiu,D.,Li,X

    10、.,Xu,C.and Wang,S.TITLE Dual function of rice OsDR8 gene in disease resistance and thiamine accumulation JOURNAL Plant Mol.Biol.60(3),437-449(2006)PUBMED 16514565gbdiv_plnPropertiesTitleModification Date1000:2000Sequence LengthAccessionGI任意搜索范围:任意搜索范围:Xa21All Fieldsbiomol_genomicProperties biomol_mr

    11、na:mRNAbiomol crna:cRNAPublication Date:记录公开日期记录公开日期Keyword:EST GSS HTG HTC TPA TSAOrganismAuthorJournal注意:关键词和字段名(field)均不区分大小写ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaactgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc tt

    12、ttgtaata atttttttct tagttatacc tataatgatcFEATURES Location/Qualifiers source 1.646 /organism=Dicathais orbita /organelle=mitochondrion /mol_type=mRNA /db_xref=taxon:69583 /clone=20006E09 /note=mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization CDS 646 /gene=COXI

    13、/codon_start=1 /transl_table=5 /product=cytochrome oxidase subunit I /protein_id=ACT34372.1 /db_xref=GI:253740054 /translation=GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA 第四章讲述使用序列进行检索第四章讲述使用序列进行检索Feature Key:promoter,mRNA,CDS,exon,intron,p

    14、olyA_signalCOXIGene Namegene_in_mitochondrionProperties如何定义查询范围?如何定义查询范围?humanORGN AND 50SLEN:60SLEN AND 1999MDAT 精简搜索结果精简搜索结果Aim:Find all human nucleotide sequences with the poly(A)signal.不同数据库的不同数据库的Search fields不同,详见不同,详见Limits/Advanced选项!选项!j mol evolJOUR AND drosophilaORGN polyA_signal“FKEY AND

    15、 humanORGN Aim:Find all human protein sequences with lengths between 50 and 60 amino acids that were entered into the database during 1999.Aim:Find Drosophila population studies published in the Journal of Molecular EvolutionSearch Field Descriptions for Sequence Database查询人查询人insulin基因的基因的RefSeq序列序

    16、列精简搜索结果的方法精简搜索结果的方法3:直接输入搜索字段:直接输入搜索字段自动将俗名转换为学名查询人查询人insulin基因的基因的RefSeq序列序列精简搜索结果的方法精简搜索结果的方法4:组合多次搜索结果:组合多次搜索结果使用使用Clipboard临时收集多条序列临时收集多条序列永久保存收集的序列需要注册,然后Send to Collections第三章第三章 关键词或词组为基础的关键词或词组为基础的数据库检索数据库检索(II)生物信息学文献数据库文献数据库Pubmed的搜索的搜索 http:/www.ncbi.nlm.nih.gov/PubMed/u美国国家医学图书馆的数据库美国国家医

    17、学图书馆的数据库u数据来源数据来源 MEDLINE:已经规范处理的数据,已标注MeSH Terms,记录标有pubmed-indexed for medline In Process Citations:尚未经规范处理的数据,记录标有pubmed-in process Publisher-Supplied Citations:由出版商提供的电子文献,记录标有PubMed-as supplied by Publisher 搜索结果举例Pubmed自动将检索词翻译为自动将检索词翻译为MeSH词汇词汇使用MeSH词汇能获得更加全面、准确的结果精简精简PubMed搜索结果的方法:使用搜索结果的方法:使

    18、用AdvancedPubMed数据库的搜索数据库的搜索12huazhong agricultural universityAffiliationPubMed数据库的字段:数据库的字段:Affiliation ADArticle Identifier AIDAll Fields ALLAuthor AUBook bookComment CorrectionsCorporate Author CNCreate Date CRDTCompletion Date DCOMEC/RN Number RNEditor EDEntrez Date EDATFilter FILTERFirst Author

    19、Name 1AUFull Author Name FAUFull Investigator Name FIRGrant Number GRInvestigator IRISBN ISBNIssue IPJournal TALanguage LALast Author LASTAULocation ID LIDMeSH Date MHDAMeSH Major Topic MAJRMeSH Subheadings SHMeSH Terms MHModification Date LRNLM Unique ID JIDOther Term OTOwnerPagination PGPersonal N

    20、ame as Subject PSPharmacological Action PAPlace of Publication PLPMID PMIDPublisher PUBNPublication Date DPPublication Type PTSecondary Source ID SISubset SBSupplementary ConceptNMText Words TWTitle TITitle/Abstract TIABTransliterated Title TTUID PMIDVersionVolume VIWatson J author 1953 publication

    21、date nature journalWatson J AU 1953 DP nature TASearch Field Descriptions and Tags for Pubmed精简精简PubMed搜索结果的方法:组合多个搜索字段搜索结果的方法:组合多个搜索字段小技巧:通过添加“&report=imagesdocsum”能搜索图片http:/www.ncbi.nlm.nih.gov/pmc/?term=rice+root&report=imagesdocsumPubMed Discovery Tools如果已知文献部分信息:如果已知文献部分信息:单篇文献匹配器(单篇文献匹配器(Sing

    22、le Citation Matcher):):http:/www.ncbi.nlm.nih.gov/pubmed/citmatch多篇文献匹配器(多篇文献匹配器(Batch Citation Matcher):):http:/www.ncbi.nlm.nih.gov/pubmed/batchcitmatch如何自动获得最近更新的结果?如何自动获得最近更新的结果?Google学术搜索学术搜索http:/ http:/ http:/http:/http:/2.SRS(Sequence Reterieval System)http:/srs.ebi.ac.uk/HelpEuropean Bioinf

    23、ormatics Institute(EBI)的传统检的传统检索体系索体系优点:检索面宽优点:检索面宽缺点:操作复杂缺点:操作复杂注意:目前EBI提供的SRS功能正在逐步废除,但世界上仍有很多镜像站点可以使用:德国http:/www.dkfz.de/srs/意大利 http:/bioinfo.ceinge.unina.it/srs7131/EBI新版的检索体系:EBI search17大类大类194个数据库与个数据库与 SRS 体系相连体系相连uLiterature,Bibliography and Reference databasesuNucleotide sequence databas

    24、esuUniprot Universal Protein ResourceuOther protein sequence databasesuDeprecated Protein DatabasesuNucleotide related databasesuProtein function databasesuProtein structure databasesuEnzymes,reactions and metabolic pathway databases uMutation and SNP databasesuGene ontology resourcesuBiological Res

    25、ources CataloguesuMapping databasesuOther databasesuUser owned databasesuApplication result databasesuEMBOSS result databases检索方法(检索方法(1):快速检索):快速检索(Quick search)v 操作简单,检索数据库有限操作简单,检索数据库有限v 适用于目标明确的检索适用于目标明确的检索在在SRS主页主页选择检索类别,输入关键词选择检索类别,输入关键词检索到的检索到的信息目录信息目录,每一条信息,每一条信息与其它数据库的相关信息链接与其它数据库的相关信息链接查看查

    26、看信息内容信息内容检索方法(检索方法(2):高级检索):高级检索(advanced search)v 操作稍微复杂,可以检索所有数据库操作稍微复杂,可以检索所有数据库v 适用于范围广泛的检索适用于范围广泛的检索在在SRS主页主页点击点击“Library Page”在在“Library Page”网页网页选择数据库选择数据库,然后点击,然后点击“Query Form”在在“Query Form”网页网页输入关键词检输入关键词检索索检索到的检索到的信息目录信息目录,每一条信息,每一条信息与其它数据库的相关信息链接与其它数据库的相关信息链接3.DBGET(Integrated database re

    27、trieval system)http:/www.genome.jp/dbget/日本日本GenomeNet的检索体系的检索体系优点:与优点:与 Kyoto Encyclopedia of Genes and Genomes (KEGG)database 相连相连 操作较操作较SRS简单简单缺点:检索面较缺点:检索面较 SRS 窄窄DBGET与与40多多个数据库相连个数据库相连DBGET检索体系中检索体系中数据库之间的连接数据库之间的连接检索方法(检索方法(1):单库检索():单库检索(basic search)在在DBGET主页主页选择一个数据库选择一个数据库输入关键词检索输入关键词检索查看

    28、检索到的查看检索到的信息目录信息目录查看信息查看信息详细内容详细内容检索方法(检索方法(2):跨库检索):跨库检索(LinkDB)在在DBGET主页主页点击点击“LinkDB”在在查询网页查询网页选择数据库选择数据库输入关键词检索输入关键词检索(数据库(数据库:编号)编号)结果结果检索时如果所得信息与预期不符,需仔细检查:检索时如果所得信息与预期不符,需仔细检查:u 数据库数据库 不同的数据库包含不同的数据库包含不同的不同的内容内容,检索前需弄清,检索前需弄清数据数据库所包含数据的库所包含数据的内容内容和范围和范围u 关键词关键词 关键词的拼写是否正确关键词的拼写是否正确 关键词的使用是否合乎

    29、主流关键词的使用是否合乎主流 retrotransposonretro-transposon 是否使用了过多的关键词,以至于检索范围太窄。是否使用了过多的关键词,以至于检索范围太窄。通常先使用最主要的关键词搜索,如果结果过多再通常先使用最主要的关键词搜索,如果结果过多再逐步缩小范围逐步缩小范围最后的提醒:最后的提醒:生物信息学第三章第三章 关键词或词组为基础的关键词或词组为基础的数据库检索数据库检索(上机操作上机操作)4、自习资源、自习资源DBGET Search5、上机操作、上机操作1、查找与水稻抗病基因、查找与水稻抗病基因Xa21有关的资料有关的资料:(1)有多少条序列具有全长)有多少条序

    30、列具有全长CDS,分别由多少碱基构成?编码多少个氨,分别由多少碱基构成?编码多少个氨基酸?基酸?(2)选择修改时间最早的一条序列,指出该基因)选择修改时间最早的一条序列,指出该基因exon和和intron的位置。的位置。2、检索注册号在、检索注册号在AF123456AF123478之间并且序列长度在之间并且序列长度在1500到到1800 bp之间的核苷酸数据,共有多少条?如何批量下载?之间的核苷酸数据,共有多少条?如何批量下载?3、查找线虫、查找线虫(Caenorhabditis elegans)基因组的资料:基因组的资料:(1)chromosome I的测序是否已完成?的测序是否已完成?(2

    31、)已知的)已知的chromosome I的序列有多少碱基?序列发表在哪份杂志上?的序列有多少碱基?序列发表在哪份杂志上?期号和页码?期号和页码?4、查看拟南芥、查看拟南芥(Arabidopsis thaliana)的系谱关系的系谱关系(lineage)。5、在在PubMed中检索我校在中检索我校在2013年年1月发表的科研论文。月发表的科研论文。5、上机操作(续)、上机操作(续)6、2013年年3月底,在上海和安徽两地率先发现了一种能感染人类的月底,在上海和安徽两地率先发现了一种能感染人类的H7N9型禽流感病型禽流感病毒(毒(Avian-Origin Influenza A)。中国科学家迅速分

    32、离了该病毒并进行了初步研究)。中国科学家迅速分离了该病毒并进行了初步研究,首篇正式的论文,首篇正式的论文4月发表在医学领域权威期刊月发表在医学领域权威期刊The New England Journal of Medicine。目前,。目前,NCBI GenBank中已收录该病毒分离自不同病人的多个毒株的中已收录该病毒分离自不同病人的多个毒株的序列,以下问题如提到序列,以下问题如提到“新新H7N9”特指名为特指名为“A/Hangzhou/1/2013”的毒株。请根据的毒株。请根据该背景资料回答以下问题。该背景资料回答以下问题。(1)请找出这篇文献,列出其在请找出这篇文献,列出其在PubMed中的

    33、中的PMID号。号。(2)该病毒属于该病毒属于H7N9亚型,其中的亚型,其中的“H”代表血凝素(代表血凝素(Hemagglutinin),),“N”代表代表神经氨酸酶神经氨酸酶(Neuraminidase),分别是病毒外膜上的两种蛋白。,分别是病毒外膜上的两种蛋白。H是病毒吸咐于细是病毒吸咐于细胞表面的工具,胞表面的工具,N则是病毒复制完成后脱离细胞表面的工具。请在则是病毒复制完成后脱离细胞表面的工具。请在NCBI核酸数核酸数据库(据库(Nucleotide)中找出该毒株编码这两种蛋白的基因的序列,列出)中找出该毒株编码这两种蛋白的基因的序列,列出Accession号并简要写明过程。号并简要写明过程。(3)列出该毒株在列出该毒株在NCBI物种分类数据库(物种分类数据库(Taxonomy)中的)中的ID号。号。NCBI蛋白质数据蛋白质数据库(库(Protein)目前收录了多少条该毒株的蛋白质序列?)目前收录了多少条该毒株的蛋白质序列?

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:关键词或词组为基础的数据库检索(I)课件.ppt
    链接地址:https://www.163wenku.com/p-3734471.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库