书签 分享 收藏 举报 版权申诉 / 139
上传文档赚钱

类型第五章生物信息学课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3524335
  • 上传时间:2022-09-11
  • 格式:PPT
  • 页数:139
  • 大小:4.45MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第五章生物信息学课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第五 生物 信息学 课件
    资源描述:

    1、第五章第五章 生物信息学生物信息学Bioinformatics1 1 生物信息学基本概念及发展历史生物信息学基本概念及发展历史2 2 生物信息学主要研究内容生物信息学主要研究内容3 3 生物信息学当前的主要任务生物信息学当前的主要任务4GenBank4GenBank数据库检索及其应用数据库检索及其应用EntrezEntrez检索功能检索功能第一节第一节 生物信息学基本概念及发展历史生物信息学基本概念及发展历史生物信息学(生物信息学(BioinformaticsBioinformatics)这一名词的来由)这一名词的来由 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始

    2、留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。1、生物信息学的概念生物信息学生物信息学HGP

    3、生物数据的激增生物数据的激增(每(每15个月翻一番个月翻一番)生物学家生物学家数学家数学家计算机计算机科学家科学家生物信息学生物信息学(bioinfomatics)的诞生的诞生 生物信息学(bioinformatics)是80年代末随着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递的存贮、传递和表达和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理

    4、、药理过程的中各种生物信息、药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学 广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。概念(狭义概念(狭

    5、义)生物生物分子数据分子数据深层次生物学知识分子生物信息学分子生物信息学Molecular Bioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用 由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意与分析,以达到理解这些生物大分子信息的生物学意义的交叉

    6、学科。义的交叉学科。1995年,在美国人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整较为完整的生物信息学的定义:生物信息学是包含生生物信息学是包含生物信息的获取、处理、贮存、分发、分析和物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。究,目的在于了解大量的生物学意义。Bioinformatics生物分子数 据 计算机计 算+细胞细胞分子分子存贮、复制、传递和表达存贮、复制、传递和表达遗传信息的系统遗传信息

    7、的系统生物信息的载体生物信息的载体2、生物分子信息n生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体nDNA分子分子n蛋白质分子蛋白质分子Protein Machines From the Cell to Protein Machines 生物分子至少携带着三种信息生物分子至少携带着三种信息n遗传信息遗传信息n与功能相关的结构信息与功能相关的结构信息n进化信息进化信息(1)遗传信息的载体遗传信息的载体DNA 遗传信息的载体主要是DNA 控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达 DNA通过自我复制,在生物体的繁衍过通过自我复制,在生物体的繁

    8、衍过程中传递遗传信息程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代个体中得以表达,并使后代表现出与亲代相似的生物性状。相似的生物性状。基因控制着蛋白质的合成基因控制着蛋白质的合成 DNARNA蛋白蛋白质质转录转录翻译翻译基因的DNADNA序列序列DNA前体RNAmRNA多肽链多肽链蛋白质序列对对应应关关系系遗遗传传密密码码(2)蛋白质的结构决定其功能蛋白质的结构决定其功能n蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构 n蛋白质结构决定于蛋白质的蛋白质结构决定于蛋白质的序列序列(这是(这是目前基本

    9、共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。信息隐含在蛋白质序列之中。(3)DNA分子和蛋白质分子分子和蛋白质分子都含有进化信息都含有进化信息n 通过比较通过比较相似的蛋白质序列相似的蛋白质序列,如肌红,如肌红蛋白和血红蛋白,可以发现由于基因复蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。制而产生的分子进化证据。n通过比较来自于不同种属的同源蛋白质,通过比较来自于不同种属的同源蛋白质,即即直系同源蛋白质直系同源蛋白质,可以分析蛋白质甚,可以分析蛋白质甚至种属之间的系统发生关系,推测它们至种属之间的系统发生关系,推测它们共同的祖先蛋白质。共同

    10、的祖先蛋白质。生生物物分分子子信信息息DNA序列数据序列数据 蛋白质序列数据蛋白质序列数据 生物分子结构数据生物分子结构数据 生物分子功能数据生物分子功能数据 最基本最基本直直观观复杂复杂生物分子数据类型生物分子数据类型 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质蛋白质结构结构蛋白质蛋白质功能功能最基本的最基本的生物信息生物信息维持生命活维持生命活动的机器动的机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态的变化百态的变化生物分子数据及其关系生物分子数据及其关系n第一部遗传密码已被破译,但对密码的转录过程还不第一部遗传密码已被破译,

    11、但对密码的转录过程还不清楚,对大多数清楚,对大多数DNA非编码区域的功能还知之甚少非编码区域的功能还知之甚少n 对于第二部密码,目前则只能用统计学的方法进行分对于第二部密码,目前则只能用统计学的方法进行分析析n无论是第一部遗传密码,还是第二部遗传密码,都隐无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。藏在大量的生物分子数据之中。生物分子数据是宝藏,生物分子数据是宝藏,生物信息数据库是金矿,生物信息数据库是金矿,等待我们去挖掘和利用。等待我们去挖掘和利用。生物分子信息的特征生物分子信息的特征n生物分子信息数据量大生物分子信息数据量大 n生物分子信息复杂生物分子信息复杂

    12、 n生物分子信息之间存在着密切的联系生物分子信息之间存在着密切的联系3、生物信息学的发展历史、生物信息学的发展历史生物信息学生物信息学基本思想的产生基本思想的产生 生物信息学生物信息学 的迅速发展的迅速发展二十世纪二十世纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术的技术的发展发展人类基因组人类基因组计划的计划的推动推动 n2020世纪世纪5050年代,生物信息学开始孕育年代,生物信息学开始孕育n2020世纪世纪6060年代,生物分子信息在概念上将计算年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来生物学和计算机科学联系起来n2020世纪世纪7070年代,

    13、生物信息学的真正开端年代,生物信息学的真正开端n2020世纪世纪7070年代到年代到8080年代初期年代初期 ,出现了一系列著,出现了一系列著 名的序列比较方法和生物信息分析方法名的序列比较方法和生物信息分析方法 n2020世纪世纪8080年代以后,出现一批生物信息服务机年代以后,出现一批生物信息服务机 构和生物信息数据库构和生物信息数据库n2020世纪世纪9090年代后年代后 ,HGPHGP促进生物信息学的迅速促进生物信息学的迅速 发展发展关于生物信息学发展历程中的重要大事,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:请参见下面两个网站的介绍:http:/www.ncbi.

    14、nlm.nih.gov/Education/BLASTinfo/milestones.html、http:/www.biosino.org/bioinformatics/。生物信息学主要研究内容生物信息学主要研究内容1、生物分子数据的收集与管理、生物分子数据的收集与管理2、数据库搜索及序列比较、数据库搜索及序列比较 3、基因组序列分析、基因组序列分析 4、基因表达数据的分析与处理、基因表达数据的分析与处理 5、蛋白质结构预测、蛋白质结构预测 基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROT PDBP

    15、IRn迄今为止,生物学数据库总数已超过500个n核酸序列数据库有GenBank、EMBL、DDBJ等n蛋白质序列数据库有SWISS-PROT、PIR、OWL、NRL3D、TrEMBL等n三维结构数据库有PDB、NDB、CCSD、BioMagResBank 等n与蛋白质结构相关的数据库有SCOP、CATH、FSSP、3D-ALI、DSSP等n与基因组有关的数据库有dbEST、OMIM、GDB、GSDB等 生物信息生物信息 学数据库学数据库 工具工具 染色体染色体核酸核酸蛋白质蛋白质基因组图谱基因组图谱DNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构基因组基因组数据库数据库核酸序列核酸序列数

    16、据库数据库蛋白质序列蛋白质序列数据库数据库蛋白质结构蛋白质结构数据库数据库二级数据库二级数据库 复合数据库复合数据库基因组作图基因组作图序列测定序列测定结构测定结构测定美国的核酸数据库美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从从1979年开始建设,年开始建设,1982年正式运行;年正式运行;欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL数据库也于数据库也于1982年开始服务年开始服务日本于日本于1984年开始建立国家级年开始建立国家级的核酸数据库的核酸数据库DDBJ,并于,并于1987年正式服务。年正式服

    17、务。56827,248,4753.4 10105.8 1052、数据库搜索及序列比较数据库搜索及序列比较 n搜索同源序列在一定程度上就是通过序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列寻找相似序列 n序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对(Alignment),即将两个序列的各个字符),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种列共有的排列顺序,这是序列相似程度的一种定性描述定性

    18、描述n多重序列比对多重序列比对研究的是多个序列的共性。序列研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。也可用于研究一组蛋白质之间的进化关系。发现同源分子3、基因组序列分析基因组序列分析 n遗传语言分析遗传语言分析天书天书 n基因组结构分析基因组结构分析n基因识别基因识别n基因功能注释基因功能注释n基因调控信息分析基因调控信息分析n基因组比较基因组比较4、基因表达数据的分析与处理、基因表达数据的分析与处理n基因表达数据分析是目前生物信息学研究的热基因表达数据分析是目前生物信息学研究的热 点和

    19、重点点和重点 n目前对基因表达数据的处理主要是进行聚类分目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 n所用方法主要有:所用方法主要有:n相关分析方法相关分析方法n模式识别技术中的层次式聚类方法模式识别技术中的层次式聚类方法n人工智能中的自组织映射神经网络人工智能中的自组织映射神经网络n主元分析方法主元分析方法 基因芯片基因芯片层次式聚类层次式聚类5、蛋白质结构预测、蛋白质结构预测 n蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所

    20、决定,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径n蛋白质结构预测分为蛋白质结构预测分为:n二级结构预测二级结构预测n空间结构预测空间结构预测 蛋白质折叠蛋白质折叠二级结构预测二级结构预测n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:n立体化学方法立体化学方法n图论方法图论方法n统计方法统计方法n最邻近决策方法最邻近决策方法n基于规则的专家系统方法基于规则的专家系统方法n分子动力学方法分子动力学方法n人工神经网络方法人工神经网络方法 n预

    21、测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统系统空间结构预测空间结构预测n在空间结构预测方面,比较成功的理论在空间结构预测方面,比较成功的理论方法是方法是同源模型法同源模型法 n该方法的依据是:相似序列的蛋白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构 n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作 第三节第三节 生物信息学当前的主要任务生物信息学当前的主要任务 纵观当今生物信息学界的现纵观当今生物信息学界的现状,可以发

    22、现,大部分人都状,可以发现,大部分人都把注意力集中在基因组、蛋把注意力集中在基因组、蛋白质组、蛋白质结构以及与白质组、蛋白质结构以及与之相结合的药物设计上之相结合的药物设计上 1.基因组基因组 1.1 新基因的发现新基因的发现 通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆电子克隆”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法

    23、等。1.2 非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析 非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有两种,一种一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实

    24、验验证。1.3 基因组整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握 把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片基因芯片技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。1.4 基因组演化与物种演化基因组演化与物种演化 尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演

    25、化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整从基因组整体结构组织和整体功能调节网络方面,结合相应的生体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是

    26、揭示理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。物种真实演化历史的最佳途径。2、蛋白质组、蛋白质组 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况;因此,近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和质谱质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达

    27、情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定蛋白质三维结构也不一定是静态的,在行使功能的过程中其是静态的,在行使功能的过程中其结构也会相应的有所改变结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶

    28、体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构之外3、蛋白质结构、蛋白质结构 另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 4、新药设计、新药设计 近年来随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不仅可提供生物大分

    29、子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转移、构象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分子的量子效应。但生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数理理论成果对生物体进行完整系统的数理模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控制自身以及所有其他的生命体生物信息学不仅仅是一门科学学科,生物信息学不仅仅是一门科学学科,它更是一种重要的研究开发工具。它更是一种重要的研究开发工具。从科学的角度来讲,它是一门研究生物和生物相

    30、关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。生物信息学研究意义生物信息学研究意义生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心 n认识生物本质认识生物本质n了解生物分子信息的组织和结构,破译基因了解

    31、生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系组信息,阐明生物信息之间的关系n改变生物学的研究方式改变生物学的研究方式 n改变传统研究方式,引进现代信息学方法改变传统研究方式,引进现代信息学方法n在医学上的重要意义在医学上的重要意义n为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据n为设计新药提供依据为设计新药提供依据NCBI网站网址:网站网址:http:/www.ncbi.nlm.nih.gov简介简介检索入口检索入口基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索检索结果的显示检索结果的显示 GenBank数据库是由美国国立生物技术信息数据库是由美国国立生物技术信

    32、息中心(中心(NCBI)维护的一级核酸序列数据库。)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。、美国专利局提供的专利数据。简介简介检索界面检索界面简介简介1、基本检索界面、基本检索界面检索界面检索界面简介简介1、基本检索界面、基本检索界面2、跨库检索界面、跨库检索界面简介简介检索界面检索界面基本检索功能基本检索功能(一)字段限制检索、强制短语检索(一)字段限制检索、强制短语检索(二)特

    33、殊标志符检索(二)特殊标志符检索(四)范围检索(四)范围检索(三)序列长度检索(三)序列长度检索简介简介检索界面检索界面基本检索功能基本检索功能(一)字段限制检索、强制短语检索(一)字段限制检索、强制短语检索rasGENE显示方式显示方式序列号序列号物种信息物种信息作者信息作者信息选择显示模式为选择显示模式为FASTA序列信息序列信息点击点击send选择选择file,格式为格式为FASTA选择显示方式为选择显示方式为Graphics编码蛋白质的序列信息编码蛋白质的序列信息点击显示蛋白质编点击显示蛋白质编码序列码序列蛋白质氨基酸序列蛋白质氨基酸序列简介简介检索界面检索界面基本检索功能基本检索功能

    34、(二)特殊标志符检索(二)特殊标志符检索(一)字段限制检索、强制短语检索(一)字段限制检索、强制短语检索1、序列辨认号、序列辨认号(GI):一串阿拉伯数字:一串阿拉伯数字 e.g.:19440733(1)mRNA 记录(记录(NM_*):e.g.:NM_000492(2)基因组的)基因组的DNA重叠群(重叠群(NT_*):e.g.:NT_000347(3)完整的基因组或染色体()完整的基因组或染色体(NC_*):e.g.:NC_000907(4)基因组的局部区域()基因组的局部区域(NG_*):e.g.:NG_000019(5)从人类基因组注释、加工得到的序列模型()从人类基因组注释、加工得到

    35、的序列模型(XM,XP,or XR_*):):e.g.:XM_0004833、RefSeq(Reference Sequence)序列接受号序列接受号:4、PDB序列接受号:个阿拉伯数字个字母序列接受号:个阿拉伯数字个字母 e.g.:TUP序列接受号的检索限定词为序列接受号的检索限定词为ACCN or ACCESSION简介简介检索界面检索界面基本检索功能基本检索功能(一)字段限制检索、强制短语检索(一)字段限制检索、强制短语检索(二)特殊标志符检索(二)特殊标志符检索(三)序列长度检索(三)序列长度检索序列长度的检索限定词:序列长度的检索限定词:SLEN简介简介检索界面检索界面基本检索功能基

    36、本检索功能(一)字段限制检索、强制短语检索(一)字段限制检索、强制短语检索(二)特殊标志符检索(二)特殊标志符检索(四)范围检索(四)范围检索(三)序列长度检索(三)序列长度检索简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索限制检索(Limits)高级检索(高级检索(Advanced Search)检索史管理检索史管理(History)剪贴板管理剪贴板管理(Clipboard)详细匹配过程详细匹配过程(Details)限制检索限制检索 高级检索高级检索简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索限制检索(Limits

    37、)排除某种类型排除某种类型的序列的序列限制分子类型限制分子类型 限制基因位点限制基因位点限制序列片段的显示限制序列片段的显示限制数据来源限制数据来源限制数据发布日期限制数据发布日期限制数据修订日期限制数据修订日期简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索限制检索(Limits)高级检索(高级检索(Advanced SearchAdvanced Search)预检索输入框预检索输入框添加检索词添加检索词索引检索索引检索预检索结果预检索结果简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索限制检索(Limits)高级检索(

    38、高级检索(Advanced SearchAdvanced Search)检索史管理检索史管理(History)简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索限制检索(Limits)高级检索(高级检索(Advanced SearchAdvanced Search)检索史管理检索史管理(History)剪贴板管理剪贴板管理(Clipboard)简介简介检索界面检索界面基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索限制检索限制检索(Limits)高级检索(高级检索(Advanced SearchAdvanced Search)检索史管理检索史管理(Hist

    39、ory)详细匹配过程详细匹配过程(Details)剪贴板管理剪贴板管理(Clipboard)简介简介检索入口检索入口基本检索功能基本检索功能特征栏辅助检索特征栏辅助检索检索结果的显示检索结果的显示序列相似性搜索序列相似性搜索启动相似性搜索启动相似性搜索输入序列号输入序列号选择搜索的数据集选择搜索的数据集点击开始搜索点击开始搜索相似性序列信息相似性序列信息GenBank记录中特性表中的限定词记录中特性表中的限定词:课后练习课后练习n用 GenBank 数据库搜索”SARS coronavirus BJ01”的全基因组序列信息并下载保存,查询该基因所产生的蛋白质序列信息。n用BLAST模块对该基因序列进行相似性搜索。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第五章生物信息学课件.ppt
    链接地址:https://www.163wenku.com/p-3524335.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库