书签 分享 收藏 举报 版权申诉 / 265
上传文档赚钱

类型生物信息学导论课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5198302
  • 上传时间:2023-02-16
  • 格式:PPT
  • 页数:265
  • 大小:2.71MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《生物信息学导论课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    生物 信息学 导论 课件
    资源描述:

    1、2023-1-91Email:Tel:2023-1-92张举华北京理工大学生命科学与技术学院2023-1-93生物信息学概述生物信息学概述基因组信息学基因组信息学 2023-1-94本节主要内容u 什么是生物信息学 u 基因组、转录组、蛋白质组 u 生物信息学有什么用 u 生物信息学的起源 u 生物信息学往哪里去 2023-1-95 什么是生物信息学 生物信息学是生物学和信息科学与技术的结合所派生出来的一门新兴学科,包括了用来管理、分析和操作大规模生物数据集的任何计算方法和工具,也就是说生物信息学是一个为现代生物学的各个分支,如生物学、分子生物学、生物化学、生物物理学等,服务的数学和计算机科学

    2、与技术的整合平台。2023-1-96 基因组、转录组、蛋白质组 现在,生物学研究的范式已经发生了变化,生物学家已经不像上世纪6080年代的同行那样满足于研究单个基因和蛋白质,而是对一类细胞或组织中的所有基因和蛋白质同时感兴趣,希望了解这些生物分子之间是通过什么样的途径实现生命过程的。2023-1-97 基因组、转录组、蛋白质组 基因组是一个细胞或组织内全部基因的集合;转录组是一个细胞或组织内全部RNA(核糖核酸)的集合;蛋白质组是一个细胞或组织内所有类型蛋白质的集合。以此类推,我们还可以定义其它的“组”,例如蛋白质相互作用组就是一个细胞或组织内蛋白质间所有相互作用的集合。2023-1-98 基

    3、因组、转录组、蛋白质组 各种组学的发展与高通量检测与测量方法密切关联。“高通量”就是大量的信息或样本在同一时间内通过系统的任何过程。目前,这一概念被广泛应用于计算系统、药物发现、组合化学以及基因组和蛋白组学。2023-1-99 生物信息学有什么用 自1990年以来,在生物医学科学领域,生物信息学已经成为生命科学研究和发展整体中的一个重要组成部分。无论是处理由高通量实验技术产生的基因组、转录组和蛋白质组数据,还是组织、分析和管理由传统的生物技术收集到的数据,生物信息学都扮演着极其重要的角色。2023-1-910 生物信息学有什么用 上世纪8090年代建立的,以核苷酸或氨基酸序列为基础的,分析单个

    4、基因和蛋白质的方法被用于分析大量的基因和蛋白质,例如用于关联基因簇的分析和蛋白质相互作用网络的鉴定。当我们手中完整的基因组序列越来越多时,生物信息学就能够为探索细胞和组织的系统功能与行为提供原理基础和常用方法。2023-1-911 生物信息学的起源 分子序列数据的指数性增长始于20世纪80年代。当时,DNA测序技术已趋完善,并作为常规实验手段得到广泛的应用,测序得到的数据被收集到数据库中。比如目前仍有广泛影响力的三个生物信息学一级数据库GenBank,EMBL(欧洲分子生物学实验室核苷酸序列数据库),和DDBJ(日本DNA数据银行)。另外PIR(蛋白信息资源)和SWISS-PROT是蛋白质方面

    5、非常重要的数据库。数据的提取与分析的计算方法的发展是并行的。计算方法包括序列相似性比较与搜寻算法、结构与功能预测方法等等。2023-1-912 生物信息学的起源 现今的“生物信息学”始于上世纪80年代计算生物学。后者主要包括DNA和蛋白质的序列分析以及蛋白质的三维结构分析。上世纪最后十年的基因组计划所形成的冲击不仅是序列数据的增加,还包括了分子生物数据的多样性。一个基因组序列所展示的不仅是一个完整的基因集合和它们在染色体中的精确定位,而且包括基因组和跨物种间的基因相似性关联。2023-1-913 生物信息学的起源 DNA自动测序构成过巨大的冲击,因为它曾经是各种生物学数据高通量产出的前沿阵地。

    6、像表达序列标签(ESTs),单核苷多态性(SNPs)都和基因序列密切相关。随后发展的研究基因表达模式(profile)的DNA微阵列技术、用于探测蛋白质相互作用的酵母双杂交系统、以及质谱技术极大地让生命科学类数据库飞速膨胀。结构基因组学方面的新技术还不能大规模地产生数据,但它们正在导致蛋白质三维结构数据的增加。2023-1-914 生物信息学的起源 除了积累各种生物化学与分子生物学数据的实验技术的不断发展,二十世纪后十年同样见证了信息技术的发展。单项最重要的事件是互联网时代的到来。人们用它来传递、访问数据,浏览公共出版物等。生物信息学的兴起很大程度上归功于需要用复杂的方法处理与分析大规模生物学

    7、数据,但是互联网也是功臣,因为它的发明使得用户访问数据与软件的开发比过去容易了许多。2023-1-915 生物信息学往哪里去 尽管最近十年来,高通量检测技术与信息技术的结合让人们认识了大量的基因和蛋白质,但是和物理学、化学相比较,生物学仍旧是一门不成熟的学科,因为对于生命过程,我们无法根据一般性原理做出像卫星轨道那样精确的预测。随着数据的不断膨胀和知识的积累,也借助于生物信息学,这种情形很有可能发生改变。2023-1-916 生物信息学往哪里去 生物信息学正在逐渐演变成为一门基础学科。生物信息学的最终目标是从大规模数据中抽象出知识与原理;提出细胞以至于整个生物体的完整数学与计算机表示;进而预测

    8、高度复杂的生物系统的行为,例如,预测在细胞过程中相互作用网络和整个生物体的表型。表18-1简要概括了生物信息学的过去,现在和将来。2023-1-917 生物信息学往哪里去 表表18-1生物信息学的过去、现在和将来生物信息学的过去、现在和将来 主要内容主要内容目的目的二十世纪二十世纪9090年代年代的生物信息学的生物信息学大规模基因组学与蛋白质组学的实大规模基因组学与蛋白质组学的实验数据形成的一级数据库及其相应验数据形成的一级数据库及其相应的分析方法与工具的分析方法与工具了解单个基因和蛋白了解单个基因和蛋白质的功能与用途质的功能与用途当前的生物信息当前的生物信息学学由一级数据库分类、归纳、注释得

    9、由一级数据库分类、归纳、注释得到的基因组学与蛋白质组学二级数到的基因组学与蛋白质组学二级数据库据库(知识库)及其相应的分析方法与(知识库)及其相应的分析方法与工具工具在分子、细胞和生物在分子、细胞和生物体水平了解功能与用体水平了解功能与用途途未来的生物信息未来的生物信息学学细胞和生物体的完全计算机表示细胞和生物体的完全计算机表示了解生物系统高度复了解生物系统高度复杂性的基本原理杂性的基本原理2023-1-918概述概述基因组信息学基因组信息学 2023-1-919 基因组信息学是生物信息学的源头,是到目前为止发展得比较完善的部分,也是应用最为广泛的部分。本节内容将重点概述基因组生物信息学的主要

    10、特征。2023-1-920 本节主要内容u 了不起的BLAST u BLAST已经不够用了 u 相互作用网络具有更高阶功能 u 生物信息数据库 u 序列比对的动态程序算法u 复杂生物系统 2023-1-921 了不起的了不起的BLASTBLAST 在二十世纪后十年,生物信息学的第一个大突破是序列数据库在二十世纪后十年,生物信息学的第一个大突破是序列数据库快速搜寻工具快速搜寻工具BLASTBLAST的引入。这个搜寻工具不仅比的引入。这个搜寻工具不仅比8080年代发展起来年代发展起来的的FASTAFASTA更有效,而且以不同的原理为基础。数据库搜寻就是将查更有效,而且以不同的原理为基础。数据库搜寻

    11、就是将查询的系列与序列数据库中的每一个序列作两两比对。美国国家生物询的系列与序列数据库中的每一个序列作两两比对。美国国家生物科技信息中心,提供了科技信息中心,提供了BLASTBLAST链接。链接。2023-1-922 了不起的了不起的BLASBLAS 传统上,比对通过优化查询进行。即通过相同字母数目的最传统上,比对通过优化查询进行。即通过相同字母数目的最大化,或者采用氨基酸突变矩阵,使相似分数最大化,得出优化系大化,或者采用氨基酸突变矩阵,使相似分数最大化,得出优化系列比对。当允许间隙时,对于做比对的两个序列,具有可能性的比列比对。当允许间隙时,对于做比对的两个序列,具有可能性的比对数量巨大。

    12、然而,通过对数量巨大。然而,通过“动态程序动态程序”算法,总能找到优化的比算法,总能找到优化的比对。动态程序算法系统地修剪含有各种可能比队的搜寻树的数枝,对。动态程序算法系统地修剪含有各种可能比队的搜寻树的数枝,不幸的是,这种算法十分耗时,不适合大规模数据库。所以,不幸的是,这种算法十分耗时,不适合大规模数据库。所以,FASTAFASTA的策略是采用一个被称之为的策略是采用一个被称之为“hashhash”的数据结构,对两个系列的数据结构,对两个系列的匹配区域先做一个快速、粗略的搜寻,然后再对该区域的近邻起的匹配区域先做一个快速、粗略的搜寻,然后再对该区域的近邻起用动态程序算法。用动态程序算法。

    13、2023-1-923 了不起的了不起的BLASTBLAST 不同于不同于FASTAFASTA遵循结合优化的传统,遵循结合优化的传统,BLASTBLAST之于数学统计与人类直之于数学统计与人类直觉的耦合。例如,当人用肉眼对两个系列作比较时,我们绝对不会觉的耦合。例如,当人用肉眼对两个系列作比较时,我们绝对不会检查所有可能的细节,而是寻找两个系列共同的特征,然后再尝试检查所有可能的细节,而是寻找两个系列共同的特征,然后再尝试扩展这些特征得到更长的匹配,因为我们知道关联的系列倾向于含扩展这些特征得到更长的匹配,因为我们知道关联的系列倾向于含有保守的系列模体(有保守的系列模体(motifsmotifs

    14、)。这就是)。这就是BLASTBLAST所采取的策略。它以所采取的策略。它以可靠的数学基础为依据,计算高分片段对(可靠的数学基础为依据,计算高分片段对(HSPsHSPs)的统计。高分片)的统计。高分片段对指的是分数不可能由系列的扩充或剪除改善的无间隙序列的局段对指的是分数不可能由系列的扩充或剪除改善的无间隙序列的局部比对。对于给定的查询序列的组合、被搜寻的数据库和打分系统,部比对。对于给定的查询序列的组合、被搜寻的数据库和打分系统,可以估计打分为可以估计打分为s s的高分片段对的概率极值(的高分片段对的概率极值(Extreme valueExtreme value),及),及所谓的所谓的E E

    15、值。目前,值。目前,E E值已经广泛用来作为系列相似性统计显著性估值已经广泛用来作为系列相似性统计显著性估计的标准度量。计的标准度量。2023-1-924 了不起的了不起的BLASTBLAST 2023-1-925 BLAST BLAST已经不够用了已经不够用了 二十世纪二十世纪9090年代中期,人们看到了完全不同类型的大量序列数据的收年代中期,人们看到了完全不同类型的大量序列数据的收集,也就是为细胞生物体的全基因组建立数据库。目前已有集,也就是为细胞生物体的全基因组建立数据库。目前已有100100多种生物多种生物体的完全基因组序列已经通过实验测定。更多生物体全基因组序列的测体的完全基因组序列

    16、已经通过实验测定。更多生物体全基因组序列的测定正在进行中。定正在进行中。2023-1-926 BLAST BLAST已经不够用了已经不够用了 如果系列分析的工具不更新与改进,大规模序列数据的增加并不如果系列分析的工具不更新与改进,大规模序列数据的增加并不必然导致生物学知识的增加。为了增加相似序列搜寻的灵敏度,人必然导致生物学知识的增加。为了增加相似序列搜寻的灵敏度,人们已经精心设计了相应的方法。其中最成功的有们已经精心设计了相应的方法。其中最成功的有PSI-BLASTPSI-BLAST和隐马和隐马尔柯夫模型(尔柯夫模型(HMMsHMMs)。对于搜寻微弱的相似性,)。对于搜寻微弱的相似性,PSI

    17、-BLASTPSI-BLAST是极其是极其灵敏的方法。灵敏的方法。PSI-BLASTPSI-BLAST的核心是迭代算法,从而在程序运行过程的核心是迭代算法,从而在程序运行过程中由标准中由标准BLASTBLAST搜寻产生的位置特异性打分矩阵不断地得到改善。搜寻产生的位置特异性打分矩阵不断地得到改善。2023-1-927 BLAST BLAST已经不够用了已经不够用了 隐马尔柯夫模型根据多重序列比对构建。多重序列比对的结果可能是隐马尔柯夫模型根据多重序列比对构建。多重序列比对的结果可能是由由ClustalWClustalW或者或者ClustalXClustalX产生的,但是它们显含插入或删除概率,

    18、并且产生的,但是它们显含插入或删除概率,并且能够搜寻能够搜寻HMMHMM库以探测微妙的序列特征。另外一些成功的序列分析方法是库以探测微妙的序列特征。另外一些成功的序列分析方法是建立在神经网络基础上,它极大的改善了诸如蛋白质二级结构预测;或建立在神经网络基础上,它极大的改善了诸如蛋白质二级结构预测;或建立在以规则为基础的系统上,例如用于蛋白质定位的建立在以规则为基础的系统上,例如用于蛋白质定位的PSORTPSORT,并被用,并被用来预测蛋白质的各种功能特征。来预测蛋白质的各种功能特征。2023-1-928 BLAST BLAST已经不够用了已经不够用了 尤其是,尤其是,HMMsHMMs和和PSI

    19、-BLASTPSI-BLAST为蛋白质域数据库的发展提供了便利。该为蛋白质域数据库的发展提供了便利。该数据库可以用来对蛋白质的分子结构和相应的功能单元进行识别。通过数据库可以用来对蛋白质的分子结构和相应的功能单元进行识别。通过一级数据库所做的相似性搜寻能够用来预测基因或蛋白质的功能,只要一级数据库所做的相似性搜寻能够用来预测基因或蛋白质的功能,只要该数据库被充分注释。由于日益增加的序列数据库,为维持数据库的先该数据库被充分注释。由于日益增加的序列数据库,为维持数据库的先进性和对数据进行充分的注释越来越困难,从而,就顾客来说,对二级进性和对数据进行充分的注释越来越困难,从而,就顾客来说,对二级数

    20、据库的依赖程度越来越高。二级数据库含有蛋白质域和功能位点,就数据库的依赖程度越来越高。二级数据库含有蛋白质域和功能位点,就这一点来说,这些二级库颇像是含有这一点来说,这些二级库颇像是含有“序列语言序列语言”词汇与句子的词典。词汇与句子的词典。2023-1-929 BLASTBLAST已经不够用了已经不够用了 随着可以用作比较研究的基因组全序列数目的增加,人们发展了不同随着可以用作比较研究的基因组全序列数目的增加,人们发展了不同类型的功能预测概念与方法。著名的有类型的功能预测概念与方法。著名的有“基因语境基因语境”(gene contextgene context)和和“基因内容基因内容”(co

    21、ntentcontent)分析。如果将基因组看成是一串基因,那)分析。如果将基因组看成是一串基因,那么基因语境就相当于基因的位置关联。基因语境分析,包括基因顺序的么基因语境就相当于基因的位置关联。基因语境分析,包括基因顺序的比较和正常基因组的基因融合(比较和正常基因组的基因融合(FusionFusion),可探测蛋白质的功能关联,),可探测蛋白质的功能关联,例如探测物理相互作用亚单元、相同通路、酶、和它的调控子例如探测物理相互作用亚单元、相同通路、酶、和它的调控子(regulatorregulator)的数目。)的数目。2023-1-930 BLASTBLAST已经不够用了已经不够用了 与基因

    22、语境分析相反,基因内容分析是跨基因组间基因指令系统的比与基因语境分析相反,基因内容分析是跨基因组间基因指令系统的比较。当不同生物体之间两个基因的某种相互关联的方式出现或消失时,较。当不同生物体之间两个基因的某种相互关联的方式出现或消失时,这两个基因之间或许有某种功能上的联系。对于这种分析的一个预先要这两个基因之间或许有某种功能上的联系。对于这种分析的一个预先要求是建立直向同源关系,即起源于共同祖先的功能相同的基因。实际上,求是建立直向同源关系,即起源于共同祖先的功能相同的基因。实际上,直向同源由序列的相似性定义。常常,在基因组两两比对中,直向同源直向同源由序列的相似性定义。常常,在基因组两两比

    23、对中,直向同源内双向最好打击(内双向最好打击(bidirectional best hitsbidirectional best hits)准确定义。在完全测序)准确定义。在完全测序的基因组中,对于直向同源组,在知识组织方面,的基因组中,对于直向同源组,在知识组织方面,COGCOG是较早的和取得最是较早的和取得最突出成就的数据库之一。突出成就的数据库之一。2023-1-931 相互作用网络具有更高阶功能相互作用网络具有更高阶功能 如果将人类基因组图谱主要工作的完成作为后基因组时代开始的标志,如果将人类基因组图谱主要工作的完成作为后基因组时代开始的标志,那么后基因组信息学还处在幼年期。但是这是一

    24、个具有旺盛生命力的超那么后基因组信息学还处在幼年期。但是这是一个具有旺盛生命力的超级婴儿。本节将重点概述后基因组生物信息学的相关发展。本节会提到级婴儿。本节将重点概述后基因组生物信息学的相关发展。本节会提到生物分子网络,下一节将对网络生物学作更详细的论述。生物分子网络,下一节将对网络生物学作更详细的论述。2023-1-932 相互作用网络具有更高阶功能相互作用网络具有更高阶功能 基因调控与微阵列技术基因调控与微阵列技术 蛋白质相互作用蛋白质相互作用 Go,KEGG 生物信息学家都是网虫生物信息学家都是网虫 从数据驱动到原理驱动从数据驱动到原理驱动 2023-1-933 基因调控与微阵列技术基因

    25、调控与微阵列技术 二十世纪二十世纪9090年代后期,各种类型高通量实验数据的获得已经丰富了生年代后期,各种类型高通量实验数据的获得已经丰富了生物信息学的角色,使分析涉及各种各样细胞过程的高阶功能更加方便。物信息学的角色,使分析涉及各种各样细胞过程的高阶功能更加方便。例如,大名鼎鼎的寡核苷酸微阵列或包含全基因组中每个基因的例如,大名鼎鼎的寡核苷酸微阵列或包含全基因组中每个基因的cDNAcDNA微微阵列,对于测量不同条件下,整个细胞或组织的基因表达是一个非常强阵列,对于测量不同条件下,整个细胞或组织的基因表达是一个非常强有力的工具。除了染色体中序列的相似性和相近性,两个基因由于它们有力的工具。除了

    26、染色体中序列的相似性和相近性,两个基因由于它们在某个特殊的时间点或某一特别受控条件下表达模式的相似性而相互关在某个特殊的时间点或某一特别受控条件下表达模式的相似性而相互关联。根据基因表达数据,共调控(联。根据基因表达数据,共调控(co-regulatedco-regulated)基因簇能被探测到,)基因簇能被探测到,其过程在本质上类似于其过程在本质上类似于COGCOG中探测直向同源基因簇,或基因语境分析中位中探测直向同源基因簇,或基因语境分析中位置关联基因簇。这些基因表达簇可用来鉴别特殊生理过程中潜在基因组置关联基因簇。这些基因表达簇可用来鉴别特殊生理过程中潜在基因组的数目。从复杂的基因表达数

    27、据中提取生物学本质特征也促进了自组织的数目。从复杂的基因表达数据中提取生物学本质特征也促进了自组织图谱、支持向量机等信息技术在生物学领域中的应用。图谱、支持向量机等信息技术在生物学领域中的应用。2023-1-934 蛋白质相互作用蛋白质相互作用 蛋白质蛋白质-蛋白质相互作用代表了另外一类实验数据。高通量双杂交系蛋白质相互作用代表了另外一类实验数据。高通量双杂交系统分析已用来检测酵母基因组编码的所有蛋白质对之间的相互作用。质统分析已用来检测酵母基因组编码的所有蛋白质对之间的相互作用。质谱技术已被用来系统地鉴别分离纯化了的蛋白质复合体的成分。这些数谱技术已被用来系统地鉴别分离纯化了的蛋白质复合体的

    28、成分。这些数据集为已有的基因组(序列相似性和基因语境)、转录组(表达相似性)据集为已有的基因组(序列相似性和基因语境)、转录组(表达相似性)数据集赋予有关蛋白质(相互作用)方面的附加信息层。所有这些数据数据集赋予有关蛋白质(相互作用)方面的附加信息层。所有这些数据集可以看成是二进制关系,即两个个体之间的关系,这就是允许整合分集可以看成是二进制关系,即两个个体之间的关系,这就是允许整合分析,从而更加精确地抽象出生物学特征。当酵母的不同数据集结合在一析,从而更加精确地抽象出生物学特征。当酵母的不同数据集结合在一起时,通常会发现成对的东西更具生物学意义。具有更高阶功能的数据起时,通常会发现成对的东西

    29、更具生物学意义。具有更高阶功能的数据通常有更高的误差率,注释可能含有许多缺陷,从而要求更加严格的标通常有更高的误差率,注释可能含有许多缺陷,从而要求更加严格的标准。准。2023-1-935 Go,KEGG 直到最近,对于不同的功能还没有一个共同的术语。对于蛋白质功能,直到最近,对于不同的功能还没有一个共同的术语。对于蛋白质功能,走向共同词汇的第一步已经由基因本体论协会(走向共同词汇的第一步已经由基因本体论协会(Gene ontology Gene ontology consortiumconsortium)迈出,从而可以更准确地比较与描述基因与蛋白质的功能)迈出,从而可以更准确地比较与描述基因

    30、与蛋白质的功能特征。基因本体论协会将目前收集到的动态变化中的知识归类为三个系特征。基因本体论协会将目前收集到的动态变化中的知识归类为三个系统术语或统术语或“本体本体”,分别是单个蛋白质的,分别是单个蛋白质的“分子功能分子功能”、介入蛋白的、介入蛋白的“生物学过程生物学过程”和使蛋白质在其中发挥功能的和使蛋白质在其中发挥功能的“细胞组分细胞组分”。2023-1-936 Go,KEGG 为增加对来自于基因组信息的细胞过程的了解,途径(为增加对来自于基因组信息的细胞过程的了解,途径(pathwaypathway)数)数据库,例如据库,例如KEGGKEGG和和EcoCycEcoCyc,已经在过去的十年

    31、中建立起来。当大多数数,已经在过去的十年中建立起来。当大多数数据库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时据库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时候,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。候,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。这类库以路径图形式储存相应的分子相互作用网络。2023-1-937 Go,KEGG 为增加对来自于基因组信息的细胞过程的了解,途径(为增加对来自于基因组信息的细胞过程的了解,途径(pathwaypathway)数)数据库,例如据库,例如KEGG

    32、KEGG和和EcoCycEcoCyc,已经在过去的十年中建立起来。当大多数数,已经在过去的十年中建立起来。当大多数数据库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时据库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时候,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。候,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。这类库以路径图形式储存相应的分子相互作用网络。毋庸质疑,从过去许多年出版的文献中收集由生物学传统研究所获得毋庸质疑,从过去许多年出版的文献中收集由生物学传统研究所获得的知识是十分必要的。至少

    33、,就代谢途径来说,这些已经有的知识被较的知识是十分必要的。至少,就代谢途径来说,这些已经有的知识被较好地组织成数据库中的数据,也为注释基因组,筛选微阵列与其他高通好地组织成数据库中的数据,也为注释基因组,筛选微阵列与其他高通量实验数据提供了参考数据。量实验数据提供了参考数据。2023-1-938 Go,KEGG 序列只是简单的一维对象,与此相反,相互作用的分子网络是由一些序列只是简单的一维对象,与此相反,相互作用的分子网络是由一些复杂的图对象表示的。数学上,图是节点与边的集合。根据节点所代表复杂的图对象表示的。数学上,图是节点与边的集合。根据节点所代表的事物的不同,所定义的图的对象的类型也不同

    34、。例如,蛋白质系列是的事物的不同,所定义的图的对象的类型也不同。例如,蛋白质系列是由肽键(边)连接在一起的氨基酸(节点)的图对象。为了解更高阶功由肽键(边)连接在一起的氨基酸(节点)的图对象。为了解更高阶功能,必须考虑更高的图的对象。能,必须考虑更高的图的对象。KEGGKEGG含有含有3 3个这样的图对象,分别是个这样的图对象,分别是“蛋白质网络蛋白质网络”,“基因世界基因世界”和和“化学世界化学世界”,其节点也就分别对应,其节点也就分别对应于蛋白质,基因和化学对象。于蛋白质,基因和化学对象。2023-1-939 Go,KEGG 这些数据库为发展图算法铺平了道路。算法包括在途径、表达模式和这些

    35、数据库为发展图算法铺平了道路。算法包括在途径、表达模式和基因语境中探测局域图相似性。在基因语境中探测局域图相似性。在BLASTBLAST搜寻中,搜寻中,E E值的概念建立在数据值的概念建立在数据库是独立的对象(序列)的集合这一观念基础上,与此相关,库是独立的对象(序列)的集合这一观念基础上,与此相关,KEGGKEGG数据数据库或其它任何相互作用网络数据库含有图对象,它们是节点(蛋白质,库或其它任何相互作用网络数据库含有图对象,它们是节点(蛋白质,基因或化合物)以及把这些节点关联在一起的不同类型的边的集合。因基因或化合物)以及把这些节点关联在一起的不同类型的边的集合。因此,相似性统计和图的其它特

    36、征必须被注解,并被转换成新的此,相似性统计和图的其它特征必须被注解,并被转换成新的E E值,以使值,以使得网络分析更加聪明有效。这有些类似于得网络分析更加聪明有效。这有些类似于FASTAFASTA向向BLASTBLAST的转变。的转变。2023-1-940 生物信息学家都是网虫生物信息学家都是网虫 后基因组生物医学研究的一个关键目标是对活体细胞内的所有分子和后基因组生物医学研究的一个关键目标是对活体细胞内的所有分子和它们之间的相互作用进行系统地归类,了解这些分子以及它们之间的相它们之间的相互作用进行系统地归类,了解这些分子以及它们之间的相互作用是怎样决定细胞这一极其复杂的机器的功能。细胞可能是

    37、孤立的,互作用是怎样决定细胞这一极其复杂的机器的功能。细胞可能是孤立的,也可能被其他细胞包围着,研究结果表明细胞网络被普适的定律所控制。也可能被其他细胞包围着,研究结果表明细胞网络被普适的定律所控制。飞速发展的网络细胞生物学已经有了一个全新的概念框架,它可能革新飞速发展的网络细胞生物学已经有了一个全新的概念框架,它可能革新我们对生物学和病理学的观念。我们对生物学和病理学的观念。2023-1-941 生物信息学家都是网虫生物信息学家都是网虫 统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它们的功能方面的极其丰富的知识。尽管简

    38、化论取得了巨大的成功,但是们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功,但是越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。相反,大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用,相反,大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用,这些要素包括这些要素包括DNADNA、RNARNA和小分子。因此在和小分子。因此在2121世纪,生物学所面临的关键世纪,生物学所面临的关键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结构挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结

    39、构与动力学。与动力学。2023-1-942 生物信息学家都是网虫生物信息学家都是网虫 高通量数据聚集技术的发展,例如微阵列芯片的广泛应用,允许人们高通量数据聚集技术的发展,例如微阵列芯片的广泛应用,允许人们随时对细胞组分的状态进行探测。新的技术平台,像蛋白质芯片或半自随时对细胞组分的状态进行探测。新的技术平台,像蛋白质芯片或半自动酵母双杂交技术,能帮助我们了解生物分子什么时候怎样发生相互作动酵母双杂交技术,能帮助我们了解生物分子什么时候怎样发生相互作用。各种类型的相互作用网络(包括蛋白质用。各种类型的相互作用网络(包括蛋白质-蛋白质相互作用、代谢、信蛋白质相互作用、代谢、信号以及转录调控网络)

    40、来源于这些相互作用的集合。相互作用网络不是号以及转录调控网络)来源于这些相互作用的集合。相互作用网络不是互相独立的,相反它们是某一更大网络的子网络。完整的网络对细胞的互相独立的,相反它们是某一更大网络的子网络。完整的网络对细胞的功能负责。当前生物学的一个主要挑战是整合理论的和实验的步骤,以功能负责。当前生物学的一个主要挑战是整合理论的和实验的步骤,以制定、了解和定量模拟控制细胞行为的各种网络的拓扑与动力学特征。制定、了解和定量模拟控制细胞行为的各种网络的拓扑与动力学特征。2023-1-943 生物信息学家都是网虫生物信息学家都是网虫 过去几年里,复杂网络理论正在迅速发展,所提供的方法已经为揭示

    41、过去几年里,复杂网络理论正在迅速发展,所提供的方法已经为揭示控制各种各样复杂的技术与社会网络的组织原理做出了贡献。这一研究控制各种各样复杂的技术与社会网络的组织原理做出了贡献。这一研究正在冲击细胞生物学的研究。人们已经开始认识到细胞内分子相互作用正在冲击细胞生物学的研究。人们已经开始认识到细胞内分子相互作用的网络结构特征在极大程度上与其它复杂的网络相同或相似。这些网络的网络结构特征在极大程度上与其它复杂的网络相同或相似。这些网络有互联网、计算机芯片、社会网络等等。这个出乎人们意料之外的普适有互联网、计算机芯片、社会网络等等。这个出乎人们意料之外的普适性表明相似的定律或许控制着自然界中的大多数复

    42、杂网络,这就允许借性表明相似的定律或许控制着自然界中的大多数复杂网络,这就允许借鉴已经被很好地了解的大型非生物学网络的经验,以刻画控制细胞功能鉴已经被很好地了解的大型非生物学网络的经验,以刻画控制细胞功能的错综复杂的关系。的错综复杂的关系。2023-1-944 生物信息学家都是网虫生物信息学家都是网虫 网络理论有效的工具提供了理解细胞内部组织和进化的末期预料到的网络理论有效的工具提供了理解细胞内部组织和进化的末期预料到的可能性,这将从根本上改变我们关于细胞生物学的观念。一些研究成果可能性,这将从根本上改变我们关于细胞生物学的观念。一些研究成果正在使人们认识到,尽管单个分子的重要性不可轻视,细胞

    43、的功能源于正在使人们认识到,尽管单个分子的重要性不可轻视,细胞的功能源于大量细胞构件间相互作用的精确定量模式的关联。尽管揭示细胞网络的大量细胞构件间相互作用的精确定量模式的关联。尽管揭示细胞网络的一般组织原理是将细胞作为一个系统了解的基础,为实验生物学者发展一般组织原理是将细胞作为一个系统了解的基础,为实验生物学者发展相关方法,帮助他们阐明在各种各样细胞过程中细胞网络所扮演的角色相关方法,帮助他们阐明在各种各样细胞过程中细胞网络所扮演的角色同样是必须的。同样是必须的。2023-1-945 生物信息学家都是网虫生物信息学家都是网虫 各种各样复杂系统的相互作用网络,例如,互联网、社会网络、代谢各种

    44、各样复杂系统的相互作用网络,例如,互联网、社会网络、代谢网络,还有基因网络以及其它各种生物学网络拥有网络拓扑学的共同特网络,还有基因网络以及其它各种生物学网络拥有网络拓扑学的共同特征。其中一个特征就是征。其中一个特征就是“小世界网络小世界网络”,其中任何两个节点都可由几个,其中任何两个节点都可由几个步骤连接在一起,这是因为完全规则和完全随机之间的中间拓扑。另一步骤连接在一起,这是因为完全规则和完全随机之间的中间拓扑。另一特征是特征是“无标度无标度”(scale freescale free)网络,其中节点连接度服从幂率分布,)网络,其中节点连接度服从幂率分布,这很可能意味着高度被连接的节点(这

    45、很可能意味着高度被连接的节点(hubshubs)的存在。在不断扩大的互联)的存在。在不断扩大的互联网和社会网络中,这些特征与新节点连接到更大的连接器(网和社会网络中,这些特征与新节点连接到更大的连接器(hubshubs)相关)相关联。在生物学网络中,这一特征和功能与进化密切相关。例如,无标度联。在生物学网络中,这一特征和功能与进化密切相关。例如,无标度律似乎与网络抵抗随机误差的稳定性相关。这是一种进化所喜欢的特征。律似乎与网络抵抗随机误差的稳定性相关。这是一种进化所喜欢的特征。尽管不同类型的复杂网络分享普遍的特征,当检查简单的网络单元尽管不同类型的复杂网络分享普遍的特征,当检查简单的网络单元(

    46、motifsmotifs)时,它们之间是有区别的)时,它们之间是有区别的 。2023-1-946 生物信息学家都是网虫生物信息学家都是网虫 必定地,网络拓扑的复杂性起源于连接(相互作用)的复杂模式,而必定地,网络拓扑的复杂性起源于连接(相互作用)的复杂模式,而不是简单地来自网络的尺寸(由网络的节点数度量),这可能是有生物不是简单地来自网络的尺寸(由网络的节点数度量),这可能是有生物学上的意义,尤其当我们看到人类基因组中几个令人吃惊的基因时。在学上的意义,尤其当我们看到人类基因组中几个令人吃惊的基因时。在自然界,节点连接的图与模式是定态的。代谢重建已经完成了这样的图。自然界,节点连接的图与模式是

    47、定态的。代谢重建已经完成了这样的图。预测网络动力学远比简单地预测连接模式复杂。通过设计高通量实验,预测网络动力学远比简单地预测连接模式复杂。通过设计高通量实验,实验中系统地扰动动力学环境并收集足够的实验数据,网络动力学或许实验中系统地扰动动力学环境并收集足够的实验数据,网络动力学或许会变得可计算,至少对小的环境扰动的响应动力学可以计算。会变得可计算,至少对小的环境扰动的响应动力学可以计算。2023-1-947 从数据驱动到原理驱动从数据驱动到原理驱动 在过去的一个年代里,生物信息学的主要标志是创造性地发展计算方在过去的一个年代里,生物信息学的主要标志是创造性地发展计算方法以便为大规模数据的产生

    48、与分析提供帮助,以及为直接来自源于大规法以便为大规模数据的产生与分析提供帮助,以及为直接来自源于大规模数据分析所得到的生物学知识建立二级数据库。懂得隐藏在细胞和生模数据分析所得到的生物学知识建立二级数据库。懂得隐藏在细胞和生物体中的基本原理是生物信息学的最终目标,物体中的基本原理是生物信息学的最终目标,19901990年代的生物信息学只年代的生物信息学只是通向这一阶段目标的起点。生物学不再局限于列举与建立分子成分的是通向这一阶段目标的起点。生物学不再局限于列举与建立分子成分的表列,也就是说不再受限于基因(基因组)、信使核糖核酸(转录组)、表列,也就是说不再受限于基因(基因组)、信使核糖核酸(转

    49、录组)、蛋白质(蛋白质组)和代谢组份(代谢组)。延伸的表列包括相互作用蛋白质(蛋白质组)和代谢组份(代谢组)。延伸的表列包括相互作用组,它是蛋白质蛋白质相互作用的集合,还有定位组、它是蛋白质亚组,它是蛋白质蛋白质相互作用的集合,还有定位组、它是蛋白质亚细胞器定位的集合。不同表列的指令系统随着高通量实验技术的建立与细胞器定位的集合。不同表列的指令系统随着高通量实验技术的建立与扩充不断增长。扩充不断增长。2023-1-948 从数据驱动到原理驱动从数据驱动到原理驱动 当然,来自于基因组和蛋白质组的从底层到顶层的方案不足以理解生当然,来自于基因组和蛋白质组的从底层到顶层的方案不足以理解生物系统的高度

    50、复杂性。无论是基因本体论的控制性词汇或物系统的高度复杂性。无论是基因本体论的控制性词汇或KEGGKEGG的图表示,的图表示,对于复杂的细胞特征都会简化基因组数据的计算图谱,这些成果也可用对于复杂的细胞特征都会简化基因组数据的计算图谱,这些成果也可用来探测基因组和高阶特性之间的经验关系。尽管该领域正在期盼来探测基因组和高阶特性之间的经验关系。尽管该领域正在期盼“系统系统生物学生物学”与整个细胞的模拟,或许更多的努力必须付诸于抓住更高的特与整个细胞的模拟,或许更多的努力必须付诸于抓住更高的特征,例如人类疾病的本体论和细胞网络的计算机表示。另外,功能对处征,例如人类疾病的本体论和细胞网络的计算机表示

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:生物信息学导论课件.ppt
    链接地址:https://www.163wenku.com/p-5198302.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库