第十章蛋白质组研究中的生物信息学课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第十章蛋白质组研究中的生物信息学课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十 蛋白质 研究 中的 生物 信息学 课件
- 资源描述:
-
1、 第十章第十章 蛋白质组研究中的蛋白质组研究中的 生物信息学生物信息学一、生物信息学概述一、生物信息学概述 1、什么是生物信息学?什么是生物信息学?Bioinformatics:一门新兴的交叉学科,一门新兴的交叉学科,包含包含信息的获取、处理、存储、分配信息的获取、处理、存储、分配 、分析和、分析和解释等在内的所有方面。它综合应用数学、解释等在内的所有方面。它综合应用数学、计算机科学和生物学的各种工具来阐明和计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。理解大量数据所包含的生物学意义。Bioinformatics encompasses all aspects of ge
2、nome information acquisition,processing,storage,distribution,analysis,and interpretation.研究范围:研究范围:确定确定DNA中的编码区;中的编码区;阐明非编码区的信息实质,破译遗传语阐明非编码区的信息实质,破译遗传语言规律;言规律;归纳整理相关数据,认识代谢、发育、归纳整理相关数据,认识代谢、发育、分化、进化规律;分化、进化规律;蛋白质空间结构模拟;蛋白质空间结构模拟;蛋白质功能预测;蛋白质功能预测;蛋白质、核酸分子设计;蛋白质、核酸分子设计;药物设计;药物设计;个体化医疗保健设计个体化医疗保健设计.重点发
3、展方向:重点发展方向:人类基因组序列信息分析;人类基因组序列信息分析;基因组结构与遗传语言:基因组结构与遗传语言:语法和词法分析;语法和词法分析;大规模基因表达谱分析、相关算法、大规模基因表达谱分析、相关算法、软件研究、基因表达调控网络研究;软件研究、基因表达调控网络研究;基因组信息相关的蛋白质功能分析;基因组信息相关的蛋白质功能分析;新理论、新方法、新技术、新软件研究。新理论、新方法、新技术、新软件研究。计算机运算速度计算机运算速度:18:18个月增长一倍个月增长一倍DNADNA序列数据序列数据:14:14个月增长一倍个月增长一倍 研究状况:研究状况:近年来近年来GenBankGenBank
4、中的中的DNADNA碱基数目呈指数增加,碱基数目呈指数增加,大约每大约每1414个月增加一倍。到个月增加一倍。到19991999年年1212月其数目已月其数目已达达3030亿,它们来自亿,它们来自4700047000种生物。种生物。20002000年年4 4月月DNADNA碱基数目是碱基数目是6060亿。亿。20012001年初这一数目已达年初这一数目已达110110亿。亿。各种生物的各种生物的ESTEST序列已达序列已达600600多万条,其中人多万条,其中人类的类的ESTEST序列已超过序列已超过300 300 万条,估计覆盖人类基万条,估计覆盖人类基因因9090以上;以上;UniGene
5、UniGene的数目约达的数目约达7 7万个;万个;自自19991999年初单核苷酸多态性年初单核苷酸多态性(SNPsSNPs,Single Nucleotide,Single Nucleotide Polymorphisms)Polymorphisms)数据库出现以来,到数据库出现以来,到20002000年年3 3月月2020日日SNPSNP的总数是的总数是2656926569,现在已超过,现在已超过350350万;万;自全长自全长1.8Mb1.8Mb的嗜血流感杆菌的嗜血流感杆菌(Haemophilus influenzaeHaemophilus influenzae RdRd)基因组)基因
6、组序列于序列于19951995年发表(年发表(Fleischmann et al.Fleischmann et al.,19951995)以来,已有)以来,已有5454个模式生物的完整基个模式生物的完整基因组被测序完成,它们中有因组被测序完成,它们中有9 9个古细菌、个古细菌、3131个原核真细菌、个原核真细菌、1414个真核生物的完整基因个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母组或它们的完整染色体,其中包括酿酒酵母和线虫。和线虫。还有另外的还有另外的7070余个微生物基因组正在测余个微生物基因组正在测试当中。试当中。相关文献:相关文献:分子生物学和遗传学的文献积累从60年代
7、中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据http:/www.ncbi.nlm.nih.gov有关PubMed数据整理)。美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本
8、于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。基因组学的研究内容基因组学的研究内容 基因组组分动力学基因组组分动力学。基因组组分的变化与基因变异、基因组组分的变化与基因变异、基因功能、基因进化、基因组重复序列变迁等,以基因功能、基因进化、基因组重复序列变迁等,以及它们的相互关系。及它们的相互关系。基因产物系统生物学基因产物系统生物学。基因产物(基因产物(RNA和蛋白质)和蛋白质)的功能和相互作用,基因产物所构成的细胞分
9、子机的功能和相互作用,基因产物所构成的细胞分子机制,生命过程与生化途径的系统关系等。制,生命过程与生化途径的系统关系等。基因组多态性基因组多态性。基因和基因组在物种内的变化与物基因和基因组在物种内的变化与物种的性状或基因表型的关系。由于物种内各亚种间种的性状或基因表型的关系。由于物种内各亚种间的差别较小,在基因组水平上也属于多态性研究的的差别较小,在基因组水平上也属于多态性研究的范畴。基因组多态性在群体水平的研究,是超越传范畴。基因组多态性在群体水平的研究,是超越传统遗传学的一个飞越。统遗传学的一个飞越。基因组的进化基因组的进化。物种间基因组在自然选择下变化的物种间基因组在自然选择下变化的比较
10、研究。比较研究。2、生物信息学的研究内容、生物信息学的研究内容 生物信息学是把基因组生物信息学是把基因组DNADNA序列信息分析序列信息分析作为源头,破译隐藏在作为源头,破译隐藏在DNADNA序列中的遗传语序列中的遗传语言,特别是非编码区的实质;同时在发现言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模了新基因信息之后进行蛋白质空间结构模拟和预测。拟和预测。生物信息学的研究目标生物信息学的研究目标是揭示是揭示“基因组信息结构的复杂性及遗传基因组信息结构的复杂性及遗传语言的根本规律语言的根本规律”。它是自然科学。它是自然科学和技术科学领域中和技术科学领域中“基因组基因组”
11、、“信息结构信息结构”和和“复杂性复杂性”这三个这三个重大科学问题的有机结合重大科学问题的有机结合。生物信息学的研究内容:(1 1)序列比对序列比对(alignmentalignment)。)。基本问题是比较两个或两个以上符号基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列的相似性或不相似性。对比软件包:对比软件包:BLASTBLAST、FASTAFASTA 局部对比:局部对比:Smith-Waterman Smith-Waterman 算法算法。(2 2)发现新基因和新的单核苷酸多态性发现新基因和新的单核苷酸多态性 发现新基因是当前国际上基因组研究的发现新基因是当前国际上基因组研
12、究的热点,使用生物信息学的方法是发现新基热点,使用生物信息学的方法是发现新基因的重要手段。因的重要手段。(3 3)蛋白质结构对比与预测)蛋白质结构对比与预测 包括包括2 2级和级和3 3级结构预测,是最重要的课题之级结构预测,是最重要的课题之一。一。从方法上来看有从方法上来看有演绎法和归纳法演绎法和归纳法两种途径。两种途径。前者主要是从一些基本原理或假设出发来预测前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来
13、预测未总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认知蛋白质的结构。同源模建和指认(ThreadingThreading)方法属于这一范畴。虽然经过方法属于这一范畴。虽然经过3030余年的努力,余年的努力,蛋白结构预测研究现状远远不能满足实际需要。蛋白结构预测研究现状远远不能满足实际需要。(4 4)计算机辅助基因识别)计算机辅助基因识别(仅指蛋白质编码基因仅指蛋白质编码基因)基本问题是给定基因组序列后,正确识基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。这是最重要的课
14、题之一,而且越来越重要。经过经过2020余年的努力,提出了数十种算法,有余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的问题,研究现状不能令人满意,仍有大量的工作要做。的工作要做。(5 5)非编码
15、区分析和)非编码区分析和DNADNA语言研究语言研究 在人类基因组中,编码部分进展总序列在人类基因组中,编码部分进展总序列的的3-5%3-5%,其它通常称为,其它通常称为“垃圾垃圾”DNADNA,其实,其实一点也不是垃圾,只是我们暂时还不知道一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区其重要的功能。分析非编码区DNADNA序列需要序列需要大胆的想象和崭新的研究思路和方法。大胆的想象和崭新的研究思路和方法。DNADNA序列作为一种遗传语言,不仅体现在编码序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中序列之中,而且隐含在非编码序列之中。(6 6)分子进化和
16、比较基因组学)分子进化和比较基因组学 早期的工作主要是利用不同物种中同一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构种基因序列的异同来研究生物的进化,构建进化树。既可以用建进化树。既可以用DNADNA序列也可以用其编序列也可以用其编码的氨基酸序列来做,甚至于可通过相关码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供从整个基因组的角度
17、来研究分子进化提供了条件。了条件。(7 7)从功能基因组到系统生物学)从功能基因组到系统生物学 无论是生物芯片还是蛋白质组技术的发无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。而进入系统生物学的领域。(8 8)序列重叠群()序列重叠群(contigscontigs)装配)装配 (9 9)遗传密码
18、的起源)遗传密码的起源 (1010)基于结构的药物设计)基于结构的药物设计 人类基因组计划的目的之一在于阐明人人类基因组计划的目的之一在于阐明人的约的约1010万种蛋白质的结构、功能、相互作万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其些酶或蛋白质的活性,在已知其3 3级结构的级结构的基础上,可以利
19、用分子对接算法,在计算基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也种发现新药物的方法有强大的生命力,也有着巨大的经济效益。有着巨大的经济效益。(1111)生物信息处理并行算法的研究)生物信息处理并行算法的研究 由于生物信息数据的规模极其巨大,由于生物信息数据的规模极其巨大,因此国内外都开展了生物信息处理算法并因此国内外都开展了生物信息处理算法并行化方向的研究。国外还开展了特殊生物行化方向的研究。国外还开展了特殊生物信息处理中算法的研究以及在硬件基础上信息处理中算法的研究以及在硬件基础上的并行化方
20、向的研究,主要是研究生物信的并行化方向的研究,主要是研究生物信息学中的一些关键的算法,研究其中的可息学中的一些关键的算法,研究其中的可并行性,然后将其固化到硬件芯片中,从并行性,然后将其固化到硬件芯片中,从而提高整个计算系统的性能。而提高整个计算系统的性能。(1212)其他)其他 如如基因表达谱分析,代谢网络分析;基因表达谱分析,代谢网络分析;基因芯片设计基因芯片设计等,逐渐成为生物信息学中等,逐渐成为生物信息学中新兴的重要研究领域。随着蛋白质组学研新兴的重要研究领域。随着蛋白质组学研究的迅猛发展,蛋白质组学数据分析、计究的迅猛发展,蛋白质组学数据分析、计算蛋白质组学等领域的地位将越发重要。算
21、蛋白质组学等领域的地位将越发重要。3 3、生物信息学的特点、生物信息学的特点 它是一门基于数据积累,尤其是原始数据积它是一门基于数据积累,尤其是原始数据积累的科学。累的科学。数据的获取是学科发展的保障和本源。生数据的获取是学科发展的保障和本源。生物信息学研究首先也是基于实验数据的生产、物信息学研究首先也是基于实验数据的生产、管理和分析。因此,生物信息领域的特点首管理和分析。因此,生物信息领域的特点首要特点是生物学基本数据收集的规模化,数要特点是生物学基本数据收集的规模化,数据处理的程序化,数据分析的专门化。谁生据处理的程序化,数据分析的专门化。谁生产数据,谁首先占有数据,谁有机会分析数产数据,
22、谁首先占有数据,谁有机会分析数据,谁就有主动权。谁开发出新的分析工具,据,谁就有主动权。谁开发出新的分析工具,谁就有能力分析数据,谁就有新发现可能性。谁就有能力分析数据,谁就有新发现可能性。科学研究以数据导向为主科学研究以数据导向为主 先获取数据,后有分析,再建立假说来指先获取数据,后有分析,再建立假说来指导新一轮的数据获取和实验研究。研究的启动导新一轮的数据获取和实验研究。研究的启动不完全取决于科学知识的前期积累。比如,河不完全取决于科学知识的前期积累。比如,河豚鱼基因组测序计划的启动就是为了配合和补豚鱼基因组测序计划的启动就是为了配合和补足人类基因组计划的可能弱点。足人类基因组计划的可能弱
23、点。超学科性超学科性 它是在学科的交叉和交流中生成和成长它是在学科的交叉和交流中生成和成长的。紧紧抓住这个特点,积极在组织上和的。紧紧抓住这个特点,积极在组织上和机制上创造学科交叉的条件是科学成功的机制上创造学科交叉的条件是科学成功的关键。关键。极强的竞争性极强的竞争性 不仅科研对失败者来说是无情的,而且不仅科研对失败者来说是无情的,而且用户对失败者也是不同情的。被遗弃的算用户对失败者也是不同情的。被遗弃的算法、工具和不完整的数据库比比皆是。法、工具和不完整的数据库比比皆是。4 4、生物信息学领域的重要科学问题、生物信息学领域的重要科学问题 包括从单细胞到多细胞生物的真核生物是在生物包括从单细
24、胞到多细胞生物的真核生物是在生物进化上复杂性渐进的生命群进化上复杂性渐进的生命群。真核生物基因组在。真核生物基因组在进化过程中发生了从进化过程中发生了从DNA组分到基因结构的阶段组分到基因结构的阶段性变化。这些变化为性变化。这些变化为Ab inito基因识别提出不同基因识别提出不同的挑战。的挑战。目前的基因识别步骤和软件都不能满足生物学研目前的基因识别步骤和软件都不能满足生物学研究日新月异的需要。以实验数据为基础,以相近究日新月异的需要。以实验数据为基础,以相近(如亚种间)和同类(如温血动物间)基因组间(如亚种间)和同类(如温血动物间)基因组间的比较为手段,建立基因组(或物种)特异和多的比较为
25、手段,建立基因组(或物种)特异和多用途基因识别软件包和系统用途基因识别软件包和系统,揭示真核生物基因组揭示真核生物基因组进化的分子机制。进化的分子机制。核苷酸多态性的研究是以发现和分析群体核苷酸多态性的研究是以发现和分析群体(包括相近亚种间)(包括相近亚种间)DNA顺序上的差别为顺序上的差别为基础,揭示这些多态性与基因表达和基因基础,揭示这些多态性与基因表达和基因功能的关系,基因型和表现型的内在联系。功能的关系,基因型和表现型的内在联系。为我们绘制人类基因组单倍体图和以后绘为我们绘制人类基因组单倍体图和以后绘制其他物种的遗传图谱奠定基础。制其他物种的遗传图谱奠定基础。RNARNA水平基因表达研
展开阅读全文