生物信息学1导论课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《生物信息学1导论课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 导论 课件
- 资源描述:
-
1、生物信息学教材n赵国屏赵国屏 生物信息学生物信息学 科学出版社科学出版社考核方法n平时成绩平时成绩n作业作业n考试考试Introduction to Bioinformatics生物科学的发展阶段n描述生物学阶段(描述生物学阶段(19世纪世纪中期以前)中期以前)n主要从形态特征观察描述、主要从形态特征观察描述、记载各种类型生物,寻找记载各种类型生物,寻找他们之间的异同和进化脉他们之间的异同和进化脉络络n代表人物,达尔文代表人物,达尔文n1859年,年,物种起源物种起源实验生物学阶段(19世纪中20世纪中)n利用各种仪器工具,通过实利用各种仪器工具,通过实验过程探索生命活动的内在验过程探索生命活
2、动的内在规律规律n代表人物,代表人物,孟德尔孟德尔n1866年,年,植物杂交试验植物杂交试验 分子生物学阶段(20世纪中期以后)n代表人物,代表人物,沃森和克里克沃森和克里克nDNA双螺旋模型双螺旋模型n1962年,诺贝尔生理学奖年,诺贝尔生理学奖n整个生物界是一个多层次的有序结构:整个生物界是一个多层次的有序结构:细胞细胞 组织组织 器官器官 系统系统 个体个体 生态系统 群落 种群引自J Postlethwait&J Hopson著The Nature of Life,1989从基本粒子到生物圈从基本粒子到生物圈Half day on the web,half month in the l
3、ab.saves you-Alan Bleasby2000年年2月月2日日,北京大学燕北园300多位教师的家用计算机接入Internet;2001年年2月月12日日,北京大学2000多个本科生宿舍的计算机接入Internet.2022-11-11一、概述n二十一世纪是生命科学的时代,也是信息时代二十一世纪是生命科学的时代,也是信息时代 n近年来,随着现代分子生物学的发展,特别是人类基组计近年来,随着现代分子生物学的发展,特别是人类基组计划的实施,不断产生出巨量的分子生物学数据,这些数据划的实施,不断产生出巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法有着数量巨
4、大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。独立的学科并被推上了生物科学发展的最前沿。Bioinformatics:科技界一颗耀眼的新星n在在BIOINFORMATICS 没有诞生之前,没有诞生之前,一个新药的问世需一个新药的问世需要十年时间,数亿美元的要十年时间,数亿美元的R&D,而,而BIOINFORMATICS已已将这个过程减少三分之二,将这个过程减少三分之二,R&D的费用也相应大大减少。的费用也相应大大减少。许多中小许多中小BIOTECH 公司也看到
5、了公司也看到了BIOINFORMATICS 的的巨大作用和潜在的商机,纷纷投资巨大作用和潜在的商机,纷纷投资BIOINFORMATICS 研研究项目。究项目。生物信息学一、什么是生物信息学?一、什么是生物信息学?二、生物信息学门户网站二、生物信息学门户网站三、生物信息数据库三、生物信息数据库四、数据库查询和数据库搜索四、数据库查询和数据库搜索五、序列的同源比较五、序列的同源比较六、生物信息学应用六、生物信息学应用生 物 信 息 学 概 论n主要介绍的内容:什么是生物信息学?生物信息学的研究内容和科学目标。生物信息学的发展历史国内外生物信息学的研究历史和现状。一.什么是生物信息学?nGenome
6、 informatics is a scientific discipline that encompasses all aspects of genome information acquisition,processing,storage,distribution,analysis,and interpretation.它是一个学科领域,包含着基因组信息的获取、处理、它是一个学科领域,包含着基因组信息的获取、处理、存储、分配存储、分配 、分析和解释的所有方面。、分析和解释的所有方面。(The U.S.Human Genome Project:The First Five Years FY
7、1991-1995,by NIH and DOE)早在早在1956年,在美国田纳西州盖特林堡召开的首次年,在美国田纳西州盖特林堡召开的首次“生物学生物学中的信息理论研讨会中的信息理论研讨会”上,便产生了生物信息学的概念。上,便产生了生物信息学的概念。1987年,林华安博士正式把这一学科命名为年,林华安博士正式把这一学科命名为“生物信息学生物信息学”(Bioinformatics)。被尊称为)。被尊称为“生物信息学之父生物信息学之父”。生物信息学的诞生和发展生物信息学的诞生和发展生物信息学的诞生和发展生物信息学的诞生和发展n随着人类基因计划过程中出现的爆炸性增长的序列信息加随着人类基因计划过程中
8、出现的爆炸性增长的序列信息加速了生物信息学的发展,促进了生物信息学这一门学科的速了生物信息学的发展,促进了生物信息学这一门学科的发展。发展。n分子生物学和遗传学的文献积累从分子生物学和遗传学的文献积累从60年代中期的接近年代中期的接近10万万篇迅速增长至篇迅速增长至60年代末期的年代末期的20多万篇,即在多万篇,即在3-4年间,翻了年间,翻了一番。一番。n此后,至此后,至80年代中期,上升至约年代中期,上升至约30万篇,即平均每年增长万篇,即平均每年增长6-7千篇。千篇。n至至90年代中期,文献数已上升至年代中期,文献数已上升至40多万篇;即在多万篇;即在10年中,年中,平均每年增长平均每年增
9、长1万篇。万篇。n到到2000年,则增长至约年,则增长至约50万篇,即在约万篇,即在约5年间,又增长了年间,又增长了10万篇(根据万篇(根据http:/www.ncbi.nlm.nih.gov有关有关PubMed数数据整理)。据整理)。n美国的核酸数据库美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从从1979年开始建设,年开始建设,1982年正年正式运行;式运行;n欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL数据库也于数据库也于1982年开始服年开始服务;务;n日本于日本于1984年开始建立国家级的核酸数据
10、库年开始建立国家级的核酸数据库DDBJ,并于,并于1987年正式服务。年正式服务。n从那个时候以来,从那个时候以来,DNA序列的数据已经从序列的数据已经从80年代初期的百年代初期的百把条序列,几十万碱基上升至现在的把条序列,几十万碱基上升至现在的110亿碱基!这就是亿碱基!这就是说,在短短的约说,在短短的约18年间,数据量增长了近十万倍。年间,数据量增长了近十万倍。n近年来近年来GenBank中的中的DNA碱基数目呈指数增加,大约每碱基数目呈指数增加,大约每14个月增加一倍。到个月增加一倍。到1999年年12月其数目已达月其数目已达30亿,它们来亿,它们来自自47000种生物。种生物。2000
11、年年4月月DNA碱基数目是碱基数目是60亿。亿。2001年年初这一数目已达初这一数目已达110亿。亿。计算机运算速度计算机运算速度:18个月增长一倍个月增长一倍;DNA序列数据序列数据:14个月增长一倍个月增长一倍;分析、筛选大量新数据分析、筛选大量新数据理论生物学理论生物学计算生物学计算生物学传统生物学:实验科学现代生物学的发展:海量数据 难以完全依赖实验手段对新数据进行分析,必难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选须借助计算机实现分析和筛选n生物信息学是一门新兴的、正在迅速发展的交叉学科,国内生物信息学是一门新兴的、正在迅速发展的交叉学科,国内外对生物信息学的定
12、义众说纷纭。外对生物信息学的定义众说纷纭。n美国国家基因组研究中心美国国家基因组研究中心nBioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics,and computers.n美国乔治亚理工大学美国乔治亚理工大学nBioinformatics is an integration of mathematical,statistical and computer methods to analyze biological,biochemica
13、l and biophysical data.生物信息学的概念生物信息学的概念n美国密苏里大学美国密苏里大学nBioinformatics is the science and technology about learning,managing and processing biological information.n美国加利福尼亚大学洛杉矶分校美国加利福尼亚大学洛杉矶分校nBioinformatics is the study of the inherent structure of biological information and biological systems.It br
14、ings together the avalanche of systematic biological data with the analytic theory and practical tools of mathematics and computer science.n生物信息学(生物信息学(bioinformatics)是生物学与计算机科学以)是生物学与计算机科学以及应用数学等学科相互及应用数学等学科相互交叉交叉而形成的一门新兴学科。它通而形成的一门新兴学科。它通过对过对生物学实验数据的获取、加工、存储、检索与分析,生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴
15、含的生物学意义的目的。进而达到揭示数据所蕴含的生物学意义的目的。生物信息学的概念生物信息学的概念生物信息学是多学科交叉产生的一门新兴学科生物信息学是多学科交叉产生的一门新兴学科生物信息学的概念生物信息学的概念n在推动生物信息学发展的各种动力中,人类基因组计划在推动生物信息学发展的各种动力中,人类基因组计划(HGP)和生物医药工业是其中的两个主要力量。现代分)和生物医药工业是其中的两个主要力量。现代分子生物学的发展,特别是子生物学的发展,特别是人基因组计划人基因组计划的实施,使生物学的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单家所面对的数据不再是实验记录本上或文献上的几行简
16、单数字,而是公共数据库中数以千兆计的记录。数字,而是公共数据库中数以千兆计的记录。n由于当前生物信息学发展的主要推动力来自由于当前生物信息学发展的主要推动力来自分子生物学分子生物学,生物信息学的研究主要集中于生物信息学的研究主要集中于核苷酸和氨基酸序列核苷酸和氨基酸序列的存储、的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。生物信息学的概念生物信息学的概念n生物信息学(生物信息学(Bioi
17、nformatics)是一门新兴的交叉学科。是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及计算机科学,很多人会认为:生物信息学既涉及生物又涉及计算机科学,一定是一个内容十分广泛的学科领域。其实它的内涵十分一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。具体,范围非常明确。生物信息学的概念生物信息学的概念n生物信息学是伴随基因组研究而产生的,因此它的研究内生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。容就紧随着基因组研究而发展。n广义地说,生物信息学从事对基因组研究相关生物信息的广义地说,生物信息学从事对基因组研究相关生物信息
18、的获取、加工、储存、分配、分析和解释,并综合运用数学、获取、加工、储存、分配、分析和解释,并综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含计算机科学和生物学工具,以达到理解数据中的生物学含义的目标。义的目标。n这一定义包括了两层含义这一定义包括了两层含义n一是对海量数据的收集、整理与服务,也就是管好这些数一是对海量数据的收集、整理与服务,也就是管好这些数据;据;n另一个是从中发现新的规律,也就是用好这些数据。另一个是从中发现新的规律,也就是用好这些数据。生物信息学的概念生物信息学的概念 n具体地说,生物信息学是把基因组具体地说,生物信息学是把基因组DNA序列信息分析作为序列信
19、息分析作为源头,找到基因组序列中代表蛋白质和源头,找到基因组序列中代表蛋白质和RNA基因的编码区;基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。质谱的数据,从而认识代谢、发育、分化、进化的规律。生物信息学的研究内容n1、获取人和各种生物的完整基因组获取人和各种生物的完整基因组n2
20、、发现新基因和新的单核苷酸多态性、发现新基因和新的单核苷酸多态性n3、基因组中非编码区信息结构分析、基因组中非编码区信息结构分析n4、在基因组水平研究生物进化、在基因组水平研究生物进化n5、完整基因组的比较研究、完整基因组的比较研究n6、从功能基因组到系统生物学、从功能基因组到系统生物学n7、蛋白质结构模拟与药物设计、蛋白质结构模拟与药物设计主要研究内容n一获取人和各种生物的完整基因组一获取人和各种生物的完整基因组 n基因组研究的首要目标是获得人的整套遗传密码。基因组研究的首要目标是获得人的整套遗传密码。n在在自然自然、科学科学两杂志上公布的人类基因组工作草图报道,它两杂志上公布的人类基因组工
21、作草图报道,它含有约含有约29亿碱基,其序列覆盖率为亿碱基,其序列覆盖率为94。有大于。有大于90的连续序列群已的连续序列群已大于大于10万碱基;有约万碱基;有约25的连续序列群已等于或大于千万碱基。在这的连续序列群已等于或大于千万碱基。在这些序列中发现了些序列中发现了34万个编码蛋白质的基因。得到这样的图就是相当万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和
22、组装。接和组装。n在基因组大规模测序的每一个环节都与信息分析紧密在基因组大规模测序的每一个环节都与信息分析紧密相关。相关。n序列拼接和填补序列间隙是最为关键的首要难题。其序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。和信息分析时刻联系在一起。n另一方面,必须按照不同步骤的要求,发展适当的算另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很法及相应
23、的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。略,并且这样的工作都是在超级计算机上完成的。n有了完整基因组,人类对自身的认识就更为细致、更为有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)的部分很少,只占(称为外显子)的部分很少,只占11;外显子与外;外显子与外显子之间的区域(称为内含子)占了显子之间的区域(称为内含子)占了24;也就是说在;也就是说在人类基因组中
24、不编码蛋白质的区域占了绝大部分。人类基因组中不编码蛋白质的区域占了绝大部分。n发现人类编码蛋白的基因较之其它生物体的基因更为复发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第号染色体比较稳定,而男性的第12号染色体和女性的号染色体和女性的第第16号染色体是易变的,等等。号染色体是易变的,等等。二发现新基因和新的单核苷酸多态性n发现新基因是当前国际上基因组研究的热点,使用生物
25、信发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。息学的方法是发现新基因的重要手段。n发现单核苷酸多态性(发现单核苷酸多态性(SNP)n现在普遍认为现在普遍认为SNP研究是人类基因组计划走向应用的重要研究是人类基因组计划走向应用的重要步骤。步骤。nSNP在基因组中分布相当广泛。大量存在的在基因组中分布相当广泛。大量存在的SNP位点,使位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过从实验操作来看,通过SNP发现疾病相关基因突变要比通发现疾病相关基因突变要比通过家系来得容易;有
展开阅读全文