生物信息学基因组和基因预测课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《生物信息学基因组和基因预测课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 基因组 基因 预测 课件
- 资源描述:
-
1、第6讲 基因组学与基因预测生物信息学生物信息学课堂内容一、基因、基因组的概念二、典型生物的基因组特征三、人类基因组计划四、核酸测序技术五、基因组测序六、基因转录组测序七、基因的功能和预测一、基因、基因组的概念1、基因的概念、基因的概念基因是原核、真核生物以及病毒的基因是原核、真核生物以及病毒的DNA和和RNA分子分子中具有遗传效应的核苷酸序列,是遗传的基本单位。中具有遗传效应的核苷酸序列,是遗传的基本单位。基因是基因是DNA分子中含有特定遗传信息的一段核苷酸序分子中含有特定遗传信息的一段核苷酸序列,是遗传物质的最小功能单位列,是遗传物质的最小功能单位对于编码蛋白质的结构基因来说,基因是决定一条
2、多对于编码蛋白质的结构基因来说,基因是决定一条多肽链的肽链的DNA片段片段基因的基因的由来由来孟德尔(孟德尔(Gregor Johann Mendel 18221884),),植物杂交试验植物杂交试验一文中指出,一文中指出,生物每一个性状都是通生物每一个性状都是通过遗传因子来传递的,遗传因子是一些独立的遗传单位过遗传因子来传递的,遗传因子是一些独立的遗传单位 Theory of the gene 基因是染色体上的实体基因是染色体上的实体 基因像链珠基因像链珠(bead)一样,孤立地呈一样,孤立地呈 线状地排列在染色体上线状地排列在染色体上 基因是:基因是:功能功能(functional uni
3、t)(functional unit)突变突变(mutation unit)(mutation unit)交换交换(cross-over unit)(cross-over unit)“三位一体三位一体”的的(Three in one)最小的最小的 不可分割的不可分割的基本的基本的遗传单位遗传单位 (1926 T.H.Morgan)基因概念的进一步发展基因概念的进一步发展(1)基因具重叠性1977年桑格(年桑格(F.Sanger)领导的研究小组,根据大量研究事实)领导的研究小组,根据大量研究事实绘制了共含有绘制了共含有5375个核苷酸的个核苷酸的X174噬菌体噬菌体DNA碱基顺序图,碱基顺序图,
4、第一次揭示了遗传的一种经济而巧妙的编排第一次揭示了遗传的一种经济而巧妙的编排B和和E基因核苷基因核苷酸顺序分别与酸顺序分别与A和和D基因的核苷酸顺序的一部分互相重叠。当然基因的核苷酸顺序的一部分互相重叠。当然它们各有一套读码结构,且基因末端密码也有重叠现象(它们各有一套读码结构,且基因末端密码也有重叠现象(A基基因终止密码子因终止密码子TGA和和C基因起始密码子基因起始密码子ATG重叠重叠2个核苷酸;个核苷酸;D基因的终止密码子基因的终止密码子TAA与与J基因起始密码子基因起始密码子ATG互相重叠互相重叠1个核个核苷酸,顺序为苷酸,顺序为TAATG)基因重叠示意图基因重叠示意图乙肝病毒的基因组
5、乙肝病毒的基因组(2)内含子和外显子人们在研究小鸡卵清蛋白基因时发现其转录形成的人们在研究小鸡卵清蛋白基因时发现其转录形成的mRNA只只有该基因长度的有该基因长度的1/4,其,其原因是基因中一些间隔序列的转录物原因是基因中一些间隔序列的转录物在在RNA成熟过程中被切除了成熟过程中被切除了这些间隔序列叫内含子这些间隔序列叫内含子,基因中另一些被转录形成基因中另一些被转录形成RNA的序的序列叫外显子列叫外显子。小鸡的卵清蛋白基因中至少含。小鸡的卵清蛋白基因中至少含7个内含子。因而个内含子。因而从基因转录效果看,基因由外显子和内含子构成。从基因转录效果看,基因由外显子和内含子构成。1978 Gilb
6、ert 真核生物基因的新概念真核生物基因的新概念 ExonExon(外显子)(外显子)is any segment of an interrupted gene that is represented in the mature RNA product.IntronIntron(内含子)(内含子)is a segment of DNA that is transcribed,but removed from within the transcript by splicing together the sequences(exons)on either side of it.OvalbuminO
7、valbuminDNA X cDNADNA X cDNAElectro-microscope7 introns8 exons(3)管家基因和奢侈基因)管家基因和奢侈基因u管家基因管家基因 house-keeping gene 生物体各类细胞中都表达,对维持细胞存活和生长生物体各类细胞中都表达,对维持细胞存活和生长所必需的蛋白质编码的基因。如糖酵解和柠檬酸循环所必需的蛋白质编码的基因。如糖酵解和柠檬酸循环所需酶的编码基因等所需酶的编码基因等u奢侈基因奢侈基因 luxury gene 组织特异性基因组织特异性基因 tissue-specific gene特定类型细胞中为其执行特定功能蛋白质编码的基
8、因特定类型细胞中为其执行特定功能蛋白质编码的基因(4)基因的游动性)基因的游动性早在早在20世纪世纪40年代美国遗传学家麦克林托克年代美国遗传学家麦克林托克(B.McClintock)在玉米研究中发现)在玉米研究中发现“转座因子转座因子”,直至直至1980年夏皮罗(年夏皮罗(J.Shapiro)等人证实了可移位)等人证实了可移位的遗传基因存在,说明某些基因具有游动性。为此,的遗传基因存在,说明某些基因具有游动性。为此,这位这位“玉米夫人玉米夫人”荣获了荣获了1983年度诺贝尔奖年度诺贝尔奖 DNA转座现象的一般遗传特点:转座现象的一般遗传特点:a)不依赖不依赖 Donor site Donor
9、 site 与与 Target siteTarget site 间序列的同源性间序列的同源性 (非同源重组过程非同源重组过程,不依赖,不依赖 recA recA 酶酶)b)转座插入的靶位点并非完全随机(插入专一型)转座插入的靶位点并非完全随机(插入专一型)HotspotsHotspots(热点热点)Regional preferenceRegional preference(在在3kb区域内的随机插入区域内的随机插入)c)某些转座因子(某些转座因子(Tn3)对同类转座因子的插入具有)对同类转座因子的插入具有 排他性(免疫性)排他性(免疫性)d)靶序列在转座因子两侧会形成正向重复靶序列在转座因子
10、两侧会形成正向重复(DR)e)转座因子的切除与转座将产生复杂的遗传学效应转座因子的切除与转座将产生复杂的遗传学效应 基因组中不同的区域具有不同的功能基因组中不同的区域具有不同的功能 有些区域编码蛋白质的结构基因有些区域编码蛋白质的结构基因 有些区域是复制及转录的调控序列有些区域是复制及转录的调控序列 有些区域的功能尚不清楚有些区域的功能尚不清楚基因组:细胞内遗传信息的携带者基因组:细胞内遗传信息的携带者DNA的总体的总体2 2、基因组的概念、基因组的概念从细胞遗传学的角度来看,基因组是指一个生物物种从细胞遗传学的角度来看,基因组是指一个生物物种单倍体的所有染色体数目的总和;单倍体的所有染色体数
11、目的总和;从经典遗传学的角度来看,基因组是一个生物物种的从经典遗传学的角度来看,基因组是一个生物物种的所有基因的总和;所有基因的总和;从分子遗传学的角度来看,基因组是一个生物物种所从分子遗传学的角度来看,基因组是一个生物物种所有的不同核酸分子的总和;有的不同核酸分子的总和;从现代生物学的角度来看,基因组是指导一个生物物从现代生物学的角度来看,基因组是指导一个生物物种的结构和功能的所有遗传信息的总和,包括全部的基种的结构和功能的所有遗传信息的总和,包括全部的基因和调控元件等核酸分子。因和调控元件等核酸分子。基因组的大小:基因组的大小:C值值C值通常指一种生物单倍体基因组值通常指一种生物单倍体基因
12、组DNA的总量。的总量。The total amount of DNA in the genome of haploid is a characteristic of each living species known as its Maximum C value (单倍体基因组总单倍体基因组总DNA 的含量的含量)最大最大C值值(Maximum C value)The total amount of DNA for encoding the genes information is termed its Minimum c value(编码(编码基因信息的总基因信息的总DNA含量)含量)最小
13、最小C值值 (Minimum c value)18基因组的大小和C值矛盾 某生物单倍体的DNA总量称C值,C值与生物的进化程度不完全对应。霉菌藻类藻类G+细菌细菌G-细菌细菌显花植物显花植物鸟类鸟类哺乳类哺乳类爬行类爬行类两栖类两栖类硬骨鱼类硬骨鱼类软骨鱼类软骨鱼类棘皮类棘皮类甲壳类甲壳类昆虫类昆虫类软体动物软体动物蠕虫类蠕虫类真菌真菌支原体支原体C value paradox of nucleotideC value paradox of nucleotide A 生物体进化程度与大生物体进化程度与大 C值不成明显正相关值不成明显正相关 B 亲缘关系相近的生物亲缘关系相近的生物 间大间大C值
14、相差较大值相差较大 C 一种生物内大一种生物内大C值与值与 小小c值相差极大值相差极大 (Euk.人体人体 c=C/10)(Prok.x174 c C)某些生物的基因组数据 物种 基因组大小 基因数目 基因长度 X174 0.7kb 10噬菌体 45Kb 100大肠杆菌 4.2Mb 4200 1.2kb酿酒酵母 13.5Mb 6300 1.4kb果蝇 14 Mb 12000 11.3kb人 3.3Gb 35000 16.3kb拟南芥 70Gb 25000二、典型生物的基因组特征1、真核生物基因的特点、真核生物基因的特点 真核生物基因组真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核与蛋
15、白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因的基因组是双份的(即双内,除配子细胞外,体细胞内的基因的基因组是双份的(即双倍体,倍体,diploid),即有两份同源的基因组。),即有两份同源的基因组。真核细胞基因转录产物为单顺反子。一个结构基因经过转录和真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个翻译生成一个mRNA分子和一条多肽链。分子和一条多肽链。存在重复序列,重复次数可达百万次以上。存在重复序列,重复次数可达百万次以上。基因组中不编码的区域多于编码区域。基因组中不编码的区域多于编码区域。大部分基因含有内含子,因此,基因是不连续的。大部分基因含有内含
16、子,因此,基因是不连续的。基因组远远大于原核生物的基因组,具有许多复制起点,而每基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。个复制子的长度较小。,内含子、启动子,内含子、启动子2、细菌基因组及其特点 a.细菌的“染色体”通常有一个环状或线型DNA分子组成,只有一个复制起点。不少细菌含有若干个小的环状DNA,被称作质粒质粒(plasmid)。有些质粒可以从一个细菌转移到另一个细菌,不少经过改造的质粒在基因工程中被用作基因转移的载体。b.编码蛋白质的基因为单拷贝的,但rRNA基因一般是多拷贝的。c.基因组中有多种调控区,和少量重复序列,调控原件比病毒复杂,但比真核生物
17、简单,重复序列比真核生物少得多。d.功能相关的几个结构基因往往串联在一起,受它们上游的共同调控区控制,形成操纵子结构。e.基因组中存在与真核生物类似的可移动DNA序列(转座子)。DNA from a lysed E.coli cell.In this electron micrograph several small,circular plasmid DNAs are indicated by white arrows.The black spots and white specks are artifacts of the preparation.蛋白蛋白结构结构功能功能含量含量/每细每细胞
18、胞相 当 于 核相 当 于 核蛋白蛋白基因基因HU 和 亚基,每 个9KD使DNA压缩、类核凝聚,刺激复制,和1HF有关4万个二聚体H2BhupA.BH两 个 相 同亚 基,各28KD促使双链的互补、复性3万个二聚体H2A?IHF10.5KD9.5KD有助于att位点配对重组?h i mA.D.H1(H-NS)15KD亚基和 D N A 结 合,与DNA拓扑结构有关1万?osZbglYpilGH L P117KD单体?2万?firAP3KD亚基?鱼 精 蛋 白(DNA结合蛋白)?E.coli含有的各种含有的各种DNA结合蛋白结合蛋白3、病毒基因组的结构和功能、病毒基因组的结构和功能病毒是最简单
19、的生物形式,完整的病毒颗粒包括外壳蛋白和病毒是最简单的生物形式,完整的病毒颗粒包括外壳蛋白和内部的基因组内部的基因组DNA或或RNA(有些病毒的外壳蛋白外面有一层由(有些病毒的外壳蛋白外面有一层由宿主细胞构成的被膜(宿主细胞构成的被膜(envelope),被膜内含有病毒基因编码),被膜内含有病毒基因编码的糖蛋白。)病毒不能独立地复制,必需进入宿主细胞中借的糖蛋白。)病毒不能独立地复制,必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋白(或被膜)的功能是识别和侵袭特定的宿主细胞并保护病白(或被膜)的功能是识别和侵袭特定的
20、宿主细胞并保护病毒基因组不受核酸酶的破坏。毒基因组不受核酸酶的破坏。病毒基因组大小相差较大,与细菌或真核细胞相比,病毒的基因组病毒基因组大小相差较大,与细菌或真核细胞相比,病毒的基因组很小很小 病毒基因组可以由病毒基因组可以由DNA组成,也可以由组成,也可以由RNA组成组成 多数多数RNA病毒的基因组是由连续的核糖核酸链组成病毒的基因组是由连续的核糖核酸链组成 基因重叠即同一段基因重叠即同一段DNA片段能够编码两种甚至三种蛋白质分子片段能够编码两种甚至三种蛋白质分子 病毒基因组的大部分是用来编码蛋白质的病毒基因组的大部分是用来编码蛋白质的 病毒基因组病毒基因组DNA序列中功能上相关的蛋白质的基
21、因或序列中功能上相关的蛋白质的基因或rRNA的基因往的基因往往丛往丛 集在基因组的一个或几个特定的部位集在基因组的一个或几个特定的部位,形成一个功能单位或转录形成一个功能单位或转录单元。单元。除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不连续的连续的三、人类基因组计划人类基因组计划的启动 1986 年诺贝尔奖获得者R
22、.Dulbecco提出人类基因组计划-测出人类全套基因组的 DNA 碱基序列(1n:3 X 109 b)人类基因组计划February 2001,The HGP consortium publishes its working draftin Nature(15 February),and Celera publishes its draft in Science(16 February).2003年完成的人类基因组30亿个碱基对测序耗时10多年,耗资约40亿美元。到2003年底大约测出150个物种的基因组全序列。2007年5月底,Watson个人的基因组全序列公布,60亿个碱基对的测定耗时不
23、足2年,耗资不足200万美元。2007年10月,中国人的基因组全序列测定完成。2008年1月,中国的第一个个人基因组全序列测定完成。81岁的沃森(2007年)各物种基因组的比较:各物种基因组的比较:(1)绘制染色体的高分辨率遗传图谱,用各种分子标记或限制性酶所作的物理图谱。(2)对DNA进行切割和克隆,构成重叠群。(3)测定DNA的序列,绘制DNA的序列图谱。(4)对基因进行鉴定。(5)建立数据库,开发相应的软件。人类基因组计划的研究方法:人类基因组计划的研究方法:1、前述的真核基因组的结构特点基本上都适用于人类基因组。2、基因组DNA有30亿个碱基对(3109bp),510万个基因,目前已定
24、位的有2000个3、编码序列只占基因组总DNA量的5%以下,非编码区占95%以上,大量为重复序列人类基因组结构特点:人类基因组结构特点:解码生命解码生命了解生命的起源了解生命的起源了解生命体生长发育的规律了解生命体生长发育的规律认识种属之间和个体之间存在差异的起因认识种属之间和个体之间存在差异的起因认识疾病产生的机制以及长寿与衰老等生命现象认识疾病产生的机制以及长寿与衰老等生命现象为疾病的诊治提供科学依据为疾病的诊治提供科学依据HGP(人类基因组计划)的目的(人类基因组计划)的目的 遗传图谱(遗传图谱(genetic map)又称连锁图谱又称连锁图谱(linkage map),它是以具有遗传,
25、它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于皆高于1%)的遗传标记为)的遗传标记为“路标路标”,以遗传学距离(在减数分裂事件中两,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,个位点之间进行交换、重组的百分率,1%的重组率称为的重组率称为1cM)为图距的基)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。遗传连锁因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般图:通
展开阅读全文