中科院生物信息学期末考试复习题资料.doc
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中科院生物信息学期末考试复习题资料.doc》由用户(2023DOC)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中科院 生物 信息学 期末考试 复习题 资料
- 资源描述:
-
1、中科院生物信息学期末考试复习题陈润生老师部分:1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要?答:生物信息学有三个方面的含义:1) 生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面,是基因组研究不可分割的部分。2) 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。3) 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“
2、信息结构”和“复杂性”这三个重大科学问题的有机结合。生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律:在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。同时在发现了新基因信息之后,其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程中的生理生化信息结合,阐明其分子机制,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。2.如何利用数据库信息发现新基因,基本
3、原理?答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:1) 从大规模基因组测序得到的数据出发,经过基因识别发现新基因:(利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:基于信号,如剪切位点、序列中的启动子与终止子等。基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network2) 利用EST数据
4、库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题)数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库;用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质
5、;用种子和纯化的EST数据库比对用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸;判断是否为全长cDNA序列。(利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基
6、因的95%以上,平均起来每个基因有10倍以上的覆盖率。)3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么?当前的困难是什么,如何克服?(核酸或氨基酸序列进行进化研究要进行哪些计算步骤?当前遇到什么问题?怎样解决?)答:计算步骤,构建系统进化树,其主要步骤如下:1) 序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;2) 序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序
7、列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;3) 构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,如PYLIP、MEGA等;4) 稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法。【(1. 序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么,完
8、成这一工作只需要使用两两序列比较算法。常用的序列包有BBLAST、FASTA等;(2. 序列同源性分析:将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小,这是理论分析方法中最关键的一步,完成这一工作必须使用多序列比较算法,常用的程序包有CLUSTAL等;(3. 构建系统进化树:根据序列同源性分析的结果,重建反应物种间进化关系的进化树,为完成这一工作,已发展了多种软件包,如PYLIP、MEGA等(4. 稳定性检验:为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现
9、的分支点才是可靠的。通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。 】当前的主要困难:是发现了基因的横向迁移(LGT)现象,即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。克服LGT的方法(可能的解决途径):1) 纵向思路:选择垂直进化而来的序列进行研究,即去除横向迁移的数据库,如COG数据库;2) 横向思路:发展基于完整基因组构建进化树,即使用全基因组数据库进行基因组水平上的对比; 利用生物体的蛋白质组构建进化树。选取特征对比,不同长度的序列字符串进行对比后,对照其genome进行归一化;ORF对比,将all pr
10、edicted ORF采用COG的分类规则进行分类,再构建进化树4.什么是SNP?为什么SNP的研究是重要的?SNP研究有哪些优点?举出23个SNP相关的网站。答:SNP是指单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性;它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。重要性:因为SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。优点:(
11、1)SNP在基因组中分布相当广泛,使人们有机会发现与各种疾病相关的基因组突变;(2)不直接导致疾病基因表达的SNP,与某些疾病基因相邻,成为重要标记,有助于发现疾病基因(3)从实验操作来看,通过SNP发现疾病相关基因突变,比通过家系发现更加容易。(4)基础研究中非常重要,如对Y染色体SNP分析有重要成果。SNP的特点:1. 位点丰富2. 具有代表性3. 遗传稳定性4. 易于进行自动化,规模化分析,缩短了研究时间SNP研究的意义: 通过大批量、高通量的SNP的发现与鉴定,人类SNPHaplotype遗传图谱的构建,在连锁不平衡基础上的关联分析等,有望为人类致命基因的寻找和疾病的防治提供快速和有效
12、的途径,一系列发现和检测SNP的方法,构建图谱的策略,及连锁不平衡和关联分析等技术,正在动植物研究领域中受到广泛的关注,毫无疑问将在分子和群体遗传、动植物育种和生物进化等研究领域中发挥越来越大的作用。SNP相关的一些网站:1) SNP Consortiums database(http:/snp.cshl.org/index.html)2) NCBI SNP database将这些数据进行整理,去掉冗余,使每个SNP都是唯一的。此时的SNP被称为reference SNP或refSNP。((http:/www.ncbi.nlm.nih.gov/SNP/overview.html) 3) The
13、 Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。(http:/hgbase.cgr.ki.se/)4) The Human Gene Mutation Database(HGMD)(http:/www.hgmd.org/) 5) The Protein Mutant Database(PMD),蛋白突变数据库。收录了蛋白质特定位点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。(http:/pmd.ddbj.nig.ac.j
14、p/)6) The Allele Frequency Database(ALFRED):人类群体等位基因频率数据库,http:/alfred.med.yale.edu/alfred/index.asp5. 什么是系统生物学?系统生物学对生命科学概念上的发展?系统生物学对生物功能实现的理解有何本质变化?系统生物学的研究思路是什么?答:系统生物学是指在系统的层面上研究生命活动。(研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系。)【 系统生物学就是自基因组研究以来,各个层次的所有资料和数据(包括基因组测序数据,功能基因组数据,蛋白质三维结构信息以及相互作用的数据等)的整合,以及这
15、些整合数据为基础建立数学模型,再以这些模型模拟仿真研究生命活动的影响之后生命活动的反应以及变化 】包含三个相互衔接的组成(三部曲):整合数据,即整合所有各个层次(DNA水平,RNA水平,蛋白质水平,蛋白质相互作用水平)的信息数据;系统建模,即用这些信息构建描绘生命活动的数学模型;预测未知,即用这个模型预测生命未来的发展及外界干扰后系统的变异(生命活动及外界因素变化对其产生的影响)。学术概念上的发展主要有:传统生物学是从基因组序列到结构,再到功能,而它从各个层次的相互作用到网络,再到功能。与以往不同的是,系统生物学一开始就考虑元件之间的相互作用,把整个生命活动作为网络,考虑其相互作用。1) 研究
16、思路的变化:传统的分子生物学研究步骤一般为:DNA序列蛋白结构蛋白功能(一维),而系统生物学是在二维的角度研究生命科学,即:相互作用网络功能,是由一组基因产生并相互作用共同实现的。2) 看待生命活动本质的变化:因为没有一个生命活动是靠一个基因完成的,生命活动是一组基因相互作用实现的,这种相互作用形成一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用。因此,系统生物学不仅考虑每个基因的活动,还描述了基因间的相互作用并导致了网络的产生。(系统生物学与传统生物学看待生命活动有着本质的不同: 系统生物学认为生命活动是由一组基因及其相互作用来实现其过程的,这种相互作用形成了一个网络,既包括每
17、个单元的结构,又包括单元与单元之间的相互作用,因此在考虑结构的过程中考虑其结构间的相互作用,一组一组地研究。而传统的分子生物学考虑的只有结构,是一个一个地去研究。)其对生物功能实现的理解发生了本质性变化:它不仅考虑单个分子而且考虑其间相互作用,把整个生命活动作为一个相互作用的网络来研究其功能,基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能;通过系统地整合生物过程不同阶段的分散数据,如基因组,转录组,蛋白组,代谢组,可以对复杂的生物过程,如折叠、信号传导途径、代谢途径更好地模拟,研究生物过程的动态变化;它不仅全息的了解复杂的生命系统中的所有成分以及他们之间的动态联系,还可以预测如果
18、这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。系统生物学与传统生物学有什么不同:区别:传统生物学:序列结构功能,只考虑单个个体,单个gene,单个蛋白质 系统生物学:相互作用网络功能,除考虑单个个体,单个gene,还考虑个体与个体之间的相互作用,把整个生命活动作为一个网络来考查它们的相互作用。(传统分子生物学是从基因组中发现特殊序列,即基因,然后找到基因编码的蛋白,再通过测知其结构,而知其功能。而系统生物学研究是从各个层次的相互作用到网络,再到功能。系统生物学不仅考虑单个分子,而且考虑其间相互作用,认为生命活动由大量相互作用的结构单元组成,这些结构单元形成网络。基因组只是网络中的一部
19、分,只有通过相互作用的网络才能体现功能。它不仅全息的了解复杂的生命系统中的所有成分以及他们之间的动态联系,还可以预测如果这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。)系统生物学与分子生物学有什么不同:区别:分子生物学:序列结构功能,只考虑单个gene,单个蛋白质 系统生物学:是研究生物系统组成成分的构成与相互关系的结构、动态与发生,以系统论和实验、计算方法整合研究为特征的生物学。系统生物学不同于以往仅仅关心个别的基因和蛋白质的分子生物学,在于研究细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能的涌现。系统生物学的研究思路(研究流程):1.针对选定生物系统进行实验
20、设计,了解系统所有组成成分:基因,RNA,蛋白,膜脂等2.通过系统行为动力学分析,总结系统设计和控制规律3.通过总结规律来提出新的实验设计,验证系统模拟的正确性【分子生物学与系统生物学的区别与联系?答:二者的区别和联系主要从宏观和微观上讲。分子生物学的研究采用典型的还原论方法,研究对象主要是分子水平上的,即生物系统中的大分子、信号分子的结构、生化性质以及功能,基因表达过程中的调控,以及DNA重组。分子生物学只研究系统的组成元素,最后给出系统的组成元素清单,它是系统生物学的基础,但它的研究结果只能解释生物系统的微观或局部现象,无法说明系统整体所具有的功能从何而来。而系统生物学作为一个整体,表现出
21、完善的整体行为,而组成系统的细胞、基因、蛋白质等只能作为系统的一个构件、一个元素、通常情况下它无法表现出“系统”行为。系统生物学与分子生物学研究对象不同,系统生物学研究的是系统整体,研究由系统元素形成有功能的整体所依赖的组织方式和潜藏规则,它同时研究系统的不同层次,以及他们之间的相互作用关系,并将这些整合起来深刻挖掘系统整体的功能形成机制。系统生物学虽然在研究对象上与分子生物学不同,但他们之间并不是完全不相关的,系统生物学的研究离不开分子生物学研究所给出的大量资料和数据,正是依赖这些,系统生物学才有了建模的基础。同时分子生物学的研究结果只有通过系统生物学进行整合才能从理论上对系统的宏观性质达到
22、定性定量的理解,反过来,系统生物学的研究成果也可以用来指导分子生物学的实验设计。因此二者之间其实是相互补充的,只有结合起来,才能充分认识生命现象。】6. (1)什么是非编码序列,非编码RNA,非编码基因?(2)以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录本,举23个非编码核酸的生物学功能?答:(1)非编码序列是基因组中不编码蛋白质和多肽的序列;(基因组中不归属于基因调控元件,稳定元件之外的,也无明确生物学功能意义的基因序列统称为非编码序列,即不编码蛋白质同时也无明确生物学功能的序列)非编码RNA是指来自基因组的非编码的转录元件,即基因组中非编码序列的转录产物/转录本;非编码
23、基因指那些具有明确生物学功能的非编码RNA在基因组上非编码序列上的位置,即功能性的非编码RNA对应基因组上的位置称为非编码基因;(2)人类基因组中9798%的序列是非编码序列,有70%80%存在转录本,非编码核酸的生物学功能:1) Xist:X-inactivation(X染色体失活)是哺乳动物的一种剂量补偿机制,其中一半拷贝转录被抑制从而失活,抑制转录是通过一个2kb的非编码RNA(Xist RNA)实现的,xist RNA装配在失活X染色体的外侧,引起结构改变导致失活;2) Small RNA and RNAi: RNAi是由RNA(siRNA、microRNA)导致的转录后基因沉默现象,
展开阅读全文