chap4DNA片段组装教材课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《chap4DNA片段组装教材课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- chap4DNA 片段 组装 教材 课件
- 资源描述:
-
1、DNA片段组装2012/10/09内容n多序列比对n片段组装q背景q模型q算法q启发式方法多序列比对n通过插入空位,使多个序列中大多数相同或相似碱基放入同一列,并保持每个序列碱基顺序不变n5个短序列的比对结果1 23456789 10 CT G G A A-G A T CT G G-G A T CA G G A A CG A T CT-G G A CA A G CA G G A A CA A T多序列比对n序列组装,构建基因组序列n比较基因组学研究,通过不同物种中多条序列的比较,发现保守与变异的部分,了解基因家族的特征,如motif,保守区域等n描述一个同源基因之间的亲缘关系远近,是分子进化分
2、析中构建进化树的必须步骤n构建profile,打分矩阵等多序列比对n比对计分qSP(Sum-of-pairs function)度量:列中所有符号对的配对计分和qij为对si,sj的配对比分,k为多序列比对中第k列的配对比分,若p(-,-)=0,则n比对方法:动态规划算法、启发式算法()()()ijkijkSPscorescoreSPscore(,)(,)(,)(,)(,)(,)(,)SP scoreIIVPIPI IPIVP IPIVPIV 内容n多序列比对n片段组装q背景q模型q算法q启发式方法片段组装n根据测序的短序列推断目标DNA的完整序列,把碱基对等的列对齐n寻找片段之间的交叠,通过
3、调整片段位置,得到一个排列鸟枪法测序片段组装n具有附加特征的多序列比对n每个片段既可以直接序列加入,也可以逆补序列加入n序列本身通常远远大于比对序列(外部空隙罚分低于内部空隙罚分)片段组装n1995年,Craig Venter和他的团队利用鸟枪法测序了流感嗜血杆菌(Haemophilus influenzae),并组装完成,基因组大小为1.8Mn以覆盖整个基因组的BAC收集方式为基础,用鸟枪法测序这些BAC的每一个,整个人类基因组计划因此而增速运转Eugene Myersn为BLAST方法的发展做出了重要贡献n提出了人类基因组的鸟枪法测序(shotgun sequencing)n开发了段枪法测
4、序的装配程序人类基因组n最初测定人类基因组的策略是把基因组克隆成细菌人工染色体(bacterial artificial chromosome,BAC)n人工构建一个重叠的BAC库,包含整个基因组(30,000BAC)n2001年,人类基因组合作组织和Celera基因组公司同时完成了人类基因组序列的测序工作(故人类基因组有两份稍微不同的版本)片段组装背景n理想情形n复杂情形n评估标准n测序补充方法理想情形n表决序列(consensus sequence)n表决是由一列中所有碱基的多数表决机制决定的复杂情形n碱基识别错误:替换、插入、删除n重复序列n序列方向未知n覆盖缺乏n其他:宿主或载体DNA
5、污染、嵌合片段碱基识别错误n测序错误率q替换1%3%q插入删除:13ACCGTACCGT-ACCGT-ACCGT-CGTGCCGTGC-CGTGCCGTGCTTACTTACTTACTTAC-T TG GCCGTCCGT-T TG GCCGTCCGT-替换替换TTACCGTGCTTACCGTGCACCGTACCGT-ACC-ACC-GT-GT-C CA AGTGCGTGC-C CA AGTGCGTGCTTACTTACTTACTTAC-TACCGTTACCGT-TACCTACC-GT-GT-插入插入TTACCGTGCTTACCGTGCACCGTACCGT-ACCGT-ACCGT-CGTGCCGTG
6、C-CGTGC-CGTGCTTACTTACTTAC-TTAC-TACGTTACGT-TACTAC-GT-GT-删除删除TTACCGTGCTTACCGTGC未知朝向序列n片段可能来自DNA的任一单链CACGTCACGT CACGTCACGT-ACGTACGT-ACGT-ACGT-ACTACGACTACG-CGTAGT-CGTAGT-GTACTGTACT-AGTAC-AGTAC-ACTGAACTGA-ACTGAACTGACTGACTGA-CTGA-CTGA CACGTAGTACTGACACGTAGTACTGA重复序列n人类基因组中包含许多自身重复的序列n人类T细胞受体基因座包含胰蛋白酶原基因(4k
7、b)的五个相邻定位的重复,每个拷贝间仅有3%5%的不同n人类基因组包含不少于一百万个Alu重复体(300bp)和200,000个LINE重复体n25%的基因有其完全相同的拷贝重复区域nX1和X2近乎相同n顺向重复段n逆向重复段覆盖缺乏n位置i的覆盖指在目标序列位置i的片段数量n对每一个连续的覆盖区有一个排列,成为连叠(contig)contig覆盖缺乏n一个或多个位置覆盖为0,则缺乏足够的信息来组装完全的目标序列n交叠很少n覆盖不足通常由更多的采样解决Target:嵌合片段和DNA污染n来自目标分子不同部分的两个正常片段相连,产生一个不连续的片段,称为嵌合片段n由于纯化不完全,测序片段中出现宿
8、主或载体分子的DNAACCGTACCGT-ACCGT-ACCGT-CGTGCCGTGC-CGTGCCGTGCTTACTTACTTAC-TTAC-TACCGTTACCGT-TACCGT-TACCGT-TTATGCTTATGCTTACCGTGCTTACCGTGCTTATTA-TGCTGC片段组装评估n熵计分:列一致性的程度,熵越低越好qmax(E)=-5*0.2*log(0.2)=log5qMin(E)=0n覆盖:一个片段f(l,k)覆盖一列i,则l i kq最大覆盖:5q最小覆盖:1q平均覆盖:43/11log(,)cccEppcA T C G片段组装评估n连锁:片段在排列中的连接方式n片段间应
展开阅读全文