1、外显子组测序外显子组测序1目 录一、外显子测序简介一、外显子测序简介二、测序深度二、测序深度三、测序平台三、测序平台四、数据分析流程四、数据分析流程五、数据分析内容五、数据分析内容六、后期验证六、后期验证2 外显子测序(也称目标外显子组捕获)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略,外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势。 在人类基因中大约有180,000外显子,占人类基因组的1%,约30MB。-Ng S B, Turner E H, Robertson P
2、D, et al. Targeted capture and massively parallel sequencing of 12 human exomesJ. Nature, 2009, 461(7261): 272-276. 人类基因组的蛋白编码区域大约包含85%的致病突变。- Choi M, Scholl U I, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencingJ. Proceedings of the National Academy of Scie
3、nces, 2009, 106(45): 19096-19101.一、外显子测序简介一、外显子测序简介3 The sensitivity to detect heterozygous variants with 10 reads is 78.6%, but increases to 95.2% at 20 x and approximately 100% at 30 x and greater.1 The average cover-age of each base in the targeted regions was 100-fold, and 95.3% of these bases w
4、ere covered sufficiently deeply for variant calling (10 cover-age) 2 Exome sequencing produced a higher level of coverage for the targeted sequences (mean, 167.50), slightly increasing our ability to detect mutations with VAFs of less than 10%. 31.Choi M, Scholl U I, Ji W, et al. Genetic diagnosis b
5、y whole exome capture and massively parallel DNA sequencingJ. Proceedings of the National Academy of Sciences, 2009, 106(45): 19096-19101.2.Yan X J, Xu J, Gu Z H, et al. Exome sequencing identifies somatic mutations of DNA methyltransferase gene DNMT3A in acute monocytic leukemiaJ. Nature genetics,
6、2011, 43(4): 309-315.3.Platforms A. Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid LeukemiaJ. N Engl J Med, 2013, 2013(368): 2059-2074.二、测序深度二、测序深度4Coverage rateSequencing depth and coverage of the nine paired initial sequencing samples.5三、测序平台三、测序平台Ion ProtonIllumina HiSeq6基于Ion P
7、roton的外显子测序流程7 The bound DNA is isolated using streptavidin-coated Dynabeads paramagnetic beads, and then amplified and purified. The purified, target-enriched sample is then returned to the Ion Torrent system workflow for emulsion PCR, enrichment, and sequencing. Exome sequencing results on the Ion
8、 Proton System using the Ion PI Chip and the Ion TargetSeq Exome Kit8Raw reads Reads mapped Percent reads mapped Reads on target Percent reads on target89,782,719 87,156,364 97.1% 68,899,957 79.1%Mean depth of coverage Target bases at 1x Target bases at 10 x Target bases at 20 x119x98.5% 95.3%92.5%T
9、ype Number of variants Concordance with dbSNP135SNVs 30,095 98.0%Heterozygous SNVs 18,031 97.1%Homozygous SNVs 12,046 99.4%基于Ion Proton的外显子测序结果9基于Illumina HiSeq的外显子测序流程10DNA样本要求(单次):总量: 6 g DNA;浓度: 37.5 ng/L;纯度:OD260/280=1.8-2.0。(来自华大基因)DNA样本要求(单次):总量:200-300bp小片段PE文库5 g ;浓度:50ng/L ;纯度:OD260/280=1.8
10、-2.0。(来自美吉生物)DNA样本要求(单次):总量:50g ;浓度:100ng/L ;纯度:OD260/280=1.8-2.0。(来自派森诺生物)基因组DNA样本要求11外显子捕获平台12 Highly uniform coverage across 62 Mb of exomic sequence, including 5UTR, 3 UTR, microRNA, and other non-coding RNA. Streamlined protocol for pre-enrichment pooling of up to six samples dramatically reduc
11、es hands-on time and cost. Optimized for use with the TruSeq DNA Sample Preparation Kit, providing a gel-free protocol that requires the lowest DNA input. Automation-friendly with master-mixed reagents and plate-based processing for up to 96 reactions.TruSeq Exome Enrichment Kit13TruSeq Exome Enrich
12、ment Workflow14烈冰生物外显子测序数据分析思路15四四、数据分析流程、数据分析流程161.数据下机文件:*.fastq2.序列QC去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计reads数量及测序质量。3.Mapping由于bwa能准确、快速的将短序列比对到基因组上,而且软件持续更新和说明文档完备,是外显子捕获测序的首选。4.Sam到bam转换:Samtools的多种工具可以将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。Flagstat统计reads的mapping情况以及比较去除du
13、plicate前后reads数目的反映样品建库的冗余情况。Picard提供的多个工具,修改bam文件,使之适合于后续的GATK软件包中的工具的处理。175.Indel区域的reads重新做局部多序列比对:在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假阳性SNP。6.碱基质量重新打分:测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。7.Call snv和indel:对处理好的多样品bam文件
14、同时运行UnifiedGenotyper,大大提高call SNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差异的筛选。8.突变位点的重新打分:通过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突变位点重新打分,筛选。大大降低了假阳性率。9.注释:通过ANNOVAR软件对vcf结果注释,关联到多个数据库。181. Mapping1. Mapping统计:统计:统计总reads数,mapped reads及unique mapped reads数目及百分比。2. 2. 捕获效率统计:捕获效率统计:统计来自捕获区域的统计来自捕获区域的FragmentFra
15、gment比例:比例:五五、数据分析内容、数据分析内容19统计统计target区域所有的碱基覆盖次数分布:区域所有的碱基覆盖次数分布:对每个对每个target区域的覆盖和深度统计:区域的覆盖和深度统计: 如果客户对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。203. 3. SnvSnv和和indelindel关联数据库:关联数据库:Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分:*_target.snv:突变处于捕获的靶区域(target region)内。*_off_target
16、.snv或者*_target.indel: 突变在捕获的靶区域之外。Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。211 1)基因注释:)基因注释:通过基因注释可以达到以下的目的:a. 突变的功能定位(在外显子,内含子,剪接位点还是基因间区);b. 突变所在的基因名称或者临近的基因;c. 突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变的呢过);d. 如果引起氨基酸的改变,按照HGVS命名规则表示-改变的基因ID,转录本ID,外显子编号,以及氨基酸改变,如OD2:NM_022162:exon8:c.G2722C:p.G908R。 默认使用refSeq完成基
17、因注释,如果有特殊的要求,可以使用UCSC known gene,Ensembl,GENCODE,CCDS等基因注释系统。2223242 2) 1000G 1000G注释:注释:检测突变位点是否在1000 Genomes Projects(2012 release)数据库中检测到,如果检测到,显示等位基因频率(allele frequency)。默认是使用所有人种的数据库,如果有特定要求,可以按照要求展示不同人种(比如AMR, AFR, ASN,EUR,中国人,日本人)等位基因频率。3 3) dbSNPdbSNP注释:注释:检测突变是否在dbSNP数据库中,如果在,显示rsID。默认使用db
18、SNP135数据库,如果有特定的要求,可以使用dbSNP129,dbSNP130,dbSNP131,dbSNP132数据库。4 4) AVSIFT AVSIFT:SIFT是一款很受欢迎的检测非同义突变位点重要性的软件,对应非同义突变位点,会给定一个打分,若打分低于0.05,则表明突变很可能会影响到蛋白质的功能。255 5) 与与UCSCUCSC的数据库的关联:的数据库的关联:ftp:/hgdownload.cse.ucsc.edu/goldenPath/hg19/database/.txt.gz,提供了大量的基因组注释信息,目前关联的数据库有:tfbsConsSites:在人/小鼠/大鼠中保守
19、的转录因子结合位点,以transfac Matrix Database (v7.0)为基础。wgRna:snoRNA and miRNA注释。targetScanS:TargetScan预测的miRNA把区域。gwasCatalog:已经发表的各种疾病的GWAS结果。genomicSuperDups:基因组中的重复片段。phastConsElements46way:通过phastCons对脊椎动物的全基因组比对生成的保守区域,根据用于比对的物种数目,分为17way, 28way, 30way, 44way等。默认使用46way。如果客户需要关联UCSC中其它的数据库,也可以定制。6 6) co
20、smic63 cosmic63:已观察到的癌症相关突变,显示在COSMIC中的ID(identifiers),观察到的次数,以及观察到的癌组织。264. CNV4. CNV:XHMM是一款外显子捕获拷贝数变异检测的优秀软件包,使用GATK和XHMM能够得到较好的外显子捕获的CNV结果。5. 5. 其它:其它:Polyphen-2 (Polymorphism Phenotyping v2)也是一款基于多序列比对和蛋白质3D结构,预测氨基酸替换(从一种氨基酸改变为另一种氨基酸)对蛋白质结构和功能影响的软件,如果客户有要求,可以提供Polyphen-2对snv结果的进一步分析服务。272829可以通过GT(genotype)直接比较样品间的差异(GT简介:0表示与Ref相同,1表示与ALTS第1个碱基相同,2表示如ALTS第2个碱基相同)。通过和多个数据库的提供关联精细筛选条件:30六、后续验证六、后续验证1.Sanger测序验证2.根据目的基因设计个性化验证方案(后续验证由老师自己完成)31