基于MeDIP-seq、MRE-seq数据视野之之统计方法及理念研究

论文价格:免费 论文用途:其他 编辑:lgg 点击次数:180
论文字数:36500 论文编号:sb2014072110402710168 日期:2014-07-21 来源:硕博论文网

第一章绪论


1.1概述
随着新一代测序技术的发展,这种髙通量的全基因组测序技术越来越广泛地应用到生物学及医学的各个领域.对于寻找疾病的起因和遗传特征起着巨大的推动作用,特别是研究DNA,RNA和甲基化对疾病的影响.但是新一代测序技术产生的数据相对于第一代技术产生旳数据具有样本量少,数据量大,是精确的离散数据.而要对新一代测序数据进行分析,则是统计学上新的挑战.本章主要是介绍一下最近新一代测序技术的原理和发展及在生物研究问题中的具体应用.本章分三个部分,首先介绍新一代测序技术及数据特点和底层处理,包括新一代测序技术的原理和一些常用的用于新技术测序的仪器,原始数据的格式和特点和最新一些数据处理的可视化软件;其次,本章具体介绍了新一代测序技术与DNA, RNA和DNA甲基化结合的测序应用,其具体结合各有特点.最后介绍了本文的主要工作和结构安排. DNA测序技术己广泛应用于生物学研究的各个领域,很多生物学问题都可以借助高通量DNA测序技术予以解决.到迄今为止己经发展到了二代甚至三代测序技术. 第一代测序技术是指用双脱氧核苷酸作为链终止试剂(双脱氧核苷酸在脱氧核糖上没有聚合酶延伸链所需要的3 — OH基团,所以可被用作链终止试剂)通过聚合酶的引物延伸产生一系列大小不同的分子后再进行分离的方法.第一代技术以Sanger提出来的“DNA双脱氧链末端终止测序”,又称Sanger测序,为代表.其原理是根据核苦酸在某一固定的点幵始,随机在某一个特定的碱基处终止,并且在每个碱基后面?进行突光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列(图l.a).
……………


1.2新一代测序技术及数据特点和底层处理
新一代测序技术的大体步骤是:第一个步骤是测序文库的构建,首先准备基因组DNA,然后将DNA随机片段化成几百碱基或更短的小片段,并在两头加上特定的接头(Adaptor);第二步就是锚定桥接,上述步骤得到的带接头的DNA片段变性成单链后与测序通道上的接头引物结合形成桥状结构;第三步是预扩增(PCR),添加未标记的dNTP和普通Taq酶进行固相桥式PCR扩增,单链桥型待测片段被扩增成为双链桥型片段;最后就是单碱基延伸测序,在测序的flow cell中加入四种焚光标记的dNTP、DNA聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出相对应的焚光,测序仪通过捕获焚光信号,并通过计算机软件将光信号转化为测序峰,从而获得待测片段的序列信息.下面介绍几个主要常用的新一代测序平台:(Roche)的454测序仪(Roch GS FLX sequencer),lUumina 公司的Solexa基因组分析仪(Illumina Genome Analyzer), ABI的SOLiD测序仪(ABI SOLiD se-quencer)和Helicos公司的HeliScope单分子测序仪(个平台的特点比较见图4).罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer): 2005年454测序仪是美国454 Life Sciences公司(已被Roche公司收购)首次推出的新一代测序系统[3].开创了新一代测序技术的先河.454测序的原理是根据Nyren et al.t4]1985年提出的焦憐酸盐测序法(图2)和Hyman et al.[5] 1988年提出新的DNA测序法而开发的.454测序仪引领的新一代测序技术在一直困扰传统测序技术的文库制备、模板制备和测序文库制备、模板制备和测序问题上取得了突破.最近GS FLX Titanium系列能够同时测序1,000,000个平均长度为40m的单个片段.而且平均错误率低于0.1 %.它的测序规模之大、测序费用之低是以往的测序仪无法匹敌的.
……


第二章基于MeDIP-seq的数据分析


2.1 DNA甲基化介绍及研究方法
DNA的甲基化是在DNA甲基化转移酶(DNMTs)的作用下使CpG 二核苷酸5’端的胞喃口定转变为5’甲基胞啼唯.DNA甲基化本身不能改变DNA序列,因此认为是一种表观的修饰.DNA甲基化过程如图13.脊椎动物基因一般有三种甲基化状态:如管家基因类的持续低甲基化状态;如发育阶段中的一些基因类的去甲基化状态以及高度甲基化状态.在哺乳动物中,甲基化发生在CpG两个核苦酸的C喊基部分.DNA甲基化在哺乳动物中扮演着重要的角色.DNA甲基化在维持正常细胞功能、遗传印记、胚胎发育和女性X染色体的失活[5G] t5i][52)过程中起着极其重要的作用.错误的DNA甲基化会导致基因表达的异常,基因的不稳定,癌症的发展,复杂多因人们越来越认识到DNA甲基化研究的重要性,并幵发出一系列检测DNA甲基化的方法.前面1.3.3节己经介绍了新一代测序技术在DNA甲基化中的应用(MeDIP-seq).下面我们介绍研究DNA甲基化最近其他的一些检测DNA甲基化方法.上世纪90年代,用亚硫酸盐对剩余没有甲基化的CpG进行脱氣基的方法比甲基化的CpG脱氛基的方法要快的多,这种方法的发现直接激发了DNA甲基化分析的一场革命.这种化学处理方法直接把DNA的表观差异转变成基因的差异,即把没有甲基化的胞啼徒C转变成尿喃喷T,然后出现很多新的关于甲基化检测和分析的技术最初分析亚硫酸盐处理的DNA是进行PCR扩增然后用Sanger测序法对单个位点进行测序,如图15.后来对这个方法进行了提高,并且更加自动化.
…………


2.2基于MeDIP-seq数据的Batman方法
针对新一代测序技术和甲基化免疫共沉淀技术结合的数据,需要建立合适的统计模型进行分析.2008年Down et 提出了Batman模型来推断CpG的甲基化状态.Batman模型本来是用来分析MeDIP-chip数据,但也可以用来分析MeDIP-seq数据.这节我们主要介绍怎么用Batman模型来估计甲基化状态.Batman模型利用己知的共识,就是哺乳动物的甲基化只发生在CpG位点上,来产生这个位置的甲基化估计.我们定义偶联因子为C位点上的前后P个位点对C位点的影响.一般一个片段的长度为400-700BP,并且假设没有偏差.对给定的一个CpG位点,我们把偶联因子的和记为Ccp.假设为在C位点的甲基化状态,如果给定一甲基化状态的集合,则完全观测A的概率分布为:首先把测得的片段匹配到全基因组上面去,原则上一个片段覆盖的范围是可以计算到每个位点的,由超声刀切割的片段的长度通过放大和大小的选择应该是非常严格的,一般是200BP-1KB.但是现在的测序技术测得的数据并不代表测了片段的所有长度,而是代表片段的一部分,如36BP.因此我们需要把测得的正向和逆向片段序列再往前延伸一部分,比如达到400BP.然后把DNA所有的参考基因平均分成50BP的小区间.计算覆盖在每个小区间上片段的个数.
…………


第三章基于MeDIP-seq和MRE-seq数据的M&M方法......... 26
3.1 MRE-seq数据的产生及背景假设.........27
3.2 M&M统计模型......... 29
3.3 p-value计算......... 34
3.4 FDR控制......... 38
3.5 methylMnM软件包......... 40
第四章M&M方法的评估及实际数据分析......... 41
4.1 M&M方法与MEDIPS方法的比较 .........41
4.2对M&M方法的特定组织的生物分析......... 48
4.3 M&M方法的总结与讨论......... 63
第五章基.于单个CpG位置的MeDIP-seq数据分析.........  66
5.1 SIMD的模型假设 .........66
5.2 SIMD的实例分析......... 69
5.3定理证明......... 72


第五章基于单个CpG位置的MeDIP-seq数据分析(SIMD)


通过匹配MeDIP-seq实验的读段到参考基因组,一个区域的甲基化水平可以通过这个区域的读段个数来估计.这种基于区域的方法能够为很多重要的生物问题提供深刻的答案,但是由于其较低的像素不能提供单个CpG位点的甲基化状态.2010年王艇等提出基于单个CpG位置的MeDIP-seq甲基化程度的算法[75U旦是这个算法一直没有相应的理论模型.本章重点关注单个CpG为单位的甲基化程度的算法,建立一“个基于单个片段和单个CpG的相应的统计模型并进行推广.第一节首先对实验提出生物背景假设,如果这两个CpG中只有一个CpG位点是甲基化的,那么这个区域里面用超声刀获得的DNA片段可以归为下列三类:这个片段覆盖着这两个CpG位点,这个片段只覆盖甲基化的那个CpG位点和片段只覆盖没有甲基化的CpG位点.实验提取出来的片段是符合第一和第二种的情况.基于这样的观测,我们提出一个SIMD统计模型来估计单个CpG的甲基化程度.为了更好的说明这个模型,第二节我们用一个例子来分析SIMD模型.第三节给出理论结果的证明.


…………


结论


本文主要对新一代测序技术结合甲基化免疫共沉淀实验和甲基化敏感的限制性内切酶产生的MeDIP-seq和MRE-seq的数据建立了一个M&M统计模型,并对这个统计模型的表现进行了详细的评估及实际数据的生物意义发现.在第三章,详细给出了MRE-seq数据的实验原理,并在此基础上建立符合实际背景的M&M统计模型,基于这个模型下的甲基化水平的差异性检验问题可以通过融合两种互补型数据来进行检验.并给出了统计量的元素的条件联合分布,从而能得到此统计量的p-value.并对DMR的预测控制其错误率.最后利用R软件包来实现我们的算法.在第四章,采用了最新的费用昂贵但是更加精确的全基因组重亚硫酸盐测序技术(WGBS)作为对照标准,通过比较胚胎干细胞(HI ESCs)和人类胎儿神经干细胞(HUFNSC02)的甲基化差异来比较M&M方法和MEDIPS方法的表1无论是从实际数据准确度来看,还是从一致性和重复性来看,M&M方法都比MEDIPS方法有一个质的提高.说明我们提出的MRE-seq实验和M&M方法能提高数据分析的效果.利用我们最新提出的M&M方法对四个组织的19个样本的DNA甲基化数据进行分析.从第4.2节可以看出通过M&M方法预测的不同组织之间的组织特异的DMR,相同组织不同细胞类型的细胞类型特异的DMR和相同细胞类型不同个体的个体特异的DMR与其相应的组织,细胞和个体的特异的功能都具有很强的相关性,具有明显的生物意义.
……………
参考文献(略)


QQ 1429724474 电话 18964107217