第1章绪论
1.1背景介绍
随着国际人类基因组规划International Human Genome Sequencing Consor-tium)的完成,成千上万的有关遗传的标记位点被辨别出来.这么多的遗传标记位点为绘制疾病基因图提供了可能性,检验基因位点和疾病之间关系的方法主要是连锁分析和关联分析,连锁分析是指通过对一些基因数据的分析来寻找一些感兴趣的基因的位置,也称基因作图.连锁分析在具有明显主基因效应的单基因遗传病的致病基因定位方面应用比较广泛.然而,由十受遗传,环境等相互作用,外显不全和拟表型等因素的影响,连锁分析难以在复杂疾病的基因定位研究中发挥理想的作用.在此情形下,关联研究方法重新得到了人们的重视.关联分析是在群体水平上研究某种疾病与某个特定的等位基因的频率的相关性.连锁不平衡是群体的性质,可以用群体的数据来推断连锁不平衡的程度,连锁不平衡是与连锁有关的一个重要的遗传学概念,连锁只与两个位点有关,而连锁不平衡与两个位点上等位基因的概率有关.简单的说,如果两个位点上的某两个等位基因不是独立出现,则称它们处十连锁不平衡状态.连锁不平衡参数可以定义.b>0表明两等位基因l4和B存在连锁不平衡.假设d。为初始代的连锁不平衡参数,B为两个位点的重组率则第n代的连锁不平衡参数为
当B较小时,收敛到零的速度很慢,而当B接近0.5时,收敛到零的速度很快.(1-1)式为关联分析的理论依据.标记位点的基因型与表型之间统计上的关联通常被认为是标记位点与疾病位点连锁的证据.
基十群体数据的关联分析的方法主要有皮尔逊检验和Armitage趋势检验等.但是关联分析也存在一定的局限性,会受到混杂因素的干扰,在进行疾病和候选疾病位点的关联分析时,如果它们的关联是由第二方因素引起的,并目_第二方因素和疾病和候选疾病位点都有关联,则流行病学把第二方因素称为混杂因素阵.在诸多混杂因素中,一个重要的因素就是群体分层现象.对十标准的病例对照的关联检验的一个主要的限制是由十群体分层现象的存在导致的虚假关联.当疾病位点的频率在不同的群体之间不同的时候,有可能有病的样本来自某个群体,从而由十候选疾病位点与疾病间可能由十病例和不相关对照之间的种族或地区差异而产生虚假关联.例如:在两个群体中,位点1的等位基因的频率分别为p1和pZ,位点2的等位基因的频率分别,不论两个位点是否连锁,关联分析的自由度为在群体中的等位基因的方差和协方差的函数,也与来自每个群体的样本比例有关,那么关联分析的结果就有可能有偏差.
为了减小群体分层现象对关联分析的干扰,常采用加大样本量,并尽可能选择遗传背景相似的群体.然而,即便如此,仍然不能彻底排除可能存在的群体分层现象的干扰.因此,有的研究者采用基十家庭数据的研究策略,即选择以核心家庭为基础的的数据进行关联分析.该方法有效地解决了上述难题,但同时也引出了一些新的问题,如统计功效较低等.为此,近年来又发展了一些新的方法对关联分析的结果进行校正,如选取一系列的相互独立的遗传标记位点在病例对照试验中同时进行分型,从而利用这些数据推断是否存在群体分层现象,然后再进行关联分析.
1.2关联分析研究现状
对十复杂疾病的基因定位,疾病与候选疾病位点的关联分析已经成为一种重要的方法并目_得到了广泛的应用.但是由十无法识别的人口结构,遗传背景等因素的影响,使得关联分析产生错误的结论,已经有多种方法用来处理存在群体分层现象的关联分析.主要有基十家系数据的关联分析以及基十群体数据的病例对照实验这两类方法.一些研究者倾向十采用基十家系数据的关联分析,在这种设计中,病例组和对照种族背景必然是相匹配,因此不必利用额外的标记位点来消除群体分层的影响.例如:Spielman等提出的传递不平衡检验(TDT),这种方法利用家庭成员作为对照,通过研究杂合体父母将标记位点传递给有病的子代的传递率,比较传递与不传递之间的差异,这种方法只需要收集一些核心家庭数据,每个这样的家庭只有一个患病的小孩和他们的父母亲,如果核心家庭数据比较容易收集,则该方法比较适用;Xiong等提出的霍特林TZ检验,霍特林TZ检验比较的是患病组与正常组基因计分的平均值,DV.2aykin等提出的连锁不平衡检验,这种方法比较的是患病组与正常组基因计分的方差一协方差矩阵,另外,还有其他的一些基十家系数据的关联分析方法阳.
第2章 预备知识......... 11-15
2.1 遗传学概念......... 11-13
2.2 基于群体的.........13-15
第3章 关联分析的方法......... 15-24
3.1 基因组对照(GC)......... 15-19
3.1.1 病例对照试验......... 15-16
3.1.2 病例对照试验......... 16-18
3.1.3 GC方法......... 18-19
3.2 结构化关联(SA)......... 19-22
3.2.1 样本不存.........19-21
3.2.2 样本存在......... 21-22
3.3 本章小结......... 22-24
第4章 基于相似度的......... 24-31
4.1 判断一对个体是......... 25-26
4.2 基于相似度的......... 26-28
4.3 模拟试验......... 28
4.4 实验结果......... 28-30
4.5 本章小结......... 30-31
结论
疾病与候选疾病位点的关联分析已经成为复杂疾病的基因定位的一种重要方法.其中病例对照设计为关联分析的一种常用方法.在病例对照设计中由十无法识别的人口结构,遗传背景等因素的影响,使得关联分析产生错误的结论,为了减小群体分层现象对关联分析的干扰,常采用加大样本量,并尽可能选择遗传背景相似的群体.然而 ,即便如此,仍然不能彻底排除可能存在的群体分层现象的干扰.一些替代的方法已经提出来应用十减小影响.本文提出了一种新的基因组关联分析的多步法,第一步采用模糊数学中的相似度,利用一系列独立的标记位点来判断样本个体是否来自相同的群体还是不同的群体,第二步,在每个群体内对样本进行关联分析.
最后将本文中提出的检验统计量与Shuanglin 2hang等人提出的检验统计量SAT进行了比较.模拟结果表明本文中提出的相似性的检验在候选疾病位点的频率在四个群体中是不同的情况下,功效较SAT有所提高,并能够控制住第一类错误率.在候选疾病位点的频率在四个群体中是相同的情况下,两种方法的功效和第一类错误率相近.