已知如图点c为线段ab上一点,求红色线段和绿色线段长度之间的关系式。

本发明涉及基因组研究和疾病诊断治疗领域。具体的,本发明提供了一种用于对受测者(例如哺乳动物,特别是人)样品基因组中的拷贝数变异进行分析的方法和相关系统。背景技术:基因组异常通常与各种遗传疾病、退行性疾病以及癌症关联。例如,癌症中基因拷贝的缺失或增加与基因片段或特定区域的缺失或扩增屡见不鲜。因此肿瘤发生的研究与研发更好的诊断与预后方法都对关联癌症和各种遗传疾病的特定基因区域的鉴定与克隆感兴趣。癌症的核心特征是基因组的体突变(somaticmutation),这些突变可以是点突变、染色体结构突变或者是染色体区段的拷贝数突变(copynumbervariation)。癌症细胞凋亡后,其含有变异的dna分子,也会被释放到血液中和尿液中。于是,通过检测血液或者尿液中的dna分子,就可以探知是否有带有变异的dna存在,从而诊断癌症。癌症的早期诊断,是治愈或者控制癌症的关键。目前很多癌症(比如肝癌)并没有灵敏的早期诊断手段;或者,诊断手段费用较高(比如pet-ct);或者,诊断手段有一定的副作用(比如pet-ct导致受试者接受一定剂量的辐射);或者,诊断手段仅仅在大型医疗机构才能实施(比如pet-ct检测需要受试者亲自前往大型医院);或者,检测结果不能给予确定性的诊断(比如pet-ct或b超的成像,即使有经验的医生也不能给予确定性的诊断定论)。检测样品(例如体细胞、血液或者尿液)的核酸的方法在近年有很大的发展,已发展出对核酸的高通量测序方法,能够获得大量病人或同一病人的大量的和完整的基因组信息。这种方法需要分析600亿或更多的序列数据点以提供一个精确的基因组序列。在诊断性基因组测序中,临床诊断的精确度要求进一步地加剧了序列分析的计算复杂性。早期的测序方法中通过从数以千计的孤立的、非常长的dna片段中产生序列数据,从而保留序列信息的语境完整性并且减少精确数据所需的冗余测试来处理这一复杂性。拷贝数变异(copy-numbervariant,cnv)是指在人类基因组中存在的大量核酸片段多态,包括片段的插入、缺失、重复等。这种多态也被称为拷贝数多态(copy-numberpolymorphism,cnp)。cnv发生的频率高于染色体结构变异,而且在整个基因组中覆盖的核苷酸总数超过单核苷酸多态性(singlenucleotidepolymorphism,snp)的总数。cnv可能和表型变异紧密关联,同时在物种的演化和发展中发挥着重要作用。现在已研发了一些检测dna序列中拷贝数变异的方法。但这些方法中还存在所用的数据相对地易于出错,具有人为偏差等问题。因此,本领域还需要一种更准确、更全面地检测受测者的dna序列中拷贝数变异的方法。技术实现要素:本发明针对以上问题,提供了一种新的更准确的对基因组核酸序列中拷贝数变异(cnv)进行检测和分析的方法,对从测序数据中提取的变量进行数学变换,导出新的二维变量,即lsdr和aaf(或者ahf),进一步提高了信号/噪音比,提高了检测灵敏度和精度,更充分地利用了高通量dna测序数据所包含的信息。另外,本发明的方法在处理体液中游离dna样品中从测序数据中提取基因组某位点的cnv的特征信号时,引入临近位点的信息,极大的提高了信号强度,可以有效地检测尿液或血清在游离dna中的cnv。本发明还提供了用于实现上述方法的系统。在本发明的其中一个方面,提供了一种用于对受测者(例如哺乳动物,特别是人)样品基因组中的拷贝数变异进行分析的方法,所述方法适合用于检测待测者或患者的各种组织的细胞,包括上皮细胞、血液中的正常白细胞等,所述方法包括以下步骤:(a)采集参考样本(其中参考样本数量为n,n>50,优选n>100。样本数越大越好),对其核酸进行测序,在m个单核苷酸多态性(snp)位点上检测每个样本的基因型(genotype),对于每一个snp位点,参考等位基因(referenceallele)记为a,交替等位基因(alternativeallele)记为b,三种基因型为aa、ab和bb;对第i个snp(i为1,2,3,…,m),获得其参考等位基因和交替等位基因的测序深度dia和dib,计算得到这个snp位点的测序深度di,其中di=dia+dib,其交替等位基因b占测序深度的比值为θi=dib/(dia+dib),θi∈[0,1];当θi靠近0、0.5和1时对应aa、ab和bb基因型;以d为横坐标,θ为纵坐标做图,所述n个样本的每个snp的di和θi值在图上形成相对于aa、ab和bb基因型的三个点簇,算出三个点簇的中心位置的dg和θg值,其中dg和θg值可为点簇上所有点的di或θi的平均值或中位数值;(b)通过线性插值法计算待测样本的每一个snp在个体的正常状态(在哺乳动物,例如人,中,正常状态即基因拷贝数为2,基因型为aa,ab,bb型)下的测序深度d的期望值de;(c)对待测样本的核酸进行测序,获得其每个snp测序深度;(d)计算得到待测样本的每个snp位点的测序深度比(sequencingdepthratio,sdr),其对数形式为lsdr;以及计算得到交替等位基因频率(alternativeallelefrequency,aaf),其中sdr=d/de;lsdr=log2(d/de);以及(e)采用隐马尔可夫模型分析上述步骤得到的数据,检查目标基因组的拷贝数变异状况。在本发明的其中一个方面,所述隐马尔可夫模型分析包括以下步骤:在m个snp位点的aaf和lsdr值记为xi和yi(i=1,...,m),构成隐马尔可夫模型的显层(observationlayer);记m个snp位点的拷贝数变异cnv状态为zi(i=1,...,m),构成隐马尔可夫模型的隐层(hiddenlayer),其中每个zi有6个可能的状态(如以下表1所示):表1从隐层到显层的发射概率为:p(xi,yi|zi)=p(xi|zi)p(yi|zi)。对应aaf的发射概率为:其中b(g;g(z)-1,pb)为二项分布(binomialdistribution)的概率密度函数(probabilitydensityfunction):φ(x;μ,σ)为正态分布(normaldistribution)概率密度函数:其中g(z)为该snp位点cnv状态z对应的基因型数(即基因型可能的取值个数),对应的基因型如上表所示;g=0,…,g(z)-1,为这g(z)个基因型中b等位基因的个数;当g=0或g=g(z),即cnv基因型为纯合基因型时,对应的正太概率密度函数替换成以0或1为边界的截断(truncated)正态分布概率密度函数;pb为受测者所属基因种群的群体b等位基因频率(populationfrequencyofballele);μx,z,g为不同cnv状态基因型对应的aaf均值,按如下公式计算初始值:σx,z,g为不同cnv状态基因型对应的aaf标准差,初始值通过待测样本的数据估计。对应lsdr的发射概率为:其中φ(y;μ,σ)为正太分布概率密度函数,参数μy,z和σy,z为不同cnv状态对应的lsdr均值和标准差;μy,z的初始值用如下公式计算:其中c(z)为不同cnv状态对应的总拷贝数(如表1所示);σy,z的初始值通过待测样本的数据估计。隐层相邻snp位点之间的转移概率为:其中l为相邻两个snp位点之间的距离(单位bp),对于正常状态(即z=4)到其他状态的转移,l取值范围为10-100mb,优选为100mb;对于其他状态之间的转换l取0.1~1mb,优选为0.1mb;ps,t为基础状态转移概率,当s=t=4时,即相邻两个snp为正常状态,p4,4取值为非常接近于1的概率,如0.999995;当s=t、s≠4且t≠4时,即相邻两个snp为相同的拷贝数变异状态,ps,t取值接近于1的概率,但小于p4,4,如0.95;当s≠4且t=4时,即从拷贝数变异状态转移到正常状态,ps,t取值为较小的概率,如0.049996;当s和t为其他组合时,即从正常状态转移到拷贝数变异状态或不同拷贝数状态之间的转移,ps,t取值为极小的概率,如0.000001。在本发明的方法中,计算σx,z,g和σy,z的初始值的具体步骤可以为:(1)首先定义用差分计算标准差的方法:不失一般性,对于一列2n个(对于奇数个观测值的情况,可以不用最后一个观测值)snp的观测值(a1,...,a2n),它们按snp在染色体上的位置排列,数值的分布符合以下性质,即ai=μk+εi,i∈[ik-1,ik),k=1,...,k,这里ik为变点(changepoint)且变点数k<<2n;εi为独立同分布噪声,均值为0,标准差为σ。定义δi=z2i-1-z2i,那么δi(i=1,...,n)为独立同分布,均值为0,标准差为δi的标准差可以用较为鲁棒的平均绝对偏差(medianabsolutedeviation,mad)估计,即于是ai的标准差估计为(2)估计σx,z,g的初始值时,先取待测样本aaf值xi(i=1,...,m)的子集{xi:0.2<xi<0.8},即选择那些杂合基因型snp对应的aaf值;然后再对这个子集应用(1)的方法,得到的估计记为σx;于是对于不同cnv状态基因型的σx,z,g的初始估值为(3)估计σy,z的初始值时,直接对于待测样本的lsdr值yi(i=1,...,m)应用(1)的计算方法。上述公式中的参数(μx,z,g、σx,z,g、μy,z和σy,z)在得到初始值后,根据待测样本aaf和lsdr的观测数据,由baum-welch算法对待测样本的参数进一步准确估计。由viterbi算法估计隐层各snp位点的cnv状态。由此得到整个目标基因组中各拷贝数变异位置(包括拷贝数变异的起始和结束位点),拷贝数变异的长度和变异后的拷贝数。在本发明的另一个方面,还提供了一种用于对受测者(例如哺乳动物,特别是人)样品(特别是体液样品,例如血清和尿液)基因组中的拷贝数变异进行分析的方法。所述方法特别适合用于检测待测者或患者的体液中游离dna上的拷贝数变异。体液包括血清,尿液等。该方法包括以下步骤:(a)分别采集目标个体的体液样品以及含有正常基因组的组织样品(如血沉棕黄层或口腔上皮细胞),从体液样品分离获得体液游离核酸,从含有正常基因组的组织样品分离得到参考核酸,对所述体液核酸和参考核酸进行测序,在m个snp位点上检测其基因型(genotype),对于每一个snp位点,参考等位基因记为a,变异等位基因记为b,三种基因型为aa、ab和bb;(b)计算得到目标个体的每个杂合型snp位点的测序深度比sdr,其对数形式为lsdr,其方法如下:获得每个杂合型snp位点附近2l宽度区域内(snp上游宽度为l和下游宽度为l;例如l=1000bp)每个碱基位置的测序深度,参考核酸和体液核酸在第j个碱基位置上的测序深度记为dn,i,j和dt,i,j;对第i个杂合型snp(i为1,2,3,…,m),参考核酸和体液核酸的加权测序深度分别为:其中w(li,j)为权重;li,j为区域中第j个碱基距离snpi位点的距离(单位bp);σ的取值范围为0.3l至l;第i个杂合型snp位点的lsdr值计算为:(c)计算得到目标个体的每个杂合型snp位点对应的交替等位单倍体频率(alternativehaplotypefrequency,ahf),其方法如下:获得目标个体的体液游离核酸中第i个杂合型snp周围宽度为2r范围内的杂合基因型snp位点(上游宽度为r,下游宽度为r;例如r=50kb)的基因型;对基因型数据做单倍型定相(haplotypephasing),判断临近的杂合型snp位点的两个等位基因a和b各处在哪个单倍体(haplotype)上;在体液游离dna中,在a和b单倍体上第i个杂合型snp位点附近其他杂合型snp位点的测序深度记为dt,a,i,j和dt,b,i,j;计算第i个杂合型snp在a和b单倍体上的加权测序深度:其中权重可以设定为多种形式,比如高斯核(gaussiankernel)li,j为区域中第j个其他杂合型snp位点距离snpi位点的距离(单位bp);σ的取值范围在0.2r至r;体液游离dna中snpi位点的ahf值为:参考dna中snpi位点的ahf值为:进一步计算:lmahfi=log2(mahft,i/mahfn,i)其中mahfn,i=|ahfn,i-0.5|+0.5,mahft,i=|ahft,i-0.5|+0.5;(d)计算出m个杂合snp位点的lmahf值(简记为x)和lsdr值(简记为y)后,得到一组2维序列{(xi,yi),i=1,...,m};采用协同分段(jointsegmentation)方法,来确定血液游离dna中的cnv片段(segment),即把{(xi,yi),i=1,...,m}分为k个片段{ηk={(xi,yi):i∈(tk-1,tk]};k=1,...,k},0=t0<t1<...<tk-1<tk<...<tk=m其中每个片段(ηk)中的杂合型snp位点({i:i∈(tk-1,tk]})对应同一个cnv状态,相邻的片段对应不同的cnv状态;(e)对于所述k个片段,推断其cnv状态,例如哪些片段属于正常的拷贝数状态(normal),哪些片段有拷贝数扩增(gain),缺失(loss)或杂合性缺失(lossofheterozygosity,loh)。本发明的用于对受测者(哺乳动物,如人)的样品基因组中的拷贝数变异进行分析的方法可用于与生物遗传性相关的研究,例如用于研究人种的遗传信息与表观、高度和颜色的关系等。另一些应用包括筛选为了增强或显示期望特征而繁殖的动物等。用于对受测者(哺乳动物,人)的样品基因组中的拷贝数变异进行分析的方法可以用于鉴定snp和遗传表型之间的物理连锁关系,由此用于研发遗传图谱,确定对表型(包括疾病表型)重要的基因组区域。另外,本领域已知各种与基因突变有关的疾病。这些疾病包括哮喘、癌症、自身免疫疾病等。癌症包括膀胱癌、脑癌、乳腺癌、结肠癌、食道癌、白血病、肝癌、肺癌、口腔癌、胃癌等。用于对受测者(哺乳动物,人)的样品基因组中的拷贝数变异进行分析的方法也可用于观察、判断和监视与基因突变有关的疾病。本发明还提供了实现以上用于对受测者(哺乳动物,如人)的样品基因组中的拷贝数变异进行分析的方法的系统。本发明的系统包含计算机处理器以及与所述处理器连接的计算机可读的存储介质,所述存储介质具有明确呈现其上的指令,当由计算机处理器执行时,所述指令引起处理器进行实现以上用于对受测者(哺乳动物,如人)的样品基因组中的拷贝数变异进行分析的方法的各个步骤的操作。在本发明的其中一个方面,本发明提供的系统包括以下装置中的一种或多种:(a)一种装置,其获取采集的参考样本的核酸的测序结果,在其snp位点上检测每个样本的基因型,对于每一个snp位点,参考等位基因记为a,交替等位基因记为b,三种基因型为aa、ab和bb,获得snp位点上的参考等位基因和交替等位基因的测序深度da和db,计算得到这个snp位点的测序深度d,其中d=da+db,记其交替等位基因b占这个snp位点的测序深度的比值为θ,即θ=db/(da+db),θ∈[0,1];参考样本的个数设为n,检测的snp位点个数设为m,对第i个snp(i为1,2,3,…,m),获得其参考等位基因和交替等位基因的测序深度dia和dib,计算得到这个snp位点的测序深度di,其中di=dia+dib,其交替等位基因b占测序深度的比值为θi=dib/(dia+dib),θi∈[0,1];当θi靠近0、0.5和1时对应aa、ab和bb基因型;以d为横坐标,θ为纵坐标做图,所述n个样本的每个snp的di和θi值在图上形成相对于aa、ab和bb基因型的三个点簇,算出三个点簇的中心位置的dg和θg值,其中dg和θg值可为点簇上所有点的di或θi的平均值或中位数值:dg=median(dj,j∈{i:gi=g}),g=aa,ab,bb;θg=median(θj,j∈{i:gi=g}),g=aa,ab,bb。(b)一种装置,其通过线性插值法计算待测样本的每一个snp在个体的正常状态下的测序深度d的期望值de;(c)一种装置,其获取待测样本的核酸的测序结果,获得其每个snp测序深度;(d)一种装置,其计算得到待测样本的每个snp位点的测序深度比,即sdr,其对数形式为lsdr;以及计算得到交替等位基因频率,即aaf,其中sdr=d/de;lsdr=log2(d/de);以及(e)一种装置,其采用隐马尔可夫模型分析上述步骤得到的数据,检查和展示目标基因组的拷贝数变异状况。在本发明的又一个方面,本发明提供用于对受测者(哺乳动物,例如人)的体液样品(例如血清和尿液样品)基因组中的拷贝数变异进行分析的系统,其包括以下装置中的一种或多种:(a)一种装置,其获得目标个体的体液游离核酸和含有正常基因组的组织样品的参考核酸的测序结果,在其snp位点上检测其基因型,对于每一个snp位点,参考等位基因记为a,变异等位基因记为b,三种基因型为aa、ab和bb;(b)一种装置,其计算得到目标个体的每个杂合型snp位点的测序深度比sdr,其对数形式为lsdr,其方法如下:获得每个杂合型snp位点附近2l宽度区域内(snp上游宽度为l和下游宽度为l;l范围为300-2000bp,例如l=1000bp)每个碱基位置的测序深度,参考核酸和体液游离核酸在第j个碱基位置上的测序深度记为dn,i,j和dt,i,j;检测的snp位点个数设为m,对第i个杂合型snp(i为1,2,3,…,m),参考核酸和体液游离核酸的加权测序深度分别为:其中w(li,j)为权重;优选的,所述权重为高斯核(gaussiankernel)σ的取值范围为0.3l至l;li,j为区域中第j个碱基距离snpi位点的距离,第i个杂合型snp位点的lsdr值计算为:(c)一种装置,其计算得到受测者的每个杂合型snp位点对应的交替等位单倍体频率,即ahf,其方法如下:获得受测者的体液游离核酸中第i个杂合型snp周围宽度为2r范围内的杂合基因型snp位点(上游宽度为r,下游宽度为r;r范围为10-100kb,例如r=50kb)的基因型;对基因型数据做单倍型定相,判断临近的杂合型snp位点的两个等位基因a和b各处在哪个单倍体上;在血清游离dna中,在a和b单倍体上第i个杂合型snp位点附近其他杂合型snp位点的测序深度记为dt,a,i,j和dt,b,i,j;计算第i个杂合型snp在a和b单倍体上的加权测序深度:其中w(li,j)为权重;优选的,所述权重为高斯核(gaussiankernel)σ的取值范围为0.2r至r;li,j为区域中第j个其他杂合型snp位点距离snpi位点的距离;血清游离dna中snpi位点的ahf值为:参考dna中snpi位点的ahf值为:进一步计算:lmahfi=log2(mahft,i/mahfn,i)其中mahfn,i=|ahfn,i-0.5|+0.5,mahft,i=|ahft,i-0.5|+0.5;(d)一种装置,其计算出m个杂合snp位点的lmahf值(简记为x)和lsdr值(简记为y)后,得到一组2维序列{(xi,yi),i=1,...,m};采用协同分段方法,来确定体液游离dna中的cnv片段,即把{(xi,yi),i=1,...,m}分为k个片段{ηk={(xi,yi):i∈(tk-1,tk]};k=1,...,k},0=t0<t1<...<tk-1<tk<...<tk=m;其中每个片段(ηk)中的杂合型snp位点({i:i∈(tk-1,tk]})对应同一个cnv状态,相邻的片段对应不同的cnv状态;(e)一种装置,其对于所述k个片段,推断和显示其cnv状态,例如推断和显示哪些片段属于正常的拷贝数状态,以及哪些cnv片段有拷贝数扩增(gain),缺失(loss)或杂合性缺失(lossofheterozygosity,loh)。附图说明图1本发明的一种实施方式的对snp位点的d和θ值进行正则化的示例图。图1a是从测序结果得到的d和θ的散点图;图1b是经过变换,基于d和θ计算出了lsdr和aaf的散点图。图2本发明的一种实施方式的检测受试者正常细胞的拷贝数变异的医学设备系统的显示图。图3本发明的一种实施方式的检测肝癌病人的血液中游离dna的拷贝数变异的医学设备系统的显示图。图3a为杂和型snp位点的lsdr和lmahf值的图。图3b为mahf-lsdr值的图。具体实施方式实施例1获得测试者的组织样品并提取dna从测试者抽取10毫升静脉血,收集至含edta的收集管,使用从血液中提取核酸的试剂盒(qiagenqiaampdspdnabloodminikit)提取血清中的游离dna。该试剂盒的操作方法在网页https://www.qiagen.com/us/shop/sample-technologies/dna/dna-preparation/qiaamp-dsp-dna-blood-mini-kit#orderinginformation进行了详述。另外,采用口腔拭子在口腔内壁来回挂拭多次,获得患者口腔上皮样本。使用提取核酸的试剂盒(promegamaxwellrscbuffycoatdnakit试剂盒)提取口腔上皮的dna。该试剂盒的操作方法在网页https://www.promega.com/products/dna-purification-quantitation/genomic-dna-purification/maxwell-rsc-system-dna-purification-kits/maxwell-rsc-buffy-coat-dna-kit/进行了详述。实施例2对测试者的dna进行全基因组测序,对其snp位点进行基因型测定将5ug的dna用超声法破碎成大约200bp的片段,使用illumina公司的paired-endsequencingsamplepreparationkit试剂盒建立文库,利用illuminahiseq平台进行全基因组测序。测序得到4千万至4亿个200~300bpdna片段的序列。实施例3对组织细胞,例如口腔上皮细胞dna的测序和基因型测定结果进行分析本发明的方法可用于检测待测者或患者的各种组织的细胞,包括上皮细胞、血液中的正常白细胞等。步骤(a)采集一批正常人群的参考样本(referencesamples),并根据实施例1和实施例2的dna采集、库准备、测序仪、测序深度相同的方法对参考样本的dna进行测序和基因型测定。正常细胞dna样品中,不含有癌症细胞的基因组信息。在正常细胞dna中检测到的基因组拷贝数多态性(polymorphism)为患者遗传得到的(inherited)。在本发明的方法中,对参考样品所用的测序流程和待检测样品使用的测序流程(包括dna采集、库准备、测序仪、测序深度)相同或基本相似,这样可以保持在后续所述的对于参考样品和测试样品进行数据变换(transformation)时的准确性。设参考样品的样本量为n(n需要至少50个以上,优选为100个以上,能够获得越多参考样品,其后分析结果越准确),在目标基因组内的所以已知snp位点(设为m个)上测出每个样本的每个snp的基因型(genotype),并获得其参考等位基因(referenceallele)和交替等位基因(alternativeallele)的测序深度(readdepth),即每个snp位点的测序次数。目标基因组可以是受测者的基因组全长,也可以是选择的基因组片段。一个样品的测序深度是指测序得到的总碱基数与待测基因组大小的比值。在本方法中,每个snp位点的测序深度是指对每个snp位点的测序次数。对基因组上某个位点,包括snp位点的测序深度受到测序方法和条件以及与该位点自身状况(包括该位点的碱基类型,周围碱基的类型,在基因组上的位置、拷贝数等)的影响。在测序方法和条件类似的情况下,对不同样品的同一个snp位点的测序深度(即测序次数)主要由该位点的碱基类型,周围碱基的类型,在基因组上的位置和拷贝数决定。核酸的单核苷酸多态性(singlenucleotidepolymorphism,snp)是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。snp所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。snp既可能是二等位多态性,也可能是3个或4个等位多态性,后两者非常少见。因此,通常所说的snp都是二等位多态性的。这种变异可能是转换(c←→t,在其互补链上则为g←→a),也可能是颠换(c←→a,g←→t,c←→g,a←→t)。转换的发生率总是明显高于其它几种变异,具有转换型变异的snp约占2/3,其它几种变异的发生几率相似。对于每一个snp位点,参考等位基因记为a,交替等位基因记为b,可能的三种基因型为aa、ab和bb。对于参考样本i(i=1,...,n),其基因型记为gi(gi∈{aa,ab,bb}),根据测序的结果直接获得等位基因a和b的原始测序深度,分别记为和计算得到这个snp位点的原始测序深度其中为了使不同样本之间的测序深度更准确地进行比较,在本发明的方法中,还可通过每个样本的总测序深度来正则化(normalize)根据测序的结果直接获得的原始测序深度,即通过以下方式:其中ci为第i个样本的总测序深度,即所有m个snp位点的原始测序深度之和;为n个样本ci的平均值,即在这个snp位点的正则化后的测序深度为di=dia+dib。交替等位基因b占测序深度的比值为θi=dib/(dia+dib)(θi∈[0,1])。当θi靠近0、0.5和1时对应aa、ab和bb基因型。以d为横坐标,θ为纵坐标做图,所述n个样本的每个snp的di和θi值在图上形成相对于aa、ab和bb基因型的三个点簇(cluster)(参见图1a)。分别计算出三个点簇的中心位置的dg和θg值,其中dg和θg值可为点簇上所有点的di或θi的平均值或中位数值。在本实施方式的方法中,用中位数(median)来估计点簇的中心位置,即dg=median(dj,j∈{i:gi=g}),g=aa,ab,bbθg=median(θj,j∈{i:gi=g}),g=aa,ab,bb通过用中位数(median)来估计点簇的中心位置,更有利于避免异常值对估计的影响。从参考样本得到的m个snp的dg和θg值可以保存用作对于参考样本和新样本进行数据变换(transformation)的基准值。步骤(b)通过线性插值法计算待测样本的每一个snp在正常状态(对于人类基因组,正常状态即基因拷贝数为2,基因型为aa,ab,bb型)下的测序深度d的期望值de(expectation)。例如,用以下线性插值的方法计算:步骤(c)对待测样本的核酸进行测序,获得其每个snp测序深度d,记为di,(i为1,2,3,…,m);步骤(d)计算得到待测样本的每个snp位点的测序深度比(sequencingdepthratio,sdr),其对数形式为lsdr;以及计算得到交替等位基因频率(alternativeallelefrequency,aaf),其中sdr=d/de;lsdr=log2(d/de);以及图1为本发明的方法对snp位点的d和θ值进行正则化的示例图。图1a是从测序结果得到的d和θ的散点图;经过以上所述变换,基于d和θ计算出了lsdr和aaf,其散点图为图1b。如图1所示,本发明的方法通过对于所有m个snp位点经过以上数据变换,每个snp位点的lsdr和aaf值都正则化到统一的尺度,以便于聚集(aggregate)邻近的snp位点的总信号强度和等位基因比值,提高本发明的cnv检测方法的信噪比。步骤(e)采用隐马尔可夫模型(hiddenmarkovmodel,hmm)分析上述步骤得到的测序深度比sdr和lsdr;以及交替等位基因频率aaf,检查目标基因组的拷贝数变异状况。其中,在m个snp位点的aaf和lsdr值记为xi和yi(i=1,...,m),构成了隐马尔可夫模型的显层(observationlayer);记m个snp位点的拷贝数变异cnv状态为zi(i=1,...,m),构成隐马尔可夫模型的隐层(hiddenlayer),其中每个zi有6个可能的状态(如下表):表1从隐层到显层的发射概率为:p(xi,yi|zi)=p(xi|zi)p(yi|zi)。对应aaf的发射概率为:其中b(g;g(z)-1,pb)为二项分布(binomialdistribution)的概率密度函数(probabilitydensityfunction):φ(x;μ,σ)为正态分布(normaldistribution)概率密度函数:其中g(z)为该snp位点cnv状态z对应的基因型数(即基因型可能的取值个数),对应的基因型如上表所示;g=0,…,g(z)-1,为这g(z)个基因型中b等位基因的个数;当g=0或g=g(z),即cnv基因型为纯合基因型时,对应的正太概率密度函数替换成以0或1为边界的截断(truncated)正太概率密度函数;pb为受测者所属基因种群的群体b等位基因频率(populationfrequency)。pb可从已知的参考样本分析和统计后获得。pb也可从已公开的研究数据获得。选择的基因种群与受测者越接近越合适。例如,受测者为人类时,可以选择其所属种族、家族或是属于感兴趣的基因型群体等。在本实施例中,从千人基因组计划提供的待测样本所属的种群数据得到,例如在其网页http://www.1000genomes.org/data#download得到。例如位于第17号染色体上的,编号为rs2305480的snp,参考等位基因为g;替换等位基因为a,替换等位基因的频率在东亚人群中为25.8%,在非洲人群中为14.1%,欧洲白人中为45.3%。μx,z,g为不同cnv状态基因型对应的aaf均值。例如,在本实施例的方法中,按如下公式计算初始值:σx,z,g为不同cnv状态基因型对应的aaf标准差,初始值通过待测样本的数据估计,例如通过下面描述的方法估算。对应lsdr的发射概率为:同样φ(y;μ,σ)为正太分布概率密度函数,参数μy,z和σy,z为不同cnv状态对应的lsdr均值和标准差。μy,z的初始值可用如下公式计算:其中c(z)为不同cnv状态对应的总拷贝数(如上表);σy,z的初始值通过待测样本的数据估计,例如通过下面描述的方法估算。在本实施例中,计算σx,z,g和σy,z的初始值的具体步骤为:(1)首先定义用差分计算标准差的方法:不失一般性,对于一列2n个(对于奇数个观测值的情况,可以不用最后一个观测值)snp的观测值(a1,...,a2n),按snp在染色体上的位置排列,数值的分布符合以下性质,即ai=μk+εi,i∈[ik-1,ik),k=1,...,k,其中ik为变点(changepoint)且变点数k<<2n;εi为独立同分布噪声,均值为0,标准差为σ。定义δi=z2i-1-z2i。那么δi(i=1,...,n)为独立同分布,均值为0,标准差为δi的标准差可以用较为鲁棒(robust)的平均绝对偏差(medianabsolutedeviation,mad)估计,即于是ai的标准差估计为(2)估计σx,z,g的初始值时,先取待测样本aaf值xi(i=1,...,m)的子集{xi:0.2<xi<0.8},即选择那些杂合基因型的snp对应的aaf值;然后再对这个子集应用(1)的方法,得到的估计记为σx;于是对于不同cnv状态基因型的σx,z,g的初始估值为(3)估计σy,z的初始值时,直接对于待测样本的lsdr值yi(i=1,...,m)应用(1)的计算方法。隐层相邻snp位点之间的转移概率为:其中l为相邻两个snp位点之间的距离(单位bp)。对于正常状态(即z=4)到其他状态的转移,l取值范围为10-100mb,优选为100mb;对于其他状态之间的转换l取0.1~1mb,优选为0.1mb。ps,t为基础状态转移概率。当s=t=4时,即相邻两个snp为正常状态,p4,4取值为非常接近于1的概率,如0.999995;当s=t、s≠4且t≠4时,即相邻两个snp为相同的拷贝数变异状态,ps,t取值接近于1的概率,但小于p4,4,如0.95;当s≠4且t=4时,即从拷贝数变异状态转移到正常状态,ps,t取值为较小的概率,如0.049996;当s和t为其他组合时,即从正常状态转移到拷贝数变异状态或不同拷贝数状态之间的转移,ps,t取值为极小的概率,如0.000001。上述公式中的参数(μx,z,g、σx,z,g、μy,z和σy,z)在得到初始值后,根据待测样本aaf和lsdr的观测数据,由baum-welch算法对待测样本的参数进一步准确估计。然后,由viterbi算法估计隐层各snp位点的拷贝数变异状态,由此得到整个目标基因组中各拷贝数变异位置(包括拷贝数变异的起始和结束位点),拷贝数变异的长度和变异后的拷贝数。本发明的上述检测受试者正常细胞的拷贝数变异的方法可以通过带计算机系统的医学设备实现,其结果可以通过软件转化为直观的系统显示结果,包括目标基因组中各拷贝数变异位置(包括拷贝数变异的起始和结束位点),拷贝数变异的长度和变异后的拷贝数等信息。图2为示例性的应用本发明的上述方法检测受试者正常细胞的拷贝数变异后的医学设备系统的显示图。图2显示受试者第15号染色体的一个区段。在15号染色体32mb碱基位置附近,多个snp位点的lsdr值偏离正常状态的预测值(lsdr的预测值为0);同时多个snp的aaf的值也偏离了预测值(杂合状态的snp的aaf的预测值为0.5)。使用本发明的方法,可以确定该受试者的第15号染色体,32mb碱基位置附近有一个大约1.2mb碱基长的cnv。实施例4对游离dna(例如血清和尿液等体液中的游离dna)的测序和基因型测定结果进行分析在癌症患者的血液或尿液中存在肿瘤细胞凋亡后释放的dna片段,也就带有肿瘤细胞基因组中的体突变(somaticmutation)和体拷贝数变异(肿瘤细胞基因组中的cnv特别称为somaticcopynumberalteration,scna)的信息。但游离dna样品中的主要成分是正常细胞凋亡后释放的dna,scna的信号被严重稀释。因此需要进一步增强lsdr的aaf的信噪比(signal-to-noiseratio)。本发明还提供了根据患者的血液游离dna来检测肿瘤细胞的cnv状态的方法,其步骤如下:步骤(a)从同一测试者提取的参考dna(含有正常基因组)和血清游离dna。从血清样品分离获得血清游离核酸,从含有正常基因组的组织样品(如血沉棕黄层或口腔上皮细胞)分离得到前述参考核酸,对所述血清核酸和参考核酸进行测序,在m个snp位点上检测其基因型。对于每一个snp位点,参考等位基因记为a,变异等位基因记为b,三种基因型为aa、ab和bb。步骤(b)计算得到目标个体的每个杂合基因型(下文简称为杂合型)snp位点的测序深度比(sequencingdepthratio,sdr),其对数形式为lsdr,其计算方法如下:获得每个杂合型snp位点附近2l宽度区域内(snp上游宽度为l和下游宽度为l;l范围为300-2000bp,例如l=1000bp)每个碱基位置的测序深度,参考核酸和血清核酸在第j个碱基位置上的测序深度记为dn,i,j和dt,i,j;对第i个杂合型snp(i为1,2,3,…,m),参考核酸和血清核酸的加权测序深度分别为:其中权重可以设定为多种形式,例如可使用高斯核,或是可以设定为1/2l,即各位点的影响都一样。在本发明的实施例中,使用高斯核(gaussiankernel)li,j为区域中第j个碱基距离snpi位点的距离(单位bp);σ的取值范围为0.3l至l。第i个杂合型snp位点的lsdr值计算为:与实施例3中的方法比较,lsdr的定义在逻辑上是相同的,都是用于描述实际测量到的测序深度与预计测序深度的比值,只是为了进一步增强lsdr的aaf的信噪比而做了以下修正(modification)。实施例3中的方法的每个snp位点的lsdr只用到了该位点的测序深度,而实施例4的方法用到了当前位点周围其他碱基位置的测序深度。(c)计算得到目标个体的每个杂合型snp位点的交替等位单倍体频率(alternativehaplotypefrequency,ahf)。获得目标个体的血清游离核酸中第i个杂合型snp周围宽度为2r范围内的杂合型snp位点(上游宽度为r,下游宽度为r;r范围为10-100kb,例如r=50kb)的基因型。通过shapeit软件(https://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html),对基因型数据做单倍型定相(haplotypephasing),判断临近的杂合型snp位点的两个等位基因各处在哪个单倍体(haplotype)上。哺乳动物中,每个染色体,都有两条。一条来自父亲,一条来自母亲。单倍型,就是单倍体上多态性位点的基因型。对基因型数据做单倍型定相(haplotypephasing),即为从某个个体的双倍体数据,估算其单倍型。不失一般性,把两条单倍体分别记作a和b单倍体。在血清游离dna中,在a和b单倍体上第i个杂合型snp位点附近其他杂合型snp位点的测序深度记为dt,a,i,j和dt,b,i,j。计算第i个杂合型snp在a和b单倍体上的加权测序深度:其中权重可以设定为多种形式,比如高斯核(gaussiankernel)li,j为区域中第j个其他杂合型snp位点距离snpi位点的距离(单位bp);σ的值在0.2r至r。血清游离dna中snpi位点的ahf值为:同样,参考dna中snpi位点的ahf值为:ahf可视为实施例3中的定义aaf的扩展。ahf的定义和实施例3的方法中的aaf的定义在逻辑上是相同的,都是用于描述二倍体物种细胞,两套染色体(一套来自父本,另一套来自母本)在某个位置的测序深度的比值。实施例3中的aaf只用到单个杂合型snp位点的等位基因测序深度信息,而实施例4中的ahf用到当前杂合型snp位点附近其他杂合型snp位点的等位基因测序深度信息。进一步计算:lmaaf=log2(maaft,i/maafn,i)其中maafn,i=|aafn,i-0.5|+0.5,maaft,i=|aaft,i-0.5|+0.5;通过如上进一步数据变换得到lmahf,更符合正态分布,更适合应用在以下步骤(d)中的算法。步骤(d)计算出m个杂合型snp位点的lmahf值(简记为x)和lsdr值(简记为y)后,得到一组2维序列{(xi,yi),i=1,...,m}。采用协同分段(jointsegmentation)方法,来确定血液游离dna中的cnv片段(segment),即把(xi,yi),i=1,...,m分为k个片段:{ηk={(xi,yi):i∈(tk-1,tk]};k=1,...,k},0=t0<t1<...<tk-1<tk<...<tk=m其中每个片段(ηk)中的杂合型snp位点({i:i∈(tk-1,tk]})对应同一个cnv状态,相邻的片段对应不同的cnv状态。分段(segmentation)是统计中变点检测(change-pointdetection)问题的常用概念。协同分段就是对多维序列进行分段。可采用统计学中各种合适的方法进行上述协同分段。在本实施例的方法中,采用的协同分段的具体算法如下:(d.1)对于2维序列{(xi,yi),i=0,...,m}(注意:为了算法符号含义清晰简洁,在原有序列前加上辅助的数据点(x0=0,y0=0)),首先定义统计量:其中0≤s<t≤m;和可由统计学上惯用的方法,例如差分计算法获得。在本实施例中,可以下述方法获得:不失一般性,对于一列2n个(对于奇数个观测值的情况,可以不用最后一个观测值)snp的观测值(a1,...,a2n),它们按snp在染色体上的位置排列,数值的分布符合以下性质,即ai=μk+εi,i∈[ik-1,ik),k=1,...,k,其中ik为变点(changepoint)且变点数k<<2n;εi为独立同分布噪声,均值为0,标准差为σ。定义δi=z2i-1-z2i。那么δi(i=1,...,n)为独立同分布,均值为0,标准差为δi的标准差可以用较为鲁棒的平均绝对偏差(medianabsolutedeviation,mad)估计,即于是ai的标准差估计为然后定义扫瞄统计量(scanstatistic):(d.2)扫瞄统计量的显著性由以下公式计算:其中为自由度为2的卡方分布(chi-squaredistribution)概率密度函数;v(x)≈[(2/x)(φ(x/2)-1/2)]/[(x/2)φ(x/2)+φ(x/2)];φ(·)和φ(·)为标准正态分布的概率密度函数和概率分布函数。(d.3)寻找变点0=t0<t1<...<tk-1<tk<...<tk=m的算法:步骤1:给定显著性水平α,t1=0,t2=m;步骤2:计算其中(s*,t*]是使z(s,t)达到最大值的片段;步骤3:如果pz(zmax)<α,那么片段(t1,t2]分为三个(t1,s*],(s*,t*]和(t*,t2](注意若t1=s*或t*=t2,则实际分为两个片段);对原有序列进行更新:其中步骤4:对于(t1,t2]∈{(t1,s*],(s*,t*],(t*,t2]}和更新的2维序列{(xi',yi'),i=0,...,m}分别应用步骤2和步骤3,直到所有的片段对应的pz>α。(e)对于这k个片段,可采用统计学上已知的合适方法来推断哪些片段属于正常的拷贝数状态,哪些片段有拷贝数扩增(gain),缺失(loss)或杂合性缺失(lossofheterozygosity,loh)。在本实施例中,采用以下推断方法:对于(d)中得到的k个片段,对每个片段(tk-1,tk]分别计算:其中nk=tk-tk-1;然后采用自助法(bootstrap),在指标集{0,1,...,m}中随机选取h个长度为nk的片段用相同公式计算上述三个统计量然后计算其中i(·)为指示(indicator)函数,即条件为真,则函数值为1,否则为0。每个片段的cnv状态根据下表2给出。表2推断基因组片段拷贝数状态的标准。表中pxy、px、py、和的片段索引k在这里忽略,因为是对每一个片段都应用上述计算过程;非平衡是指两个等位基因的拷贝数不等;平衡是指两个等位基因的拷贝数相等;通常θ=0.05,u=1.5。图3为示例性的应用本发明的上述方法检测一个肝癌病人的血液中游离dna的拷贝数变异后的医学设备系统的显示图。图3显示,本发明的算法计算出这例肝癌基因组为四倍体,并且定位和定量基因组上的大量cnv。本发明的算法计算出了每一个基因组区段的总拷贝数,以及父系和母系两条染色体的比例。图3a中,上下两个子图中的点分别表示杂和型snp位点的lsdr和lmahf值,数据点用交替的浅绿色和浅灰色来区分它们所在的染色体。每条线段表示一个cnv片段。线段用不同颜色对应不同的cnv类型(基准为四倍体),例如灰色为正常(normal)、蓝色为拷贝数缺失(loss)、红色为拷贝数增加(gain),绿色为杂和性缺失(loh),浅蓝色为不确定(undecided)。图3b中,在mahf-lsdr坐标平面上(注意:在图3a中所示的协同分段完成后,后续步骤中的计算只需要用到血清游离dna的mahf值),每个圆圈表示一个cnv片段,分别对应于图3a中的线段,其尺寸与实际cnv片段的尺寸成比例。圆圈的颜色所表示的意义与图3a相同。圆圈簇(cluster)附近的数字标注表示推断出的相应的绝对拷贝数(absolutecopynumber)/多数等位基因的拷贝数(majorallelecopynumber)。灰色虚线表示修正过的在mahf维度和lsdr维度的基准线。坐标平面旁边是对应于mahf维度和lsdr维度的加权直方图,数值为每个cnv片段的mahf中位数和lsdr中位数,权重为每个cnv片段所含的杂和snp位点的数量。除非另外指出,本发明的实践将使用生物技术、计算机科学等的常规技术,显然除在上述说明和实施例中所特别描述之外,还可以别的方式实现本发明。其它在本发明范围内的方面与改进将对本发明所属领域的技术人员显而易见。根据本发明的教导,许多改变和变化是可行的,因此其在本发明的范围之内。本文所提到的所有专利、专利申请与科技论文均据此通过引用结合到本文。

我要回帖

更多关于 已知如图点c为线段ab上一点 的文章

 

随机推荐