LD Score regression文章 ;confounding

polygenicity多基因性(很多小的遗传效应)和混杂偏倚如隐秘的关联和群体分层都会导致GWAS 检验统计量test statistics的膨胀分布(inflated distribution)。我们开发了一种方法,即LD score regression,该方法通过检查 检验统计量(test statistics)
和连锁不平衡(LD)之间的关系来量化两个部分的占比。LD Score regression的截距intercept可用来估计比基因组控制(genomic control)更强大和准确的校正因子correction factor。我们发现有力的证据表明,在许多样本量较大的GWAS中,检验统计量test statistics中的膨胀inflation主要因素是多基因性。

 

 

genomic control :Genomic Control 使用neutral loci(unrelated to disease)来纠正由于人群分层导致的伪关联。
lambda入, genomic control factor ==genomic inflation factor。是代表样本的genomic control的数值,通常是通过软件(如PLINK)利用大规模SNP数据计算出来的,lambda越接近1,表示样本越是随机采集的,一般认为lambda<1.10样本是没有问题的。 GWAS中的Genomic inflation factor(GIF) ,膨胀系数lambda的解读:基因组膨胀因子λ定义为经验观察到的检验统计分布与预期中位数的中值之比,从而量化了因大量膨胀而造成结果的假阳性率。换句话说,λ定义为得到的卡方检验统计量的中值除以卡方分布的预期中值。
预期的P值膨胀系数为1,当实际膨胀系数越偏离1,说明存在群体分层的现象越严重,容易有假阳性结果,需要重新矫正群体分层。 GIF(genomic inflation factor,lambda,
genomic control inflation factor (λGC) 
) 被定义为检验统计量的经验观察分布的中位数与预期中位数之比,从而量化了总体inflation的程度和过高的假阳性率。

GIF和QQ图都用来比较检验统计量的genome-wide分布与和预期零分布。Q-Q图是有用的视觉工具,用于标记观察到的分布与预期的零分布之间的偏差。Q(Q)图中的( lambda 或inflated)值夸大或残留偏差可能表示未检测到样品重复,家族关系未知,测试统计数据校准不良,系统的技术偏见或总体人口分层

GIF值通常用在GWA过程中,用来控制该过程质量;鉴别出那些低质量的基因标记;例如在统计学中,GIF值大于1.0表示结果有低质量数据的出现;


简单地说 λ<1.01说明没有膨胀 也就是群体结构对结果几乎没有影响,一般1.01<λ<1.05之间认为影响较小 在可接受范围之内,而对于λ>1.1就需要进行矫正了,但是这只是通常的情况 尤其是后面两条的cut值,不同人对这种基于genomic control的分析方法有不同的认识

MAF指的是低频等位基因频率。heritability一般指的是我们所研究的疾病的遗传力,这个涉及的少,大部分都是通过阅读以前的文献得知该疾病的遗传力是多少,可以通过家系和领养研究来研究某种疾病的遗传力。r2指的是某一段基因组区域内SNP(或其它marker)连锁不平衡的数值,r2越接近1,表示SNP之间连锁性越高,可以通过haploview软件计算。

genomic control’ can be applied subsequently to adjust test statistics at individual loci by a genomic inflation factor

用2x2的case-control表格,通过统计with or without a particular allele的x2 卡方统计亮来判断在case和contorls之间的allele frequency是否显著差异。没关联的话即处于0.05区间时,x2>=3.84。

GC使用整个基因组中的“中性”基因座(与疾病无关)来获得因群体分层而产生的关联的度量值,即lambda 入。GC建议用3.84*入或x2/入作为在5%的FPR的状态下,衡量显著阈值的统计量。

估计入有两种方法:the mean of the x2 test statistics (入mean) or the median of the x2test statistics divided by 0.456 (入med) 

correction factor: A factor that is multiplied with the result of an equation to correct for a known amount of systematic error.

test statistics:检验统计量,用于假设检验计算的统计量。统计量是用来对数据进行分析、检验的变量。是根据样本观测结果计算得到,并据此对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。一般对应z值或t值(https://zhuanlan.zhihu.com/p/103291946)

polygenicity:多基因性 many small genetic effects 

confounding bias: 混杂偏倚。指在流行病学研究中,由于一个或多个潜在的混杂因素(confounding factor)的影响,掩盖或夸大了研究因素与疾病(或实践)之间的联系,从而使两者之间的真正联系被错误的估计,造成混杂(confounding)。

如:在病例对照研究、随访研究中,研究样本的地域差异(geographical vadation)人群分层(population stratificationPS) 是种族混杂(confounding by ethnicity)的表现,将导致虚假关联。

混杂因子(confounding factor,confounder)
  研究的暴露因素和研究疾病之外因素(第三因子,外部因素)
  此外部因素与研究疾病有关(独立相关)
  并且与研究的暴露因素有关(统计关联)
该因素不是暴露导致疾病的中间环节或中间变量
混杂(confounding) 若混杂因素在比较的人群组中分布不匀,可以歪曲(掩盖或夸大)因素与疾病之间真正联系。混杂( confounding )的本质是一种效应的混淆。外部因素对疾病的效应与暴露因素对疾病的效应交织 在一起,故无法正确评价暴露因素对疾病的真实关系
在病例对照研究、随访研究中,研究样本的地域差异(geographical vadation)人群分层(population stratificationPS)是种族混杂(confounding by ethnicity)的表现,将导致虚假关联。
举例 研究吸烟与肺癌的关系,性别是个外部变量,性别与肺癌有关,性别与吸烟暴露有关。故性别是该研究中的混杂因子。 无论是队列研究还是病例对照研究,若性别在比较组中分布不均衡,研究将出现混杂。

为明确定义混杂因子,流行病学分析中排除一类外部因子:

该因子是暴露导致疾病的中间环节或中间变量。

如:

   吸烟        高血压       心脏病

 

   吸烟        COPD         肺癌

 

高血压与COPD都不是混杂因子。

因为它们为病因链中的因子,也称内部介导因子(Intermediate Factor)

 

  

效应量Effect size是衡量实验效应强度或者变量关联强度的指标(Snyder  &  Lawson,  1993),  它不受样本容量大小的影响(或者影响很小)。它不同于一般的统计检验结果(比如显著性p值、中介效应)

两个独立样本的效应量用“d”表示,是两个总体分布的重叠量。

通过假设检验只能得知样本统计量之间是否存在显著差异,而不能告诉我们差异究竟多大,因此需要统计检验力和效应量。

 

Effect size 是一个统计概念,用来在一个数值范围内衡量两个变量之间的联系。effect size 越大,两个变量之间差异越大。effect size 帮助确定差异是否真的存在,还是因子的改变(change of factors)。在假设检验中,effect size 、power、sample size、极显著水平互相关联。在meta分析中,effect size与不同的研究相关,并把所有研究合成一个研究。在统计分析中,effect size通常用三种方式衡量:1)standarized mean difference 标准化的均数差值2)odds ratio 比值比3)correlation coefficient 相关系数 

效应值类型:

Pearson r correlation: 皮尔森相关系数 ;标准化的均数差值;odds ratio (OR值,比值比)等

皮尔森相关系数是一种最简单的反应特征和响应之间关系的方法。这个方法衡量的是变量之间的线性相关性。结果的取值区间为[-1,1]。-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关。

 

 

Odd ratio 比值比 =ad/bc ,是相对危险度的精确估计值,OR值等于1,表示该因素对疾病的发生不起作用;OR值大于1,表示该因素是危险因素;OR值小于1,表示该因素是保护因素。

 

F-statistics: a measure of genetic structure developed by Sewall Wright (1969, 1978). Related to statistical analysis of variance  (ANOVA)
FST is the proportion of the total genetic variance contained in a subpopulation (the S subscript) relative to the total genetic variance (the T subscript). Values can range from 0 to 1. High FST implies a considerable degree of differentiation among populations.

FIS (inbreeding coefficient) is the proportion of the variance in the subpopulation contained in an individual. High FIS implies a considerable degree of inbreeding. 参考:

Wright建议,实际研究中,FST为0~0.05:群体间遗传分化很小,可以不考虑;
FST为0.05~0.15,群体间存在中等程度的遗传分化;
FST为0.15~0.25,群体间遗传分化较大;
FST为0.25以上,群体间有很大的遗传分化。

 

LD score regression 估计SNPheritability。 heritability was estimated from the GWAS summary statistics using LD score regression.

LD score regression计算8中精神疾病两两之间的genetic correlation

文献 :https://www.sciencedirect.com/science/article/pii/S0092867419312760

  

 

https://blog.****.net/zhu_si_tao/article/details/71513099

https://www.uwyo.edu/dbmcd/popecol/maylects/popgengloss.html

Fst计算代码:http://www.360doc.com/content/18/0221/13/19913717_731200680.shtml

LD score regression>  https://cloud.tencent.com/developer/article/1556247

LD Score regression文章 ;confounding