LD Score regression文章；confounding

polygenicity多基因性（很多小的遗传效应）和混杂偏倚如隐秘的关联和群体分层都会导致GWAS 检验统计量test statistics的膨胀分布（inflated distribution）。我们开发了一种方法，即LD score regression，该方法通过检查检验统计量（test statistics）
和连锁不平衡（LD）之间的关系来量化两个部分的占比。LD Score regression的截距intercept可用来估计比基因组控制（genomic control）更强大和准确的校正因子correction factor。我们发现有力的证据表明，在许多样本量较大的GWAS中，检验统计量test statistics中的膨胀inflation主要因素是多基因性。

genomic control :Genomic Control 使用neutral loci（unrelated to disease）来纠正由于人群分层导致的伪关联。
lambda入， genomic control factor ==genomic inflation factor。是代表样本的genomic control的数值，通常是通过软件（如PLINK）利用大规模SNP数据计算出来的，lambda越接近1，表示样本越是随机采集的，一般认为lambda<1.10样本是没有问题的。


GWAS中的Genomic inflation factor(GIF) ，膨胀系数lambda的解读：基因组膨胀因子λ定义为经验观察到的检验统计分布与预期中位数的中值之比，从而量化了因大量膨胀而造成结果的假阳性率。换句话说，λ定义为得到的卡方检验统计量的中值除以卡方分布的预期中值。
预期的P值膨胀系数为1，当实际膨胀系数越偏离1，说明存在群体分层的现象越严重，容易有假阳性结果，需要重新矫正群体分层。

GIF（genomic inflation factor，lambda，genomic control inflation factor (λGC)

） 被定义为检验统计量的经验观察分布的中位数与预期中位数之比，从而量化了总体inflation的程度和过高的假阳性率。

GIF和QQ图都用来比较检验统计量的genome-wide分布与和预期零分布。Q-Q图是有用的视觉工具，用于标记观察到的分布与预期的零分布之间的偏差。Q（Q）图中的（ lambda 或inflated）值夸大或残留偏差可能表示未检测到样品重复，家族关系未知，测试统计数据校准不良，系统的技术偏见或总体人口分层

GIF值通常用在GWA过程中，用来控制该过程质量；鉴别出那些低质量的基因标记；例如在统计学中，GIF值大于1.0表示结果有低质量数据的出现；


简单地说 λ<1.01说明没有膨胀 也就是群体结构对结果几乎没有影响，一般1.01<λ<1.05之间认为影响较小 在可接受范围之内，而对于λ>1.1就需要进行矫正了，但是这只是通常的情况 尤其是后面两条的cut值，不同人对这种基于genomic control的分析方法有不同的认识

MAF指的是低频等位基因频率。heritability一般指的是我们所研究的疾病的遗传力，这个涉及的少，大部分都是通过阅读以前的文献得知该疾病的遗传力是多少，可以通过家系和领养研究来研究某种疾病的遗传力。r2指的是某一段基因组区域内SNP（或其它marker）连锁不平衡的数值，r2越接近1，表示SNP之间连锁性越高，可以通过haploview软件计算。

genomic control’ can be applied subsequently to adjust test statistics at individual loci by a genomic inflation factor

用2x2的case-control表格，通过统计with or without a particular allele的x2 卡方统计亮来判断在case和contorls之间的allele frequency是否显著差异。没关联的话即处于0.05区间时，x2>=3.84。

GC使用整个基因组中的“中性”基因座（与疾病无关）来获得因群体分层而产生的关联的度量值，即lambda 入。GC建议用3.84*入或x2/入作为在5%的FPR的状态下，衡量显著阈值的统计量。

估计入有两种方法：the mean of the x2 test statistics (入mean) or the median of the x2test statistics divided by 0.456 (入med)

correction factor: A factor that is multiplied with the result of an equation to correct for a known amount of systematic error.

test statistics：检验统计量，用于假设检验计算的统计量。统计量是用来对数据进行分析、检验的变量。是根据样本观测结果计算得到，并据此对原假设和备择假设作出决策的某个样本统计量，称为检验统计量。一般对应z值或t值（https://zhuanlan.zhihu.com/p/103291946）

polygenicity：多基因性 many small genetic effects

confounding bias: 混杂偏倚。指在流行病学研究中，由于一个或多个潜在的混杂因素（confounding factor）的影响，掩盖或夸大了研究因素与疾病（或实践）之间的联系，从而使两者之间的真正联系被错误的估计，造成混杂（confounding）。

如：在病例对照研究、随访研究中，研究样本的地域差异(geographical vadation)和人群分层(population stratification．PS) 是种族混杂(confounding by ethnicity)的表现，将导致虚假关联。

混杂因子(confounding factor，confounder)
  研究的暴露因素和研究疾病之外因素（第三因子，外部因素）
  此外部因素与研究疾病有关（独立相关）
  并且与研究的暴露因素有关（统计关联）
  该因素不是暴露导致疾病的中间环节或中间变量
  
混杂（confounding）
  若混杂因素在比较的人群组中分布不匀,可以歪曲(掩盖或夸大)因素与疾病之间真正联系。混杂（ confounding ）的本质是一种效应的混淆。外部因素对疾病的效应与暴露因素对疾病的效应交织 在一起，故无法正确评价暴露因素对疾病的真实关系
  在病例对照研究、随访研究中，研究样本的地域差异(geographical vadation)和人群分层(population stratification．PS)是种族混杂(confounding by ethnicity)的表现，将导致虚假关联。

举例
  研究吸烟与肺癌的关系，性别是个外部变量，性别与肺癌有关，性别与吸烟暴露有关。故性别是该研究中的混杂因子。
  无论是队列研究还是病例对照研究，若性别在比较组中分布不均衡，研究将出现混杂。

为明确定义混杂因子，流行病学分析中排除一类外部因子：

◦该因子是暴露导致疾病的中间环节或中间变量。

◦如：

吸烟高血压心脏病

吸烟 COPD 肺癌

高血压与COPD都不是混杂因子。

因为它们为病因链中的因子，也称内部介导因子（Intermediate Factor)。

效应量Effect size是衡量实验效应强度或者变量关联强度的指标(Snyder & Lawson, 1993), 它不受样本容量大小的影响(或者影响很小)。它不同于一般的统计检验结果（比如显著性p值、中介效应)

两个独立样本的效应量用“d”表示，是两个总体分布的重叠量。

通过假设检验只能得知样本统计量之间是否存在显著差异，而不能告诉我们差异究竟多大，因此需要统计检验力和效应量。

Effect size 是一个统计概念，用来在一个数值范围内衡量两个变量之间的联系。effect size 越大，两个变量之间差异越大。effect size 帮助确定差异是否真的存在，还是因子的改变（change of factors）。在假设检验中，effect size 、power、sample size、极显著水平互相关联。在meta分析中，effect size与不同的研究相关，并把所有研究合成一个研究。在统计分析中，effect size通常用三种方式衡量：1）standarized mean difference 标准化的均数差值2）odds ratio 比值比3）correlation coefficient 相关系数

效应值类型：

Pearson r correlation：皮尔森相关系数；标准化的均数差值；odds ratio （OR值，比值比）等

皮尔森相关系数是一种最简单的反应特征和响应之间关系的方法。这个方法衡量的是变量之间的线性相关性。结果的取值区间为[-1,1]。-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关。

Odd ratio 比值比 =ad/bc ，是相对危险度的精确估计值，OR值等于1，表示该因素对疾病的发生不起作用；OR值大于1，表示该因素是危险因素；OR值小于1，表示该因素是保护因素。

F-statistics: a measure of genetic structure developed by Sewall Wright (1969, 1978). Related to statistical analysis of variance (ANOVA)
FST is the proportion of the total genetic variance contained in a subpopulation (the S subscript) relative to the total genetic variance (the T subscript). Values can range from 0 to 1. High FST implies a considerable degree of differentiation among populations.

FIS (inbreeding coefficient) is the proportion of the variance in the subpopulation contained in an individual. High FIS implies a considerable degree of inbreeding. 参考：

Wright建议，实际研究中，FST为0～0.05:群体间遗传分化很小，可以不考虑；
FST为0.05～0.15，群体间存在中等程度的遗传分化；
FST为0.15~0.25，群体间遗传分化较大；
FST为0.25以上，群体间有很大的遗传分化。

LD score regression 估计SNPheritability。 heritability was estimated from the GWAS summary statistics using LD score regression.

LD score regression计算8中精神疾病两两之间的genetic correlation

文献 ：https://www.sciencedirect.com/science/article/pii/S0092867419312760

https://blog.****.net/zhu_si_tao/article/details/71513099

https://www.uwyo.edu/dbmcd/popecol/maylects/popgengloss.html

Fst计算代码：http://www.360doc.com/content/18/0221/13/19913717_731200680.shtml

LD score regression> https://cloud.tencent.com/developer/article/1556247

LD Score regression文章；confounding

LD Score regression文章 ；confounding

相关推荐

LD Score regression文章；confounding