p.Value越显著,X变量越重要嘛? pvalue与变量的重要性

一个变量的重要性应该是一个同“样本量”无关的判断。但是,p.Value的显著性,极大地受到样本量的影响。由此可见,这是两个东东。它们之间肯定有关系,但是不是简单的唯一确定关系。如前所述,老王卖耗子药这个案例太完美。它完美在于不同X的单位是相同可比的。对于更多的实际分析而言,不同的X,单位不同,类型不同。这会让不同回归系数的可比性更差。因此,更加难以定义什么叫做“重要”,更不可能简单滴说:p.Value显著=X变量重要。

p.Value是用来做什么的?p.Value是用来判断一个beta系数为0的可能性。p.Value越小,说明这个beta系数越不可能是0,而同beta系数绝对值的大小(也就是:重要性),没有必然联系。

判断是否为0和是否重要没有毛线关系

对于一个回归分析,p.Value是通过一个Z-type检验统计量来计算的,形式为:Z=beta.hat/SE(beta.hat),其中beta.hat表示某种估计量(例如:最小二乘估计),而SE(beta.hat)表示该统计量相应的估计误差。Z的绝对值越大,p.Value越小。Z的绝对值越小,p.Value越大。因此,p.Value的显著性同Z的绝对值是一一确定的关系。
王汉生