SamNotesCN: [转]统计？我懂个P！

统计？我懂个P！

原创 2016-01-11 谷鸿秋 StatsThinking

也不知道P值是招谁惹谁了，反正大家都喜欢拿他开刷！老早就有一篇争议挺大的公众号文章说「P值已死」，立马就有人反驳「别闹了，P值没死」。其实， Nature杂志在14年2月份时就刊发了一篇文章，对统计效度的金标准「P值」提出了质疑，认为P值并没有统计学家所认为的那样可信。

我们暂且把这个问题搁置一下，替P值君问一句：「为什么受伤的总是我呀？是我是我还是我」真要说起个问题，咱们得从统计学的框架说起。

现代统计学的框架

现代统计学两分天下：一分统计描述，一分统计推断。统计书上经常这样表述：统计描述和统计推断是现代统计学的两个组成部分，两者相辅相成、缺一不可，统计描述是现代统计学的基础和前提，统计推断是现代统计学的核心和关键。

统计描述就是给数据拍张快照呗，看看他们长什么样子。我们熟知的均数、中位数就是用来看他们扎堆的位置，扎在什么地方；标准差、四分位数间距等就是用来看他们扎堆的程度，扎得有多紧。当然我们也可以用直方图，箱线图，散点图等统计图形来更为形象直观的查看。

统计推断是用我们手中的样本数据来推断其背后的总体特征。统计推断里有两大块内容：参数估计和假设检验。参数估计就是我们用样本的统计量（如样本均数）去估计总体的参数（如总体均数）。此时，我们可以有两种策略：一种是简单了事，直接把样本统计量当做总体参数，这就是所谓的点估计；另外一种策略就是考虑到抽样误差，我们用一个范围，而不是一个单一的值去估计总体参数，此即所谓的区间估计。而假设检验则是利用小概率反正法思想，从问题的对立面（H0，原假设）出发，假定H0成立的条件下，去计算检验统计量，获得P值，再通过P值来在H0，H1（备择假设）之间做进一步取舍。

既然统计推断是现代统计学的核心和关键，看到这里，你也能体会到作为假设检验的黄金判定标准的P值，在统计学中的地位啦。那具体而言，什么是P值呢？

P值和假设检验

什么是P值呢？按照频率学派的经典套路：

· 敷衍的人会告诉你：「P值啊，就是P Value，Probability Value，就是概率啊」听完我们想揍死他，你还别笑，有些统计培训班还真这么讲的

· 老实本分的老师会告诉你：「P值啊，就是在H0为真的条件下，获得当前样本或者更偏的样本的概率」。听完我们很迷茫啊，看着我们迷茫的眼神，老师无奈的写下「P=Prob(X|H0)」，我们只好无奈且善意的点点头

· 少有的明白人会告诉你：「P值啊，就是在H0为真时，观察到的差异来源于抽样误差的可能性大小」

P值就是在H0为真时，观察到的差异来源于抽样误差的可能性大小。听完这个解释，或许我们眼前能闪现一丝灵光。我们以正态分布的Z检验为例简要说明下，不知道不理解为什么那么多的统计教材竟然要以t检验为例来讲假设检验。如果你被他们毒害了，不知道什么是Z检验，请看如下公式：

看不懂？不着急。一步一步来。依据「P值就是在H0为真时，观察到的差异来源于抽样误差的可能性的大小」这一定义，我们假定H0为真，也就是假定样本均数「X Bar」(即X头上抬根杠，微信编辑器什么时候能插入公式啊,只好拟音啦) 就等于总体均数「miu」（拟音），但是实际上，我们利用手中的样本数据计算的均数「X Bar」和总体均数「miu」总是有差异的，这个差异就是公式中的分子，但是这个差异缺乏一个统一的度量，于是我们除以一个总体的变异幅度（暂且用标准误代替，也就是上图中的分母），这样就得到一个以总体变异幅度来度量的差异，也就是说这个差异是多个标准误，或者说差了多少个标准误的距离，这个就是我们所说的统计量，Z值。现在在看看Z检验的公式，是否好容易理解多了？统计量Z值其实就是样本均数和总体均数相差的，以标准误度量的单位量。

那么P值呢？别急。每一个Z值可以对应到一个相应的P值，比如，Z=1.96表示差了1.96倍标准误的距离，对应的P 值就是0.05。

但是不同的分布，统计量不同，因此难以标化统一，不过P 值却可以，而且在实际操作中，由于计算机统计软件包的发展，P值也很容易获得。获得P值后，比如，比如啊，P=0.003，我们可以回过头来想：既然我们已经假定H0为真了，也就是（「X Bar」-「miu」）应该没有差异了，但是现在还有Z倍标准误的差异啊！那现在这个差异是哪里来的呢？只有一个可能的原因：抽样误差。但是现在可以归因于抽样误差的概率很小，只有0.003啊（统计软件计算结果），0.003的概率，1000次也才3次，竟然一次就让我们赶上了，这不太可能吧？是的，确实不太可能。那我们就只能回过头来怀疑我们的根基，我们的原假设H0错了，因此我们否定H0，接受H1。

这才是我们的假设检验。这才是我们的P值。既然P值是假定H0为真的条件下，我们所观察到的差异来源于抽样误差的概率。这很容易让我们想到，如果H0真的为真，我们因P值<=0.05而拒绝了真实的H0时，我们会犯下I类错误，也就是弃真错误，也即假阳性，这是这个错误的概率是不是就是P呀？「就是啊」，一些统计培训师就是这么认为的。若果你认真问起来，他们或许就含含糊糊，说不清了。

I类错误的概率是不是P值呢？To P or not to P, that's a question。要说起清楚这个问题，还得劳神费心另写一篇：假设检验的前世今生。

P.S.部分图片来自Google搜索。

SamNotesCN

2016年6月21日星期二

[转]统计？我懂个P！

统计？我懂个P！

没有评论:

发表评论