阅读 146

小白入门 A/B Testing 之正态分布

标准正态分布

A/B Testing 离不开统计学知识,统计学中最重要的一点就是正态分布(normal distribution)

这是一张德国马克,大家可以看到中间还有一个数学图表,它就是伟大的数学家高斯发明的正态分布,所以也叫高斯分布

这是一张典型的标准正态分布曲线,Y 轴表示随机变量, X 与曲线围成的面积就是发生的概率。

它有什么含义呢?拿一个实际例子来说,当我们对中国成年男性做一个抽样,我们会发现大多数集中在 167cm 左右。身高差 167cm 越多的人数越少,很高或很矮的人很少。简单的说,以 167 为中心身两边递减。这样的例子还有很多,比如医院开的化验单,上面写的正常区间,就是一个正常的区间分布,也是根据抽样计算的结果,它不是说在这个范围之外就不正常,只是对于大多数人群,所以通常也叫常态分配。这样的例子还有很多,如智力,体重,KPI 等等,所有的一切证明了中央极限定率,(普通人还是占大多数的)。

它的公式是概率密度函数:

z 值就是我们经常要用到的一个概率密度。

那它有什么用呢?它的应用范围很广,只要我们想知道所有伴有随机因素影响的数据时,都可以用它得到一个相对精确的概率,比如我们要做的一个页面实验,可能受到人群,UI, 时间,网络等等因素影响,如果我们抽样得到其中一个指标,并用上面的公式计算一下,你会发现它也是一个非常典型的正态分配曲线,随着样本的增多,曲线会越来越光滑。曲线 X 轴中间是平均值,它的左右一个标准差之间的面积代表了机率是 68%,二个标准差之间是 95%,三个标准差是 99.7% 。所以如果我们想知道一个数据出现机率时,就可以用它来计算出来。

(好玩的是,如果我们统计一下我们的羽毛球选手获胜场次的挥拍数,也可以得到这么个曲线, 这样我们可以推算出大概他挥多少次拍会获得胜利。)

(在之后要提到的另一个概念置信区间,它就是根据这个规则,来限定 95% 做为我们合理的置信区间。落在其它区间的数据,我们认为它是不可信的,是小概率事件。这对于验证我们之前提到的第二种假设将会很有帮助。)

计算也非常简单,只要根据上面算出的 z 值,通过查表就可以通过百分比找到样本分数。有一个在线工具,大家可以试试。

t-分布

上面提到的分布曲线都是标准的正态分布(也叫 u-分布),还有一种叫 t-分布,其实它也是正态分布的一种形式。可以应用在小样本来估算母体数据(全体数据)。

比如, 我们常听说的划分数线,也是利用了这个概率分布函数算出,百分之多少的人可以越过这个分数线。当然你可以说不如统计所有的分数,然后排序划百分比就行了,这确实是一个方法。不过万一我们要测量的这个数据量非常之大到呢,比如 TB 级的日志?

所以这时母群体的标准差是未知的,我们就可以运用 t-分布。在样本数量 n 比较小时,它的曲线往往比较平,随着样本量的逐渐增大,它会越来越接近标准正态分布。

上面的红线表示的是均值为-2,方差为1的正态分布曲线,蓝线表示的是均值为2,方差为4的正态分布曲线。从中可以看出,方差越小,图像越“瘦高”,方差越大,图形越“矮胖”。(方差越小,越靠近中位数)。方差小表示大家的平均值非常接近,反之离平均值越远。

t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线。


  • t 分布是由英国著名统计学家哥色特发表,其笔名是“Student”,所以该分布又称为“Student t分布”。该分布的公布,标志着小样本统计推断的开始。

  • 那有什么生活形态中,不是正态分布的呢?比如基尼指数,穷的越穷,富的越富,中间的反而很小。LOL

关注下面的标签,发现更多相似文章
评论