阅读 619

人人都要懂点统计学:统计学简明教程

统计学被人称为猜测上帝的游戏,随着大数据和机器学习的发展,统计学的应用前景更加广阔,也带火了统计学专业,让相关从业人员获得了超额回报。即便,并不是所有人都要从事数据分析、机器学习等领域,但懂点统计学对于每个人的工作、生活都有莫大的帮助。

对炒股有所了解的朋友,应该听说过量化投资,量化投资是指通过数量化方式及计算机程序化发出买卖指令,以获取稳定收益为目的的交易方式。其中最具代表性的人物就是:詹姆斯·西蒙斯,一位世界级的数学家,从1988到2007年间的平均收益率高达35%,其秘密武器就是量化投资。而量化投资与统计学的关系最为密切,通过这一事例,可见统计学的巨大价值。

詹姆斯·西蒙斯

本文希望能够帮助大家,简明扼要地了解统计学的知识体系,掌握统计学的分析技巧,将统计学的思想融入的工作和生活中。

不管在什么领域,收集数据进行分析都是得到最快、最好答案的方法,数据中会隐含着一些趋势和模式,可以分析其因果关系。

基础指标

平均值,是了解数据中心所在,根据数据分布的不同特点,可以分别计算3种指标:

  • 均值:在数据非常对称,且仅显示出一种趋势时使用
  • 中位数:在数据由于异常值而发生偏斜时使用
  • 众数:在遇到类别数据(可以分为两个或更多组)时使用

数据非常对称
上图的数据非常对称,均值、中位数、众数都为5。

数据正偏态
上图的数据正偏态,均值约为4.15,中位数为4,众数为2。

上图的数据负偏态,均值约为5.85,中位数为6,众数为8。

受到数据分布特点不同的影响,均值、中位数和众数会发生变化。如果是骰子赌点数,那么就可以判断骰子是否公平:

  • 均值 = 中位数 = 众数 时,数据满足正态分布
  • 均值 > 中位数 > 众数 时,数据满足正偏分布
  • 均值 < 中位数 < 众数 时,数据满足负偏分布

因此通过均值、中位数和众数,我们就能判断出数据分布特点。

各种距和差,描述数据的分散或变异情况,可以分别计算5种指标:

  • 全距(极差):描述数据的宽度,数据中的最大数减去最小数
  • 四分位距:将数据一分为4,最小的四分位数称为下四分位数(Q_1),最大的四分位数称为上四分位数(Q_3),中间的四分位数称为中位数(Q_2
  • 箱线图:是利用数据中的五个统计量,最小值、第一四分位数、中位数、第三四分位数和最大数
  • 方差、标准差:量度与均值的距离,数据的分散性
  • 标准分:可以把这些数值视为来自同一个数据集或数据分布,从而进行比较距离均值的标准差个数

全距及四分位距的可视化图形展示:

全距及四分位距

箱线图的可视化图形展示:

箱线图

通过观察“箱线图”不难发现,这与股票行情的K线图类似,都是可以直观地反映出数据的分散程度。

方差的计算公式:

\operatorname{Var}(X) = \sigma^{2} =\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 
= \frac{1}{N} \left(\sum_{i=1}^N x_i^2 - N\mu^2  \right)

其中,X是数据集,\mu是数据集的均值,反映出了数据集离均值的距离,也就反映出了数据的离散程度,而标准差就是方差开根号,即\sigma

标准分的计算公式:

z = {x - \mu \over \sigma}

其中,x是需要被标准化的原始数据,\mu是数据集的均值,\sigma是数据集的标准差,且\sigma \ne 0。标准分是数据标准化的一种方法,对数据进行伸缩变换,使得不同维度的数据具有可比性,同时不改变原始数据的分布。

另外还有一种数据伸缩变换的方法 —— 归一化,使得不同维度的数据的影响权重是一致的,但会改变原始数据的分布。

排列组合

假设,我们有3个小球,编号从1到3,如下图所示:

我们从这3个小球中,选取出2个小球,并排序,结果是6种情况,如下图所示:

这就是排列,是指从给定n个数的元素中取出指定k个数的元素,并进行排序,其计算公式:

A_{k}^{n}={\frac {n!}{(n-k)!}}

还是从这3个小球中,选取出2个小球,但不排序,结果是3种情况,如下图所示:

这就是组合,是指从给定n个数的元素中取出指定k个数的元素,但不排序,其计算公式:

C_{k}^{n}={\frac {n!}{k!(n-k)!}}

相对来说,从计算公式来看,组合要比排列更抽象一些。所以,大家可以先理解排列,再去理解组合。

概率

用一个流传已久的笑话,来解释概率的概念:有一个病人去医院看病,遇到了一个医生,经过检查之后,医生告诉病人:“你的病九死一生,但多亏遇到了我,因为在你之前,我已经看了九个得一样病的人都死了,而你是第十个一定能治好,妥妥的。”

一看就是知道,这是一个糊涂医生,虽然懂点概率,却没有领悟概率的真谛。

生活中充满了随机性,比如:投掷硬币、赌骰子等等,一个随机事件的概率,是一个介于0到1之间实数,概率是用来量度随机事件发生的可能性。

数学表达式如下:

P(A) \in [0, 1]

其中,A表示随机事件。如果令A^c表示非A事件,那么有如下数学公式:

P(A) + P(A^c) = 1

也可以用文氏图(维恩图)来表示,如下图所示:

大多数情况下,我们是通过样本数据来计算概率值,比如:独立投掷100次硬币,统计正面向上的次数为59次,因此,硬币正面向上的概率为0.59。

数学计算公式如下:

P(A) = \frac{n(A)}{n(S)}

其中,n(A)表示事件A的次数,n(S)表示全部事件的次数。可以这样理解,每一局赌局称为一个事件,每一局赌局的结果称为一个观测值,独立观测值。

除了一个事件A外,还存在其它事件,因此,就有了互斥事件独立事件

互斥事件,是指互不相容事件,也可以说是不可能同时发生的事件,比如:硬币的正反面。而独立事件,是指一个事件的发生,另一个事件也可能发生,比如:阴天的时候可能下雨,也可能不下雨。

这样就有了“AB”、“AB”的情况,计算公式如下:

其中,P(A|B)是条件概率,也就是贝叶斯定理,计算公式如下:

P(A\mid B)={\frac {P(A\cap B)}{P(B)}}={\frac {P(B|A)P(A)}{P(B)}}

概率分布

现在,我们已经了解了概率的基础知识,而概率中的随机事件可以称为随机变量,包含离散型随机变量和连续型随机变量。

离散型随机变量,是由一个个单独的数值组成,其中的每一个数值都有相应概率,数值型数据,只能取确切值。

连续型随机变量,是值如果随机变量的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机变量。

概率分布,用以表述随机变量取值的概率规律,不同类型的随机变量有不同的概率分布形式,比如:伯努利分布、正态分布等等,表达一个概率分布需要两个重要参数:期望和方差。

期望,指示预测结果,当成均值一样就行。

本文主要介绍几种比较常用的概率分布。

离散型概率分布

伯努利分布

若伯努利试验成功,则伯努利随机变量取值为1;若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为p(0 \le p \le 1),失败概率q = 1 - p

期望:

{\displaystyle \operatorname {E} [X]=\sum _{i=0}^{1}x_{i}f_{X}(x)=0+p=p}

方差:

{\displaystyle \operatorname {var} [X]=\sum _{i=0}^{1}(x_{i}-E[X])^{2}f_{X}(x)=(0-p)^{2}(1-p)+(1-p)^{2}p=p(1-p)=pq}

二项分布

二项分布,是你正在进行一系列独立试验,每一次试验都存在失败和成功的可能,每一次试验的成功概率相同,试验次数有限,随机变量X表示,n次试验中的成功次数。就是将伯努利试验重复n次后的概率分布。

期望:

\operatorname {E} [X]=np

方差:

\operatorname {var} [X]=np(1-p)

几何分布

几何分布,是指进行一系列相互独立的试验,每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同,主要感兴趣的是,为了取得第一次成功需要进行多少次试验。变量X表示为了取得第一次成功所需进行的试验次数。

期望:

{E} [X]={\frac{1}{p}}

方差:

{var} [X]={\frac  {1-p}{p^{2}}}

连续型概率分布

正态分布

正态分布,又称高斯分布,是一个非常常见的连续概率分布,若随机变量X服从一个位置参数为\mu,分散参数为\sigma的正态分布,记为:X \sim N(\mu,\sigma^2)

概率密度函数为:

{\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}\!}

正态分布的期望就是\mu,而方差就是\sigma^{2}

总结

本文是一份简明的统计学教程,从基础指标到排列组合,从概率到概率分布,我们过了一遍统计学的知识体系,可以在头脑中形成一个清晰的知识框架。在工作和生活中,可以继续不断加深理解,不断扩充知识面,培养成统计思维,会发现另一个世界。

如果以上内容对你有所帮助,希望你能够点赞、评论、转发。最后,安利大家一本我写掘金小册《深入理解NLP的中文分词:从原理到实践》,里面有关于统计学在中文分词中的应用,让你可以更直观地理解统计学,同时,让你从零掌握中文分词,踏入NLP的大门。

关注下面的标签,发现更多相似文章
评论