阅读 72

数据的描述性统计

数据的描述性统计

数据的集中趋势

概念:

寻找事物特征的数据集合的代表值或中心值,反映事物目前所处的位置和发展水平。通过对集中趋势指标的多次测量和比较,可以说明事物的发展和变化趋势。

  1. 算术平均数,主要用于定距数据[1],例如,人均收入。也能用于定类数据[2]和定序数据[3],前提条件是是否具有现实意义,例如,平均分排名。

    1.1 简单算术平均数,将数据集合的所有数据相加除以数据值个数得到。

    \bar{x} = \frac{x_{1} + x_{2} +\ldots+x_{n}}{n}

    1.2 加权算术平均数,当每个数据值的权重是不一样的,需要用加权算术值来表示数据集合的集中趋势

    m=\frac{f_{1}\bar{x_{1}}+f_{2}\bar{x_{2}}+\ldots+f_{k}\bar{x_{k}}}{f_{1}+f_{2}+\ldots+f_{k}}

    tips:

    ​ a. 简单算术平均数可以看成是加权算术平均数的特殊形式,代表每个数值的权重都为1。

    ​ b. 算术平均数的优点是受数据波动的影响最小,具有一定的稳定性,缺点是数据中有极大值或极小值存在是,会对结果产生很大影响

  2. 几何平均数,当数据关系是乘除关系的时候,就应该用几何平均值来表示数据集合的集中趋势。例如,银行的平均存款年利率,每条生产线的产品合格率

    \bar{{x}_j}=\sqrt[n]{{x}_1{x}_2 \ldots{x}_n}
  3. 众数,数据集合中出现次数最多的数值,出现多个及并列最多,所有数据出现的次数相同则没有众数

    例:当月卖的最多的手机型号

  4. 中位数,把数据集合中的所有数据按大小进行排序,取最中间的一位或两位的算术平均数(根据数据集合的奇偶个数来决定)。中位数相对于算术平均数的优点是不受个别极端值的影响

数据的离散程度

概念:

离散程度指标是用来显示一个数据集合离散程度,同类离散指标中数值越小,代表数据集合的波动越小,反之越大

  1. 极差,又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离

    R=x_{max}-x_{min}

    例:描述气温的变化幅度

  2. 平均偏差,代表了所有数值与平均值的平均偏差距离(思考:这个值应该应该也可以是另外一个固定值,表示对某一个值的偏差)。平均偏差用绝对值的方式消除负号的影响。

    R_{a}=\frac{\sum_{i=1}^{n} \vert x_{i}-\bar{x}\vert}{n}

    例:产品质量控制中,可以衡量质量的稳定性

  3. 方差和标准差,另一种消除负号影响的方式是平方。方差利用平方克服了离差和等于0的问题,但同时也夸大了数据集合的离散程度。而标准差则是对方差取算术平方根,来消除平方带来的影响

    总体的方差:

    \sigma^{2}=\frac{\sum_{i=1}^{n} (x_{i}-\mu)^2}{N}

    总体的标准差:

    \sigma=\sqrt{\frac{\sum_{i=1}^{n} (x_{i}-\mu)^2}{N}}
  4. 变异系数(离散系数),实质上是标准差相对于算术平均值的大小,适用于比较算术平均值不同的两个数据集合

    总体的变异系数:

    V_{\sigma}=\frac{\sigma}{\mu}
  5. 四分位极差,将数据按照大小,从低到高排序,比较四分之一位置和四分之三位置的两个数值得到的差值


  1. 用定距测量尺度测量事物特征以后得到的数据,能够表示事物的小大或高低次序,还能计算出事物之间的差距。例如:成绩 ↩︎

  2. 仅仅能够标记事物的不同类别,不能说明事物大小,高度等量化信息 ↩︎

  3. 不仅可以对事物进行分类,还可以比较事物的大小 ↩︎

关注下面的标签,发现更多相似文章
评论