数据分析必须要掌握的10个统计量

2024-07-03 32

我是孙斌,毕业于北京理工大学数学系。我分享有关数据分析的知识,以了解更多有关数据分析的知识。

数据分析中需要学习的10个统计数据。

1模式

该众数代表总体中最常见的值。

例如,在某城市随机抽取9个家庭,得到每个家庭的月人均收入数据如下(单位:元)。

其中,数字1080出现了3次,出现频率最高,因此1080就是这个数据集的众数。

如果数据较多,可使用Excel的MODESNGL函数求众数。

2平均

平均值就是平均值。对数据集进行计数并除以数据个数得到的结果。

例如,对于前述的月收入数据,平均计算公式如下。

在Excel中,您可以使用AVERAGE函数求平均值公式。

3中位数

将总体中的个体数据按升序排列,中间的值为中位数。

例如,上面的月收入数据,按照下图升序排序后,中位数为1080。

如果数据个数为偶数,则中位数为中间两个数的平均数。

在Excel中,您可以使用MEDIAN函数来查找中位数。

4四分位数

将所有值从小到大排列并分成四等份。三个分界点的数值就是四分位数。

例如,上面的月收入数据按照升序排列如下图所示。

图中的箭头表示三个四分位数。

在Excel中,使用QUARTILEINC函数查找四分位数,如下图所示,找到了第一个四分位数。

第一个四分位数也称为下四分位数。要找到第二个四分位数,只需将第二个参数更改为2,如图所示。

第三四分位数也称为上四分位数。

5四分位数范围

四分位距,也称为四分位距,是上四分位数和下四分位数之间的差。

对于上述数据,第一个四分位数为960,第三个四分位数为1250,四分位数范围为1250–960290。

四分位数范围代表数据的中位数50%分散度。值越小,数据越集中,价值越高。

6极度贫困

极差表示数据集中最大值和最小值之间的差值。

对于上述数据,最大值为2000,最小值为750,因此范围为2000-7501250。

在Excel中,我们可以先使用max和min函数分别计算最大值和最小值,然后再做差。

7方差

离散度代表数据的波动性。假设有两组这样的数据,我们想要比较它们的离散度。

第1组:4、5、1、4、8、2、4

第2组:4、3、4、4、5、4、4

最直观的方法就是画折线图,如下图所示。

从图中可以看出,数据组1的波动性高于数据组2的波动性。

在Excel公式中,使用VARP函数可以轻松获得数据的方差。

8标准差

标准差是通过方差的平方根获得的。

有了方差,为什么我们需要标准差?

由于方差是在原始数据的基础上平方的,单位发生了变化,标准差的单位与原始数据相对应,所以在实际分析中更多地使用标准差。

在Excel中,可以使用公式STDEVP获得标准差。

9斜率系数

偏度是数据分布对称性的度量,如下图所示。

例如,学生考试成绩有以下三种形式。

正态:即正态分布,大部分学生成绩一般,有的学生成绩极高,有的学生成绩极低。

正偏差:大多数学生的考试成绩较低,少数学生成绩中等,甚至少数学生成绩特别高。

负面偏见:大多数学生的考试成绩很高,少数学生成绩一般,甚至更少的学生成绩特别低。

我们可以测量偏斜系数sk,当然不需要在Excel中使用SKEW函数公式来计算。

当????>0时,分布呈正偏态。

当????0时,分布是对称的。

当????

10峰度系数

峰度是数据分布平滑度的度量。例如,各种峰度的分布如下图所示。

例如,学生考试成绩有以下三种形式。

常态意味着大多数学生的考试成绩平均,有些学生成绩特别高,有些学生成绩特别低。

“顶尖”的分布模式意味着几乎所有学生的考试成绩都处于平均水平,几乎没有学生成绩特别高或特别低。

“又短又胖”的分布格局意味着,有的学生考试成绩一般,也有不少学生成绩极高或极低。

峰度系数可用于测量峰度、峰值峰度系数用K表示。在Excel中,可以使用KURT公式函数计算峰度系数。

当??

如果??>0,则分布密集且具有高峰值。

以上是数据分析中需要学习的10个统计数据。

本站文章均由用户上传或转载而来,该文章内容本站无法检测是否存在侵权,如果本文存在侵权,请联系邮箱:2287318951@qq.com告知,本站在7天内对其进行处理。