联科数据:统计学应该怎么学习,能入行大数据分析吗?看这里

2024-06-23 49

01什么是数据描述性统计分析?

简而言之,描述性统计分析使用几个关键数字来描述数据集的整体状态。

常用来描述数据集的指标有四种:均值、四分位数、标准差和标准分。这些指标是数据的频率分析、数据的集中趋势分析、数据的分布分析、数据的分布情况以及一些基本的统计图表。

通常,当我们收到一个数据集时,我们首先对获得的数据进行清理并组织成我们工作所需的新数据,然后对新数据进行描述性统计分析。最常用的分析工具是Excel附带的工具。安装Excel后即可进行(描述性统计分析)。

02描述性统计分析常用指标

意义

平均值很容易受到极值的影响。当数据集中出现极值时,得到的平均结果会有较大偏差

中位数

当数据从小到大排序时,中间的数据就是中位数。

当数据个数为奇数时,中位数为中间的数。如果有N个数,则中间数的位置为(N1)/2;当数据个数为偶数时,为中值。中间两个数字数字的平均值,中间位置的算法是(N1)/2。中位数不受极值影响,因此对极值不敏感。

模式

数据中出现最频繁的数字是出现频率最高的值。可以有不止一种模式。该模式不能用于数值数据。它还可以用于非数字数据,并且不受异常值的影响。

很差

范围最大值-最小值是描述数据分散程度的量。范围描述了数据的范围,但不能描述分布状态。而且它对异常值很敏感。异常值的出现使得数据集中的极端差异相当具有误导性。

宿舍

数据从小到大排序并分为四个相等的部分。三个分界点的数值均为四分之一。四分位数分为上四分位数(数据按从最小到最高的顺序排列在第75个百分位数)。数字,即最大的四分位数),下四分位数(数据中第25个百分位数的数字,从小到大排列,即最小四分位数的数字),中间四分位数是中位数。四分位数可以更轻松地识别异常值。(通过箱线图表示数据通常更直观)

顶部和底部边缘之外的数据通常被视为异常值。

标准差

标准差(StandardDeviation)也称为均方误差,是每个数据与均值的平均距离,是均方差的平方根,用σ表示。标准差是方差的算术平方根。标准差反映了数据集的分布。

标准差越大,波动越大。如果平均值相同,标准差可能不同。

标准差可以反映均值无法反映的事物(稳定性等)。

Excel中有四个函数:STDEV、STDEV,分别代表样本标准差和总体标准差;STDEV和STDEVPA;表示包含逻辑值运算的总体标准差和包含逻辑值运算的总体标准差。

计算方法的区别:

样本标准差(样本方差/(数据数-1))^2

总体标准差(总体方差/(数据数量))^2。

Excel函数解析:

(1)stdev()函数可以解析如下(假设样本数据是A1:E10等矩阵):

stddev(A1:E10)sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))

(2)stdevp()函数可以解析如下(假设整体数据是A1:E10等矩阵):

stddev(A1:E10)sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))

出于同样的原因,stdeva()和stdevpa()也有相同的解析方法。

标准分数

标准分也称为标准差的标准化值;这显示每个数据与平均值的标准差有多少。

标准分布也称为正态分布。

切比雪夫定理20在正态分布中,至少68%的数据落在平均值的1个标准差范围内。在正态分布中,至少95%的数据落在平均值的2个标准差范围内。在正态分布中,至少998%的数据落在平均值的3个标准差范围内。

03统计概率思维

概率思维:

如果要求的是几个事件“至少”其中一个发生的概率,那么立即考虑概率求和公式,当一组事件相互独立时,使用相反事件的概率公式;

如果一个事件是通过一组完整事件的发生而发生的,则立即考虑该事件发生的概率。如果一个事件是作为一组完整事件发生的结果而发生的,则立即考虑该事件发生的概率。使用一般公式计算;

当您解决查找概率分布已知的几个独立随机变量的系统满足给定关系的概率(或查找具有已知概率的随机变量的数量)的问题时,您会立即想到使用中心极限。定理处理。

04常用统计概率

贝叶斯定律模型:

证据的积累对于推断某件事发生的概率起着重要作用,它告诉我们,当我们想要预测某件事时,必须首先根据现有的经验和知识推断出先前的概率,然后不断积累新的概率。根据证据调整这个概率。通过收集证据来获得事件概率的整个过程称为贝叶斯分析。

二项分布:

二项式分布是离散概率分布。二项式代表两种可能的结果;一种叫做成功,一种叫做失败。首先传达每次试验的成功和失败概率,并且每次试验都是相互独立的。例如:抛硬币。

泊松分布:

它基本上跟踪特定事件在特定时间或区域发生的次数;例如,一天中彩票的中奖次数、一个月内特定机器损坏的次数等。

描述性统计分析是统计学中比较次要的理论知识,但在日常的数据分析中,它可以让我们快速理解一份数据,并通过科学的图形表示,发现数据模式,做出未知的数据预测。

本站文章均由用户上传或转载而来,该文章内容本站无法检测是否存在侵权,如果本文存在侵权,请联系邮箱:2287318951@qq.com告知,本站在7天内对其进行处理。