描述性统计应该怎么做?
丸子数据分析
2025年04月07日 15:38
收录于文集
共30篇

描述性统计是数据分析中的基础方法,它是一种汇总统计,用于定量描述或总结信息集合的特征,是掌握数据分布情况和揭示背后规律的有效方法。

描述性统计其实很简单,主要依靠三板斧:

①统计量

②频数分析

③统计图

系统性学习不容错过的好课程:

一、统计量

(一)集中趋势指标

1.平均数

平均数也称为均值(Mean),是指在一组数据中所有数据之和再除以数据的个数,它是反映数据集中趋势的一项指标。

2.中位数

中位数也称为中值(Median),是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数。

3.众数

众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。

4.截尾平均数

由于均值较易受极端值的影响,因此可以考虑将数据进行排序后,按照一定比例去掉最两端的数据,只使用中部的数据来求均数。如果截尾均数和原均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截尾平均数能更好地反映数据的集中趋势。常用的截尾平均数有5%截尾平均数。

(二)离散趋势指标

1.方差

方差(Variance)是一组数据的平均值与每个数据点的差值的平方和的平均值,它可以反映一组数据的离散程度。如果一组数据的方差较小,则表明这组数据的分布较为集中,反之,如果方差较大,则表明这组数据的分布较为分散。

2.标准差

标准差(Standard Deviation)是方差的算术平方根。

3.极差

极差也称为全距(Range),是指数据序列中最大值与最小值的差距。

4.四分位数

四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份(每等份包含25%的数据),处于三个分割点位置的数值。四分位数有3个,第1个四分位数称为下四分位数,也即25%分位数;第二个四分位数就是中位数,也即50%分位数;第三个四分位数称为上四分位数,也即75%分位数,分别用Q1、Q2、Q3表示。

通常,以上统计量在整理时会做成一个表格,比如:

二、频数分析

(一)频率频数分布表

数据按一定规则划分为若干小组,落在各个小组内的数据的个数就叫做频数,每一小组的频数与数据总数的比值叫做频率。从频数或者频率的大小可以知道每个小范围内数据出现次数的多少。若将分组及其频数和频率制作成一个表,则称为频率频数分布表,可揭示总体的特征。

1.定性变量

定性变量已自然形成分组,因此可以直接统计。做出的频率频数分布表也称为品质分布数列。比如某项目组调查了1000个对象,现分析性别分布情况,则可以做成一个频率频数分布表:

表1 性别分布频率频数分布表

2.定量变量

(1)单项式分布数列

变量分布数列中每一组都是由单一的组值表示,则称为单项式分布数列。比如,某房地产企业抽样调查客户的房间数量偏好,而房间数量的取值是1、2、3、4…,是单一组值表示。列出的频率频数分布表:

表2 房间数量偏好频率频数分布表

(2)组距式分布数列

变量分布数列中的每一组都是由数值区间表示的,则称为组距式分布数列。对于连续型数据,需要确定组数,按照一定的组距对数据进行分组,再进行频率频数的统计。比如对年龄分布进行分析:

表3 江苏省第6次全国人口普查人口分布频率频数分布表

通常,在同一个研究中,也会将可以进行频数分析的变量的分析结果整理到一个表格中,比如:

(二)交叉表

由于在频率频数分布表中,仅能提供单一个变量的讯息,并无法比较出两个类别变量之间的比例关系。因此,如果要比较两个变量之间的比例,交叉表是一个很好的呈现方式。所谓的交叉,即是交叉两个变量的取值再统计频率和频数。使用交叉表的目的,在于可以很方便的呈现两个以上的类别变量或是顺序尺度交叉比对后的个数以及所占的比例。

比如,综合分析目标客户群体的性别与婚姻状况,可列出交叉表:

表4 客户性别与婚姻状况交叉表分析

三、统计图

统计图是指利用几何图形或具体事物的形象和地图等形式来表现社会经济现象数量特征和数量关系的图形。

描述性统计也可以通过统计图反映变量的分布情况。针对定性变量,可以采用条形图、柱形图、饼图等反映;针对定量变量,可以采用箱线图、直方图等反映。

1.条形图——针对定性变量

2.柱形图——针对定性变量

3.饼图——针对定性变量

4.箱线图——针对(有分组的)定量变量

5.直方图——针对定量变量

描述性统计分析是数据分析最基础的方法,可以说是一种数据探索方法,在这之后我们还会继续使用其他的常用分析方法,比如差异性分析、相关分析、回归分析、聚类分析等进行更深入的分析,发现更多的数据背后的规律。

如果要深入系统性学习,推荐按基础认知→基本统计分析→数据可视化→高级数据分析→综合实战运用→AI赋能数据分析 这样的顺序进行学习,能取得事半功倍的效果

你将获得:

  1. 系统化的统计学基础与SPSS操作课程学习

  2. 配套数据

  3. 课程课件

  4. 论文数据分析部分撰写样例

快来一起快乐学习吧!