统计学中的描述性统计用于定量描述数据集的特征,帮助理解数据的分布、中心趋势、离散程度和形状。以下是一些常用的描述性统计指标和概念:

中心趋势指标

统计学中常用的描述性统计有哪些

1. 平均数(均值, Mean):所有数据值的总和除以数据的个数,易受极端值影响。

2. 中位数(Median):将数据按大小顺序排列后位于中间的数,对极端值不敏感,适合偏斜分布。

3. 众数(Mode):数据集中出现频率最高的数值,可以有多个。

离散程度指标

1. 方差(Variance):衡量数据与其平均数之间差异的平方的平均数,方差越大数据分散程度越高。

2. 标准差(Standard Deviation):方差的平方根,更直观地表示数据的离散程度。

3. 极差(Range):数据集中的最大值与最小值之差,简单但不全面。

4. 四分位数(Quartiles):将数据分为四个等份,包括第一四分位数(Q1)、第三四分位数(Q3)和中位数(Q2=中位数)。

5. 四分位距(Interquartile Range, IQR):Q3减去Q1,用于描述数据的离散程度,不受极端值影响。

分布形态

偏度(Skewness):描述数据分布的不对称性,正偏斜或负偏斜。

峰度(Kurtosis):描述数据分布的尖峭程度或平坦程度,与正态分布的比较。

频数分析

频数(Frequency):某个数据值在数据集中出现的次数。

百分位数(Percentiles):将数据分为100等份,特定百分位上的数据值。

统计图形

直方图(Histogram):展示数据分布的频数或频率。

箱线图(Boxplot):显示数据的五数概括(最小值、第一四分位数、中位数、第三四分位数、最大值),以及异常值。

散点图(Scatter Plot):展示两个变量之间的关系。

这些指标和图形是理解数据集的基础,帮助研究人员在进行更复杂的分析之前,对数据有一个清晰的概览。