【数据分析六:Basic indicators】数据分布基本指标

发布于:2025-06-20 ⋅ 阅读:(15) ⋅ 点赞:(0)

一、数据的基本分布特征

集中趋势:反映数据向其中心靠拢或聚集程度

离散程度:反映数据远离中心的趋势或程度

形状变化:反应数据分布的形状特征

二、集中趋势

四种最常用的反映数据集中趋势的指标:平均数、中位数、分位数、众数

平均数

简单平均数(simple mean): 算术平均数

加权平均数(weighted mean)

根据分组数据计算的平均数

若有一组n个数据分为K组,各组的值表示为:𝑥1, 𝑥2, 𝑥3, ⋯,𝑥K,

各组变量出现的频数表示为:𝑓1, 𝑓2, 𝑓3, ⋯,𝑓𝑘,

则该数据的加权平均数为:

几何平均数(geometirc mean)

中位数

        中位数是一组数据排序后处于中间的变量值,用M_e表示。

中位数主要适用于测度顺序数据的集中趋势,也适用于数值型数据,但不适用于分类数据。

        当数据围绕其中心对称分布时,有简单平均数=中位数

        若有一组数据,x1,x2,x3,…xn,排序后的顺序为x_{(1)},x_{(2)},x_{(3)}\dots x_{(n)},则该数据的中位数为:

 

分位数

中位数用1 个点将数据两等分。

类似的,若用3 个点将数据四等分、9 个点将数据十等分、99 个点将数据一百等分,则对应等分点上的值为四分位数(quartile)、十分位数(decile) 和百分位数(percentile)

四分位数也称四分位点,它通过3 个点将数据等分成四个部分

        中间的四分位数就是中位数

        下四分位数:处在25% 位置上的数值,第一四分位数

        上四分位数:处在75% 位置上的数值,第三四分位数

四分位距IQR:Q3-Q1

由此衍生出箱图

例如:

众数

众数(mode),用M_o表示,是一组数据中出现次数最多的变量值。

主要用于测度分类数据的集中趋势,也适用于作为数值型数据以及顺序数据集中趋势的测度值。

不同于平均数的是,众数不会受到数据中极端值的影响,是具有明显集中趋势点的数值.

通常,众数只有在数据量较大的情况下才有意义

三、离散程度

 

四、形状变化

峰度

峰度(Kurtosis)是描述总体中所有取值分布形态陡峭程度 or 平坦程度

峰度的具体计算公式为:

正态分布的峰度值为3,所以后面可以减去3平移一下

与正态分布相比较

峰度=0表示该总体数据分布与正态分布的陡缓程度相同

峰度>0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰

峰度<0表示该总体数据分布与正态分布相比较为平坦,为平顶峰

偏度

偏度(Skewness)描述的是某总体取值分布的对称性

偏度的具体计算公式为:

正态分布的偏度值为0

偏度=0表示数据分布形态与正态分布的偏斜程度相同

偏度>0表示数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值

偏度<0表示数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。


下一讲,我们讲述参数估计


网站公告

今日签到

点亮在社区的每一天
去签到