一、数据的基本分布特征
集中趋势:反映数据向其中心靠拢或聚集程度
离散程度:反映数据远离中心的趋势或程度
形状变化:反应数据分布的形状特征
二、集中趋势
四种最常用的反映数据集中趋势的指标:平均数、中位数、分位数、众数
平均数
简单平均数(simple mean): 算术平均数
加权平均数(weighted mean)
根据分组数据计算的平均数
若有一组n个数据分为K组,各组的值表示为:𝑥1, 𝑥2, 𝑥3, ⋯,𝑥K,
各组变量出现的频数表示为:𝑓1, 𝑓2, 𝑓3, ⋯,𝑓𝑘,
则该数据的加权平均数为:
几何平均数(geometirc mean)
中位数
中位数是一组数据排序后处于中间的变量值,用表示。
中位数主要适用于测度顺序数据的集中趋势,也适用于数值型数据,但不适用于分类数据。
当数据围绕其中心对称分布时,有简单平均数=中位数
若有一组数据,x1,x2,x3,…xn,排序后的顺序为,则该数据的中位数为:
分位数
中位数用1 个点将数据两等分。
类似的,若用3 个点将数据四等分、9 个点将数据十等分、99 个点将数据一百等分,则对应等分点上的值为四分位数(quartile)、十分位数(decile) 和百分位数(percentile)
四分位数也称四分位点,它通过3 个点将数据等分成四个部分
中间的四分位数就是中位数
下四分位数:处在25% 位置上的数值,第一四分位数
上四分位数:处在75% 位置上的数值,第三四分位数
四分位距IQR:Q3-Q1
由此衍生出箱图
例如:
众数
众数(mode),用表示,是一组数据中出现次数最多的变量值。
主要用于测度分类数据的集中趋势,也适用于作为数值型数据以及顺序数据集中趋势的测度值。
不同于平均数的是,众数不会受到数据中极端值的影响,是具有明显集中趋势点的数值.
通常,众数只有在数据量较大的情况下才有意义
三、离散程度
四、形状变化
峰度
峰度(Kurtosis)是描述总体中所有取值分布形态陡峭程度 or 平坦程度
峰度的具体计算公式为:
正态分布的峰度值为3,所以后面可以减去3平移一下
与正态分布相比较
峰度=0表示该总体数据分布与正态分布的陡缓程度相同
峰度>0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰
峰度<0表示该总体数据分布与正态分布相比较为平坦,为平顶峰
偏度
偏度(Skewness)描述的是某总体取值分布的对称性
偏度的具体计算公式为:
正态分布的偏度值为0
偏度=0表示数据分布形态与正态分布的偏斜程度相同
偏度>0表示数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值
偏度<0表示数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。
下一讲,我们讲述参数估计