【统计学常用指标-1】

发布于:2025-07-04 ⋅ 阅读:(17) ⋅ 点赞:(0)

📊 统计学常用指标笔记

记录几个常用的统计学和评估指标,方便查阅。


✨ z-score(标准分数)

定义

z-score 衡量一个值与总体均值的距离,用标准差表示:

z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ

  • x x x:观测值
  • μ \mu μ:总体均值
  • σ \sigma σ:标准差

作用

  • 衡量数据点相对平均水平的偏离程度
  • 检测异常值(z 很大或很小的值可能是异常)
  • 标准化特征

示例

某考试平均分 μ = 70 \mu = 70 μ=70,标准差 σ = 10 \sigma = 10 σ=10,你考了 x = 85 x = 85 x=85

z = 85 − 70 10 = 1.5 z = \frac{85 - 70}{10} = 1.5 z=108570=1.5

说明高于平均水平 1.5 个标准差。


✨ GM(几何平均值,Geometric Mean)

定义

n 个正数的几何平均值是它们乘积的 n 次方根:

GM = ( ∏ i = 1 n x i ) 1 n \text{GM} = \bigg( \prod_{i=1}^n x_i \bigg)^{\frac{1}{n}} GM=(i=1nxi)n1

作用

  • 适合用于比率、增长率、乘法关系的数据
  • 比算术平均值更不容易被极端值影响

示例

某股票 3 年回报率分别是 +10%、+20%、-15%:

GM = 1.10 × 1.20 × 0.85 3 ≈ 1.0375 \text{GM} = \sqrt[3]{1.10 \times 1.20 \times 0.85} \approx 1.0375 GM=31.10×1.20×0.85 1.0375

平均每年增长约 3.75%。


✨ Cohen’s kappa 系数

定义

衡量两名评估者对同一对象的分类一致性,同时考虑随机一致的可能性:

κ = p o − p e 1 − p e \kappa = \frac{p_o - p_e}{1 - p_e} κ=1pepope

  • p o p_o po:观察到的一致性(实际一致的比例)
  • p e p_e pe:随机一致的期望比例

取值范围

κ 值 一致性水平
< 0 差于随机
0.01 – 0.20 轻微一致
0.21 – 0.40 一般一致
0.41 – 0.60 中等一致
0.61 – 0.80 良好一致
0.81 – 1.00 极好一致

示例

两位医生诊断 100 个病例:

医生 B:是 医生 B:否
医生 A:是 40 10
医生 A:否 20 30
  • p o = ( 40 + 30 ) / 100 = 0.70 p_o = (40+30)/100 = 0.70 po=(40+30)/100=0.70
  • p e = [ ( 50 × 60 ) + ( 50 × 40 ) ] / 10 0 2 = 0.50 p_e = [(50×60)+(50×40)]/100^2 = 0.50 pe=[(50×60)+(50×40)]/1002=0.50
  • 所以:

κ = 0.70 − 0.50 1 − 0.50 = 0.40 \kappa = \frac{0.70 - 0.50}{1 - 0.50} = 0.40 κ=10.500.700.50=0.40

一致性水平为“一般一致”。

Cohen’s kappa 中,例子里期望一致性 p e p_e pe 的计算其实是按照两个医生的“边际概率”相乘的结果。下面我来把这个逻辑拆开讲清楚。


📋 数据

我们有一个 2×2 表:

医生B:是 医生B:否 总计
医生A:是 40 10 50
医生A:否 20 30 50
总计 60 40 100

📖 公式

期望一致性 p e p_e pe 的意思是:

如果两个医生的判断完全是随机的,但概率分布还是和各自的总体判断比例一致,那么他们随机一致的概率是多少?

计算公式:

p e = P ( 都说是 ) + P ( 都说否 ) p_e = P(\text{都说是}) + P(\text{都说否}) pe=P(都说是)+P(都说否)

其中:

  • P ( 都说是 ) = P A ( 是 ) × P B ( 是 ) P(\text{都说是}) = P_A(\text{是}) \times P_B(\text{是}) P(都说是)=PA()×PB()
  • P ( 都说否 ) = P A ( 否 ) × P B ( 否 ) P(\text{都说否}) = P_A(\text{否}) \times P_B(\text{否}) P(都说否)=PA()×PB()

🚀 代入数据

两位医生各自的边际比例:

  • 医生A说“是”的概率: P A ( 是 ) = 50 / 100 = 0.5 P_A(\text{是}) = 50/100 = 0.5 PA()=50/100=0.5

  • 医生A说“否”的概率: P A ( 否 ) = 50 / 100 = 0.5 P_A(\text{否}) = 50/100 = 0.5 PA()=50/100=0.5

  • 医生B说“是”的概率: P B ( 是 ) = 60 / 100 = 0.6 P_B(\text{是}) = 60/100 = 0.6 PB()=60/100=0.6

  • 医生B说“否”的概率: P B ( 否 ) = 40 / 100 = 0.4 P_B(\text{否}) = 40/100 = 0.4 PB()=40/100=0.4

所以:

p e = ( 0.5 × 0.6 ) + ( 0.5 × 0.4 ) = 0.3 + 0.2 = 0.5 p_e = (0.5 \times 0.6) + (0.5 \times 0.4) = 0.3 + 0.2 = 0.5 pe=(0.5×0.6)+(0.5×0.4)=0.3+0.2=0.5


📌 总结

一致情况 概率(边际概率相乘)
都说“是” 0.5 × 0.6 = 0.3 0.5 \times 0.6 = 0.3 0.5×0.6=0.3
都说“否” 0.5 × 0.4 = 0.2 0.5 \times 0.4 = 0.2 0.5×0.4=0.2
总和 0.3 + 0.2 = 0.5 0.3 + 0.2 = 0.5 0.3+0.2=0.5

这个 0.5 就是如果他们完全随机但按照各自的判断概率选出来时,预期的一致性概率


然后再用公式:

κ = p o − p e 1 − p e \kappa = \frac{p_o - p_e}{1 - p_e} κ=1pepope

其中 p o = ( 40 + 30 ) / 100 = 0.7 p_o = (40+30)/100 = 0.7 po=(40+30)/100=0.7 (实际一致性)

代入就能算出 κ = 0.7 − 0.5 1 − 0.5 = 0.4 \kappa = \frac{0.7 - 0.5}{1 - 0.5} = 0.4 κ=10.50.70.5=0.4


📚 总结

指标 主要用途
z-score 测量偏离均值的标准差倍数,用于异常检测和标准化
GM 计算比率、增长率的平均值,适合乘法关系
Cohen’s kappa 测量两个分类者的一致性,考虑随机一致性

📌 小提示

✅ z-score 更适合数值型数据
✅ GM 更适合乘法关系、增长率
✅ kappa 更适合两个分类者对分类任务的一致性评价