📊 统计学常用指标笔记
记录几个常用的统计学和评估指标,方便查阅。
✨ z-score(标准分数)
定义
z-score 衡量一个值与总体均值的距离,用标准差表示:
z = x − μ σ z = \frac{x - \mu}{\sigma} z=σx−μ
- x x x:观测值
- μ \mu μ:总体均值
- σ \sigma σ:标准差
作用
- 衡量数据点相对平均水平的偏离程度
- 检测异常值(z 很大或很小的值可能是异常)
- 标准化特征
示例
某考试平均分 μ = 70 \mu = 70 μ=70,标准差 σ = 10 \sigma = 10 σ=10,你考了 x = 85 x = 85 x=85:
z = 85 − 70 10 = 1.5 z = \frac{85 - 70}{10} = 1.5 z=1085−70=1.5
说明高于平均水平 1.5 个标准差。
✨ GM(几何平均值,Geometric Mean)
定义
n 个正数的几何平均值是它们乘积的 n 次方根:
GM = ( ∏ i = 1 n x i ) 1 n \text{GM} = \bigg( \prod_{i=1}^n x_i \bigg)^{\frac{1}{n}} GM=(i=1∏nxi)n1
作用
- 适合用于比率、增长率、乘法关系的数据
- 比算术平均值更不容易被极端值影响
示例
某股票 3 年回报率分别是 +10%、+20%、-15%:
GM = 1.10 × 1.20 × 0.85 3 ≈ 1.0375 \text{GM} = \sqrt[3]{1.10 \times 1.20 \times 0.85} \approx 1.0375 GM=31.10×1.20×0.85≈1.0375
平均每年增长约 3.75%。
✨ Cohen’s kappa 系数
定义
衡量两名评估者对同一对象的分类一致性,同时考虑随机一致的可能性:
κ = p o − p e 1 − p e \kappa = \frac{p_o - p_e}{1 - p_e} κ=1−pepo−pe
- p o p_o po:观察到的一致性(实际一致的比例)
- p e p_e pe:随机一致的期望比例
取值范围
κ 值 | 一致性水平 |
---|---|
< 0 | 差于随机 |
0.01 – 0.20 | 轻微一致 |
0.21 – 0.40 | 一般一致 |
0.41 – 0.60 | 中等一致 |
0.61 – 0.80 | 良好一致 |
0.81 – 1.00 | 极好一致 |
示例
两位医生诊断 100 个病例:
医生 B:是 | 医生 B:否 | |
---|---|---|
医生 A:是 | 40 | 10 |
医生 A:否 | 20 | 30 |
- p o = ( 40 + 30 ) / 100 = 0.70 p_o = (40+30)/100 = 0.70 po=(40+30)/100=0.70
- p e = [ ( 50 × 60 ) + ( 50 × 40 ) ] / 10 0 2 = 0.50 p_e = [(50×60)+(50×40)]/100^2 = 0.50 pe=[(50×60)+(50×40)]/1002=0.50
- 所以:
κ = 0.70 − 0.50 1 − 0.50 = 0.40 \kappa = \frac{0.70 - 0.50}{1 - 0.50} = 0.40 κ=1−0.500.70−0.50=0.40
一致性水平为“一般一致”。
在 Cohen’s kappa 中,例子里期望一致性 p e p_e pe 的计算其实是按照两个医生的“边际概率”相乘的结果。下面我来把这个逻辑拆开讲清楚。
📋 数据
我们有一个 2×2 表:
医生B:是 | 医生B:否 | 总计 | |
---|---|---|---|
医生A:是 | 40 | 10 | 50 |
医生A:否 | 20 | 30 | 50 |
总计 | 60 | 40 | 100 |
📖 公式
期望一致性 p e p_e pe 的意思是:
如果两个医生的判断完全是随机的,但概率分布还是和各自的总体判断比例一致,那么他们随机一致的概率是多少?
计算公式:
p e = P ( 都说是 ) + P ( 都说否 ) p_e = P(\text{都说是}) + P(\text{都说否}) pe=P(都说是)+P(都说否)
其中:
- P ( 都说是 ) = P A ( 是 ) × P B ( 是 ) P(\text{都说是}) = P_A(\text{是}) \times P_B(\text{是}) P(都说是)=PA(是)×PB(是)
- P ( 都说否 ) = P A ( 否 ) × P B ( 否 ) P(\text{都说否}) = P_A(\text{否}) \times P_B(\text{否}) P(都说否)=PA(否)×PB(否)
🚀 代入数据
两位医生各自的边际比例:
医生A说“是”的概率: P A ( 是 ) = 50 / 100 = 0.5 P_A(\text{是}) = 50/100 = 0.5 PA(是)=50/100=0.5
医生A说“否”的概率: P A ( 否 ) = 50 / 100 = 0.5 P_A(\text{否}) = 50/100 = 0.5 PA(否)=50/100=0.5
医生B说“是”的概率: P B ( 是 ) = 60 / 100 = 0.6 P_B(\text{是}) = 60/100 = 0.6 PB(是)=60/100=0.6
医生B说“否”的概率: P B ( 否 ) = 40 / 100 = 0.4 P_B(\text{否}) = 40/100 = 0.4 PB(否)=40/100=0.4
所以:
p e = ( 0.5 × 0.6 ) + ( 0.5 × 0.4 ) = 0.3 + 0.2 = 0.5 p_e = (0.5 \times 0.6) + (0.5 \times 0.4) = 0.3 + 0.2 = 0.5 pe=(0.5×0.6)+(0.5×0.4)=0.3+0.2=0.5
📌 总结
一致情况 | 概率(边际概率相乘) |
---|---|
都说“是” | 0.5 × 0.6 = 0.3 0.5 \times 0.6 = 0.3 0.5×0.6=0.3 |
都说“否” | 0.5 × 0.4 = 0.2 0.5 \times 0.4 = 0.2 0.5×0.4=0.2 |
总和 | 0.3 + 0.2 = 0.5 0.3 + 0.2 = 0.5 0.3+0.2=0.5 |
这个 0.5 就是如果他们完全随机但按照各自的判断概率选出来时,预期的一致性概率。
然后再用公式:
κ = p o − p e 1 − p e \kappa = \frac{p_o - p_e}{1 - p_e} κ=1−pepo−pe
其中 p o = ( 40 + 30 ) / 100 = 0.7 p_o = (40+30)/100 = 0.7 po=(40+30)/100=0.7 (实际一致性)
代入就能算出 κ = 0.7 − 0.5 1 − 0.5 = 0.4 \kappa = \frac{0.7 - 0.5}{1 - 0.5} = 0.4 κ=1−0.50.7−0.5=0.4
📚 总结
指标 | 主要用途 |
---|---|
z-score | 测量偏离均值的标准差倍数,用于异常检测和标准化 |
GM | 计算比率、增长率的平均值,适合乘法关系 |
Cohen’s kappa | 测量两个分类者的一致性,考虑随机一致性 |
📌 小提示
✅ z-score 更适合数值型数据
✅ GM 更适合乘法关系、增长率
✅ kappa 更适合两个分类者对分类任务的一致性评价