一、统计抽样的核心内容与问题
研究内容
- 从总体中科学抽取样本的方法
- 利用样本数据推断总体特征(均值、比率、总量)
- 控制抽样误差与非抽样误差
解决的核心问题
- 在成本约束下,用少量样本准确推断总体特征
- 量化估计结果的可靠性(置信区间)
二、基本概念(7.1节)
术语 | 定义 |
---|---|
总体 | 研究对象的全体 |
样本 | 从总体中抽取的部分元素集合 |
目标总体 | 待推断的总体(理论范围) |
抽样总体 | 实际抽取样本的总体(操作范围) |
抽样单位 | 抽样的基本单元(个体或一组个体) |
抽样框 | 抽样单位的名册清单 |
关键提示:抽样框必须完整覆盖抽样总体,否则会引入覆盖误差
三、抽样调查方法与误差(7.2-7.3节)
调查方法
- 邮寄调查
- 电话调查
- 个人采访调查
误差分类
- 非抽样误差
- 测量误差
- 采访者误差
- 数据处理误差
- 抽样误差
- 因未调查全部单位产生的误差
控制策略
- 非抽样误差:问卷预测试、调查员培训、自动化数据处理
- 抽样误差:增加样本量或改进抽样设计
四、抽样方法详解
1. 简单随机抽样(SRS)(7.4节)
定义
每个容量为 n n n的样本被抽中的概率相同,样本独立无关联
抽样步骤
- 建立抽样框(总体所有个体名册)
- 使用随机数表抽取样本
参数估计公式
总体均值 μ \mu μ
x ˉ ± z α / 2 ⋅ s n 1 − n N \bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} \sqrt{1 - \frac{n}{N}} xˉ±zα/2⋅ns1−Nn
使用条件:- n ≥ 30 n \geq 30 n≥30(中心极限定理)
- n / N > 5 % n/N > 5\% n/N>5%时必须使用有限总体修正系数
总体比率 p p p
p ^ ± z α / 2 ⋅ p ^ ( 1 − p ^ ) n 1 − n N \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \sqrt{1 - \frac{n}{N}} p^±zα/2⋅np^(1−p^)1−Nn
使用条件: n p ^ ≥ 5 n\hat{p} \geq 5 np^≥5 且 n ( 1 − p ^ ) ≥ 5 n(1-\hat{p}) \geq 5 n(1−p^)≥5
样本容量确定
- 估计均值:
n = N ⋅ z α / 2 2 ⋅ s 2 ( N − 1 ) B 2 + z α / 2 2 s 2 n = \frac{N \cdot z_{\alpha/2}^2 \cdot s^2}{(N-1)B^2 + z_{\alpha/2}^2 s^2} n=(N−1)B2+zα/22s2N⋅zα/22⋅s2 - 估计比率:
n = N ⋅ z α / 2 2 ⋅ p ( 1 − p ) ( N − 1 ) B 2 + z α / 2 2 p ( 1 − p ) n = \frac{N \cdot z_{\alpha/2}^2 \cdot p(1-p)}{(N-1)B^2 + z_{\alpha/2}^2 p(1-p)} n=(N−1)B2+zα/22p(1−p)N⋅zα/22⋅p(1−p)
关键参数:- B B B:允许误差(置信区间半宽)
- s 2 s^2 s2或 p p p:需预先估计(历史数据/预抽样)
- p p p未知时用 p = 0.5 p=0.5 p=0.5保守估计
案例示范
例7.1(杂志订户收入估计):
N = 8000 , n = 484 , x ˉ = 30500 , s = 7040 N=8000,\ n=484,\ \bar{x}=30500,\ s=7040 N=8000, n=484, xˉ=30500, s=7040
95 % C I : 30500 ± 1.96 × 7040 484 × 1 − 484 8000 → [ 29880 , 31120 ] 95\%\ CI:\ 30500 \pm 1.96 \times \frac{7040}{\sqrt{484}} \times \sqrt{1-\frac{484}{8000}} \rightarrow [29880,\ 31120] 95% CI: 30500±1.96×4847040×1−8000484→[29880, 31120]例7.3(毕业生收入调查样本量):
要求: B = 500 , N = 5000 , s = 3000 B=500,\ N=5000,\ s=3000 B=500, N=5000, s=3000
n = 5000 × 1.96 2 × 3000 2 4999 × 500 2 + 1.96 2 × 3000 2 ≈ 139 n = \frac{5000 \times 1.96^2 \times 3000^2}{4999 \times 500^2 + 1.96^2 \times 3000^2} \approx 139 n=4999×5002+1.962×300025000×1.962×30002≈139
2. 分层简单随机抽样(7.5节)
适用场景
总体存在异质子群(如不同专业、地区),层内差异小、层间差异大
抽样步骤
- 将总体划分为 H H H层
- 每层独立抽取简单随机样本
- 按层权加权合并结果
参数估计
总体均值:
x ˉ s t r = ∑ h = 1 H ( N h N ) x ˉ h \bar{x}_{str} = \sum_{h=1}^{H} \left( \frac{N_h}{N} \right) \bar{x}_h xˉstr=∑h=1H(NNh)xˉh
标准误:
s x ˉ s t r = ∑ h = 1 H ( N h N ) 2 s h 2 n h ( 1 − n h N h ) s_{\bar{x}_{str}} = \sqrt{ \sum_{h=1}^{H} \left( \frac{N_h}{N} \right)^2 \frac{s_h^2}{n_h} \left(1 - \frac{n_h}{N_h}\right) } sxˉstr=∑h=1H(NNh)2nhsh2(1−Nhnh)
置信区间: x ˉ s t r ± 1.96 s x ˉ s t r \bar{x}_{str} \pm 1.96 s_{\bar{x}_{str}} xˉstr±1.96sxˉstr总体比率:
p ^ s t r = ∑ h = 1 H ( N h N ) p ^ h \hat{p}_{str} = \sum_{h=1}^{H} \left( \frac{N_h}{N} \right) \hat{p}_h p^str=∑h=1H(NNh)p^h
标准误:
s p ^ s t r = ∑ h = 1 H ( N h N ) 2 p ^ h ( 1 − p ^ h ) n h ( 1 − n h N h ) s_{\hat{p}_{str}} = \sqrt{ \sum_{h=1}^{H} \left( \frac{N_h}{N} \right)^2 \frac{\hat{p}_h(1-\hat{p}_h)}{n_h} \left(1 - \frac{n_h}{N_h}\right) } sp^str=∑h=1H(NNh)2nhp^h(1−p^h)(1−Nhnh)
样本分配
- 比例分配: n h = n × N h N n_h = n \times \frac{N_h}{N} nh=n×NNh
- 最优分配(Neyman)(各层成本相同时):
n h = n ⋅ N h s h ∑ h = 1 H N h s h n_h = n \cdot \frac{N_h s_h}{\sum_{h=1}^H N_h s_h} nh=n⋅∑h=1HNhshNhsh
案例示范
- 例7.4(管理学院毕业生收入分层估计):
结果: x ˉ s t r = 29350 , s x ˉ s t r = 281.6 → 95 % C I [ 29074 , 29626 ] \bar{x}_{str} = 29350,\ s_{\bar{x}_{str}} = 281.6 \rightarrow 95\%\ CI[29074,\ 29626] xˉstr=29350, sxˉstr=281.6→95% CI[29074, 29626] - 例7.5(年薪≥36000元比率估计):
p ^ s t r = 0.0981 → 95 % C I [ 0.0575 , 0.1387 ] \hat{p}_{str} = 0.0981 \rightarrow 95\%\ CI[0.0575,\ 0.1387] p^str=0.0981→95% CI[0.0575, 0.1387]
3. 整群抽样(7.6节)
适用场景
总体天然分群(如学校、村庄),群内差异大、群间差异小
参数估计
总体均值:
x ˉ c l s = ∑ i = 1 n x i ∑ i = 1 n M i \bar{x}_{cls} = \frac{\sum_{i=1}^{n} x_i}{\sum_{i=1}^{n} M_i} xˉcls=∑i=1nMi∑i=1nxi( x i x_i xi:第 i i i群观测值总和)
标准误:
s x ˉ c l s = 1 M ˉ 2 ⋅ s r 2 n ( 1 − n N ) s_{\bar{x}_{cls}} = \sqrt{ \frac{1}{\bar{M}^2} \cdot \frac{s_r^2}{n} \left(1 - \frac{n}{N}\right) } sxˉcls=Mˉ21⋅nsr2(1−Nn)
其中:
s r 2 = ∑ i = 1 n ( x i − x ˉ c l s M i ) 2 n − 1 , M ˉ = ∑ M i n s_r^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x}_{cls} M_i)^2}{n-1},\quad \bar{M} = \frac{\sum M_i}{n} sr2=n−1∑i=1n(xi−xˉclsMi)2,Mˉ=n∑Mi总体比率:
p ^ c l s = ∑ i = 1 n a i ∑ i = 1 n M i \hat{p}_{cls} = \frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} M_i} p^cls=∑i=1nMi∑i=1nai( a i a_i ai:第 i i i群具有特征的数量)
案例示范(例7.6)
- 注册会计师年薪估计:
x ˉ c l s = 42531 元 , s x ˉ c l s = 1.730 → 95 % C I [ 39071 , 45991 ] \bar{x}_{cls} = 42531\text{元},\ s_{\bar{x}_{cls}} = 1.730 \rightarrow 95\%\ CI[39071,\ 45991] xˉcls=42531元, sxˉcls=1.730→95% CI[39071, 45991] - 女性比率估计:
p ^ c l s = 0.2734 → 95 % C I [ 0.2052 , 0.3416 ] \hat{p}_{cls} = 0.2734 \rightarrow 95\%\ CI[0.2052,\ 0.3416] p^cls=0.2734→95% CI[0.2052, 0.3416]
4. 系统抽样(7.7节)
方法
固定间隔 k k k抽样(首个单位随机起点)
使用条件
抽样框随机排列(否则有周期性偏差风险)
优缺点
优点 | 缺点 |
---|---|
操作简便 | 若抽样框存在隐周期性,样本可能有偏 |
成本低 |
五、样本容量确定通法
- 规定精度 B B B和置信水平
- 选择抽样方法
- 若有历史数据,用其估计方差 s 2 s^2 s2或 p p p
- 若无历史数据,进行预抽样估计方差
- 代入公式计算 n n n
- 验证实际精度
特殊情形处理:
- 分层抽样:先分配样本再计算总样本量
- 整群抽样:需预先估计群间方差 s r 2 s_r^2 sr2
六、解题步骤模板
1. 简单随机抽样(均值估计)
- 确认抽样框和 N N N
- 抽取 n ≥ 30 n \geq 30 n≥30的样本
- 计算 x ˉ \bar{x} xˉ和 s s s
- 计算标准误: s e = s n × 1 − n N se = \frac{s}{\sqrt{n}} \times \sqrt{1-\frac{n}{N}} se=ns×1−Nn
- 确定 z z z值(95%CI取1.96)
- 计算CI: x ˉ ± z ⋅ s e \bar{x} \pm z \cdot se xˉ±z⋅se
2. 分层抽样(比率估计)
- 按特征分层
- 确定各层权 W h = N h / N W_h = N_h/N Wh=Nh/N
- 按比例分配样本 n h n_h nh
- 各层计算 p ^ h \hat{p}_h p^h
- 计算加权估计 p ^ s t r = ∑ W h p ^ h \hat{p}_{str} = \sum W_h \hat{p}_h p^str=∑Whp^h
- 计算标准误 s p ^ s t r s_{\hat{p}_{str}} sp^str
- 构造CI: p ^ s t r ± 1.96 ⋅ s p ^ s t r \hat{p}_{str} \pm 1.96 \cdot s_{\hat{p}_{str}} p^str±1.96⋅sp^str
3. 样本量计算题
- 读取 N , B , N, B, N,B,置信水平
- 选择参数类型(均值/比率)
- 若估计均值,查找 s 2 s^2 s2历史值
- 若估计比率,采用 p = 0.5 p=0.5 p=0.5或历史值
- 代入公式求解 n n n
- 若 n / N > 5 % n/N > 5\% n/N>5%,使用有限总体修正
七、易错点警示
抽样框陷阱
- 目标总体 ≠ 抽样总体 → 推断结论有偏差
- 例:用电话簿抽样框调查网民会遗漏无固话群体
中心极限定理误用
- n < 30 n<30 n<30时不可直接使用 z z z值(需查 t t t分布表)
- 偏态总体需 n ≥ 50 n \geq 50 n≥50才近似正态
有限总体修正遗漏
- 当 n / N > 5 % n/N>5\% n/N>5%时未使用修正系数 → 标准误高估
整群抽样加权缺失
- 群大小不等时未用加权均值 → 估计有偏
- 例7.6必须用总年薪/总人数而非群均值的平均
分层抽样分配误区
- 最优分配需已知层标准差 s h s_h sh → 若无数据应先比例分配