线性回归系数的几个性质-EW帮帮网

线性回归系数的几个性质

摘要

我们知道一元和多元线性回归系数都有解析解，本文将简要介绍总结线性回归系数的几个常见的性质。

线性回归问题的描述

我们回忆一下，单变量线性回归问题是指，给定了 $n$ 个观察量 $(x_1, \, y_1), \, (x_2, \, y_2), \cdots, (x_n, y_n)$ 。我们希望用一个线性的关系 $\beta_1 x + \beta_0 + \epsilon$ 来描述这些观察量的规律。

这里，我们把方程
$\beta_1 x + \beta_0 + \epsilon$

称为 总体回归模型 (population regression model)。

而当给定的 $n$ 个观察量 $(x_1, \, y_1), \, (x_2, \, y_2), \cdots, (x_n, y_n)$ ，我们称方程
$y_i = \beta_1 x_i + \beta_0 + \epsilon_i$
为 样本回归模型（sample regression model）。
其中 $\epsilon_i$ 为误差项 (error)，独立且均服从均值为0, 方差为 $\sigma^2$ 的一个随机分布。其中 $\sigma^2$ 为误差项的方差，我们知道 $\sigma^2$ 是固定的，但是我们不知道其具体的数值。

所以我们去做线性回归“拟合”模型的参数 $\beta_1$ 和 $\beta_0$ 时，实际上是根据 $(x_1, \, y_1), \, (x_2, \, y_2), \cdots, (x_n, y_n)$ 去做点估计 (point estimator)。

这里值得注意的是，我们把 $x_1, \, x_2, \, \cdots, \, x_n$ 当作给定的值，即可以认为是常量，而每一个 $y_i, \, i = 1, 2, \, \cdots \, n$ 均是一个随机变量。

单变量线性回归系数的公式

我们回顾单变量线性回归问题的公式，有
$\begin{cases} & \hat{\beta_1} = \frac{\sum (x_i - \bar{x} ) (y_i - \bar{y})}{\sum (x_i - \bar{x} )^2 } \\ & \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} \\ \end{cases}$

即我们对参数 $\beta_1, \, \beta_0$ 的估计是 $\displaystyle \hat{\beta_1} = \frac{\sum (x_i - \bar{x} ) (y_i - \bar{y})}{\sum (x_i - \bar{x} )^2 }$ ，对参数 $\beta_0$ 的估计是 $\displaystyle \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}$ 。

为方便起见，我们记

$\displaystyle S_{xx} = \sum_{i = 1}^n (x_i - \bar{x})^2$ ,
$\displaystyle S_{xy} = \sum_{i = 1}^n (x_i - \bar{x}) (y_i - \bar{y})$ 。

我们可以进一步简化 $S_{xy}$ 为 $\displaystyle S_{xy} = \sum_{i = 1}^n (x_i - \bar{x}) y_i$ 。

那么我们可以将 $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 写成：
$\displaystyle \hat{\beta_1} =\sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot y_i$ ,
$\displaystyle \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}$ 。

回忆起之前我们提到的，每一个 $y_i, \, i = 1, 2, \, \cdots \, n$ 均是一个随机变量，这里我们分别对 $\beta_1$ 和 $\beta_0$ 的估计 $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 就是 $y_i, i = 1, \, 2, \, \cdots \, n$ 的函数。

无偏估计

首先，我们证明上述估计 $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 是无偏估计 (unbiased)。

要证明我们的估计是无偏估计，我们须要证明我们估计的期望恒等于所估计的参数，即我们须要证明：
$\begin{cases} & \mathbb{E}[ \hat{\beta_1} ] = \beta_1 \\ \\ & \mathbb{E}[ \hat{\beta_0} ] = \beta_0 \\ \end{cases}$

证明过程十分直接，我们直接将上一节的表达式代入。

$\displaystyle \mathbb{E}(\hat{\beta_1}) =\mathbb{E} \Big[ \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot y_i \Big]$ ，注意到 $y_i = \beta_1 x_i + \beta_0 + \epsilon_i$ ，我们有 $\displaystyle \mathbb{E}(y_i) = \beta_1 x_i + \beta_0$ 。这里我们用到了 $\displaystyle \mathbb{E} [ \epsilon_i ] = 0$ 。

代入，我们有

$\begin{aligned} \displaystyle \mathbb{E} (\hat{\beta_1}) &= \mathbb{E} \Big[ \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot y_i \Big] \\ &= \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} \mathbb{E} [y_i] \\ &= \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx} } \cdot (\beta_1 x_i + \beta_0) \\ &= \beta_1 \cdot \Big[ \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} \cdot x_i \Big] + \beta_0 \cdot \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} \\ &= \beta_1 \end{aligned}$ 。

注意，上式中，我们用到了 $\displaystyle \sum_{i = 1}^n \frac{ (x_i - \bar{x} ) }{S_{xx}} = 0$ ，以及 $\displaystyle \sum_{i = 1}^n (x_i - \bar{x}) \cdot x_i = S_{xx}$ 。

同样的，我们有，
$\begin{aligned} \displaystyle \mathbb{E} (\hat{\beta_0}) &= \mathbb{E} \big[ \bar{y} - \bar{x} \cdot \hat{\beta_1} \big] \\ &= \frac{1}{n} \sum_{i = 1}^n (\beta_0 + \beta_1 \cdot x_i) - \bar{x} \cdot \beta_1 \\ &= \beta_0 \end{aligned}$ 。

所以， $\hat{\beta_0}$ 也是 $\beta_0$ 的无偏估计。

其余的几个性质

残差项之和为0

即 $\displaystyle \sum_{i = 1}^n (y_i - \hat{y_i}) = 0$ 。

这里我们可以用求 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 的公式来证明。

在文章单变量线性回归的最小二乘法公式中，我们提到在用偏导数求 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 时，我们有 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 的表达式如下：

$\displaystyle \begin{cases} &\displaystyle \frac{\partial \text{ RSS}}{\partial \beta_0} = 2 n \beta_0 + 2 \sum_{i = 1}^n x_i \beta_1 - 2 \sum_{i = 1}^n y_i = 0 \\ \\ &\displaystyle \frac{\partial \text{ RSS}}{\partial \beta_1} = 2 \sum_{i = 1}^n x_i^2 \beta_1 + 2 \sum_{i = 1}^n x_i \beta_0 - 2 \sum_{i = 1}^n x_i y_i = 0 \\ \end{cases}$

根据第一个式子，我们把 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 代入，我们有

$\displaystyle n \hat{\beta_0} + \sum_{i = 1}^n x_i \hat{\beta_1} - \sum_{i = 1}^n y_i = 0$ 。
即， $\displaystyle \sum_{i = 1}^n \left( \hat{\beta_0} + x_i \hat{\beta_1} \right) - \sum_{i = 1}^n y_i = 0$ ，亦 $\displaystyle \sum_{i = 1}^n (y_i - \hat{y_i}) = 0$ 。

线性拟合直线总会经过 $(\bar{x}, \bar{y})$ 这个点

拟合直线为 $\displaystyle y = \hat{\beta_0} + \hat{\beta_1} \cdot x$ 。而我们有
$\displaystyle \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}$ ，所以线性拟合直线总会经过 $(\bar{x}, \bar{y})$ 这个点。

在 $x_i$ 权重下，残差和为0，即 $\displaystyle \sum_{i = 1}^n x_i e_i = 0$

我们可以直接把 $e_i = y_i - \hat{y_i}$ 代入。注意到 $\displaystyle \hat{y_i} = \hat{\beta_0} + \hat{\beta_1} \cdot x_i$ ，我们有

$\begin{aligned} \displaystyle \sum_{i = 1}^n x_i e_i &= \sum_{i = 1}^n x_i \cdot (y_i - \hat{y_i}) = \sum_{i = 1}^n x_i \cdot (y_i - \hat{\beta_0} - \hat{\beta_1} \cdot x_i) \\ &= \sum_{i = 1}^n x_i y_i - \hat{\beta_0} \sum_{i = 1}^n x_i - \hat{\beta_1} \sum_{i = 1}^n x_i^2 \\ &= \sum_{i = 1}^n x_i y_i - \hat{\beta_1} \sum_{i = 1}^n x_i^2 - (\bar{y} - \hat{\beta_1} \cdot \bar{x} ) \cdot \sum_{i = 1}^n x_i \\ &= \sum_{i = 1}^n x_i y_i - \hat{\beta_1} \sum_{i = 1}^n x_i^2 - n \bar{x} \bar{y} + n \hat{\beta_1} \bar{x}^2 \\ &= \left( \sum_{i = 1}^n x_i y_i - n \bar{x} \bar{y} \right) - \left(\sum_{i = 1}^n x_i^2 - n \bar{x}^2 \right) \hat{\beta_1} \\ &= S_{xy} - S_{xx} \hat{\beta_1} \\ &= 0 \end{aligned}$

故得证。

在 $\hat{y_i}$ 权重下，残差和为0，即 $\displaystyle \sum_{i = 1}^n \hat{y_i} e_i = 0$

这里我们只须要利用上一个公式，即 $\displaystyle \sum_{i = 1}^n x_i e_i = 0$ 即可。

因为我们有 $\displaystyle \sum_{i = 1}^n \hat{y_i} e_i = \sum_{i = 1}^n \big(\hat{\beta_0} + \hat{\beta_1} \cdot x_i \big) e_i = \hat{\beta_0} \sum_{i = 1}^n e_i + \hat{\beta_1} \sum_{i = 1}^n x_i e_i = 0$ 。

模拟

最后我们用 python 程序来模拟“证明” $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 分别时 $\beta_1$ 和 $\beta_0$ 的无偏估计。

class unbiased_beta:
    
    def __init__(self, arr_x: np.array, beta1: float, beta0: float, epsilon: float):
        #self.N = N
        self.X = arr_x
        self.beta1 = beta1
        self.beta0 = beta0
        self.epsilon = epsilon
        
        self.Sxx = ((self.X - self.X.mean()) ** 2).sum()
        self.X_bar = self.X.mean()
        
    def estimate_beta(self, N: int) -> tuple:
        res_beta1, res_beta0 = [], []
        for i in range(N):
            #print(i)
            cur_error = np.random.normal(0, self.epsilon, arr_x.shape)
            cur_y = self.beta0 + self.beta1 * self.X + cur_error
            cur_y_bar = cur_y.mean()
            Sxy = ((self.X - self.X.mean()) * (cur_y - cur_y_bar)).sum()
            cur_beta1 = Sxy / self.Sxx
            cur_beta0 = cur_y_bar - cur_beta1 * self.X_bar
            res_beta1.append(cur_beta1)
            res_beta0.append(cur_beta0)
        return np.mean(res_beta1), np.mean(res_beta0)

arr_x = np.array(range(1, 11))
a = unbiased_beta(arr_x, 2, 3, 1)
res = a.estimate_beta(10 ** 5)

res

(1.9988026861047237, 3.0029188805679303)

可以发现，在经过多次的实验之后，我们得到的 $\hat{\beta_1}$ 和 $\hat{\beta_0}$ 的平均值是非常接近真实值 $\beta_1$ 和 $\beta_0$ 的。

plt.figure(figsize=(8, 6), dpi=100)
plt.hist(res[0], bins=50, density=True);
line_vert = [[2, c] for c in np.linspace(0, 4, 100)]
plt.plot([c[0] for c in line_vert], [c[1] for c in line_vert], '-', linewidth=4)
plt.xlabel("estimated beta1 value", fontsize=20)
plt.ylabel("count", fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

对 beta1 的估计值的统计

本文含有隐藏内容，请开通VIP 后查看

线性回归系数的几个性质