机器学习数学基础：27.数字特征-易微帮

一、数学期望（Expectation）

1. 定义与公式推导

离散型随机变量：设离散型随机变量 $X$ ，其可能取值为 $x_i$ （ $\ = 1, 2, 3, \cdots$ ），对应概率为 $P(X \ = x_i)$ 。数学期望 $E (X)$ 可直观理解为 $X$ 在大量重复试验下取值的平均水平。从加权平均视角出发，每个取值 $x_i$ 乘以自身出现概率 $P(X \ = x_i)$ ，再将所有乘积相加，即得期望： $\ = \sum_{i} x_i \cdot P(X \ = x_i)$ 。
- 实例：抛一枚不均匀硬币，正面朝上得 $2$ 分，反面朝上得 $1$ 分，正面朝上概率为 $0.4$ ，反面朝上概率为 $0.6$ 。设得分随机变量为 $X$ ，则 $\ = 2×0.4 + 1×0.6 \ = 1.4$ 分，此即为平均每次抛硬币的期望得分。这表明，若多次重复抛这枚硬币，平均下来每次得分接近 $1.4$ 分。
连续型随机变量：对于连续型随机变量 $X$ ，其概率密度函数为 $f (x)$ 。我们将区间 $[-\infty, +\infty]$ 无限细分，取一小段区间 $\Delta x]$ ，在此小区间上，随机变量 $X$ 取值概率近似为 $f(x)\Delta x$ （类似离散型中某个取值概率），那么该小区间上 $X$ 取值乘以概率近似为 $\cdot f(x)\Delta x$ 。对所有小区间求和（即积分），可得连续型随机变量期望： $\ = \int_{-\infty}^{+\infty} x \cdot f(x) \, dx$ 。
- 实例：已知某电子元件寿命 $X$ （单位：小时）服从概率密度函数 $\ = \lambda e^{-\lambda x} (x > 0)$ （指数分布， $\lambda > 0$ ），求其平均寿命（即 $E (X)$ ）。通过积分运算：
  $\begin{align*} E(X)&=\int_{0}^{+\infty}x\cdot\lambda e^{-\lambda x}dx\\ &=\left[-xe^{-\lambda x}\right]_0^{+\infty}+\int_{0}^{+\infty}e^{-\lambda x}dx&\text{（利用分部积分法，令}u = x\text{，}dv = \lambda e^{-\lambda x}dx\text{）}\\ &=0+\left[-\frac{1}{\lambda}e^{-\lambda x}\right]_0^{+\infty}\\ &=\frac{1}{\lambda} \end{align*}$

所以该电子元件平均寿命为 $\frac{1}{\lambda}$ 小时，意味着大量这种电子元件的平均使用时长趋近于 $\frac{1}{\lambda}$ 小时。

2. 运算性质推导与实例

常数性质： $\ = C$ （ $C$ 为常数）。由于常数 $C$ 可视为取值恒为 $C$ 的随机变量，其出现概率为 $1$ ，依据期望定义可得： $\ = C×1 \ = C$ 。
- 实例：无论进行多少次试验，某个固定奖励始终是 $5$ 元，此奖励的期望即为 $5$ 元。这说明在这种确定性情境下，期望就是固定值本身。
线性性： $\ = aE(X) + bE(Y) + c$ （无论 $X$ 与 $Y$ 是否独立）。
- 首先推导 $E (a X + c)$ ：设 $\ = aX + c$ ，根据期望定义：
  $\begin{align*} E(Z) &\ = \sum_{i} (ax_i + c) \cdot P(X \ = x_i)\\ &\ = \sum_{i} (ax_i \cdot P(X \ = x_i) + c \cdot P(X \ = x_i))\\ &\ = a\sum_{i} x_i \cdot P(X \ = x_i) + c\sum_{i} P(X \ = x_i) \end{align*}$
  因为 $\sum_{i} P(X \ = x_i) \ = 1$ ，且 $\ = \sum_{i} x_i \cdot P(X \ = x_i)$ ，所以 $\ = aE(X) + c$ 。
- 同理推导 $E (a X + bY + c)$ ：可先将其拆分为 $E (a X + (bY + c))$ ，利用上述结论可得：
  $\ = aE(X) + E(bY + c) \ = aE(X) + bE(Y) + c$ 。
- 实例：已知投资项目 $A$ 收益 $X$ 期望为 $10$ 万元，投资项目 $B$ 收益 $Y$ 期望为 $8$ 万元，某人计划投资项目 $A$ 资金为 $3$ 倍本金，投资项目 $B$ 资金为 $2$ 倍本金，同时还有固定成本 $1$ 万元，设总收益为 $Z$ ，则 $\ = 3X + 2Y - 1$ 。根据线性性：
  $\ = 3E(X) + 2E(Y) - 1 \ = 3×10 + 2×8 - 1 \ = 45$ 万元，即总收益期望为 $45$ 万元。这为投资者预估综合收益提供了量化依据，助其合理规划投资。
独立变量的乘积期望：若 $X$ 与 $Y$ 独立，则 $\ = E(X) \cdot E(Y)$ 。当 $X$ 与 $Y$ 独立时，联合概率分布 $\ = x_i, Y \ = y_j) \ = P(X \ = x_i) \cdot P(Y \ = y_j)$ 。
$\begin{align*} E(XY) &\ = \sum_{i} \sum_{j} x_i y_j \cdot P(X \ = x_i, Y \ = y_j)\\ &\ = \sum_{i} \sum_{j} x_i y_j \cdot P(X \ = x_i) \cdot P(Y \ = y_j) \end{align*}$
令 $\ = \sum_{i} x_i \cdot P(X \ = x_i) \ = E(X)$ ， $\ = \sum_{j} y_j \cdot P(Y \ = y_j) \ = E(Y)$ ，则：
$\ = \sum_{i} \sum_{j} x_i y_j \cdot P(X \ = x_i) \cdot P(Y \ = y_j) \ = \sum_{i} x_i \cdot P(X \ = x_i) \cdot \sum_{j} y_j \cdot P(Y \ = y_j) \ = E(X) \cdot E(Y)$ 。
- 实例：工厂生产两种产品 $A$ 和 $B$ ，产品 $A$ 产量 $X$ 与产品 $B$ 产量 $Y$ 相互独立，产品 $A$ 平均每天生产 $100$ 件，每件利润期望为 $5$ 元，产品 $B$ 平均每天生产 $80$ 件，每件利润期望为 $3$ 元，设总利润为 $\ = XY$ ，则：
  $\ = E(X) \cdot E(Y) \ = 100×5×80×3 \ = 120000$ 元，即总利润期望为 $12$ 万元。此例展示了独立变量乘积期望在生产利润估算中的应用。

例题 1：设 $X$ 的分布律为 $\ = 1) \ = 0.3$ ， $\ = 2) \ = 0.7$ ，求 $E (2 X + 3)$ 。

解：首先求 $E (X)$ ，依据离散型随机变量期望公式：
$\ = 1×0.3 + 2×0.7 \ = 1.7$ 。
再根据线性性 $E (a X + b)$ 性质：
$\ = 2E(X) + 3 \ = 2×1.7 + 3 \ = 6.4$ 。

二、方差（Variance）

1. 定义与公式推导

方差用于衡量随机变量取值与其期望的偏离程度。设随机变量 $X$ 期望为 $E (X)$ ，定义 $\ = E\left[ (X - E(X))^2 \right]$ ，它表示 $X$ 取值与期望差值平方的期望。展开式子可得：
$\begin{align*} D(X) &\ = E\left[ X^2 - 2XE(X) + (E(X))^2 \right]\\ &\ = E(X^2) - 2E(X) \cdot E(X) + (E(X))^2\\ &\ = E(X^2) - [E(X)]^2 \end{align*}$
例如，在一次射击比赛中，选手射击成绩 $X$ 期望 $\ = 8$ 环。若方差 $D (X)$ 较大，意味着选手成绩波动剧烈，可能某次超常发挥接近 $10$ 环，某次却发挥失常仅 $6$ 环；反之，方差较小则成绩相对稳定，多集中在 $8$ 环附近。方差直观反映了数据的离散程度。

2. 运算性质推导与实例

常数性质： $\ = 0$ 。因为常数 $C$ 期望 $\ = C$ ，依据方差公式：
$\ = E\left[ (C - E(C))^2 \right] \ = E\left[ (C - C)^2 \right] \ = 0$ 。
- 实例：一个固定的温度值 $25℃$ ，不存在波动变化，其方差即为 $0$ ，这体现了常数的稳定性在方差上的体现。
缩放性质： $D(aX + b) \ = a^2 D(X)$ 。
- 首先求 $E (a X + b)$ ，由期望线性性可得 $\ = aE(X) + b$ 。
- 再求 $D (a X + b)$ ：
  $\begin{align*} D(aX + b) &\ = E\left[ ((aX + b) - E(aX + b))^2 \right]\\ &\ = E\left[ (aX + b - (aE(X) + b))^2 \right]\\ &\ = E\left[ (aX - aE(X))^2 \right]\\ &\ = E\left[ a^2 (X - E(X))^2 \right]\\ &\ = a^2 E\left[ (X - E(X))^2 \right]\\ &\ = a^2 D(X) \end{align*}$
- 实例：某产品尺寸 $X$ 方差为 $0.1$ ，若将尺寸统一放大 $2$ 倍并加上 $3 mm$ ，即 $\ = 2X + 3$ ，那么：
  $D(Y) \ = 2^2×D(X) \ = 4×0.1 \ = 0.4$ ，表明变换后的尺寸波动幅度增大，方差的变化反映了尺寸变换对离散程度的影响。
独立变量的方差：若 $X$ 与 $Y$ 独立，则 $\ = D(X) + D(Y)$ 。已知 $X$ 与 $Y$ 独立，先求 $\ = E(X) + E(Y)$ 。再求 $D (X + Y)$ ：
$\begin{align*} D(X + Y) &\ = E\left[ ((X + Y) - E(X + Y))^2 \right]\\ &\ = E\left[ (X + Y - (E(X) + E(Y)))^2 \right]\\ &\ = E\left[ (X - E(X) + Y - E(Y))^2 \right] \end{align*}$
展开得：
$\begin{align*} E\left[ (X - E(X))^2 + 2(X - E(X))(Y - E(Y)) + (Y - E(Y))^2 \right] &\ = E\left[ (X - E(X))^2 \right] + 2E\left[ (X - E(X))(Y - E(Y)) \right] + E\left[ (Y - E(Y))^2 \right] \end{align*}$
因为 $X$ 与 $Y$ 独立，根据协方差性质 $E\left[ (X - E(X))(Y - E(Y)) \right] \ = \text{Cov}(X, Y) \ = 0$ ，所以 $\ = D(X) + D(Y)$ 。
- 实例：两个独立生产车间，车间 $A$ 产品质量指标 $X$ 方差 $\ = 2$ ，车间 $B$ 产品质量指标 $Y$ 方差 $\ = 3$ ，那么两个车间产品综合质量指标 $\ = X + Y$ 的方差：
  $\ = D(X) + D(Y) \ = 2 + 3 \ = 5$ 。此例展示了独立变量方差在质量控制领域综合评估中的应用。

例题 2：设 $X$ 服从参数为 $\lambda$ 的泊松分布，已知 $\ = 2$ ，求 $D (3 X - 1)$ 。

解：泊松分布性质： $\ = E(X) \ = 2$ 。
根据方差缩放性质：
$D(3X - 1) \ = 3^2 D(X) \ = 9×2 \ = 18$ 。

三、协方差（Covariance）与相关系数（Correlation Coefficient）

1. 协方差定义推导

协方差用于描述两个变量的线性相关性。设 $X$ 和 $Y$ 是两个随机变量，为衡量它们协同变化程度，定义协方差： $\text{Cov}(X, Y) \ = E[(X - E(X))(Y - E(Y))]$ 。展开可得：
$\begin{align*} \text{Cov}(X, Y) &\ = E\left[ XY - XE(Y) - YE(X) + E(X)E(Y) \right]\\ &\ = E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y)\\ &\ = E(XY) - E(X)E(Y) \end{align*}$
例如，研究学生数学成绩 $X$ 和物理成绩 $Y$ ，若协方差为正，表明一般数学成绩好的学生，物理成绩也倾向于好，即两者有同向变化趋势；协方差为负，则表示两者呈反向变化趋势；协方差接近 $0$ ，意味着两者线性相关性弱。

2. 协方差性质推导与实例

若 $X$ 与 $Y$ 独立，则 $\text{Cov}(X, Y) \ = 0$ ：当 $X$ 与 $Y$ 独立时，根据独立变量乘积期望性质 $\ = E(X) \cdot E(Y)$ ，代入协方差公式可得：
$\text{Cov}(X, Y) \ = E(XY) - E(X)E(Y) \ = E(X) \cdot E(Y) - E(X)E(Y) \ = 0$ 。
- 实例：随机抽取一些人的身高 $X$ 和当天股票涨幅 $Y$ ，通常认为两者相互独立，计算协方差大概率接近 $0$ ，即身高与股票涨幅基本不存在线性关联，反映了不同类型变量在现实中的独立性。
$\text{Cov}(aX + b, cY + d) \ = ac \cdot \text{Cov}(X, Y)$ ：先求 $\ = aE(X) + b$ ， $\ = cE(Y) + d$ 。再求 $\text{Cov}(aX + b, cY + d)$ ：
$\begin{align*} \text{Cov}(aX + b, cY + d) &\ = E\left[ ((aX + b) - E(aX + b))((cY + d) - E(cY + d)) \right]\\ &\ = E\left[ (aX + b - (aE(X) + b))((cY + d - (cE(Y) + d)) \right]\\ &\ = E\left[ (aX - aE(X))(cY - cE(Y)) \right]\\ &\ = E\left[ ac(X - E(X))(Y - E(Y)) \right]\\ &\ = ac \cdot E\left[ (X - E(X))(Y - E(Y)) \right]\\ &\ = ac \cdot \text{Cov}(X, Y) \end{align*}$
- 实例：已知变量 $X$ 和 $Y$ 的协方差为 $5$ ，令 $\ = 2X + 3$ ， $\ = 4Y - 1$ ，则：
  $\text{Cov}(U, V) \ = 2×4×\text{Cov}(X, Y) \ = 8×5 \ = 40$ 。此性质展示了变量线性变换后协方差的变化规律，在处理数据变换时非常实用。

3. 相关系数定义与性质推导

相关系数是标准化的协方差： $\rho_{XY} \ = \frac{\text{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$ 。为使衡量两个变量相关性的指标不受变量本身取值范围和单位的影响，对协方差进行标准化。

首先证明 $|\rho_{XY}| \leq 1$ ：由柯西 - 施瓦茨不等式 $E(Y))])^2 \leq E\left[ (X - E(X))^2 \right] E\left[ (Y - E(Y))^2 \right]$ ，即 $(\text{Cov}(X, Y))^2 \leq D(X)D(Y)$ 。两边同时开方再除以 $\sqrt{D(X)} \sqrt{D(Y)}$ 可得 $|\rho_{XY}| \leq 1$ 。

$\rho_{XY} \ = 0$ 表示 $X$ 与 $Y$ 不相关，但未必独立。因为不相关只是说明两者在线性关系上不紧密，但可能存在其他非线性关系。比如，在研究天气温度 $X$ 和某商场冰淇淋销量 $Y$ 时，若 $\rho_{XY} \ = 0$ ，可能在整体线性趋势上温度高低与冰淇淋销量没有明显的同步增减规律，但实际上，当温度极高或极低时，由于特殊的消费场景（如极热时大家抢购降温、极冷时商家促销热饮搭配），销量又会呈现特殊变化，并非完全独立，只是线性相关性不显著。

例题 3：
设 $X$ 与 $Y$ 的联合分布如下，求协方差和相关系数：

X\Y	0	1
0	0.1	0.4
1	0.3	0.2

解：
计算边缘分布：
对于 $X$ ， $\ = 0) \ = 0.1 + 0.4 \ = 0.5$ ， $\ = 1) \ = 0.3 + 0.2 \ = 0.5$ ，则 $\ = 0×0.5 + 1×0.5 \ = 0.5$ 。
对于 $Y$ ， $\ = 0) \ = 0.1 + 0.3 \ = 0.4$ ， $\ = 1) \ = 0.4 + 0.2 \ = 0.6$ ，则 $\ = 0×0.4 + 1×0.6 \ = 0.6$ 。

计算 $E (X Y)$ ：
$\ = (0×0×0.1) + (0×1×0.4) + (1×0×0.3) + (1×1×0.2) \ = 0.2$ 。

协方差：
$\text{Cov}(X, Y) \ = 0.2 - 0.5×0.6 \ = -0.1$ 。

方差：
$D(X) \ = 0.5×(1 - 0.5)^2 + 0.5×(0 - 0.5)^2 \ = 0.25$ 。
$D(Y) \ = 0.4×(0 - 0.6)^2 + 0.6×(1 - 0.6)^2 \ = 0.24$ 。

相关系数：
$\rho_{XY} \ = \frac{-0.1}{\sqrt{0.25}×\sqrt{0.24}} \approx -0.408$ 。

四、连续型随机变量的二重积分应用

例题 4：
设 $(X, Y)$ 的联合密度函数为 $f(x, y) \ = 2e^{-x - y}$ （ $x > 0, y > 0$ ），求 $\text{Cov}(X, Y)$ 。

解：
边缘密度：
计算 $f_X(x)$ ：
$f_X(x) \ = \int_{0}^{+\infty} 2e^{-x - y} dy \ = 2e^{-x} \int_{0}^{+\infty} e^{-y} dy \ = 2e^{-x}$ （因为 $\int_{0}^{+\infty} e^{-y} dy \ = 1$ ）。
同理，计算 $f_Y(y)$ ：
$f_Y(y) \ = 2e^{-y}$ 。

独立性检验：
由于 $\ = 2e^{-x - y} \neq f_X(x)f_Y(y) \ = 4e^{-x - y}$ ，所以 $X$ 与 $Y$ 不独立。

计算协方差：
先求 $E (X)$ ：
$\ = \int_{0}^{\infty} x \cdot 2e^{-x} dx$ ，通过分部积分法（令 $\ = x$ ， $dv \ = e^{-x} dx$ ）可得：
$\begin{align*} E(X) &\ = \int_{0}^{\infty} x \cdot 2e^{-x} dx\\ &\ = \left[-xe^{-x}\right]_0^{\infty} + \int_{0}^{\infty} e^{-x} dx\\ &\ = 0 + \left[-e^{-x}\right]_0^{\infty}\\ &\ = 1×2 \ = 2 \end{align*}$
同理， $\ = 2$ 。

再求 $E (X Y)$ ：
$\ = \iint_{x > 0, y > 0} xy \cdot 2e^{-x - y} dxdy$ ，利用分步积分两次，先对 $y$ 积分再对 $x$ 积分，可得：
$\begin{align*} E(XY) &\ = \int_{0}^{\infty} x \cdot 2e^{-x} \left(\int_{0}^{\infty} y \cdot e^{-y} dy\right) dx\\ &\ = \int_{0}^{\infty} x \cdot 2e^{-x} \cdot 1 dx\\ &\ = 2×1×1 \ = 2 \end{align*}$
故 $\text{Cov}(X, Y) \ = 2 - 2×2 \ = -2$ 。

五、补充知识点

二维正态分布：

若 $(X, Y)$ 服从二维正态分布，则 $X$ 与 $Y$ 独立 ⇨ $X$ 与 $Y$ 不相关（反之不一定成立）。这是二维正态分布的一个特殊性质，在实际数据分析中，如果已知数据服从二维正态分布，那么判断独立性就可以转化为判断相关性，简化了分析过程。例如，在研究某些生物的体长 $X$ 和体重 $Y$ 时，若它们服从二维正态分布，当发现两者不相关时，就能直接推断它们在概率意义上是相互独立的，即体长的变化基本不会线性地影响体重的变化，反之亦然。

切比雪夫不等式：

$\geq \epsilon) \leq \frac{D(X)}{\epsilon^2}$ 。它给出了随机变量偏离其期望的概率上限估计。在实际应用中，比如生产质量控制，已知某产品尺寸 $X$ 的期望 $E (X)$ 和方差 $D (X)$ ，给定一个允许的误差范围 $\epsilon$ ，就能利用切比雪夫不等式大致估算出产品尺寸超出这个范围的概率上限，从而判断生产过程的稳定性。若发现概率上限过高，就需要调整生产工艺。

中心极限定理：

独立同分布随机变量和的标准化形式依分布收敛于标准正态分布。这意味着，无论原来的随机变量服从什么分布，只要满足独立同分布的条件，当样本量足够大时，它们的和经过标准化后，近似服从标准正态分布。例如，在统计大量投保人的索赔金额时，每个投保人的索赔金额可看作一个随机变量，这些随机变量通常独立同分布，虽然单个索赔金额分布可能很复杂，但随着投保人数量增多，总的索赔金额经过标准化后就近似服从标准正态分布，从而可以利用正态分布的性质进行风险评估和保费定价等操作。

总结：掌握数字特征的核心公式与运算性质，结合实例理解协方差与相关系数的实际意义，注意独立性与不相关性的区别。这些数字特征在金融风险评估、生产质量控制、教育成绩分析等众多领域都有着广泛的应用，为决策提供了有力的量化依据。希望通过本教程，大家能深入理解概率论与数理统计中的数字特征，并灵活运用到实际问题解决中。如果在学习过程中有任何疑问，欢迎随时交流探讨。

你是否还想了解更多关于概率论与数理统计的拓展知识，或是希望我提供一些相关练习题来巩固所学内容呢？可以随时告诉我。

机器学习数学基础：27.数字特征

一、数学期望（Expectation）

1. 定义与公式推导

2. 运算性质推导与实例

二、方差（Variance）

1. 定义与公式推导

2. 运算性质推导与实例

三、协方差（Covariance）与相关系数（Correlation Coefficient）

1. 协方差定义推导

2. 协方差性质推导与实例

3. 相关系数定义与性质推导

四、连续型随机变量的二重积分应用

五、补充知识点

二维正态分布：

切比雪夫不等式：

中心极限定理：

微信公众号

今日签到

热门文章

最新发布