好的,我们来详细讲解高等数学(主要是线性代数部分)中的核心矩阵知识。矩阵是线性代数的基石,广泛应用于数学、物理、工程、计算机科学、经济学等众多领域。
一、矩阵的基本概念
定义:
- 一个
m × n
矩阵 (Matrix) 是一个由m
行n
列元素排列成的矩形数表。 - 通常用大写粗体字母表示,如 A, B, C。
- 矩阵中的元素称为元或元素,用小写字母加下标表示其位置,如
aᵢⱼ
表示位于矩阵 A 的第i
行、第j
列的元素。 - 矩阵可表示为:
A = [aᵢⱼ]_{m×n} = [a₁₁, a₁₂, ..., a₁ₙ]
[a₂₁, a₂₂, ..., a₂ₙ]
[... , ... , ..., ...]
[aₘ₁, aₘ₂, ..., aₘₙ]
- 一个
矩阵与行列式的区别:
- 矩阵是一个数表,本身不代表一个数值(除非是 1x1 矩阵)。
- 行列式 (Determinant) 是一个标量值(一个数),它是由方阵(行数=列数)按照特定规则计算出来的。行列式通常用
det(A)
或|A|
表示。 - 关键区别: 矩阵是数据结构,行列式是该结构(方阵)的一个属性值。
特殊类型的矩阵:
- 零矩阵 (Zero Matrix): 所有元素都是零的矩阵,记作 O 或 0。
- 行矩阵/行向量 (Row Matrix/Vector): 只有一行 (
1 × n
)。 - 列矩阵/列向量 (Column Matrix/Vector): 只有一列 (
m × 1
)。 - 方阵 (Square Matrix): 行数和列数相等 (
n × n
)。 - 对角矩阵 (Diagonal Matrix): 方阵中,除主对角线 (
a₁₁, a₂₂, ..., aₙₙ
) 上的元素外,其他元素全为零。记作diag(d₁, d₂, ..., dₙ)
。 - 数量矩阵 (Scalar Matrix): 对角矩阵的一种特例,主对角线上的元素都相等 (
d₁ = d₂ = ... = dₙ = k
)。 - 单位矩阵 (Identity Matrix): 数量矩阵的一种特例,主对角线上的元素全为 1 (
k=1
),记作 I 或 E。任何矩阵 A 乘以单位矩阵 I 都等于其本身:A * I = I * A = A
。 - 上三角矩阵 (Upper Triangular Matrix): 方阵中,主对角线以下的元素全为零 (
i > j
时aᵢⱼ = 0
)。 - 下三角矩阵 (Lower Triangular Matrix): 方阵中,主对角线以上的元素全为零 (
i < j
时aᵢⱼ = 0
)。 - 对称矩阵 (Symmetric Matrix): 方阵满足
aᵢⱼ = aⱼᵢ
(即Aᵀ = A
)。 - 反对称矩阵 (Skew-Symmetric Matrix): 方阵满足
aᵢⱼ = -aⱼᵢ
(即Aᵀ = -A
),主对角线元素必须为零。 - 正交矩阵 (Orthogonal Matrix): 方阵满足
AᵀA = AAᵀ = I
。正交矩阵的行(列)向量构成标准正交基。
二、矩阵的运算
矩阵的加法:
- 条件: 两个矩阵同型(即行数和列数分别相等)。
- 定义: 对应位置的元素相加。
- 运算律:
- 交换律:
A + B = B + A
- 结合律:
(A + B) + C = A + (B + C)
- 零元:
A + O = A
- 负元:
A + (-A) = O
(其中-A
是A
的负矩阵,每个元素取相反数)
- 交换律:
矩阵的数乘:
- 定义: 一个数
k
乘以一个矩阵 A,等于用k
乘以 A 中的每一个元素。 - 运算律:
k(A + B) = kA + kB
(k + l)A = kA + lA
k(lA) = (kl)A
1 * A = A
(-1) * A = -A
- 定义: 一个数
矩阵的乘法:
- 条件: 第一个矩阵 A 的列数必须等于第二个矩阵 B 的行数。若 A 是
m × p
矩阵,B 是p × n
矩阵,则它们的乘积 C = A × B (或 AB) 是一个m × n
矩阵。 - 定义: 乘积 C 的第
i
行第j
列的元素cᵢⱼ
等于 A 的第i
行元素与 B 的第j
列对应元素的乘积之和:
cᵢⱼ = aᵢ₁b₁ⱼ + aᵢ₂b₂ⱼ + ... + aᵢₚbₚⱼ = Σ_{k=1}^p (aᵢₖ * bₖⱼ)
- 重要性质:
- 不满足交换律: 一般情况下,
AB ≠ BA
。即使AB
有意义,BA
可能无意义;即使两者都有意义,结果通常也不同。 - 满足结合律:
(AB)C = A(BC)
- 满足分配律:
A(B + C) = AB + AC
和(B + C)A = BA + CA
- 单位矩阵是乘法单位元:
A * I = I * A = A
(其中 I 的阶数需与乘法相容) - 零矩阵的性质:
A * O = O
,O * A = O
(零矩阵的阶数需与乘法相容) - 与数乘结合律:
k(AB) = (kA)B = A(kB)
- 不满足交换律: 一般情况下,
- 意义: 矩阵乘法表示线性变换的复合。如果矩阵 A 表示一个线性变换,矩阵 B 表示另一个线性变换,那么
AB
表示先进行 B 变换,再进行 A 变换。
- 条件: 第一个矩阵 A 的列数必须等于第二个矩阵 B 的行数。若 A 是
矩阵的转置 (Transpose):
- 定义: 将矩阵 A 的行和列互换得到的新矩阵,称为 A 的转置矩阵,记作 Aᵀ 或 A’。即如果
A = [aᵢⱼ]_{m×n}
,则Aᵀ = [aⱼᵢ]_{n×m}
。 - 运算律:
(Aᵀ)ᵀ = A
(A + B)ᵀ = Aᵀ + Bᵀ
(kA)ᵀ = kAᵀ
(AB)ᵀ = BᵀAᵀ
(非常重要!顺序反转)
- 定义: 将矩阵 A 的行和列互换得到的新矩阵,称为 A 的转置矩阵,记作 Aᵀ 或 A’。即如果
方阵的行列式 (Determinant):
- 定义: 仅对方阵定义。行列式是一个标量值,通过矩阵元素按特定规则(递归定义或拉普拉斯展开)计算得出。记作
det(A)
或|A|
。 - 性质: (设 A, B 为 n 阶方阵,k 为常数)
|Aᵀ| = |A|
|kA| = kⁿ|A|
|AB| = |A||B|
(非常重要!)- 互换矩阵的两行(列),行列式变号。
- 如果矩阵有两行(列)相同或成比例,则行列式为 0。
- 将矩阵的某一行(列)乘以常数 k 加到另一行(列)上,行列式值不变。
- 上(下)三角矩阵的行列式等于主对角线上元素的乘积。
- 意义: 行列式具有深刻的几何意义(表示线性变换对体积的缩放因子)和代数意义(判断矩阵是否可逆、求解线性方程组等)。
- 定义: 仅对方阵定义。行列式是一个标量值,通过矩阵元素按特定规则(递归定义或拉普拉斯展开)计算得出。记作
方阵的迹 (Trace):
- 定义: 仅对方阵定义。迹是矩阵主对角线上所有元素的和。记作
tr(A)
。 - 性质:
tr(A + B) = tr(A) + tr(B)
tr(kA) = k * tr(A)
tr(AB) = tr(BA)
(即使AB ≠ BA
也成立)tr(A) = tr(Aᵀ)
- 意义: 在线性代数、微分方程、物理学(如量子力学)中有应用,表示某些不变量。
- 定义: 仅对方阵定义。迹是矩阵主对角线上所有元素的和。记作
方阵的逆 (Inverse):
- 定义: 对于 n 阶方阵 A,如果存在另一个 n 阶方阵 B,使得
AB = BA = I
(I 是 n 阶单位矩阵),则称 A 是可逆矩阵或非奇异矩阵,称 B 是 A 的逆矩阵,记作 A⁻¹。不是所有方阵都有逆矩阵,不可逆的方阵称为奇异矩阵。 - 存在条件:
A
可逆的充分必要条件是|A| ≠ 0
。 - 求逆方法:
- 伴随矩阵法:
A⁻¹ = (1 / |A|) * adj(A)
(其中adj(A)
是 A 的伴随矩阵,由 A 的代数余子式构成)。 - 初等行变换法(高斯-若尔当消元法): 将
[A | I]
通过初等行变换化为[I | B]
,则B = A⁻¹
。这是最常用的方法。
- 伴随矩阵法:
- 性质: (设 A, B 为可逆 n 阶方阵,k 为非零常数)
(A⁻¹)⁻¹ = A
(kA)⁻¹ = (1/k)A⁻¹
(AB)⁻¹ = B⁻¹A⁻¹
(非常重要!顺序反转)(Aᵀ)⁻¹ = (A⁻¹)ᵀ
|A⁻¹| = 1 / |A|
- 意义: 逆矩阵对应于线性变换的逆变换。求解矩阵方程
AX = B
时,如果A
可逆,则X = A⁻¹B
。
- 定义: 对于 n 阶方阵 A,如果存在另一个 n 阶方阵 B,使得
三、矩阵的初等变换与矩阵的秩
初等行(列)变换:
- 以下三种变换称为矩阵的初等行变换:
- (倍法变换) 用一个非零常数
k
乘矩阵的某一行 (rᵢ ← k * rᵢ
)。 - (消法变换) 把矩阵某一行的
k
倍加到另一行上 (rⱼ ← rⱼ + k * rᵢ
)。 - (换法变换) 互换矩阵中两行的位置 (
rᵢ ↔ rⱼ
)。
- (倍法变换) 用一个非零常数
- 将上述“行”换成“列”,即得初等列变换。
- 初等矩阵: 由单位矩阵 I 经过一次初等变换得到的矩阵称为初等矩阵。初等矩阵都是可逆的。
- 重要定理: 对矩阵 A 施行一次初等行变换,相当于在 A 的左边乘以相应的初等矩阵;对矩阵 A 施行一次初等列变换,相当于在 A 的右边乘以相应的初等矩阵。
- 以下三种变换称为矩阵的初等行变换:
行阶梯形矩阵 (Row Echelon Form):
- 一个矩阵称为行阶梯形矩阵,如果它满足:
- 零行(元素全为零的行)位于非零行的下方。
- 非零行的第一个非零元(称为该行的首非零元或主元)的列标,随着行标的增大而严格增大(即每个主元都在前一行的主元的右边)。
- 简化行阶梯形矩阵 (Reduced Row Echelon Form - RREF): 在行阶梯形的基础上,还满足:
- 每个非零行的主元都是 1。
- 主元所在列的其它元素全为 0。
- 定理: 任何矩阵都可以通过有限次初等行变换化为行阶梯形矩阵,并进一步化为简化行阶梯形矩阵。简化行阶梯形矩阵是唯一的。
- 一个矩阵称为行阶梯形矩阵,如果它满足:
矩阵的秩 (Rank):
- 定义:
- 行秩: 矩阵的行向量组的最大线性无关组所含向量的个数。
- 列秩: 矩阵的列向量组的最大线性无关组所含向量的个数。
- 重要定理: 对于任意矩阵,其行秩等于其列秩。这个公共值称为矩阵的秩,记作
rank(A)
或r(A)
。
- 性质:
0 ≤ rank(A_{m×n}) ≤ min{m, n}
rank(A) = rank(Aᵀ)
- 初等变换不改变矩阵的秩。
rank(AB) ≤ min{rank(A), rank(B)}
- 若 P, Q 可逆,则
rank(PAQ) = rank(A)
。
- 计算方法:
- 利用初等行变换将矩阵化为行阶梯形矩阵。行阶梯形矩阵中非零行的行数就是原矩阵的秩。
- 利用初等行变换将矩阵化为简化行阶梯形矩阵。非零行的行数也是秩。
- 意义: 秩是矩阵最重要的特征之一,它反映了矩阵行(列)向量之间的线性相关性,以及矩阵所表示的线性方程组的独立方程个数、线性变换的像空间的维数(秩=像空间的维数)等。
- 定义:
四、线性方程组与矩阵
线性方程组可以非常方便地用矩阵表示和求解。
矩阵表示:
n
元线性方程组:
a₁₁x₁ + a₁₂x₂ + ... + a₁ₙxₙ = b₁
a₂₁x₁ + a₂₂x₂ + ... + a₂ₙxₙ = b₂
...
aₘ₁x₁ + aₘ₂x₂ + ... + aₘₙxₙ = bₘ
- 可以写成矩阵形式:
AX = B
- A 是
m × n
的系数矩阵:A = [aᵢⱼ]_{m×n}
- X 是
n × 1
的未知数列向量:X = [x₁, x₂, ..., xₙ]ᵀ
- B 是
m × 1
的常数项列向量:B = [b₁, b₂, ..., bₘ]ᵀ
- A 是
- 将系数矩阵 A 和常数项矩阵 B 合并写成的矩阵
[A | B]
称为方程组的增广矩阵 (Augmented Matrix),记作Ā
。
解的判定(克莱姆法则与一般情况):
- 克莱姆法则 (Cramer’s Rule): 只适用于方程个数等于未知数个数 (
m = n
) 且系数行列式|A| ≠ 0
的方程组。此时方程组有唯一解,解为:
x_j = |Aⱼ| / |A|
(j = 1, 2, …, n)
其中Aⱼ
是将系数矩阵 A 的第j
列替换成常数项向量 B 后得到的矩阵。 - 一般情况 (
m
和n
任意): 利用矩阵的秩判断解的情况:- 有解的充分必要条件是:系数矩阵 A 的秩等于增广矩阵
Ā = [A | B]
的秩,即rank(A) = rank(Ā)
。- 当
rank(A) = rank(Ā) = n
(未知数个数) 时,方程组有唯一解。 - 当
rank(A) = rank(Ā) = r < n
时,方程组有无穷多解,且有n - r
个自由变量。
- 当
- 如果
rank(A) < rank(Ā)
,则方程组无解。
- 有解的充分必要条件是:系数矩阵 A 的秩等于增广矩阵
- 克莱姆法则 (Cramer’s Rule): 只适用于方程个数等于未知数个数 (
求解方法:
- 高斯消元法 (Gaussian Elimination): 对增广矩阵
Ā
进行初等行变换,将其化为行阶梯形矩阵。然后从最后一行开始,逐行回代求解。 - 高斯-若尔当消元法 (Gauss-Jordan Elimination): 对增广矩阵
Ā
进行初等行变换,将其化为简化行阶梯形矩阵。此时解可以直接从简化后的矩阵中读出(主元列对应的未知数用自由变量表示)。
- 高斯消元法 (Gaussian Elimination): 对增广矩阵
五、特征值与特征向量
特征值和特征向量是方阵的重要属性,在物理、化学、工程、数据科学(如主成分分析 PCA)等领域有广泛应用。
定义:
- 设 A 是
n
阶方阵。如果存在一个非零列向量 X 和一个数λ
,使得AX = λX
成立,则称:λ
是矩阵 A 的一个特征值 (Eigenvalue)。- 非零向量 X 是矩阵 A 对应于特征值
λ
的特征向量 (Eigenvector)。
- 设 A 是
求解方法:
- 写出特征方程: 将定义式
AX = λX
变形为(A - λI)X = 0
。这是一个齐次线性方程组。 - 特征多项式: 要使这个齐次方程组有非零解 X,其系数矩阵
(A - λI)
的行列式必须为零:|A - λI| = 0
。 - 求特征值:
|A - λI| = 0
是一个关于λ
的n
次多项式方程,称为矩阵 A 的特征方程。该方程的根λ₁, λ₂, ..., λₙ
(可能有重根和复根) 就是 A 的所有特征值。 - 求特征向量: 对每个特征值
λᵢ
,解齐次线性方程组(A - λᵢI)X = 0
。该方程组的所有非零解向量,就是对应于特征值λᵢ
的特征向量。这些特征向量构成一个线性空间(称为对应于λᵢ
的特征子空间),其维数(基础解系所含向量个数)称为特征值λᵢ
的几何重数。特征值作为特征方程根的重数称为其代数重数。
- 写出特征方程: 将定义式
重要性质:
tr(A) = λ₁ + λ₂ + ... + λₙ
(所有特征值之和等于迹)。|A| = λ₁ * λ₂ * ... * λₙ
(所有特征值之积等于行列式)。- 不同特征值对应的特征向量线性无关。
- 若 A 是实对称矩阵 (
Aᵀ = A
),则:- 所有特征值都是实数。
- 不同特征值对应的特征向量相互正交。
- 存在正交矩阵 Q (即
QᵀQ = I
),使得QᵀAQ = Λ
,其中Λ
是由 A 的特征值组成的对角矩阵(谱定理)。这意味着实对称矩阵总可以正交对角化。
六、矩阵对角化
定义:
- 对于一个
n
阶方阵 A,如果存在一个可逆矩阵 P,使得P⁻¹AP = Λ
是一个对角矩阵Λ = diag(λ₁, λ₂, ..., λₙ)
,则称矩阵 A 可对角化 (Diagonalizable),称 P 为对角化矩阵。
- 对于一个
可对角化的条件:
n
阶方阵 A 可对角化的充分必要条件是 A 有n
个线性无关的特征向量。- 等价条件:
- A 的所有特征值的代数重数都等于其几何重数。
- (实对称矩阵总是可以对角化,且可以用正交矩阵对角化)。
对角化的步骤:
- 求出 A 的所有特征值
λ₁, λ₂, ..., λₙ
(包括重根)。 - 对每个特征值
λᵢ
,求出其对应的线性无关的特征向量(即求解(A - λᵢI)X = 0
的基础解系)。 - 如果总共能找到
n
个线性无关的特征向量X₁, X₂, ..., Xₙ
,则 A 可对角化。 - 以这
n
个线性无关的特征向量作为列向量,构造可逆矩阵 P = [X₁, X₂, …, Xₙ]。 - 构造对角矩阵 Λ,其主对角线上的元素依次是 P 中特征向量对应的特征值
λ₁, λ₂, ..., λₙ
(顺序必须与 P 中特征向量的顺序一致)。 - 则有
P⁻¹AP = Λ
或A = PΛP⁻¹
。
- 求出 A 的所有特征值
意义:
- 对角化极大地简化了矩阵的运算,特别是矩阵的高次幂运算:
Aᵏ = PΛᵏP⁻¹
,而Λᵏ
只需将对角线上的元素取k
次方即可。 - 揭示了矩阵的内在结构(特征值和特征向量)。
- 是研究线性变换、动力系统、微分方程、马尔可夫链等的重要工具。
- 对角化极大地简化了矩阵的运算,特别是矩阵的高次幂运算:
七、二次型与对称矩阵
二次型 (Quadratic Form):
- 定义:
n
个变量x₁, x₂, ..., xₙ
的二次齐次多项式函数称为二次型:
f(x₁, x₂, ..., xₙ) = a₁₁x₁² + a₂₂x₂² + ... + aₙₙxₙ² + 2a₁₂x₁x₂ + 2a₁₃x₁x₃ + ... + 2a₍ₙ₋₁₎ₙxₙ₋₁xₙ
= Σ_{i=1}^n aᵢᵢxᵢ² + 2 Σ_{1≤i<j≤n}^n aᵢⱼxᵢxⱼ
- 矩阵表示: 任何二次型都可以唯一地表示为一个对称矩阵 A 和向量 X = [x₁, x₂, …, xₙ]ᵀ 的乘积形式:
f(X) = XᵀAX
其中 A 是一个n
阶实对称矩阵,称为该二次型的矩阵。aᵢⱼ
是 A 的元素,且aᵢⱼ = aⱼᵢ
。
- 定义:
合同变换:
- 定义: 对于两个
n
阶方阵 A 和 B,如果存在一个n
阶可逆矩阵 C,使得B = CᵀAC
成立,则称 A 与 B 合同 (Congruent)。 - 性质: 合同关系是等价关系(自反、对称、传递)。合同矩阵具有相同的秩(称为二次型的秩)和相同的正负惯性指数(见下)。
- 定义: 对于两个
化二次型为标准形:
- 标准形: 只包含平方项、不含交叉项的二次型:
f = d₁y₁² + d₂y₂² + ... + dₙyₙ²
- 目标: 寻找一个可逆的线性变换
X = CY
(其中 C 可逆),将原二次型f = XᵀAX
化为标准形g = YᵀDY = d₁y₁² + d₂y₂² + ... + dₙyₙ²
,其中D = CᵀAC = diag(d₁, d₂, ..., dₙ)
。 - 方法:
- 配方法: 对变量逐个配方。
- 正交变换法: 利用实对称矩阵可正交对角化的性质。
- 求出二次型矩阵 A 的特征值
λ₁, λ₂, ..., λₙ
和对应的正交单位特征向量(即求得正交矩阵 Q 使得QᵀAQ = Λ = diag(λ₁, λ₂, ..., λₙ)
)。 - 作正交变换
X = QY
(正交变换保持向量的长度和角度不变,是一种特殊的合同变换)。 - 则
f = XᵀAX = (QY)ᵀA(QY) = Yᵀ(QᵀAQ)Y = YᵀΛY = λ₁y₁² + λ₂y₂² + ... + λₙyₙ²
。
- 求出二次型矩阵 A 的特征值
- 初等变换法: 同时对矩阵 A 进行相同的初等行变换和初等列变换(相当于在两边乘以初等矩阵及其转置),将其化为对角矩阵。
- 标准形: 只包含平方项、不含交叉项的二次型:
惯性定理与规范形:
- 惯性定理: 对于一个实二次型
f = XᵀAX
(A
实对称),不论用何种可逆线性变换将其化为标准形,其中:- 正平方项的个数
p
总是相同的。 - 负平方项的个数
q
总是相同的。 p + q = rank(A)
(二次型的秩)。- 零项的个数
r - (p + q)
也相同。
- 正平方项的个数
- 称
p
为正惯性指数,q
为负惯性指数,p - q
称为符号差。 - 规范形: 二次型可以进一步化为只由
+1
,-1
,0
构成的规范标准形:
f = y₁² + y₂² + ... + yₚ² - yₚ₊₁² - ... - yₚ₊q²
其中p
和q
由惯性定理唯一确定。
- 惯性定理: 对于一个实二次型
正定二次型与正定矩阵:
- 定义: 对于实二次型
f(X) = XᵀAX
(其中 A 是实对称矩阵):- 如果对任意非零实向量
X ≠ 0
,都有f(X) > 0
,则称f
为正定二次型,称 A 为正定矩阵。 - 如果对任意
X
,都有f(X) ≥ 0
,则称f
为半正定二次型,称 A 为半正定矩阵。
- 如果对任意非零实向量
- 判别条件 (A 是实对称矩阵):
- A 正定 的充分必要条件:
A
的所有特征值λᵢ > 0
。A
的所有顺序主子式都大于零。A
的正惯性指数p = n
。- 存在可逆矩阵 C,使得
A = CᵀC
。
- A 半正定 的充分必要条件:
A
的所有特征值λᵢ ≥ 0
。A
的所有主子式都大于等于零(注意:不仅仅是顺序主子式)。A
的正惯性指数p = rank(A)
(负惯性指数q = 0
)。- 存在矩阵 C (不一定可逆),使得
A = CᵀC
。
- A 正定 的充分必要条件:
- 意义: 正定矩阵在优化(如判断极值点)、最小二乘法、概率统计(协方差矩阵)、微分方程稳定性分析中非常重要。
- 定义: 对于实二次型
总结
矩阵理论是高等数学(线性代数)的核心内容,提供了强大的工具来处理线性关系、变换和系统。掌握矩阵的基本运算(加法、数乘、乘法、转置、求逆)、秩、特征值与特征向量、对角化以及二次型理论,是理解和应用线性代数解决实际问题的关键基础。这些知识在科学、工程、经济、计算机等几乎所有定量学科中都有广泛而深刻的应用。
这份讲解涵盖了高等数学(主要是工科或非数学专业)要求的核心矩阵知识。数学专业会深入到更抽象的线性空间、线性变换、若尔当标准形、矩阵分解等更高级的内容。希望这份详细的讲解能帮助你系统地掌握矩阵知识!如果你对某个具体部分有更深入的问题,可以随时提出。