矩阵和向量的双重视角 w⃗=Av⃗\vec{w} = A \vec{v}w=Av
总结
线性代数并非一堆孤立的计算规则,而是一套描述空间、变换与数据的统一语言。其核心在于理解两个相辅相成的视角:
- 矩阵作为函数(主动变换):矩阵是一个机器,对空间中的物体(向量)进行旋转、缩放等操作。
- 向量作为坐标(被动变换):向量是一个点在某坐标系下的地址。改变坐标系,点的“地址”随之改变。
如何理解 w⃗=Av⃗\vec{w} = A \vec{v}w=Av
在标量运算中:y=k⋅x
- k 是一个缩放因子。它决定了数 x 被放大或缩小多少倍。
- 这是一个一维的线性变换。
在线性代数中: w⃗=Av⃗\vec{w} = A \vec{v}w=Av
- 矩阵 A 是一个变换因子。它决定了一个向量 v 被如何“放大”、“缩小”、“旋转”、“剪切”。
- 这是一个高维的线性变换。矩阵 A 就像是作用于整个向量上的一个复杂的、多方向的“超级因子”。
视角一:矩阵作为函数(主动变换)
在这个视角下,我们固定一个坐标系(通常为标准直角坐标系),让矩阵对物体本身进行操作。
1. 矩阵是线性变换函数
- 一个 m×nm \times nm×n 矩阵 AAA 定义了一个从 Rn\mathbb{R}^nRn 到 Rm\mathbb{R}^mRm 的线性映射(函数):
w⃗=Av⃗\vec{w} = A \vec{v}w=Av- 输入:一个向量 v⃗\vec{v}v(旧点)。
- 输出:另一个向量 w⃗\vec{w}w(新点)。
- “线性”意味着:这个函数满足叠加性 (A(u⃗+v⃗)=Au⃗+Av⃗A(\vec{u}+\vec{v}) = A\vec{u} + A\vec{v}A(u+v)=Au+Av) 和齐次性 (A(cv⃗)=c(Av⃗)A(c\vec{v}) = c(A\vec{v})A(cv)=c(Av))。
2. 几何解释:变换空间中的物体
- 单位矩阵 III:是“恒等函数”,w⃗=Iv⃗=v⃗\vec{w} = I \vec{v} = \vec{v}w=Iv=v,物体保持不变。
- 缩放矩阵 (s00s)\begin{pmatrix} s & 0 \\ 0 & s \end{pmatrix}(s00s):将物体均匀缩放 sss 倍。
- 旋转矩阵 (cosθ−sinθsinθcosθ)\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}(cosθsinθ−sinθcosθ):将物体旋转 θ\thetaθ 角。
- 剪切矩阵:使物体发生倾斜。
操作流程:
- 设定一个固定的参考系(通常为标准坐标系)。
- 有一个几何体,由其上一系列点 {v⃗1,v⃗2,...}\{ \vec{v}_1, \vec{v}_2, ... \}{v1,v2,...} 描述。
- 选择一个变换矩阵 AAA,对每一个点进行运算:v⃗i′=Av⃗i\vec{v}_i' = A \vec{v}_ivi′=Avi。
- 所有新点 {v⃗1′,v⃗2′,...}\{ \vec{v}_1', \vec{v}_2', ... \}{v1′,v2′,...} 构成了变换后的新几何体。
结论:在此视角下,坐标系是静止的,物体在动。
3. 信息视角:矩阵作为信息处理器
线性变换 w⃗=Av⃗\vec{w} = A \vec{v}w=Av 的输入输出维度关系 (m×n)(m \times n)(m×n),决定了其处理信息的方式:
情况一:m<nm < nm<n (降维,压缩映射)
- 生动例子:原始数据是一个人的体重 www 和身高 hhh(2个特征,v⃗∈R2\vec{v} \in \mathbb{R}^2v∈R2)。使用一个 1×21 \times 21×2 的矩阵 A=[1,−1]A = [1, -1]A=[1,−1] 进行变换:
w⃗=Av⃗=[1,−1][wh]=w−h\vec{w} = A\vec{v} = [1, -1] \begin{bmatrix} w \\ h \end{bmatrix} = w - hw=Av=[1,−1][wh]=w−h
结果 w⃗\vec{w}w 是“体重与身高之差”(1个特征)。 - 信息流向:从高维空间 Rn\mathbb{R}^nRn 映射到低维空间 Rm\mathbb{R}^mRm。
- 信息损失:信息发生了不可逆的损失。无数个不同的 (w,h)(w, h)(w,h) 组合经过变换可能得到同一个 w−hw-hw−h 值。无法从结果唯一地反推出原始的 www 和 hhh。
- 在后面线性方程组那也是,数据不够,或者信息重复的方程组是没有唯一解的,是不确定的
情况二:m=nm = nm=n 且 AAA 满秩 (可逆变换,双射)
- 生动例子:原始数据同样是 (w,h)(w, h)(w,h)(v⃗∈R2\vec{v} \in \mathbb{R}^2v∈R2)。使用一个满秩的 2×22 \times 22×2 矩阵 A=[1−111]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix}A=[11−11] 进行变换:
w⃗=Av⃗=[1−111][wh]=[w−hw+h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \end{bmatrix}w=Av=[11−11][wh]=[w−hw+h]
结果是由“体重身高差”和“体重身高和”构成的新二维特征。 - 信息流向:在同一维度的空间 Rn\mathbb{R}^nRn 内进行变换。
- 信息保持:信息没有丢失,只是被重新编码了。因为变换是可逆的(存在 A−1A^{-1}A−1),你可以从新特征 (w−h,w+h)(w-h, w+h)(w−h,w+h) 精确地反解出原始的 (w,h)(w, h)(w,h)。
- 典型应用:坐标变换、解耦。将数据转换到另一个视角或坐标系下进行分析,过程完全可逆(如求解微分方程时的特征分解)。
情况三:m>nm > nm>n (升维,嵌入)
- 生动例子:原始数据还是 (w,h)(w, h)(w,h)(v⃗∈R2\vec{v} \in \mathbb{R}^2v∈R2)。使用一个 3×23 \times 23×2 的矩阵 A=[1−11112]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}A=
111−112
进行变换:
w⃗=Av⃗=[1−11112][wh]=[w−hw+hw+2h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \\ w + 2h \end{bmatrix}w=Av= 111−112 [wh]= w−hw+hw+2h
结果是一个三维向量。 - 信息流向:从低维空间 Rn\mathbb{R}^nRn 映射到高维空间 Rm\mathbb{R}^mRm。
- 信息保持?:原始信息没有增加。新特征全是原始特征的线性组合,并未提供真正独立的新信息。所有输出 w⃗\vec{w}w 都分布在一个嵌入在高维空间中的二维子空间(称为列空间)里。
- 典型应用:特征扩展。有时在低维中线性不可分的数据,映射到高维会变得线性可分(这构成了核方法的思想基础)。
所以呢,出题老师就像这个给定一些信息的人,我们呢就是那个变换矩阵只能从已知的条件推出无数种结论,但是呢这些条件实际是重复的,如果题目问一个这些条件推不出的结论,再怎么牛逼也是推不出来的
核心概念:秩 (Rank)
矩阵的秩衡量了变换 AAA 所能产生的独立信息的最大数量(即列空间的维度)。
- 秩 ≤min(m,n)\leq \min(m, n)≤min(m,n)。
- 秩决定了信息的“真实”维度:在升维映射中,若秩 r<nr < nr<n,则意味着原始数据本身存在冗余。
视角二:向量作为坐标(被动变换)
相当于某个几何世界由三个最基本的,向量组成,这三个向量通过线性变换,得到了这个世界的万事万物,然后来了一股东方的神秘力量,要改变这个基,那么这个世界的所有物体都要发生变形
或者说,这个世界的元素,本质是原子,通过一系列组合,变成了这个世界的万事万物,然后三体人,要改变这个世界的有些元素,那么这个世界的基发生变化了,所有的物体都的变
在这个视角下,物体在空间中的绝对位置是固定的,我们改变的是描述它的坐标系(参考系)。
1. 向量是相对于坐标系的坐标
- 一个向量 v⃗=(x,y,z)T\vec{v} = (x, y, z)^Tv=(x,y,z)T 并非一个绝对概念,它是一组坐标,表示一个点在某个特定坐标系下的“地址”。
- 标准坐标系:由基向量 i^=(1,0,0)T\hat{i} = (1,0,0)^Ti^=(1,0,0)T, j^=(0,1,0)T\hat{j} = (0,1,0)^Tj^=(0,1,0)T, k^=(0,0,1)T\hat{k} = (0,0,1)^Tk^=(0,0,1)T 张成。其基矩阵为单位矩阵 III。
2. 改变坐标系
- 我们可以选择另一组线性无关的向量 {b⃗1,b⃗2,b⃗3}\{\vec{b}_1, \vec{b}_2, \vec{b}_3\}{b1,b2,b3} 作为新基,定义一个新坐标系。
- 设矩阵 P=[b⃗1b⃗2b⃗3]P = \begin{bmatrix} \vec{b}_1 & \vec{b}_2 & \vec{b}_3 \end{bmatrix}P=[b1b2b3],其列向量就是新坐标系的基向量。
- 同一个点,如何用新坐标 v⃗new\vec{v}_{\text{new}}vnew 表示旧坐标 v⃗old\vec{v}_{\text{old}}vold?
- 旧坐标:点在标准坐标系下的坐标 v⃗old\vec{v}_{\text{old}}vold。
- 新坐标:点在新坐标系 PPP 下的坐标 v⃗new\vec{v}_{\text{new}}vnew。
- 坐标变换公式:
v⃗old=Pv⃗new\vec{v}_{\text{old}} = P \vec{v}_{\text{new}}vold=Pvnew
v⃗new=P−1v⃗old\vec{v}_{\text{new}} = P^{-1} \vec{v}_{\text{old}}vnew=P−1vold
- 矩阵 PPP 的几何意义:PPP 本身也是一个线性变换。Pv⃗newP \vec{v}_{\text{new}}Pvnew 的含义是:“构造一个点,它在新坐标系下的坐标为 v⃗new\vec{v}_{\text{new}}vnew,请问它在标准坐标系下的坐标是多少?”
结论:在此视角下,物体是静止的,坐标系在动。物体的坐标值因其所在坐标系的不同而不同。
视角的统一:两种操作的等价性
这是最精妙的部分。主动变换物体和被动变换坐标系,在数学效果上可以等价。
等价关系
假设你想对物体实施一个变换 AAA(主动变换)。
- 方法一(主动):在标准坐标系下,直接计算 v⃗′=Av⃗\vec{v}' = A \vec{v}v′=Av,就是高等数学的配凑和硬算
- 方法二(被动):不动物体,而是将你的整个观察视角(坐标系)进行一个逆变换。你切换到新坐标系 B=A−1B = A^{-1}B=A−1 下来观察静止的物体。就是高等数学的换元法
- 在新坐标系 BBB 下,原静止物体的坐标变为 v⃗new=Bv⃗=A−1v⃗\vec{v}_{\text{new}} = B \vec{v} = A^{-1} \vec{v}vnew=Bv=A−1v。
- 关键点:此时,如果你在新坐标系 BBB 下“看到”的坐标 v⃗new\vec{v}_{\text{new}}vnew,恰好等于方法一中变换后物体在标准系下的坐标 v⃗′\vec{v}'v′。
数学表达:
“在旧系下用 AAA 变换物体” 等价于 “将坐标系变为 B=A−1B = A^{-1}B=A−1 后去观察静止的物体”。
Av⃗(主动变换的结果)A \vec{v} \quad \text{(主动变换的结果)}Av(主动变换的结果)
v⃗new=A−1v⃗(被动变换后的坐标)\vec{v}_{\text{new}} = A^{-1} \vec{v} \quad \text{(被动变换后的坐标)}vnew=A−1v(被动变换后的坐标)
注意:这是两个不同的向量,存在于不同的坐标系中,但它们描述了空间中的同一个点位置。
意义
这种等价性揭示了线性代数的深刻内涵:
- 矩阵 AAA 具有双重身份:
- 作为一个变换算子(主动:AAA)。
- 作为一个坐标变换的生成器(被动:A−1A^{-1}A−1 定义了新系)。
- 灵活性:为解决一个问题,我们可以自由选择最方便的视角。有时移动物体更容易,有时改变视角更简单。
总结与应用
特性 | 主动变换 (Active Transformation) | 被动变换 (Passive Transformation) |
---|---|---|
操作对象 | 物体在空间中的位置和形状 | 观察物体的坐标系(参考系) |
数学操作 | v⃗′=Av⃗\vec{v}' = A \vec{v}v′=Av | v⃗new=P−1v⃗old\vec{v}_{\text{new}} = P^{-1} \vec{v}_{\text{old}}vnew=P−1vold |
矩阵角色 | AAA 是变换算子 | PPP 是新坐标系的基矩阵 |
几何意义 | 坐标系固定,物体被扭曲、旋转、缩放 | 物体固定,其坐标表示因坐标系改变而改变 |
典型应用 | 计算机图形学(旋转、缩放模型) | 物理学(在不同参考系中求解问题)、数据降维(PCA) |