矩阵和向量的双重视角

发布于:2025-09-07 ⋅ 阅读:(21) ⋅ 点赞:(0)

矩阵和向量的双重视角 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

总结

线性代数并非一堆孤立的计算规则,而是一套描述空间、变换与数据的统一语言。其核心在于理解两个相辅相成的视角:

  1. 矩阵作为函数(主动变换):矩阵是一个机器,对空间中的物体(向量)进行旋转、缩放等操作。
  2. 向量作为坐标(被动变换):向量是一个点在某坐标系下的地址。改变坐标系,点的“地址”随之改变。

如何理解 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

  • 在标量运算中​:y=k⋅x

    • k 是一个缩放因子。它决定了数 x 被放大或缩小多少倍。
    • 这是一个一维的线性变换。
  • 在线性代数中​: w⃗=Av⃗\vec{w} = A \vec{v}w =Av

    • 矩阵 A 是一个变换因子。它决定了一个向量 v 被如何“放大”、“缩小”、“旋转”、“剪切”。
    • 这是一个高维的线性变换。​矩阵 A 就像是作用于整个向量上的一个复杂的、多方向的“超级因子”​

视角一:矩阵作为函数(主动变换)

在这个视角下,我们固定一个坐标系(通常为标准直角坐标系),让矩阵对物体本身进行操作。

1. 矩阵是线性变换函数

  • 一个 m×nm \times nm×n 矩阵 AAA 定义了一个从 Rn\mathbb{R}^nRnRm\mathbb{R}^mRm线性映射(函数):
    w⃗=Av⃗\vec{w} = A \vec{v}w =Av
    • 输入:一个向量 v⃗\vec{v}v (旧点)。
    • 输出:另一个向量 w⃗\vec{w}w (新点)。
  • “线性”意味着:这个函数满足叠加性 (A(u⃗+v⃗)=Au⃗+Av⃗A(\vec{u}+\vec{v}) = A\vec{u} + A\vec{v}A(u +v )=Au +Av ) 和齐次性 (A(cv⃗)=c(Av⃗)A(c\vec{v}) = c(A\vec{v})A(cv )=c(Av ))。

2. 几何解释:变换空间中的物体

  • 单位矩阵 III:是“恒等函数”,w⃗=Iv⃗=v⃗\vec{w} = I \vec{v} = \vec{v}w =Iv =v ,物体保持不变。
  • 缩放矩阵 (s00s)\begin{pmatrix} s & 0 \\ 0 & s \end{pmatrix}(s00s):将物体均匀缩放 sss 倍。
  • 旋转矩阵 (cos⁡θ−sin⁡θsin⁡θcos⁡θ)\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}(cosθsinθsinθcosθ):将物体旋转 θ\thetaθ 角。
  • 剪切矩阵:使物体发生倾斜。

操作流程

  1. 设定一个固定的参考系(通常为标准坐标系)。
  2. 有一个几何体,由其上一系列点 {v⃗1,v⃗2,...}\{ \vec{v}_1, \vec{v}_2, ... \}{v 1,v 2,...} 描述。
  3. 选择一个变换矩阵 AAA,对每一个点进行运算:v⃗i′=Av⃗i\vec{v}_i' = A \vec{v}_iv i=Av i
  4. 所有新点 {v⃗1′,v⃗2′,...}\{ \vec{v}_1', \vec{v}_2', ... \}{v 1,v 2,...} 构成了变换后的新几何体。

结论:在此视角下,坐标系是静止的,物体在动

3. 信息视角:矩阵作为信息处理器

线性变换 w⃗=Av⃗\vec{w} = A \vec{v}w =Av 的输入输出维度关系 (m×n)(m \times n)(m×n),决定了其处理信息的方式:

情况一:m<nm < nm<n (降维,压缩映射)
  • 生动例子:原始数据是一个人的体重 www身高 hhh(2个特征,v⃗∈R2\vec{v} \in \mathbb{R}^2v R2)。使用一个 1×21 \times 21×2 的矩阵 A=[1,−1]A = [1, -1]A=[1,1] 进行变换:
    w⃗=Av⃗=[1,−1][wh]=w−h\vec{w} = A\vec{v} = [1, -1] \begin{bmatrix} w \\ h \end{bmatrix} = w - hw =Av =[1,1][wh]=wh
    结果 w⃗\vec{w}w 是“体重与身高之差”(1个特征)。
  • 信息流向:从高维空间 Rn\mathbb{R}^nRn 映射到低维空间 Rm\mathbb{R}^mRm
  • 信息损失信息发生了不可逆的损失。无数个不同的 (w,h)(w, h)(w,h) 组合经过变换可能得到同一个 w−hw-hwh 值。无法从结果唯一地反推出原始的 wwwhhh
  • 在后面线性方程组那也是,数据不够,或者信息重复的方程组是没有唯一解的,是不确定的
情况二:m=nm = nm=nAAA 满秩 (可逆变换,双射)
  • 生动例子:原始数据同样是 (w,h)(w, h)(w,h)v⃗∈R2\vec{v} \in \mathbb{R}^2v R2)。使用一个满秩的 2×22 \times 22×2 矩阵 A=[1−111]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix}A=[1111] 进行变换:
    w⃗=Av⃗=[1−111][wh]=[w−hw+h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \end{bmatrix}w =Av =[1111][wh]=[whw+h]
    结果是由“体重身高差”和“体重身高和”构成的新二维特征。
  • 信息流向:在同一维度的空间 Rn\mathbb{R}^nRn 内进行变换。
  • 信息保持信息没有丢失,只是被重新编码了。因为变换是可逆的(存在 A−1A^{-1}A1),你可以从新特征 (w−h,w+h)(w-h, w+h)(wh,w+h) 精确地反解出原始的 (w,h)(w, h)(w,h)
  • 典型应用坐标变换、解耦。将数据转换到另一个视角或坐标系下进行分析,过程完全可逆(如求解微分方程时的特征分解)。
情况三:m>nm > nm>n (升维,嵌入)
  • 生动例子:原始数据还是 (w,h)(w, h)(w,h)v⃗∈R2\vec{v} \in \mathbb{R}^2v R2)。使用一个 3×23 \times 23×2 的矩阵 A=[1−11112]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}A= 111112 进行变换:
    w⃗=Av⃗=[1−11112][wh]=[w−hw+hw+2h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \\ w + 2h \end{bmatrix}w =Av = 111112 [wh]= whw+hw+2h
    结果是一个三维向量。
  • 信息流向:从低维空间 Rn\mathbb{R}^nRn 映射到高维空间 Rm\mathbb{R}^mRm
  • 信息保持?原始信息没有增加。新特征全是原始特征的线性组合,并未提供真正独立的新信息。所有输出 w⃗\vec{w}w 都分布在一个嵌入在高维空间中的二维子空间(称为列空间)里。
  • 典型应用特征扩展。有时在低维中线性不可分的数据,映射到高维会变得线性可分(这构成了核方法的思想基础)。
    所以呢,出题老师就像这个给定一些信息的人,我们呢就是那个变换矩阵只能从已知的条件推出无数种结论,但是呢这些条件实际是重复的,如果题目问一个这些条件推不出的结论,再怎么牛逼也是推不出来的
核心概念:秩 (Rank)

矩阵的衡量了变换 AAA 所能产生的独立信息的最大数量(即列空间的维度)。

  • ≤min⁡(m,n)\leq \min(m, n)min(m,n)
  • 秩决定了信息的“真实”维度:在升维映射中,若秩 r<nr < nr<n,则意味着原始数据本身存在冗余。

视角二:向量作为坐标(被动变换)

相当于某个几何世界由三个最基本的,向量组成,这三个向量通过线性变换,得到了这个世界的万事万物,然后来了一股东方的神秘力量,要改变这个基,那么这个世界的所有物体都要发生变形
或者说,这个世界的元素,本质是原子,通过一系列组合,变成了这个世界的万事万物,然后三体人,要改变这个世界的有些元素,那么这个世界的基发生变化了,所有的物体都的变
在这个视角下,物体在空间中的绝对位置是固定的,我们改变的是描述它的坐标系(参考系)。

1. 向量是相对于坐标系的坐标

  • 一个向量 v⃗=(x,y,z)T\vec{v} = (x, y, z)^Tv =(x,y,z)T 并非一个绝对概念,它是一组坐标,表示一个点在某个特定坐标系下的“地址”。
  • 标准坐标系:由基向量 i^=(1,0,0)T\hat{i} = (1,0,0)^Ti^=(1,0,0)T, j^=(0,1,0)T\hat{j} = (0,1,0)^Tj^=(0,1,0)T, k^=(0,0,1)T\hat{k} = (0,0,1)^Tk^=(0,0,1)T 张成。其基矩阵为单位矩阵 III

2. 改变坐标系

  • 我们可以选择另一组线性无关的向量 {b⃗1,b⃗2,b⃗3}\{\vec{b}_1, \vec{b}_2, \vec{b}_3\}{b 1,b 2,b 3} 作为新基,定义一个新坐标系。
  • 设矩阵 P=[b⃗1b⃗2b⃗3]P = \begin{bmatrix} \vec{b}_1 & \vec{b}_2 & \vec{b}_3 \end{bmatrix}P=[b 1b 2b 3],其列向量就是新坐标系的基向量。
  • 同一个点,如何用新坐标 v⃗new\vec{v}_{\text{new}}v new 表示旧坐标 v⃗old\vec{v}_{\text{old}}v old
    • 旧坐标:点在标准坐标系下的坐标 v⃗old\vec{v}_{\text{old}}v old
    • 新坐标:点在新坐标系 PPP 下的坐标 v⃗new\vec{v}_{\text{new}}v new
    • 坐标变换公式
      v⃗old=Pv⃗new\vec{v}_{\text{old}} = P \vec{v}_{\text{new}}v old=Pv new
      v⃗new=P−1v⃗old\vec{v}_{\text{new}} = P^{-1} \vec{v}_{\text{old}}v new=P1v old
  • 矩阵 PPP 的几何意义PPP 本身也是一个线性变换。Pv⃗newP \vec{v}_{\text{new}}Pv new 的含义是:“构造一个点,它在新坐标系下的坐标为 v⃗new\vec{v}_{\text{new}}v new,请问它在标准坐标系下的坐标是多少?”

结论:在此视角下,物体是静止的,坐标系在动。物体的坐标值因其所在坐标系的不同而不同。


视角的统一:两种操作的等价性

这是最精妙的部分。主动变换物体和被动变换坐标系,在数学效果上可以等价。

等价关系

假设你想对物体实施一个变换 AAA(主动变换)。

  • 方法一(主动):在标准坐标系下,直接计算 v⃗′=Av⃗\vec{v}' = A \vec{v}v =Av ,就是高等数学的配凑和硬算
  • 方法二(被动)不动物体,而是将你的整个观察视角(坐标系)进行一个逆变换。你切换到新坐标系 B=A−1B = A^{-1}B=A1 下来观察静止的物体。就是高等数学的换元法
    • 在新坐标系 BBB 下,原静止物体的坐标变为 v⃗new=Bv⃗=A−1v⃗\vec{v}_{\text{new}} = B \vec{v} = A^{-1} \vec{v}v new=Bv =A1v
    • 关键点:此时,如果你在新坐标系 BBB 下“看到”的坐标 v⃗new\vec{v}_{\text{new}}v new恰好等于方法一中变换后物体在标准系下的坐标 v⃗′\vec{v}'v

数学表达
“在旧系下用 AAA 变换物体” 等价于 “将坐标系变为 B=A−1B = A^{-1}B=A1 后去观察静止的物体”。
Av⃗(主动变换的结果)A \vec{v} \quad \text{(主动变换的结果)}Av (主动变换的结果)
v⃗new=A−1v⃗(被动变换后的坐标)\vec{v}_{\text{new}} = A^{-1} \vec{v} \quad \text{(被动变换后的坐标)}v new=A1v (被动变换后的坐标)
注意:这是两个不同的向量,存在于不同的坐标系中,但它们描述了空间中的同一个点位置。

意义

这种等价性揭示了线性代数的深刻内涵:

  • 矩阵 AAA 具有双重身份
    1. 作为一个变换算子(主动:AAA)。
    2. 作为一个坐标变换的生成器(被动:A−1A^{-1}A1 定义了新系)。
  • 灵活性:为解决一个问题,我们可以自由选择最方便的视角。有时移动物体更容易,有时改变视角更简单。

总结与应用

特性 主动变换 (Active Transformation) 被动变换 (Passive Transformation)
操作对象 物体在空间中的位置和形状 观察物体的坐标系(参考系)
数学操作 v⃗′=Av⃗\vec{v}' = A \vec{v}v =Av v⃗new=P−1v⃗old\vec{v}_{\text{new}} = P^{-1} \vec{v}_{\text{old}}v new=P1v old
矩阵角色 AAA变换算子 PPP新坐标系的基矩阵
几何意义 坐标系固定,物体被扭曲、旋转、缩放 物体固定,其坐标表示因坐标系改变而改变
典型应用 计算机图形学(旋转、缩放模型) 物理学(在不同参考系中求解问题)、数据降维(PCA)

网站公告

今日签到

点亮在社区的每一天
去签到