矩阵和向量的双重视角-EW帮帮网

矩阵和向量的双重视角 $w⃗=Av⃗\vec{w} = A \vec{v}$

总结

线性代数并非一堆孤立的计算规则，而是一套描述空间、变换与数据的统一语言。其核心在于理解两个相辅相成的视角：

矩阵作为函数（主动变换）：矩阵是一个机器，对空间中的物体（向量）进行旋转、缩放等操作。
向量作为坐标（被动变换）：向量是一个点在某坐标系下的地址。改变坐标系，点的“地址”随之改变。

如何理解 $w⃗=Av⃗\vec{w} = A \vec{v}$

在标量运算中：y=k⋅x
- k 是一个缩放因子。它决定了数 x 被放大或缩小多少倍。
- 这是一个一维的线性变换。
在线性代数中： $w⃗=Av⃗\vec{w} = A \vec{v}$
- 矩阵 A 是一个变换因子。它决定了一个向量 v 被如何“放大”、“缩小”、“旋转”、“剪切”。
- 这是一个高维的线性变换。矩阵 A 就像是作用于整个向量上的一个复杂的、多方向的“超级因子”。

视角一：矩阵作为函数（主动变换）

在这个视角下，我们固定一个坐标系（通常为标准直角坐标系），让矩阵对物体本身进行操作。

1. 矩阵是线性变换函数

一个 $\times n$ 矩阵 $A$ 定义了一个从 $Rn\mathbb{R}^n$ 到 $Rm\mathbb{R}^m$ 的线性映射（函数）：
$w⃗=Av⃗\vec{w} = A \vec{v}$
- 输入：一个向量 $v⃗\vec{v}$ （旧点）。
- 输出：另一个向量 $w⃗\vec{w}$ （新点）。
“线性”意味着：这个函数满足叠加性 ( $A(u⃗+v⃗)=Au⃗+Av⃗A(\vec{u}+\vec{v}) = A\vec{u} + A\vec{v}$ ) 和齐次性 ( $A(cv⃗)=c(Av⃗)A(c\vec{v}) = c(A\vec{v})$ )。

2. 几何解释：变换空间中的物体

单位矩阵 $I$ ：是“恒等函数”， $w⃗=Iv⃗=v⃗\vec{w} = I \vec{v} = \vec{v}$ ，物体保持不变。
缩放矩阵 $(s00s)\begin{pmatrix} s & 0 \\ 0 & s \end{pmatrix}$ ：将物体均匀缩放 $s$ 倍。
旋转矩阵 $(cos⁡θ−sin⁡θsin⁡θcos⁡θ)\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$ ：将物体旋转 $θ\theta$ 角。
剪切矩阵：使物体发生倾斜。

操作流程：

设定一个固定的参考系（通常为标准坐标系）。
有一个几何体，由其上一系列点 ${v⃗1,v⃗2,...}\{ \vec{v}_1, \vec{v}_2, ... \}$ 描述。
选择一个变换矩阵 $A$ ，对每一个点进行运算： $v⃗i′=Av⃗i\vec{v}_i' = A \vec{v}_i$ 。
所有新点 ${v⃗1′,v⃗2′,...}\{ \vec{v}_1', \vec{v}_2', ... \}$ 构成了变换后的新几何体。

结论：在此视角下，坐标系是静止的，物体在动。

3. 信息视角：矩阵作为信息处理器

线性变换 $w⃗=Av⃗\vec{w} = A \vec{v}$ 的输入输出维度关系 $\times n)$ ，决定了其处理信息的方式：

情况一： $m < n$ (降维，压缩映射)

生动例子：原始数据是一个人的体重 $w$ 和身高 $h$ （2个特征， $v⃗∈R2\vec{v} \in \mathbb{R}^2$ ）。使用一个 $\times 2$ 的矩阵 $A = [1, - 1]$ 进行变换：
$w⃗=Av⃗=[1,−1][wh]=w−h\vec{w} = A\vec{v} = [1, -1] \begin{bmatrix} w \\ h \end{bmatrix} = w - h$
结果 $w⃗\vec{w}$ 是“体重与身高之差”（1个特征）。
信息流向：从高维空间 $Rn\mathbb{R}^n$ 映射到低维空间 $Rm\mathbb{R}^m$ 。
信息损失：信息发生了不可逆的损失。无数个不同的 $(w, h)$ 组合经过变换可能得到同一个 $w - h$ 值。无法从结果唯一地反推出原始的 $w$ 和 $h$ 。
在后面线性方程组那也是，数据不够，或者信息重复的方程组是没有唯一解的，是不确定的

情况二： $m = n$ 且 $A$ 满秩 (可逆变换，双射)

生动例子：原始数据同样是 $(w, h)$ （ $v⃗∈R2\vec{v} \in \mathbb{R}^2$ ）。使用一个满秩的 $\times 2$ 矩阵 $\begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix}$ 进行变换：
$w⃗=Av⃗=[1−111][wh]=[w−hw+h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \end{bmatrix}$
结果是由“体重身高差”和“体重身高和”构成的新二维特征。
信息流向：在同一维度的空间 $Rn\mathbb{R}^n$ 内进行变换。
信息保持：信息没有丢失，只是被重新编码了。因为变换是可逆的（存在 $A^{-1}$ ），你可以从新特征 $(w - h, w + h)$ 精确地反解出原始的 $(w, h)$ 。
典型应用：坐标变换、解耦。将数据转换到另一个视角或坐标系下进行分析，过程完全可逆（如求解微分方程时的特征分解）。

情况三： $m > n$ (升维，嵌入)

生动例子：原始数据还是 $(w, h)$ （ $v⃗∈R2\vec{v} \in \mathbb{R}^2$ ）。使用一个 $\times 2$ 的矩阵 $\begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}$ 进行变换：
$w⃗=Av⃗=[1−11112][wh]=[w−hw+hw+2h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \\ w + 2h \end{bmatrix}$
结果是一个三维向量。
信息流向：从低维空间 $Rn\mathbb{R}^n$ 映射到高维空间 $Rm\mathbb{R}^m$ 。
信息保持？：原始信息没有增加。新特征全是原始特征的线性组合，并未提供真正独立的新信息。所有输出 $w⃗\vec{w}$ 都分布在一个嵌入在高维空间中的二维子空间（称为列空间）里。
典型应用：特征扩展。有时在低维中线性不可分的数据，映射到高维会变得线性可分（这构成了核方法的思想基础）。
所以呢，出题老师就像这个给定一些信息的人，我们呢就是那个变换矩阵只能从已知的条件推出无数种结论，但是呢这些条件实际是重复的，如果题目问一个这些条件推不出的结论，再怎么牛逼也是推不出来的

核心概念：秩 (Rank)

矩阵的秩衡量了变换 $A$ 所能产生的独立信息的最大数量（即列空间的维度）。

秩 $≤min⁡(m,n)\leq \min(m, n)$ 。
秩决定了信息的“真实”维度：在升维映射中，若秩 $r < n$ ，则意味着原始数据本身存在冗余。

视角二：向量作为坐标（被动变换）

相当于某个几何世界由三个最基本的，向量组成，这三个向量通过线性变换，得到了这个世界的万事万物，然后来了一股东方的神秘力量，要改变这个基，那么这个世界的所有物体都要发生变形
或者说，这个世界的元素，本质是原子，通过一系列组合，变成了这个世界的万事万物，然后三体人，要改变这个世界的有些元素，那么这个世界的基发生变化了，所有的物体都的变
在这个视角下，物体在空间中的绝对位置是固定的，我们改变的是描述它的坐标系（参考系）。

1. 向量是相对于坐标系的坐标

一个向量 $v⃗=(x,y,z)T\vec{v} = (x, y, z)^T$ 并非一个绝对概念，它是一组坐标，表示一个点在某个特定坐标系下的“地址”。
标准坐标系：由基向量 $i^=(1,0,0)T\hat{i} = (1,0,0)^T$ , $j^=(0,1,0)T\hat{j} = (0,1,0)^T$ , $k^=(0,0,1)T\hat{k} = (0,0,1)^T$ 张成。其基矩阵为单位矩阵 $I$ 。

2. 改变坐标系

我们可以选择另一组线性无关的向量 ${b⃗1,b⃗2,b⃗3}\{\vec{b}_1, \vec{b}_2, \vec{b}_3\}$ 作为新基，定义一个新坐标系。
设矩阵 $\begin{bmatrix} \vec{b}_1 & \vec{b}_2 & \vec{b}_3 \end{bmatrix}$ ，其列向量就是新坐标系的基向量。
同一个点，如何用新坐标 $v⃗new\vec{v}_{\text{new}}$ 表示旧坐标 $v⃗old\vec{v}_{\text{old}}$ ？
- 旧坐标：点在标准坐标系下的坐标 $v⃗old\vec{v}_{\text{old}}$ 。
- 新坐标：点在新坐标系 $P$ 下的坐标 $v⃗new\vec{v}_{\text{new}}$ 。
- 坐标变换公式：
  $v⃗old=Pv⃗new\vec{v}_{\text{old}} = P \vec{v}_{\text{new}}$
  $v⃗new=P−1v⃗old\vec{v}_{\text{new}} = P^{-1} \vec{v}_{\text{old}}$
矩阵 $P$ 的几何意义： $P$ 本身也是一个线性变换。 $\vec{v}_{\text{new}}$ 的含义是：“构造一个点，它在新坐标系下的坐标为 $v⃗new\vec{v}_{\text{new}}$ ，请问它在标准坐标系下的坐标是多少？”

结论：在此视角下，物体是静止的，坐标系在动。物体的坐标值因其所在坐标系的不同而不同。

视角的统一：两种操作的等价性

这是最精妙的部分。主动变换物体和被动变换坐标系，在数学效果上可以等价。

等价关系

假设你想对物体实施一个变换 $A$ （主动变换）。

方法一（主动）：在标准坐标系下，直接计算 $v⃗′=Av⃗\vec{v}' = A \vec{v}$ ，就是高等数学的配凑和硬算
方法二（被动）：不动物体，而是将你的整个观察视角（坐标系）进行一个逆变换。你切换到新坐标系 $B = A^{-1}$ 下来观察静止的物体。就是高等数学的换元法
- 在新坐标系 $B$ 下，原静止物体的坐标变为 $v⃗new=Bv⃗=A−1v⃗\vec{v}_{\text{new}} = B \vec{v} = A^{-1} \vec{v}$ 。
- 关键点：此时，如果你在新坐标系 $B$ 下“看到”的坐标 $v⃗new\vec{v}_{\text{new}}$ ，恰好等于方法一中变换后物体在标准系下的坐标 $v⃗′\vec{v}'$ 。

数学表达：
“在旧系下用 $A$ 变换物体” 等价于 “将坐标系变为 $B = A^{-1}$ 后去观察静止的物体”。
$\vec{v} \quad \text{(主动变换的结果)}$
$v⃗new=A−1v⃗(被动变换后的坐标)\vec{v}_{\text{new}} = A^{-1} \vec{v} \quad \text{(被动变换后的坐标)}$
注意：这是两个不同的向量，存在于不同的坐标系中，但它们描述了空间中的同一个点位置。

意义

这种等价性揭示了线性代数的深刻内涵：

矩阵 $A$ 具有双重身份：
1. 作为一个变换算子（主动： $A$ ）。
2. 作为一个坐标变换的生成器（被动： $A^{-1}$ 定义了新系）。
灵活性：为解决一个问题，我们可以自由选择最方便的视角。有时移动物体更容易，有时改变视角更简单。

总结与应用

特性	主动变换 (Active Transformation)	被动变换 (Passive Transformation)
操作对象	物体在空间中的位置和形状	观察物体的坐标系（参考系）
数学操作	$v⃗′=Av⃗\vec{v}' = A \vec{v}$	$v⃗new=P−1v⃗old\vec{v}_{\text{new}} = P^{-1} \vec{v}_{\text{old}}$
矩阵角色	$A$ 是变换算子	$P$ 是新坐标系的基矩阵
几何意义	坐标系固定，物体被扭曲、旋转、缩放	物体固定，其坐标表示因坐标系改变而改变
典型应用	计算机图形学（旋转、缩放模型）	物理学（在不同参考系中求解问题）、数据降维（PCA）

矩阵和向量的双重视角

矩阵和向量的双重视角 $w⃗=Av⃗\vec{w} = A \vec{v}$

总结

如何理解 $w⃗=Av⃗\vec{w} = A \vec{v}$

视角一：矩阵作为函数（主动变换）

1. 矩阵是线性变换函数

2. 几何解释：变换空间中的物体

3. 信息视角：矩阵作为信息处理器

情况一： $m < n$ (降维，压缩映射)

情况二： $m = n$ 且 $A$ 满秩 (可逆变换，双射)

情况三： $m > n$ (升维，嵌入)

核心概念：秩 (Rank)

视角二：向量作为坐标（被动变换）

1. 向量是相对于坐标系的坐标

2. 改变坐标系

视角的统一：两种操作的等价性

等价关系

意义

总结与应用

网站公告

今日签到

热门文章

最新发布

矩阵和向量的双重视角

矩阵和向量的双重视角 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

总结

如何理解 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

视角一：矩阵作为函数（主动变换）

1. 矩阵是线性变换函数

2. 几何解释：变换空间中的物体

3. 信息视角：矩阵作为信息处理器

情况一：m<nm < nm<n (降维，压缩映射)

情况二：m=nm = nm=n 且 AAA 满秩 (可逆变换，双射)

情况三：m>nm > nm>n (升维，嵌入)

核心概念：秩 (Rank)

视角二：向量作为坐标（被动变换）

1. 向量是相对于坐标系的坐标

2. 改变坐标系

视角的统一：两种操作的等价性

等价关系

意义

总结与应用

网站公告

今日签到

热门文章

最新发布

矩阵和向量的双重视角 $w⃗=Av⃗\vec{w} = A \vec{v}$

如何理解 $w⃗=Av⃗\vec{w} = A \vec{v}$

情况一： $m < n$ (降维，压缩映射)

情况二： $m = n$ 且 $A$ 满秩 (可逆变换，双射)

情况三： $m > n$ (升维，嵌入)