一、线性变换的矩阵
本节将对每个线性变换 T T T 都指定一个矩阵 A A A. 对于一般的列向量,输入 v \boldsymbol v v 在空间 V = R n \pmb{\textrm V}=\pmb{\textrm R}^n V=Rn 中,输出 T ( v ) T(\boldsymbol v) T(v) 在空间 W = R m \textrm{\pmb W}=\pmb{\textrm R}^m W=Rm 中,则这个变换的矩阵 A A A 即是 m × n m\times n m×n 的,我们在 V \textrm{\pmb V} V 和 W \textrm{\pmb W} W 中基向量的选取将决定 A A A.
R n \textrm{\pmb R}^n Rn 和 R m \textrm{\pmb R}^m Rm 中的标准基向量是 I I I 的列向量,这种选择可以得到一个标准矩阵,就是通常情况下的 T ( v ) = A v T(\boldsymbol v)=A\boldsymbol v T(v)=Av. 但是这些空间也有其它的基,所以同样的变换 T T T 还可以用其它的矩阵表示。线性代数的主要研究目的之一就是选择出线性变换 T T T 的最佳矩阵(对角矩阵)。
所有的向量空间 V \textrm{\pmb V} V 和 W \pmb{\textrm W} W 都有基,选择每一种基都会得到 T T T 的一个矩阵,当输入基和输出基不相等时, T ( v ) = v T(\boldsymbol v)=\boldsymbol v T(v)=v 的矩阵就不再是单位矩阵 I I I,而是 “基变换矩阵(change of basis matrix)”. 以下是核心思想:
假设我们已知输入基向量 v 1 , v 2 , ⋯ , v n \boldsymbol v_1,\boldsymbol v_2,\cdots,\boldsymbol v_n v1,v2,⋯,vn 的变换 T ( v 1 ) , T ( v 2 ) , ⋯ , T ( v n ) T(\boldsymbol v_1),T(\boldsymbol v_2),\cdots,T(\boldsymbol v_n) T(v1),T(v2),⋯,T(vn).
则这个矩阵 A A A 的第 1 1 1 列到第 n n n 列是这些输出 T ( v 1 ) , T ( v 2 ) , ⋯ , T ( v n ) T(\boldsymbol v_1),T(\boldsymbol v_2),\cdots,T(\boldsymbol v_n) T(v1),T(v2),⋯,T(vn). 此处输出基向量是标准正交基向量。
A 左乘 c = 矩阵左乘向量 = A 的 n 个列向量的线性组合 \pmb{A\,左乘\,\boldsymbol c=矩阵左乘向量=A\,的\,n\,个列向量的线性组合} A左乘c=矩阵左乘向量=A的n个列向量的线性组合.
A c A\boldsymbol c Ac 就是线性组合 c 1 T ( v 1 ) + c 2 T ( v 2 ) + ⋯ + c n T ( v n ) = T ( v ) c_1T(\boldsymbol v_1)+c_2T(\boldsymbol v_2)+\cdots+c_nT(\boldsymbol v_n)=T(\boldsymbol v) c1T(v1)+c2T(v2)+⋯+cnT(vn)=T(v).
原因: 每个 v \boldsymbol v v 都是基向量 v j \boldsymbol v_j vj 唯一的线性组合 c 1 v 1 + c 2 v 2 + ⋯ + c n v n c_1\boldsymbol v_1+c_2\boldsymbol v_2+\cdots+c_n\boldsymbol v_n c1v1+c2v2+⋯+cnvn,由于 T T T 是线性变换, T ( v ) T(\boldsymbol v) T(v) 一定是输出向量 T ( v j ) T(\boldsymbol v_j) T(vj) 相同的线性组合 c 1 T ( v 1 ) + c 2 T ( v 2 ) + ⋯ + c n T ( v n ) c_1T(\boldsymbol v_1)+c_2T(\boldsymbol v_2)+\cdots+c_nT(\boldsymbol v_n) c1T(v1)+c2T(v2)+⋯+cnT(vn).
例1 中给出的矩阵 A A A 选择的是 R 2 \textrm {\pmb R}^2 R2 和 R 3 \textrm{\pmb R}^3 R3 空间中的标准基向量。
【例1】假设变换 T T T 将基向量 v 1 = ( 1 , 0 ) \boldsymbol v_1=(1,0) v1=(1,0) 变换为 T ( v 1 ) = ( 2 , 3 , 4 ) T(\boldsymbol v_1)=(2,3,4) T(v1)=(2,3,4),将第二个基向量 v 2 = ( 0 , 1 ) \boldsymbol v_2=(0,1) v2=(0,1) 变换为 T ( v 2 ) = ( 5 , 5 , 5 ) T(\boldsymbol v_2)=(5,5,5) T(v2)=(5,5,5). 如果 T T T 是 R 2 \textrm{\pmb R}^2 R2 到 R 3 \pmb{\textrm R}^3 R3 的线性变换,则这个 “标准矩阵” 是 3 × 2 3\times2 3×2 的。输出向量 T ( v 1 ) T(\boldsymbol v_1) T(v1) 和 T ( v 2 ) T(\boldsymbol v_2) T(v2) 是 A A A 的列向量: A = [ 2 5 3 5 4 5 ] c 1 = 1 且 c 2 = 1 得到 T ( v 1 + v 2 ) = [ 2 5 3 5 4 5 ] [ 1 1 ] = [ 7 8 9 ] A=\begin{bmatrix}2&5\\3&5\\4&5\end{bmatrix}\kern 20ptc_1=1\,且\,c_2=1\,得到\,T(\boldsymbol v_1+\boldsymbol v_2)=\begin{bmatrix}2&5\\3&5\\4&5\end{bmatrix}\begin{bmatrix}1\\1\end{bmatrix}=\begin{bmatrix}7\\8\\9\end{bmatrix} A= 234555 c1=1且c2=1得到T(v1+v2)= 234555 [11]= 789
二、基的变换
【例2】假设输入空间 V = R 2 \textrm{\pmb V}=\textrm{\pmb R}^2 V=R2 也是输出空间 W = R 2 \textrm{\pmb W}=\textrm{\pmb R}^2 W=R2, T ( v ) = v T(\boldsymbol v)=\boldsymbol v T(v)=v 是恒等变换(identity transformation),此时我们可能会认为变换矩阵就是单位矩阵 I I I,但是这只有在输入基和输出基相同的情况下才会出现。下面会选择不同的基以演示矩阵是如何构造的。
对于这种特殊情况 T ( v ) = v T(\boldsymbol v)=\boldsymbol v T(v)=v,这里用矩阵 B B B 来替代 A A A,我们要将基 v i \boldsymbol v_i vi 变换为基 w i \boldsymbol w_i wi,每个 v i \boldsymbol v_i vi 均为 w 1 \boldsymbol w_1 w1 和 w 2 \boldsymbol w_2 w2 的线性组合。 输入基 [ v 1 v 2 ] = [ 3 6 3 8 ] 输出基 [ w 1 w 2 ] = [ 3 0 1 2 ] 基的变换 v 1 = 1 w 1 + 1 w 2 v 2 = 2 w 1 + 3 w 2 \begin{array}{l}\pmb{输入基}\kern 5pt\begin{bmatrix}\boldsymbol v_1&\boldsymbol v_2\end{bmatrix}=\begin{bmatrix}3&6\\3&8\end{bmatrix}&\pmb{输出基}\kern 5pt\begin{bmatrix}\boldsymbol w_1&\boldsymbol w_2\end{bmatrix}=\begin{bmatrix}3&0\\1&2\end{bmatrix}&{\color{blue}基的变换}&\begin{matrix}\color{blue}\boldsymbol v_1=\pmb1\boldsymbol w_1+\pmb1\boldsymbol w_2\\\color{blue}\boldsymbol v_2=\pmb2\boldsymbol w_1+\pmb3\boldsymbol w_2\end{matrix}\end{array} 输入基[v1v2]=[3368]输出基[w1w2]=[3102]基的变换v1=1w1+1w2v2=2w1+3w2请注意!这里将输入基 v 1 , v 2 \boldsymbol v_1,\boldsymbol v_2 v1,v2 用输出基 w 1 , w 2 \boldsymbol w_1,\boldsymbol w_2 w1,w2 来表示,这是因为按照定义,恒等变换 T T T 作用于每个输出基向量: T ( v 1 ) = v 1 , T ( v 2 ) = v 2 T(\boldsymbol v_1)=\boldsymbol v_1,\,T(\boldsymbol v_2)=\boldsymbol v_2 T(v1)=v1,T(v2)=v2,则这里我们将输出向量 v 1 \boldsymbol v_1 v1 和 v 2 \boldsymbol v_2 v2 用输出基 w 1 \boldsymbol w_1 w1 和 w 2 \boldsymbol w_2 w2 来表示。这些加粗的数字 1 , 1 \pmb1,\pmb1 1,1 和 2 , 3 \pmb2,\pmb3 2,3 给出了矩阵 B B B(基的变换矩阵 the change of basis matrix)的第一列和第二列: W B = V WB=V WB=V,所以 B = W − 1 V \pmb{B=W^{-1}V} B=W−1V. 基变换矩阵 B [ w 1 w 2 ] [ B ] = [ v 1 v 2 ] 就是 [ 3 0 1 2 ] [ 1 2 1 3 ] = [ 3 6 3 8 ] ( 8.2.1 ) \begin{array}{l}\pmb{基变换矩阵\,B}&\begin{bmatrix}\boldsymbol w_1&\boldsymbol w_2\end{bmatrix}{\color{blue}\begin{bmatrix}B\end{bmatrix}}=\begin{bmatrix}\boldsymbol v_1&\boldsymbol v_2\end{bmatrix}&就是&\begin{bmatrix}3&0\\1&2\end{bmatrix}\begin{bmatrix}\color{blue}1&\color{blue}2\\\color{blue}1&\color{blue}3\end{bmatrix}=\begin{bmatrix}3&6\\3&8\end{bmatrix}\end{array}\kern 10pt(8.2.1) 基变换矩阵B[w1w2][B]=[v1v2]就是[3102][1123]=[3368](8.2.1)
当输入基是矩阵 V 的列向量,输出基是矩阵 W 的列向量时, T ( v ) = v 的基变换矩阵是 B = W − 1 V \begin{array}{l}当输入基是矩阵\,\textrm{\pmb V}\,的列向量,输出基是矩阵\,\textrm{\pmb W}\,的列向量时,T(\boldsymbol v)=\boldsymbol v\,的基变换矩阵是\,\pmb{B=W^{-1}V}\end{array} 当输入基是矩阵V的列向量,输出基是矩阵W的列向量时,T(v)=v的基变换矩阵是B=W−1V
关键点: 理解 B = W − 1 V B=W^{-1}V B=W−1V 的简单方法:假设同一个向量 u \boldsymbol u u 分别由输入基 v i \boldsymbol v_i vi 和 输出基 w j \boldsymbol w_j wj 来表示,有下面三种方法: u = c 1 v 1 + c 2 v 2 + ⋯ + c n v n u = d 1 w 1 + d 2 w 2 + ⋯ + d n w n 即 [ v 1 v 2 ⋯ v n ] [ c 1 c 2 ⋮ c n ] = [ w 1 w 2 ⋯ w n ] [ d 1 d 2 ⋮ d n ] 和 V c = W d \begin{array}{l}\boldsymbol u=c_1\boldsymbol v_1+c_2\boldsymbol v_2+\cdots+c_n\boldsymbol v_n\\\boldsymbol u=d_1\boldsymbol w_1+d_2\boldsymbol w_2+\cdots+d_n\boldsymbol w_n&\end{array}即\begin{bmatrix}\boldsymbol v_1&\boldsymbol v_2&\cdots&\boldsymbol v_n\end{bmatrix}\begin{bmatrix}c_1\\c_2\\\vdots\\c_n\end{bmatrix}=\begin{bmatrix}\boldsymbol w_1&\boldsymbol w_2&\cdots&\boldsymbol w_n\end{bmatrix}\begin{bmatrix}d_1\\d_2\\\vdots\\d_n\end{bmatrix}和\kern 5pt\pmb{Vc=Wd} u=c1v1+c2v2+⋯+cnvnu=d1w1+d2w2+⋯+dnwn即[v1v2⋯vn]
c1c2⋮cn
=[w1w2⋯wn]
d1d2⋮dn
和Vc=Wd新基 w j \boldsymbol w_j wj 的系数 d \pmb d d 是 d = W − 1 V c \pmb {d= W^{-1}Vc} d=W−1Vc,则 B = W − 1 V . ( 8.2.2 ) \pmb{B=W^{-1}V}.\kern 15pt(8.2.2) B=W−1V.(8.2.2)
公式 B = W − 1 V \pmb{B=W^{-1}V} B=W−1V 给出一个有趣的现象:当标准基 V = I \pmb{V=I} V=I 变成一个不同的基 W \pmb W W 时,基变换矩阵是不是 W \pmb W W 而是 B = W − 1 V \pmb{B=W^{-1}V} B=W−1V. 大的基向量有小的系数!标准基向量 [ x y ] \begin{bmatrix}x\\y\end{bmatrix} [xy] 在 w 1 , w 2 \boldsymbol w_1,\boldsymbol w_2 w1,w2 的这组基向量情况下的系数是 [ w 1 w 2 ] − 1 [ x y ] \begin{bmatrix}\boldsymbol w_1&\boldsymbol w_2\end{bmatrix}^{-1}\begin{bmatrix}x\\y\end{bmatrix} [w1w2]−1[xy].
三、变换矩阵的构造
下面我们构造任意一个线性变换的矩阵。假设 T T T 将 n n n 维的空间 V \pmb{\textrm V} V 变换成 m m m 维的空间 W \pmb{\textrm W} W,我们在空间 V \pmb{\textrm V} V 中选择一组基 v 1 , v 2 , ⋯ , v n \boldsymbol v_1,\boldsymbol v_2,\cdots,\boldsymbol v_n v1,v2,⋯,vn,在空间 W \pmb{\textrm W} W 中选择一组基 w 1 , w 2 , ⋯ , w n \boldsymbol w_1,\boldsymbol w_2,\cdots,\boldsymbol w_n w1,w2,⋯,wn,则变换矩阵 A A A 是 m × n m\times n m×n 的。为了求得 A A A 的第一列,将 T T T 作用于第一个基向量 v 1 \boldsymbol v_1 v1,则输出 T ( v 1 ) T(\boldsymbol v_1) T(v1) 在空间 W \pmb{\textrm W} W 中。
T ( v 1 ) 是空间 W 输出基的一种线性组合 a 11 w 1 + a 21 w 2 + ⋯ + a m 1 w m {\color{blue}T(\boldsymbol v_1)}\,是空间\,\pmb{\textrm W}\,输出基的一种线性组合\,\color{blue}a_{11}\boldsymbol w_1+a_{21}\boldsymbol w_2+\cdots+a_{m1}\boldsymbol w_m T(v1)是空间W输出基的一种线性组合a11w1+a21w2+⋯+am1wm
a 11 , a 21 , ⋯ , a m 1 a_{11},a_{21},\cdots,a_{m1} a11,a21,⋯,am1 这些数是 A A A 的第一列,将 v 1 \boldsymbol v_1 v1 变换为 T ( v 1 ) T(\boldsymbol v_1) T(v1) 对应 A A A 左乘 ( 1 , 0 , ⋯ , 0 ) (1,0,\cdots,0) (1,0,⋯,0),这给出了变换矩阵 A A A 的第一列。当 T T T 是求导且第一个基向量是 1 1 1 时,它的导数是 T ( v 1 ) = 0 T(\boldsymbol v_1)=\boldsymbol 0 T(v1)=0,所以下面的导数矩阵中,第一列全为零。
【例3】 T \pmb T T 是求导运算: T ( v ) = d v d x \pmb{T(\boldsymbol v)=\displaystyle\frac{\textrm dv}{\textrm dx}} T(v)=dxdv,此时矩阵 A A A 是 “求导矩阵(derivate matrix)”,输入基 v i \boldsymbol v_i vi 是 1 , x , x 2 , x 3 1,x,x^2,x^3 1,x,x2,x3,输出基 w j \boldsymbol w_j wj 是 1 , x , x 2 1,x,x^2 1,x,x2: 如果 v = c 1 + c 2 x + c 3 x 2 + c 4 x 3 则 d v d x = 1 c 2 + 2 c 3 x + 3 c 4 x 2 A c = [ 0 1 0 0 0 0 2 0 0 0 0 3 ] [ c 1 c 2 c 3 c 4 ] = [ c 2 2 c 3 3 c 4 ] \begin{array}{l}如果\,\boldsymbol v=c_1+c_2x+c_3x^2+c_4x^3\\则\,\displaystyle\frac{d\boldsymbol v}{\textrm dx}=\pmb1c_2+\pmb2c_3x+\pmb3c_4x^2\end{array}\kern 10ptA\boldsymbol c=\begin{bmatrix}0&\pmb1&0&0\\0&0&\pmb2&0\\0&0&0&\pmb3\end{bmatrix}\begin{bmatrix}c_1\\c_2\\c_3\\c_4\end{bmatrix}=\begin{bmatrix}c_2\\2c_3\\3c_4\end{bmatrix} 如果v=c1+c2x+c3x2+c4x3则dxdv=1c2+2c3x+3c4x2Ac= 000100020003 c1c2c3c4 = c22c33c4
关键准则 : A 的第 j 列是变换 T 作用在第 j 个基向量 v j 所得 \pmb{关键准则:}\,A\,的第\,j\,列是变换\,T\,作用在第\,j\,个基向量\,\boldsymbol v_j\,所得 关键准则:A的第j列是变换T作用在第j个基向量vj所得
T ( v j ) = a 1 j w 1 + a 2 j w 2 + ⋯ + a m j w m 是输出基向量的线性组合 ( 8.2.3 ) {\color{blue}T(\boldsymbol v_j)=a_{1j}\boldsymbol w_1+a_{2j}\boldsymbol w_2+\cdots+a_{mj}\boldsymbol w_m\,是输出基向量的线性组合}\kern 15pt(8.2.3) T(vj)=a1jw1+a2jw2+⋯+amjwm是输出基向量的线性组合(8.2.3)
这些数字 a i j a_{ij} aij 构成了变换矩阵 A A A. 变换矩阵可以直接得到基向量的像(basis vectors right),然后线性性质得到所有向量的像。任意向量 v \boldsymbol v v 都可以写成线性组合 c 1 v 1 + c 2 v 2 + ⋯ + c n v n c_1\boldsymbol v_1+c_2\boldsymbol v_2+\cdots+c_n\boldsymbol v_n c1v1+c2v2+⋯+cnvn, T ( v ) T(\boldsymbol v) T(v) 是基向量 w j \boldsymbol w_j wj 的一种线性组合。当 A A A 左乘 v \boldsymbol v v 的组合系数向量 c = ( c 1 , c 2 , ⋯ , c n ) \boldsymbol c=(c_1,c_2,\cdots,c_n) c=(c1,c2,⋯,cn), A c A\boldsymbol c Ac 得到 T ( v ) T(\boldsymbol v) T(v) 关于输出基向量的组合系数。这是因为矩阵乘法(列向量的线性组合)和 T T T 一样是线性的。
矩阵 A A A 告诉了我们线性变换 T T T 做了什么,每一个从 V \pmb{\textrm V} V 到 W \textrm{\pmb W} W 的线性变换都可以用一个矩阵来表示,这个矩阵取决于基的选择。
【例4】对于积分 T + ( v ) T^+(\boldsymbol v) T+(v),第一个基函数也是 1 1 1,它的积分是第二个基函数 x x x,所以 “积分矩阵(integral matrix)” A + A^+ A+ 的第一列是 ( 0 , 1 , 0 , 0 ) (0,1,0,0) (0,1,0,0) d 1 + d 2 x + d 3 x 2 的积分是 d 1 x + 1 2 d 2 x 2 + 1 3 d 3 x 3 A + d = [ 0 0 0 1 0 0 0 1 2 0 0 0 1 3 ] [ d 1 d 2 d 3 ] = [ 0 d 1 1 2 d 2 1 3 d 3 ] \begin{array}{l}\pmb{d_1+d_2x+d_3x^2\,的积分是}\\\pmb{d_1x+\displaystyle\frac{1}{2}d_2x^2+\frac{1}{3}d_3x^3}\end{array}\kern 15ptA^+\boldsymbol d=\begin{bmatrix}0&0&0\\\pmb1&0&0\\0&\pmb{\dfrac{1}{2}}&0\\0&0&\pmb{\dfrac{1}{3}}\end{bmatrix}\begin{bmatrix}d_1\\d_2\\d_3\end{bmatrix}=\begin{bmatrix}0\\d_1\\\dfrac{1}{2}d_2\\[1.5ex]\dfrac{1}{3}d_3\end{bmatrix} d1+d2x+d3x2的积分是d1x+21d2x2+31d3x3A+d=
01000021000031
d1d2d3
=
0d121d231d3
如果对一个函数先积分再求导,将得到原函数,因此, A A + = I AA^+=I AA+=I. 但是如果是先求导再积分,则常数项会消失,因此 A + A A^+A A+A 不是 I I I. 对 1 \pmb 1 1 先求导再积分的结果是零: T + T ( 1 ) = 零函数的积分 = 0 T^+T(1)=零函数的积分=0 T+T(1)=零函数的积分=0这和 A + A A^+A A+A 是相符的,其第一列都是零。求导变换 T T T 有一个核(常数函数),它的矩阵 A A A 有一个零空间。再次出现的主要思想: A v A\boldsymbol v Av 表示 T ( v ) T(\boldsymbol v) T(v) 的结果。
求导和积分的例子有三个重要的点:第一,线性变换 T T T 无处不在,例如在微积分、微分方程和线性代数中;第二,与 R n \pmb {\textrm R}^n Rn 不同的空间很重要,输入空间 V \pmb {\textrm V} V 和输出空间 W \pmb{\textrm W} W 都可以是函数空间;第三,如果我们先求导再积分,我们可以将它们的矩阵乘起来 A + A \pmb{A^+A} A+A 后计算。
四、矩阵乘积 AB 对应于变换 TS
下面是一些重要内容 —— 矩阵乘法规则的真正原因。两个线性变换 T T T 和 S S S 的矩阵分别是 A A A 和 B B B,现在比较 T S TS TS 和乘积 A B AB AB:
当将变换 T T T 作用于 S S S 的输出时,由以下规则得到 T S TS TS: ( T S ) ( u ) 定义为 T ( S ( u ) ) , 输出 S ( u ) 成了 T 的输入 . (TS)(\boldsymbol u)\,定义为\,\pmb{T(S(\boldsymbol u))},\,输出\,S(\boldsymbol u)\,成了\,T\,的输入. (TS)(u)定义为T(S(u)),输出S(u)成了T的输入. 将矩阵 A A A 作用于 B B B 的输出时,由以下规则得到乘积 A B AB AB: ( A B ) ( x ) 定义为 A ( B ( x ) ) , 输出 B x 成了 A 的输入 . (AB)(\boldsymbol x)\,定义为\,\pmb{A(B(\boldsymbol x))},\,输出\,B\boldsymbol x\,成了\,A\,的输入. (AB)(x)定义为A(B(x)),输出Bx成了A的输入. 矩阵乘法规则得到的矩阵 A B 是变换 T S 的矩阵 . \pmb{矩阵乘法规则得到的矩阵\,AB\,是变换\,TS\,的矩阵.} 矩阵乘法规则得到的矩阵AB是变换TS的矩阵.变换 S S S 是从空间 U \pmb{\textrm U} U 到空间 V \pmb{\textrm V} V,它的矩阵使用了空间 U \pmb{\textrm U} U 的基 u 1 , u 2 , ⋯ , u p \boldsymbol u_1,\boldsymbol u_2,\cdots,\boldsymbol u_p u1,u2,⋯,up 和空间 V \pmb{\textrm V} V 的基 v 1 , v 2 , ⋯ , v n \boldsymbol v_1,\boldsymbol v_2,\cdots,\boldsymbol v_n v1,v2,⋯,vn,这个矩阵是 n × p n\times p n×p 的。变换 T T T 是从空间 V \pmb{\textrm V} V 到空间 W \pmb{\textrm W} W,它的变换矩阵一定要使用空间 V \pmb{\textrm V} V 的同一组基 v 1 , v 2 , ⋯ , v n \boldsymbol v_1,\boldsymbol v_2,\cdots,\boldsymbol v_n v1,v2,⋯,vn, V \textrm{\pmb V} V 是 S S S 的输出空间也是 T T T 的输入空间。此时矩阵 A B \pmb{AB} AB 对应于变换 T S \pmb{TS} TS.
乘法: 线性变换 T S TS TS 将 U \textrm {\pmb U} U 中的任一向量变换到 V \textrm{\pmb V} V 中的 S ( u ) S(\boldsymbol u) S(u),再变换到 W \textrm{\pmb W} W 中的 T ( S ( u ) ) T(S(\boldsymbol u)) T(S(u)). 矩阵 A B AB AB 作用于 R p \textrm{\pmb R}^p Rp 空间中的任一向量 x \boldsymbol x x,先得到 R n \textrm{\pmb R}^n Rn 中的 B x B\boldsymbol x Bx,然后得到 R m \textrm{\pmb R}^m Rm 中的 A B x AB\boldsymbol x ABx. 矩阵 A B AB AB 就是变换 T S TS TS 的矩阵: T S : U → V → W A B : ( m × n ) ( n × p ) = ( m × p ) \color{blue}TS:\pmb{\textrm U}\rightarrow\pmb{\textrm V}\rightarrow\pmb{\textrm W}\kern 18ptAB:(m\times n)(n\times p)=(m\times p) TS:U→V→WAB:(m×n)(n×p)=(m×p)
输入是 u = x 1 u 1 + x 2 u 2 + ⋯ + x p u p \boldsymbol u=x_1\boldsymbol u_1+x_2\boldsymbol u_2+\cdots+x_p\boldsymbol u_p u=x1u1+x2u2+⋯+xpup,输出 T ( S ( u ) ) T(S(\boldsymbol u)) T(S(u)) 对应于输出 A B x AB\boldsymbol x ABx. 变换 T S TS TS 的复合对应于矩阵的乘积 A B AB AB.
最重要的情况是空间 U, V, W \pmb{\textrm {U,\,V,\,W}} U,V,W 均相同且均选择相同的基,当 m = n = p m=n=p m=n=p 时,则变换矩阵均为方阵,所以可以相乘。
【例5】 S S S 将平面逆时针旋转 θ \theta θ, T T T 也是逆时针旋转 θ \theta θ,则 T S TS TS 逆时针旋转 2 θ 2\theta 2θ,变换 T 2 T^2 T2 的对应旋转矩阵 A 2 A^2 A2 也是逆时针旋转 2 θ 2\theta 2θ: T = S A = B T 2 是逆时针旋转 2 θ A 2 = [ cos 2 θ − sin 2 θ sin 2 θ cos 2 θ ] ( 8.2.4 ) T=S\kern 15ptA=B\kern 15ptT^2\,是逆时针旋转2\,\theta\kern 15ptA^2=\begin{bmatrix}\cos2\theta&-\sin2\theta\\\sin2\theta&\kern 7pt\cos2\theta\end{bmatrix}\kern 15pt(8.2.4) T=SA=BT2是逆时针旋转2θA2=[cos2θsin2θ−sin2θcos2θ](8.2.4)通过对比变换的平方 T 2 T^2 T2 和它们矩阵的平方 A 2 A^2 A2,我们可以得到 cos 2 θ \cos2\theta cos2θ 和 sin 2 θ \sin2\theta sin2θ 的公式。 A A A 乘 A A A: [ cos θ − sin θ sin θ cos θ ] [ cos θ − sin θ sin θ cos θ ] = [ cos 2 θ − sin 2 θ − 2 sin θ cos θ 2 sin θ cos θ cos 2 θ − sin 2 θ ] ( 8.4.5 ) \begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}=\begin{bmatrix}\cos^2\theta-\sin^2\theta&-2\sin\theta\cos\theta\\2\sin\theta\cos\theta&\cos^2\theta-\sin^2\theta\end{bmatrix}\kern 15pt(8.4.5) [cosθsinθ−sinθcosθ][cosθsinθ−sinθcosθ]=[cos2θ−sin2θ2sinθcosθ−2sinθcosθcos2θ−sin2θ](8.4.5)比较(8.2.4)和(8.2.5)可以得到 cos 2 θ = cos 2 θ − sin 2 θ \cos2\theta=\cos^2\theta-\sin^2\theta cos2θ=cos2θ−sin2θ 和 sin 2 θ = 2 sin θ cos θ \sin2\theta=2\sin\theta\cos\theta sin2θ=2sinθcosθ. 三角公式(至少是倍角公式)可由线性代数得到。
【例6】 S S S 逆时针选择角度 θ \theta θ, T T T 逆时针选择角度 − θ -\theta −θ,则由 T S = I TS=I TS=I 可以得到 A B = I AB=I AB=I. 该情形下 T ( S ( u ) ) T(S(\boldsymbol u)) T(S(u)) 就是 u \boldsymbol u u,旋转后又旋转回来了。相应的矩阵表示, A B x AB\boldsymbol x ABx 一定就是 x \boldsymbol x x,这两个矩阵互为逆矩阵。将 cos ( − θ ) = cos θ \cos(-\theta)=\cos\theta cos(−θ)=cosθ 和 sin ( − θ ) = − sin θ \sin(-\theta)=-\sin\theta sin(−θ)=−sinθ 代入旋转矩阵 A A A 中即可验证: A B = [ cos θ sin θ − sin θ cos θ ] [ cos θ − sin θ sin θ cos θ ] = [ cos 2 θ + sin 2 θ 0 0 cos θ + sin 2 θ ] = I AB=\begin{bmatrix}\kern 7pt\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix}\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}=\begin{bmatrix}\cos^2\theta+\sin^2\theta&0\\0&\cos^\theta+\sin^2\theta\end{bmatrix}=I AB=[cosθ−sinθsinθcosθ][cosθsinθ−sinθcosθ]=[cos2θ+sin2θ00cosθ+sin2θ]=I
五、选择最佳基
下面是本节的最后一部分:选择最佳基使得变换矩阵为对角矩阵。使用标准基( I I I 的列向量)时,变换 T T T 的矩阵 A A A 可能不是对角矩阵;当使用不同的基时,同样的变换 T T T 会由不同的矩阵表示。选择基向量时,两个很好的选择是特征向量和奇异向量: 特征向量 如果变换 T 将 R n 映射到 R n ,则它的矩阵 A 是个方阵。但是使用标准基时,矩阵 A 可能不是对角的。 如果 A 有 n 个线性无关的特征向量,选择它们作为输入和输出基,使用这组 “好基” 时, T 的变换矩阵为 Λ ,其对 角元素是 A 的特征值 。 \begin{array}{l}\pmb{特征向量}\kern 15pt如果变换 \,T\,将\,\pmb{\textrm R}^n\,映射到\,\textrm{\pmb R}^n,则它的矩阵\,A\,是个方阵。但是使用标准基时,矩阵\,A\,可能不是对角的。\\如果\,A\,有\,n\,个线性无关的特征向量,选择它们作为输入和输出基,使用这组\,“好基”\,时,\pmb{T\,的变换矩阵为\,\Lambda,其对}\\\pmb{角元素是\,A\,的特征值}。\end{array} 特征向量如果变换T将Rn映射到Rn,则它的矩阵A是个方阵。但是使用标准基时,矩阵A可能不是对角的。如果A有n个线性无关的特征向量,选择它们作为输入和输出基,使用这组“好基”时,T的变换矩阵为Λ,其对角元素是A的特征值。【例7】投影矩阵 T T T 将 R 2 \pmb{\textrm R}^2 R2 中的每个向量 v = ( x , y ) \boldsymbol v=(x,y) v=(x,y) 投影到直线 y = − x y=-x y=−x 上。若使用标准基, v 1 = ( 1 , 0 ) \boldsymbol v_1=(1,0) v1=(1,0) 的投影为 T ( v 1 ) = ( 1 2 , − 1 2 ) T(\boldsymbol v_1)=(\dfrac{1}{2},-\dfrac{1}{2}) T(v1)=(21,−21); v 2 = ( 0 , 1 ) \boldsymbol v_2=(0,1) v2=(0,1) 的投影为 T ( v 2 ) = ( − 1 2 , 1 2 ) T(\boldsymbol v_2)=(-\dfrac{1}{2},\dfrac{1}{2}) T(v2)=(−21,21),这些投影构成了 A A A 的列: 标准基下的 投影矩阵是 非对角矩阵 A = [ 1 2 − 1 2 − 1 2 1 2 ] 有 A T = A 且 A 2 = A \begin{array}{l}\pmb{标准基下的}\\\pmb{投影矩阵是}\\\pmb{非对角矩阵}\end{array}\kern 15ptA=\begin{bmatrix}\kern 7pt\dfrac{1}{2}&-\dfrac{1}{2}\\[1.5ex]-\dfrac{1}{2}&\kern 7pt\dfrac{1}{2}\end{bmatrix}\,有\,A^T=A\,且\,A^2=A 标准基下的投影矩阵是非对角矩阵A=
21−21−2121
有AT=A且A2=A下面是关于选取特征向量作为基向量的情况,可以对角化变换矩阵!
当基向量是原变换矩阵 A A A 的特征向量时,变换矩阵将变为对角矩阵。 v 1 = w 1 = ( 1 , − 1 ) 投影到自身: T ( v 1 ) = v 1 ,对应 λ 1 = 1 v 2 = w 2 = ( 1 , 1 ) 投影到零向量: T ( v 2 ) = 0 ,对应 λ 2 = 0 \begin{array}{l}\boldsymbol v_1=\boldsymbol w_1=(1,-1)\,投影到自身:T(\boldsymbol v_1)=\boldsymbol v_1,对应\,\lambda_1=1\\\boldsymbol v_2=\boldsymbol w_2=(1,1)\,投影到零向量:T(\boldsymbol v_2)=\boldsymbol 0,对应\,\lambda_2=0\end{array} v1=w1=(1,−1)投影到自身:T(v1)=v1,对应λ1=1v2=w2=(1,1)投影到零向量:T(v2)=0,对应λ2=0 特征向量基 对应对角矩阵 新的变换矩阵是 [ 1 0 0 0 ] = [ λ 1 0 0 λ 2 ] = Λ ( 8.2.6 ) \begin{array}{l}\pmb{特征向量基}\\\pmb{对应对角矩阵}\end{array}\kern 15pt新的变换矩阵是\,\begin{bmatrix}1&0\\0&0\end{bmatrix}=\begin{bmatrix}\lambda_1&0\\0&\lambda_2\end{bmatrix}=\Lambda\kern 20pt(8.2.6) 特征向量基对应对角矩阵新的变换矩阵是[1000]=[λ100λ2]=Λ(8.2.6)特征向量是完美的基向量,它们给出特征值矩阵 Λ \Lambda Λ.
当输入基和输出基相同但并不一定是特征向量时会怎样的?将这些基向量 b i \boldsymbol b_i bi 作为 B B B 的列,则基变换矩阵(从标准基到新基)是 B in = B \pmb{B_{\textrm{in}}}=\pmb B Bin=B, B out = B − 1 \pmb{B_{\textrm{out}}}=\pmb{ B^{-1}} Bout=B−1, T T T 新的变换矩阵和 A A A 相似:
新基 b i \boldsymbol b_i bi 的变换矩阵 A new = B − 1 A B \pmb{A_{\textrm{new}}}=\pmb{B^{-1}AB} Anew=B−1AB 与标准基的变换矩阵 A \pmb A A 相似: A b i 到 b i = B 标准基到 b i − 1 A 标准基 B b i 到标准基 ( 8.2.7 ) {\color{blue}A_{\boldsymbol b_i到\,\boldsymbol b_i}=B^{-1}_{标准基到\,\boldsymbol b_i}A_{标准基}B_{\boldsymbol b_i到标准基}}\kern 20pt(8.2.7) Abi到bi=B标准基到bi−1A标准基Bbi到标准基(8.2.7)
原因: 设标准基下的坐标向量为 v \boldsymbol v v,变换矩阵是 A A A。新基矩阵为 B B B,新的变换矩阵是 A new A_{\textrm{new}} Anew. v \,\boldsymbol v v 在新基的坐标可以由 v = B x \boldsymbol v=B\boldsymbol x v=Bx 求得,即新基下的坐标向量 x = B − 1 v \boldsymbol x=B^{-1}\boldsymbol v x=B−1v,其中 B − 1 B^{-1} B−1 即为基变换矩阵。经变换 T T T 作用后的坐标为 A new x = A new B − 1 v A_{\textrm{new}}\boldsymbol x=A_{\textrm{new}}B^{-1}\boldsymbol v Anewx=AnewB−1v。而 v \boldsymbol v v 在标准基下经过 T T T 变换后为 A v A\boldsymbol v Av,将其转换为新基的坐标即为 B − 1 A v B^{-1}A\boldsymbol v B−1Av,这两者应相等,即 A new B − 1 v = B − 1 A A_{\textrm{new}}B^{-1}\boldsymbol v=B^{-1}A AnewB−1v=B−1A,即可求得 A new = B − 1 A B A_{\textrm{new}}=B^{-1}AB Anew=B−1AB!
这里也可以通过变换的乘积法则理解:对于变换 I T I ITI ITI, I I I 是恒等变换,它们的矩阵分别是 B − 1 , A , B B^{-1},A,B B−1,A,B. 矩阵 B B B 是由标准基下的输入向量 b i \boldsymbol b_i bi 组成。将其理解成左乘,即先是基变换矩阵由新基到标准基 B B B,然后在标准基下进行变换得 A B AB AB,最后再变换为新基即得到 B − 1 A B B^{-1}AB B−1AB.
最后考虑 V \pmb V V 和 W \pmb W W 是不同的空间情形,此时有不同的基 v i \boldsymbol v_i vi 和 w j \boldsymbol w_j wj. 当我们选定基后且给出变换 T T T,我们可以得到一个矩阵 A A A,此时 A A A 可能不是对称的,甚至可能不是方阵,但是我们总可以选择出基 v i \boldsymbol v_i vi 和 w j \boldsymbol w_j wj 使得这个矩阵是对角矩阵。这个矩阵就是奇异值分解 A = U Σ V T A=U\Sigma V^T A=UΣVT 中的奇异值矩阵 Σ = diag ( σ 1 , σ 2 , ⋯ , σ r ) \pmb{\Sigma=\textrm{diag}(\sigma_1,\sigma_2,\cdots,\sigma_r)} Σ=diag(σ1,σ2,⋯,σr),其中 diag ( σ 1 , σ 2 , ⋯ , σ r ) \textrm{diag}(\sigma_1,\sigma_2,\cdots,\sigma_r) diag(σ1,σ2,⋯,σr) 是 MATLAB 中的函数,表示对角元素是 σ 1 , σ 2 , ⋯ , σ r \sigma_1,\sigma_2,\cdots,\sigma_r σ1,σ2,⋯,σr 的对角矩阵。 奇异向量 SVD 给出了 U − 1 A V = Σ ,右奇异值向量 v 1 , v 2 , ⋯ , v n 是输入基,左奇异值向量 u 1 , u 2 , ⋯ , u m 是输出基。由矩阵的乘法法则,在这些新基下的同样的变换矩阵为 B out − 1 A B in = U − 1 A V = Σ . \begin{array}{l}\pmb{奇异向量}\kern 15pt\textrm{SVD}\,给出了\,U^{-1}AV=\Sigma,右奇异值向量\,\boldsymbol v_1,\boldsymbol v_2,\cdots,\boldsymbol v_n\,是输入基,左奇异值向量\,\boldsymbol u_1,\boldsymbol u_2,\cdots,\boldsymbol u_m\\是输出基。由矩阵的乘法法则,在这些新基下的同样的变换矩阵为\,B^{-1}_{\textrm{out}}AB_{\textrm{in}}=U^{-1}AV=\Sigma.\end{array} 奇异向量SVD给出了U−1AV=Σ,右奇异值向量v1,v2,⋯,vn是输入基,左奇异值向量u1,u2,⋯,um是输出基。由矩阵的乘法法则,在这些新基下的同样的变换矩阵为Bout−1ABin=U−1AV=Σ.这里就不能称 Σ \Sigma Σ 和 A A A “相似” 了。现在是有两个基,输入基和输出基,它们都是标准正交基所以保持了向量的长度。这里我们可以称 Σ \Sigma Σ 和 A A A 是 “等距的(isometric)”。 定义 如果 Q 1 和 Q 2 均为正交矩阵,则 C = Q 1 − 1 A Q 2 与 A 等距 . 定义\kern 20pt如果\,Q_1\,和\,Q_2\,均为正交矩阵,则\,C=Q_1^{-1}AQ_2\,与\,A\,等距. 定义如果Q1和Q2均为正交矩阵,则C=Q1−1AQ2与A等距.【例8】为了构造变换 T = d d x T=\dfrac{\textrm d}{\textrm dx} T=dxd 的矩阵 A A A,我们选择了输入基 1 , x , x 2 , x 3 1,x,x^2,x^3 1,x,x2,x3 和输出基 1 , x , x 2 1,x,x^2 1,x,x2,矩阵 A A A 很简单但可惜的是它并不是对角矩阵。但是我们可以取每组基的反序。
现在输入基是 x 3 , x 2 , x , 1 x^3,x^2,x,1 x3,x2,x,1,输出基是 x 2 , x , 1 x^2,x,1 x2,x,1,基变换矩阵 B in B_{\textrm{in}} Bin 和 B out B_{\textrm{out}} Bout 是置换矩阵。 T ( u ) = d u d x T(\boldsymbol u)=\dfrac{\textrm d\boldsymbol u}{\textrm dx} T(u)=dxdu 在新基下的变换矩阵是对角奇异值矩阵 B out − 1 A B in = Σ \pmb{B^{-1}_{\textrm{out}}AB_{\textrm{in}}=\Sigma} Bout−1ABin=Σ,且奇异值 σ 1 , σ 2 , σ 3 = 3 , 2 , 1 \sigma_1,\sigma_2,\sigma_3=3,2,1 σ1,σ2,σ3=3,2,1: B out − 1 A B in = [ 1 1 1 ] [ 0 1 0 0 0 0 2 0 0 0 0 3 ] [ 1 1 1 1 ] = [ 3 0 0 0 0 2 0 0 0 0 1 0 ] ( 8.2.8 ) \pmb{B^{-1}_{\textrm{out}}AB_{\textrm{in}}}=\begin{bmatrix}&&1\\&1\\1\end{bmatrix}\begin{bmatrix}0&\pmb1&0&0\\0&0&\pmb2&0\\0&0&0&\pmb3\end{bmatrix}\begin{bmatrix}&&&1\\&&1\\&1\\1\end{bmatrix}=\begin{bmatrix}\pmb3&0&0&0\\0&\pmb2&0&0\\0&0&\pmb1&0\end{bmatrix}\kern 15pt(8.2.8) Bout−1ABin=
111
000100020003
1111
=
300020001000
(8.2.8)从上式可以看到 x 3 x^3 x3
六、主要内容总结
- 如果我们已知一组基的线性变换 T ( v 1 ) , T ( v 2 ) , ⋯ , T ( v n ) T(\boldsymbol v_1),T(\boldsymbol v_2),\cdots,T(\boldsymbol v_n) T(v1),T(v2),⋯,T(vn),那么线性性质将会决定其它所有的变换 T ( v ) T(\boldsymbol v) T(v).
- 线性变换 T T T 的输入基是 v 1 , v 2 , ⋯ , v n \boldsymbol v_1,\boldsymbol v_2,\cdots,\boldsymbol v_n v1,v2,⋯,vn,输出基是 w 1 , w 2 , ⋯ , w m \boldsymbol w_1,\boldsymbol w_2,\cdots,\boldsymbol w_m w1,w2,⋯,wm,则存在 m × n m\times n m×n 的矩阵 A A A 来表示这个线性变换。
- 基变换矩阵 B = W − 1 V = B out − 1 B in B=W^{-1}V=B^{-1}_{\textrm{out}}B_{\textrm{in}} B=W−1V=Bout−1Bin 表示恒等变换 T ( v ) = v T(\boldsymbol v)=\boldsymbol v T(v)=v.
- 如果矩阵 A A A 和 B B B 分别表示变换 T T T 和 S S S,并且 S S S 的输出基是 T T T 的输入基,则矩阵 A B AB AB 表示变换 T ( S ( u ) ) T(S(\boldsymbol u)) T(S(u)).
- 最佳的输入-输出基是 A A A 特征向量或奇异向量,且 B − 1 A B = Λ = 特征值矩阵 B out − 1 A B in = Σ = 奇异值矩阵 B^{-1}AB=\Lambda=特征值矩阵\kern 20ptB^{-1}_{\textrm{out}}AB_{\textrm{in}}=\Sigma=奇异值矩阵 B−1AB=Λ=特征值矩阵Bout−1ABin=Σ=奇异值矩阵
七、例题
【例9】 2 × 2 2\times2 2×2 的矩阵空间有下面四个 “向量” 作为一组基: v 1 = [ 1 0 0 0 ] v 2 = [ 0 1 0 0 ] v 3 = [ 0 0 1 0 ] v 4 = [ 0 0 0 1 ] \boldsymbol v_1=\begin{bmatrix}1&0\\0&0\end{bmatrix}\kern 15pt\boldsymbol v_2=\begin{bmatrix}0&1\\0&0\end{bmatrix}\kern 15pt\boldsymbol v_3=\begin{bmatrix}0&0\\1&0\end{bmatrix}\kern 15pt\boldsymbol v_4=\begin{bmatrix}0&0\\0&1\end{bmatrix} v1=[1000]v2=[0010]v3=[0100]v4=[0001]线性变换 T T T 是转置每个 2 × 2 2\times2 2×2 的矩阵,那么在这组基下表示变换 T T T 的矩阵 A A A 是什么(输入基 = 输出基)?逆矩阵 A − 1 A^{-1} A−1 是什么?转置变换的逆变换 T − 1 T^{-1} T−1 是什么?
解: 转置这四个 “基矩阵” 仅仅是交换 v 2 \boldsymbol v_2 v2 和 v 3 \boldsymbol v_3 v3: T ( v 1 ) = v 1 T ( v 2 ) = v 3 T ( v 3 ) = v 2 T ( v 4 ) = v 4 给出了变换矩阵的四列 A = [ 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 ] \begin{array}{l}T(\boldsymbol v_1)=\boldsymbol v_1\\T(\boldsymbol v_2)=\boldsymbol v_3\\T(\boldsymbol v_3)=\boldsymbol v_2\\T(\boldsymbol v_4)=\boldsymbol v_4\end{array}\kern 10pt给出了变换矩阵的四列\kern 10ptA=\begin{bmatrix}1&0&0&0\\0&0&1&0\\0&1&0&0\\0&0&0&1\end{bmatrix} T(v1)=v1T(v2)=v3T(v3)=v2T(v4)=v4给出了变换矩阵的四列A=
1000001001000001
逆矩阵 A − 1 A^{-1} A−1 和 A A A 相同,逆变换 T − 1 T^{-1} T−1 和 T T T 相同。如果我们转置两次,最终得到的矩阵和原始矩阵相同。
注意 2 × 2 2\times2 2×2 的矩阵空间是 4 4 4 维的,所以矩阵 A A A(转置变换 T T T 的变换矩阵)是 4 × 4 4\times4 4×4 的, A A A 的零空间是 Z \pmb Z Z, T T T 的核是零矩阵 —— 转置后为零矩阵的只有零矩阵。 A A A 的特征值是 1 , 1 , 1 , − 1 1,1,1,-1 1,1,1,−1.
对应特征值 λ = − 1 \lambda=-1 λ=−1,即满足 T ( A ) = A T = − A T(A)=A^T=-A T(A)=AT=−A 的 “矩阵直线” 是什么?反对称矩阵!