线性代数的本质(六)—

文章目录

线性空间
- 线性空间
- 子空间
- 坐标与同构
- 线性变换与矩阵
- 基变换与坐标变换

线性空间

Grant: 普适的代价是抽象。

仔细分析就会发现，关于向量空间的一切概念及有关定理都不依赖于向量的具体表现形式(有序数组)，也不依赖于向量加法、数乘的具体计算式，而只依赖于如下两点：

向量的加法与数乘运算封闭；
加法、数乘满足八条运算法则。

这一事实告诉我们：可以把向量的有序数组这一具体表达形式及加法、数乘的具体计算式这些非本质的东西拋弃，只把最根本的八条运算法则保留下来。这时它们就不能从理论上给予证明，而要当作公理加以承认。这样，我们就形成了本章的核心概念，也是线性代数这门学科的基本研究对象：数域上的抽象线性空间。

接下来，把向量空间的概念从理论上加以概括和抽象，就得到线性空间的一般性概念，它具有更大的普遍性，应用范围也更广。

线性空间：设 $V$ 是非空集合， $\mathbb F$ 是一个数域。对 $V$ 中的元素定义两种运算：加法 $\mathbf v+\mathbf w\quad (\mathbf v,\mathbf w\in V)$ 和数乘 $c\mathbf v\quad(c\in\mathbb F,\mathbf v\in V)$ 。若 $V$ 对于加法和数乘运算封闭：

$\forall\mathbf v,\mathbf w\in V,\ \mathbf v+\mathbf w\in V$
$\forall c\in\mathbb F,\mathbf v\in V,\ c\mathbf v\in V$

且 $\forall\mathbf u,\mathbf v,\mathbf w\in V$ and $\forall a,b\in\mathbb F$ 满足以下8条性质：

加法交换律： $\mathbf v+\mathbf w=\mathbf w+\mathbf v$
加法结合律： $\mathbf u+(\mathbf v+\mathbf w)=(\mathbf u+\mathbf v)+\mathbf w$
加法单位元： $\exists 0\in V,\ 0+\mathbf v=\mathbf v$
加法逆元： $\exists (-\mathbf v)\in V,\ \mathbf v+(-\mathbf v)=0$
数乘结合律： $a(b\mathbf v)=(ab)\mathbf v$
数乘分配律： $a(\mathbf v+\mathbf w)=a\mathbf v+a\mathbf w$
数乘分配律： $(a+b)\mathbf v=a\mathbf v+b\mathbf v$
数乘单位元： $\exists 1\in\mathbb F,\ 1\mathbf v=\mathbf v$

则称集合 $V$ 为数域 $\mathbb F$ 上的线性空间(或向量空间)。线性空间中的元素统称为向量，线性空间中的加法和数乘运算称为线性运算。

注意：

线性空间的概念是集合与运算二者的结合。同一个集合，若定义两种不同的线性运算，就构成不同的线性空间。
线性空间中的向量不一定是有序数组。它已不再具有三维几何空间中向量的几何直观意义。
线性运算不一定是有序数组的加法及数乘运算。

然后，之前向量空间的一切结论和性质都可同步到线性空间。

例 1：实数域上次数不大于 $m$ 的全体多项式构成线性空间，记为 $P_m(\R)=\{f(x)=a_0+a_1x+\cdots+a_mx^m\mid a_0,\cdots,a_m\in\R\}$ 。
例 2：全体 $m \times n$ 实矩阵构成线性空间，记为 $\R^{m\times n}$ 。
例 3：全体函数的集合构成线性空间，也称函数空间。

性质：

零元素是唯一的；
任一元素的负元素是唯一的；
如果 $c\mathbf v=0$ ，则 $\mathbf v=0$ 或 $c = 0$ ；

子空间

子空间：设 $U$ 是向量空间 $V$ 的一个非空子集，如果 $U$ 中的线性运算封闭，则 $U$ 也是向量空间，称为 $V$ 的子空间。

在这里插入图片描述

子空间的和：设 $U_1,U_2$ 为线性空间 $V$ 的两个子空间，则
$U_1+U_2=\{\mathbf u_1+\mathbf u_2\mid \mathbf u_1\in U_1,\mathbf u_2\in U_2\}$
称为子空间 $U_1,U_2$ 的和(sum of subspaces) 。两个子空间的和是分别由两个子空间中各任取一个向量相加所组成的集合。注意 $U_1+U_2$ 和 $U_1\cup U_2$ 不同，后者只是把两个子空间的向量简单地聚拢在一起，成为一个新的集合而已，它们的向量之间并不相加，在一般情况下， $U_1\cup U_2\neq U_1+U_2$ 。

在这里插入图片描述

$U_1+U_2$ 是包含子空间 $U_1,U_2$ 的最小子空间。

设 $U_1=\text{span}\{\mathbf a_1,\cdots,\mathbf a_p\},\quad U_2=\text{span}\{\mathbf b_1,\cdots,\mathbf b_q\}$ 则
$U_1+U_2=\text{span}\{\mathbf a_1,\cdots,\mathbf a_p,\mathbf b_1,\cdots,\mathbf b_q\}$
维数公式：
$\dim(U_1+U_2)=\dim U_1+\dim U_2-\dim(U_1\cap U_2)$

直和：若任意向量 $\mathbf u\in U_1+U_2$ 能唯一的表示成
$\mathbf u=\mathbf u_1+\mathbf u_1\quad (\mathbf u_1\in U_1,\mathbf u_2\in U_2)$
则称子空间 $U_1+U_2$ 为直和(direct sum)，记作 $U_1\oplus U_2$ 。

$U_1+U_2$ 是直和 $\iff$ $U_1\cap U_2=\{O\}$

坐标与同构

类似之前向量空间讨论过的，确定线性空间 $V$ 的一组基后，对于任一向量 $\mathbf v\in V$ 可唯一线性表示为
$\mathbf v=x_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n$
向量的坐标为
$\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}\quad \text{or}\quad (x_1,x_2,\cdots,x_n)$

建立了坐标之后， $n$ 维线性空间 $V_n$ 中的抽象元素与 $n$ 维向量空间 $R^n$ 中的具体数组之间就有一一对应的关系，并且保持了线性组合(线性运算)的一一对应。

设 $\mathbf v\lrarr (v_1,v_2,\cdots,v_n)^T,\quad \mathbf w\lrarr (w_1,w_2,\cdots,w_n)^T$ ，则

$\mathbf v+\mathbf w\lrarr (v_1,v_2,\cdots,v_n)^T+(w_1,w_2,\cdots,w_n)^T$
$c\mathbf v \lrarr c(v_1,v_2,\cdots,v_n)^T$

因此可以说 $V_n$ 与 $R^n$ 有相同的结构。

一般地，设 $V$ 与 $U$ 是两个线性空间，如果在它们的元素之间有一一对应关系，且这个对应关系保持线性组合的对应，那么就说线性空间 $V$ 与 $U$ 同构(isomorphism)。

显然，任何实数域上的 $n$ 维线性空间都与 $R^n$ 同构，即维数相同的线性空间都同构，从而可知，线性空间的结构完全被它的维数所决定。

同构的概念除元素一一对应外，主要是保持线性运算的对应关系。因此， $V_n$ 中的抽象的线性运算就可转化为 $R^n$ 中的线性运算，并且 $R^n$ 中凡是涉及线性运算的性质就都适用于 $V_n$ 。

线性变换与矩阵

变换(transformation)是线性空间的一种映射
$T:\quad \mathbf v\mapsto T(\mathbf v)$
称 $T(\mathbf v)$ 为向量 $\mathbf v$ 在映射 $T$ 下的像，而称 $\mathbf v$ 为 $T(\mathbf v)$ 在映射 $T$ 下的原像。

满足下列两条性质的变换称为线性变换(linear transformation)

可加性(additivity)： $T(\mathbf v+\mathbf w)=T(\mathbf v)+T(\mathbf w)$
伸缩性(scaling)： $T(c\mathbf v)=cT(\mathbf v)$

设 $V$ 是数域 $\R$ 上的 $n$ 维线性空间， $\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n$ 是 $V$ 的一组基。基向量 $\mathbf e_j$ 是单位阵 $I_j$ 的第 $j$ 列。对于任一向量 $\mathbf v\in V$ ，设
$\mathbf v=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=x_1\mathbf e_1+x_2\mathbf e_2+\cdots+x_n\mathbf e_n$
对于线性变换 $T$ ，由线性变换的基本性质知
$\begin{aligned} T(\mathbf v)&=T(x_1\mathbf e_1+x_2\mathbf e_2+\cdots+x_n\mathbf e_n) =x_1T(\mathbf e_1)+x_2T(\mathbf e_2)+\cdots+x_nT(\mathbf e_n) \\ &=\begin{bmatrix}T(\mathbf e_1)&T(\mathbf e_2)&\cdots&T(\mathbf e_n)\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} =A\mathbf v \end{aligned}$
矩阵 $A$ 称为线性变换 $T$ 在基 $\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n$ 下的矩阵。其中，矩阵 $A$ 的第 $j$ 列是基向量 $\mathbf e_j$ 的像 $T(\mathbf e_j)$ 。显然，矩阵 $A$ 由基的像唯一确定。

示例：函数是一种特殊的线性空间，定义一个映射：
$D=\frac{\mathrm d}{\mathrm dx}:\quad f(x)\mapsto f'(x)$
由导数的性质可知， $D$ 是函数空间中的一个线性变换，称为微分变换。

在多项式空间 $R[x]_n$ 内，对任一多项式
$f(x)=a_0+a_1x_1+a_2x^2+\cdots+a_nx^n$
在基 $1,x,x^2,\cdots,x^n$ 下的坐标表达式为
$f(x)=(1,x,x^2,\cdots,x^n)\begin{bmatrix}a_0\\a_1\\a_2\\\vdots\\a_n\end{bmatrix}$

基向量 $1,x,x^2,\cdots,x^n$ 的线性变换
$\begin{aligned}&D1=0,\\&D x=1,\\&Dx^2=2x,\\&\cdots\\&Dx^n=nx^{n-1}\end{aligned}$
故 $D$ 在基 $1,x,x^2,\cdots,x^n$ 下的矩阵为
$D=\begin{bmatrix} 0&1&0&\cdots&0\\ 0&0&2&\cdots&0\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&\cdots&n\\ 0&0&0&\cdots&0\end{bmatrix}$
$D f (x)$ 在基 $1,x,x^2,\cdots,x^n$ 下的坐标为
$Df(x)=\begin{bmatrix} 0&1&0&\cdots&0\\ 0&0&2&\cdots&0\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&\cdots&n\\ 0&0&0&\cdots&0\end{bmatrix} \begin{bmatrix}a_0\\a_1\\a_2\\\vdots\\a_n\end{bmatrix}= \begin{bmatrix}a_1\\2a_2\\3a_3\\\vdots\\0\end{bmatrix}$
即 $Df(x)=a_1+2a_2x+3a_3x^2+\cdots+na_nx^{n-1}$ ，和直接求导的形式一致。

基变换与坐标变换

Grant：坐标系的建立基于所选的基向量

以二维空间为例，Grant 选用标准坐标系下的基向量，坐标值为
$\mathbf i=\begin{bmatrix} 1 \\ 0 \end{bmatrix},\quad \mathbf j=\begin{bmatrix} 0 \\ 1 \end{bmatrix}$

而 Jennifer 使用另外一组基向量 $\mathbf i',\mathbf j'$ ，在 Grant 的坐标系下的坐标表示为
$\mathbf i'=\begin{bmatrix} a \\ c \end{bmatrix},\quad \mathbf j'=\begin{bmatrix} b \\ d \end{bmatrix}$

实际上在各自的坐标系统，基向量均为 $(1, 0), (0, 1)$ 。特别的，两个坐标系原点的定义是一致的。

同一个向量在不同基向量下表示不同。在 Jennifer 的坐标系中，向量 $\mathbf v=\begin{bmatrix} x' \\ y' \end{bmatrix}$ ，可以写成基向量的线性组合形式

$\mathbf v=x'\mathbf i'+y'\mathbf j'$
在 Grant 坐标系下的表示
$\mathbf v=x'\begin{bmatrix} a \\ c \end{bmatrix}+y'\begin{bmatrix} b \\ d \end{bmatrix}$
进一步，因为是线性变换，所以将其转化为矩阵乘法
$\mathbf v=\begin{bmatrix} a&b \\ c&d \end{bmatrix}\begin{bmatrix} x' \\ y' \end{bmatrix}=\begin{bmatrix} x \\ y \end{bmatrix}$

在这里插入图片描述

$\begin{bmatrix} x \\ y \end{bmatrix}$ 和 $\begin{bmatrix} x' \\ y’ \end{bmatrix}$ 实际是同一个向量，只不过是在不同基下的坐标。特别的，这里的 $\begin{bmatrix} a&b \\ c&d \end{bmatrix}$ 称为基变换矩阵，意味着同一个向量从 Jennifer 的坐标到 Grant 的坐标的映射，即以我们的视角描述 Jennifer 的向量。

进一步，我们将用基向量 $\mathbf i',\mathbf j'$ 描述的空间称为 “Jennifer’s grid”，用基向量 $\mathbf i,\mathbf j$ 描述的空间称为 “Grant‘s grid”。在几何上，基变换矩阵表示的是将 Jennifer’s grid 在数值上用 Grant 的语言来描述。而逆变换则是将 Grant 的语言变成 Jennifer 的语言。
$\begin{bmatrix} x' \\ y' \end{bmatrix}=\begin{bmatrix} a&b \\ c&d \end{bmatrix}^{-1}\begin{bmatrix} x \\ y \end{bmatrix}$
现讨论 $n$ 维线性空间 $V_n$ 中的情形。任取 $n$ 个线性无关的向量都可以作为 $V_n$ 的一组基，对于不同的基，同一个向量的坐标是不同的。接下来，寻找同一个向量在不同基下的坐标之间的关系。

基变换公式：设矩阵 $A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)$ 的列向量与 $B=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)$ 的列向量是 $n$ 维线性空间 $V_n$ 的两组基，则它们可以互相线性表示。若
$\begin{cases} \mathbf b_1=p_{11}\mathbf a_1+p_{21}\mathbf a_2+\cdots+p_{n1}\mathbf a_n \\ \mathbf b_2=p_{12}\mathbf a_1+p_{22}\mathbf a_2+\cdots+p_{n2}\mathbf a_n \\ \cdots \\ \mathbf b_n=p_{1n}\mathbf a_1+p_{2n}\mathbf a_2+\cdots+p_{nn}\mathbf a_n \\ \end{cases}$
利用分块矩阵的乘法形式，可将上式记为
$B = A P$
称为基变换公式。其中，矩阵
$P=\begin{bmatrix} p_{11}&p_{12}&\cdots&p_{1n} \\ p_{21}&p_{22}&\cdots&p_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ p_{n1}&p_{2n}&\cdots&p_{nn} \\ \end{bmatrix}$
称为由基 $A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}$ 到 $B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\}$ 的过渡矩阵(transition matrix)。显然 $P^{-1}$ 为由基 $B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\}$ 到基 $A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}$ 的过渡矩阵。

坐标变换公式：设线性空间 $V$ 中的元素 $\mathbf v$ 在基 $A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}$ 下的坐标为 $\mathbf v_A$ ，在基 $B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\}$ 下的坐标为 $\mathbf v_B$ ，则有
$\mathbf v_A=P\mathbf v_B$
其中矩阵 $P$ 为由基 $A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}$ 到 $B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\}$ 的过渡矩阵。

计算过渡矩阵：对于基变换公式 $B = A P$ ，可知过渡矩阵 $P=A^{-1}B$ 。写出增广矩阵 $(A\mid B) ，$ 用初等行变换把左边矩阵 $A$ 处化为单位矩阵 $I$ ，则右边出来的就是过渡矩阵 $P$ ，示意如下：
$(A\mid B)\xrightarrow{}(I\mid A^{-1}B)$

例：设 $\mathbf b_1=\begin{bmatrix} -9 \\ 1 \end{bmatrix},\mathbf b_2=\begin{bmatrix} -5 \\ -1 \end{bmatrix},\mathbf c_1=\begin{bmatrix} 1 \\ -4 \end{bmatrix},\mathbf c_2=\begin{bmatrix} 3 \\ -5 \end{bmatrix}$ 考虑 $R^2$ 中的基 $B=\{\mathbf b_1,\mathbf b_2\},C=\{\mathbf c_1,\mathbf c_2\}$ ，求 $B$ 到 $C$ 的过渡矩阵。

解：设基向量 $\mathbf c_1,\mathbf c_2$ 在基 $B$ 下的坐标分别为
$[\mathbf c_1]_B=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix},\quad [\mathbf c_2]_B=\begin{bmatrix} y_1 \\ y_2 \end{bmatrix}$
由坐标的定义，可知
$(\mathbf b_1,\mathbf b_2)\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}=\mathbf c_1,\quad (\mathbf b_1,\mathbf b_2)\begin{bmatrix} y_1 \\ y_2 \end{bmatrix}=\mathbf c_2$
为了同步解出这两个方程组，使用增广矩阵 $(B\mid C)$ 求解
$(\mathbf b_1,\mathbf b_2\mid \mathbf c_1,\mathbf c_2)= \begin{bmatrix}\begin{array}{cc:cc} -9&-5&1&3 \\ 1&-1&-4&-5 \end{array}\end{bmatrix}\to \begin{bmatrix}\begin{array}{cc:cc} 1&0&-3/2&-2 \\0&1&5/2&3 \end{array}\end{bmatrix}$
因此，由 $B$ 到 $C$ 的过渡矩阵
$P=\begin{bmatrix} -3/2&-2 \\5/2&3 \end{bmatrix}$