【李沐深度学习笔记】线性代数

课程地址和说明

线性代数p1
本系列文章是我学习李沐老师深度学习系列课程的学习笔记，可能会对李沐老师上课没讲到的进行补充。

线性代数

标量

标量（scalar），亦称“无向量”。有些物理量，只具有数值大小，而没有方向，部分有正负之分。物理学中，标量（或作纯量）指在坐标变换下保持不变的物理量。用通俗的说法，标量是只有大小，没有方向的量。（在深度学习领域也是如此）

标量的运算规律

加减法： $c = a + b$
乘除法： $c=a\cdot b$
取特定函数： $c = s ina$
长度： $|a|=\begin{cases} a,a>0\\ -a,a\le 0 \end{cases}$
不等式：

$|a+b|\le |a|+|b|$
$|a\cdot b|\le |a|\cdot|b|$

数域

数域：复数集的一个子集 $K$ 如果满足：

$0,1\in K$
$a,b\in K\Longrightarrow a\pm b,ab\in K$
$a,b\in K,且b\ne 0\Longrightarrow \frac{a}{b}\in K$

那么称 $K$ 是一个数域

【注】定义的第一条是说明0和1都在集合 $K$ 中，第二条是说明当 $a, b$ 都在集合 $K$ 中，则 $a\pm b$ 与 $ab$ 的结果也在集合 $K$ 中，第三条是说明当 $a, b$ 都在集合 $K$ 中，则 $\frac{a}{b},b\ne 0$ 也在集合 $K$ 中，用这种方法我们可以定义有理数域，因为0,1在集合中，然后四则运算也在集合中，仅靠多次累加累乘等操作就能定义有理数。

【问】为什么定义数域？
【转自知乎，原贴地址：为什么要定义数域呢?】
定义数域的原因在于数学家希望建立一个具有良好性质和规律的数学结构，以方便进行计算和理论研究。数域是代数结构中的一个基本概念，它包含了一组满足特定运算法则的数。研究数域可以帮助我们更好地理解数学对象之间的关系，例如实数、有理数、整数等。
封闭性是数域的一个重要特性。在数域中，对于给定的运算（如加法、减法、乘法和除法等），结果仍然属于同一个数域。保证封闭性有几个好处：

简化计算：在一个封闭的数域中，我们可以对数进行各种运算，而不必担心结果会跳出这个域。这大大简化了计算过程，使我们能够更方便地处理数学问题。
方程的解有意义：当我们在研究方程时，封闭性确保了我们在求解过程中得到的解依然属于原始数域。这使得解更具有意义，因为我们可以在同一个数学框架内讨论和研究这些解。
易于理解和操作：保证封闭性有助于我们更好地理解数学概念，因为我们可以在一个统一的框架内讨论和操作数学对象。这也为研究数学性质提供了便利，因为我们可以在一个封闭的环境中探讨不同数学对象之间的关系。
探索新的数学结构：研究封闭性有助于数学家发现新的数学结构，从而推动数学领域的发展。例如，复数的引入解决了一些实数域中无法解决的方程，从而使我们的数学体系更加完善。

总之，保证封闭性有助于我们在数学领域中建立统一的框架，简化计算过程，并使方程的解具有意义。封闭性还有助于我们更好地理解和操作数学概念，以及发现新的数学结构。

由于我不是学数学的，下面这些我不证明，都当作结论用：

有理数集 $\textbf{Q}$ ，实数集 $\textbf{R}$ ，复数集 $\textbf{C}$ 都是数域；但是整数集 $\textbf{Z}$ 不是数域，因为 $\textbf{Z}$ 对于除法不封闭（整数与整数做除法，如果不能整除，将产生小数，产生的小数又分为有限小数和无限不循环小数，有限小数是有理数，无限不循环小数是无理数，所以整数除整数得到的可能是整数、有理数或无理数，整数除整数不一定就是整数，所以整数集对除法不封闭）

【注】封闭性，即闭包 (数学)。数学中，若对某个集合的成员进行一种运算，生成的仍然是这个集合的成员，则该集合被称为在这个运算下闭合。

任一数域都包含有理数域，即有理数域是最小的数域

$n$ 维向量空间 $K^{n}$

这里可能我理解的有问题，我参考的是丘维声老师的高等代数教材加上我自己的理解，如果有数学专业的大佬发现我理解的有问题请指正。

有序对：在数学中，有序偶是两个对象的搜集，使得可以区分出其中一个是“第一个元素”而另一个是“第二个元素”（第一个元素和第二个元素也叫做左投影和右投影）。带有第一个元素 $a$ 和第二个元素 $b$ 的有序偶通常写为 $(a, b)$
$n$ 元有序组： $n$ 元有序组(ordered n-tuples)亦称 $n$ 目有序组，是有序对的推广，按一定顺序给出的 $n (n \geq 1)$ 个客体称为一个n元有序组。依次给出 $n$ 个客体（这个客体可以是任意的东西） $x_{1}，x_{2}，…，x_{n}$ 得到的n元有序组记为 $x_{1}，x_{2}，…，x_{n}〉$ (或 $x_{1}，x_{2}，…，x_{n}$ )，其中 $x_{i}$ 常称为有序组的第 $i$ 分量，元数不同的两个有序组不等，两个 $n$ 元有序组 $x_{1}，x_{2}，…，x_{n}〉$ 与 $y_{1}，y_{2}，…，y_{n}〉$ 相等，当且仅当对每一个 $i\in\left \{1，2，…，n\right \}$ ，有 $x_{i}=y_{i}$ .【比如：表示日期：年、月、日可用三元有序组表示：(年, 月, 日)。】
$n$ 元有序数组：将 $n$ 元有序组中的分量都定义为数字就是 $n$ 元有序数组（我个人理解，不严谨，欢迎数学大佬给出严谨的定义）
$n$ 元有序数组组成的集合：取定一个数域 $K$ ，设 $n$ 是任意给定的一个正整数，令 $K^{n}=\left \{(a_{1},a_{2},...,a_{n})|a_{i}\in K,i=1,2,...,n\right \}$ ，则称 $K^{n}$ 是 $n$ 元有序数组组成的集合。
相等关系：在 $K^{n}$ 中，如果 $a_{1}=b_{1},a_{2}=b_{2},...,a_{n}=b_{n}$ ，则称 $K^{n}$ 中的两个元素（有序数组） $a_{1},a_{2},...,a_{n})$ 与 $b_{1},b_{2},...,b_{n})$ 相等。
加法运算：在 $K^{n}$ 中，规定加法运算如下， $a_{1},a_{2},...,a_{3})+(b_{1},b_{2},...,b_{3})=(a_{1}+b_{1},a_{2}+b_{2},...,a_{n}+b_{n})$
数量乘法： $k(a_{1},a_{2},...,a_{n})=(ka_{1},ka_{2},...,ka_{n})$
在 $K^{n}$ 中规定加法和数量乘法满足8条法则，其中， $\alpha,\beta,\gamma\in K^{n},k,l\in K$ ：

加法交换律： $\bm{\alpha}+\bm{\beta}=\bm{\beta}+\bm{\alpha}$
加法结合律： $(\bm{\alpha}+\bm{\beta})+\bm{\gamma}=\bm{\alpha}+(\bm{\beta}+\bm{\gamma})$
零元：把 $(0, 0, ..., 0)$ 记作 $\bm{0}$ ，它使得 $\bm{0}+\bm{\alpha}=\bm{\alpha}+\bm{0}$ ，称 $\bm{0}$ 是 $K^{n}$ 的零元。
负元：对于 $\bm{\alpha}=(a_{1},a_{2},...,a_{n})\in K^{n}$ ，令 $-\bm{\alpha}=(-a_{1},-a_{2},...,-a_{n})\in K^{n}$ ，有 $\bm{\alpha}+(-\bm{\alpha})=(-\bm{\alpha})+\bm{\alpha}=\bm{0}$ ，则称 $-\bm{\alpha}$ 是 $\bm{\alpha}$ 的负元
$1\bm{\alpha}=\bm{\alpha}$
$(kl)\bm{\alpha}=k(l\bm{\alpha})$
$(k+l)\bm{\alpha}=k\bm{\alpha}+l\bm{\alpha}$
$k(\bm{\alpha}+\bm{\beta})=k\bm{\alpha}+k\bm{\beta}$

向量

在数学中，向量（也称为欧几里得向量、几何向量），指具有大小（magnitude）和方向的量。它可以形象化地表示为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的量叫做数量（物理学中称标量），数量（或标量）只有大小，没有方向。下面给出相关概念的精确定义。

向量空间

数域 $K$ 上所有 $n$ 元有序数组组成的集合 $K^{n}$ ，连同定义在它上面的加法运算和数量乘法运算，及其满足的8条运算法则一起，称为数域 $K$ 上的一个 $n$ 维度向量空间。

向量的定义

$K^{n}$ 的元素称为 $n$ 维向量，记为 $\bm{\alpha}=(a_{1},a_{2},...,a_{n})$ ，称 $a_{i}$ 是 $\bm{\alpha}$ 的第 $i$ 个分量，其在欧几里得空间下用一个有方向的箭头表示，在数学上一般用粗体或者字母上面带箭头表示向量。假设有向量 $\bm{\alpha}=(a_{1},a_{2},...,a_{n})$ 与向量 $\bm{\beta}=(b_{1},b_{2},...,b_{n})$ （以下均章节均按此假定）

$n$ 元有序数组写成一行 $a_{1},a_{2},...,a_{n})$ ，称为行向量，写成一列 $\begin{pmatrix} a_{1}\\ a_{2} \\ \vdots \\ a_{n} \end{pmatrix}$ ，称为列向量。
行列向量通过取转置符号 $T$ 进行变换，比如行向量 $\bm{\alpha}=(a_{1},a_{2},...,a_{n})$ 的转置向量就是列向量 $\bm{\alpha}^{T}=\begin{pmatrix} a_{1}\\ a_{2} \\ \vdots \\ a_{n} \end{pmatrix}$
向量与向量转置的乘法为： $\bm{\alpha}\bm{\beta}^{T}=(a_{1},a_{2},...,a_{n})\begin{pmatrix} b_{1}\\ b_{2} \\ \vdots \\ b_{n} \end{pmatrix}=a_{1}b_{1}+a_{2}b_{2}+...+a_{n}b_{n}$

向量的运算规律

向量完全符合上述数域 $K$ 上所有 $n$ 元有序数组组成的集合 $K^{n}$ ，连同定义在它上面的加法运算和数量乘法运算，及其满足的8条运算法则。以下给出向量在深度学习中的常见运算规律：
【符号说明】假设向量为 $\textbf{x}$ ，则其中的元素为 $x_{i},i=1,2,3...$

加减法： $\textbf{c}=\textbf{a}+\textbf{b}$ ，其中 $c_{i}=a_{i}+b_{i}$
数乘： $\textbf{c}=\alpha\cdot \textbf{b}$ ，其中 $c_{i}=\alpha\cdot b_{i}$ ， $\alpha$ 是一个常数
取函数： $\textbf{c}=sin\textbf{a}$ ，其中 $c_{i}=sina_{i}$

向量的长度（模长）

向量 $\bm{\alpha}$ 的长度（模长） $||\bm{\alpha}||$ 为：
$||\bm{\alpha}||=\sqrt{\sum\limits_{i=1}^{n} a_{i}^{2}}=\sqrt{a_{1}^{2}+a_{2}^{2}+...+a_{n}^{2}}\ge 0$
其中：

$||\bm{\alpha}||\ge 0$
$||\bm{\alpha}+\bm{\beta}||\le ||\bm{\alpha}||+||\bm{\beta}||$
$||\bm{\alpha}\cdot \bm{\beta}||=||\bm{\alpha}||\cdot ||\bm{\beta}||$

向量的叉乘（外积）

向量的叉乘（外积），也叫向量积。结果是一个和已有两个向量都垂直的向量（法向量）。

在平面中，向量的叉乘的模长为 $||\bm{\alpha}\times \bm{\beta}||=||\bm{\alpha}||\bullet ||\bm{\beta}||\bullet sin\theta$ ，其中 $sin\theta$ 是向量 $\bm{\alpha}$ 与向量 $\bm{\beta}$ 的夹角的正弦值
在三维空间中（假设 $n = 3$ ），向量的叉乘是指一个与这两个向量都垂直的向量，即：
$\bm{\alpha}\times \bm{\beta}=\begin{vmatrix} i& j& k\\ a_{1}&a_{2} &a_{3} \\ b_{1}& b_{2} &b_{3} \end{vmatrix}$
【注】这是一个行列式，行列式的计算方法参考：第一章----行列式知识点汇总

向量的点乘（内积）

向量 $\bm{\alpha}$ 与向量 $\bm{\beta}$ 的点乘结果为：
$\bm{\alpha}\cdot \bm{\beta}=\bm{\alpha} \bm{\beta}^{T}=a_{1}b_{1}+a_{2}b_{2}+...+a_{n}b_{n}$

向量正交

两个向量正交说明两个向量相互垂直，即下图：

当两个向量的点乘结果为0时，两个向量正交，即当 $\bm{\alpha}\cdot \bm{\beta}=\bm{\alpha} \bm{\beta}^{T}=a_{1}b_{1}+a_{2}b_{2}+...+a_{n}b_{n}=0$ 时，向量 $\bm{\alpha}$ 与向量 $\bm{\beta}$ 正交。

矩阵

矩阵的定义

由 $s\cdot m$ 个数排成 $s$ 行、 $m$ 列的一张表称为一个 $s\times m$ 矩阵，其中的每一个数称为这个矩阵的一个元素，第 $i$ 行与第 $j$ 列交叉位置的元素称为矩阵 $(i, j)$ 元。
矩阵通常用大写英文字母 $\bm{A},\bm{B},\bm{C},...$ 表示，一个 $s\times m$ 矩阵可以简记为 $\bm{A}_{s\times m}$ ，它的 $(i, j)$ 元记作 $\bm{A}(i;j)$ 。如果矩阵 $\bm{A}$ 的 $(i, j)$ 元是 $a_{ij}$ ，那么可以记作 $\bm{A}=(a_{ij})$
元素全为0的矩阵称为零矩阵，简记为 $\bm{0}$ 。 $s$ 行 $m$ 列的零矩阵可以记成 $\bm{0}_{s\times m}$
如果一个矩阵 $\bm{A}$ 的行数与列数相等，则称它为方阵， $m$ 行 $m$ 列的方阵也称为 $m$ 级矩阵或 $m$ 阶方阵。
对于两个矩阵 $\bm{A}$ 与 $\bm{B}$ ，如果它们的行数相等，列数相等，并且 $\bm{A}(i;j)=\bm{B}(i;j),i=1,2,3...,j=1,2,3,...$ ，那么称矩阵 $\bm{A}$ 与 $\bm{B}$ 相等，记作 $\bm{A}=\bm{B}$
举一个三阶矩阵的例子：
$\bm{A}=\begin{pmatrix} 1& 1 &1 \\ 1& 1&1 \\ 1 &1 &1 \end{pmatrix}$