MIT线性代数笔记-第28讲-正定矩阵，最小值

28.正定矩阵，最小值

由第 $26$ 讲的末尾可知在矩阵为实对称矩阵时，正定矩阵有以下四种判定方法（都是充要条件）：

所有特征值都为正
左上角所有 $k$ 阶子矩阵行列式都为正（ $\le k \le n$ ）
所有主元都为正
对于任意非零实向量 $\vec{x}$ 均满足 $\vec{x}^T M \vec{x} > 0$

其中最后一种常常作为正定矩阵的定义

当上述判定条件中的正都换为非负时，得到的就是半正定矩阵

对于一个实对称矩阵 $A$ ， $\vec{x}^T A \vec{x}$ 等于一个由二次项构成的多项式，这种形式就是矩阵的二次型

例：对于矩阵 $\begin{bmatrix} 2 & 6 \\ 6 & 7 \end{bmatrix}$ ，它的二次型为 $\vec{x}^T A \vec{x} = \begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} 2 & 6 \\ 6 & 7 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = 2 x_1^2 + 12 x_1 x_2 + 7 x_2^2$

容易证明无论对于多少阶的实对称矩阵，得到的都是二次项构成的多项式，即不存在三次型，四次型等

也就是说如果一个实对称矩阵的二次型恒大于零，那么它是一个正定矩阵，当考虑一个多元二次函数是否恒为正时，可以找到对应的对称矩阵并判断是否为正定矩阵

如果这个多元二次函数有二次项或常数项，可以给 $\vec{x}$ 末尾添加一个元素 $1$ ，那么对应的对称矩阵最后一个元素即为常数项的值，最后一列和最后一行的元素（除最后一个）依次为对应的自变量的系数的二分之一

即函数 $f(x_1 , \cdots , x_n) = a_{1 , 1} x_1^2 + \cdots + a_{n , n} x_n^2 + b_1 x_1 + \cdots + b_n x_n + c$ （其中 $a_{i , j}$ 表示 $x_i x_j$ 的系数）对应的对称矩阵为

$\begin{bmatrix} a_{1 , 1} & \dfrac{a_{1 , 2}}{2} & \cdots & \dfrac{b_1}{2} \\ \dfrac{a_{1 , 2}}{2} & a_{2 , 2} & \cdots & \dfrac{b_2}{2} \\ \vdots & \vdots & \ddots & \vdots \\ \dfrac{b_1}{2} & \dfrac{b_2}{2} & \cdots & c \end{bmatrix}$ ，不过此时“对应的对称矩阵是正定矩阵”就成了充分条件而非充要条件
考虑将一个二阶实对称矩阵的二次型表示为图像，继续使用刚才的例子 $\begin{bmatrix} 2 & 6 \\ 6 & 7 \end{bmatrix}$ 得到 $z = 2x^2 + 12xy + 7y^2$
- 当 $y = 0, x = 0$ 时，分别得到 $z O x$ 面和 $y O z$ 面上的二次函数
- 当 $x = y$ 时，得到一个 $z O x$ 面和 $y O z$ 面中间的二次函数
依此类推可以发现在部分情况下 $z < 0$ ，并且可以想象到这个函数图像类似一个马鞍，原点是一个鞍点，在某个方向是极大值，在另一个方向是极小值

反之，当矩阵为正定矩阵时，图像类似一个碗（抛物面）

此时将图像水平切开，即令 $z$ 为一个常数，那么马鞍图像的截面为一个双曲线，碗图像的截面为一个椭圆
把刚才的例子的最后一个元素换为 $20$ ，得到 $\begin{bmatrix} 2 & 6 \\ 6 & 20 \end{bmatrix}$

二者的二次型分别配方得到 $\left \{ \begin{matrix} 2 x_1^2 + 12 x_1 x_2 + 7 x_2^2 = 2(x + 3y)^2 - 11y^2 \\ 2 x_1^2 + 12 x_1 x_2 + 20 x_2^2 = 2(x + 3y)^2 + 2y^2 \end{matrix} \right.$

实际上配方后这些平方的系数和实对称矩阵的主元有关

例如 $\begin{bmatrix} 2 & 6 \\ 6 & 20 \end{bmatrix} LU$ 分解后得到 $\begin{matrix} \begin{bmatrix} 1 & 0 \\ 3 & 1 \end{bmatrix} & \begin{bmatrix} 2 & 6 \\ 0 & 2 \end{bmatrix} \\ L & U \end{matrix}$ ，两个主元分别用作平方的系数，而 $3$ 用作第一个平方里 $y$ 的系数

$n$ 阶实对称矩阵的二次型可以写成 $d_1(x_1 + \cdots + e_{1 , n} x_n)^2 + d_2(x_2 + \cdots + e_{2 , n} x_n)^2 + \cdots + d_n x_n^2$

模拟一下消元过程可以发现 $d_i = u_{i , i} , e_{i , j} = l_{j , i}$ （ $u, l$ 表示 $LU$ 分解后 $U, L$ 中的元素），这是可以证明的，但是我还没找到描述起来比较简洁的证明方法

由此可以发现平方项的系数即为对应主元，所以正定矩阵的主元均为正数
已知某个二元函数 $f (x, y)$ 在 $x_0 y_0)$ 处有极小值的一个充分条件是函数在 $x_0 , y_0)$ 的某邻域内连续且有一阶及二阶偏导数，又 $f_x(x_0 , y_0) = f_x(x_0 , y_0) = 0 , f_{xx}(x_0 , y_0) f_{yy}(x_0 , y_0) - f_{xy}^2(x_0 , y_0) > 0$ 且 $f_{xx}(x_0 , y_0) > 0$

易证最后两个条件刚好与矩阵 $\begin{bmatrix} f_{xx}(x_0 , y_0) & f_{xy}(x_0 , y_0) \\ f_{yx}(x_0 , y_0) & f_{yy}(x_0 , y_0) \end{bmatrix}$ 是正定矩阵等价

这还可以推广至更加多元的函数

证明： $\color{OrangeRed}暂时不会证明$
对于一个二阶正定矩阵 $A$ ，把它拆为 $\Lambda Q^T$ ，其中的 $Q , Q^T$ 可以分别被视为行向量和列向量的旋转矩阵，并且二者导致的旋转一样

令 $\vec{x}^T A \vec{x} = \vec{x}^T Q \Lambda Q^T \vec{x} = 1$ ，依本讲第 $2$ 点可知这是一个中心在原点正上方的平行于 $x O y$ 面的斜椭圆的方程，容易发现两个特征值分别决定斜椭圆长轴和短轴长度，即 $\sqrt{\dfrac{1}{\lambda_1}} , 2 \sqrt{\dfrac{1}{\lambda_2}}$ 分别为长轴和短轴长度（其中 $\lambda_1 < \lambda_2$ ），两个特征向量分别与长轴和短轴方向一致

推广到更加高阶，这种关系也是成立的，比如三阶正定矩阵的三个特征值倒数的平方根的两倍分别等于对应椭球的三个主轴长度，三个特征向量分别与三个主轴方向一致

这就是为什么这种拆分被称为主轴定理

证明： $\color{OrangeRed}暂时不会证明$