一个交替优化问题的求解

优化问题的背景

给出的优化目标是一个多变量的函数，形式如下：

$\min_{W,b,Y\in Ind,Z}\left\|X^TW+\mathbf{1}b^T-Y\right\|_F^2+\gamma\|W\|_F^2 \\ +\lambda\mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right)+\frac{\mu}{2}\left\|Y-Z+\frac{1}{\mu}\Lambda\right\|_F^2$

这里的目标函数包括多项：

第一项 $\|X^TW + \mathbf{1}b^T - Y\|_F^2$
- 描述的是 $Y$ 和 $X^TW + \mathbf{1}b^T$ 的差异（平方 Frobenius 范数）。
- $W$ 和 $b$ 是待优化的线性模型参数， $Y$ 是一个表示分类结果的离散矩阵。
第二项 $\gamma\|W\|_F^2$
- 是 $W$ 的正则化项，用于控制模型复杂度，防止过拟合。
第三项 $\lambda\mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right)$
- 控制 $Z$ 的某种稀疏性（或行一致性），其中 $\mathbf{1}$ 是全 1 的列向量， $\mathrm{tr}$ 表示迹运算。
第四项 $\frac{\mu}{2}\left\|Y-Z+\frac{1}{\mu}\Lambda\right\|_F^2$
- 表示 $Y$ 和 $Z$ 的一致性约束， $\Lambda$ 是拉格朗日乘子， $\mu$ 是一个惩罚参数。
- 这种形式通常出现在交替方向乘子法（ADMM）中，用于逼近等式约束 $\approx Z$ 。

固定 $W$ , $b$ , $Z$ 的优化问题

重写优化问题

在固定 $W$ , $b$ , $Z$ 的情况下，优化问题只需针对 $Y$ 来求解。将目标函数中与 $Y$ 相关的部分提取出来：

$\min_{Y\in Ind} \|X^TW+\mathbf{1}b^T - Y\|_F^2 + \frac{\mu}{2}\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2$

展开平方项：

$\|X^TW+\mathbf{1}b^T - Y\|_F^2 = \|X^TW+\mathbf{1}b^T\|_F^2 - 2\langle X^TW+\mathbf{1}b^T, Y \rangle + \|Y\|_F^2$

$\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 = \|Y\|_F^2 - 2\langle Y, Z - \frac{1}{\mu}\Lambda \rangle + \|Z - \frac{1}{\mu}\Lambda\|_F^2$

将它们代入优化目标并合并常数项，最终可以化简为：

$\min_{Y\in Ind} \|Y - V\|_F^2 + \text{const.}$

其中，常数部分与 $Y$ 无关， $V$ 是定义为：

$\frac{2}{2+\mu}\left(X^TW+\mathbf{1}b^T\right) + \frac{1}{2+\mu}(\mu Z - \Lambda)$

进一步的离散约束

矩阵 $\in Ind$ 表示一个类别分配矩阵：

每个元素 $y_{ik} \in \{0,1\}$ 表示是否将样本 $i$ 分配给类别 $k$ 。
每一行的和为 1，即 $\sum_{k=1}^c y_{ik} = 1$ ，表示每个样本必须且只能属于一个类别。

在这种情况下，优化目标可以写成：

$\min_{Y} \sum_{i=1}^n \sum_{k=1}^c (y_{ik} - v_{ik})^2, \quad s.t. \quad y_{ik} \in \{0,1\}, \sum_{k=1}^c y_{ik} = 1$

如何求解？

由于每行的 $y_{i:}$ 中只有一个值为 1，其他为 0，问题可以通过遍历（traversal strategy）逐行解决：

每一行的优化

对固定的第 $i$ 行，目标是：

$\min_{y_{i:}} \sum_{k=1}^c (y_{ik} - v_{ik})^2, \quad s.t. \quad y_{ik} \in \{0,1\}, \sum_{k=1}^c y_{ik} = 1$

通过观察，这实际上是选择一个使 $v_{ik}$ 最大的 $k$ 。因此，最优解为：

$y_{ik} = \begin{cases} 1, & \text{if } k = \arg\max_k \{v_{ik}\}_{k=1}^c \\ 0, & \text{otherwise.} \end{cases}$

换句话说，对于每个样本 $i$ ， $Y$ 的每一行都会被设置为一个独热编码（one-hot encoding），对应于 $v_{ik}$ 最大的类别索引。

迭代终止条件

通过交替优化（如 ADMM），我们不断更新 $W, b, Y, Z$ 和 $\Lambda$ 。对 $Y$ 的更新迭代直到满足以下条件之一：

$\to 0$ ：表示 $Y$ 和 $Z$ 的一致性达到要求。
$\Lambda$ 不再更新：拉格朗日乘子停止变化，说明约束收敛。

这是因为优化问题的目标函数和约束条件直接导致了这种选择。让我们详细分析其中的数学逻辑。

目标函数的形式

我们需要解决的问题是：

$\min_{y_{ik}} \sum_{i=1}^n \sum_{k=1}^c (y_{ik} - v_{ik})^2$

约束条件

每个元素 $y_{ik} \in \{0, 1\}$ ，表示 $y_{ik}$ 要么是 0，要么是 1。
每行 $y_{i:} = (y_{i1}, y_{i2}, \dots, y_{ic})$ 中，只有一个值是 1，即：
$\sum_{k=1}^c y_{ik} = 1$

换句话说，矩阵 $Y$ 的每一行是一个独热编码（one-hot encoding），表示样本 $i$ 属于某个类别 $k$ 。

分解为逐行优化

在给定约束下，优化目标可以逐行独立解决，因为每一行 $y_{i:}$ 的变量互不影响。这意味着我们可以逐行求解：

$\min_{y_{i:}} \sum_{k=1}^c (y_{ik} - v_{ik})^2, \quad \text{subject to } y_{ik} \in \{0, 1\}, \sum_{k=1}^c y_{ik} = 1.$

逐行优化的含义

对第 $i$ 行来说，目标是：

$\min_{y_{i:}} \sum_{k=1}^c (y_{ik} - v_{ik})^2$

由于 $y_{i:}$ 的每个元素 $y_{ik}$ 只能取值 0 或 1，并且约束 $\sum_{k=1}^c y_{ik} = 1$ 确保其中只有一个值为 1，这就意味着我们只需要选择一个类别 $k$ ，使得目标函数对这一行的贡献最小。

目标函数最小化的选择

观察目标函数中的每一行优化问题：

$\sum_{k=1}^c (y_{ik} - v_{ik})^2$

$y_{ik} = 1$ 时， $y_{ik} - v_{ik})^2 = (1 - v_{ik})^2$ 。
$y_{ik} = 0$ 时， $y_{ik} - v_{ik})^2 = v_{ik}^2$ 。

为了满足约束，每行只能有一个 $y_{ik} = 1$ ，其他 $y_{ik} = 0$ 。因此，优化目标可以等价于：

$\min_k (1 - v_{ik})^2 + \sum_{j \neq k} v_{ij}^2$

因为 $\sum_{j \neq k} v_{ij}^2$ 对所有 $k$ 都是相同的（只影响固定的其他列），所以只需要最小化 $1 - v_{ik})^2$ ，也就是最大化 $v_{ik}$ 。

总结

最终的逐行解可以表述为：

$y_{ik} = \begin{cases} 1, & \text{if } k = \arg\max_k \{v_{ik}\}_{k=1}^c, \\ 0, & \text{otherwise.} \end{cases}$

这实际上是找到第 $i$ 行中 $v_{ik}$ 最大的那个 $k$ ，将 $y_{ik}$ 设置为 1，其他设置为 0。

直观解释

$v_{ik}$ 表示优化中一个候选类别 $k$ 对样本 $i$ 的分数。
为了让 $y_{i:}$ 逼近 $v_{i:}$ ，自然选择分数最大的类别 $k$ 为 1，其他为 0。

因此，这就是为什么选择 $arg\max_k v_{ik}$ 的原因！

总结

给出的优化问题包含连续和离散变量，目标是找到一个满足多项约束的最优解。
在固定部分变量后，针对离散变量 $Y$ 的优化被转化为一个简单的行级别问题。
对每行的优化，通过找到 $v_{ik}$ 的最大值索引实现，得到一个独热编码解。
迭代更新 $Y$ 直到收敛或满足终止条件。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/474561.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！