1. 常见问题[0]
L0范数优化问题:1.2.2
m i n ∣ ∣ x ∣ ∣ 0 , min \space ||x||_0, min ∣∣x∣∣0,
s . t . A x = b s.t. \space Ax=b s.t. Ax=b
其中, A x = b Ax=b Ax=b为一个欠定方程组(方程个数远小于未知数个数)。
问题1.2.2
是一个NP难问题,若 A , b A,b A,b满足一定条件,可将其转化为基追踪问题求解(L1范数优化问题),但不能将其转化为L2范数优化问题。
因为L0与L1范数优化问题的解具有稀疏性,而L2范数优化问题却不具有稀疏性。
基追踪问题:1.2.3
m i n ∣ ∣ x ∣ ∣ 1 , min \space ||x||_1, min ∣∣x∣∣1,
s . t . A x = b s.t. \space Ax=b s.t. Ax=b
其中, A x = b Ax=b Ax=b为一个欠定方程组(方程个数远小于未知数个数)
LASSO问题(LASSO,least absolute shrinkage and selection operator):1.2.5
m i n 1 2 ∣ ∣ A x − b ∣ ∣ 2 + μ ∣ ∣ x ∣ ∣ 1 min \space \frac{1}{2} ||Ax-b||^2 + \mu ||x||_1 min 21∣∣Ax−b∣∣2+μ∣∣x∣∣1
矩阵补全问题,低秩矩阵恢复问题:1.3.1
m i n r a n k ( X ) , min \space rank(X), min rank(X),
s . t . X i j = M i j , ( i , j ) ∈ Ω s.t. \space X_{ij} = M_{ij}, (i,j)\in \Omega s.t. Xij=Mij,(i,j)∈Ω
其中, Ω \Omega Ω为指标集
该问题是一个NP难问题。 r a n k ( X ) rank(X) rank(X)为矩阵 X X X非零奇异值的个数,将该问题替换为使得矩阵的核范数最小(奇异值和最小):
m i n ∣ ∣ X ∣ ∣ ∗ , min \space ||X||_*, min ∣∣X∣∣∗, 1.3.2
s . t . X i j = M i j , ( i , j ) ∈ Ω s.t. \space X_{ij} = M_{ij}, (i,j)\in \Omega s.t. Xij=Mij,(i,j)∈Ω
问题1.3.2
的罚函数形式:
m i n μ ∣ ∣ X ∣ ∣ ∗ + 1 2 Σ ( i , j ) ∈ Ω ( X i j − M i j ) 2 min \space \mu ||X||_* + \frac{1}{2} \Sigma_{(i,j)\in \Omega} (X_{ij} - M_{ij})^2 min μ∣∣X∣∣∗+21Σ(i,j)∈Ω(Xij−Mij)2 1.3.3
神经网络优化模型:1.4.3
m i n Σ i = 1 m ∣ ∣ h ( a i ; x ) − b i ∣ ∣ + λ r ( x ) min \space \Sigma_{i=1}^m ||h(a_i; x) - b_i|| + \lambda r(x) min Σi=1m∣∣h(ai;x)−bi∣∣+λr(x)
r ( x ) r(x) r(x)为正则项, a i , b i a_i,b_i ai,bi为训练集的输入与输出
求解方程 ϕ i ( x ) = b i , i = 1 , . . . , m \phi_i (x) = b_i, i=1,...,m ϕi(x)=bi,i=1,...,m 3.1.1
(最常见的是 A x = b Ax=b Ax=b)
最小二乘问题:3.1.2
m i n Σ i = 1 m ( b i − ϕ i ( x ) ) 2 min \space \Sigma_{i=1}^m (b_i - \phi_i(x))^2 min Σi=1m(bi−ϕi(x))2
最小一乘问题:3.1.3
m i n Σ i = 1 m ∣ b i − ϕ i ( x ) ∣ min \space \Sigma_{i=1}^m |b_i - \phi_i(x)| min Σi=1m∣bi−ϕi(x)∣
最小最大模型:3.1.4
使最大偏差最小化
m i n m a x i ∣ b i − ϕ i ( x ) ∣ min \space \underset {i}{max} |b_i - \phi_i(x)| min imax∣bi−ϕi(x)∣
对于很多问题最优解不止一个,或者为了让解具有某些性质,需要加入正则项,即加入关于解的先验知识。
正则项: μ ∣ ∣ x ∣ ∣ 2 2 , μ ∣ ∣ x ∣ ∣ 1 \mu ||x||_2^2, \mu||x||_1 μ∣∣x∣∣22,μ∣∣x∣∣1
若 x x x本身不稀疏,但其变换域中是稀疏的,则正则项为: μ ∣ ∣ W ( x ) ∣ ∣ 2 2 , μ ∣ ∣ W ( x ) ∣ ∣ 1 \mu ||W(x)||_2^2, \mu||W(x)||_1 μ∣∣W(x)∣∣22,μ∣∣W(x)∣∣1,图像处理中 W ( ⋅ ) W(\cdot) W(⋅)为全变分或小波变换等。
最大似然估计:
m a x Π i = 1 n p ( a i , x ) max \space \Pi_{i=1}^n p(a_i, x) max Πi=1np(ai,x)
a i a_i ai为样本, x x x为未知参数, p ( a i , x ) p(a_i, x) p(ai,x)为分布律或概率密度函数
一般对数变换后更容易求解
Tikhonov正则化或岭回归问题:3.2.6
m i n 1 2 ∣ ∣ A x − b ∣ ∣ 2 2 + μ ∣ ∣ x ∣ ∣ 2 2 min \space \frac{1}{2} ||Ax-b||_2^2 + \mu||x||_2^2 min 21∣∣Ax−b∣∣22+μ∣∣x∣∣22
矩阵 M M M分解为低秩矩阵 X X X与稀疏矩阵 S S S:
m i n r a n k ( X ) + μ ∣ ∣ S ∣ ∣ 0 , min \space rank(X) + \mu ||S||_0, min rank(X)+μ∣∣S∣∣0,
s . t . X + S = M s.t. \space X+S=M s.t. X+S=M
其中, ∣ ∣ S ∣ ∣ 0 ||S||_0 ∣∣S∣∣0表示 S S S的非零元素个数。
为便于求解,替换为:
m i n ∣ ∣ X ∣ ∣ ∗ + μ ∣ ∣ S ∣ ∣ 1 , min \space ||X||_* + \mu ||S||_1, min ∣∣X∣∣∗+μ∣∣S∣∣1,
s . t . X + S = M s.t. \space X+S=M s.t. X+S=M
图像全变分:
∣ ∣ u ∣ ∣ T V = ∫ Ω ∣ ∣ ∇ u ∣ ∣ d x ||u||_{TV} = \int_{\Omega} ||\nabla u|| dx ∣∣u∣∣TV=∫Ω∣∣∇u∣∣dx
L1范数得到各向异性全变分:
∣ ∣ ∇ u ∣ ∣ 1 = ∣ ∂ x u ∣ + ∣ ∂ y u ∣ ||\nabla u||_1 = |\partial_x u| + |\partial_y u| ∣∣∇u∣∣1=∣∂xu∣+∣∂yu∣
L2范数得到各向同性全变分:
∣ ∣ ∇ u ∣ ∣ 2 = ( ∂ x u ) 2 + ( ∂ y u ) 2 ||\nabla u||_2 = \sqrt{(\partial_x u)^2 + (\partial_y u)^2} ∣∣∇u∣∣2=(∂xu)2+(∂yu)2
Rudin-Osher-FatemiR(ROF)模型:
m i n ∣ ∣ A u − b ∣ ∣ L 2 2 + λ ∣ ∣ u ∣ ∣ T V min ||\mathcal Au - b||_{L^2}^2 + \lambda ||u||_{TV} min∣∣Au−b∣∣L22+λ∣∣u∣∣TV
其中, A \mathcal A A为单位算子则模型用于图像去噪,若为模糊算子则模型用于去模糊。第二项保证重构出的图像的阶跃是稀疏的,即重构的图像是一个分片常函数。
2.基础知识[0]
上方图 epigraph
广义实值函数 f : R n → R ˉ f: R^n \rightarrow \bar{R} f:Rn→Rˉ的上方图:
e p i f = { ( x , t ) ∈ R n + 1 ∣ f ( x ) ≤ t } epi \space f = \{(x,t) \in R^{n+1} | f(x) \leq t \} epi f={(x,t)∈Rn+1∣f(x)≤t}
其中, R ˉ = R ∪ { ± ∞ } \bar{R} = R \cup \{ \pm \infty\} Rˉ=R∪{±∞}
凸函数
适当函数:若广义实值函数 f ( x ) , x ∈ χ f(x), x\in \chi f(x),x∈χ满足 至少有一处取值不为正无穷,以及处处取值不为负无穷,则称 f f f关于 χ \chi χ是适当的。
凸集 C C C满足:
θ x 1 + ( 1 − θ ) x 2 ∈ C , ∀ θ ∈ [ 0 , 1 ] \theta x_1 + (1-\theta) x_2 \in C, \forall \theta \in [0,1] θx1+(1−θ)x2∈C,∀θ∈[0,1]
其中, x 1 , x 2 ∈ C x_1, x_2 \in C x1,x2∈C
仿射集要求更高:
θ x 1 + ( 1 − θ ) x 2 ∈ C , ∀ θ ∈ R \theta x_1 + (1-\theta) x_2 \in C, \forall \theta \in R θx1+(1−θ)x2∈C,∀θ∈R
其中, x 1 , x 2 ∈ C x_1, x_2 \in C x1,x2∈C
所以仿射集都是凸集。
若 f f f为适当函数, d o m f dom \space f dom f是凸集,且
f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) , f(\theta x+ (1-\theta)y)\leq \theta f(x) + (1-\theta)f(y), f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y),
x , y ∈ d o m f , θ ∈ [ 0 , 1 ] x, y \in dom \space f, \theta \in [0,1] x,y∈dom f,θ∈[0,1],
则 f f f为凸函数。
次梯度
梯度 g g g定义:
l i m p → 0 f ( x + p ) − f ( x ) − g T p ∣ ∣ p ∣ ∣ = 0 \underset{p \rightarrow 0}{lim} \frac{f(x+p)-f(x) - g^Tp}{||p||} = 0 p→0lim∣∣p∣∣f(x+p)−f(x)−gTp=0
梯度下降算法:
x k + 1 = x k − α k ∇ f ( x k ) x^{k+1} = x^k - \alpha_k \nabla f(x^k) xk+1=xk−αk∇f(xk)
次梯度 g g g的定义:
f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f f(y) \geq f(x) + g^T (y-x), \forall y \in dom \space f f(y)≥f(x)+gT(y−x),∀y∈dom f
f f f为适当凸函数。
次梯度算法:
x k + 1 = x k − α k g k x^{k+1} = x^k - \alpha_k g^k xk+1=xk−αkgk
LASSO问题1.2.5
的次梯度:
g = A T ( A x − b ) + μ ⋅ s i g n ( x ) g = A^T(Ax-b) + \mu \cdot sign(x) g=AT(Ax−b)+μ⋅sign(x)
共轭函数
适当函数 f f f的共轭函数:
f ∗ ( y ) = s u p x ∈ d o m f y T x − f ( x ) f^* (y) = \underset{x \in dom \space f}{sup} y^Tx - f(x) f∗(y)=x∈dom fsupyTx−f(x)
其中, s u p sup sup为上确界, d o m dom dom为定义域
二次函数:
f ( x ) = 1 2 x T A x + b T x + c f(x) = \frac{1}{2} x^TAx + b^T x + c f(x)=21xTAx+bTx+c
A A A为正定矩阵时, f ( x ) f(x) f(x)的共轭函数:
f ∗ ( y ) = 1 2 ( y − b ) T A − 1 ( y − b ) − c f^*(y) = \frac{1}{2} (y-b)^T A^{-1} (y-b) - c f∗(y)=21(y−b)TA−1(y−b)−c
任一函数 f f f的二次共轭函数:
f ∗ ∗ ( x ) = s u p y ∈ d o m f ∗ x T y − f ∗ ( y ) f^{**} (x) = \underset{y \in dom \space f^*}{sup} x^Ty - f^*(y) f∗∗(x)=y∈dom f∗supxTy−f∗(y)
f f f为闭凸函数时, f ∗ ∗ ( x ) = f ( x ) , ∀ x f^{**}(x) = f(x), \forall x f∗∗(x)=f(x),∀x
对偶
既有等式约束又有不等式约束的一般约束最优化问题: 5.4.1
m i n f ( x ) , min \space f(x), min f(x),
s . t . c i ( x ) = 0 , i ∈ E , s.t. \space c_i(x)=0, i\in \mathcal E, s.t. ci(x)=0,i∈E,
c i ( x ) ≤ 0 , i ∈ I c_i(x) \leq 0, i \in \mathcal I ci(x)≤0,i∈I
拉格朗日函数:
L ( x , λ , ν ) = f ( x ) + Σ i λ i c i ( x ) + Σ j μ j c j ( x ) , j ∈ E , i ∈ I L(x,\lambda, \nu) = f(x) + \Sigma_i \lambda_i c_i(x) + \Sigma_j \mu_j c_j(x), j \in \mathcal E, i \in \mathcal I L(x,λ,ν)=f(x)+Σiλici(x)+Σjμjcj(x),j∈E,i∈I
拉格朗日对偶函数:
g ( λ , ν ) = i n f x ∈ R n L ( x , λ , ν ) g(\lambda, \nu) = \underset{x\in R^n}{inf} \space L(x,\lambda, \nu) g(λ,ν)=x∈Rninf L(x,λ,ν)
其中, i n f inf inf为下确界
拉格朗日对偶问题:
m a x λ ≥ 0 , ν g ( λ , ν ) \underset{\lambda \geq 0, \nu}{max} \space g(\lambda, \nu) λ≥0,νmax g(λ,ν)
将原最小化问题,转化为求原函数下确界最大化问题。
3.ADMM算法[0,11]
对偶问题
原问题: m i n f ( x ) , s . t . A x = b min \space f(x), s.t. \space Ax=b min f(x),s.t. Ax=b
拉格朗日函数: L ( x , y ) = f ( x ) + y T ( A x − b ) L(x,y) = f(x) + y^T (Ax-b) L(x,y)=f(x)+yT(Ax−b)
对偶函数: g ( y ) = i n f x L ( x , y ) g(y) = \underset{x}{inf} L(x,y) g(y)=xinfL(x,y)
对偶问题: m a x g ( y ) max \space g(y) max g(y)
求解对偶问题得到解 y ∗ y^* y∗,代入原问题得到解 x ∗ = a r g m i n x L ( x , y ∗ ) x^*= argmin_x L(x,y^*) x∗=argminxL(x,y∗)
对偶上升
求解对偶问题
梯度法: y k + 1 = y k + α k ∇ g ( y k ) y^{k+1} = y^k + \alpha^k \nabla g(y^k) yk+1=yk+αk∇g(yk)
其中, ∇ g ( y k ) = A x − b , x = a r g m i n x L ( x , y k ) \nabla g(y^k) = A x - b, x = argmin_x L(x,y^k) ∇g(yk)=Ax−b,x=argminxL(x,yk)
对偶上升法:
x k + 1 = a r g m i n x L ( x , y k ) x^{k+1} = argmin_x L(x,y^k) xk+1=argminxL(x,yk)
y k + 1 = y k + α k ( A x k + 1 − b ) y^{k+1} = y^k + \alpha^k (Ax^{k+1} - b) yk+1=yk+αk(Axk+1−b)
对偶分解
假定 f f f可分离: f ( x ) = f 1 ( x 1 ) + . . . + f N ( x N ) f(x)=f_1(x_1) + ... + f_N (x_N) f(x)=f1(x1)+...+fN(xN),则 L L L也可分离:
L ( x , y ) = L 1 ( x 1 , y ) + . . . + L N ( x N , y ) − y T b L(x,y) = L_1(x_1,y) + ...+ L_N(x_N,y)-y^T b L(x,y)=L1(x1,y)+...+LN(xN,y)−yTb
其中, L i ( x , y ) = f i ( x ) + y T A i x i L_i(x,y) = f_i(x) + y^T A_i x_i Li(x,y)=fi(x)+yTAixi,
则 x x x最小化问题分离为N个最小化问题:
x i k + 1 = a r g m i n x i L i ( x i , y k ) x_i^{k+1} = argmin_{x_i} L_i (x_i, y^k) xik+1=argminxiLi(xi,yk)
对偶分解:
x i k + 1 = a r g m i n x i L i ( x i , y k ) x_i^{k+1} = argmin_{x_i} L_i(x_i,y^k) xik+1=argminxiLi(xi,yk)
y k + 1 = y k + α k ( Σ i A i x i k + 1 − b ) y^{k+1} = y^k + \alpha^k (\Sigma_i A_ix_i^{k+1} - b) yk+1=yk+αk(ΣiAixik+1−b)
乘子法
增广拉格朗日函数: L ρ ( x , y ) = f ( x ) + y T ( A x − b ) + ( ρ / 2 ) ∣ ∣ A x − b ∣ ∣ 2 2 L_\rho (x,y) = f(x) + y^T (Ax-b) + (\rho /2) ||Ax-b||_2^2 Lρ(x,y)=f(x)+yT(Ax−b)+(ρ/2)∣∣Ax−b∣∣22
乘子法:
x k + 1 = a r g m i n x L ρ ( x , y k ) x^{k+1} = argmin_x L_\rho (x,y^k) xk+1=argminxLρ(x,yk)
y k + 1 = y k + ρ ( A x k + 1 − b ) y^{k+1} = y^k + \rho (Ax^{k+1} - b) yk+1=yk+ρ(Axk+1−b)
步长 ρ \rho ρ固定
交替方向乘子法
ADMM问题:
m i n f ( x ) + g ( z ) , min \space f(x) + g(z), min f(x)+g(z),
s . t . A x + B z = c s.t. \space Ax+Bz=c s.t. Ax+Bz=c
增广拉格朗日函数:
L ρ ( x , y , z ) = f ( x ) + g ( z ) + y T ( A x + B z − c ) + ( ρ / 2 ) ∣ ∣ A x + B z − c ∣ ∣ 2 2 L_\rho (x,y,z) = f(x) + g(z) + y^T (Ax+Bz-c) + (\rho /2) ||Ax+Bz-c||_2^2 Lρ(x,y,z)=f(x)+g(z)+yT(Ax+Bz−c)+(ρ/2)∣∣Ax+Bz−c∣∣22
ADMM方法:
x k + 1 = a r g m i n x L ρ ( x , z k , y k ) x^{k+1} = argmin_x L_\rho (x,z^k,y^k) xk+1=argminxLρ(x,zk,yk)
z k + 1 = a r g m i n z L ρ ( x k + 1 , z , y k ) z^{k+1} = argmin_z L_\rho (x^{k+1},z,y^k) zk+1=argminzLρ(xk+1,z,yk)
y k + 1 = y k + ρ ( A x k + 1 + B z k + 1 − c ) y^{k+1} = y^k + \rho (Ax^{k+1} + Bz^{k+1} - c) yk+1=yk+ρ(Axk+1+Bzk+1−c) 对偶更新
ADMM问题的对偶问题:
m i n c T w + f ∗ ( − A T w ) + g ∗ ( − B T w ) min \space c^T w + f^* (-A^T w) + g^* (-B^Tw) min cTw+f∗(−ATw)+g∗(−BTw)
对ADMM问题使用ADMM求解等价于将DRS算法用于对偶问题上。
[0] 最优化:建模、算法与理论
[1] Markdown 数学符号、公式、花体字母. https://blog.csdn.net/qq_37672864/article/details/127497148
[2] Markdown中添加和使用希腊字母. https://blog.csdn.net/u012028275/article/details/115057245
[3] 范数球、范数锥、多面体,半正定锥. https://blog.csdn.net/Bryant_cqc/article/details/120640939
[4] LR正则化与数据先验分布的关系? - Charles Xiao的回答 - 知乎
https://www.zhihu.com/question/23536142/answer/90135994
[5] 多维高斯分布是如何由一维发展而来的? - 信陵君魏无忌的回答 - 知乎
https://www.zhihu.com/question/36339816/answer/385944057
[6] Tikhonov regularization 吉洪诺夫 正则化. https://www.cnblogs.com/shyang09/p/9120007.html
[7] 坐标下降法. https://bohrium.dp.tech/notebooks/1921409690z
[8] 近似点算子 Proximal Mapping. https://blog.csdn.net/weixin_41024483/article/details/105566558
[9] ADMM算法的详细推导过程是什么? - 覃含章的回答 - 知乎
https://www.zhihu.com/question/309568920/answer/580226096
[10] 凸优化笔记24:ADMM. https://glooow1024.github.io/2020/05/20/optimization/ch24-ADMM/
[11] Alternating Direction Method of Multipliers. https://web.stanford.edu/class/ee364b/lectures/admm_slides.pdf
[12] Douglas–Rachford method and ADMM. https://www.seas.ucla.edu/~vandenbe/236C/lectures/dr.pdf