版权声明
原创作品,整理不易,转载请标明出处。本篇推送更详细的内容介绍,可参见本人微信公众号“优化与博弈的数学原理”,公众号二维码参见文末。
编者按
OFDM系统中的功率分配问题是通信领域中的研究热点。本文重点考虑了面向同频干扰场景下OFDM系统的功率分配问题,该问题通常被建模为含复杂多耦合变量的非凸优化问题,因此现有方法难以求得该问题的最优解(即存在对偶间隙)。本篇推送通过文献阅读及相关调研,学习并记录了基于 Time-Sharing Condition 及 General Duality Theory 的求解思路,该方法可有效解决同频干扰场景下OFDM系统功率分配问题的非凸性,相关文献证明了在特定的条件下,该方法可以完全消除对偶间隙。
一、问题描述
问题1:无干扰场景下的信道容量最大化
先让我们回顾一下MIMO无线通信领域的一个常见问题,受限功率下最大化信道容量问题,即注水问题:
P 1 : min p ∑ n = 1 N l o g ( 1 + p n σ n 2 ) s . t . { p ⪰ 0 ∑ n = 1 N p n ≤ P \begin{align} {P_1:}&\mathop{\min}_{p}{ \sum\limits_{n=1}^N log(1+\frac{p_n}{\sigma_n^2}) } \nonumber \\ &s.t. \begin{cases} p \succeq 0 \nonumber \\ \sum\limits_{n=1}^{N}p_n \leq P \nonumber \end{cases} \end{align} P1:minpn=1∑Nlog(1+σn2pn)s.t.⎩ ⎨ ⎧p⪰0n=1∑Npn≤P
其中,目标函数表示包含 N N N 个并行子信道的系统信道容量(如OFDM系统)。 p = [ p 1 , p 2 , … , p N ] p=\left[ p_1, p_2, \dots, p_N \right] p=[p1,p2,…,pN] 表示信号功率且为决策变量, p n p_n pn是子信道 n n n中的信号功率, σ n 2 \sigma_n^2 σn2是子信道 n n n中的噪声功率。
问题2:有干扰场景下的信道容量最大化
今天主要想介绍,在存在干扰的情况下,如何求解其优化问题,并确保对偶间隙为0。 仍然考虑K个用户,N个子信道的优化问题,如下:
P 2 : min p ∑ k = 1 K w k ∑ n = 1 N l o g ( 1 + p k n σ k n + ∑ j ≠ k α j k n p j n ) s . t . { p k n ≥ 0 , ∀ k , n ∑ n = 1 N p n k ≤ P k , ∀ k \begin{align} {P_2:}&\mathop{\min}_{p}{ \sum\limits_{k=1}^K w_k \sum\limits_{n=1}^N log(1+\frac{p^n_k}{\sigma_k^n+\sum_{j \neq k}\alpha_{jk}^n p_j^n)} } \nonumber \\ &s.t. \begin{cases} p_k^n \geq 0, \ \ \forall k,n \nonumber \\ \sum\limits_{n=1}^{N}p_n^k\leq P_k, \ \ \forall k \nonumber \end{cases} \end{align} P2:minpk=1∑Kwkn=1∑Nlog(1+σkn+∑j=kαjknpjn)pkns.t.⎩ ⎨ ⎧pkn≥0, ∀k,nn=1∑Npnk≤Pk, ∀k
注1:上述问题摘自 Multiuser DSLs 场景,与 OFDM 类似,后文不予区分 DSL 与 OFDM 的区别;
注2:为方便符号表述, σ k n \sigma_k^n σkn表示噪声功率,这里不写平方了。
下文,我们将回顾问题1的经典求解方法[1],并详细介绍针对问题2的研究现状、理论证明及求解方法。
二、问题1的求解方法(基础回顾)
由于问题1满足 Slater 条件,故具有强对偶性,且其 Lagrange 函数为:
L ( p , λ , ν ) = − ∑ n = 1 N l o g ( 1 + p n σ n 2 ) − λ T p + ν ( ∑ n = 1 N p n − P ) L(p,\lambda,\nu)=-\sum\limits_{n=1}^{N}log(1+\frac{p_n}{\sigma_n^2}) -\lambda^Tp+\nu(\sum\limits_{n=1}^{N}p_n-P) L(p,λ,ν)=−n=1∑Nlog(1+σn2pn)−λTp+ν(n=1∑Npn−P)
计算其KKT条件:
∂ L ( p , λ , ν ) ∂ p n = − 1 1 + p n σ n 2 1 σ n 2 − λ n + ν = 0 \frac{\partial L(p,\lambda,\nu)}{\partial p_n}=\frac{-1}{1+\frac{p_n}{\sigma_n^2}}\frac{1}{\sigma_n^2}-\lambda_n+\nu=0 ∂pn∂L(p,λ,ν)=1+σn2pn−1σn21−λn+ν=0
可得:
λ n = ν − 1 p n + σ n 2 \lambda_n = \nu - \frac{1}{p_n+\sigma_n^2} λn=ν−pn+σn21
- 情况1: λ n > 0 \lambda_n >0 λn>0 且 p n = 0 p_n=0 pn=0 ⇒ λ n = ν − 1 σ n 2 > 0 \lambda_n = \nu - \frac{1}{\sigma_n^2}>0 λn=ν−σn21>0 ⇒ 1 ν < σ n 2 \frac{1}{\nu}<\sigma_n^2 ν1<σn2
- 情况2: λ n = 0 \lambda_n =0 λn=0 且 p n ≥ 0 p_n\geq0 pn≥0 ⇒ ν = 1 p n + σ n 2 \nu = \frac{1}{p_n + \sigma_n^2} ν=pn+σn21 ⇒ p n = 1 ν − σ n 2 ≥ 0 p_n=\frac{1}{\nu}-\sigma_n^2\geq 0 pn=ν1−σn2≥0
因此:
p n ∗ = max { 0 , 1 ν ∗ − σ n 2 } p_n^*=\max\{0,\frac{1}{\nu^*}-\sigma_n^2\} pn∗=max{0,ν∗1−σn2}
其中,最优解 1 ν ∗ \frac{1}{\nu^*} ν∗1 可由下式解出:【记下式为 ( ∗ ) (*) (∗)式】
∑ n = 1 n p n ∗ = max { 0 , 1 ν ∗ − σ n 2 } = P \sum\limits_{n=1}^n p_n^* = \max\{0,\frac{1}{\nu^*}-\sigma_n^2\}=P n=1∑npn∗=max{0,ν∗1−σn2}=P
显然求和约束在最优解处一定为紧约束,故取等。现求解 ( ∗ ) (*) (∗) 式的方法如下:
首先,假设对任意 n n n 都有 p n > 0 p_n>0 pn>0(即对任意 n n n 都有 1 ν − σ n 2 > 0 \frac{1}{\nu}-\sigma_n^2>0 ν1−σn2>0),然后找到 ( ∗ ) (*) (∗)式的解 1 ν ∗ \frac{1}{\nu^*} ν∗1。若不存在可行解,则可得 p l ∗ = 0 p_l^*=0 pl∗=0,其中 l = a r g m a x { σ n 2 } l=argmax\{\sigma_n^2\} l=argmax{σn2},再次求解 ( ∗ ) (*) (∗) 式得到 1 ν ∗ \frac{1}{\nu^*} ν∗1 。重复上述步骤,使得每次循环的时候,在剩余子信道中至少有一个子信道(对应于噪声功率最大的子信道)的功率为0,直到获得最优的 1 ν ∗ \frac{1}{\nu^*} ν∗1 与 p n ∗ > 0 p_n^*>0 pn∗>0 为止。上述方法获得的解称作集中式解,记作向量 p ∗ p^* p∗ 。这个解也是 λ 1 = ⋯ = λ N \lambda_1=\dots=\lambda_N λ1=⋯=λN 时, ( ∗ ) (*) (∗) 式的最优解;也是凸矢量优化问题式 ( ∗ ) (*) (∗) 的 Pareto 最优解,其在 Pareto 边界上的目标函数值为:
( R 1 ∗ = l o g ( 1 + p 1 ∗ σ 1 2 , … , R n ∗ = l o g ( 1 + p N ∗ σ N 2 ) ) (R_1^*=log(1+\frac{p_1^*}{\sigma_1^2},\dots,R_n^*=log(1+\frac{p_N^*}{\sigma_N^2})) (R1∗=log(1+σ12p1∗,…,Rn∗=log(1+σN2pN∗))
上述思想的核心原理如下图所示:
三、问题2的研究现状(文献综述)
现状 1 :
Iterative waterfilling (迭代注水,后文简称 IWF) [2] 是早期的多用户频谱优化技术之一,它利用DSL调制解调器进行频谱整形。在IWF算法中,每个用户通过执行单用户注水,将来自所有其他用户的串扰干扰视为噪声,迭代地最大化自己的可实现速率。但是,IWF进程并不寻求为整个DSL包找到全局最优。该方法只是将每个用户都看成一个非合作博弈的参与者,最终IWF会收敛至一个均衡点。虽然IWF不是最优的,但该方法已被证明优于传统的SSM方案。
解释:
这里以OFDM为例,解释一下上述加粗字体的含义。首先,信道容量可计算为: C = l o g ( 1 + P N ) C=log(1+\frac{P}{N}) C=log(1+NP),其中 P P P 是信号功率, N N N 是噪声功率。如果总信号功率被拆为两部分,即: P = P 1 + P 2 P=P_1+P_2 P=P1+P2,则可以验证以下公式:
C = l o g ( 1 + P 1 + P 2 N ) = l o g ( ( 1 + P 1 N ) + P 2 N ) = l o g [ ( 1 + P 1 N ) ( 1 + P 2 P 1 + N ) ] = l o g ( 1 + P 1 N ) + l o g ( 1 + P 2 P 1 + N ) \begin{align} C&=log(1+\frac{P_1+P_2}{N})=log((1+\frac{P_1}{N})+\frac{P_2}{N}) \nonumber \\ &=log\left[(1+\frac{P_1}{N})(1+\frac{P_2}{P_1+N})\right] \nonumber \\ &=log(1+\frac{P_1}{N}) +log(1+\frac{P_2}{P_1+N}) \nonumber \end{align} C=log(1+NP1+P2)=log((1+NP1)+NP2)=log[(1+NP1)(1+P1+NP2)]=log(1+NP1)+log(1+P1+NP2)
也就是说,在这两部分功率中,第一份功率 P 1 P_1 P1 产生了一个容量 l o g ( 1 + P 1 N ) log(1+\frac{P_1}{N}) log(1+NP1) ,功率 P 1 P_1 P1 同时等效成了对第二份功率的噪声。了解了这个原理,不难读懂 IWF 算法中,“每个用户通过执行单用户注水,将来自所有其他用户的串扰干扰视为噪声,迭代地最大化自己的可实现速率”的原理及算法思想了。
现状 2 :
[3]提出精确OSB算法,可实现全局最优解,该方法的基本策略是将信道容量优化问题 P 2 P_2 P2 转化为对偶域,转换成拉格朗日对偶的形式:
P 3 : min p ∑ k = 1 K w k ∑ n = 1 N l o g ( 1 + p k n σ k n + ∑ j ≠ k α j k n p j n ) + ∑ k = 1 K λ k ( P k − ∑ n = 1 N p n ) s . t . p k n ≥ 0 , ∀ k \begin{align} {P_3:}&\mathop{\min}_{p}{ \sum\limits_{k=1}^K w_k \sum\limits_{n=1}^N log(1+\frac{p^n_k}{\sigma_k^n+\sum_{j \neq k}\alpha_{jk}^n p_j^n)} + \sum\limits_{k=1}^K \lambda_k (P_k - \sum\limits_{n=1}^{N}p_n) } \nonumber \\ &s.t. p_k^n \geq 0, \ \ \forall k \nonumber \end{align} P3:minpk=1∑Kwkn=1∑Nlog(1+σkn+∑j=kαjknpjn)pkn+k=1∑Kλk(Pk−n=1∑Npn)s.t.pkn≥0, ∀k
该文献的核心思想是为每个非负且固定的 ( λ 1 , λ 2 , … , λ K ) (\lambda_1,\lambda_2,\dots,\lambda_K) (λ1,λ2,…,λK) 集合,分别求解其拉格朗日函数。然后,原优化问题 P 2 P_2 P2 的解,可在 λ \lambda λ 空间内,通过嵌套式的二分法搜索找到。可以看出,OSB算法的计算复杂度与载波数 N N N 呈线性关系。如[3]所示,与IWF相比,OSB算法可以提供显著的性能改进。
OSB算法的缺点:OSB算法的计算复杂度虽然对载波数 N N N 是线性的,但在用户数量 K K K 上仍然是指数级的。即:OSB算法的复杂性变得令人望而却步。
四、问题2的求解方法(优化理论)
在本节我将先后介绍时域共享条件(Time-Sharing Condition)及其证明[4],随后说明有干扰场景下的信道容量最大化问题 P 2 P_2 P2 满足 Time-Sharing Condition。
PART I : Time-Sharing Condition
在多载波系统中,优化目标和约束通常由大量单独的函数组成,每个函数对应于一个频率载波。因此,优化问题具有以下一般形式:【记下式为 ( ∗ ∗ ) (**) (∗∗) 式】
P 4 : max p ∑ n = 1 N f n ( x n ) s . t . ∑ n = 1 N h n ( x n ) ≤ P \begin{align} {P_4:}&\mathop{\max}_{p}{ \sum\limits_{n=1}^N f_n(x_n) } \nonumber \\ &s.t. \ \sum\limits_{n=1}^N h_n(x_n)\leq P \nonumber \end{align} P4:maxpn=1∑Nfn(xn)s.t. n=1∑Nhn(xn)≤P
其中, x n ∈ R K x_n \in \mathcal{R}^K xn∈RK 为优化问题中的决策变量,函数 f n ( x ) : R K → R f_n(x):\mathcal{R}^K \rightarrow \mathcal{R} fn(x):RK→R 不必是凹函数,函数 h n ( x ) : R K → R K h_n(x):\mathcal{R}^K \rightarrow \mathcal{R}^K hn(x):RK→RK 也不必是凸函数。功率约束以 K K K 维向量 P P P 表示,即:component-wise inequality。
上述的泛化优化问题, 在考虑 N N N 个子载波、 K K K 个用户的场景下,对应在多用户 OFDM 系统中有下述结论:
{ x n = ( p 1 n , p 2 n , … , p K n ) ∈ R K f n ( x n ) = ∑ k = 1 K w k l o g ( 1 + p k n σ k n + ∑ j ≠ k α j k n p j n ) h n ( x n ) = [ p 1 n , p 2 n , … , p K n ] T \begin{align} \begin{cases} x_n = (p_1^n,p_2^n,\dots,p_K^n) \in \mathcal{R}^K \nonumber \\ f_n(x_n)={ \sum_{k=1}^K w_k log(1+\frac{p^n_k}{\sigma_k^n+\sum_{j \neq k}\alpha_{jk}^n p_j^n }) } \nonumber \\ h_n(x_n)= \left[ p_1^n, p_2^n, \dots, p_K^n \right]^T \end{cases} \end{align} ⎩ ⎨ ⎧xn=(p1n,p2n,…,pKn)∈RKfn(xn)=∑k=1Kwklog(1+σkn+∑j=kαjknpjnpkn)hn(xn)=[p1n,p2n,…,pKn]T
下面考虑 ( ∗ ∗ ) (**) (∗∗) 式的对偶问题,先求其 Lagrangian 函数:
L ( x n , λ ) = ∑ n = 1 N f n ( x n ) + λ T ( P − ∑ n = 1 N h n ( x n ) ) L(x_n,\lambda)=\sum\limits_{n=1}^{N}f_n(x_n) +\lambda^T(P-\sum\limits_{n=1}^{N}h_n(x_n)) L(xn,λ)=n=1∑Nfn(xn)+λT(P−n=1∑Nhn(xn))
定义对偶目标函数 g ( λ ) g(\lambda) g(λ) 如下:
g ( λ ) = max L ( x n , λ ) g(\lambda)=\max {L(x_n,\lambda)} g(λ)=maxL(xn,λ)
则对偶优化问题为:
P 5 : min λ g ( λ ) s . t . λ ≥ 0 \begin{align} {P_5:}&\mathop{\min}_{\lambda}{ g(\lambda) } \nonumber \\ &s.t. \lambda \geq 0 \nonumber \end{align} P5:minλg(λ)s.t.λ≥0
显然,当 f n ( x n ) f_n(x_n) fn(xn) 是凹函数且 h n ( x n ) h_n(x_n) hn(xn) 是凸函数时,标准凸优化结果保证了原问题 P 4 P_4 P4 与对偶问题 P 5 P_5 P5 具有相同的解,此时对偶间隙为0。而当 f n ( x n ) f_n(x_n) fn(xn) 不是凹函数或 h n ( x n ) h_n(x_n) hn(xn) 不是凸函数时,对偶问题提供了一个解,该解是 P 5 P_5 P5 的上界,此时对偶间隙未必是0。这是教材告诉我们的。**而本节的主要目的,是给出即使优化问题不是凸问题,对偶间隙也为零的条件。**为此,定义了以下 Time-Sharing Condition:
定义:
令 x n ∗ x_n^* xn∗ 与 y n ∗ y_n^* yn∗ 分别是在给定 P = P x P=P_x P=Px 与给定 P = P y P=P_y P=Py 条件下,优化问题 P 4 P_4 P4 的最优解。如果对任意的 P x P_x Px 与 P y P_y Py ,对任意的 0 ≤ ν ≤ 1 0 \leq \nu\leq1 0≤ν≤1 ,都存在一个可行的 z n z_n zn ,使得下式成立:
{ ∑ n = 1 N h n ( z n ) ≤ ν P x + ( 1 − ν ) P y ∑ n = 1 N f n ( z n ) ≥ ν ∑ n = 1 N f n ( x n ∗ ) + ( 1 − ν ) ∑ n = 1 N f n ( y n ∗ ) \begin{align} \begin{cases} \sum\limits_{n=1}^{N}h_n(z_n)\leq \nu P_x + (1-\nu) P_y \nonumber \\ \sum\limits_{n=1}^{N}f_n(z_n)\geq \nu \sum\limits_{n=1}^{N}f_n(x_n^*) + (1-\nu)\sum\limits_{n=1}^{N} f_n(y_n^*) \nonumber \end{cases} \end{align} ⎩ ⎨ ⎧n=1∑Nhn(zn)≤νPx+(1−ν)Pyn=1∑Nfn(zn)≥νn=1∑Nfn(xn∗)+(1−ν)n=1∑Nfn(yn∗)
则称优化问题 P 4 P_4 P4 满足 Time-Sharing Condition。
理解:
上述定义看起来很玄幻,但其本质并不难理解。首先,要知道原始优化问题 的最优解(optimal solutions)是 x n ∗ x_n^* xn∗,很显然 x n ∗ x_n^* xn∗ 必须满足约束 ∑ n = 1 N h n ( x n ∗ ) = P \sum\limits_{n=1}^N h_n(x_n^*) = P n=1∑Nhn(xn∗)=P 为紧约束。因此,约束上限 P P P 的取值,决定了 x n ∗ x_n^* xn∗ 的取值。所以,我们也可以将 x n ∗ x_n^* xn∗ 看成 P P P 的函数,即: x n ∗ = x n ∗ ( P ) x_n^*=x_n^*(P) xn∗=xn∗(P) 。其次,理解了这一点,就可以理解为什么定义中要给定 P = P x P=P_x P=Px 与 P = P y P=P_y P=Py 这两种情况了,其实就是为了刻画 x n ∗ = x n ∗ ( P x ) x_n^*=x_n^*(P_x) xn∗=xn∗(Px) 以及 y n ∗ = y n ∗ ( P y ) y_n^*=y_n^*(P_y) yn∗=yn∗(Py) ,通过变化不同的 P P P 值(体现在定义中“对任意的 P = P x P=P_x P=Px 与 P = P y P=P_y P=Py ”一句),研究函数的性质。最后,需要理解作者为什么要这么刻画呢?其实就是为了说明函数整体的凹凸性而已。观察第一条约束描述的是对整体约束函数 ∑ n = 1 N h n ( x n ) \sum\limits_{n=1}^N h_n(x_n) n=1∑Nhn(xn) 凸性的刻画(注意,刻画的不是单独的 h n ( x n ) h_n(x_n) hn(xn) 函数,没必要研究单独的一个 h n ( x n ) h_n(x_n) hn(xn) 函数是否为凸性);观察第二条约束描述的是整体目标函数 ∑ n = 1 N f n ( x n ) \sum\limits_{n=1}^N f_n(x_n) n=1∑Nfn(xn) 凹性的刻画。
因此,可以理解 Time-Sharing Condition 无非是通过刻画求和后,函数整体的凹凸性,以替代单独每一个函数凹凸性。显然,如果每一个函数的凹凸性得到满足,那么 Time-Sharing Condition 自然成立,因此这部分理论也被称为广义对偶理论(General Duality Theory)。
PART II : 定理及其证明
接下来介绍 Time-Sharing Condition 有什么作用?主要体现在下述定理:
定理:
考虑如 所示的优化问题形式,如果满足 Time-Sharing Condition,则该优化问题的对偶间隙为0。
证明:
显然,如果 h n ( x n ) h_n(x_n) hn(xn) 是凸函数、 f n ( x n ) f_n(x_n) fn(xn) 是凹函数,根据保凸运算易知,优化问题是凸优化问题,则其对偶间隙为0。下面我们证明:当 h n ( x n ) h_n(x_n) hn(xn) 不是凸函数、 f n ( x n ) f_n(x_n) fn(xn) 不是凹函数,但优化问题 P 4 P_4 P4 满足 Time-Sharing Condition 时,其对偶间隙仍为0。
令向量 P x , P y P_x, P_y Px,Py 和 P z P_z Pz 是满足 P z = ν P x + ( 1 − ν ) P y P_z=\nu P_x + (1-\nu)P_y Pz=νPx+(1−ν)Py 的功率约束向量(注意:这里的向量 ν \nu ν 是只要找到或存在一个属于 [ 0 , 1 ] [0,1] [0,1] 区间的 ν \nu ν ,使得上述等式成立即可),令 x n ∗ , y n ∗ x_n^*,y_n^* xn∗,yn∗ 和 z n ∗ z_n^* zn∗ 是在 P x , P y P_x, P_y Px,Py 和 P z P_z Pz 功率约束下优化问题 P 4 P_4 P4 的最优解(注意:这里的逻辑是先给出一组满足上述等式的功率约束组 { P x , P y , P z } \{P_x, P_y, P_z\} {Px,Py,Pz} ,然后依据这三个数,分别求出他们对应的最优解 { x n ∗ , y n ∗ , z n ∗ } \{x_n^*,y_n^*,z_n^*\} {xn∗,yn∗,zn∗} )。
第一步证明:基于 Time-Sharing Condition ,证明 是关于 的凹函数
这里我先给出适当说明,然后再讲述原文步骤,不然直接看原文容易懵逼:
Step(a)先将 ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 写为 ∑ n f n ( x n ∗ ( P x ) ) \sum_{n}f_n(x_n^*(P_x)) ∑nfn(xn∗(Px)) 的形式;
Step(b)为简洁表示,记 g ( P x ) = ∑ n f n ( x n ∗ ( P x ) ) g(P_x)=\sum_{n}f_n(x_n^*(P_x)) g(Px)=∑nfn(xn∗(Px)) ;
Step(c)因此,我们需要证明:对任意的 P x , P y P_x,P_y Px,Py ,对任意的 ν ∈ [ 0 , 1 ] \nu\in \left[0,1\right] ν∈[0,1],都有 g ( ν P x + ( 1 − ν ) P y ) ≥ ν g ( P x ) + ( 1 − ν ) g ( P y ) g(\nu P_x+(1-\nu)P_y) \geq \nu g(P_x)+(1-\nu)g(P_y) g(νPx+(1−ν)Py)≥νg(Px)+(1−ν)g(Py) 成立;
Step(d)也就是需要证明下式成立
∑ n f n ( x n ∗ ( ν P x + ( 1 − ν ) P y ) ) ≥ ν ∑ n f n ( x n ∗ ( P x ) ) + ( 1 − ν ) ∑ n f n ( y n ∗ ( P y ) ) \begin{align} \sum_{n}f_n(x_n^*(\nu P_x+(1-\nu & )P_y)) \nonumber \\ \geq \nu &\sum_{n}f_n(x_n^*(P_x))+(1-\nu)\sum_{n}f_n(y_n^*(P_y)) \nonumber \end{align} n∑fn(xn∗(νPx+(1−ν≥ν)Py))n∑fn(xn∗(Px))+(1−ν)n∑fn(yn∗(Py))
注意:左式 x n ∗ ( ν P x + ( 1 − ν ) P y ) x_n^*(\nu P_x+(1-\nu )P_y) xn∗(νPx+(1−ν)Py) 中的 x n ∗ x_n^* xn∗ 写法不严谨,需要依据内部的自变量而定。在这里,严谨的应该写为 q ( x n ∗ y n ∗ ) ( ν P x + ( 1 − ν ) P y ) q(x_n^*y_n^*)(\nu P_x+(1-\nu )P_y) q(xn∗yn∗)(νPx+(1−ν)Py) , 表示是 P x P_x Px 与 P y P_y Py 的函数多对应的 x n ∗ x_n^* xn∗ 与 y n ∗ y_n^* yn∗ 的函数。
Step(e)因为 P z = ν P x + ( 1 − ν ) P y P_z=\nu P_x + (1-\nu)P_y Pz=νPx+(1−ν)Py ,所以需要证明下式成立即可:
∑ n f n ( z n ∗ ( P z ) ) ≥ ν ∑ n f n ( x n ∗ ( P x ) ) + ( 1 − ν ) ∑ n f n ( y n ∗ ( P y ) ) \begin{align} \sum_{n}f_n(z_n^*(P_z )) \geq \nu &\sum_{n}f_n(x_n^*(P_x))+(1-\nu)\sum_{n}f_n(y_n^*(P_y)) \nonumber \end{align} n∑fn(zn∗(Pz))≥νn∑fn(xn∗(Px))+(1−ν)n∑fn(yn∗(Py))
注意:左式直接替换上述等式后,应为 f n ( x n ∗ ( P z ) ) f_n(x_n^*(P_z )) fn(xn∗(Pz)),但此时自变量是 P z P_z Pz 了,因此对应改为 f n ( z n ∗ ( P z ) ) f_n(z_n^*(P_z )) fn(zn∗(Pz)) 。
看完前面的解释,再看原文证明步骤,简述如下:
Step(1)因为 Time-Sharing Condition 成立,所以对前文给定的 P x , P y P_x, P_y Px,Py 以及给定的 ν \nu ν,一定存在一个 z ~ \widetilde{z} z ,使得下式成立:
{ ∑ n = 1 N h n ( z ~ n ) ≤ ν P x + ( 1 − ν ) P y ∑ n = 1 N f n ( z ~ n ) ≥ ν ∑ n = 1 N f n ( x n ∗ ) + ( 1 − ν ) ∑ n = 1 N f n ( y n ∗ ) \begin{align} \begin{cases} \sum\limits_{n=1}^{N}h_n(\widetilde{z}_n)\leq \nu P_x + (1-\nu) P_y \nonumber \\ \sum\limits_{n=1}^{N}f_n(\widetilde{z}_n)\geq \nu \sum\limits_{n=1}^{N}f_n(x_n^*) + (1-\nu)\sum\limits_{n=1}^{N} f_n(y_n^*) \nonumber \end{cases} \end{align} ⎩ ⎨ ⎧n=1∑Nhn(z n)≤νPx+(1−ν)Pyn=1∑Nfn(z n)≥νn=1∑Nfn(xn∗)+(1−ν)n=1∑Nfn(yn∗)
注意:这里的 z ~ \widetilde{z} z 与前文的 z z z 不一样,但原文中并没有声明,我在推送里区分一下,故用 z ~ \widetilde{z} z 表示。
Step(2)又因为 z ~ \widetilde{z} z 是优化问题可行集内的一个可行点,这意味着该点对应的目标函数一定小于最优解,因此有下式成立:
∑ n = 1 N f n ( z n ∗ ) ≥ ∑ n = 1 N f n ( z ~ n ) ≥ ν ∑ n = 1 N f n ( x n ∗ ) + ( 1 − ν ) ∑ n = 1 N f n ( y n ∗ ) \begin{align} \sum\limits_{n=1}^{N}f_n(z_n^*)\geq\sum\limits_{n=1}^{N}f_n(\widetilde{z}_n)\geq \nu \sum\limits_{n=1}^{N}f_n(x_n^*) + (1-\nu)\sum\limits_{n=1}^{N} f_n(y_n^*) \nonumber \end{align} n=1∑Nfn(zn∗)≥n=1∑Nfn(z n)≥νn=1∑Nfn(xn∗)+(1−ν)n=1∑Nfn(yn∗)
Step(3)根据Step(a)-Step(e)的解释可知,上式便是Step(e)中的结论,所以, ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 是关于 P P P 的凹函数得证。
注意:原文没有Step(a)-Step(e)的解释,我看到论文中Step(2)后,最开始不太明白,为什么Step(2)成立后, ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 就是关于 P P P 的凹函数了?后来才想明白的,所以记录在Step(a)-Step(e)的解释里。
第二步证明:利用 ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 是关于 P P P 的凹函数的性质,证明对偶间隙为0
Step(1)考虑到 ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 是关于 P P P 的凹函数,所以我们以 P P P 为横坐标(等价于以 ∑ n h n ( x n ∗ ) \sum_{n}h_n(x_n^*) ∑nhn(xn∗)为横坐标,因为 ∑ n h n ( x n ∗ ) = P \sum_{n}h_n(x_n^*)=P ∑nhn(xn∗)=P 显然成立),以 ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 为纵坐标,用实线画出如下图所示凹函数:
理解:
显然,在变化 P P P 的时候(即变化 ∑ n h n ( x n ∗ ) \sum_{n}h_n(x_n^*) ∑nhn(xn∗) 的时候), x n ∗ x_n^* xn∗ 也随之而变,导致目标函数 ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 也随之而变,所以,可以画出 ∑ n h n ( x n ∗ ) \sum_{n}h_n(x_n^*) ∑nhn(xn∗)与 ∑ n f n ( x n ∗ ) \sum_{n}f_n(x_n^*) ∑nfn(xn∗) 之间的变化规律图(即函数图)。而前文证明了,这个函数是凹函数,因此可以做出曲线 ( ∑ n h n ( x n ∗ ) , ∑ n f n ( x n ∗ ) ) (\sum_{n}h_n({x}_n^*),\sum_{n}f_n({x}_n^*)) (∑nhn(xn∗),∑nfn(xn∗)) 如图实线所示。
Step(2)又考虑到 g ( λ ) g(\lambda) g(λ) 可写成下式:
g ( λ ) = max x n ( ∑ n f n ( x n ) + λ T ( P − ∑ n h n ( x n ) ) ) \begin{align} g(\lambda)&=\mathop{\max}_{x_n}\left( \sum_{n}f_n(x_n)+\lambda^T \left( P-\sum_{n}h_n(x_n) \right) \right) \nonumber \end{align} g(λ)=maxxn(n∑fn(xn)+λT(P−n∑hn(xn)))
令 x ^ n ∗ \hat{x}_n^* x^n∗ 是上述优化问题的最优解,则 g ( λ ) g(\lambda) g(λ) 可写为下式:
g ( λ ) = ∑ n f n ( x ^ n ∗ ) + λ T ( P − ∑ n h n ( x ^ n ∗ ) ) g(\lambda)=\sum_{n}f_n(\hat{x}_n^*)+\lambda^T \left( P-\sum_{n}h_n(\hat{x}_n^*) \right) g(λ)=n∑fn(x^n∗)+λT(P−n∑hn(x^n∗))
显然, g ( λ ) g(\lambda) g(λ) 是关于 P P P 的线性函数,且斜率为 λ \lambda λ 。因此,根据其几何意义,我们可在曲线 ( ∑ n h n ( x n ∗ ) , ∑ n f n ( x n ∗ ) ) (\sum_{n}h_n({x}_n^*),\sum_{n}f_n({x}_n^*)) (∑nhn(xn∗),∑nfn(xn∗)) 上,做一条切线,且切点为 ( ∑ n h n ( x ^ n ∗ ) , ∑ n f n ( x ^ n ∗ ) ) (\sum_{n}h_n(\hat{x}_n^*),\sum_{n}f_n(\hat{x}_n^*)) (∑nhn(x^n∗),∑nfn(x^n∗)) 。此外,这条切线与纵坐标的交点为 ∑ n f n ( x ^ n ∗ ) + λ T ( P − ∑ n h n ( x ^ n ∗ ) ) \sum_{n}f_n(\hat{x}_n^*)+\lambda^T \left( P-\sum_{n}h_n(\hat{x}_n^*) \right) ∑nfn(x^n∗)+λT(P−∑nhn(x^n∗)) ,而这个交点,便是 g ( λ ) g(\lambda) g(λ) 的确切取值(即图中的点 B B B )。
Step(3)对偶问题中,需要通过寻找 λ \lambda λ,以最小化 g ( λ ) g(\lambda) g(λ) ,记最优解为 g ∗ g^* g∗ 。显然,只有当曲线 ( ∑ n h n ( x n ∗ ) , ∑ n f n ( x n ∗ ) ) (\sum_{n}h_n({x}_n^*),\sum_{n}f_n({x}_n^*)) (∑nhn(xn∗),∑nfn(xn∗)) 是凹的,此时在整条曲线上寻找最优的切线斜率 λ \lambda λ 时,才可以找到最优的 λ ∗ \lambda^* λ∗ 。此时, g ( λ ) g(\lambda) g(λ) 与纵坐标交点的最小值就等于曲线自身的最小值,即:f*=g* ,如图中点 C C C 所示。
Step(4)为了说明 Time-Sharing Condition 的重要性,下图说明了当该条件不成立的时候,对偶间隙不为0。
PART III :用Time-Sharing Condition解释问题2
方案1: 如果OFDM系统可以实现完美的时分复用功能,则 Time-Sharing Condition 显然满足,直观解释如下:
令 x n x_n xn 与 y n y_n yn 是两种功率分配方案。在这种情况下,全部的频谱带宽可以以 ν \nu ν 的比率分配给策略 x n x_n xn ,以 1 − ν 1-\nu 1−ν 的比例分给策略 y n y_n yn 。此时,原始的目标函数变为两套方案的线性组合,即:
∑ n f n = ∑ n [ ν f n ( x n ) + ( 1 − ν ) f n ( y n ) ] \sum_{n} f_n= \sum_{n}\left[\nu f_n(x_n)+(1-\nu) f_n(y_n)\right] n∑fn=n∑[νfn(xn)+(1−ν)fn(yn)]
与此同时,约束也是时隙分配的线性组合,此时为线性关系,自然满足 Time-Sharing Condition中的凹性与凸性 。
方案2: 如果OFDM系统可以实现频分复用功能,且子载波数 N → + inf N \rightarrow +\inf N→+inf ,此时,通过在频域上按比例 ν \nu ν 交错 x n x_n xn 与 y n y_n yn ,则也可以得到上述结论。
参考文献:
[1]祁忠勇.信号处理与通信中的凸优化: 从基础到应用,2019:300-302.
[2]Yu W, Ginis G, Cioffi J M. Distributed multiuser power control for digital subscriber lines[J]. IEEE Journal on Selected areas in Communications, 2002, 20(5): 1105-1115.
[3]Cendrillon R, Yu W, Moonen M, et al. Optimal multiuser spectrum balancing for digital subscriber lines[J]. IEEE Transactions on Communications, 2006, 54(5): 922-933.
[4]Yu W, Lui R. Dual methods for nonconvex spectrum optimization of multicarrier systems[J]. IEEE Transactions on communications, 2006, 54(7): 1310-1322.
文字 | 正仪
编辑 | 正仪
作图 | 正仪