系列文章目錄
凸優化理論學習一|最優化及凸集的基本概念
文章目錄
- 系列文章目錄
- 一、凸函數
- (一)凸集
- (二)凸函數的定義及舉例
- (三)凸函數的證明
- 1、將凸函數限制在一條直線上
- 2、判斷函數是否為凸函數的一階條件
- 3、判斷函數是否為凸函數的二階條件
- (四)下水平集和表觀
- (五)詹森不等式
- 二、函數的保凸運算
- (一)證明一個函數是凸函數
- (二)保留凸性的運算
- 1、非負縮放、總和、積分
- 2、與仿射函數的復合
- 3、逐點最大值
- 4、逐點取上界
- 5、取下確界
- 6、與標量函數復合
- 7、與向量函數復合
- 三、構造性凸分析
- 四、透視與共軛
- (一)透視函數
- (二)共軛函數
- 五、擬凸性
- (一)擬凸函數(quasiconvex function) 定義
- (二)常見的擬凸、擬凹、擬線性函數
- (三)擬凸函數的性質
一、凸函數
(一)凸集
設 S S S為 n n n維歐氏空間 R n R^n Rn中一個集合,若對 S S S中任意兩點,連接他們的線段仍屬于 S S S;換言之,對 S S S中任意兩點 x ( 1 ) x^{(1)} x(1), x ( 2 ) x^{(2)} x(2)及每個實數 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ∈[0,1],都有:
λ x ( 1 ) + ( 1 ? λ ) x ( 2 ) ∈ S \lambda x^{(1)}+(1-\lambda)x^{(2)}\in S λx(1)+(1?λ)x(2)∈S
則稱 S S S為凸集,其中 x ( 1 ) x^{(1)} x(1), x ( 2 ) x^{(2)} x(2)表示向量, λ x ( 1 ) + ( 1 ? λ ) x ( 2 ) \lambda x^{(1)}+(1-\lambda)x^{(2)} λx(1)+(1?λ)x(2)稱為 x ( 1 ) x^{(1)} x(1), x ( 2 ) x^{(2)} x(2)的凸組合。
(二)凸函數的定義及舉例
設 S S S為 n n n維歐氏空間 R n R^n Rn中的非空凸集, f f f是定義在 S S S上的實函數,如果對任意的 x , y ∈ S x,y\in S x,y∈S及 0 ≤ θ ≤ 1 0\leq \theta \leq 1 0≤θ≤1,有:
f ( θ x + ( 1 ? θ ) y ) ≤ θ f ( x ) + ( 1 ? θ ) f ( y ) f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) f(θx+(1?θ)y)≤θf(x)+(1?θ)f(y)
則稱 f f f為 S S S上的凸函數。(這里的凸函數與高數里面定義的凸函數則恰恰相反。)
- 如果 -f 是凸的,則 f 是凹的
- 當不需要滿足等號條件時, f f f為嚴格凸函數
標量/一維空間內的凸函數:
- 仿射集:在實數域的所有 a x + b , a , b ∈ R ax+b,a,b\in R ax+b,a,b∈R
- 指數函數: e a x , a ∈ R e^{a x},a\in R eax,a∈R
- 冪函數: x α , α ≥ 1 x^{\alpha},\alpha\geq1 xα,α≥1或 α ≤ 0 \alpha\leq0 α≤0
- 冪函數的絕對值: ∣ x ∣ p , p ≥ 1 |x|^p,p\geq1 ∣x∣p,p≥1
- 負熵函數: x l o g x xlogx xlogx,定義域 R + + R_{++} R++?
標量/一維空間內的凹函數:
- 仿射集:在實數域的所有 a x + b , a , b ∈ R ax+b,a,b\in R ax+b,a,b∈R
- 冪函數: x α , 0 ≤ α ≤ 1 x^{\alpha},0\leq\alpha\leq1 xα,0≤α≤1
- 熵函數: ? x l o g x -xlogx ?xlogx,定義域 R + + R_{++} R++?
n 維歐幾里得空間的凸函數:
- 仿射函數: f ( x ) = a T x + b f(x)=a^Tx+b f(x)=aTx+b
- 任意范式: ∣ ∣ x ∣ ∣ p = ( ∣ x 1 ∣ p + . . . ∣ x n ∣ p ) 1 / p f o r p ≥ 1 ||x||_p=(|x_1|^p+..._|x_n|^p)^{1/p} \ for\ p\geq1 ∣∣x∣∣p?=(∣x1?∣p+...∣?xn?∣p)1/p?for?p≥1、 ∣ ∣ x ∣ ∣ ∞ = m a x { ∣ x 1 ∣ , . . . , ∣ x 2 ∣ } ||x||_∞=max\{|x_1|,...,|x_2|\} ∣∣x∣∣∞?=max{∣x1?∣,...,∣x2?∣}
- 平方和: ∣ ∣ x ∣ ∣ 2 2 = x 1 2 + . . . + x n 2 ||x||^2_2=x_1^2+...+x_n^2 ∣∣x∣∣22?=x12?+...+xn2?
- 最大值函數: m a x ( x ) = m a x { x 1 , x 2 , . . . , x n } max(x)=max\{x_1,x_2,...,x_n\} max(x)=max{x1?,x2?,...,xn?}
- softmax函數或log-sum-exp函數: l o g ( e x p x 1 + . . . + e x p x n ) log(exp\ x_1+...+exp\ x_n) log(exp?x1?+...+exp?xn?)
矩陣空間上的凸函數:
- 仿射函數: f ( X ) = t r ( A T X ) + b = ∑ i = 1 m ∑ j = 1 n A i j X i j + b f(X)=tr(A^TX)+b=\sum_{i=1}^m\sum_{j=1}^nA_{ij}X_{ij}+b f(X)=tr(ATX)+b=∑i=1m?∑j=1n?Aij?Xij?+b,其中 A ∈ R m × n , b ∈ R A\in R^{m\times n},b\in R A∈Rm×n,b∈R
- 譜范數(最大奇異值)是凸的: f ( X ) = ∣ ∣ X ∣ ∣ 2 = σ m a x ( X ) = ( λ m a x ( X T X ) ) 1 / 2 f(X)=||X||_2=\sigma_{max}(X)=(\lambda_{max}(X^TX))^{1/2} f(X)=∣∣X∣∣2?=σmax?(X)=(λmax?(XTX))1/2
- 對數行列式: X ∈ S + + n , f ( X ) = l o g d e t X X\in S^n_{++},f(X)=log\ det\ X X∈S++n?,f(X)=log?det?X
(三)凸函數的證明
在判斷函數是凸函數還是凹函數的時候,不管是一階還是二階條件,必須滿足函數f的定義域domf必須是凸集這個前提條件
1、將凸函數限制在一條直線上
如果能夠把一個凸函數限制到一條直線上后仍是凸的,就可以判定這個凸函數是凸的:
- 數學表達式理解:函數 f : R n → R f:R^n\rightarrow R f:Rn→R是凸函數當且僅當對于任意的 x ∈ d o m f x\in dom \ f x∈dom?f和任意向量 v ∈ R n v\in R^n v∈Rn,函數 g ( t ) = f ( x + t v ) , d o m g = { t ∣ x + t v ∈ d o m f } g(t)=f(x+tv),dom\ g=\{t|x+tv\in dom\ f\} g(t)=f(x+tv),dom?g={t∣x+tv∈dom?f}為凸函數。
- 通俗理解:將n維空間的函數映射到一維平面上,問題就轉換為判斷一維空間中的函數 g ( t ) g(t) g(t)是否為凸函數。
應用示例:
2、判斷函數是否為凸函數的一階條件
假設函數 f f f可微,其梯度 Δ f \Delta f Δf在開集定義域中處處存在,則函數f是凸函數的充要條件是定義域為凸集,且對任意 x , y ∈ d o m f x,y\in dom\ f x,y∈dom?f,下式成立:
f ( y ) ≥ f ( x ) + Δ f ( x ) T ( y ? x ) f(y)\geq f(x)+\Delta f(x)^T(y-x) f(y)≥f(x)+Δf(x)T(y?x)
梯度定義為:
Δ f ( x ) = ( ? f ( x ) ? x 1 , ? f ( x ) ? x 2 , . . . , ? f ( x ) ? x n ) \Delta f(x)=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n}) Δf(x)=(?x1??f(x)?,?x2??f(x)?,...,?xn??f(x)?)
3、判斷函數是否為凸函數的二階條件
假設函數 f f f二階可微,則對于函數 f f f的開集定義域dom內的任意一點,它的Hessian矩陣或者二階導數 Δ 2 f \Delta^2f Δ2f存在,函數 f f f是凸函數的充要條件是其Hessian矩陣為半正定矩陣:
Δ 2 f ( x ) i j = ? 2 f ( x ) ? x i ? y j , i , j = 1 , . . . , n , Δ 2 f ( x ) ≥ 0 , ? x ∈ d o m f \Delta^2 f(x)_{ij}=\frac{\partial^2 f(x)}{\partial x_i\partial y_j},i,j=1,...,n,\Delta^2 f(x)\geq0,?x\in dom\ f Δ2f(x)ij?=?xi??yj??2f(x)?,i,j=1,...,n,Δ2f(x)≥0,?x∈dom?f
其梯度 Δ f \Delta f Δf在開集定義域中處處存在,則函數f是凸函數的充要條件是定義域為凸集,且對任意 x , y ∈ d o m f x,y\in dom\ f x,y∈dom?f,下式成立:
f ( y ) ≥ f ( x ) + Δ f ( x ) T ( y ? x ) f(y)\geq f(x)+\Delta f(x)^T(y-x) f(y)≥f(x)+Δf(x)T(y?x)
梯度定義為:
Δ f ( x ) = ( ? f ( x ) ? x 1 , ? f ( x ) ? x 2 , . . . , ? f ( x ) ? x n ) \Delta f(x)=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n}) Δf(x)=(?x1??f(x)?,?x2??f(x)?,...,?xn??f(x)?)
應用示例:
(四)下水平集和表觀
Epigraph和α-sublevel set的聯系是對于任意一個t,都對應一個α-sublevel set。
下水平集α-sublevel set:
- 函數 f : R n → R f:R^n\rightarrow R f:Rn→R的α-下水平集定義為:
C α = { x ∈ d o m f ∣ f ( x ) ≤ α } C_{\alpha}=\{x\in dom\ f|f(x)\leq\alpha\} Cα?={x∈dom?f∣f(x)≤α} - 對于任何的值,凸函數的下水平集仍然是凸集,但反之不一定正確,即某函數的所有下水平集都是凸集,但是這個函數可能不是凸函數
表觀Epigraph:
- f 是凸的當且僅當其表觀是凸集
- 函數 f : R n → R f:R^n\rightarrow R f:Rn→R的圖像定義為:(是 R n + 1 R^{n+1} Rn+1空間的一個子集)
{ ( x , f ( x ) ) ∣ x ∈ d o m f } \{(x,f(x))|x\in dom\ f\} {(x,f(x))∣x∈dom?f} - 函數 f : R n → R f:R^n\rightarrow R f:Rn→R的表觀定義為:
e p i f = { ( x , t ) ∈ R t + 1 ∣ x ∈ d o m f f ( x ) ≤ t } epif=\{(x,t)\in R^{t+1}|x\in dom\ f\,f(x)\leq t\} epif={(x,t)∈Rt+1∣x∈dom?ff(x)≤t}
(五)詹森不等式
基本不等式:如果 f f f是凸的,對于 x , y ∈ d o m f , 0 ≤ θ ≤ 1 x,y\in dom\ f,0\leq\theta\leq1 x,y∈dom?f,0≤θ≤1,有:
f ( θ x + ( 1 ? θ ) y ) ≤ θ f ( x ) + ( 1 ? θ ) f ( y ) f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y) f(θx+(1?θ)y)≤θf(x)+(1?θ)f(y)
應用示例:
拓展:如果 f f f是凸的,并且 z z z是 d o m f dom f domf上的一個隨機向量,則有:
f ( E z ) ≤ E f ( z ) f(Ez)\leq Ef(z) f(Ez)≤Ef(z)
基本不等式在離散分布的特殊情況:
p r o b ( z = x ) = θ , p r o b ( z = y ) = 1 ? θ prob(z=x)=\theta,\ prob(z=y)=1-\theta prob(z=x)=θ,?prob(z=y)=1?θ
二、函數的保凸運算
(一)證明一個函數是凸函數
根據凸優化理論學習一|最優化及凸集的基本概念可知:證明集合 C 是凸集的方法:
- 基于定義:如果 x 1 , x 2 ∈ C , 0 ≤ θ ≤ 1 x_1,x_2\in C,0\leq\theta\leq 1 x1?,x2?∈C,0≤θ≤1,則有 θ x 1 + ( 1 ? θ ) x 2 ∈ C \theta x_1+(1-\theta)x_2\in C θx1?+(1?θ)x2?∈C;
- 使用凸函數;
- 表明 C 是通過保留凸性的操作從簡單凸集(超平面、半空間、范數球……)獲得的,這里保留凸性的操作有:交運算、仿射映射、透視函數、線性分數函數等。
- 基于定義(通常通過將凸函數限制在一條直線上來簡化)
- 基于凸函數的一、二階條件
- 證明函數f是通過保留凸性的操作從簡單的凸函數獲得的,這里保留凸性的操作有:非負加權和、與仿射函數的復合、逐點極大值和上確值、與標量或向量函數的復合、取下確界、透視函數等。
(二)保留凸性的運算
1、非負縮放、總和、積分
非負倍數: 如果 f f f是凸函數,且 α ≥ 0 \alpha\geq 0 α≥0,則 α f \alpha f αf是凸函數
和: 如果 f 1 , f 2 f_1,f_2 f1?,f2?均為凸函數,則 f 1 + f 2 f_1+f_2 f1?+f2?也為凸函數
無窮總和: 如果 f 1 , f 2 , . . . f_1,f_2,... f1?,f2?,...均為凸函數,則 ∑ i = 1 ∞ f i \sum_{i=1}^∞f_i ∑i=1∞?fi?也為凸函數
積分: 如果 f ( x , α ) f(x,\alpha) f(x,α)對于每一個 α ∈ A \alpha\in A α∈A是凸函數,那么 ∫ α ∈ A f ( x , α ) d α \int_{\alpha\in A} {f(x,\alpha)} \,{\rm d}\alpha ∫α∈A?f(x,α)dα也為凸函數
2、與仿射函數的復合
具有仿射函數的(預)組合:如果 f f f 是凸函數,則 f ( A x + b ) f (Ax + b) f(Ax+b) 也是凸函數。即自變量先進行仿射變換,再代入函數后仍會保持凸性。
證明:
- 線性不等式的對數障礙函數: f ( x ) = ? ∑ i = 1 m l o g ( b i ? a i T x ) , d o m f = { x ∣ a i T < b , i = 1 , 2 , . . . , m } f(x)=-\sum_{i=1}^m log(b_i-a_i^Tx),dom \ f=\{x|a_i^T<b,i=1,2,...,m\} f(x)=?∑i=1m?log(bi??aiT?x),dom?f={x∣aiT?<b,i=1,2,...,m}
- 仿射函數的任意范數: f ( x ) = ∣ ∣ A x + b ∣ ∣ f(x)=||Ax+b|| f(x)=∣∣Ax+b∣∣
3、逐點最大值
若 f 1 , f 2 , . . . , f m f_{1},f_{2},...,f_{m} f1?,f2?,...,fm?是凸函數,則 f ( x ) = m a x { f 1 , f 2 , . . . , f m } f(x)=max\{f_{1},f_{2},...,f_{m}\} f(x)=max{f1?,f2?,...,fm?}是凸函數。
證明:(以兩個函數為例)
- 分段線性函數: f ( x ) = m a x i = 1 , 2 , . . . , m ( a i T x + b i ) f(x)=\mathop{max}\limits_{i=1,2,...,m}(a_{i}^{T}x+b_{i}) f(x)=i=1,2,...,mmax?(aiT?x+bi?)是凸函數
- x ∈ R n x\in \R^{n} x∈Rn的前 r r r個最大分量之和是凸函數: f ( x ) = x [ 1 ] + x [ 2 ] + . . . + x [ r ] f(x)=x_{[1]}+x_{[2]}+...+x_{[r]} f(x)=x[1]?+x[2]?+...+x[r]?( x [ i ] x_{[i]} x[i]?為 x x x的從大到小排列的第 i i i個分量)
4、逐點取上界
如果對于每個 y ∈ A y ∈ A y∈A, f ( x , y ) f (x, y) f(x,y) 是關于 x x x的凸函數,則 g ( x ) = s u p y ∈ A f ( x , y ) g(x) = {sup}_{y∈A} f (x, y) g(x)=supy∈A?f(x,y) 是凸函數。
- 集合 C C C的支撐函數: S C ( x ) = s u p y ∈ C y T x S_{C}(x)=\mathop{sup}\limits_{y\in C}y^{T}x SC?(x)=y∈Csup?yTx是凸函數
- 集合 C C C點到給定點 x x x的最遠距離: f ( x ) = s u p y ∈ C ∣ ∣ x ? y ∣ ∣ f(x)=\mathop{sup}\limits_{y\in C}||x-y|| f(x)=y∈Csup?∣∣x?y∣∣
- 對稱矩陣 X ∈ S n X\in S^{n} X∈Sn的最大特征值: λ m a x ( X ) = s u p ∣ ∣ y ∣ ∣ 2 = 1 y T X y \lambda_{max}(X)=\mathop{sup}\limits_{||y||_{2}=1}y^{T}Xy λmax?(X)=∣∣y∣∣2?=1sup?yTXy
5、取下確界
若 f ( x , y ) f(x,y) f(x,y)關于 ( x , y ) (x,y) (x,y)整體是凸函數, C C C是凸集,則 g ( x ) = i n f y ∈ C f ( x , y ) g(x)=\mathop{inf}\limits_{y\in C}f(x,y) g(x)=y∈Cinf?f(x,y)是凸函數
點 x x x到凸集 S S S的距離 d i s t ( x , S ) = i n f y ∈ S ∣ ∣ x ? y ∣ ∣ dist(x,S)=\mathop{inf}\limits_{y\in S}||x-y|| dist(x,S)=y∈Sinf?∣∣x?y∣∣是凸函數
6、與標量函數復合
給定函數 g : R n → R g:\R^{n}\rightarrow \R g:Rn→R和 h : R → R h:\R \rightarrow\R h:R→R,有 f ( x ) = h ( g ( x ) ) f(x)=h(g(x)) f(x)=h(g(x)),有以下4條結論成立:
- h為凸, h ~ \tilde{h} h~不降, g g g為凸,則 f f f為凸
- h為凸, h ~ \tilde{h} h~不增, g g g為凹,則 f f f為凸
- h為凹, h ~ \tilde{h} h~不降, g g g為凹,則 f f f為凹
- h為凹, h ~ \tilde{h} h~不增, g g g為凸,則 f f f為凹
h ~ \tilde{h} h~是 h h h 的 Legendre 變換,對于一個函數 h : R → R h:\R \rightarrow\R h:R→R,它的Legendre變換定義為:
h ~ ( t ) = s u p s ∈ R { t s ? h ( s ) } \tilde{h}(t)=sup_{s\in R}\{ts-h(s)\} h~(t)=sups∈R?{ts?h(s)}
推論
- 如果 g g g是凸函數,則 e g ( x ) e^{g(x)} eg(x)是凸函數
- 如果 g g g是正值凹函數,則 1 g ( x ) \frac{1}{g(x)} g(x)1??是凸函數
7、與向量函數復合
給定函數 g : R n → R k g:\R^{n}\rightarrow \R^{k} g:Rn→Rk和 h : R k → R h:\R^{k} \rightarrow\R h:Rk→R,有 f ( x ) = h ( g ( x ) ) = h ( g 1 ( x ) , g 2 ( x ) , . . . , g k ( x ) ) f(x)=h(g(x))=h(g_{1}(x),g_{2}(x),...,g_{k}(x)) f(x)=h(g(x))=h(g1?(x),g2?(x),...,gk?(x)),有以下4條結論成立:
- h為凸, h ~ \tilde{h} h~每個分量不降, g g g為凸,則 f f f為凸
- h為凸, h ~ \tilde{h} h~每個分量不增, g g g為凹,則 f f f為凸
- h為凹, h ~ \tilde{h} h~每個分量不降, g g g為凹,則 f f f為凹
- h為凹, h ~ \tilde{h} h~每個分量不增, g g g為凸,則 f f f為凹
推論
- 如果 g i g_i gi?是凸函數,則 l o g ∑ i = 1 m e g ( x ) log\sum_{i=1}^m e^{g(x)} log∑i=1m?eg(x)是凸函數
- 如果 g i g_i gi?是正值凹函數,則 ∑ i = 1 m l o g g i ( x ) \sum_{i=1}^mlog{g_i(x)} ∑i=1m?loggi?(x)?是凹函數
三、構造性凸分析
- 從作為表達式給出的函數 f 開始
- 為表達式構建解析樹
- 葉子是變量或常量
- 節點是子表達式的函數
- 使用組合規則將子表達式標記為凸、凹、仿射或無
- 如果根節點標記為凸(凹),則 f 為凸(凹)
四、透視與共軛
(一)透視函數
定義 f : R n → R f:\R^{n}\rightarrow \R f:Rn→R 和 g : R n × R → R g:\R^{n}×\R \rightarrow\R g:Rn×R→R,且
g ( x , t ) = t f ( x t ) , d o m g = { ( x , t ) ∣ x t ∈ d o m f , t > 0 } g(x,t)=tf(\frac{x}{t}),\quad domg=\{(x,t)|\frac{x}{t}\in domf,t>0\} g(x,t)=tf(tx?),domg={(x,t)∣tx?∈domf,t>0}
若 f f f是凸函數,則 g g g是凸函數。
- f ( x ) = x T x f(x)=x^{T}x f(x)=xTx是凸函數,因此 g ( x , t ) = x T x t g(x,t)=\frac{x^{T}x}{t} g(x,t)=txTx?是區域 { ( x , t ) ∣ t > 0 } \{(x,t)|t>0\} {(x,t)∣t>0}上的凸函數
- f ( x ) = ? l o g x f(x)=-logx f(x)=?logx是凸函數,因此相對熵函數 g ( x , t ) = t l o g t ? t l o g x g(x,t)=tlogt-tlogx g(x,t)=tlogt?tlogx是 R + + 2 \R^{2}_{++} R++2??上的凸函數
- 若 f f f是凸函數,那么 g ( x ) = ( c T x + d ) f ( A x + b c T x + d ) g(x)=(c^{T}x+d)f(\frac{Ax+b}{c^{T}x+d}) g(x)=(cTx+d)f(cTx+dAx+b?)是區域 { x ∣ c T x + d > 0 , A x + b c T x + d ∈ d o m f } \{x|c^{T}x+d>0,\frac{Ax+b}{c^{T}x+d}\in domf\} {x∣cTx+d>0,cTx+dAx+b?∈domf}上的凸函數
(二)共軛函數
任一適當函數 f f f的共軛函數定義為:
f ? ( y ) = s u p x ∈ d o m f { y T x ? f ( x ) } f^?(y)=sup_{x∈dom\ f} \{y^Tx?f(x)\} f?(y)=supx∈dom?f?{yTx?f(x)}
對任意函數 f f f都可以定義為共軛函數,也即不要求 f f f是凸的(因為共軛函數是一組仿射函數的上界,因此不論 f f f凹凸性, f ? f^{*} f?必為凸函數)
- 根據凸性充要條件, f ( x ) f(x) f(x)在 ? x ∈ D ? R \forall x\in D\subset\R ?x∈D?R的切線都是對 f ( x ) f(x) f(x)的下界,即 f ( x ) ≥ f ( x 0 ) + f ′ ( x 0 ) ( x ? x 0 ) = f ′ ( x 0 ) x + f ( x 0 ) ? f ′ ( x 0 ) x 0 f(x)\geq f(x_{0})+f^{'}(x_{0})(x-x_{0})=f^{'}(x_{0})x+f(x_{0})-f^{'}(x_{0})x_{0} f(x)≥f(x0?)+f′(x0?)(x?x0?)=f′(x0?)x+f(x0?)?f′(x0?)x0??
- 反過來,如果確定斜率 k k k,就可以得到一組平行線 { k x + b : b ∈ R } \{kx+b:b\in \R\} {kx+b:b∈R},從 ? ∞ -\infty ?∞ 增大 b b b,直到直線與 f ( x ) f(x) f(x)相切時有 f ( x ) ≥ k x + b f(x)\geq kx+b f(x)≥kx+b,也即 ? b ≥ k x ? f ( x ) -b\geq kx- f(x) ?b≥kx?f(x),此不等式在 D D D上恒成立,并且能夠取相等,因此 ? b = s u p x ∈ D ( k x ? f ( x ) ) = f ? ( y ) -b=\mathop{sup}\limits_{x\in D}(kx-f(x))=f^{*}(y) ?b=x∈Dsup?(kx?f(x))=f?(y)
f ? ( y ) f^*(y) f?(y)給出了斜率為 y y y且與 f ( x ) f(x) f(x)相切直線截距的相反數,或者說共軛函數 f ? ( y ) f^*(y) f?(y)表示了線性函數 y T x y^Tx yTx和 f ( x ) f(x) f(x)之間的最大差異。
五、擬凸性
(一)擬凸函數(quasiconvex function) 定義
若 dom f \text{dom}f domf為凸集,且對任意的 α \alpha α,其下水平集 S α = { x ∈ dom f ∣ f ( x ) ≤ α } S_\alpha = \{x\in\text{dom}f | f(x)\le\alpha\} Sα?={x∈domf∣f(x)≤α}都是凸集,則 f f f為擬凸函數。
- 如果 f f f是擬凸的,那么 ? f -f ?f就是擬凹函數
- 如果一個函數既是擬凸函數又是擬凹函數,那么它是擬線性(quasilinear) 的
(二)常見的擬凸、擬凹、擬線性函數
擬凸函數:
- f ( x ) = ∣ x ∣ f(x)=\sqrt{|x|} f(x)=∣x∣?
- f ( x ) = ∣ ∣ x ? 1 ∣ ∣ 2 ∣ ∣ x ? b ∣ ∣ 2 , d o m f = { x ∣ ∣ ∣ x ? a ∣ ∣ 2 ≤ ∣ ∣ x ? b ∣ ∣ 2 } f(x)=\frac{||x-1||_2}{||x-b||_2},domf=\{x|\ ||x-a||_2\leq||x-b||_2\} f(x)=∣∣x?b∣∣2?∣∣x?1∣∣2??,domf={x∣?∣∣x?a∣∣2?≤∣∣x?b∣∣2?}
擬凹函數:
- f ( x ) = x 1 x 2 o n R 2 f(x)=x_1x_2\ on\ R^2 f(x)=x1?x2??on?R2
擬線性函數:
- c e i l ( x ) = i n f { z ∈ Z ∣ z ≥ x } ceil(x)=inf\{z\in Z|z\geq x\} ceil(x)=inf{z∈Z∣z≥x}
- l o g x o n R + + log\ x\ on\ R_{++} log?x?on?R++?
- 線性微分函數 f ( x ) = a T x + b c T x + d , d o m f = { c T x + d > 0 } f(x)=\frac{a^Tx+b}{c^Tx+d},domf=\{c^Tx+d>0\} f(x)=cTx+daTx+b?,domf={cTx+d>0}
(三)擬凸函數的性質
-
修正 Jensen 不等式:函數 f f f為擬凸的等價于:定義域為凸集,且
0 ≤ θ ≤ 1 ? f ( θ x + ( 1 ? θ ) y ) ≤ max ? { f ( x ) , f ( y ) } 0\le\theta\le1 \Longrightarrow f(\theta x+(1-\theta)y)\le\max\{f(x),f(y)\} 0≤θ≤1?f(θx+(1?θ)y)≤max{f(x),f(y)} -
一階條件:具有凸域的可微 f 是擬凸當且僅當:
f ( y ) ≤ f ( x ) ? Δ f ( x ) T ( y ? x ) ≤ 0 f(y)\leq f(x) \Longrightarrow \Delta f(x)^T(y-x)\leq 0 f(y)≤f(x)?Δf(x)T(y?x)≤0
-
擬凸函數之和不一定是擬凸函數
參考:
凸函數
(最優化理論與方法)第二章最優化所需基礎知識-第七節:保凸的運算和共軛函數