WGAN(Wassertein GAN)

WGAN

E x ~ P g [ log ? ( 1 ? D ( x ) ) ] E x ~ P g [ ? log ? D ( x ) ] \begin{aligned} & \mathbb{E}_{x \sim P_g}[\log (1-D(x))] \\ & \mathbb{E}_{x \sim P_g}[-\log D(x)] \end{aligned} ?ExPg??[log(1?D(x))]ExPg??[?logD(x)]?
原始 GAN 中判別器; 在 WGAN 兩篇論文中稱為 “the - log D alternative” 或 “the - log D trick”。WGAN 前作分別分析了這兩種形式的原始 GAN 各自的問題所在 .

第一種原始 GAN 形式的問題

原始 GAN 中判別器要最小化如下損失函數,盡可能把真實樣本分為正例,生成樣本分為負例:
? E x ~ P r [ log ? D ( x ) ] ? E x ~ P g [ log ? ( 1 ? D ( x ) ) ] -\mathbb{E}_{x \sim P_r}[\log D(x)]-\mathbb{E}_{x \sim P_g}[\log (1-D(x))] ?ExPr??[logD(x)]?ExPg??[log(1?D(x))]
一句話概括:判別器越好,生成器梯度消失越嚴重。

在生成器 G 固定參數時最優的判別器 D 應該是什么,對于一個具體樣本 x x x 它對公式 1 損失函數的貢獻是
? P r ( x ) log ? D ( x ) ? P g ( x ) log ? [ 1 ? D ( x ) ] -P_r(x) \log D(x)-P_g(x) \log [1-D(x)] ?Pr?(x)logD(x)?Pg?(x)log[1?D(x)]

? P r ( x ) D ( x ) + P g ( x ) 1 ? D ( x ) = 0 -\frac{P_r(x)}{D(x)}+\frac{P_g(x)}{1-D(x)}=0 ?D(x)Pr?(x)?+1?D(x)Pg?(x)?=0

D ? ( x ) = P r ( x ) P r ( x ) + P g ( x ) D^*(x)=\frac{P_r(x)}{P_r(x)+P_g(x)} D?(x)=Pr?(x)+Pg?(x)Pr?(x)?

如果 P r ( x ) = 0 P_r(x)=0 Pr?(x)=0 P g ( x ) ≠ 0 P_g(x)\neq0 Pg?(x)=0 最優判別器就應該非常自信地給出概率 0;如果 P r ( x ) = P g ( x ) P_r(x)=P_g(x) Pr?(x)=Pg?(x)

說明該樣本是真是假的可能性剛好一半一半,此時最優判別器也應該給出概率 0.5。

GAN 訓練有一個 trick,就是別把判別器訓練得太好,否則在實驗中生成器會完全學不動(loss 降不下去),為了探究背后的原因,我們就可以看看在極端情況 —— 判別器最優時,生成器的損失函數變成什么。給公式 2 加上一個不依賴于生成器的項,使之變成

D ? ( x ) D^*(x) D?(x) 帶入 公式1 得到
E x ~ P r log ? P r ( x ) 1 2 [ P r ( x ) + P g ( x ) ] + E x ~ P g log ? P g ( x ) 1 2 [ P r ( x ) + P g ( x ) ] ? 2 log ? 2 \mathbb{E}_{x \sim P_r} \log \frac{P_r(x)}{\frac{1}{2}\left[P_r(x)+P_g(x)\right]}+\mathbb{E}_{x \sim P_g} \log \frac{P_g(x)}{\frac{1}{2}\left[P_r(x)+P_g(x)\right]}-2 \log 2 ExPr??log21?[Pr?(x)+Pg?(x)]Pr?(x)?+ExPg??log21?[Pr?(x)+Pg?(x)]Pg?(x)??2log2

K L ( P 1 ∥ P 2 ) = E x ~ P 1 log ? P 1 P 2 J S ( P 1 ∥ P 2 ) = 1 2 K L ( P 1 ∥ P 1 + P 2 2 ) + 1 2 K L ( P 2 ∥ P 1 + P 2 2 ) \begin{aligned} & K L\left(P_1 \| P_2\right)=\mathbb{E}_{x \sim P_1} \log \frac{P_1}{P_2} \\ & J S\left(P_1 \| P_2\right)=\frac{1}{2} K L\left(P_1 \| \frac{P_1+P_2}{2}\right)+\frac{1}{2} K L\left(P_2 \| \frac{P_1+P_2}{2}\right) \end{aligned} ?KL(P1?P2?)=ExP1??logP2?P1??JS(P1?P2?)=21?KL(P1?2P1?+P2??)+21?KL(P2?2P1?+P2??)?

2 J S ( P r ∥ P g ) ? 2 log ? 2 2 J S\left(P_r \| P_g\right)-2 \log 2 2JS(Pr?Pg?)?2log2

key point

在最優判別器下,我們可以把原始GAN定義的生成器loss等價變換為最小化真實分布 P r P_r Pr? 與生成分布 P g P_g Pg? 之間的JS散度。我們越訓練判別器,它就越接近最優最小化生成器的 loss 也就會越近似于最小化$ P_r$ P g P_g Pg? 之間的JS 散度。

問題就出在這個 JS 散度上。我們會希望如果兩個分布之間越接近它們的 JS 散度越小,我們通過優化 JS 散度就能將 P g P_g Pg? "拉向" P r P_r Pr??, ,最終以假亂真。這個希望在兩個分布有所重疊的時候是成立的,但是如果兩個分布完全沒有重疊的部分,或者它們重疊的部分可忽略(下面解釋什么叫可忽略),它們的 JS 散度是多少呢? 答案是log?2,因為對于任意一個 x 只有四種可能:
P 1 ( x ) = 0 且? P 2 ( x ) = 0 P 1 ( x ) ≠ 0 且? P 2 ( x ) ≠ 0 P 1 ( x ) = 0 且? P 2 ( x ) ≠ 0 P 1 ( x ) ≠ 0 且? P 2 ( x ) = 0 \begin{aligned} & P_1(x)=0 \text { 且 } P_2(x)=0 \\ & P_1(x) \neq 0 \text { 且 } P_2(x) \neq 0 \\ & P_1(x)=0 \text { 且 } P_2(x) \neq 0 \\ & P_1(x) \neq 0 \text { 且 } P_2(x)=0 \end{aligned} ?P1?(x)=0??P2?(x)=0P1?(x)=0??P2?(x)=0P1?(x)=0??P2?(x)=0P1?(x)=0??P2?(x)=0?

  • 第一種對計算 JS 散度無貢獻
  • 第二種情況由于重疊部分可忽略所以貢獻也為 0
  • 第三種情況對公式 7 右邊第一個項的貢獻 log ? P 2 1 2 ( P 2 + 0 ) = log ? 2 \log \frac{P_2}{\frac{1}{2}\left(P_2+0\right)}=\log 2 log21?(P2?+0)P2??=log2
  • 第四種情況 J S ( P 1 ∥ P 2 ) = log ? 2 J S\left(P_1 \| P_2\right)=\log 2 JS(P1?P2?)=log2

即無論 P r P_r Pr? P g P_g Pg? 是遠在天邊,還是近在眼前,只要它們倆沒有一點重疊或者重疊部分可忽略,JS 散度就固定是常數log?2, 而這對于梯度下降方法意味著 —— 梯度為 0.此時對于最優判別器來說,生成器肯定是得不到一丁點梯度信息的;即使對于接近最優的判別器來說,生成器也有很大機會面臨梯度消失的問題。

Manifold A topological space that locally resembles Euclidean space near each point when this Euclidean space is of dimension n n n ,the manifold is referred as manifold.

  • 支撐集(support)其實就是函數的非零部分子集,比如 ReLU 函數的支撐集就是(0,+∞),一個概率分布的支撐集就是所有概率密度非零部分的集合。
  • 流形(manifold)是高維空間中曲線、曲面概念的拓廣,我們可以在低維上直觀理解這個概念,比如我們說三維空間中的一個曲面是一個二維流形,因為它的本質維度(intrinsic dimension)只有 2,一個點在這個二維流形上移動只有兩個方向的自由度。同理,三維空間或者二維空間中的一條曲線都是一個一維流形。

P r Pr Pr 已發現它們集中在較低維流形中。這實際上是流形學習的基本假設。想想現實世界的圖像,一旦主題或所包含的對象固定,圖像就有很多限制可以遵循,例如狗應該有兩只耳朵和一條尾巴,摩天大樓應該有筆直而高大的身體,等等。這些限制使圖像無法具有高維自由形式。

P g P_g Pg? 也存在于低維流形中。每當生成器被要求提供更大的圖像(例如 64x64),給定小尺寸(例如 100),噪聲變量輸入 z z z 這4096個像素的顏色分布是由100維的小隨機數向量定義的,很難填滿整個高維空間。

P r P_r Pr? P g P_g Pg? 不重疊或重疊部分可忽略的可能性有多大?不嚴謹的答案是:非常大。

both P r P_r Pr? and p g p_g pg? 處于低維流形中,他們幾乎不會相交。(wgan 前面一篇理論證明)

GAN 中的生成器一般是從某個低維(比如 100 維)的隨機分布中采樣出一個編碼向量 z z z,再經過一個神經網絡生成出一個高維樣本(比如 64x64 的圖片就有 4096 維)。當生成器的參數固定時,生成樣本的概率分布雖然是定義在 4096 維的空間上,但它本身所有可能產生的變化已經被那個 100 維的隨機分布限定了,其本質維度就是 100,再考慮到神經網絡帶來的映射降維,最終可能比 100 還小,所以生成樣本分布的支撐集就在 4096 維空間中構成一個最多 100 維的低維流形,“撐不滿” 整個高維空間。

在這里插入圖片描述

我們就得到了 WGAN 前作中關于生成器梯度消失的第一個論證:在(近似)最優判別器下,最小化生成器的 loss 等價于最小化 P r P_r Pr? P g P_g Pg? 之間的JS散度,而由于 P r P_r Pr? P g P_g Pg? 幾乎不可能有不可忽略的重疊,所以無論它們相距多遠 JS 散度都是常數log?2,最終導致生成器的梯度(近似)為 0,梯度消失。

原始 GAN 不穩定的原因就徹底清楚了:判別器訓練得太好,生成器梯度消失,生成器 loss 降不下去;判別器訓練得不好,生成器梯度不準,四處亂跑。只有判別器訓練得不好不壞才行,但是這個火候又很難把握,甚至在同一輪訓練的前后不同階段這個火候都可能不一樣,所以 GAN 才那么難訓練。

在這里插入圖片描述

第二種原始 GAN 形式的問題 “the - log D trick”

一句話概括:最小化第二種生成器 loss 函數,會等價于最小化一個不合理的距離衡量,導致兩個問題,一是梯度不穩定,二是 **Mode collapse 即多樣性不足。**WGAN 前作又是從兩個角度進行了論證

上文推導已經得到在最優判別器 D ? D^* D?
E x ~ P r [ log ? D ? ( x ) ] + E x ~ P g [ log ? ( 1 ? D ? ( x ) ) ] = 2 J S ( P r ∥ P g ) ? 2 log ? 2 \mathbb{E}_{x \sim P_r}\left[\log D^*(x)\right]+\mathbb{E}_{x \sim P_g}\left[\log \left(1-D^*(x)\right)\right]=2 J S\left(P_r \| P_g\right)-2 \log 2 ExPr??[logD?(x)]+ExPg??[log(1?D?(x))]=2JS(Pr?Pg?)?2log2

K L ( P g ∥ P r ) = E x ~ P g [ log ? P g ( x ) P r ( x ) ] = E x ~ P g [ log ? P g ( x ) / ( P r ( x ) + P g ( x ) ) P r ( x ) / ( P r ( x ) + P g ( x ) ) ] = E x ~ P g [ log ? 1 ? D ? ( x ) D ? ( x ) ] = E x ~ P g log ? [ 1 ? D ? ( x ) ] ? E x ~ P g log ? D ? ( x ) \begin{aligned} K L\left(P_g \| P_r\right) & =\mathbb{E}_{x \sim P_g}\left[\log \frac{P_g(x)}{P_r(x)}\right] \\ & =\mathbb{E}_{x \sim P_g}\left[\log \frac{P_g(x) /\left(P_r(x)+P_g(x)\right)}{P_r(x) /\left(P_r(x)+P_g(x)\right)}\right] \\ & =\mathbb{E}_{x \sim P_g}\left[\log \frac{1-D^*(x)}{D^*(x)}\right] \\ & =\mathbb{E}_{x \sim P_g} \log \left[1-D^*(x)\right]-\mathbb{E}_{x \sim P_g} \log D^*(x) \end{aligned} KL(Pg?Pr?)?=ExPg??[logPr?(x)Pg?(x)?]=ExPg??[logPr?(x)/(Pr?(x)+Pg?(x))Pg?(x)/(Pr?(x)+Pg?(x))?]=ExPg??[logD?(x)1?D?(x)?]=ExPg??log[1?D?(x)]?ExPg??logD?(x)?

E x ~ P g [ ? log ? D ? ( x ) ] = K L ( P g ∥ P r ) ? E x ~ P g log ? [ 1 ? D ? ( x ) ] = K L ( P g ∥ P r ) ? 2 J S ( P r ∥ P g ) + 2 log ? 2 + E x ~ P r [ log ? D ? ( x ) ] \begin{aligned} \mathbb{E}_{x \sim P_g}\left[-\log D^*(x)\right] & =K L\left(P_g \| P_r\right)-\mathbb{E}_{x \sim P_g} \log \left[1-D^*(x)\right] \\ & =K L\left(P_g \| P_r\right)-2 J S\left(P_r \| P_g\right)+2 \log 2+\mathbb{E}_{x \sim P_r}\left[\log D^*(x)\right] \end{aligned} ExPg??[?logD?(x)]?=KL(Pg?Pr?)?ExPg??log[1?D?(x)]=KL(Pg?Pr?)?2JS(Pr?Pg?)+2log2+ExPr??[logD?(x)]?

注意上式最后兩項不依賴于生成器 G G G ,最終得到最小化公式 3 等價于最小化 K L ( P g ∥ P r ) ? 2 J S ( P r ∥ P g ) K L\left(P_g \| P_r\right)-2 J S\left(P_r \| P_g\right) KL(Pg?Pr?)?2JS(Pr?Pg?)

這個等價最小化目標存在兩個嚴重的問題。第一是它同時要最小化生成分布與真實分布的 KL 散度,卻又要最大化兩者的 JS 散度,一個要拉近,一個卻要推遠!這在直觀上非常荒謬,在數值上則會導致梯度不穩定,這是后面那個 JS 散度項的毛病。

第二,即便是前面那個正常的 KL 散度項也有毛病。因為 KL 散度不是一個對稱的衡量 K L ( P g ∥ P r ) K L\left(P_g \| P_r\right) KL(Pg?Pr?) K L ( P r ∥ P g ) K L\left(P_r \| P_g\right) KL(Pr?Pg?) 是有差別的。

Wasserstein 距離的優越性質

W ( P r , P g ) = inf ? γ ~ Π ( P r , P g ) E ( x , y ) ~ γ [ ∥ x ? y ∥ ] W\left(P_r, P_g\right)=\inf _{\gamma \sim \Pi\left(P_r, P_g\right)} \mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|] W(Pr?,Pg?)=γΠ(Pr?,Pg?)inf?E(x,y)γ?[x?y]

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

可以看出 Wasserstein 距離處處連續,而且幾乎處處可導,數學性質非常好,能夠在兩個分布沒有重疊部分的時候,依舊給出合理的距離度量。對于離散概率分布,Wasserstein 距離也被描述性地稱為推土機距離 (EMD)。 如果我們將分布想象為一定量地球的不同堆,那么 EMD 就是將一個堆轉換為另一堆所需的最小總工作量。

解釋如下: Π ( P r , P g ) \Pi\left(P_r, P_g\right) Π(Pr?,Pg?) P r P_r Pr? P g P_g Pg? 組合起來的所有可能的聯合分布的集合,反過來說, Π ( P r , P g ) \Pi\left(P_r, P_g\right) Π(Pr?,Pg?) 中每一個分布的邊緣分布都是 P r P_r Pr? P g P_g Pg? 。對于每一個可能的聯合分布 γ \gamma γ 而言,可以從 中采樣 ( x , y ) ~ γ (x, y) \sim \gamma (x,y)γ 得到一個真實樣本 x x x 和一個生成樣本 y y y ,并算出這對樣本的距離 ∥ x ? y ∥ \|x-y\| x?y ,所 以可以計算該聯合分布 γ \gamma γ 下樣本對距離的期望值 E ( x , y ) ~ γ [ ∥ x ? y ∥ ] \mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|] E(x,y)γ?[x?y] 。在所有可能的聯合分布中 夠對這個期望值取到的下界inf in ? γ ~ ( P r , P g ) E ( x , y ) ~ γ [ ∥ x ? y ∥ ] \operatorname{in}_{\gamma \sim\left(P_r, P_g\right)} \mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|] inγ(Pr?,Pg?)?E(x,y)γ?[x?y] ,就定義為 Wasserstein 距離。

直觀上可以把 E ( x , y ) ~ γ [ ∥ x ? y ∥ ] \mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|] E(x,y)γ?[x?y] 理解為在 γ \gamma γ 這個 “路徑規劃" 下把 P r P_r Pr? 這堆 “沙土" 挪到 P g P_g Pg? “位置” 所需的 “消耗”, 而 W ( P r , P g ) W\left(P_r, P_g\right) W(Pr?,Pg?) 就是 “最優路徑規劃" 下的 “最小消耗”,所以才 叫 Earth-Mover (推土機 ) 距離

Wasserstein 距離相比 KL 散度、JS 散度的優越性在于,即便兩個分布沒有重疊,Wasserstein 距離仍然能夠反映它們的遠近。WGAN 本作通過簡單的例子展示了這一點。考慮如下二維空間中 的兩個分布 P 1 P_1 P1? P 2 , P 1 P_2 , P_1 P2?P1? 在線段 A B \mathrm{AB} AB 上均勻分布, P 2 P_2 P2? 在線段 C D \mathrm{CD} CD 上均勻分布,通過控制參數 θ \theta θ 可以控制著兩個分布的距離遠近。

在這里插入圖片描述
在這里插入圖片描述

K L ( P 1 ∥ P 2 ) = K L ( P 1 ∣ ∣ P 2 ) = { + ∞ if? θ ≠ 0 0 if? θ = 0 (突變)? J S ( P 1 ∥ P 2 ) = { log ? 2 if? θ ≠ 0 0 if? θ ? 0 (突變?)? W ( P 0 , P 1 ) = ∣ θ ∣ (平滑?)? \begin{aligned} & K L\left(P_1 \| P_2\right)=K L\left(P_1|| P_2\right)=\left\{\begin{array}{ll} +\infty & \text { if } \theta \neq 0 \\ 0 & \text { if } \theta=0 \end{array}\right. \text { (突變) } \\ & J S\left(P_1 \| P_2\right)=\left\{\begin{array}{ll} \log 2 & \text { if } \theta \neq 0 \\ 0 & \text { if } \theta-0 \end{array}\right. \text { (突變 ) } \\ & W\left(P_0, P_1\right)=|\theta| \text { (平滑 ) } \end{aligned} ?KL(P1?P2?)=KL(P1?∣∣P2?)={+0??if?θ=0?if?θ=0??(突變)?JS(P1?P2?)={log20??if?θ=0?if?θ?0??(突變?)?W(P0?,P1?)=θ?(平滑?)??

第四部分:從 Wasserstein 距離到 WGAN

EMD ? ( P r , P θ ) = inf ? γ ∈ Π ∑ x , y ∥ x ? y ∥ γ ( x , y ) = inf ? γ ∈ Π E ( x , y ) ~ γ ∥ x ? y ∥ \operatorname{EMD}\left(P_r, P_\theta\right)=\inf _{\gamma \in \Pi} \sum_{x, y}\|x-y\| \gamma(x, y)=\inf _{\gamma \in \Pi} \mathbb{E}_{(x, y) \sim \gamma}\|x-y\| EMD(Pr?,Pθ?)=γΠinf?x,y?x?yγ(x,y)=γΠinf?E(x,y)γ?x?y

It is intractable to exhaust all the possible joint distributions in Π ( p r , p g ) \Pi\left(p_r, p_g\right) Π(pr?,pg?) to compute inf ? γ ~ Π ( p r , p g ) \inf _{\gamma \sim \Pi\left(p_r, p_g\right)} infγΠ(pr?,pg?)? Thus the authors proposed a smart transformation of the formula based on the KantorovichRubinstein duality to: 作者提出了基于 Kantorovich-Rubinstein 對偶性的公式的巧妙轉換:
W ( p r , p g ) = 1 K sup ? ∥ f ∥ L ≤ K E x ~ p r [ f ( x ) ] ? E x ~ p g [ f ( x ) ] W\left(p_r, p_g\right)=\frac{1}{K} \sup _{\|f\| L \leq K} \mathbb{E}_{x \sim p_r}[f(x)]-\mathbb{E}_{x \sim p_g}[f(x)] W(pr?,pg?)=K1?fLKsup?Expr??[f(x)]?Expg??[f(x)]
首先需要介紹一個概念——Lipschitz 連續。它其實就是在一個連續函數 f f f 上面額外施加了一個限 制,要求存在一個常數 K ≥ 0 K \geq 0 K0 使得定義域內的任意兩個元素 x 1 x_1 x1? x 2 x_2 x2? 都滿足
∣ f ( x 1 ) ? f ( x 2 ) ∣ ≤ K ∣ x 1 ? x 2 ∣ \left|f\left(x_1\right)-f\left(x_2\right)\right| \leq K\left|x_1-x_2\right| f(x1?)?f(x2?)Kx1??x2?
此時稱函數 f f f 的 Lipschitz 常數為 K K K

述公式 的意思就是在要求函數 f f f 的 Lipschitz 常數 ∣ f ∥ L \mid f \|_L fL? 不超過 K K K 的條件下,對所有可能滿足 件的 f f f 取到趻 數 w w w 來定義一系列可能的函數 f w f_w fw? ,此時求解公式 可以近似變成求解如下形式
K ? W ( P r , P g ) ≈ max ? w : ∣ f w ∣ L ≤ K E x ~ P r [ f w ( x ) ] ? E x ~ P g [ f w ( x ) ] K \cdot W\left(P_r, P_g\right) \approx \max _{w:\left|f_w\right|_L \leq K} \mathbb{E}_{x \sim P_r}\left[f_w(x)\right]-\mathbb{E}_{x \sim P_g}\left[f_w(x)\right] K?W(Pr?,Pg?)w:fw?L?Kmax?ExPr??[fw?(x)]?ExPg??[fw?(x)]

W ( p r , p θ ) = inf ? γ ∈ π ? ∥ x ? y ∥ γ ( x , y ) d x d y = inf ? γ ∈ π E x , y ~ γ [ ∥ x ? y ∥ ] . W\left(p_r, p_\theta\right)=\inf _{\gamma \in \pi} \iint\|x-y\| \gamma(x, y) \mathrm{d} x \mathrm{~d} y=\inf _{\gamma \in \pi} \mathbb{E}_{x, y \sim \gamma}[\|x-y\|] . W(pr?,pθ?)=γπinf??x?yγ(x,y)dx?dy=γπinf?Ex,yγ?[x?y].

W ( p r , p θ ) = inf ? γ ∈ π E x , y ~ γ [ ∥ x ? y ∥ ] = inf ? γ E x , y ~ γ [ ∥ x ? y ∥ + sup ? f E s ~ p r [ f ( s ) ] ? E t ~ p θ [ f ( t ) ] ? ( f ( x ) ? f ( y ) ) ] ? = { 0 , if? γ ∈ π + ∞ else? = inf ? γ sup ? f E x , y ~ γ [ ∥ x ? y ∥ + E s ~ p r [ f ( s ) ] ? E t ~ p θ [ f ( t ) ] ? ( f ( x ) ? f ( y ) ) ] \begin{aligned} W\left(p_r, p_\theta\right) & =\inf _{\gamma \in \pi} \mathbb{E}_{x, y \sim \gamma}[\|x-y\|] \\ & =\inf _\gamma \mathbb{E}_{x, y \sim \gamma}[\|x-y\|+\underbrace{\left.\sup _f \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]-(f(x)-f(y))\right]} \\ & =\left\{\begin{array}{c} 0, \text { if } \gamma \in \pi \\ +\infty \text { else } \end{array}\right. \\ & =\inf _\gamma \sup _f \mathbb{E}_{x, y \sim \gamma}\left[\|x-y\|+\mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]-(f(x)-f(y))\right] \end{aligned} W(pr?,pθ?)?=γπinf?Ex,yγ?[x?y]=γinf?Ex,yγ?[x?y+ fsup?Espr??[f(s)]?Etpθ??[f(t)]?(f(x)?f(y))]?={0,?if?γπ+?else??=γinf?fsup?Ex,yγ?[x?y+Espr??[f(s)]?Etpθ??[f(t)]?(f(x)?f(y))]?

sup ? f inf ? γ E x , y ~ γ [ ∥ x ? y ∥ + E s ~ p r [ f ( s ) ] ? E t ~ p θ [ f ( t ) ] ? ( f ( x ) ? f ( y ) ) ] = sup ? f E s ~ p r [ f ( s ) ] ? E t ~ p θ [ f ( t ) ] + inf ? γ E x , y ~ γ [ ∥ x ? y ∥ ? ( f ( x ) ? f ( y ) ) ] ? γ = { 0 , if? ∥ f ∥ L ≤ 1 ? ∞ else? \begin{array}{r} \sup _f \inf _\gamma \mathbb{E}_{x, y \sim \gamma}\left[\|x-y\|+\mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]-(f(x)-f(y))\right] \\ =\sup _f \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]+\underbrace{\inf _\gamma \mathbb{E}_{x, y \sim \gamma}[\|x-y\|-(f(x)-f(y))]}_\gamma \\ =\left\{\begin{array}{cc} 0, & \text { if }\|f\|_L \leq 1 \\ -\infty & \text { else } \end{array}\right. \end{array} supf?infγ?Ex,yγ?[x?y+Espr??[f(s)]?Etpθ??[f(t)]?(f(x)?f(y))]=supf?Espr??[f(s)]?Etpθ??[f(t)]+γ γinf?Ex,yγ?[x?y?(f(x)?f(y))]??={0,???if?fL?1?else???

W ( p r , p θ ) = sup ? f E s ~ p r [ f ( s ) ] ? E t ~ p θ [ f ( t ) ] + inf ? γ E x , y ~ γ [ ∥ x ? y ∥ ? ( f ( x ) ? f ( y ) ) ] = sup ? ∥ f ∥ L ≤ 1 E s ~ p r [ f ( s ) ] ? E t ~ p θ [ f ( t ) ] \begin{aligned} W\left(p_r, p_\theta\right) & =\sup _f \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)]+\inf _\gamma \mathbb{E}_{x, y \sim \gamma}[\|x-y\|-(f(x)-f(y))] \\ & =\sup _{\|f\|_{L \leq 1}} \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t \sim p_\theta}[f(t)] \end{aligned} W(pr?,pθ?)?=fsup?Espr??[f(s)]?Etpθ??[f(t)]+γinf?Ex,yγ?[x?y?(f(x)?f(y))]=fL1?sup?Espr??[f(s)]?Etpθ??[f(t)]?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/40655.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/40655.shtml
英文地址,請注明出處:http://en.pswp.cn/web/40655.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

springboot基于Java的超市進銷存系統+ LW+ PPT+源碼+講解

第三章系統分析與設計 3.1 可行性分析 一個完整的系統,可行性分析是必須要有的,因為他關系到系統生存問題,對開發的意義進行分析,能否通過本網站來補充線下超市進銷存管理模式中的缺限,去解決其中的不足等&#xff0c…

6域名系統DNS

《計算機網絡》第7版,謝希仁 每次記不清楚的知識點,通過上網查找,總是只能看到很零碎的答案。最后還是最喜歡看這個版本的書,一看就回憶起來了,邏輯嚴謹,循循善誘,知識講解的全面又清晰&#xf…

架構師應該在團隊中發揮怎樣的作用?

架構師分為5種: 1.企業架構師EA(Enterprise Architect) EA的職責是決定整個公司的技術路線和技術發展方向。 2.基礎結構架構師IA(Infrastructure Architect) IA的工作就是提煉和優化技術方面積累和沉淀形成的基礎性的、公共的、可復用的框架和組件,這…

Qt 基礎組件速學 鼠標和鍵盤事件

學習目標: 鼠標事件和鍵盤事件應用 前置環境 運行環境:qt creator 4.12 學習內容和效果演示: 1.鼠標事件 根據鼠標的坐標位置,做出對應的事件。 2.鍵盤事件 根據鍵盤的輸入做出對應操作 詳細主要代碼 1.鼠標事件 #include "main…

一文讀懂輕量日志收集系統Loki工作原理

Loki 是由 Grafana Labs 開發的日志聚合系統,設計目標是提供一種高效、低成本的日志收集和查詢解決方案。與傳統的日志系統(如 ELK Stack)不同,Loki 不會對日志內容進行索引,而是僅對日志的元數據進行索引,…

美國大帶寬服務器租用優勢和注意事項

美國大帶寬服務器租用對于需要處理大量數據和提供高速網絡服務的企業至關重要。下面將詳細討論美國大帶寬服務器租用的優勢、適用場景及注意事項,rak部落小編為您整理發布美國大帶寬服務器租用的優勢和注意事項。 優勢 1. 高速數據傳輸: - 大帶寬服務器提…

FTP、http 、tcp

HTTP VS FTP HTTP :HyperText Transfer Protocol 超文本傳輸協議,是基于TCP協議 FTP: File Transfer Protocol 文件傳輸協議, 基于TCP協議, 基于UDP協議的FTP 叫做 TFTP HTTP 協議 通過一個SOCKET連接傳輸依次會話數…

FIND_IN_SET使用案例--[sql語句根據多ids篩選出對應數據]

一 FIND_IN_SET select id,system_ids from intellect_client_info where FIND_IN_SET(5, system_ids) > 0;

Spring Boot 中的監視器是什么?有什么作用?

前言: 監聽器相信熟悉 Spring、Spring Boot 的都知道,但是監視器又是什么?估計很多人一臉懵的狀態,本篇分享一下 Spring Boot 的監視器。 Spring Boot 系列文章傳送門 Spring Boot 啟動流程源碼分析(2) …

Apache DolphinScheduler 與 AWS 的 EMR/Redshift 集成實踐分享

引言 這篇文章將給大家講解關于DolphinScheduler與AWS的EMR和Redshift的集成實踐,通過本文希望大家能更深入地了解AWS智能湖倉架構,以及DolphinScheduler在實際應用中的重要性。 AWS智能湖倉架構 首先,我們來看一下AWS經典的智能湖倉架構圖…

【第20章】MyBatis-Plus邏輯刪除支持

文章目錄 前言一、邏輯刪除的工作原理二、支持的數據類型三、使用方法1.配置全局邏輯刪除屬性2.在實體類中使用 TableLogic 注解 四、常見問題解答1. 如何處理插入操作?2. 刪除接口自動填充功能失效怎么辦? 五、實戰1. 全局配置2. 添加TableLogic3. 自動…

高考選專業,興趣與就業前景該如何平衡?

從高考結束的那一刻開始,有些家長和學生就已經變得焦慮了,因為他們不知道成績出來的時候學生應該如何填報志愿,也不知道選擇什么樣的專業,畢竟大學里面的專業豐富多彩,如何選擇確實是一門學問,而對于學生們…

Oracle的RECYCLEBIN回收站:輕松恢復誤刪對象

目錄 Oracle的RECYCLEBIN回收站:輕松恢復誤刪對象一、概念二、工作原理三、使用方法1 查看回收站中的對象2 恢復回收站中的對象2.1 恢復表(TABLE)2.2 恢復索引(INDEX)2.3 恢復視圖(VIEW)2.4 恢復…

樂清網站建設規劃書

樂清是位于浙江省溫州市的一個縣級市,擁有悠久的歷史和豐富的文化底蘊。隨著互聯網的快速發展,網站建設成為推動樂清經濟和文化發展的重要手段。因此,我們認為有必要制定一個全面的樂清網站建設規劃書,以促進樂清的經濟繁榮和文化…

東芝 TB5128FTG 強大性能的步進電機驅動器

TB5128FTG它以高精度和高效能為設計理念,采用 PWM 斬波方法,并內置時鐘解碼器。通過先進的 BiCD 工藝制造,這款驅動器提供高達 50V 和 5.0A 的輸出額定值,成為廣泛應用場景中的強勁解決方案。 主要特性 TB5128FTG 擁有眾多確保高…

SAP PS學習筆記01 - PS概述,創建Project和WBS

本章開始學習PS(Project System)。 1,PS的概述 PS(Project System)是SAP企業資源規劃系統中的一個關鍵模塊,主要用于項目管理。 它提供了一個全面的框架來規劃、控制和執行項目,涵蓋了從項目啟…

【Express】自定義錯誤碼和通用返回對象

自定義錯誤碼: // 自定義錯誤 const {formatResponse} require("./tool");class ServiceError extends Error {/**** param message 自定義錯誤信息* param code 自定義錯誤碼*/constructor(message, code) {super(message);this.code code;}/*** 將錯…

ZeroMQ最全面試題解讀(3萬字長文)

目錄 解釋ZeroMQ是什么,它的主要用途是什么? ZeroMQ支持哪些通信模式? 描述一下ZeroMQ中的“消息”和“消息幀” 如何在C++中初始化一個ZeroMQ上下文? 在ZeroMQ中,如何創建一個套接字并將其綁定到特定端口? 解釋什么是“管道模式”(Pipe Pattern) 說明如何使用Z…

Spring的三種注入方式的優缺點分析

在 Spring 中,提供了三種依賴注入(也被稱之為 "對象注入","屬性裝配"等)的方式,這篇博客我們來分析一下這三種方式各有哪些優缺點。 一、屬性注入 優點 簡潔,使用方便。 缺點 ? 只…

競賽選題 卷積神經網絡手寫字符識別 - 深度學習

文章目錄 0 前言1 簡介2 LeNet-5 模型的介紹2.1 結構解析2.2 C1層2.3 S2層S2層和C3層連接 2.4 F6與C5層 3 寫數字識別算法模型的構建3.1 輸入層設計3.2 激活函數的選取3.3 卷積層設計3.4 降采樣層3.5 輸出層設計 4 網絡模型的總體結構5 部分實現代碼6 在線手寫識別7 最后 0 前言…