Supervised Descent Method and its Applications to Face Alignment

廣播說明：
進入深度學習時代，如下的方法已經失去可比性，且我們的代碼實現地很粗糙，如果堅持要用，推薦如下代碼
https://github.com/wanglin193/SupervisedDescentMethod （看起來作者對sdm實現的不錯）

另外一篇基于深度學習的基于回歸的方法，也是使用的基于SDM的相同的思路，但是全部深度學習化，
更加魯棒。見：《Stacked Hourglass Network for Robust Facial Landmark Localisation》

本方法是當前人臉對齊最流行的算法，速度很快，很穩定。下面我將介紹一下這篇文章的整體思路和相關細節。
在介紹之前,先給出幾個有用的鏈接:
1.)
本論文作者主頁，形象地介紹了SDM的特點:
http://xiong828.github.io/sdm.html
2. )
superviseddescent C++11版本的實現:
http://patrikhuber.github.io/superviseddescent/
下面開始介紹:
人臉對齊就是要找人臉的特征點。如圖
。
我們要找到眼睛、鼻子、嘴巴等特征點。那么如何去做呢？方法有很多。本文講述了使用SDM去求特征點的方法。假設我們有一個初始的特征點 $x_0$ ，希望通過迭代，逐步求出準確地特征點 $x_*$ 。這就是大致的思路。

SDM方法（Supervised Descent Method ）

Derivation of SDM

給定一幅含有m個像素的圖像 $d\in R^{m\times 1}$ , $d(x)\in R^{p\times 1}$ 用來索引圖像的p個特征點，x代表p個特征點。 $h(d(x))\in R^{128p\times 1}$ 代表SIFT特征向量。在訓練階段，我們假設準確的p個特征點已知，設為 $x_*$ 。我們另外選取訓練集特征點的平均值 $x_0$ 作為初始值。如圖：

這樣，Face Alignment可以通過在 $\Delta x$ 求解如下的最優化問題：

f (x 0 + Δ x) = | | h (d (x 0 + Δ x)) ? Φ ? | | 22

$f(x_0+\Delta x)=||h(d(x_0+\Delta x))-\Phi_*||_2^2$
這里

Φ?=h(d(x?))Φ?=h(d(x?)) $\Phi_*=h(d(x_*))$ 代表手工標記的特征點的SIFT特征。在訓練階段，

Φ?Φ? $\Phi_*$ 和

ΔxΔx $\Delta x$ 已知。

f (x 0 + Δ x) \approx f (x 0) + J f (x 0) T Δ x + 1 2 Δ x T H (x 0) Δ x

$f(x_0+\Delta x)\approx f(x_0)+J_f(x_0)^T\Delta x+\frac{1}{2}\Delta x^TH(x_0)\Delta x$
對上面關于

ΔxΔx $\Delta x$ 求導,令

f′(x0+Δx)=0f′(x0+Δx)=0 $f'(x_0+\Delta x)=0$ ，可得

Δ x 1 = ? H ? 1 J f = ? 2 H ? 1 J T h (Φ 0 ? Φ ?)

$\Delta x_1=-H^{-1}J_f=-2H^{-1}J_h^T(\Phi_0-\Phi_*)$
,這里

Φ0=h(d(x0))Φ0=h(d(x0)) $\Phi_0=h(d(x_0))$ .
令

R=?2H?1JTh，ΔΦ0=Φ0?Φ?R=?2H?1JhT，ΔΦ0=Φ0?Φ? $R=-2H^{-1}J_h^T，\Delta \Phi_0=\Phi_0-\Phi_*$ ,于是R可看作

Δx1Δx1 $\Delta x_1$ 到

ΔΦ0ΔΦ0 $\Delta \Phi_0$ 的線性回歸系數。但是，我們知道在測試階段，

Φ?Φ? $\Phi_*$ 是未知的，但是固定的。因此我們不再使用

Φ?Φ? $\Phi_*$ 做訓練，而是改用下面的公式：

Δ x 1 Δ x 1 Δ x 1 = = = ? 2 H ? 1 J T h (Φ 0 ? Φ ?) ? 2 H ? 1 J T h Φ 0 + (? 2 H ? 1 J T h) (? Φ ?) R Φ 0 + b 0

$\begin{equation*} \begin{aligned} \Delta x_1&=&-2H^{-1}J_h^T(\Phi_0-\Phi_*)\\ \Delta x_1&=&-2H^{-1}J_h^T\Phi_0+(-2H^{-1}J_h^T)(-\Phi_*)\\ \Delta x_1&=&R\Phi_0+b_0 \end{aligned} \end{equation*}$
使用訓練樣本，我們的方法可以學習

R0,b0R0,b0 $R_0,b_0$ .
通常這種方法不可能一步迭代完成，需要進行多步，除非f是二次的。為了處理這個非二次的方程，SDM將產生一系列的下降方向

{Rk}{Rk} $\{R_k\}$ 和偏差

{bk}{bk} $\{b_k\}$ .
即

x k = x k ? 1 + R k ? 1 Φ k ? 1 + b k ? 1 (1) (1)

$\begin{equation}x_k=x_{k-1}+R_{k-1}\Phi_{k-1}+b_{k-1} \quad (1)\end{equation}$ ,使得對于訓練圖片集，

xkxk $x_k$ 將收斂到

x?x? $x_*$ .

Learning for SDM

假定給定一系列人臉 $\{d^i\}$ 與對應的特征點 $\{x_*^i\}$ .對于每張圖片，從初始的特征點 $x_0^i$ 出發， $R_0,b_0$ 可以通過求解最優化問題獲得：

a r g R 0 m i n b 0 \sum d i \int p (x i 0) | | Δ x i ? R 0 Φ i 0 ? b 0 | | 2 d x i 0

$\begin{matrix} arg\\R_0 \end{matrix}\begin{matrix} min\\b_0 \end{matrix}\sum_{d^i}\int p(x_0^i)||\Delta x^i-R_0\Phi_0^i-b_0||^2dx_0^i$
這里

Δxi=xi??xi0,Φi0=h(di(xi0))Δxi=x?i?x0i,Φ0i=h(di(x0i)) $\Delta x^i=x_*^i-x_0^i,\Phi_0^i=h(d^i(x_0^i))$ .
我們假定

xi0x0i $x_0^i$ 可以從服從正態分布的人臉檢測框對齊采樣。于是上面的最優化問題化為：

a r g R 0 m i n b 0 \sum d i \sum x i 0 | | Δ x i ? R 0 Φ i 0 ? b 0 | | 2

$\begin{matrix} arg\\R_0 \end{matrix}\begin{matrix} min\\b_0 \end{matrix}\sum_{d^i}\sum_{x_0^i}||\Delta x^i-R_0\Phi_0^i-b_0||^2$
以上方程是個線性的最優化問題，可以直接求解。
當第一步求解完畢后，代入方程式（1）,可以求出

x1x1 $x_1$ ,進而又可以計算特征向量

Φik=h(di(xik))Φki=h(di(xki)) $\Phi_k^i=h(d^i(x_k^i))$ 和

Δxki?=xi??xikΔx?ki=x?i?xki $\Delta x_*^{ki}=x_*^i-x_k^i$ .這樣

Rk,bkRk,bk $R_k,b_k$ 可以通過一個新的線性回歸得到。

a r g R k m i n b k \sum d i \sum x i k | | Δ x k i ? ? R k Φ i k ? b k | | 2

$\begin{matrix} arg\\R_k \end{matrix}\begin{matrix} min\\b_k \end{matrix}\sum_{d^i}\sum_{x_k^i}||\Delta x_*^{ki}-R_k\Phi_k^i-b_k||^2$
隨著k的增大，誤差逐漸減小，一般4到5次的迭代就可以達到比較好的效果。

Training for SDM

當我們計算出一系列的 $\{R_k\},\{b_k\}$ ,我們就可以通過迭代式（1）通過迭代求解特征點。一般初始的特征點可以選取訓練時的初始特征點。
后續我們還會給出SDM方法的Matlab代碼及相關說明，你就會看到比較清楚的步驟和效果了。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/259272.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/259272.shtml
英文地址，請注明出處：http://en.pswp.cn/news/259272.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！