《機器學習數學基礎》補充資料：拉格朗日乘子法

瑞士數學家歐拉（Leonhard Euler，1707-1783）的大名，如雷貫耳——歐拉，是按德文發音翻譯。歐拉不僅是公認的十八世紀最偉大的數學家，還是目前史上最多產的數學家。所著的書籍及論文多達 886 部（篇），涉及非常多領域。平均每年發表約 800 頁的高水平學術論文，而且和貝多芬類似，他失明以后發表論文的速度更快了！

如果你生活在十八世紀，就可以把你遇到的數學難題寄到德國柏林科學院，交給非常厲害的歐拉來解決，他幾乎什么難題都能解出來。但當時有一個條件極值問題，歐拉長期沒能解開。

條件極值問題是這樣的，比如說我們想求 $z = x y$ 的極值，卻有條件限制： $x^2 + xy - y^3 = 2$ 。也就是說，我們要從那些滿足方程式 $x^2 + xy - y^3 = 2$ 的點中，選取點代入 $z = x y$ ，看看哪些點代入后會有極大值或極小值。

當時有一位初生牛犢不怕虎的青年，約瑟夫-路易?拉格朗日（Joseph-Louis Lagrange）。他 17 歲以前對數學都沒有興趣，有一天無意中讀了英國埃德蒙?哈雷（Edmund Halley，就是命名一顆彗星的那個哈雷）的文章后，開始對數學產生興趣，并開始學習數學。而在他 19 歲時，便寄了一封信給歐拉，告訴歐拉條件極值問題其實可以輕松解決。歐拉看完他的信后，抱著頭說：“天啊，這么簡單我怎么沒想到！” 隨后，拉格朗日聲名大噪，當上了皇家炮兵學校的教授，一位 19 歲的教授。日后他也做出了許多非常杰出的研究，拿破侖稱贊他是 “數學上高聳的金字塔”。

這個故事告訴我們，即使本來對數學沒有興趣也沒關系，我們還是有可能輕松學好數學的。為了幫助你成為現代的拉格朗日，我們先來學習如何求解條件極值，這個方法稱為拉格朗日乘子法（Lagrange multiplier method）。

我們先將目標函數設為 $z = f (x, y) = x y$ ，要求它的極值。至于條件限制，先設為 $g(x, y) = x^2 + y^2 = 1$ ?。也就是說，我們現在要從單位圓上取點，來找出哪些點會使 $z = x y$ 取得極值。

我們先在坐標平面上，畫出 $x^2 + y^2 = 1$ 。然后在同一張圖上，畫出目標函數 $z = x y$ 的等高線圖。在下圖中，畫出了 $z = 0.1, 0.2, 0.4, 0.6, 0.8$ ? 時的等高線。

在這里插入圖片描述

現在要從 $x^2 + y^2 = 1$ 上取點代入 $z = x y$ ，那么取的點，必然是 $x^2 + y^2 = 1$ 和某條等高線的交點。在 $z = 0.1, 0.2, 0.4$ 這幾條等高線，都還與條件限制 $x^2 + y^2 = 1$ 有交點。但 $z = 0.6, 0.8$ 這兩條，就超出范圍了，我將它們標為紅色，表示那不是我們關注的。

將某一條等高線，越往某個方向移動， $z$ 值就會呈現某種趨勢，可能是越來越大或者越來越小。在這個例子中，等高線越往圓外， $z$ 值就越大。我們現在要找極值，所以就拼命地將等高線往圓外拉，一直拉到不能再拉為止。什么叫做 “不能再拉” 呢？就是仍然與 $x^2 + y^2 = 1$ 有交點，但再拉就會超出范圍了。什么樣的狀態，會是仍有交點，但再拉就會超出范圍呢？就是相切的時候！

所以，我們要找的那些點，就是條件限制 $x^2 + y^2 = 1$ 與目標函數 $z = x y$ ? 的等高線相切的那些點。至于，什么叫做 “相切” 呢？相切即是，它們在某個點的法向量是平行的！而該點稱為切點。于是，我們現在只要分別求條件限制 $g(x, y) = x^2 + y^2 = 1$ 與各等高線 $f(x, y) = xy = c_k$ 的法向量，并解出使它們平行的條件即可。

如果對一個隱函數取梯度后，再代入點 $P$ ，就會得到它在點 $P$ 處的法向量。而我們的條件限制 $g(x, y) = x^2 + y^2 = 1$ 與各等高線 $f(x, y) = xy = c_k$ ，確實都是隱函數的形式。至于兩個向量平行，就是其中一個向量為另一個向量的常數倍。例如 $(3, 2)$ 與 $(? 6, ? 4)$ 平行，可寫成 $(? 6, ? 4) = ? 2 (3, 2)$ 。

所以總結以上，我們需要求解：
$\nabla f(x, y) = \lambda \nabla g(x, y)$
也就是
${fx(x,y)=λgx(x,y)fy(x,y)=λgy(x,y)\begin{cases} f_x(x, y) = \lambda g_x(x, y) \\ f_y(x, y) = \lambda g_y(x, y) \end{cases}$
解出符合條件的 $(x, y)$ 。至于其中的 $λ\lambda$ ，稱為拉格朗日乘子（Lagrange multiplier）。

為什么要用 $λ\lambda$ 這個符號，可能是因為拉格朗日（Lagrange）的首字母 $L$ 對應的希臘字母是 $λ\lambda$ 。

另外也別忘了，我們所找出的點，一定要滿足條件限制 $g (x, y)$ 。所以準確地說，應該是：

Lagrange 乘子法（Lagrange multiplier method）

在條件限制 $g (x, y) = k$ 的條件下，求目標函數 $f (x, y)$ 的極值。先求出所有的 $\lambda)$ 滿足：
$\begin{cases} f_x(x,y)=\lambda g_x(x,y) \\f_y(x, y)=\lambda g_y(x,y) \\g(x,y)=k \end{cases}$
然后解出這些 $(x, y)$ ，代入到目標函數 $f (x, y)$ 中，得到最大的即為極大值，最小的即為極小值。

例

求 $f(x,y) = x^2 + y^2$ 的極值，條件為 $x^2 - 2x + y^2 - 4y = 0$ 。

解：

設約束條件為 $g(x,y) = x^2 - 2x + y^2 - 4y = 0$ ，根據拉格朗日乘數法，列聯立方程組：
$\begin{cases} 2x = \lambda (2x - 2) \quad \text{（梯度分量相等，$f_x = \lambda g_x$）} \\ 2y = \lambda (2y - 4) \quad \text{（梯度分量相等，$f_y = \lambda g_y$）} \\ x^2 - 2x + y^2 - 4y = 0 \quad \text{（滿足約束條件）} \end{cases}$
步驟 1：消去拉格朗日乘子 $λ\boldsymbol{\lambda}$

從前兩個方程解 $λ\lambda$ ?（若分母非零）：

若 $\neq 0$ （即 $\neq 1$ ），則 $λ=2x2x?2=xx?1\lambda = \dfrac{2x}{2x - 2} = \dfrac{x}{x - 1}$ ；
若 $\neq 0$ （即 $\neq 2$ ），則 $λ=2y2y?4=yy?2\lambda = \dfrac{2y}{2y - 4} = \dfrac{y}{y - 2}$ 。

令兩式相等：
$\dfrac{x}{x - 1} = \dfrac{y}{y - 2}$
交叉相乘化簡：
$\implies xy - 2x = xy - y \implies y = 2x$
步驟 2：代入約束條件求解 $(x, y)$

將 $y = 2 x$ 代入約束條件 $x^2 - 2x + y^2 - 4y = 0$ ：
$\begin{align*} x^2 - 2x + (2x)^2 - 4 \cdot (2x) &= 0 \\ x^2 - 2x + 4x^2 - 8x &= 0 \\ 5x^2 - 10x &= 0 \\ 5x(x - 2) &= 0 \end{align*}$
解得：

$x = 0$ ，對應 $\cdot 0 = 0$ ；
$x = 2$ ，對應 $\cdot 2 = 4$ 。

步驟 3：驗證 $λ=0\boldsymbol{\lambda = 0}$ 的特殊情況

若 $λ=0\lambda = 0$ ，代入前兩個方程：

$\implies x = 0$ ；
$\implies y = 0$ 。

驗證約束條件： $02?2?0+02?4?0=00^2 - 2 \cdot 0 + 0^2 - 4 \cdot 0 = 0$ ，滿足條件，故 $(0, 0)$ 也是解。

步驟 4：計算函數值并判斷極值

將兩點代入 $f(x,y) = x^2 + y^2$ ：

$f(0, 0) = 0^2 + 0^2 = 0$ ；
$f(2, 4) = 2^2 + 4^2 = 20$ 。

幾何意義補充（輔助理解）

約束條件配方為： $x - 1)^2 + (y - 2)^2 = 5$

這是以 $(1, 2)$ 為圓心、 $5\sqrt{5}$ 為半徑的圓。

$f (x, y)$ 表示點 $(x, y)$ 到原點的距離的平方。
原點到圓心 $(1, 2)$ 的距離為 $12+22=5\sqrt{1^2 + 2^2} = \sqrt{5}$ （等于圓的半徑），說明 原點在圓上（對應點 $(0, 0)$ ，距離最小為 0）；
點 $(2, 4)$ 是圓上離原點最遠的點（距離平方為 20）。

因此， $f (0, 0) = 0$ 是極小值， $f (2, 4) = 20$ ? 是極大值。

拉格朗日乘子法的流程并不困難，就算你不明白它背后的原理，只是把這個方法死記下來也能使用。難就難在解聯立方程的時候，技巧千變萬化，沒有固定的方法。

程序實現

以下是使用Python實現拉格朗日乘子法的代碼。

方法1：符號解法（使用SymPy）

import sympy as spdef lagrange_multiplier(f, constraints, variables):"""符號解法實現拉格朗日乘子法:param f: 目標函數:param constraints: 等式約束列表 [g1, g2, ...]:param variables: 變量列表 [x1, x2, ...]:return: 極值點及乘子組成的字典"""# 創建拉格朗日乘子符號lambdas = sp.symbols(f'λ1:{len(constraints)+1}')# 構造拉格朗日函數L = ffor i, con in enumerate(constraints):L += lambdas[i] * con# 生成方程組equations = []for var in variables:equations.append(sp.diff(L, var))equations.extend(constraints)# 求解方程組all_vars = list(variables) + list(lambdas)solutions = sp.solve(equations, all_vars, dict=True)return solutions# 示例：求 f(x,y) = x2 + 2y2 在約束 x + y - 1 = 0 下的極值
if __name__ == "__main__":# 定義變量x, y = sp.symbols('x y')# 定義目標函數和約束f = x**2 + 2*y**2constraints = [x + y - 1]  # 等式約束列表# 調用拉格朗日乘子法solutions = lagrange_multiplier(f, constraints, [x, y])# 打印結果print("符號解法結果：")for i, sol in enumerate(solutions):print(f"解{i+1}:")print(f"  x = {sol[x]}, y = {sol[y]}, λ = {sol[sp.Symbol('λ1')]}")print(f"  目標函數值: {f.subs({x: sol[x], y: sol[y]})}\n")

輸出示例：

符號解法結果：
解1:x = 2/3, y = 1/3, λ = -4/3目標函數值: 2/3

方法2：數值解法（使用SciPy）

import numpy as np
from scipy.optimize import minimizedef lagrange_numeric():"""數值解法實現拉格朗日乘子法"""# 目標函數def f(X):x, y = Xreturn x**2 + 2*y**2# 約束條件（字典形式）cons = ({'type': 'eq', 'fun': lambda X: X[0] + X[1] - 1})# 初始猜測點initial_guess = np.array([0.0, 0.0])# 使用SLSQP算法求解result = minimize(f, initial_guess, constraints=cons, method='SLSQP')return result# 示例求解
if __name__ == "__main__":res = lagrange_numeric()print("\n數值解法結果：")print(f"最優解: x = {res.x[0]:.6f}, y = {res.x[1]:.6f}")print(f"目標函數值: {res.fun:.6f}")print(f"是否成功: {res.success}")print(f"迭代次數: {res.nit}")

輸出示例：

數值解法結果：
最優解: x = 0.666667, y = 0.333333
目標函數值: 0.666667
是否成功: True
迭代次數: 2

方法3：KKT系統求解法（多約束通用）

from scipy.optimize import fsolve
import numpy as npdef lagrange_kkt(f, gradf, constraints, grad_constraints, initial_guess):"""求解KKT系統的數值方法（支持多約束）:param f: 目標函數（未使用，僅為接口一致）:param gradf: 目標函數梯度:param constraints: 約束函數列表 [g1, g2, ...]:param grad_constraints: 約束梯度列表 [?g1, ?g2, ...]:param initial_guess: 初始猜測 [x1, x2, ..., λ1, λ2, ...]:return: 解向量"""n_vars = len(initial_guess) - len(constraints)def equations(vars):# 拆分變量和乘子x = vars[:n_vars]lambdas = vars[n_vars:]# 梯度方程: ?f + Σλi?gi = 0grad_eq = gradf(x) for i, grad_con in enumerate(grad_constraints):grad_eq += lambdas[i] * grad_con(x)# 約束方程: gi(x) = 0con_eq = [con(x) for con in constraints]return np.concatenate([grad_eq, con_eq])return fsolve(equations, initial_guess)# 示例：求解多約束問題
if __name__ == "__main__":# 問題：min x2 + y2 + z2# 約束: #   x + y - 1 = 0#   y + z - 2 = 0# 定義梯度函數gradf = lambda X: np.array([2*X[0], 2*X[1], 2*X[2]])# 定義約束及其梯度constraints = [lambda X: X[0] + X[1] - 1,lambda X: X[1] + X[2] - 2]grad_constraints = [lambda X: np.array([1, 1, 0]),lambda X: np.array([0, 1, 1])]# 初始猜測 [x, y, z, λ1, λ2]initial_guess = np.array([0.0, 0.0, 0.0, 0.0, 0.0])# 求解KKT系統solution = lagrange_kkt(None, gradf, constraints, grad_constraints, initial_guess)print("\nKKT系統解法結果：")print(f"x = {solution[0]:.6f}, y = {solution[1]:.6f}, z = {solution[2]:.6f}")print(f"λ1 = {solution[3]:.6f}, λ2 = {solution[4]:.6f}")print(f"目標函數值: {sum(x**2 for x in solution[:3]):.6f}")

輸出示例：

KKT系統解法結果：
x = 0.000000, y = 1.000000, z = 1.000000
λ1 = 0.000000, λ2 = -2.000000
目標函數值: 2.000000

方法4：深度學習方法

import numpy as np
import tensorflow as tf
from tensorflow import keras
from scipy.optimize import minimize# 定義神經網絡架構
def create_optimizer_model(input_dim, output_dim):"""創建用于預測拉格朗日乘子法解的神經網絡模型參數:input_dim: 輸入維度 (目標函數參數+約束參數)output_dim: 輸出維度 (解向量維度)"""model = keras.Sequential([keras.layers.Input(shape=(input_dim,)),keras.layers.Dense(64, activation='relu'),keras.layers.Dense(64, activation='relu'),keras.layers.Dense(output_dim)  # 輸出解向量])return model# 生成訓練數據
def generate_training_data(num_samples, problem_dim):"""生成訓練數據: 隨機問題參數和對應的數值解參數:num_samples: 樣本數量problem_dim: 問題維度 (變量數+約束數)"""# 隨機生成目標函數參數和約束參數problem_params = np.random.rand(num_samples, problem_dim)# 存儲數值解solutions = np.zeros((num_samples, problem_dim))# 為每個樣本計算數值解for i in range(num_samples):# 使用scipy計算數值解 (替代原solve_lagrange)res = minimize(fun=lambda x: np.sum((x - problem_params[i, :problem_dim//2])**2),  # 示例目標函數x0=np.zeros(problem_dim//2),  # 初始猜測constraints={'type': 'eq', 'fun': lambda x: np.sum(x) - problem_params[i, -1]},method='SLSQP')solutions[i, :len(res.x)] = res.xreturn problem_params, solutions# 自定義損失函數
def custom_loss(y_true, y_pred):"""均方誤差損失函數"""return tf.reduce_mean(tf.square(y_true - y_pred))# 主程序
if __name__ == "__main__":# 參數設置problem_dim = 6  # 問題維度 (例如: 3個變量 + 3個約束參數)output_dim = 3   # 輸出維度 (解向量維度, 等于變量數)num_samples = 1000  # 訓練樣本數量# 創建神經網絡模型optimizer_model = create_optimizer_model(problem_dim, output_dim)optimizer_model.compile(optimizer='adam', loss=custom_loss)# 生成訓練數據problem_params, solutions = generate_training_data(num_samples, problem_dim)# 訓練神經網絡print("開始訓練神經網絡...")history = optimizer_model.fit(problem_params, solutions, epochs=50, batch_size=32,validation_split=0.2)print("\n訓練完成!")print(f"最終訓練損失: {history.history['loss'][-1]:.4f}")print(f"最終驗證損失: {history.history['val_loss'][-1]:.4f}")# 測試神經網絡預測test_params = np.random.rand(1, problem_dim)prediction = optimizer_model.predict(test_params)print(f"\n測試輸入: {test_params[0]}")print(f"預測解: {prediction[0]}")

《機器學習數學基礎》一書在各大平臺有售，請認準作者、出版社
在這里插入圖片描述