【NLP】15. NLP推理方法詳解 --- 動態規劃：序列標注，語法解析，共同指代

動態規劃（Dynamic Programming，簡稱 DP）是一種通過將問題分解為較小子問題來優化計算效率的技術。它特別適用于優化最優解問題，比如序列標注（sequence tagging）這類任務。

序列標注是自然語言處理（NLP）中常見的任務之一。它的目標是為輸入的每個單詞（或者子序列）分配一個標簽。這個標簽集通常是固定且有限的。最常見的例子是：

在序列標注中，標簽是來自一個固定的標簽集合，且序列長度已知且固定。

在許多基礎的機器學習模型中，每個標簽都是獨立預測的。這種方法存在一個問題，就是 獨立預測可能會導致不一致的結果。例如，在詞性標注任務中，模型可能會錯誤地標記某個單詞的詞性，但這個錯誤可能會影響后續預測。

貪心算法（greedy approach）逐步做出局部最優的選擇，但由于缺乏全局視野，這種方法可能會導致全局的錯誤。例如，貪心算法可能錯誤地為某個詞分配了標簽，導致后續的標注結果不一致。

舉個例子，“the old man the boat”這個句子中，如果我們貪心地預測每個詞的標簽，可能會錯誤地預測"man"作為動詞（即“the old man [to] the boat”）。但由于模型只關注當前詞，錯誤直到后續預測時才會變得明顯。

動態規劃（DP）是解決這類問題的有效工具。它的基本思想是通過將問題分解為子問題，并存儲子問題的解，避免重復計算，進而提高效率。在序列標注中，DP通過計算每個詞的標簽得分以及標簽之間的轉移得分，來有效地找到最高得分的標簽序列。

序列標注任務的模型通常會涉及兩個主要部分：

發射模型（Emission Model）：表示當前單詞與某個標簽的關聯。例如，對于命名實體識別任務，發射模型會計算每個單詞屬于某個實體類型（如人名、地點等）的概率。
轉移模型（Transition Model）：表示從一個標簽轉移到另一個標簽的概率。例如，標簽 “動詞” 轉移到標簽 “名詞” 的概率。

$p ro b 1 = e / t$

其中 e 是發射概率，t 是轉移概率。

遞歸計算（Intermediate Scores）：對于每個單詞，基于其與當前標簽的發射概率，和從前一個標簽到當前標簽的轉移概率，計算所有可能路徑的得分。

$\text{prob4} = e \times \max(t \times \text{prob pre})$

其中 prob pre 是前一個狀態的概率。

$\text{prob10} = \max(t_{\text{pre}} \times \text{prob pre})$

其中 tpre 是前一個標簽到當前標簽的轉移概率，prob pre 是前一個標簽的得分。

O(|words| * |labels|2)：對于標準的序列標注任務，時間復雜度是 O(單詞數×標簽數^2)，因為對于每個單詞，我們需要計算標簽之間的轉移概率，而轉移的計算需要遍歷每對標簽。
O(|words| * |labels|3)：如果我們在模型中加入了更多的標簽上下文（例如，考慮更長的標簽序列歷史），時間復雜度會增加到 O(單詞數×標簽數^3)，這意味著計算量會更大。