牛津大學xDeepMind 自然語言處理（3）

條件語言模型

無條件語言模型
1. 概率計算：通過鏈式法則分解為預測下一詞概率（將語言建模問題簡化為建模給定前面詞語歷史的下一個詞的概率）
2. 基于循環神經網絡的無條件語言模型：根據歷史詞語預測下一個詞的概率
條件語言模型
1. 定義：在給定某些條件上下文 $x$ 的情況下為詞序列 $w=(w_1,w_2,...,w_l)$ 分配概率： $p(w|x) = ∏_{t=1}^lp(w_t|x,w_1,w_2,...,w_{t-1})$
2. 訓練數據：需成對樣本 ${(xi,wi)}i=1N\{(x_i,w_i)\}^N_{i=1}$ ，部分任務數據充足，相對大量的數據用于翻譯、摘要、標題生成、語音識別
3. 算法挑戰：最優輸出難尋，需近似方法
4. 評估：交叉熵困惑度等、特定任務指標、人類評估
編碼器-解碼器模型
1. 概述：該模型學習一個函數，將 $x$ 映射到一個固定大小的向量c，然后使用語言模型將該向量“解碼”為詞序列 $w$
2. kalchbrenner和Blunsom 2013：卷積句子模型（CSM）編碼器，循環解碼器
  
  優點：卷積學習局部上下文中特征之間的相互作用；通過堆疊卷積，可以學習更長范圍的依賴關系；深度卷積網絡具有類似于樹的分支結構，但不需要解析器。
  
  缺點：句子有不同的長度，需要不同深度的樹；卷積網絡通常不是這樣動態的
3. Stuskever等人2014：LSTM編解碼
  
  優點：循環神經網絡自然地處理各種長度的序列；長短期記憶網絡原則上可以傳播長距離的梯度；架構非常簡單！
  
  缺點：隱藏狀態必須記住大量信息！
  1. 技巧
    1. 反向讀取輸入序列
    2. 使用 $J$ 個獨立訓練的模型集合
    3. 使用波束搜索
解碼方法
1. 困難：尋找最可能輸出不易
2. 近似方法：貪婪搜索、波束搜索
圖像標題生成
1. 圖像標題生成：神經網絡非常適合處理多模態——一切都是向量！圖像標題生成可以使用類似翻譯的技術，需預訓練
2. Kiros等人2013：前饋n元模型可以在條件模型中替代RNN，乘法模型助于交互學習

帶注意力機制的條件語言模型

向量條件處理的問題
1. 信息壓縮不足：難以承載整句含義
2. 梯度問題：傳播距離長
3. 記憶問題：長短期記憶網絡易遺忘
帶注意力機制的機器翻譯
1. 解決向量問題：用矩陣表示源語句，從矩陣生成目標語句，可解決容量和梯度流動問題
2. 三種構建矩陣方式：
  1. 拼接：將單詞向量拼接
  2. 卷積網絡：應用卷積網絡來轉換原始的拼接矩陣，以獲得依賴于語境的矩陣
  3. 雙向循環神經網絡：雙向循環神經網絡（門控循環單元或長短期記憶網絡）從左到右和從右到左讀取 f（|f|=列數），拼接表示
從矩陣生成內容與注意力計算
1. 生成方法：用循環神經網絡逐詞生成輸出句子，結合嵌入和矩陣視圖向量
2. 注意力計算：（簡略概述詳細需搜索）
  1. 簡化版：循環神經網絡隱藏狀態等一系列計算
  2. 非線性注意力 - 能量模型：用多層感知機替換點積
機器翻譯中注意力
1. 在序列到序列翻譯中添加注意力效果：添加注意力提升11BLEU
2. 模型變體：早期綁定和晚期綁定及優勢比較
  
  早期綁定（Early Binding）和晚期綁定（Late Binding）是編程語言中兩種不同的方法調用機制。
  1. 早期綁定（Early Binding）
    
    早期綁定在編譯時或程序啟動時確定方法或變量的具體實現，通常與靜態類型語言（如Java、C#）或編譯型語言相關。
    
    優勢：
    
    性能更高類型安全代碼可讀性強更好的IDE支持
  2. 晚期綁定（Late Binding）
    
    晚期綁定在運行時動態確定方法或變量的具體實現，通常與動態類型語言（如Python、JavaScript）或反射機制相關。
    
    優勢：靈活性更高代碼更簡潔支持動態語言特性更好的擴展性
  - 早期綁定更適合需要高性能、類型安全和代碼可維護性的場景。
  - 晚期綁定更適合需要靈活性和動態擴展的場景。
注意力總結與梯度
1. 注意力與池化：密切相關
2. 巴赫達瑙模型：關注內容，可添加結構偏向等
3. 梯度：并行反向傳播
4. 與人類翻譯：翻譯者會反復參考輸入
帶注意力的圖像標題生成
1. 卷積網絡區域：含注釋向量
2. 注意力計算：軟、硬注意力（確定性軟注意力和隨機性硬注意力）
3. 軟注意力學習：確定性軟注意力是一種連續的、可微分的注意力機制，它通過某種函數（如softmax）對輸入的權重進行平滑處理，生成注意力分布。這個分布是確定性的，不涉及隨機性。
4. 硬注意力學習：隨機性硬注意力是一種離散的注意力機制，它通過采樣（如從概率分布中采樣）來選擇特定的輸入特征或區域。由于其采樣過程是隨機的，因此具有不確定性。
  
  （基于詹森不等式等）
5. 效果：軟注意力+2BLEU，硬注意力+4BLEU
整體總結：
1. 性能改進：優于向量編碼等
2. 其他優勢：模型可解釋性、更好的梯度流動、更好的容量等

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/93906.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/93906.shtml
英文地址，請注明出處：http://en.pswp.cn/web/93906.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！