條件語言模型
-
無條件語言模型
- 概率計算:通過鏈式法則分解為預測下一詞概率(將語言建模問題簡化為建模給定前面詞語歷史的下一個詞的概率)
- 基于循環神經網絡的無條件語言模型:根據歷史詞語預測下一個詞的概率
-
條件語言模型
- 定義:在給定某些條件上下文xxx的情況下為詞序列w=(w1,w2,...,wl)w=(w_1,w_2,...,w_l)w=(w1?,w2?,...,wl?)分配概率:p(w∣x)=∏t=1lp(wt∣x,w1,w2,...,wt?1)p(w|x) = ∏_{t=1}^lp(w_t|x,w_1,w_2,...,w_{t-1})p(w∣x)=∏t=1l?p(wt?∣x,w1?,w2?,...,wt?1?)
- 訓練數據:需成對樣本{(xi,wi)}i=1N\{(x_i,w_i)\}^N_{i=1}{(xi?,wi?)}i=1N?,部分任務數據充足,相對大量的數據用于翻譯、摘要、標題生成、語音識別
- 算法挑戰:最優輸出難尋,需近似方法
- 評估:交叉熵困惑度等、特定任務指標、人類評估
-
編碼器-解碼器模型
-
概述:該模型學習一個函數,將xxx映射到一個固定大小的向量c,然后使用語言模型將該向量“解碼”為詞序列www
-
kalchbrenner和Blunsom 2013:卷積句子模型(CSM)編碼器,循環解碼器
優點:卷積學習局部上下文中特征之間的相互作用;通過堆疊卷積,可以學習更長范圍的依賴關系;深度卷積網絡具有類似于樹的分支結構,但不需要解析器。
缺點:句子有不同的長度,需要不同深度的樹;卷積網絡通常不是這樣動態的
-
Stuskever等人2014:LSTM編解碼
優點:循環神經網絡自然地處理各種長度的序列;長短期記憶網絡原則上可以傳播長距離的梯度;架構非常簡單!
缺點:隱藏狀態必須記住大量信息!
- 技巧
- 反向讀取輸入序列
- 使用JJJ個獨立訓練的模型集合
- 使用波束搜索
- 技巧
-
-
解碼方法
- 困難:尋找最可能輸出不易
- 近似方法:貪婪搜索、波束搜索
-
圖像標題生成
- 圖像標題生成:神經網絡非常適合處理多模態——一切都是向量!圖像標題生成可以使用類似翻譯的技術,需預訓練
- Kiros等人2013:前饋n元模型可以在條件模型中替代RNN,乘法模型助于交互學習
帶注意力機制的條件語言模型
-
向量條件處理的問題
- 信息壓縮不足:難以承載整句含義
- 梯度問題:傳播距離長
- 記憶問題:長短期記憶網絡易遺忘
-
帶注意力機制的機器翻譯
- 解決向量問題:用矩陣表示源語句,從矩陣生成目標語句,可解決容量和梯度流動問題
- 三種構建矩陣方式:
- 拼接:將單詞向量拼接
- 卷積網絡:應用卷積網絡來轉換原始的拼接矩陣,以獲得依賴于語境的矩陣
- 雙向循環神經網絡:雙向循環神經網絡(門控循環單元或長短期記憶網絡)從左到右和從右到左讀取 f(|f|=列數),拼接表示
-
從矩陣生成內容與注意力計算
- 生成方法:用循環神經網絡逐詞生成輸出句子,結合嵌入和矩陣視圖向量
- 注意力計算:(簡略概述 詳細需搜索)
- 簡化版:循環神經網絡隱藏狀態等一系列計算
- 非線性注意力 - 能量模型:用多層感知機替換點積
-
機器翻譯中注意力
-
在序列到序列翻譯中添加注意力效果:添加注意力提升11BLEU
-
模型變體:早期綁定和晚期綁定及優勢比較
早期綁定(Early Binding)和晚期綁定(Late Binding)是編程語言中兩種不同的方法調用機制。
-
早期綁定(Early Binding)
早期綁定在編譯時或程序啟動時確定方法或變量的具體實現,通常與靜態類型語言(如Java、C#)或編譯型語言相關。
優勢:
性能更高 類型安全 代碼可讀性強 更好的IDE支持
-
晚期綁定(Late Binding)
晚期綁定在運行時動態確定方法或變量的具體實現,通常與動態類型語言(如Python、JavaScript)或反射機制相關。
優勢:靈活性更高 代碼更簡潔 支持動態語言特性 更好的擴展性
- 早期綁定更適合需要高性能、類型安全和代碼可維護性的場景。
- 晚期綁定更適合需要靈活性和動態擴展的場景。
-
-
-
注意力總結與梯度
- 注意力與池化:密切相關
- 巴赫達瑙模型:關注內容,可添加結構偏向等
- 梯度:并行反向傳播
- 與人類翻譯:翻譯者會反復參考輸入
-
帶注意力的圖像標題生成
-
卷積網絡區域:含注釋向量
-
注意力計算:軟、硬注意力(確定性軟注意力和隨機性硬注意力)
-
軟注意力學習:確定性軟注意力是一種連續的、可微分的注意力機制,它通過某種函數(如softmax)對輸入的權重進行平滑處理,生成注意力分布。這個分布是確定性的,不涉及隨機性。
-
硬注意力學習:隨機性硬注意力是一種離散的注意力機制,它通過采樣(如從概率分布中采樣)來選擇特定的輸入特征或區域。由于其采樣過程是隨機的,因此具有不確定性。
(基于詹森不等式等)
-
效果:軟注意力+2BLEU,硬注意力+4BLEU
-
-
整體總結:
- 性能改進:優于向量編碼等
- 其他優勢:模型可解釋性、更好的梯度流動、更好的容量等