下載PDF或閱讀論文,請點擊:LlamaFactory - huggingface daily paper - 每日論文解讀 | LlamaFactory | LlamaFactory
摘要
我們推出了TESS 2,這是一種通用的指令跟隨擴散語言模型,其性能優于當代的指令調整擴散模型,有時甚至與強大的自回歸(AR)模型相當。我們通過首先使用常規的交叉熵作為擴散損失,通過持續預訓練來調整一個強大的AR模型,然后進行進一步的指令調整來訓練TESS 2。我們發現,調整訓練以及基礎模型的選擇對于訓練良好的指令跟隨擴散模型至關重要。我們進一步提出了獎勵引導,這是一種新穎且模塊化的推理時間引導過程,可以在不需要訓練底層模型的情況下對齊模型輸出。最后,我們展示了隨著推理時間計算量的增加,TESS 2的性能進一步提升,突顯了擴散語言模型在推理時間對計算量進行精細控制的重要性。代碼和模型可在https://github.com/hamishivi/tess-2獲取。
一句話總結
TESS 2 是一種大型通用擴散語言模型,通過結合預訓練和指令調整,在多個下游任務中優于現有的擴散語言模型和自回歸模型。
問題1:這篇論文想要解決什么具體問題?
-
問題背景:現有的自回歸語言模型在規劃和自我修正方面存在局限性,而擴散語言模型作為一種替代方案,雖然具有潛力,但規模較小,主要關注內在指標的提升。
-
現有方案不足:現有的擴散語言模型規模較小,且主要集中在提高內在指標如困惑度,而不是用于評估自回歸語言模型的常見下游任務。
-
研究目標:提出 TESS 2,一個大規模的擴散語言模型,通過結合預訓練和指令調整,在多個下游任務中達到或超過自回歸模型的表現。
問題2:論文的核心創新點是什么?
-
技術創新:提出了一種將自回歸語言模型適應為擴散語言模型的食譜,包括 UL2 掩碼、標簽移動和全雙向注意力。
-
方法改進:通過指令調整進一步優化擴散模型,并引入了基于獎勵的指導,這是一種在推理時引導模型生成與用戶偏好一致文本的新技術。
-
優勢:與現有方法相比,TESS 2 在多個下游任務中表現出色,特別是在問答和一般指令遵循方面。
問題3:實驗結果如何驗證了方法的有效性?
-
關鍵實驗:在多個下游任務上進行了評估,包括 AlpacaEval、SQuAD、TriviaQA 和 IFEval。
-
性能提升:TESS 2 在這些任務上的表現優于或接近于自回歸模型。
-
對比結果:與現有的擴散語言模型相比,TESS 2 在多個任務上取得了更好的結果。
問題4:這個研究的實際應用價值是什么?
-
應用場景:TESS 2 可用于各種需要高級語言理解和生成的場景,如聊天機器人、問答系統和文本生成。
-
實施建議:使用 Mistral 作為基模型,并應用提出的適應和指令調整食譜。
-
局限與展望:盡管 TESS 2 在多個任務上表現出色,但它在推理速度和某些推理任務上的表現仍落后于自回歸模型。未來的工作可以集中在提高推理速度和改進推理質量上。