一、背景知識
在人工智能領域,文本生成模型一直是研究的熱點。傳統的大型語言模型多采用自回歸架構,從左到右逐個預測下一個標記。這種模型雖然在生成連貫文本方面表現出色,但在速度上存在一定的局限性,因為它需要按順序生成每個標記。
二、新模型的出現
Inception Labs 推出的 Mercury Coder 是一種基于擴散模型的文本生成模型,與傳統自回歸模型不同,它同時處理所有文本標記,通過逐步去除噪聲來優化輸出結果。這種創新的架構使得 Mercury Coder 在速度和性能上都有顯著提升。
三、工作原理
Mercury Coder 的工作原理借鑒了圖像擴散模型。在訓練階段,模型學習估計兩個標記之間的轉換比例,即標記 y 正確的概率與當前標記 x 正確的概率之比。通過在多個步驟中隨機逐步掩蓋越來越多的標記來添加噪聲。在推理階段,模型從被掩蓋的標記開始,通過多個步驟將其還原,每一步根據估計的轉換比例來改變每個標記。
四、實驗結果與優勢
實驗結果表明,Mercury Coder 在速度上具有明顯優勢。其小型和微型版本比同類小型編碼模型快 3.5 到 18 倍。在 Nvidia H100 圖形處理單元上,Mercury Coder 小型版本每秒生成 737 個標記,微型版本每秒生成 1109 個標記,遠超其他模型。在性能方面,Mercury Coder 在多個基準測試中表現出色,與多個競爭對手相比具有競爭力。
五、行業意義與未來展望
文本擴散模型的出現為文本生成領域帶來了新的可能性。它們不僅在速度上超越了自回歸模型,還有望進一步加速文本生成,為長文本的快速生成、智能體和推理過程的加速提供新的解決方案。隨著技術的不斷進步,文本擴散模型可能會從圖像生成的改進中受益,推動整個自然語言處理領域的發展。