文章目錄
- 1. Aya-23 技術特點
- 1.1 預訓練階段
- 1.2 指令微調階段
- 2. Aya-23 性能表現
- 3. Aya-23 多語言任務評估
- 4. Aya-23 支持 23 種語言
- 5. Aya-23 應用場景

近年來,多語言大模型(MLLM)發展迅速,但大多數模型的性能依然存在顯著差距,尤其是在非英語語言方面表現不佳。
為了解決上述問題,最近,加拿大AI獨角獸公司 Cohere 開源了兩種參數規模的多語言指令微調模型Aya-23,包括 8B 和 35B 的版本,其性能超越了 Gemma、Mistral 等同類模型,并首次支持了中文。
論文鏈接:https://arxiv.org/pdf/2405.15032
Aya-23-8B: https://huggingface.co/CohereForAI/aya-23-8B
Aya-23-35B: https://huggingface.co/CohereForAI/aya-23-35B
此次開源的 Aya-23 模型,其設計目標是在語言廣度和深度上實現平衡,從本質上來講,所有Aya系列的模型都基于 Cohere 的 Command 系列模型和 Aya Collection,但本次的重點是將更多容量分配給主要的23種語言,以改善目標語言的生成效果。
1. Aya-23 技術特點
1.1 預訓練階段
Aya-23 模型家族是一系列基于Cohere Command系列的預訓練模型,模型在訓練時使用了23種不同語言的文本數據,并采用了一系列先進的技術,例如:
- 并行注意力和 FFN 層: 類似于 PALM-2 模型,Aya-23 采用了并行塊架構,在保持模型質量的同時,顯著提高了訓練效率,尤其是在張量并行設置下。
- SwiGLU 激活函數: 與其他激活函數相比,SwiGLU 能夠在保證參數量級基本一致的情況下,提升模型的下游任務性能。
- 無偏置: 類似于 PALM2 模型,Aya-23 模型的密集層中去除了所有偏置項,提升了訓練的穩定性。
- 旋轉位置編碼: 使用旋轉位置編碼 (RoPE) 技術,能夠更好地進行長文本外推,同時在短文本長度的情況下,也比其他相對位置編碼方法,例如 ALiBi,取得更好的下游任務性能。
- 分組查詢注意力 (GQA): Aya-23-8B 模型使用了分組查詢注意力,每個 KV 頭共享多個 Q 頭,從而降低了推理時間的內存占用。
- 分詞器:模型使用了一個大小為256k的字節對編碼(Byte Pair Encoding, BPE)分詞器。在分詞過程中,執行了NFC(Normalization Form C)規范化,即文本在分詞前會被標準化,以確保一致性。數字被拆分成單獨的token,以便于模型更好地理解和處理數字信息。分詞器是在預訓練數據集的一個平衡子集上訓練的,以確保不同語言的文本都能得到高效的表征。
1.2 指令微調階段
由于多語言指令數據相對稀缺,研究人員采用了多種策略來增強數據的可用性:
- 多語言模板:利用結構化文本,將特定的自然語言處理(NLP)數據集轉換成指令和回復對。用到數據集包括xP3x數據集和 Aya 數據集的樣本,最終形成了一個包含5570萬個樣本的大型數據集合,覆蓋了23種語言和161個不同的數據集。
- 人工標注:Aya 數據集包含了由65種語言的母語者編寫的204000對人工策劃的提示-響應對。我們從中篩選出我們訓練模型所使用的23種語言的數據,得到了55000個樣本。
- 翻譯數據:使用了從廣泛使用的英語指令數據集進行翻譯的樣本,從不同數據集、不同語言中隨機抽取以保持多樣性,最終數據包含了110萬個樣本。
- 合成數據:使用了ShareGPT5和Dolly-15k的人工標注提示,不同的是,Aya 使用了Cohere的Command R+為所有23種語言生成翻譯后的ShareGPT和Dolly提示的多語言響應,最終得到了163萬個樣本。
2. Aya-23 性能表現
Aya-23 模型家族在各種語言、推理、編碼和數學基準測試中均取得了優異的成績,顯著優于Aya 101,超越了同等大小甚至更大的模型,展現出了強大的多語言能力。
3. Aya-23 多語言任務評估
研究團隊對 Aya-23 模型進行了全面評估,涵蓋了 23 種語言,包括:
- 判別式任務:在 XWinograd、XCOPA 和 XStoryCloze 等完全未見過的任務中,Aya-23-35B 模型取得了最佳表現,其平均準確率為 70.8%,超越了其他模型。
- 通用語言理解:在多語言 MMLU 測試中,Aya-23-8B 模型在 14 種語言中取得了最佳表現,其平均準確率為 48.2%,在大部分語言上超過了其他模型。
- 多語言數學推理:在 MGSM 測試中,Aya-23-8B 模型也取得了領先優勢,其平均準確率為 36.6%,是同類模型中表現最優秀的,并且比 Aya-101-13B 提升了 4.5 倍。
- 生成任務:在機器翻譯和多語言摘要任務中,Aya-23 模型也取得了顯著的性能提升。
4. Aya-23 支持 23 種語言
Aya-23 支持 23 種語言:阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印度尼西亞語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
5. Aya-23 應用場景
Aya-23 模型家族擁有廣泛的應用場景,例如:
- 機器翻譯: 可以用于將一種語言的文本翻譯成其他語言。
- 文本摘要: 可以用于將長篇文本壓縮成簡短的摘要。
- 問答系統: 可以用于回答用戶的各種問題。
- 內容創作: 可以用于生成各種類型的文本內容,例如新聞報道、故事、詩歌等。
總的來說,Cohere 開源的 Aya-23 系列模型在多語言AI領域取得了重要突破。Aya-23 有著卓越的性能和廣泛的語言支持能力,為多語言模型的發展開辟了新的方向。
歡迎各位關注我的個人微信公眾號:HsuDan,我將分享更多自己的學習心得、避坑總結、面試經驗、AI最新技術資訊。
