多語言大模型 Aya-23 開源!覆蓋23種語言,性能刷新SOTA

文章目錄

    • 1. Aya-23 技術特點
      • 1.1 預訓練階段
      • 1.2 指令微調階段
    • 2. Aya-23 性能表現
    • 3. Aya-23 多語言任務評估
    • 4. Aya-23 支持 23 種語言
    • 5. Aya-23 應用場景

在這里插入圖片描述

近年來,多語言大模型(MLLM)發展迅速,但大多數模型的性能依然存在顯著差距,尤其是在非英語語言方面表現不佳。

為了解決上述問題,最近,加拿大AI獨角獸公司 Cohere 開源了兩種參數規模的多語言指令微調模型Aya-23,包括 8B 和 35B 的版本,其性能超越了 Gemma、Mistral 等同類模型,并首次支持了中文。

在這里插入圖片描述

論文鏈接:https://arxiv.org/pdf/2405.15032
Aya-23-8B: https://huggingface.co/CohereForAI/aya-23-8B
Aya-23-35B: https://huggingface.co/CohereForAI/aya-23-35B

此次開源的 Aya-23 模型,其設計目標是在語言廣度和深度上實現平衡,從本質上來講,所有Aya系列的模型都基于 Cohere 的 Command 系列模型和 Aya Collection,但本次的重點是將更多容量分配給主要的23種語言,以改善目標語言的生成效果。

在這里插入圖片描述

1. Aya-23 技術特點

1.1 預訓練階段

Aya-23 模型家族是一系列基于Cohere Command系列的預訓練模型,模型在訓練時使用了23種不同語言的文本數據,并采用了一系列先進的技術,例如:

  1. 并行注意力和 FFN 層: 類似于 PALM-2 模型,Aya-23 采用了并行塊架構,在保持模型質量的同時,顯著提高了訓練效率,尤其是在張量并行設置下。
  2. SwiGLU 激活函數: 與其他激活函數相比,SwiGLU 能夠在保證參數量級基本一致的情況下,提升模型的下游任務性能。
  3. 無偏置: 類似于 PALM2 模型,Aya-23 模型的密集層中去除了所有偏置項,提升了訓練的穩定性。
  4. 旋轉位置編碼: 使用旋轉位置編碼 (RoPE) 技術,能夠更好地進行長文本外推,同時在短文本長度的情況下,也比其他相對位置編碼方法,例如 ALiBi,取得更好的下游任務性能。
  5. 分組查詢注意力 (GQA): Aya-23-8B 模型使用了分組查詢注意力,每個 KV 頭共享多個 Q 頭,從而降低了推理時間的內存占用。
  6. 分詞器:模型使用了一個大小為256k的字節對編碼(Byte Pair Encoding, BPE)分詞器。在分詞過程中,執行了NFC(Normalization Form C)規范化,即文本在分詞前會被標準化,以確保一致性。數字被拆分成單獨的token,以便于模型更好地理解和處理數字信息。分詞器是在預訓練數據集的一個平衡子集上訓練的,以確保不同語言的文本都能得到高效的表征。

1.2 指令微調階段

由于多語言指令數據相對稀缺,研究人員采用了多種策略來增強數據的可用性:

  1. 多語言模板:利用結構化文本,將特定的自然語言處理(NLP)數據集轉換成指令和回復對。用到數據集包括xP3x數據集和 Aya 數據集的樣本,最終形成了一個包含5570萬個樣本的大型數據集合,覆蓋了23種語言和161個不同的數據集。
  2. 人工標注:Aya 數據集包含了由65種語言的母語者編寫的204000對人工策劃的提示-響應對。我們從中篩選出我們訓練模型所使用的23種語言的數據,得到了55000個樣本。
  3. 翻譯數據:使用了從廣泛使用的英語指令數據集進行翻譯的樣本,從不同數據集、不同語言中隨機抽取以保持多樣性,最終數據包含了110萬個樣本。
  4. 合成數據:使用了ShareGPT5和Dolly-15k的人工標注提示,不同的是,Aya 使用了Cohere的Command R+為所有23種語言生成翻譯后的ShareGPT和Dolly提示的多語言響應,最終得到了163萬個樣本。

2. Aya-23 性能表現

Aya-23 模型家族在各種語言、推理、編碼和數學基準測試中均取得了優異的成績,顯著優于Aya 101,超越了同等大小甚至更大的模型,展現出了強大的多語言能力。

在這里插入圖片描述

3. Aya-23 多語言任務評估

研究團隊對 Aya-23 模型進行了全面評估,涵蓋了 23 種語言,包括:

  1. 判別式任務:在 XWinograd、XCOPA 和 XStoryCloze 等完全未見過的任務中,Aya-23-35B 模型取得了最佳表現,其平均準確率為 70.8%,超越了其他模型。

在這里插入圖片描述

  1. 通用語言理解:在多語言 MMLU 測試中,Aya-23-8B 模型在 14 種語言中取得了最佳表現,其平均準確率為 48.2%,在大部分語言上超過了其他模型。

在這里插入圖片描述

  1. 多語言數學推理:在 MGSM 測試中,Aya-23-8B 模型也取得了領先優勢,其平均準確率為 36.6%,是同類模型中表現最優秀的,并且比 Aya-101-13B 提升了 4.5 倍。

在這里插入圖片描述

  1. 生成任務:在機器翻譯和多語言摘要任務中,Aya-23 模型也取得了顯著的性能提升。

在這里插入圖片描述

4. Aya-23 支持 23 種語言

Aya-23 支持 23 種語言:阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印度尼西亞語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。

5. Aya-23 應用場景

Aya-23 模型家族擁有廣泛的應用場景,例如:

  • 機器翻譯: 可以用于將一種語言的文本翻譯成其他語言。
  • 文本摘要: 可以用于將長篇文本壓縮成簡短的摘要。
  • 問答系統: 可以用于回答用戶的各種問題。
  • 內容創作: 可以用于生成各種類型的文本內容,例如新聞報道、故事、詩歌等。

總的來說,Cohere 開源的 Aya-23 系列模型在多語言AI領域取得了重要突破。Aya-23 有著卓越的性能和廣泛的語言支持能力,為多語言模型的發展開辟了新的方向。

歡迎各位關注我的個人微信公眾號:HsuDan,我將分享更多自己的學習心得、避坑總結、面試經驗、AI最新技術資訊。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/22208.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/22208.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/22208.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

“滴滴打車,用友入賬”,YonSuite商旅費控助力企業“降低成本”更進一步

在當今競爭激烈的商業環境中,企業對于成本控制和效率提升的需求日益迫切。特別是在商旅管理方面,如何有效整合資源、優化流程、降低費用,成為了成長型企業關注的焦點。用友YonSuite商旅費控作為用友集團旗下的重要產品,憑借其卓越…

ctfshow pwn17-18

毛坯的人生和精裝的朋友圈 pwn17 while ( 1 ){menu();v4 0;puts("\nEnter the command you want choose:(1.2.3.4 or 5)\n");__isoc99_scanf("%d", &v4);switch ( v4 ){case 1:system("id");break;case 2:puts("Which directory?(/,…

克隆別人的項目并上傳到自己的倉庫

克隆別人的項目并上傳到自己的倉庫通常涉及以下步驟: 克隆項目:首先,你需要將別人的項目克隆到你的本地計算機。可以使用以下Git命令: git clone [項目的URL]將 [項目的URL] 替換為你想克隆的項目的URL。 創建新的倉庫&#xff1…

卡爾曼濾波算法的matlab實現

卡爾曼濾波算法的matlab實現 figure; hold on;Z(1:1:100); %觀測值:第一秒觀測1m 第二秒觀測兩米 勻速運動, 每秒1m, 最后擬合的也是速度 1m/splot(Z); plot([0,100], [1,1]);noiserandn(1,100)*0.5; %生成方差為1的高斯噪聲 ZZnoise; % 加入噪聲plot(Z);X[0;…

LabVIEW動態力傳感器校準系統

LabVIEW動態力傳感器校準系統 開發了一種基于LabVIEW的動態力傳感器校準系統。系統主要用于動態力的測量和校準,通過高度集成化和自動化的設計,顯著提升校準的效率和精確度。系統采用沖擊法進行動態校準,涵蓋了完整的硬件設計和軟件開發流程…

Kotlin 注解

文章目錄 定義注解類的注解標注目標聲明 定義 注解使用annotation關鍵字定義,且只能用于普通類,該類被稱為注釋類。可以使用注釋類為某個變量、函數、類、接口等注釋。與我們寫的代碼注釋類似,注釋類可以指明被標注類的狀態、作用等等&#…

智能體應用開發:構建各類垂直領域的ai智能體應用

最近在做個類似的項目,有用到這方面的知識,順便做一些記錄和筆記吧,希望能幫到大家了解智能體應用開發 目錄 引言 AI原生應用的興起 智能體在AI中的角色 實現原理詳解 機器學習基礎 數據管理與關聯數據庫 數據結構 Embedding 檢索方…

Pytorch實用教程:torch.cat()函數的用法詳解

torch.cat 是 PyTorch 中用于沿指定維度連接張量的函數。以下是該函數的詳細用法: 語法 torch.cat(tensors, dim=0, *, out=None)參數說明 tensors (sequence of Tensors): 要連接的張量序列。這些張量必須具有相同的形狀(除了連接的維度)。dim (int, optional): 沿著哪個…

衛星位置解算

前言: 本章節代碼均在Gitee中開源: 衛星位置計算代碼https://gitee.com/Ehundred/navigation-engineering/tree/master/%E5%8D%AB%E6%98%9F%E5%AF%BC%E8%88%AA%E5%8E%9F%E7%90%86/GPS%E5%8D%AB%E6%98%9F%E4%BD%8D%E7%BD%AE%E8%A7%A3%E7%AE%97/Satellit…

SAP物料自動記賬科目設置總結

SAP物料自動記賬科目設置總結 目錄 物料自動記賬科目設置總結... 1 總體說明... 1 庫存移動事務類型的設置... 4 庫存科目設置... 6 期初導入... 6 業務舉例... 6 配置... 6 庫存初始單據... 7 采購收貨(缺少到票) 8 業務舉例... 8 配置... 8 采購收貨單據-MIGO_GR…

心懷希望の光柵化

還記得什么是光柵化咩? 將三維空間的幾何形體顯現在屏幕上,這就是光柵化(游戲、實時圖形學的應用) Perspective Projection 在正交投影里如何定義三維空間中的立方體呢? 用x軸的覆蓋(左、右)…

【UML用戶指南】-02-UML基本元素的介紹(二)

目錄 1、語法和語義規則 2、UML中的公共機制 (1)規約 (2)修飾 (3)通用劃分 (4)擴展機制 衍型/版型/類型(stereotype) 標記值 (tagged val…

Java編程常見問題匯總四

系列文章目錄 文章目錄 系列文章目錄前言一、忽略所有異常二、重復包裝RuntimeException三、不正確的傳播異常四、用日志記錄異常五、異常處理不徹底 前言 前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。…

[C/C++]_[初級]_[在Windows和macOS平臺上導出動態庫的一些思考]

場景 最近看了《COM本質論》里關于如何設計基于抽象基類作為二進制接口,把編譯器和鏈接器的實現隱藏在這個二進制接口中,從而使用該DLL時不需要重新編譯。在編譯出C接口時,發現接口名直接是函數名,比如BindNativePort,怎么不是_BindNativePort?說明 VC++導出的函數默認是使…

專轉本英語應該怎么學?

來吧,寶子們,學姐給你們分享專轉本英語如何備考的方法了,單詞+語法,兩不耽誤,快拿著你們的小手來截圖記筆記啦~ 1、基礎差直接背單詞 對于基礎差的人呢,本身我們對英語這個科目就不感…

Google Earth Engine精度評價方法

今天講講如何在GEE中做最后的精度評價。主要是因為在和許多讀者或通過交流群,或通過私聊溝通過程中,發現很多人還不是很理解在GEE中分類后精度評價的問題。 在進行評價之前,需要明晰在GEE中精度評價分為哪幾種情況。我們這里說的是兩種情況。…

收藏品NFT的開發流程

開發收藏品NFT的流程涉及多個階段,從概念化和設計到技術實現和市場推廣。以下是詳細的開發步驟,通過這些步驟,可以成功開發和發布收藏品NFT項目,吸引用戶和投資者,并確保項目的持續運營和成功。北京木奇移動技術有限公…

Fiddler入門(接口抓包及APP測試)

目錄 一、Fiddler基礎介紹 二、Fiddler的作用 三、Fiddler安裝 四、Fiddler界面功能介紹 1、界面介紹 1)、菜單欄介紹 2)、工具欄介紹 3)、會話欄介紹 五、Fiddler抓取https數據 (面試題) 六、Fiddler…

C++ lambda表達式的作用和代碼示例

Lambda 表達式是 C11 引入的一種匿名函數語法,它可以方便地創建臨時函數對象,用于在函數調用時作為參數傳遞或者作為局部函數使用。Lambda 表達式可以捕獲外部變量,并具有與普通函數相似的語法結構。 主要作用如下: 簡化代碼&am…

【刷題(17)】技巧

一 技巧基礎 二 136. 只出現一次的數字 1 題目 2 解題思路 哈希表map 其實看到題目數組中某個元素出現的次數也可以直接用unordered_map容器統計每一個元素出現的次數,然后在遍歷整個map容器查看是否有元素出現的次數等于1 3 code class Solution { public:in…