14-62 劍和詩人36 - 混合專家 (MoE) 擴展 AI 視野

了解混合專家 (MoE)

混合專家 (MoE) 是一種機器學習技術,它將多個“專家”神經網絡模型組合成一個更大的模型。MoE 的目標是通過組合專業專家(每個專家專注于不同的子領域)來提高 AI 系統的準確性和能力。

14-62 劍和詩人36 - 混合專家 (MoE) 擴展 AI 視野

MoE 模型的一些關鍵特征:

  • 由多個專家神經網絡組成,專注于更大問題空間的專門子域
  • 包括門控網絡,用于確定針對每個輸入使用哪個專家
  • 專家可以根據自己的專業調整不同的神經網絡架構
  • 訓練同時涉及專家和門控網絡
  • 可以比單一模型更好地對復雜多樣的數據集進行建模

例如,專注于計算機視覺任務的 MoE 模型可以有專門識別不同類型物體(如人、建筑物、汽車等)的專家。門控網絡將確定針對輸入圖像的每個區域使用哪個專家。

MoE 提供的一些好處:

  • 通過結合專家來提高準確性
  • 可擴展性,因為可以為新任務/數據添加專家
  • 由于每個專家都專注于一個子領域,因此具有可解釋性
  • 模型優化,因為專家可以有不同的架構

MoE 在提升 AI 系統的大型神經網絡建模能力方面表現出了巨大的潛力。然而,如何有效地訓練和部署 MoE 模型(尤其是在非常大規模的情況下)仍然存在挑戰。

14-62 劍和詩人36 - 混合專家 (MoE) 擴展 AI 視野

混合專家 (MoE) 架構

混合專家模型由幾個協同工作的關鍵組件組成:

專家神經網絡

專家是專注于解決特定類型的問題或處理某些輸入模式的個體專業模型。通常,神經網絡用于利用表征學習。每個專家只能看到一部分數據。

例如,在文本分類中,一位專家可能專注于檢測垃圾郵件,而另一位專家則專注于識別積極情緒。

他們通常同時接受發送給他們的樣本的訓練。現代 MoE 可能包含數百或數千名專家。

門控網絡

門控網絡負責根據可學習的注意力得分將每個輸入查詢動態路由到相關專家網絡。它查看輸入特征和全局上下文,并輸出要激活的專家的軟概率分布。

由于每個樣本只需要執行稀疏的專家子集,因此將專家混合模型確立為條件計算模型。門控網絡決定激活整體模型的哪些部分。

路由器

路由器接收門控分布和查詢輸入,并選擇一個或多個專家網絡進行相應處理。常見的選擇方法包括 top-k、噪聲 top-k 和更復雜的分層混合,以減少計算負載。

在某些版本中,路由器會查詢多個專家并根據標準化分數組合他們的輸出。

需要進步

雖然 MoE 已顯示出顯著的準確性和能力提升,但要真正釋放下一代 AI 所需的極端規模的模型能力,還需要取得一些重要的進步:

更高效的推理

由于每個示例的門控成本,使用非常大的 MoE 模型運行推理(進行預測)可能具有挑戰性且成本高昂。隨著模型規模的增加,如果不進行優化,門控計算會變得非常緩慢且成本高昂。

訓練穩定性和收斂性

隨著專家數量的增加,MoE 模型的訓練過程趨于不穩定,難以收斂到最優解。我們需要在訓練方法上取得新進展,以利用數千甚至數百萬專家。

專用硬件

為了提供速度、規模和成本效益,訓練和運行大型 MoE 模型推理所需的計算硬件可能需要專門化。

模型并行性

為了達到全腦水平智能所需的大規模,將 MoE 訓練和推理分散到多個設備(如多 GPU 或云基礎設施)上的極端模型并行性將至關重要。

我相信基于 MoE 的模型有潛力解鎖變革性的下一代人工智能——將模型從狹義或專業智能推進到通用人工智能 (AGI)。但仍需取得一些重要進展,以改進大規模推理、訓練效率并利用專用硬件。

大規模 MoE 推理

在極大規模下運行基于 MoE 的模型推理面臨著幾個獨特的優化挑戰:

每個示例的門控成本

每個推理查詢都需要先通過門控網絡來確定路由到相關專家。對于巨型模型,這種每個示例的門控成本可能會變得非常緩慢且昂貴。

高內存帶寬使用率

門控計算需要同時集中訪問所有專家的信息以確定路由,從而導致非常頻繁的隨機內存訪問模式。這限制了沒有內存優化的推理吞吐量。

更有效的大規模 MoE 推理的一些進步包括:

門控共享

門控網絡計算在輸入示例批次之間共享。通過批處理,每個示例的成本被攤銷,從而使門控函數更加高效。

專家級并行

專家本身被分布在多個加速器上進行并行計算,從而增加了總推理吞吐量。

分級門控

多級分級門控網絡用于擁有專門的本地路由器,這些路由器將信息全局傳輸給相關專家。這在保持效率的同時提高了準確性。

模型壓縮

蒸餾和修剪等模型壓縮技術的變體被應用于門控網絡和專家,以優化內存使用和訪問模式。

專用硬件

Google TPU-v4 Pod 等定制硬件具有針對 MoE 等模型量身定制的內置軟件和內存優化,可將推理速度提高 10 倍以上。

隨著模型規模從現在起增加 100 倍甚至 1000 倍,圍繞分層門控、自動專家架構搜索和硬件-軟件協同設計等領域的新優化可能會出現,以保持可處理的推理。

MoE 推理引擎的效率對于實現全腦規模智能至關重要,它可以無縫處理跨文本、圖像、語音、代碼、控制策略和任何數據模式的多領域推理。

教育部培訓的進步

盡管 MoE 有望通過整合眾多專家來提高模型能力,但模型訓練過程帶來了一些挑戰,尤其是在極端規模下。最近的一些進展使大規模 MoE 訓練更加穩定和可實現:

一對一專家數據映射

訓練數據的獨特子集可以明確映射到相關專家,從而使他們在語義上進行專門化。這提高了整體收斂性。

異步模型復制

專家集異步復制以創建維護訓練進度的備份。刪除表現不佳的專家不會丟失關鍵訓練信號。

可學習的門控邏輯

使門控邏輯本身的某些部分可微分且可調,有助于在專家不斷進行專業化迭代時動態路由數據。允許自我調整以實現穩定性。

專家架構搜索

根據實時訓練收斂情況自動搜索專家神經架構構建塊。通過學習路由可以完全避免不良架構。

基于噪聲的專家正則化

在訓練期間向專家可用性中隨機注入像 Dropout 這樣的噪聲使得路由對缺失專家具有魯棒性,避免在特定的專家子集上過度擬合。

這些創新共同提高了訓練穩定性。這使得 MoE 模型擁有數千名專家,而之前的研究只有數百名專家。

然而,關于如何用數百萬甚至數十億專家訓練模型的最佳技術,仍有許多懸而未決的問題。必須出現圍繞漸進分層訓練、循環、終身專家重放和沖突處理的新方法,以防止天文規模的有害專家干擾。

下一代人工智能用例

高效大規模推理、穩定分布式訓練和專業硬件優化等領域的進步將有助于在未來幾年內實現具有數千億到數萬億個參數的 MoE 模型。如此巨大的擴展能帶來什么?

多任務、多模式人工智能助手

人類可以在視覺、語言、聲音和其他感官模式之間無縫切換。同樣,擁有 1000 倍以上專家的全腦 MoE 模型可以同時處理文本、圖像、語音、視頻和感官流。這使得多任務 AI 助手能夠共享全模式表示和專業知識。

超個性化推薦

細粒度的專家專業化允許不同的專家對電影、旅游目的地、播客、書籍等不同領域的用戶興趣進行建模。通過為每個用戶動態組合專業專家,他們可以根據狹窄的領域提供個性化推薦。

科學與技術發現

領域專家組可以吸收全部科學論文、患者健康數據、基因數據集或任何技術資料,從而識別新的聯系。這加速了假設的產生和實驗,促進了科學和工程領域的進步。

穩健的控制政策

大量專家可以專注于處理跨環境、任務、干擾和執行器動態的機器人控制的極端情況。通過混合和匹配專業專家來處理新場景,MoE 系統可以一起學習穩健的策略。

所涵蓋的專業知識的廣度、學習新領域的速度以及通過發明動態組合專業技能的方法而實現的任務靈活性是擴大的 MoE 模型的獨特優勢,是任何其他技術都無法比擬的。

挑戰與未來方向

雖然最近的進展表明,基于 MoE 的模型有潛力擴展到數萬億個參數,從而實現多任務、多模式 AI,但仍存在許多懸而未決的挑戰:

信息隔離

確保有用的專業化而不受有害干擾需要專家之間保持信息隔離。過早的沖突會導致混亂的表述。自上而下的信號必須集中專業知識,自下而上的混亂檢測需要通過門控調整來解決。

發明缺失的專家

數十億專家無法手動列舉所有有用的技能。必須發明自動化流程,通過重組基本技能來為稀有任務產生專家。終身自我監督的長尾需求聚類至關重要。

新興系統性

簡單的記憶無法捕捉底層結構。門控和專家聚類數據之間的交互必須產生系統解開的概念表征。應該會出現類似語法的組合概括。

高效的信用分配

隨著數十億專家獨立進步,確定系統進步的因果貢獻對于有針對性的放大來說變得極為復雜。無關信號會稀釋需要稀疏性的有用方向。

安全探索

對新可能性的無限想象需要在實現之前判斷其是否符合倫理道德。驅動全能專家的好奇心必須以同情心為首要因素。

未來的方向包括圍繞一致性、最佳傳輸、共識動態和信息瓶頸開發數學框架,這些框架專門針對 MoE 系統獨有的動態和規模而設計。

14-62 劍和詩人36 - 混合專家 (MoE) 擴展 AI 視野

結論

推進混合專家技術以實現解決多領域挑戰的下一代人工智能需要重新思考學習、泛化、因果關系和安全的基本原則,同時在特定規模的訓練、推理和硬件架構上進行創新。未來十年的 MoE 有望成為人工智能革命的激動人心的前沿!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/44682.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/44682.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/44682.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

探索Kotlin:從K1到K2

人不走空 🌈個人主頁:人不走空 💖系列專欄:算法專題 ?詩詞歌賦:斯是陋室,惟吾德馨 嘿,小伙伴們!今天我們來聊聊Kotlin,這個在安卓開發圈里越來越火的編程語言。…

蘋果手機抹機(馬來西亞)操作步驟

蘋果手機抹機(馬來西亞)操作步驟 操作環境操作步驟 操作環境 蘋果6s,沒有插卡,就連接上了一個wifi 操作步驟

XML Schema 雜項數據類型

XML Schema 雜項數據類型 XML Schema 提供了多種數據類型,用于定義 XML 文檔中元素和屬性的結構和內容。除了常見的簡單類型(如字符串、整數、日期等)和復雜類型(如元素和屬性的組合)之外,XML Schema 還包括一些雜項數據類型,用于處理特定的數據格式和驗證需求。本文將…

錯位情緣懸疑升級

?🔥【錯位情緣,懸疑升級!關芝芝與黃牡丹的驚世婚約】🔥?在這個迷霧重重的劇場,一場前所未有的錯位大戲正悄然上演!👀 你沒看錯,昔日兄弟的前女友關芝芝,竟搖身一變成了…

Unity-Invoke帶參數的代碼一個

Unity的分幀加載,其實沒多難,只要理解了原理 而Unity的延遲有兩種寫法, 一是, StartCoroutinue 二是, Invoke() 我記得之前,有一種Action Delay的寫法(找到在補上) 三現在更多的應該是, async task 等 其實原理都是一樣的(雖然底層邏輯不一樣,完全不一樣,但…

API 類別 - 選擇器

API 類別 - 選擇器 選擇器 API 是一種常用的接口,它允許開發人員通過特定的標準從一組數據中選擇特定的項目。這類 API 廣泛應用于各種編程場景,特別是在需要從大量數據中快速準確地提取信息時。本文將探討選擇器 API 的概念、應用場景、工作原理以及如何在實際項目中有效使…

FastAPI 學習之路(三十七)元數據和文檔 URL

實現前的效果 那么如何實現呢,第一種方式如下: from routers.items import item_router from routers.users import user_router""" 自定義FastApi應用中的元數據配置Title:在 OpenAPI 和自動 API 文檔用戶界面中作為 API 的…

【SGX系列教程】(五)enclave多線程測試,以及EPC內存測試

文章目錄 一. 概述二. 原理分析2.1 多線程在Enclave中的實現流程2.2 多線程和EPC內存分配之間的沖突2.3 解決多線程和EPC內存分配沖突的策略 三. 源碼分析3.1 代碼結構3.2 源碼3.2.1 App文件夾3.2.2 Enclave文件夾3.2.3 Makefile 3.3 總結 四.感謝支持 一. 概述 在Intel SGX環境…

Go語言特點

Go語言主要具有以下特點和優勢: 1. **高效的性能**:Go語言的性能與Java或C相似,通常比Python快30倍。 2. **并發性**:Go語言致力于簡化編程,其創新之處在于goroutines和通道,提供了輕量級的線程和gorouti…

從零開始學習嵌入式----C語言框架梳理與后期規劃

目錄 一、環境搭建. 二、見解 三、C語言框架梳理 四、嵌入式學習規劃流程圖(學習順序可能有變) 一、環境搭建. C語言是一門編程語言,在學習的時候要準備好環境。我個人比較喜歡用VS,具體怎么安裝請百度。學習C語言的時候,切忌…

【Spring】Spring Security 5及以上版本中`SecurityFilterChain`示例

1. 配置SecurityFilterChain 在Spring Boot應用程序中,通常通過配置類來定義SecurityFilterChain。Spring Boot 2.x及更高版本與Spring Security 5.x緊密集成,提供了簡化的配置方式。以下是一個基于Java配置的例子: import org.springframe…

HOW - 黑暗模式 Dark Mode

目錄 一、引入黑暗模式二、樣式生效方案代碼示例方法一:新建專用的黑暗模式樣式文件方法二:使用CSS變量或預處理器CSS變量示例:Sass示例: 方法三:添加特定的類名或屬性方法四:使用偽類和選擇器方法五&#…

應對高并發請求:服務器性能壓力的解決方案

應對高并發請求:服務器性能壓力的解決方案 在現代互聯網環境中,高并發請求是常見的挑戰。當大量請求同時涌向服務器,可能導致性能瓶頸,甚至服務器崩潰。為了解決這些問題,我們通常使用負載均衡和限流技術。本文將深入探討這些技術,并通過示例代碼展示如何實現。 1. 負載…

樹莓派pico入坑筆記,ssd1306使用

目錄 說明 后附進階玩法:顯示中文,外加簡單庫實現 官方模塊使用 使用樣例 方法說明 下面是繪圖支持的方法 進階玩法,顯示中文 方法,對漢字取字模,然后按像素對字模進行顯示 說明 circuitpython8.x使用iic接口驅…

get和 post的區別

get 是從服務器上獲取數據,post 是向服務器傳送數據。POST 比 GET 安全,因為數據在地址欄上不可見。 3.了解get 方式提交的數據最多只能有 1024 字節,而 post 則沒有此限制。 4.GET 使用 URL 或 Cookie 傳參。而 POST 將數據放在 request BOD…

類和對象——【運算符重載】

P. S.:以下代碼均在VS2019環境下測試,不代表所有編譯器均可通過。 P. S.:測試代碼均未展示頭文件iostream的聲明,使用時請自行添加。 博主主頁:Yan. yan. ??????????????????? ?? …

【vueUse庫Reactivity模塊各函數簡介及使用方法--中篇】

vueUse庫是一個專門為Vue打造的工具庫,提供了豐富的功能,包括監聽頁面元素的各種行為以及調用瀏覽器提供的各種能力等。其中的Browser模塊包含了一些實用的函數,以下是這些函數的簡介和使用方法: vueUse庫Sensors模塊各函數簡介及使用方法 vueUseReactivity函數1. reactiv…

宏任務與微任務對比【前端異步】

目錄 簡介微任務與宏任務的基本概念宏任務(Macrotasks)微任務(Microtasks)宏任務示例微任務示例微任務與宏任務的執行時序 結論 簡介 在JavaScript的異步編程中,理解事件循環(Event Loop)是至關…

Autogen和Crewai的對比

AutoGen和CrewAI是兩種用于開發人工智能Agent應用的框架,各有其獨特的特性和優勢。以下是對這兩者的詳細對比: 共同點 編程語言:兩者都使用Python編程語言。應用領域:都用于創建人工智能Agent應用程序。多代理對話:都…

Qt+MySQL實現社團管理系統

開發環境 ● Qt 5.14.1 ● Win10 ● Mysql 5.7.28 系統介紹 系統主要實現的功能如下圖所示 社團管理系統主要包含了以下幾個亮點功能 輪播圖顯示社團信息支持excel形式的導入導出學生信息權限控制(管理員、超級管理員、用戶) 系統效果展示 登錄界面…