晉升業內新寵兒,MoE模型給了AI行業兩條關鍵出路

文 | 智能相對論

作者 | 陳泊丞

今年以來,MoE模型成了AI行業的新寵兒。

一方面,越來越多的廠商在自家的閉源模型上采用了MoE架構。在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構。

而在國內,昆侖萬維推出的天工3.0、浪潮信息發布的源2.0-M32、通義千問團隊發布的Qwen1.5-MoE-A2.7B、MiniMax全量發布的abab6、幻方量化旗下的DeepSeek發布的DeepSeek-MoE 16B等等也都屬于MoE模型。

另一方面,在MoE模型被廣泛應用的同時,也有部分廠商爭先開源了自家的MoE模型。前不久,昆侖萬維宣布開源2千億參數的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都紛紛開源。

為什么MoE模型如此火爆,備受各大廠商的青睞?在開源的背后,MoE模型又是以什么樣的優勢使各大主流廠商成為其擁躉,試圖作為改變AI行業的利器?

MoE模型火爆的背后:全新的AI解題思路

客觀來說,MoE模型的具體工作原理更接近中國的一句古語“術業有專攻”,通過把任務分門別類,然后分給多個特定的“專家”進行解決。

它的工作流程大致如此,首先數據會被分割為多個區塊(token),然后通過門控網絡技術(Gating Network)再把每組數據分配到特定的專家模型(Experts)進行處理,也就是讓專業的人處理專業的事,最終匯總所有專家的處理結果,根據關聯性加權輸出答案。

當然,這只是一個大致的思路,關于門控網絡的位置、模型、專家數量、以及MoE與Transformer架構的具體結合方案,各家方案都不盡相同,也逐漸成為各家競爭的方向——誰的算法更優,便能在這個流程上拉開MoE模型之間的差距。

像浪潮信息就提出了基于注意力機制的門控網絡(Attention Router),這種算法結構的亮點在于可以通過局部過濾增強的注意力機制(LFA, Localized Filtering-based Attention),率先學習相鄰詞之間的關聯性,然后再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特征,對于自然語言的關聯語義理解更準確,從而更好地匹配專家模型,保證了專家之間協同處理數據的水平,促使模型精度得以提升。

基于注意力機制的門控網絡(Attention Router)

拋開目前各家廠商在算法結構上的創新與優化不談,MoE模型這種工作思路本身所帶來的性能提升就非常顯著——通過細粒度的數據分割和專家匹配,從而實現了更高的專家專業化和知識覆蓋。

這使得MoE模型在處理處理復雜任務時能夠更準確地捕捉和利用相關知識,提高了模型的性能和適用范圍。因此,「智能相對論」嘗試了去體驗天工3.0加持的AI搜索,就發現對于用戶較為籠統的問題,AI居然可以快速的完成拆解,并給出多個項目參數的詳細對比,屬實是強大。

天工AI搜索提問“對比一下小米su7和特斯拉model3”所得出的結果

由此我們可以看到,AI在對比兩款車型的過程中,巧妙地將這一問題拆解成了續航里程、動力性能、外觀設計、內飾設計、智能化與自動駕駛、市場表現與用戶口碑、價格等多個項目,分別處理得出較為完整且專業的答案。

這便是“術業有專攻”的優勢——MoE模型之所以受到越來越多廠商的關注,首要的關鍵就在于其所帶來的全新解決問題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業復雜問題的涌現,這一優勢將使得MoE模型得到更廣泛的應用。

各大廠商爭先開源MoE模型:解決AI算力荒的另一條路徑

開源的意義在于讓MoE模型更好的普及。那么,對于市場而言,為什么要選擇MoE模型?

拋開性能來說,MoE模型更突出的一點優勢則在于算力效率的提升。

DeepSeek-MoE 16B在保持與7B參數規模模型相當的性能的同時,只需要大約40%的計算量。而37億參數的源2.0-M32在取得與700億參數LLaMA3相當性能水平的同時,所消耗的算力也僅為LLaMA3的1/19。

也就意味著,同樣的智能水平,MoE模型可以用更少的計算量和內存需求來實現。這得益于MoE模型在應用中并非要完全激活所有專家網絡,而只需要激活部分專家網絡就可以解決相關問題,很好避免了過去“殺雞用牛刀”的尷尬局面。

舉個例子,盡管DeepSeek-MoE 16B的總參數量為16.4B,但每次推理只激活約2.8B的參數。與此同時,它的部署成本較低,可以在單卡40G GPU上進行部署,這使得它在實際應用中更加輕量化、靈活且經濟。

在當前算力資源越來越緊張的“算力荒”局面下,MoE模型的出現和應用可以說為行業提供了一個較為現實且理想的解決方案。

更值得一提的是,MoE模型還可以輕松擴展到成百上千個專家,使得模型容量極大增加,同時也允許在大型分布式系統上進行并行計算。由于各個專家只負責一部分數據處理,因此在保持模型性能的同時,又能顯著降低了單個節點的內存和計算需求。

如此一來,AI能力的普惠便有了非常可行的路徑。這樣的特性再加上廠商開源,將促使更多中小企業不需要重復投入大模型研發以及花費過多算力資源的情況下便能接入AI大模型,獲取相關的AI能力,促進技術普及和行業創新。

當然,在這個過程中,MoE模型廠商們在為市場提供開源技術的同時,也有機會吸引更多企業轉化成為付費用戶,進而走通商業化路徑。畢竟,MoE模型的優勢擺在眼前,接下來或許將有更多的企業斗都會嘗試新的架構來拓展AI能力,越早開源越能吸引更多市場主體接觸并參與其中。

但是,開源最關鍵的優勢還是在于MoE模型對當前算力問題的解決。或許,隨著MoE模型被越來越多的企業所接受并應用,行業在獲得相應AI能力的同時也不必困頓于算力資源緊張的問題了。

寫在最后

MoE大模型作為當前人工智能領域的技術熱點,其獨特的架構和卓越的性能為人工智能的發展帶來了新的機遇。不管是應用還是開源,隨著技術的不斷進步和應用場景的不斷拓展,MoE大模型有望在更多領域發揮巨大的潛力。

MoE模型的本質在于為AI行業的發展提供了兩條思路,一是解決應用上的性能問題,讓AI有了更強大的解題思路。二是解決算力上的欠缺問題,讓AI有了更全面的發展空間。由此來看MoE模型能成為行業各大廠商的寵兒,也是水到渠成的事情。

*本文圖片均來源于網絡

此內容為【智能相對論】原創,

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。

?AI產業新媒體;

?澎湃新聞科技榜單月度top5;

?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能 十萬個為什么》

?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/44932.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/44932.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/44932.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第三方配件也能適配蘋果了,iOS 18與iPadOS 18將支持快速配對

蘋果公司以其對用戶體驗的不懈追求和對創新技術的不斷探索而聞名。隨著iOS 18和iPadOS 18的發布,蘋果再次證明了其在移動操作系統領域的領先地位。 最新系統版本中的一項引人注目的功能,便是對藍牙和Wi-Fi配件的配對方式進行了重大改進,不僅…

python如何計算兩個時間相差多少秒鐘,分鐘,小時,天,月,年

使用場景:在做上課記錄系統的時候,有上課開始時間和上課結束時間,需要計算這兩個時間的插值,以分鐘為單位。 封裝方法如下: from datetime import datetimedef sub_seconds(date1: str "2024-07-11 12:33:33&q…

【CORS 報錯】跨域請求問題:CORS 多種環境下的解決方案

🔥 個人主頁:空白詩 文章目錄 一、CORS錯誤的常見原因二、解決方案1. Vue3 Vite項目下的解決方案創建Vue3 Vite項目配置Vite的代理發送請求 2. jQuery項目下的解決方案使用CORS請求頭使用JSONP 3. 其他環境下的解決方案使用服務器端代理設置CORS頭使用…

PS拉框選擇工具

Photoshop(PS)中的拉框選擇工具,也稱為選框工具,是圖像處理中非常基礎且強大的工具之一。它允許用戶通過繪制矩形、橢圓形以及單行、單列的選擇框來選定圖像中的特定區域。本教程將詳細介紹選框工具的使用方法、技巧及其屬性設置。…

嵌入式Qt開發C++核心編程知識萬字總結

C核心編程 文章目錄 C核心編程1、程序的內存模型2、函數高級1.函數的默認參數2.函數的占位參數3.函數重載1.基本語法2.注意事項 3、類和對象1.類1.類的組成2.類的訪問權限3.class和struct的區別 2.構造函數(Constructor)1.示例2.特點 3.析構函數&#xf…

前端vue3 登錄頁面 響應式開發

一個登錄頁面 我直接上代碼了 結構是這樣的 Login 頁面 <template><a-layout class"login-box"><a-layout-content class"login-content"><a-row align"middle" justify"center" class"login-content-ma…

蝙蝠避障:為盲人出行插上科技的翅膀

在這個五彩斑斕的世界里&#xff0c;每一步都充滿了探索與驚喜。但對于我這樣的視障者來說&#xff0c;每一次出行都是一場未知的冒險。我時常面臨著難以想象的挑戰&#xff1a;如何安全地穿越繁忙的街道&#xff0c;怎樣準確地識別前方的障礙物&#xff0c;乃至簡單地找到回家…

viewmodel創建及使用分析

1、相關的類 ViewModelStore &#xff1a;管理viewModel實例&#xff0c;內部包含一個Map用來存儲viewmodel&#xff0c;內部包括put、get、clear等方法ViewModelProvider &#xff1a;管理ViewModelStore和Factory&#xff0c;Factory里面有create方法是創建對應的viewmodel的…

Facebook的未來藍圖:從元宇宙到虛擬現實的跨越

隨著科技的不斷演進和社會的數字化轉型&#xff0c;虛擬現實&#xff08;VR&#xff09;和增強現實&#xff08;AR&#xff09;作為下一代計算平臺正逐漸走進人們的視野。作為全球領先的科技公司之一&#xff0c;Facebook正在積極探索并推動這一領域的發展&#xff0c;以實現其…

嫌云服務器太貴,使用內網穿透代替

企業與個人開發者常常面臨一個現實問題&#xff1a;高昂的云服務器成本。隨著業務需求的增長&#xff0c;持續的服務器租賃費用可能成為負擔。然而&#xff0c;在這個充滿創新的時代&#xff0c;一種名為“內網穿透”的技術正逐漸成為解決這一難題的優選方案。本文將探討內網穿…

深度學習基礎與實戰:Python實現

深度學習基礎與實戰&#xff1a;Python實現 深度學習是機器學習的一個重要分支&#xff0c;通過多層神經網絡實現對數據的自動特征提取和建模。本文將介紹深度學習的基礎概念、常用框架以及一個完整的實戰項目&#xff0c;幫助讀者從基礎入門到實際應用。 目錄 深度學習概述…

CF 1986D. Mathematical Problem

原題鏈接&#xff1a;Problem - 1986D - Codeforces 題意&#xff1a;一串長度最多為20的由數字組成的字符串&#xff0c;在這些數字中間可以添加字符串長度減去二數量的符號&#xff0c;加或者乘&#xff0c;例如1234&#xff0c;就可以添加加號或者乘號二個&#xff0c;變成…

vue中el-table前端導出excel數據表格

一、el-table為正常時&#xff0c;導出方法如下&#xff1a; 1.添加導出按鈕 <el-button class"greenLinearbg dc" size"small" click"webExportTotalExcel()" v-if"totalBillShow">導出</el-button>2.導出方法 // we…

Spring開發實踐(二)

EnableAsync 和 Async 注解的使用方法 EnableAsync 和 Async 是Spring框架中的兩個注解&#xff0c;用于啟用和使用異步方法執行。它們可以幫助你在Spring應用程序中實現異步編程&#xff0c;從而提高應用程序的性能和響應速度。 EnableAsync EnableAsync 注解用于啟用Sprin…

ARM Ubuntu 主機安裝指定版本Python

要在你的ARM Linux主機上安裝Python 3.12&#xff0c;你可以從源碼編譯安裝。以下是具體步驟&#xff1a; 步驟1&#xff1a;安裝依賴 首先&#xff0c;確保你有必要的編譯工具和依賴包&#xff1a; sudo apt-get update sudo apt-get install -y build-essential libssl-d…

【每日一練】python的類.對象.成員.行為.方法傳參綜合實例(保姆式教學)

運行結果: 本節課程內容&#xff1a;類的使用 1.掌握類的定義和使用方法 2.掌握類的成員的方法使用 3.掌握self關鍵字的作用 4.定義在類里的函數是類的一種行為&#xff0c;叫方法 5.帶傳參的行為使用方法 類基本分兩部分組成&#xff1a;1.屬性,2.方法 類的使用語法&#xf…

springCloud整合Dubbo案例

前言&#xff1a; 好久沒有使用dubbo了&#xff0c;溫習一下。 一、先搭建一個SpringCloud框架 整體框架如下圖 1. 先創建一個父工程&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4…

開發者必讀:獲取電商API的多種渠道

開發電商軟件往往需要對接電商API&#xff0c;電商API可以從哪些渠道獲取&#xff1f;下面給大家介紹兩種獲取渠道。 一、從電商平臺開放平臺獲取電商API 電商平臺的開放平臺是獲取電商API最直接的渠道&#xff0c;但是電商平臺較多&#xff0c;每一個電商平臺都需要單…

Vue3 引入騰訊地圖 包含標注簡易操作

1. 引入騰訊地圖API JavaScript API | 騰訊位置服務 (qq.com) 首先在官網注冊賬號 并正確獲取并配置key后 找到合適的引入方式 本文不涉及版本操作和附加庫 據體引入參數參考如下圖 具體以鏈接中官方參數為準標題 在項目根目錄 index.html 中 寫入如下代碼 <!-- 引入騰…

Socks5代理為什么比HTTP代理快?

在數字化日益深入的時代&#xff0c;網絡安全和隱私保護成為了公眾關注的焦點。為了應對網絡威脅&#xff0c;保護個人隱私和數據安全&#xff0c;代理技術應運而生。在眾多代理協議中&#xff0c;SOCKS5代理和HTTP代理是兩種較為常見的選擇。然而&#xff0c;為何SOCKS5代理在…