ICML2024高分論文!大模型計算效率暴漲至200%,來自中國AI公司

前段時間,KAN突然爆火,成為可以替代MLP的一種全新神經網絡架構,200個參數頂30萬參數;而且,GPT-4o的生成速度也是驚艷了一眾大模型愛好者。

大家開始意識到——

大模型的計算效率很重要,提升大模型的tokens生成速度是很關鍵的一環

而提升大模型的tokens生成速度,除了花錢升級GPU外,更長效的做法是改善Transformer模型架構的計算效率。

今天,筆者發現,終于有團隊對Transformer計算最耗時的核心組件——多頭注意力模塊(MHA)下手了,將Transformer的計算性能提升了有2倍之高。

通俗的講,如果這項工作未來能落地到大模型里面,那么大模型tokens生成速度翻倍式提升的一天就不遠了

這篇論文已經被今年的機器學習頂會ICML 2024錄用,拿到了7分的高分,而且還開源了

據透露,今年ICML 2024錄用的paper平均得分在4.25-6.33之間

筆者扒了下,發現這個工作的背后是一家頗具影響力的國內公司——彩云科技,沒錯,就是打造爆火的“彩云小夢”產品的團隊。

不急,先看看這篇論文,如何將Transformer模型計算效率暴漲100%的。

論文標題
Improving Transformers with Dynamically Composable Multi-Head Attention
論文鏈接
https://arxiv.org/abs/2405.08553
開源項目地址
https://github.com/Caiyun-AI/DCFormer

Github上已開源這項工作的代碼、模型和訓練數據集。

3.5研究測試:
hujiaoai.cn
4研究測試:
askmanyai.cn
Claude-3研究測試:
hiclaude3.com

我們知道,承載Transformer計算量的核心模塊便是多頭注意力(MHA)模塊,位置(position=i)上的每一個注意力頭(attention head)會與全部位置上的注意力頭計算出一個注意力分布矩陣。在這個過程中,位置 i 上的各個注意力頭計算出來的注意力分布矩陣是相互獨立的。

忘了的小伙伴請自行扒拉Transformer論文

論文指出,這種多頭獨立計算的機制會帶來兩大問題:

  • 低秩瓶頸(Low-rank Bottleneck): 注意力矩陣的秩較低,模型的表達能力受限

  • 頭冗余(Head Redundancy): 不同的注意力頭可能會學習到相似的模式,導致冗余

因此,彩云科技提出了一種叫動態可組合多頭注意力(DCMHA)的機制,DCMHA 通過一個核心的組合函數(Compose function),以輸入依賴的方式轉換注意力得分和權重矩陣,從而動態地組合注意力頭,解決了傳統MHA模塊中存在的上述低秩瓶頸和頭冗余問題。

值得強調的是,DCMHA旨在提高模型的表達能力,同時保持參數和計算效率,它可以作為任何Transformer架構中MHA模塊的即插即用替代品,以獲得相應的DCFormer模型。

論文通過實驗表明,DCFormer在不同的架構和模型規模下,在語言建模方面顯著優于Transformer,與計算量增加1.7倍至2倍的模型性能相匹配。例如,DCPythia-6.9B在預訓練困惑度和下游任務評估方面優于開源的Pythia-12B。

DCMHA原理

DCMHA機制的核心是引入的Compose函數。這個Compose函數可以視為一個可學習的參數,它可以動態地組合不同頭的QK矩陣和VO矩陣,內部通過一系列變換來分解和重構注意力向量。可以近似理解為:經過組合映射后,H個基礎的注意力頭可組合成多至H*H個注意力頭。

你可以簡單理解為,它能根據輸入數據調整頭之間的交互方式,一是打破頭的獨立性,二是可以根據輸入數據動態組合,從而可以增強模型的表達能力。

動態組合注意力頭機制

▲動態組合注意力頭機制

利用矩陣分解實現高效的參數計算

盡管引入了動態組合,DCMHA的設計依舊注重參數和計算效率。通過矩陣分解DCMHA能夠以較小的額外參數和計算開銷實現動態組合,同時保持模型性能。

DCFormer可提高70%~100%的模型計算效率

還有很重要的一點是,DCMHA可以作為MHA的直接替代品應用于任何Transformer架構中,升級成DCFormer,實現計算效率的大幅提升,達到1.7倍-2倍的計算效率。

而且,實驗結果表明在眾多NLP下游任務和圖像識別任務上的測評也驗證了DCFormer的有效性。

1、DCFormer在不同參數規模下(405M到6.9B參數),對 Transformer 和 Transformer++ 模型的性能提升顯著。

自2017年Transformer誕生至今,旋轉位置編碼RoPE和門控激活函數MLP被證明是最普世有效且廣泛采用的改進,已融入到Transformer++架構,同時也是大名鼎鼎的Llama模型框架。

而DCFormer性能算力比的提升幅度超過這兩項改進的提升幅度之和。

2、DCPythia-6.9B在多個下游任務中的表現優于Pythia-12B。

3、在ImageNet-1K數據集上的實驗驗證了DCMHA在非語言任務中也是有效性的。

從上圖可以看出,在相同訓練數據和算力下,一個被本文方法改進后69億參數的模型,卻擁有比120億參數傳統模型結構更好的效果。

換句話講:相同的參數量下,使用DCFormer將具備更強的模型表達能力;用更少的參數量,擁有相同的模型表示效果

DCFormer在不同的架構和模型規模下,在語言建模方面顯著優于Transformer,與計算量增加1.7倍至2倍的模型性能相匹配

距離大模型“光速”生成tokens不遠了

筆者覺得這個工作還是蠻扎實的,如果能像RoPE一樣在國內外的主流大模型落地,大模型“光速”生成tokens的一天并不遙遠,而且從AI產業對電力能源的利用效率來說,也是一個很有意義的改善。

實話說,在如今這個“資本寒冬”,愿意為前瞻技術研究投入資金、人才支持的公司非常少了,能在ICML這個高含金量機器學習頂會上跑出來高分論文的團隊,背后一定離不開公司層面的支持。

在寫這篇文章的時候,筆者注意到,彩云科技團隊也在進行大模型對齊和測評算法研究員、大模型推理優化、AIGC產品經理、后端工程師、前端工程師、SRE工程師等職位的招聘,這里附上簡歷投遞二維碼:

倘若能進入到發表ICML高分論文的團隊參與AI方向的學術研究和產品落地,屬實是一個非常珍貴的職業經歷,感興趣的小伙伴抓住機會。

筆者在搜彩云科技的時候,還無意間扒出來了意想不到的東西。

筆者發現,有一款服務500+家大客戶的超大型B端產品——彩云天氣竟然也是彩云科技旗下的。

沒準,你手機里的、汽車車載系統里的天氣APP背后走的很可能就是彩云天氣API

做過ToB業務的都知道,能獲得100家大客戶青睞的B端產品就已經具備相當的B端影響力了,而彩云天氣不僅斬獲了滴滴、小米、vivo、高德、360、小鵬汽車在內的500多家大客戶,其甚至早在2014年就成為了中國氣象局的戰略合作伙伴,曾幫助多個部門和地區避免了自然災害風險。

不夸張的講,彩云天氣已成為了國內事實上的氣象服務基礎設施

這背后,無疑是彩云科技強悍的AI算法實力和強大的工程能力。

如果你對AI ToB產品覺得陌生,那彩云科技旗下的另一款爆款AI ToC產品請讓我安利下,因為——

它真的太圈粉了

作為文字工作者,筆者自ChatGPT爆火以來,玩遍了國內外幾乎所有的文字創作類產品,但給筆者留下深刻印象&能持續用起來的產品不多,彩云小夢就是其中一款。

彩云小夢是一款網文輔助寫作工具,也是一個 AI RPG 平臺,用戶可以在里面扮演各種角色,體驗不同的人生。AI 寫作助手具有文風獨特、可以自動續寫、支持自定義開頭等特點和功能。

作為曾經的RPG游戲愛好者(玩過金庸群俠傳、仙劍奇俠傳、武林群俠傳系列的小伙伴請舉手🙋🏻?♀?),筆者甚至用彩云小夢將金庸群俠傳游戲劇情翻寫過小說,因為彩云小夢AI生成的內容太有意思了,貼一段你們自己感受下:

在寫網文這塊,用過彩云小夢后就再也用不回ChatGPT了,體驗差別懸殊。

但最讓我停不下來的,倒不是寫網文。而是你可以扮演網文里面的角色:

這種沉浸式角色的體驗非常神奇,經常玩半天都停不下來:

彩云小夢的產品體驗非常絲滑、穩定,技術出身的筆者,能深刻的在這份絲滑背后的工程能力和產品能力有多強大。

除了彩云天氣和彩云小夢外,彩云科技旗下的彩云小譯也是業界有口皆碑的同聲傳譯軟件,不僅有閱文集團、360和維基百科等廣泛的客戶群基礎,其甚至給《三體》做過翻譯,篇幅原因,這里就不展開講了。

總之,通過進一步深挖彩云科技旗下的產品,筆者深感這是一家集強大的AI算法、工程和產品能力于一身的老牌科技公司,這種低調鉆研技術、打磨產品、做扎實的價值創造的寶藏團隊在國內屬實稀缺。深得筆者喜愛。

最后貼下彩云科技的招聘信息,多個崗位正在火熱招聘中,感興趣的小伙伴抓住機會,招聘崗位詳情請點擊鏈接進一步了解:

http://colorfulclouds.com/jobs/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/14241.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/14241.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/14241.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端加載excel文件數據 XLSX插件的使用

npm i xlsx import axios from axios; axios //這里用自己封裝的http是不行的,踩過坑.get(url,{ responseType: "arraybuffer" }).then((re) > {console.log(re)let res re.datavar XLSX require("xlsx");let wb XLSX.read(r…

黑龍江大學文學院古代文學教研室安家琪副教授

女,生于1990年。蘭州大學文學學士、碩士,上海交通大學文學博士,曾赴臺灣東華大學交流,研究方向為明清詩文與唐代文學。 在《文藝理論研究》、《蘇州大學學報》、《唐史論叢》、《中國社會科學報》等期刊發表論文20余篇&#xff0…

2024年 電工杯 (A題)大學生數學建模挑戰賽 | 園區微電網風光儲協調優化配置 | 數學建模完整代碼解析

DeepVisionary 每日深度學習前沿科技推送&頂會論文&數學建模與科技信息前沿資訊分享,與你一起了解前沿科技知識! 本次DeepVisionary帶來的是電工杯的詳細解讀: 完整內容可以在文章末尾全文免費領取&閱讀! 問題重述…

干就對了!

成年人的世界哪有那么容易,不過都在負重前行,誰不是一邊抱怨著,一邊咬牙堅持,一邊崩潰,一邊還要自我安慰。 想改變,想更好,我們都有很多想法。 想再多不如動手做一次。一旦開始做了&#xff0…

前端手寫文件上傳;使用input實現文件拖動上傳

使用input實現文件拖動上傳 vue2代碼&#xff1a; <template><div><div class"drop-area" dragenter"highlight" dragover"highlight" dragleave"unhighlight" drop"handleDrop"click"handleClick&quo…

聽說京東618裁員沒?上午還在趕需求,下午就開會通知被裁了~

文末還有最新面經共享群&#xff0c;沒準能讓你刷到意向公司的面試真題呢。 京東也要向市場輸送人才了? 在群里看到不少群友轉發京東裁員相關的內容&#xff1a; 我特地去網上搜索了相關資料&#xff0c;看看網友的分享&#xff1a; 想不到馬上就618了&#xff0c;東哥竟然搶…

Python 機器學習 基礎 之 模型評估與改進 【模型評估與改進 / 交叉驗證】的簡單說明

Python 機器學習 基礎 之 模型評估與改進 【模型評估與改進 / 交叉驗證】的簡單說明 目錄 Python 機器學習 基礎 之 模型評估與改進 【模型評估與改進 / 交叉驗證】的簡單說明 一、簡單介紹 二、模型評估與改進 三、交叉驗證 1、scikit-learn 中的交叉驗證 2、交叉驗證的…

stm32工程綜合實驗_延時及中斷優先級

待下載綜合實驗 ![在這里插入圖片描述](https://img-blog.csdnimg.cn/161fa4e200bb4022bf384e80a3af8797.jpg 很好的編程思想模式及資料(富萊xx電子)

【repo系列】repo常用命令的使用

前言 repo是一種代碼版本管理工具&#xff0c;它是由一系列的Python腳本組成&#xff0c;封裝了一系列的Git命令&#xff0c;用來統一管理多個Git倉庫。 本文章描述repo常用命令的使用。 常用命令 初始化 repo init 初始化代碼倉 repo init [options]常用options: -u URL…

JDBC——API詳解

一、DriverManager 1、用于注冊驅動程序&#xff1a;registerDriver(Driver driver)。 更常用的是Class.forName("com.mysql.jdbc.Driver")是由于Driver中包含了registerDriver(Driver driver)&#xff0c;值得注意的是&#xff0c;是mysql5之后的版本中&#xff0…

1.每日設計模式-理論

目錄 一、什么是設計模式 二、設計原則 三、設計模式的種類 代碼地址&#xff1a;patterns: 每日設計模式 一、什么是設計模式 軟件設計模式(Design Pattern)是一套被反復使用、多數人知曉的、經過分類編目的、代碼設計經驗的總結&#xff0c;使用設計模式是為了可重用代碼…

AI大模型的口語練習APP

開發一個使用第三方大模型的口語練習APP涉及多個步驟&#xff0c;從需求分析到部署上線。以下是詳細的開發流程和關鍵步驟&#xff0c;通過系統化的流程和合適的技術選型&#xff0c;可以有效地開發出一個功能豐富、用戶體驗良好的口語練習APP。北京木奇移動技術有限公司&#…

網絡初識 二

一、TCP/IP五層協議 -> 應用層 : 傳輸的數據在應用程序中如何使用 -> 傳輸層 : 關注的是通信的起點終點 -> 網絡層 : 關注的是通信中的路線規劃 -> 數據鏈路層 : 關注的是相鄰節點之間的通信細節 -> 物理層 : 網絡通信的基礎設施 說是五層,實際上下面…

Qt案例練習(有源碼)

項目源碼和資源&#xff1a;Qt案例練習: qt各種小案例練習,有完整資源和完整代碼 1.案例1 項目需求&#xff1a;中間為文本框&#xff0c;當點擊上面的復選框和單選按鈕時&#xff0c;文本框內的文本會進行相應的變化。 代碼如下&#xff1a; #include "dialog.h" …

C++的數據結構(十):AVL樹

AVL樹是一種自平衡的二叉搜索樹&#xff0c;得名于其發明者G.M. Adelson-Velsky和E.M. Landis。在AVL樹中&#xff0c;任何節點的兩個子樹的高度最多相差1&#xff0c;這種性質確保了AVL樹的查找、插入和刪除操作的時間復雜度接近O(log n)。 AVL樹是一種二叉搜索樹&#xff0c;…

MongoDB基礎入門到深入(七)建模、調優

文章目錄 系列文章索引十一、MongoDB開發規范十二、MongoDB調優1、三大導致MongoDB性能不佳的原因2、影響MongoDB性能的因素3、MongoDB性能監控工具&#xff08;1&#xff09;mongostat&#xff08;2&#xff09;mongotop&#xff08;3&#xff09;Profiler模塊&#xff08;4&a…

K8S認證|CKA題庫+答案| 16. 升級集群

16、升級集群 CKA v1.29.0模擬系統免費下載試用&#xff1a; 百度網盤&#xff1a;https://pan.baidu.com/s/1vVR_AK6MVK2Jrz0n0R2GoQ?pwdwbki 題目&#xff1a; 您必須在以下Cluster/Node上完成此考題&#xff1a; Cluster Ma…

CTF網絡安全大賽簡單web題目:eval

題目來源于&#xff1a;bugku 題目難度&#xff1a;簡單 一道簡單web的題目 題目源代碼&#xff1a; <?phpinclude "flag.php";$a $_REQUEST[hello];eval( "var_dump($a);");show_source(__FILE__); ?> 這個PHP腳本有幾個關鍵部分&#xff0c;但…

太陽誘電:順應時代需求的新型電容器為何能在全球得到廣泛應用(下)

隨著汽車電動化和電子控制化的進展&#xff0c;車載計算機和電氣部件也在逐漸向大功率化的方向發展。而構成這些車載設備電源電路的電子元器件也必須隨之進行技術革新。太陽誘電集團攜手全資子公司ELNA&#xff0c;開發并供應新型電容器“導電性高分子混合鋁電解電容器”&#…

【熱門話題】一文帶你讀懂公司是如何知道張三在脈脈上發了“一句話”的

按理說呢&#xff0c;A公司和脈脈屬于不同的平臺&#xff0c;而且脈脈上大家可以匿名發言&#xff0c;所以&#xff0c;即便我坐在你邊上&#xff0c;我發了一句話上去&#xff0c;你也不知道是誰發的。但通過一些技術&#xff0c;我們卻可以分析出&#xff0c;公司是如何知道張…