BIG NEWS: 全球最大開源大模型!馬斯克Grok-1參數量3410億,正式開源!!!
說到做到,馬斯克xAI的Grok,果然如期開源了!
就在剛剛,馬斯克的AI創企xAI正式發布了此前備受期待大模型Grok-1,其參數量達到了3140億,遠超OpenAI GPT-3.5的1750億。
PS:如果你要升級為GPT-4的話,可以參考這篇教程:[ChatGPT Plus升級]進行訂閱升級也很簡單方便。
這是迄今參數量最大的開源大語言模型,遵照Apache 2.0協議開放模型權重和架構。
Grok-1
目前,xAI關于Grok-1沒有透露更多信息。
官網放出的信息如下——
- 基礎模型在大量文本數據上訓練,未針對任何特定任務進行微調。
- 314B參數的MoE,有25%的權重在給定token上處于激活狀態。
- 2023年10月,xAI使用JAX和Rust之上的自定義訓練堆棧從頭開始訓練。
- 截至到目前為止,,Grok在Github上就狂攬了6k星,620個Fork。
3140億的參數,讓Grok-1成為迄今參數量最大的開源LLM,是Llama 2的4倍。
全球首個最大模型開源
這次xAI開源Grok-1,遵守的是Apache-2.0許可證,因此,用戶可以自由使用、修改和分發軟件。
存儲庫包含了用于加載和運行Grok-1開源權重模型的JAX示例代碼。
由于模型較大,參數達到了314B參數,因此需要具有足夠GPU內存的計算機,才能使用示例代碼測試模型。
一般人估計是很難在個人PC上運行起來。
斯坦福研究者Andrew Kean Gao瀏覽了model.py介紹了更多Grok的架構信息,3140億參數沒有更多附加條款。
8個混合專家(2個活躍專家),860B活躍參數。它使用旋轉嵌入,而不是固定位置嵌入。
-
tokenizer詞匯量:131,072(于GPT-4類似)相當于2^17
-
嵌入大小:6144(48*128)
-
Transformer層:64(每一層都有一個解碼層:多頭注意塊和密度塊)
-
鍵值大小:128
最后大家可以直接看Andrew Kean Gao針對Grok-1的總結版圖。
開源爭霸
AI社區已經沸騰了!
連OpenAI的員工,都表示了自己對Grok的強烈興趣。
PS:LFG:LFG 的意思是“Let’s Fxxking Go”,大致意思是“沖沖沖”,經常用來形容社區對某個事件非常興奮。
英偉達高級科學家Jim Fan表示,「有史以來最大的開源大模型,由世界級團隊訓練,通過磁力鏈Apache 2.0發布。
xAI表示,Grok的設計靈感來源于《銀河系漫游指南》,它能夠回答幾乎所有問題,助力人類不分背景或政治立場地追求理解和知識。
Grok最初的版本Grok-0擁有330億參數,緊接著xAI推出了經過數次改進的Grok-1,為X上的Grok聊天機器人提供支持。
根據xAI公布的數據,在GSM8K、HumanEval和MMLU等一系列基準測試中,Grok-1的表現超過了Llama-2-70B和GPT-3.5,雖然跟GPT-4還差得遠。
但此次xAI并沒有放出Grok-1的具體測試成績,其與OpenAI即將發布的GPT-5的大模型王者之戰,必將成為業內關注的焦點。
總結
科技巨頭之間AI之間的大規模競爭,爭相發布各種最厲害最前沿的大語言模型,然后最終受益的卻還是我們普通個人。就想前幾年的手機競爭,廠商們都在制作各種旗艦機型,所以后面就有了越來越大的手機,屏幕越來越高清,攝像頭的像素越來越大,手機攝像頭也越來越多。
除了了解這些最前沿的科技之外,我們還可以思考如何更好地將這些技術應用在我們日常的工作和生活之中。
如何學習AI大模型?
我在一線互聯網企業工作十余年里,指導過不少同行后輩。幫助很多人得到了學習和成長。
我意識到有很多經驗和知識值得分享給大家,也可以通過我們的能力和經驗解答大家在人工智能學習中的很多困惑,所以在工作繁忙的情況下還是堅持各種整理和分享。但苦于知識傳播途徑有限,很多互聯網行業朋友無法獲得正確的資料得到學習提升,故此將并將重要的AI大模型資料包括AI大模型入門學習思維導圖、精品AI大模型學習書籍手冊、視頻教程、實戰學習等錄播視頻免費分享出來。
第一階段: 從大模型系統設計入手,講解大模型的主要方法;
第二階段: 在通過大模型提示詞工程從Prompts角度入手更好發揮模型的作用;
第三階段: 大模型平臺應用開發借助阿里云PAI平臺構建電商領域虛擬試衣系統;
第四階段: 大模型知識庫應用開發以LangChain框架為例,構建物流行業咨詢智能問答系統;
第五階段: 大模型微調開發借助以大健康、新零售、新媒體領域構建適合當前領域大模型;
第六階段: 以SD多模態大模型為主,搭建了文生圖小程序案例;
第七階段: 以大模型平臺應用與開發為主,通過星火大模型,文心大模型等成熟大模型構建大模型行業應用。
👉學會后的收獲:👈
? 基于大模型全棧工程實現(前端、后端、產品經理、設計、數據分析等),通過這門課可獲得不同能力;
? 能夠利用大模型解決相關實際項目需求: 大數據時代,越來越多的企業和機構需要處理海量數據,利用大模型技術可以更好地處理這些數據,提高數據分析和決策的準確性。因此,掌握大模型應用開發技能,可以讓程序員更好地應對實際項目需求;
? 基于大模型和企業數據AI應用開發,實現大模型理論、掌握GPU算力、硬件、LangChain開發框架和項目實戰技能, 學會Fine-tuning垂直訓練大模型(數據準備、數據蒸餾、大模型部署)一站式掌握;
? 能夠完成時下熱門大模型垂直領域模型訓練能力,提高程序員的編碼能力: 大模型應用開發需要掌握機器學習算法、深度學習框架等技術,這些技術的掌握可以提高程序員的編碼能力和分析能力,讓程序員更加熟練地編寫高質量的代碼。
1.AI大模型學習路線圖
2.100套AI大模型商業化落地方案
3.100集大模型視頻教程
4.200本大模型PDF書籍
5.LLM面試題合集
6.AI產品經理資源合集
👉獲取方式:
😝有需要的小伙伴,可以保存圖片到wx掃描二v碼免費領取【保證100%免費】🆓