關注大型語言模型(LLMs)
- 簡要探討語言模型的發展歷史
- 理解Transformer架構的基本元素和注意力機制
- 了解不同類型的微調方法
語言模型的大小之分
在語言模型領域,“小”和“大”是相對概念。幾年前還被視為“巨大”的模型,如今已被認為相當小。該領域發展迅猛,從參數規模為1億的模型(如BERT、GPT-2的部分版本),已演進到參數達70億、700億甚至4000億的模型(如Llama)。
盡管模型規模較以往典型大小擴大了70到4000倍,但硬件卻未能跟上步伐:如今的GPU內存并不比五年前多100倍。解決方案是:集群!通過將大量GPU組合在一起,以分布式方式訓練越來越大的模型。大型科技公司斥資數百萬美元搭建基礎設施,以應對這些模型的訓練需求。
模型越大,訓練所需的數據就越多,對吧?但在這種規模下,我們談論的不再是數千甚至數百萬個標記,而是數十億、數萬億個。你身邊恰好有幾千億個標記嗎?我肯定沒有。但到2025年,在Hugging Face Hub上,你確實能找到包含2萬億個標記的數據集!這多酷啊
遺憾的是,即便能獲取如此龐大的數據集,我們仍缺乏充分利用這些數據的資源——即數千塊高端GPU。只有大型科技公司才能承擔這樣的規模。
普通數據科學家能夠從零開始訓練語言模型(例如過去訓練BERT時的情況)的時代已經一去不復返了。即便是中型公司,也難以跟上這樣的發展速度。
那我們還能做些什么呢?當然是微調模型。
只有當模型的權重公開可用時(也就是我們習慣從Hugging Face Hub下載的預訓練基礎模型),我們才能對其進行微調。或許更重要的是,只有當模型的許可證允許時,我們才能