當專用模型超越通用模型時
“越大越好”——這個原則在人工智能領域根深蒂固。每個月都有更大的模型誕生,參數越來越多。各家公司甚至為此建設價值100億美元的AI數據中心。但這是唯一的方向嗎?
在NeurIPS 2024大會上,OpenAI聯合創始人伊利亞·蘇茨克弗提出了一個觀點:“我們所熟知的預訓練將無可爭議地終結。”這表明大規模化的時代即將結束,現在是時候專注于改進當前的方法和算法了。
其中一個最有前景的領域是使用參數量不超過10B的小型語言模型(SLMs)。這種方法在行業內正逐步嶄露頭角。例如,Hugging Face的CEO克萊姆·德朗格預測,高達99%的應用場景可以使用SLMs來解決。類似的趨勢也體現在YC對創業公司的最新需求中:
大規模的通用模型確實令人印象深刻,但它們也非常昂貴,常常伴隨著延遲和隱私挑戰。
在我上一篇文章《您真的需要托管的LLMs嗎?》中,我探討了是否需要自托管模型。現在,我進一步提出問題:您是否真的需要LLMs?
本文摘要
在本文中,我將探討為何小型模型可能是您的業務所需的解決方案。我們將討論它們如何降低成本、提高準確性并保持數據控制。當然,我們也會誠實地討論它們的局限性。
成本效益
LLMs的經濟學可能是企業最頭疼的話題之一。但問題更廣泛,包括昂貴的硬件需求、基礎設施成本、能源消耗及環境后果。
是的,大型語言模型在能力上令人驚艷,但維護成本同樣高昂。您可能已經注意到基于LLMs的應用程序訂閱價格的上漲?例如,OpenAI最近宣布推出200美元/月的Pro計劃,這表明成本正在增加。競爭對手也很可能會提高到類似價格水平。
200美元的Pro計劃
Moxie機器人是一個很好的例子。Embodied公司開發了一款售價800美元的兒童伴侶機器人,使用了OpenAI API。盡管產品成功(孩子們每天發送500–1000條消息),但由于API的高運營成本,公司不得不關閉。現在,成千上萬的機器人將變得無用,孩子們也會失去他們的朋友。
一種解決方案是為您的特定領域微調專用的小型語言模型。雖然不能解決“世界上所有問題”,但它可以完美應對特定任務。例如,分析客戶文檔或生成特定報告。同時,SLMs更經濟,資源消耗更少,所需數據更少,可以運行在更普通的硬件上(甚至是智能手機上)。
不同參數模型的利用率對比
最后,不要忘了環境因素。在《碳排放與大規模神經網絡訓練》一文中,我發現了一些令人震驚的統計數據:訓練擁有1750億參數的GPT-3所耗電量相當于美國普通家庭120年的用電量,同時產生502噸二氧化碳,相當于超過100輛汽油車一年的排放。而這還不包括推理成本。相比之下,部署一個更小的7B模型僅需大模型消耗的5%。那么最新的o3模型呢?
模型 o3 的二氧化碳排放量。
💡提示:不要盲目追趕潮流。在解決任務之前,計算API或自建服務器的使用成本。思考這種系統的擴展性以及使用LLMs是否合理。
專用任務上的性能
現在我們已經討論了經濟學問題,接下來說說質量。當然,很少有人愿意僅僅為了節約成本而犧牲解決方案的準確性。但即使在這方面,SLMs也有其優勢。
領域內內容審核的表現
比較SLMs與LLMs在領域內內容審核的準確率、召回率和精確率。最佳表現的SLMs在準確率和召回率上超過了LLMs,而LLMs在精確率上表現更佳。
許多研究表明,對于高度專業化的任務,小型模型不僅能與大型LLMs競爭,甚至經常超越它們。以下是幾個具有代表性的例子:
1. 醫學領域
Diabetica-7B模型(基于Qwen2-7B)在糖尿病相關測試中達到了87.2%的準確率,而GPT-4為79.17%,Claude-3.5為80.13%。盡管如此,Diabetica-7B的規模遠小于GPT-4,可以在消費級GPU上本地運行。
2. 法律領域
一個僅有0.2B參數的SLM在合同分析中達到了77.2%的準確率(GPT-4約為82.4%)。此外,在識別用戶協議中的“不公平”條款等任務中,SLM在F1指標上甚至優于GPT-3.5和GPT-4。
3. 數學任務
谷歌DeepMind的研究表明,將一個小型模型Gemma2-9B訓練在另一個小型模型生成的數據上,比在更大模型Gemma2-27B的數據上訓練效果更好。小型模型往往能更專注于細節,而不會像大模型那樣“試圖展現全部知識”。
4. 內容審核
LLaMA 3.1 8B在15個熱門subreddits的內容審核中,準確率提高了11.5%,召回率提高了25.7%,超過了GPT-3.5。這是通過4位量化實現的,這進一步減少了模型的規模。
用于PubMedQA的領域內SLM與LLMs的對比
更進一步地說,即使是傳統的自然語言處理方法也往往表現出色。讓我分享一個實際案例:我正在開發一款心理支持產品,每天處理用戶發送的超過1000條消息。這些消息會被分類到以下四個類別之一:
消息分類方案
? SUPPORT:關于應用如何工作的提問;我們用文檔中的內容回答。
? GRATITUDE:用戶感謝機器人;我們簡單地發送一個“點贊”。
? TRY_TO_HACK:用戶請求與應用目的無關的內容(如“用Python寫一個函數”)。
? OTHER:其他所有消息,將進一步處理。
起初,我使用GPT-3.5-turbo進行分類,后來切換到GPT-4o mini,花費了大量時間調整提示詞,但仍然遇到錯誤。于是我嘗試了傳統方法:TF-IDF + 簡單分類器。訓練時間不到一分鐘,宏觀F1分數從GPT-4o mini的0.92提高到0.95。模型大小僅為76MB,并且在處理我們實際的200萬條消息數據時,節省的成本非常顯著:基于GPT的解決方案大約花費500美元,而傳統方法幾乎不需要成本。
GPT-4o mini與TF-IDF模型的準確率、速度和成本對比表
在我們的產品中,還有幾項類似的“小型”簡單任務。我相信您的公司也能找到類似的場景。當然,大型模型對于快速啟動非常有用,特別是當沒有標注數據且需求不斷變化時。但對于定義明確、穩定的任務,且準確性和最低成本是關鍵的場景,專用的簡單模型(包括傳統方法)通常更為有效。
💡提示:使用LLMs進行原型設計,然后當任務明確且穩定時,切換到更小、更便宜、更準確的模型。這種混合方法有助于保持高質量,同時顯著降低成本,避免通用模型的冗余。
安全性、隱私性與合規性
通過API使用LLMs,您實際上將敏感數據交給了外部提供商,這增加了泄露的風險,并使遵守HIPAA、GDPR和CCPA等嚴格法規變得更加復雜。OpenAI最近宣布計劃引入廣告,這進一步突顯了這些風險。您的公司不僅失去了對數據的完全控制,還可能依賴于第三方的服務等級協議(SLAs)。
當然,也可以本地運行LLMs,但部署和擴展的成本(數百GB內存、多塊GPU)通常超出了合理的經濟范圍,也難以快速適應新的監管要求。而在低端硬件上運行LLMs更是難以實現。
云端API風險與設備端SLM優勢的對比。
這是小型語言模型(SLMs)發揮優勢的地方:
1. 簡化審計
SLMs的較小規模降低了審計、驗證和定制以滿足特定法規的門檻。您可以更容易理解模型如何處理數據,實現自定義加密或日志記錄,并向審計員證明信息從未離開受信任的環境。作為一家醫療公司創始人,我深知這項任務的挑戰和重要性。
2. 在隔離和低端硬件上運行
LLMs很難高效地“部署”在隔離的網絡環境或智能手機上。而SLMs因計算需求較低,可以幾乎在任何地方運行:從私人網絡中的本地服務器,到醫生或檢查員的設備。根據IDC的預測,到2028年,超過9億部智能手機將具備本地運行生成式AI模型的能力。
3. 應對新法規的更新與適應
法規和法律經常變化——緊湊的模型可以在數小時內完成微調或調整,而不是數天。這使得企業能夠快速響應新要求,無需進行大規模的基礎設施升級,這通常是大型LLMs的特征。
4. 分布式安全架構
與LLMs的一體化架構不同,其中所有安全組件都“內嵌”到一個大型模型中,SLMs允許創建分布式安全系統。每個組件:
o 專注于特定任務。
o 可獨立更新和測試。
o 可與其他組件獨立擴展。
例如,一個醫療應用程序可以使用由三個模型組成的級聯架構:
? 隱私保護器(2B參數):屏蔽個人數據。
? 醫學驗證器(3B參數):確保醫學準確性。
? 合規性檢查器(1B參數):監控HIPAA合規性。
小型模型更容易驗證和更新,使整體架構更加靈活可靠。
數據隱私功能對比表
💡提示:如果您的行業受嚴格監管(如醫療、金融或法律領域),請考慮使用SLMs。特別關注數據傳輸政策以及法規變化的頻率。
AI智能體:完美的應用場景
還記得老式Unix哲學“專注做好一件事”嗎?現在看來,我們正在將這一原則應用到AI中。
伊利亞·蘇茨克弗在NeurIPS上的最新聲明指出,“我們所熟知的預訓練將無可爭議地終結”,下一代模型將“以真正的方式具備智能體性”。這一趨勢表明AI正向更細化、更專業化的方向發展。Y Combinator更進一步預測,AI智能體可能創造出比SaaS大10倍的市場。
例如,目前已有12%的企業解決方案采用基于智能體的架構。此外,分析師預測智能體將成為AI轉型的下一波浪潮,不僅會影響4000億美元的軟件市場,還將影響10萬億美元的美國服務業經濟。
SLMs是這些智能體的理想候選者。雖然單一模型功能有限,但一群這樣的模型——可以逐步解決復雜任務。更快、更高質量且成本更低。
信息流示例:專用智能體之間的任務分配
這種方法不僅更加經濟,還更加可靠:每個智能體專注于自己最擅長的部分。更便宜、更快、更好。是的,我再強調一次。
以下是一些支持這一點的公司案例:
1. H公司:在種子輪融資中籌集了1億美元,用于開發基于SLMs(2–3B參數)的多智能體系統。他們的智能體Runner H(3B)在任務完成成功率上達到67%,相比之下,Anthropic的Computer Use僅為52%,而成本顯著更低。
2. Liquid AI:最近獲得了2.5億美元資金,專注于構建高效的企業模型。他們的1.3B參數模型在同類規模模型中表現最佳。同時,他們的LFM-3B模型在性能上與7B甚至13B模型相當,但所需內存更少。
3. Cohere:推出了Command R7B,一個用于RAG(檢索增強生成)應用的專用模型,甚至可以在CPU上運行。該模型支持23種語言,并能與外部工具集成,在推理和問答任務中表現最佳。
4. 貴公司名稱:也可以加入這一名單。在我工作的Reforma Health公司中,我們正在為不同的醫療領域開發專用的SLMs。這一決策是基于遵守HIPAA要求及醫療信息處理的特殊需求而做出的。我們的經驗表明,高度專業化的SLMs在受監管領域中可以成為顯著的競爭優勢。
這些案例表明:
? 投資者看好專用小型模型的未來。
? 企業客戶愿意為無需向外部提供商發送數據的高效解決方案買單。
? 市場正從依賴“通用”大模型向“智能”專用智能體轉變。
💡提示:首先識別項目中重復性高的任務。這些任務是開發專用SLM智能體的最佳候選者。這樣可以避免為LLMs的過剩能力支付過高的費用,同時獲得更高的流程控制能力。
SLMs與LLMs的局限性對比
盡管本文一直在贊揚小型模型,但公平起見,也必須指出它們的局限性:
1. 任務靈活性有限
SLMs的最大局限在于其窄化的專業性。與LLMs不同,SLMs只能在其訓練的特定任務中表現出色。例如,在醫學領域,Diabetica-7B在糖尿病測試中表現優異,但其他醫療學科需要額外微調或新的架構。
LLMs與SLMs:靈活性與專業性的對比
2. 上下文窗口限制
與上下文長度可達1M tokens(如Gemini 2.0)的大型模型相比,SLMs的上下文較短。盡管最新的小型LLaMA 3.2模型(3B、1B)支持128k tokens的上下文長度,但實際效果往往不如預期:模型常常無法高效連接文本開頭和結尾。例如,SLMs無法高效處理長達數年的患者病史或大篇幅的法律文檔。
不同模型最大上下文長度對比
3. 涌現能力差距
許多“涌現能力”只有在模型達到一定規模閾值時才會出現。SLMs通常達不到參數水平以支持高級邏輯推理或深度上下文理解。谷歌研究的研究表明,在數學文字題中,小型模型難以處理基本算術,而大型模型則突然表現出復雜的數學推理能力。
不過,Hugging Face的最新研究表明,通過測試時的計算擴展可以部分彌補這一差距。使用迭代自我優化或獎勵模型等策略,小型模型可以“更長時間地思考”復雜問題。例如,在擴展生成時間后,小型模型(1B和3B)在MATH-500基準上超過了其更大的對手(8B和70B)。
💡提示:如果您的任務環境經常變化,需要分析大規模文檔,或涉及復雜邏輯問題,大型LLMs往往更可靠和通用。
總結與結論
就像我在上一篇文章《在OpenAI和自托管LLMs之間的選擇》中討論的那樣,這里也沒有放之四海而皆準的解決方案。如果您的任務涉及持續變化、缺乏明確的專業化或需要快速原型設計,LLMs提供了一個輕松的起點。
然而,隨著您的目標逐漸明確,轉向緊湊、專用的SLM智能體可以顯著降低成本,提高準確性,并簡化遵守監管要求的流程。
從LLM的快速原型設計到優化的SLM智能體生態系統的遷移
SLMs不是為了追求潮流而提出的顛覆性范式,而是一種務實的方法。它能夠更準確、更具成本效益地解決特定問題,而無需為不必要的功能支付額外費用。您不需要完全拋棄LLMs——您可以逐步將部分組件替換為SLMs,甚至是傳統的NLP方法。這一切取決于您的指標、預算和任務的性質。
一個很好的例子是IBM,他們采用了多模型策略,將不同任務分配給較小的模型。正如他們所指出的:
“更大并不總是更好,專用模型在基礎設施需求更低的情況下表現優于通用模型。”
最終,成功的關鍵在于適應性。從一個大型模型開始,評估其最佳表現的領域,然后優化您的架構,以避免為不必要的功能支付過高的費用,同時保持數據隱私。這種方法允許您結合兩者的優勢:LLMs在初期階段的靈活性和通用性,以及成熟產品階段SLMs的精準性和高性價比。
關鍵提示總結
1. 不要追趕潮流
在解決任務之前,計算使用API或自建服務器的成本,并分析是否需要LLMs。
2. 混合方法
在原型階段使用LLMs,等任務明確和穩定后切換到更小、更便宜的模型。
3. 專注于小任務
識別重復性高的任務,并開發專用SLM智能體。
4. 重視隱私和合規性
如果您處于高度受監管的領域(如醫療、金融或法律),請優先考慮SLMs以降低數據泄露風險并快速適應監管變化。
5. 以需求為中心
大模型適用于任務多變、文檔處理量大或邏輯復雜的場景。SLMs適用于穩定、專用的任務或對成本敏感的場景。