您的公司需要小型語言模型

當專用模型超越通用模型時

“越大越好”——這個原則在人工智能領域根深蒂固。每個月都有更大的模型誕生，參數越來越多。各家公司甚至為此建設價值100億美元的AI數據中心。但這是唯一的方向嗎？

在NeurIPS 2024大會上，OpenAI聯合創始人伊利亞·蘇茨克弗提出了一個觀點：“我們所熟知的預訓練將無可爭議地終結。”這表明大規模化的時代即將結束，現在是時候專注于改進當前的方法和算法了。

其中一個最有前景的領域是使用參數量不超過10B的小型語言模型（SLMs）。這種方法在行業內正逐步嶄露頭角。例如，Hugging Face的CEO克萊姆·德朗格預測，高達99%的應用場景可以使用SLMs來解決。類似的趨勢也體現在YC對創業公司的最新需求中：

大規模的通用模型確實令人印象深刻，但它們也非常昂貴，常常伴隨著延遲和隱私挑戰。

在我上一篇文章《您真的需要托管的LLMs嗎？》中，我探討了是否需要自托管模型。現在，我進一步提出問題：您是否真的需要LLMs？

本文摘要

在本文中，我將探討為何小型模型可能是您的業務所需的解決方案。我們將討論它們如何降低成本、提高準確性并保持數據控制。當然，我們也會誠實地討論它們的局限性。

成本效益

LLMs的經濟學可能是企業最頭疼的話題之一。但問題更廣泛，包括昂貴的硬件需求、基礎設施成本、能源消耗及環境后果。

是的，大型語言模型在能力上令人驚艷，但維護成本同樣高昂。您可能已經注意到基于LLMs的應用程序訂閱價格的上漲？例如，OpenAI最近宣布推出200美元/月的Pro計劃，這表明成本正在增加。競爭對手也很可能會提高到類似價格水平。

200美元的Pro計劃

Moxie機器人是一個很好的例子。Embodied公司開發了一款售價800美元的兒童伴侶機器人，使用了OpenAI API。盡管產品成功（孩子們每天發送500–1000條消息），但由于API的高運營成本，公司不得不關閉。現在，成千上萬的機器人將變得無用，孩子們也會失去他們的朋友。

一種解決方案是為您的特定領域微調專用的小型語言模型。雖然不能解決“世界上所有問題”，但它可以完美應對特定任務。例如，分析客戶文檔或生成特定報告。同時，SLMs更經濟，資源消耗更少，所需數據更少，可以運行在更普通的硬件上（甚至是智能手機上）。

不同參數模型的利用率對比

最后，不要忘了環境因素。在《碳排放與大規模神經網絡訓練》一文中，我發現了一些令人震驚的統計數據：訓練擁有1750億參數的GPT-3所耗電量相當于美國普通家庭120年的用電量，同時產生502噸二氧化碳，相當于超過100輛汽油車一年的排放。而這還不包括推理成本。相比之下，部署一個更小的7B模型僅需大模型消耗的5%。那么最新的o3模型呢？

模型 o3 的二氧化碳排放量。

💡提示：不要盲目追趕潮流。在解決任務之前，計算API或自建服務器的使用成本。思考這種系統的擴展性以及使用LLMs是否合理。

專用任務上的性能

現在我們已經討論了經濟學問題，接下來說說質量。當然，很少有人愿意僅僅為了節約成本而犧牲解決方案的準確性。但即使在這方面，SLMs也有其優勢。

領域內內容審核的表現

比較SLMs與LLMs在領域內內容審核的準確率、召回率和精確率。最佳表現的SLMs在準確率和召回率上超過了LLMs，而LLMs在精確率上表現更佳。

許多研究表明，對于高度專業化的任務，小型模型不僅能與大型LLMs競爭，甚至經常超越它們。以下是幾個具有代表性的例子：

1. 醫學領域

Diabetica-7B模型（基于Qwen2-7B）在糖尿病相關測試中達到了87.2%的準確率，而GPT-4為79.17%，Claude-3.5為80.13%。盡管如此，Diabetica-7B的規模遠小于GPT-4，可以在消費級GPU上本地運行。

2. 法律領域

一個僅有0.2B參數的SLM在合同分析中達到了77.2%的準確率（GPT-4約為82.4%）。此外，在識別用戶協議中的“不公平”條款等任務中，SLM在F1指標上甚至優于GPT-3.5和GPT-4。

3. 數學任務

谷歌DeepMind的研究表明，將一個小型模型Gemma2-9B訓練在另一個小型模型生成的數據上，比在更大模型Gemma2-27B的數據上訓練效果更好。小型模型往往能更專注于細節，而不會像大模型那樣“試圖展現全部知識”。

4. 內容審核

LLaMA 3.1 8B在15個熱門subreddits的內容審核中，準確率提高了11.5%，召回率提高了25.7%，超過了GPT-3.5。這是通過4位量化實現的，這進一步減少了模型的規模。

用于PubMedQA的領域內SLM與LLMs的對比

更進一步地說，即使是傳統的自然語言處理方法也往往表現出色。讓我分享一個實際案例：我正在開發一款心理支持產品，每天處理用戶發送的超過1000條消息。這些消息會被分類到以下四個類別之一：

消息分類方案

? SUPPORT：關于應用如何工作的提問；我們用文檔中的內容回答。

? GRATITUDE：用戶感謝機器人；我們簡單地發送一個“點贊”。

? TRY_TO_HACK：用戶請求與應用目的無關的內容（如“用Python寫一個函數”）。

? OTHER：其他所有消息，將進一步處理。

起初，我使用GPT-3.5-turbo進行分類，后來切換到GPT-4o mini，花費了大量時間調整提示詞，但仍然遇到錯誤。于是我嘗試了傳統方法：TF-IDF + 簡單分類器。訓練時間不到一分鐘，宏觀F1分數從GPT-4o mini的0.92提高到0.95。模型大小僅為76MB，并且在處理我們實際的200萬條消息數據時，節省的成本非常顯著：基于GPT的解決方案大約花費500美元，而傳統方法幾乎不需要成本。

GPT-4o mini與TF-IDF模型的準確率、速度和成本對比表

在我們的產品中，還有幾項類似的“小型”簡單任務。我相信您的公司也能找到類似的場景。當然，大型模型對于快速啟動非常有用，特別是當沒有標注數據且需求不斷變化時。但對于定義明確、穩定的任務，且準確性和最低成本是關鍵的場景，專用的簡單模型（包括傳統方法）通常更為有效。

💡提示：使用LLMs進行原型設計，然后當任務明確且穩定時，切換到更小、更便宜、更準確的模型。這種混合方法有助于保持高質量，同時顯著降低成本，避免通用模型的冗余。

安全性、隱私性與合規性

通過API使用LLMs，您實際上將敏感數據交給了外部提供商，這增加了泄露的風險，并使遵守HIPAA、GDPR和CCPA等嚴格法規變得更加復雜。OpenAI最近宣布計劃引入廣告，這進一步突顯了這些風險。您的公司不僅失去了對數據的完全控制，還可能依賴于第三方的服務等級協議（SLAs）。

當然，也可以本地運行LLMs，但部署和擴展的成本（數百GB內存、多塊GPU）通常超出了合理的經濟范圍，也難以快速適應新的監管要求。而在低端硬件上運行LLMs更是難以實現。

云端API風險與設備端SLM優勢的對比。

這是小型語言模型（SLMs）發揮優勢的地方：

1. 簡化審計

SLMs的較小規模降低了審計、驗證和定制以滿足特定法規的門檻。您可以更容易理解模型如何處理數據，實現自定義加密或日志記錄，并向審計員證明信息從未離開受信任的環境。作為一家醫療公司創始人，我深知這項任務的挑戰和重要性。

2. 在隔離和低端硬件上運行

LLMs很難高效地“部署”在隔離的網絡環境或智能手機上。而SLMs因計算需求較低，可以幾乎在任何地方運行：從私人網絡中的本地服務器，到醫生或檢查員的設備。根據IDC的預測，到2028年，超過9億部智能手機將具備本地運行生成式AI模型的能力。

3. 應對新法規的更新與適應

法規和法律經常變化——緊湊的模型可以在數小時內完成微調或調整，而不是數天。這使得企業能夠快速響應新要求，無需進行大規模的基礎設施升級，這通常是大型LLMs的特征。

4. 分布式安全架構

與LLMs的一體化架構不同，其中所有安全組件都“內嵌”到一個大型模型中，SLMs允許創建分布式安全系統。每個組件：

o 專注于特定任務。

o 可獨立更新和測試。

o 可與其他組件獨立擴展。

例如，一個醫療應用程序可以使用由三個模型組成的級聯架構：

? 隱私保護器（2B參數）：屏蔽個人數據。

? 醫學驗證器（3B參數）：確保醫學準確性。

? 合規性檢查器（1B參數）：監控HIPAA合規性。

小型模型更容易驗證和更新，使整體架構更加靈活可靠。

數據隱私功能對比表

💡提示：如果您的行業受嚴格監管（如醫療、金融或法律領域），請考慮使用SLMs。特別關注數據傳輸政策以及法規變化的頻率。

AI智能體：完美的應用場景

還記得老式Unix哲學“專注做好一件事”嗎？現在看來，我們正在將這一原則應用到AI中。

伊利亞·蘇茨克弗在NeurIPS上的最新聲明指出，“我們所熟知的預訓練將無可爭議地終結”，下一代模型將“以真正的方式具備智能體性”。這一趨勢表明AI正向更細化、更專業化的方向發展。Y Combinator更進一步預測，AI智能體可能創造出比SaaS大10倍的市場。

例如，目前已有12%的企業解決方案采用基于智能體的架構。此外，分析師預測智能體將成為AI轉型的下一波浪潮，不僅會影響4000億美元的軟件市場，還將影響10萬億美元的美國服務業經濟。

SLMs是這些智能體的理想候選者。雖然單一模型功能有限，但一群這樣的模型——可以逐步解決復雜任務。更快、更高質量且成本更低。

信息流示例：專用智能體之間的任務分配

這種方法不僅更加經濟，還更加可靠：每個智能體專注于自己最擅長的部分。更便宜、更快、更好。是的，我再強調一次。

以下是一些支持這一點的公司案例：

1. H公司：在種子輪融資中籌集了1億美元，用于開發基于SLMs（2–3B參數）的多智能體系統。他們的智能體Runner H（3B）在任務完成成功率上達到67%，相比之下，Anthropic的Computer Use僅為52%，而成本顯著更低。

2. Liquid AI：最近獲得了2.5億美元資金，專注于構建高效的企業模型。他們的1.3B參數模型在同類規模模型中表現最佳。同時，他們的LFM-3B模型在性能上與7B甚至13B模型相當，但所需內存更少。

3. Cohere：推出了Command R7B，一個用于RAG（檢索增強生成）應用的專用模型，甚至可以在CPU上運行。該模型支持23種語言，并能與外部工具集成，在推理和問答任務中表現最佳。

4. 貴公司名稱：也可以加入這一名單。在我工作的Reforma Health公司中，我們正在為不同的醫療領域開發專用的SLMs。這一決策是基于遵守HIPAA要求及醫療信息處理的特殊需求而做出的。我們的經驗表明，高度專業化的SLMs在受監管領域中可以成為顯著的競爭優勢。

這些案例表明：

? 投資者看好專用小型模型的未來。

? 企業客戶愿意為無需向外部提供商發送數據的高效解決方案買單。

? 市場正從依賴“通用”大模型向“智能”專用智能體轉變。

💡提示：首先識別項目中重復性高的任務。這些任務是開發專用SLM智能體的最佳候選者。這樣可以避免為LLMs的過剩能力支付過高的費用，同時獲得更高的流程控制能力。

SLMs與LLMs的局限性對比

盡管本文一直在贊揚小型模型，但公平起見，也必須指出它們的局限性：

1. 任務靈活性有限

SLMs的最大局限在于其窄化的專業性。與LLMs不同，SLMs只能在其訓練的特定任務中表現出色。例如，在醫學領域，Diabetica-7B在糖尿病測試中表現優異，但其他醫療學科需要額外微調或新的架構。

LLMs與SLMs：靈活性與專業性的對比

2. 上下文窗口限制

與上下文長度可達1M tokens（如Gemini 2.0）的大型模型相比，SLMs的上下文較短。盡管最新的小型LLaMA 3.2模型（3B、1B）支持128k tokens的上下文長度，但實際效果往往不如預期：模型常常無法高效連接文本開頭和結尾。例如，SLMs無法高效處理長達數年的患者病史或大篇幅的法律文檔。