您的公司需要小型語言模型

當專用模型超越通用模型時

“越大越好”——這個原則在人工智能領域根深蒂固。每個月都有更大的模型誕生,參數越來越多。各家公司甚至為此建設價值100億美元的AI數據中心。但這是唯一的方向嗎?

在NeurIPS 2024大會上,OpenAI聯合創始人伊利亞·蘇茨克弗提出了一個觀點:“我們所熟知的預訓練將無可爭議地終結。”這表明大規模化的時代即將結束,現在是時候專注于改進當前的方法和算法了。

其中一個最有前景的領域是使用參數量不超過10B的小型語言模型(SLMs)。這種方法在行業內正逐步嶄露頭角。例如,Hugging Face的CEO克萊姆·德朗格預測,高達99%的應用場景可以使用SLMs來解決。類似的趨勢也體現在YC對創業公司的最新需求中:

大規模的通用模型確實令人印象深刻,但它們也非常昂貴,常常伴隨著延遲和隱私挑戰。

在我上一篇文章《您真的需要托管的LLMs嗎?》中,我探討了是否需要自托管模型。現在,我進一步提出問題:您是否真的需要LLMs?

本文摘要

在本文中,我將探討為何小型模型可能是您的業務所需的解決方案。我們將討論它們如何降低成本、提高準確性并保持數據控制。當然,我們也會誠實地討論它們的局限性。

成本效益

LLMs的經濟學可能是企業最頭疼的話題之一。但問題更廣泛,包括昂貴的硬件需求、基礎設施成本、能源消耗及環境后果。

是的,大型語言模型在能力上令人驚艷,但維護成本同樣高昂。您可能已經注意到基于LLMs的應用程序訂閱價格的上漲?例如,OpenAI最近宣布推出200美元/月的Pro計劃,這表明成本正在增加。競爭對手也很可能會提高到類似價格水平。

200美元的Pro計劃

Moxie機器人是一個很好的例子。Embodied公司開發了一款售價800美元的兒童伴侶機器人,使用了OpenAI API。盡管產品成功(孩子們每天發送500–1000條消息),但由于API的高運營成本,公司不得不關閉。現在,成千上萬的機器人將變得無用,孩子們也會失去他們的朋友。

一種解決方案是為您的特定領域微調專用的小型語言模型。雖然不能解決“世界上所有問題”,但它可以完美應對特定任務。例如,分析客戶文檔或生成特定報告。同時,SLMs更經濟,資源消耗更少,所需數據更少,可以運行在更普通的硬件上(甚至是智能手機上)。

不同參數模型的利用率對比

最后,不要忘了環境因素。在《碳排放與大規模神經網絡訓練》一文中,我發現了一些令人震驚的統計數據:訓練擁有1750億參數的GPT-3所耗電量相當于美國普通家庭120年的用電量,同時產生502噸二氧化碳,相當于超過100輛汽油車一年的排放。而這還不包括推理成本。相比之下,部署一個更小的7B模型僅需大模型消耗的5%。那么最新的o3模型呢?

模型 o3 的二氧化碳排放量。

💡提示:不要盲目追趕潮流。在解決任務之前,計算API或自建服務器的使用成本。思考這種系統的擴展性以及使用LLMs是否合理。

專用任務上的性能

現在我們已經討論了經濟學問題,接下來說說質量。當然,很少有人愿意僅僅為了節約成本而犧牲解決方案的準確性。但即使在這方面,SLMs也有其優勢。

領域內內容審核的表現

比較SLMs與LLMs在領域內內容審核的準確率、召回率和精確率。最佳表現的SLMs在準確率和召回率上超過了LLMs,而LLMs在精確率上表現更佳。

許多研究表明,對于高度專業化的任務,小型模型不僅能與大型LLMs競爭,甚至經常超越它們。以下是幾個具有代表性的例子:

1. 醫學領域

Diabetica-7B模型(基于Qwen2-7B)在糖尿病相關測試中達到了87.2%的準確率,而GPT-4為79.17%,Claude-3.5為80.13%。盡管如此,Diabetica-7B的規模遠小于GPT-4,可以在消費級GPU上本地運行。

2. 法律領域

一個僅有0.2B參數的SLM在合同分析中達到了77.2%的準確率(GPT-4約為82.4%)。此外,在識別用戶協議中的“不公平”條款等任務中,SLM在F1指標上甚至優于GPT-3.5和GPT-4。

3. 數學任務

谷歌DeepMind的研究表明,將一個小型模型Gemma2-9B訓練在另一個小型模型生成的數據上,比在更大模型Gemma2-27B的數據上訓練效果更好。小型模型往往能更專注于細節,而不會像大模型那樣“試圖展現全部知識”。

4. 內容審核

LLaMA 3.1 8B在15個熱門subreddits的內容審核中,準確率提高了11.5%,召回率提高了25.7%,超過了GPT-3.5。這是通過4位量化實現的,這進一步減少了模型的規模。

用于PubMedQA的領域內SLM與LLMs的對比

更進一步地說,即使是傳統的自然語言處理方法也往往表現出色。讓我分享一個實際案例:我正在開發一款心理支持產品,每天處理用戶發送的超過1000條消息。這些消息會被分類到以下四個類別之一:

消息分類方案

? SUPPORT:關于應用如何工作的提問;我們用文檔中的內容回答。

? GRATITUDE:用戶感謝機器人;我們簡單地發送一個“點贊”。

? TRY_TO_HACK:用戶請求與應用目的無關的內容(如“用Python寫一個函數”)。

? OTHER:其他所有消息,將進一步處理。

起初,我使用GPT-3.5-turbo進行分類,后來切換到GPT-4o mini,花費了大量時間調整提示詞,但仍然遇到錯誤。于是我嘗試了傳統方法:TF-IDF + 簡單分類器。訓練時間不到一分鐘,宏觀F1分數從GPT-4o mini的0.92提高到0.95。模型大小僅為76MB,并且在處理我們實際的200萬條消息數據時,節省的成本非常顯著:基于GPT的解決方案大約花費500美元,而傳統方法幾乎不需要成本。

GPT-4o mini與TF-IDF模型的準確率、速度和成本對比表

在我們的產品中,還有幾項類似的“小型”簡單任務。我相信您的公司也能找到類似的場景。當然,大型模型對于快速啟動非常有用,特別是當沒有標注數據且需求不斷變化時。但對于定義明確、穩定的任務,且準確性和最低成本是關鍵的場景,專用的簡單模型(包括傳統方法)通常更為有效。

💡提示:使用LLMs進行原型設計,然后當任務明確且穩定時,切換到更小、更便宜、更準確的模型。這種混合方法有助于保持高質量,同時顯著降低成本,避免通用模型的冗余。

安全性、隱私性與合規性

通過API使用LLMs,您實際上將敏感數據交給了外部提供商,這增加了泄露的風險,并使遵守HIPAA、GDPR和CCPA等嚴格法規變得更加復雜。OpenAI最近宣布計劃引入廣告,這進一步突顯了這些風險。您的公司不僅失去了對數據的完全控制,還可能依賴于第三方的服務等級協議(SLAs)。

當然,也可以本地運行LLMs,但部署和擴展的成本(數百GB內存、多塊GPU)通常超出了合理的經濟范圍,也難以快速適應新的監管要求。而在低端硬件上運行LLMs更是難以實現。

云端API風險與設備端SLM優勢的對比。

這是小型語言模型(SLMs)發揮優勢的地方:

1. 簡化審計

SLMs的較小規模降低了審計、驗證和定制以滿足特定法規的門檻。您可以更容易理解模型如何處理數據,實現自定義加密或日志記錄,并向審計員證明信息從未離開受信任的環境。作為一家醫療公司創始人,我深知這項任務的挑戰和重要性。

2. 在隔離和低端硬件上運行

LLMs很難高效地“部署”在隔離的網絡環境或智能手機上。而SLMs因計算需求較低,可以幾乎在任何地方運行:從私人網絡中的本地服務器,到醫生或檢查員的設備。根據IDC的預測,到2028年,超過9億部智能手機將具備本地運行生成式AI模型的能力。

3. 應對新法規的更新與適應

法規和法律經常變化——緊湊的模型可以在數小時內完成微調或調整,而不是數天。這使得企業能夠快速響應新要求,無需進行大規模的基礎設施升級,這通常是大型LLMs的特征。

4. 分布式安全架構

與LLMs的一體化架構不同,其中所有安全組件都“內嵌”到一個大型模型中,SLMs允許創建分布式安全系統。每個組件:

o 專注于特定任務。

o 可獨立更新和測試。

o 可與其他組件獨立擴展。

例如,一個醫療應用程序可以使用由三個模型組成的級聯架構:

? 隱私保護器(2B參數):屏蔽個人數據。

? 醫學驗證器(3B參數):確保醫學準確性。

? 合規性檢查器(1B參數):監控HIPAA合規性。

小型模型更容易驗證和更新,使整體架構更加靈活可靠。

數據隱私功能對比表

💡提示:如果您的行業受嚴格監管(如醫療、金融或法律領域),請考慮使用SLMs。特別關注數據傳輸政策以及法規變化的頻率。

AI智能體:完美的應用場景

還記得老式Unix哲學“專注做好一件事”嗎?現在看來,我們正在將這一原則應用到AI中。

伊利亞·蘇茨克弗在NeurIPS上的最新聲明指出,“我們所熟知的預訓練將無可爭議地終結”,下一代模型將“以真正的方式具備智能體性”。這一趨勢表明AI正向更細化、更專業化的方向發展。Y Combinator更進一步預測,AI智能體可能創造出比SaaS大10倍的市場。

例如,目前已有12%的企業解決方案采用基于智能體的架構。此外,分析師預測智能體將成為AI轉型的下一波浪潮,不僅會影響4000億美元的軟件市場,還將影響10萬億美元的美國服務業經濟。

SLMs是這些智能體的理想候選者。雖然單一模型功能有限,但一群這樣的模型——可以逐步解決復雜任務。更快、更高質量且成本更低。

信息流示例:專用智能體之間的任務分配

這種方法不僅更加經濟,還更加可靠:每個智能體專注于自己最擅長的部分。更便宜、更快、更好。是的,我再強調一次。

以下是一些支持這一點的公司案例:

1. H公司:在種子輪融資中籌集了1億美元,用于開發基于SLMs(2–3B參數)的多智能體系統。他們的智能體Runner H(3B)在任務完成成功率上達到67%,相比之下,Anthropic的Computer Use僅為52%,而成本顯著更低。

2. Liquid AI:最近獲得了2.5億美元資金,專注于構建高效的企業模型。他們的1.3B參數模型在同類規模模型中表現最佳。同時,他們的LFM-3B模型在性能上與7B甚至13B模型相當,但所需內存更少。

3. Cohere:推出了Command R7B,一個用于RAG(檢索增強生成)應用的專用模型,甚至可以在CPU上運行。該模型支持23種語言,并能與外部工具集成,在推理和問答任務中表現最佳。

4. 貴公司名稱:也可以加入這一名單。在我工作的Reforma Health公司中,我們正在為不同的醫療領域開發專用的SLMs。這一決策是基于遵守HIPAA要求及醫療信息處理的特殊需求而做出的。我們的經驗表明,高度專業化的SLMs在受監管領域中可以成為顯著的競爭優勢。

這些案例表明:

? 投資者看好專用小型模型的未來。

? 企業客戶愿意為無需向外部提供商發送數據的高效解決方案買單。

? 市場正從依賴“通用”大模型向“智能”專用智能體轉變。

💡提示:首先識別項目中重復性高的任務。這些任務是開發專用SLM智能體的最佳候選者。這樣可以避免為LLMs的過剩能力支付過高的費用,同時獲得更高的流程控制能力。

SLMs與LLMs的局限性對比

盡管本文一直在贊揚小型模型,但公平起見,也必須指出它們的局限性:

1. 任務靈活性有限

SLMs的最大局限在于其窄化的專業性。與LLMs不同,SLMs只能在其訓練的特定任務中表現出色。例如,在醫學領域,Diabetica-7B在糖尿病測試中表現優異,但其他醫療學科需要額外微調或新的架構。

LLMs與SLMs:靈活性與專業性的對比

2. 上下文窗口限制

與上下文長度可達1M tokens(如Gemini 2.0)的大型模型相比,SLMs的上下文較短。盡管最新的小型LLaMA 3.2模型(3B、1B)支持128k tokens的上下文長度,但實際效果往往不如預期:模型常常無法高效連接文本開頭和結尾。例如,SLMs無法高效處理長達數年的患者病史或大篇幅的法律文檔。

不同模型最大上下文長度對比

3. 涌現能力差距

許多“涌現能力”只有在模型達到一定規模閾值時才會出現。SLMs通常達不到參數水平以支持高級邏輯推理或深度上下文理解。谷歌研究的研究表明,在數學文字題中,小型模型難以處理基本算術,而大型模型則突然表現出復雜的數學推理能力。

不過,Hugging Face的最新研究表明,通過測試時的計算擴展可以部分彌補這一差距。使用迭代自我優化或獎勵模型等策略,小型模型可以“更長時間地思考”復雜問題。例如,在擴展生成時間后,小型模型(1B和3B)在MATH-500基準上超過了其更大的對手(8B和70B)。

💡提示:如果您的任務環境經常變化,需要分析大規模文檔,或涉及復雜邏輯問題,大型LLMs往往更可靠和通用。

總結與結論

就像我在上一篇文章《在OpenAI和自托管LLMs之間的選擇》中討論的那樣,這里也沒有放之四海而皆準的解決方案。如果您的任務涉及持續變化、缺乏明確的專業化或需要快速原型設計,LLMs提供了一個輕松的起點。

然而,隨著您的目標逐漸明確,轉向緊湊、專用的SLM智能體可以顯著降低成本,提高準確性,并簡化遵守監管要求的流程。

從LLM的快速原型設計到優化的SLM智能體生態系統的遷移

SLMs不是為了追求潮流而提出的顛覆性范式,而是一種務實的方法。它能夠更準確、更具成本效益地解決特定問題,而無需為不必要的功能支付額外費用。您不需要完全拋棄LLMs——您可以逐步將部分組件替換為SLMs,甚至是傳統的NLP方法。這一切取決于您的指標、預算和任務的性質。

一個很好的例子是IBM,他們采用了多模型策略,將不同任務分配給較小的模型。正如他們所指出的:

“更大并不總是更好,專用模型在基礎設施需求更低的情況下表現優于通用模型。”

最終,成功的關鍵在于適應性。從一個大型模型開始,評估其最佳表現的領域,然后優化您的架構,以避免為不必要的功能支付過高的費用,同時保持數據隱私。這種方法允許您結合兩者的優勢:LLMs在初期階段的靈活性和通用性,以及成熟產品階段SLMs的精準性和高性價比。

關鍵提示總結

1. 不要追趕潮流

在解決任務之前,計算使用API或自建服務器的成本,并分析是否需要LLMs。

2. 混合方法

在原型階段使用LLMs,等任務明確和穩定后切換到更小、更便宜的模型。

3. 專注于小任務

識別重復性高的任務,并開發專用SLM智能體。

4. 重視隱私和合規性

如果您處于高度受監管的領域(如醫療、金融或法律),請優先考慮SLMs以降低數據泄露風險并快速適應監管變化。

5. 以需求為中心

大模型適用于任務多變、文檔處理量大或邏輯復雜的場景。SLMs適用于穩定、專用的任務或對成本敏感的場景。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/64885.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/64885.shtml
英文地址,請注明出處:http://en.pswp.cn/web/64885.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

uniapp-vue3(下)

關聯鏈接:uniapp-vue3(上) 文章目錄 七、咸蝦米壁紙項目實戰7.1.咸蝦米壁紙項目概述7.2.項目初始化公共目錄和設計稿尺寸測量工具7.3.banner海報swiper輪播器7.4.使用swiper的縱向輪播做公告區域7.5.每日推薦滑動scroll-view布局7.6.組件具名…

使用 Python 實現隨機中點位移法生成逼真的裂隙面

使用 Python 實現隨機中點位移法生成逼真的裂隙面 一、隨機中點位移法簡介 1. 什么是隨機中點位移法?2. 應用領域 二、 Python 代碼實現 1. 導入必要的庫2. 函數定義:隨機中點位移法核心邏輯3. 設置隨機數種子4. 初始化二維裂隙面5. 初始化網格的四個頂點…

mysql之組內排序ROW_NUMBER()函數

有個需求,需要組內排序,之前似乎從未接觸過此類排序,故查詢了一下,記錄sql執行結果。 表如下: play_log: 日期 (fdate)用戶 ID (user_id)歌曲 ID (song_id)2022-01-081000002022-01-161000002022-01-201000002022-0…

Android TV端彈出的PopupWindow沒有獲取焦點

在 TV 開發中,焦點管理是通過 Focus Navigation 實現的,PopupWindow 默認不接受焦點,導致遙控器無法選擇彈窗內的控件。這是因為 PopupWindow 默認不會將焦點傳遞到其內容視圖上。 要解決問題,可以通過以下步驟調整 PopupWindow …

活動預告 | Microsoft Power Platform 在線技術公開課:實現業務流程自動化

課程介紹 參加“Microsoft Power Platform 在線技術公開課:實現業務流程自動化”活動,了解如何更高效地開展業務。參加我們舉辦的本次免費培訓活動,了解如何借助 Microsoft AI Builder 和 Power Automate 優化工作流。結合使用這些工具可以幫…

FPGA(二)組成結構基礎內容

1. FPGA的基本結構 FPGA主要由以下部分組成: (1)可編程邏輯單元(CLB):CLB是FPGA中最基本的邏輯單元,由查找表(LUT)和觸發器組成,可實現任意邏輯功能。查找表…

LLM(十二)| DeepSeek-V3 技術報告深度解讀——開源模型的巔峰之作

近年來,大型語言模型(LLMs)的發展突飛猛進,逐步縮小了與通用人工智能(AGI)的差距。DeepSeek-AI 團隊最新發布的 DeepSeek-V3,作為一款強大的混合專家模型(Mixture-of-Experts, MoE&a…

el-pagination 為什么只能展示 10 條數據(element-ui@2.15.13)

好的&#xff0c;我來幫你分析前端為什么只能展示 10 條數據&#xff0c;以及如何解決這個問題。 問題分析&#xff1a; pageSize 的值&#xff1a; 你的 el-pagination 組件中&#xff0c;pageSize 的值被設置為 10&#xff1a;<el-pagination:current-page"current…

TCP網絡編程(一)—— 服務器端模式和客戶端模式

這篇文章將會編寫基本的服務器網絡程序&#xff0c;主要講解服務器端和客戶端代碼的原理&#xff0c;至于網絡名詞很具體的概念&#xff0c;例如什么是TCP協議&#xff0c;不會過多涉及。 首先介紹一下TCP網絡編程的兩種模式&#xff1a;服務器端和客戶端模式&#xff1a; 首先…

C# 設計模式(行為型模式):責任鏈模式

C# 設計模式&#xff08;行為型模式&#xff09;&#xff1a;責任鏈模式 責任鏈模式&#xff08;Chain of Responsibility Pattern&#xff09;是一種行為型設計模式&#xff0c;用于讓多個對象有機會處理同一個請求&#xff0c;避免請求發送者與接收者之間的耦合。它通過將請…

在K8S中,如何部署kubesphere?

在Kubernetes集群中&#xff0c;對于一些基礎能力較弱的群體來說K8S控制面板操作存在一定的難度&#xff0c;此時kubesphere可以有效的解決這類難題。以下是部署kubesphere的操作步驟&#xff1a; 操作部署&#xff1a; 1. 部署nfs共享存儲目錄 yum -y install nfs-server e…

CSS系列(43)-- Anchor Positioning詳解

前端技術探索系列&#xff1a;CSS Anchor Positioning詳解 &#x1f3af; 致讀者&#xff1a;探索智能定位的藝術 &#x1f44b; 前端開發者們&#xff0c; 今天我們將深入探討 CSS Anchor Positioning&#xff0c;這個強大的元素定位特性。 基礎概念 &#x1f680; 錨點設…

Python判別不同平臺操作系統調用相應的動態庫讀寫NFC

本示例使用的發卡器&#xff1a;https://item.taobao.com/item.htm?spma21dvs.23580594.0.0.52de2c1bV0E4YV&ftt&id615391857885 import sys import struct # struct的pack函數把任意數據類型變成字符串 import ctypes # 調用DLL動態庫要有這個引用if sys.platform…

樹莓派之旅-第一天 系統的燒錄和設置

自言自語&#xff1a; 在此記錄一下樹莓派的玩法。以后有錢了買點來玩啊草 系統的安裝燒錄 系統下載 樹莓派官網&#xff1a;https://www.raspberrypi.com/ 首頁點擊SoftWare進入OS下載頁面 這里是安裝工具&#xff1a;安裝工具負責將系統鏡像安裝到sd卡中 點擊下載符合自己…

商用車自動駕駛,迎來大規模量產「臨界點」?

商用車自動駕駛&#xff0c;正迎來新的行業拐點。 今年初&#xff0c;交通部公開發布AEB系統運營車輛標配征求意見稿&#xff0c;首次將法規限制條件全面放開&#xff0c;有望推動商用車AEB全面標配&#xff0c;為開放場景的商用車智能駕駛市場加了一把火。 另外&#xff0c;…

人工智能及深度學習的一些題目

1、一個含有2個隱藏層的多層感知機&#xff08;MLP&#xff09;&#xff0c;神經元個數都為20&#xff0c;輸入和輸出節點分別由8和5個節點&#xff0c;這個網絡有多少權重值&#xff1f; 答&#xff1a;在MLP中&#xff0c;權重是連接神經元的參數&#xff0c;每個連接都有一…

Solon 加入 GitCode:助力國產 Java 應用開發新飛躍

在當今數字化快速發展的時代&#xff0c;Java 應用開發框架不斷演進&#xff0c;開發者們始終在尋找更快、更小、更簡單的解決方案。近期&#xff0c;Solon 正式加入 GitCode&#xff0c;為廣大 Java 開發者帶來全新的開發體驗&#xff0c;尤其是在國產應用開發進程中&#xff…

VScode 只能運行c,運行不了c++的解決問題

原文鏈接&#xff1a;Vscode只能運行c&#xff0c;運行不了c的解決方法 VScode 只能運行c&#xff0c;運行不了c&#xff0c;怎么回事呢&#xff0c;解決問題&#xff1a; 在tasks.json中加上“"-lstdc"”&#xff0c; 這樣之后 要重啟VScode&#xff0c;點擊鏈接…

Ansible Jinja2 語法簡介及使用

1、Jinja2 介紹 Jinja2 是基于 python 的模板引擎&#xff0c;功能比較類似于 PHP 的 smarty&#xff0c;J2ee 的 Freemarker和velocity。它能完全支持unicode&#xff0c;并具有集成的沙箱執行環境&#xff0c;應用廣泛。 jinja2使用BSD授權 Jinja2的語法是由 variables(變量…

SpringCloud系列教程:微服務的未來 (五)枚舉處理器、JSON處理器、分頁插件實現

在現代 Java 開發中&#xff0c;我們常常需要處理各種通用的功能和需求&#xff0c;諸如枚舉的處理、JSON 數據處理&#xff0c;以及分頁查詢等。這些功能雖然看似簡單&#xff0c;但在實際開發中往往涉及到許多細節和優化。為了提高開發效率、減少重復代碼的編寫&#xff0c;我…