過去幾年,我們看到人工智能能力呈爆炸式增長,其中很大一部分是由大型語言模型 (LLM) 的進步推動的。GPT-3 等模型包含 1750 億個參數,已經展示了生成類似人類的文本、回答問題、總結文檔等能力。然而,雖然 LLM 的能力令人印象深刻,但它們龐大的規模導致效率、成本和可定制性方面的缺點。這為一種名為小型語言模型 (SLM) 的新興模型類別打開了大門。
讓我們深入了解小型語言模型的興起:
- 什么是小語言模型?
- 開發小型語言模型的動機——效率、成本、可定制性
- 有用的語言模型可以有多小?
- 訓練高效小語言模型的方法
- 小型語言模型大放異彩的示例應用
- 支持創建自定義 SLM 的開發人員框架
- 空間激光雷達發展與部署的未來機遇與挑戰
最后,您將了解小型語言模型在以可定制和經濟的方式將語言 AI ??的強大功能帶到更專業領域的前景。
什么是小語言模型?
語言模型是針對大型文本數據集進行訓練的 AI 系統,可實現生成文本、總結文檔、語言間翻譯和回答問題等功能。小型語言模型可以滿足大部分相同的需求,但模型大小明顯較小。但小型語言模型由什么構成?
研究人員通常認為,參數少于 1 億的語言模型相對較小,有些甚至會將參數限制在 1000 萬或 100 萬的較低閾值。相比之下,如今規模龐大的模型參數超過 1000 億,例如上述 OpenAI 的 GPT-3 模型。
較小的模型尺寸使小型語言模型比最大的模型更高效、更經濟、更可定制。然而,它們的整體能力較低,因為語言模型中的模型容量已被證明與尺寸相關。確定實際應用的最佳模型尺寸需要在靈活性和可定制性與純粹的模型性能之間進行權衡。
小型語言模型的動機
如上所述,與大型語言模型相比,小型語言模型在效率、成本和可定制性方面具有先天優勢。讓我們更詳細地分析一下這些動機:
效率
由于參數較少,小型語言模型在以下幾個方面的計算效率明顯高于 GPT-3 等大型模型:
- 由于每個輸入需要執行的參數更少,因此它們的推理速度/吞吐量更快
- 由于整體模型尺寸較小,它們需要的內存和存儲空間也較少
- 較小的數據集足以訓練小型語言模型。隨著模型容量的增長,對數據的需求也隨之增長。
這些效率優勢可直接轉化為成本節省:
成本
大型語言模型需要大量的計算資源來訓練和部署。據估計,OpenAI 開發 GPT-3 的成本約為數千萬美元,包括硬件和工程成本。由于資源需求,當今許多公開的大型語言模型尚未盈利。
同時,小型語言模型可以很容易地在許多企業可用的商用硬件上進行訓練、部署和運行,而無需花費太多資金。它們合理的資源需求開啟了邊緣計算的應用,它們可以在低功耗設備上離線運行。總的來說,短期內找到小型語言模型盈利應用的潛力更大。
可定制性
小型語言模型相對于大型語言模型的一個關鍵優勢是可定制性。雖然 GPT-3 等模型在許多任務中表現出了強大的多功能性,但它們的功能仍然代表了一種在各個領域之間平衡性能的折衷解決方案。
另一方面,小型語言模型可以很容易地適應更狹窄的領域和專門的應用。憑借更快的迭代周期,小型語言模型使得通過以下方法嘗試針對特定類型的數據定制模型成為可能:
- 預訓練——在特定領域的數據集上啟動小模型
- 微調——持續訓練以優化最終任務數據
- 基于提示的學習——針對專門應用優化模型提示
- 架構修改——調整模型結構以適應特定任務
對于大型模型來說,這些定制過程變得越來越困難。小型語言模型不僅易于訪問,還提供了開發人員可以根據其特定需求進行調整的規范。
有用的語言模型可以有多小?
考慮到上述最小化模型尺寸的動機,一個自然而然的問題出現了——我們可以將語言模型縮小到什么程度,同時仍然保持強大的功能?最近的研究繼續探索完成不同語言任務所需的模型規模的下限。
許多研究發現,現代訓練方法只需 100 萬到 1000 萬個參數就能讓模型具備基本的語言能力。例如,2023 年發布的一個 800 萬個參數的模型在既定的 GLUE 自然語言理解基準上達到了 59% 的準確率。
隨著模型容量的增加,性能不斷提高。 2023 年的一項研究發現,在從推理到翻譯的各個領域,一旦語言模型達到約 6000 萬個參數,不同任務的有用能力閾值就會一致通過。 然而,在 2 億到 3 億個參數規模之后,回報就會減少——增加額外的容量只會帶來漸進的性能提升。
這些發現表明,即使是中型語言模型,只要接觸到足夠多的正確訓練數據,也能在許多語言處理應用中達到合理的能力。然后,性能會達到一個平臺期,在這個平臺上,大量的計算和數據似乎沒有提供什么額外的價值。商業上可部署的小型語言模型的最佳點可能就在這個平臺期附近,在廣泛的能力和精益的效率之間取得平衡。
當然,經過深度而非廣泛調整的專門小語言模型可能需要更少的容量才能在小眾任務中脫穎而出。我們稍后會介紹一些應用用例。但首先,讓我們概述一下有效訓練緊湊但功能強大的小語言模型的流行技術。
高效小型語言模型的訓練方法
積極訓練日益熟練的小型語言模型依賴于在學習過程中增強數據效率和模型利用率的方法。與大型模型的簡單訓練相比,這些技術最終為每個參數賦予了更多的能力。我們將在這里分解一些流行的方法:
遷移學習
大多數現代語言模型訓練都利用了某種形式的遷移學習,其中模型通過首先在廣泛的數據集上進行訓練來引導能力,然后再專門針對狹窄的目標領域。初始預訓練階段將模型暴露給廣泛的語言示例,這對于學習一般的語言規則和模式很有用。
盡管參數預算有限,但小型語言模型可以在預訓練期間捕捉到這種廣泛的能力。然后,專業化階段可以針對特定應用進行細化,而無需擴大模型規模。總體而言,遷移學習大大提高了訓練小型語言模型的數據效率。
自監督學習
遷移學習訓練通常利用自監督目標,其中模型通過預測輸入文本序列中被屏蔽或損壞的部分來發展基礎語言技能。這些自監督預測任務可作為下游應用程序的預訓練。
最近的分析發現,自監督學習似乎特別有效地賦予小型語言模型強大的能力——比大型模型更有效。通過將語言建模呈現為交互式預測挑戰,自監督學習迫使小型模型從顯示的每個數據示例中進行深度概括,而不是簡單地被動地記住統計數據。這在訓練期間可以更充分地利用模型容量。
架構選擇
并非所有神經網絡架構都具有同等的參數效率,可用于語言任務。精心選擇架構可將模型容量集中在對語言建模至關重要的領域,例如注意力機制,同時剝離不太重要的組件。
例如,Efficient Transformers 已成為一種流行的小型語言模型架構,它在訓練過程中采用了知識蒸餾等各種技術來提高效率。相對于基線 Transformer 模型,Efficient Transformers 實現了類似的語言任務性能,而參數減少了 80% 以上。有效的架構決策可以放大公司從有限規模的小型語言模型中提取的能力。
上述技術推動了快速發展,但如何最有效地訓練小型語言模型仍有許多懸而未決的問題。隨著小型語言模型擴展到新領域,確定模型規模、網絡設計和學習方法的最佳組合以滿足項目需求將繼續讓研究人員和工程師忙個不停。接下來,我們將重點介紹一些開始采用小型語言模型和定制 AI 的應用用例。
小型語言模型大放異彩的示例應用
盡管人們對人工智能的熱情通常集中在吸引眼球的大型模型上,但許多公司已經通過部署根據其特定需求定制的小型語言模型找到了實用性。我將重點介紹一些代表性示例,例如金融和娛樂領域,在這些領域中,緊湊、專業的模型正在創造商業價值:
更多資訊,請訪問 2img.ai
金融機構生成大量數字數據和文檔,可以使用小型定制語言模型來提取見解。具有高投資回報率的用例包括:
- 交易分類器自動使用會計類別對發票項目進行編碼,以加快輸入簿記系統的速度。
- 情緒模型從收益電話會議記錄中提取意見,通過檢測管理層基調的變化來產生交易信號。
- 自定義實體有助于將非結構化銀行對賬單系統化為標準化數據報告業務收入,以進行貸款風險分析。
這些應用程序將語言人工智能轉化為直接流程自動化,并改進現有財務工作流程中的分析能力——加速盈利模式,而不是僅僅猜測技術前景。風險管理在金融服務中仍然至關重要,更傾向于狹義的語言模型,而不是通用智能。
娛樂
隨著創造性過程與先進技術的融合,媒體、游戲和相關娛樂垂直行業成為語言 AI ??解決方案最具前瞻性的采用者:
- 小型語言模型利用自然語言生成,自動創建動畫的初稿腳本或散文,創作者隨后對其進行完善,從而大幅提高個人生產力。
- 在開放世界游戲中,對話模型會根據用戶環境生成動態對話樹,從而擴大虛擬現實范圍內的交互自由。
- 更強大的語言分析功能豐富了娛樂元數據,例如通過字幕內容的模式識別電影主題,以便推薦引擎更好地將觀眾與他們的獨特興趣聯系起來。
娛樂的創意空間為探索小型語言模型生成前沿提供了理想的試驗臺。盡管鑒于模型的局限性,當前的應用仍需監督,但小型語言模型的效率為開發人員提供了充足的空間來探索創意潛力。
ParagogerAI訓練營 2img.ai
用于構建自定義 SLM 的開發人員框架
那么,既然前景如此光明,開發人員如何才能真正開始構建專門定制的小型語言模型呢?開源技術讓企業跨領域、跨規模地實現定制語言 AI。以下全方位服務平臺能夠以經濟高效的方式創建和部署定制的小型語言模型:
🤗 Hugging Face Hub — Hugging Face 提供統一的機器學習操作平臺,用于托管數據集、編排模型訓練管道以及通過 API 或應用程序高效部署預測。他們的 Clara Train 產品專注于最先進的自監督學習,用于創建緊湊但功能強大的小型語言模型。
Anthropic Claude — 由專注于模型安全的 ConstitutionalAI 的開發者開發,Claude 只需幾行代碼即可輕松訓練自定義分類器、文本生成器、摘要器等。內置安全約束和監控可抑制部署期間的潛在風險。
? Cohere for AI — Cohere 提供了一個開發人員友好的平臺,用于從自己的訓練數據或導入的自定義集中提取多達 100 萬個參數來構建語言模型。客戶端托管選項提供端到端隱私合規性。
Assembler — Assembler 提供用于開發專門針對特定數據輸入的讀取器、編寫器和分類器小型語言模型的工具。其簡單的 Web 界面掩蓋了模型創建和監控的基礎設施復雜性。
上述服務體現了現在已準備好探索語言 AI ??可能性的公司可以實現的交鑰匙體驗。機器學習專業知識本身很有幫助,但對于合適的合作伙伴來說,這不再是硬性先決條件。這使得更多行業能夠從 AI 專業化中創造價值。
特定領域 SLM 的出現
到目前為止,我們已經介紹了小型語言模型的一般功能,以及它們與大規模通用 LLM 相比在效率、定制和監督方面的優勢。然而,通過在小眾數據集上進行訓練,SLM 還擅長處理專門的用例。
隨著大型語言模型規模的擴大,它們變得樣樣精通,但樣樣不精。它們的知識和表現在不同領域逐漸減弱。此外,將敏感數據暴露給外部 LLM 會帶來數據泄露或濫用方面的安全、合規和專有風險。
這些限制促使各行各業的組織使用內部數據資產開發自己的小型、特定領域的語言模型。定制可以更好地滿足他們特定的準確性和安全性需求。接下來我們重點介紹一些主要示例。
金融小語言模型
金融公司還部署 SLM 以滿足分析收益表、資產估值、風險建模等需求。領域熟練程度是強制性的,但敏感數據不能泄露到外部。
例如,軟銀旗下的 Fortia 使用客戶數據構建了定制的 SLM,以預測貨幣匯率和套利交易機會。緊密的專注度使其優于通用的 LLM,低延遲可實現自動化。數據安全也至關重要。
專業領域 SLM 的優勢
是什么推動了各個組織和行業開發專有領域特定 SLM?有幾個關鍵優勢脫穎而出:
卓越的準確性:針對具有一般語料庫無法捕捉到的特性的細分數據集進行專門的模型訓練,與外部 LLM 相比,其準確性大幅提升。使用權重印記、適配器模塊和自我訓練等領域自適應技術增強模型可進一步提高準確性。
保密性:依賴通用外部模型會迫使敏感 IP、財務、醫療保健或其他機密數據暴露在外部。但內部訓練的 SLM 的嚴格架構邊界可降低數據泄露或濫用的風險。這也提供了合規性優勢。
響應能力:組織擁有完整的模型開發生命周期,可進行微調,以精確匹配客戶支持流程等專業用例。直接控制可以在數小時或數天內修改和重新部署模型,而無需與外部 LLM 提供商進行長達一個月的協調。敏捷性可加快迭代速度。
成本效益:大型語言模型不僅需要高昂的訓練成本,還需要按查詢收費。建立自己的模型可以長期攤銷費用。盡管一些過大的數據集仍然受益于預先訓練的 LLM 基礎,但將學習轉移到專門的頭腦中。
專用 SLM 面臨的挑戰
專門的 SLM 確實面臨著采用障礙,以平衡優勢:
數據充足性:許多組織缺乏大量結構化數據集來從頭開始訓練穩健的模型。在基礎模型之上使用少樣本學習適配器等替代方法會有所幫助,但一些數據密集型應用程序仍受益于外部通用模型。不過,增強等數據利用技術會有所幫助。
模型治理:開發性能可靠的 SLM 需要對開發人員工作流程、儀表、模型操作和監督進行投資,而這遠遠超出了當今許多團隊的能力。負責任的專業 AI 仍然需要治理擴展專業知識,即使對于小型模型也是如此。進步依賴于 DevOps 的成熟。
維護成本:即使是緊湊型模型也需要維護,因為數據會發生變化。但 SLM 的監控負擔和重建要求比 LLM 要輕得多。盡管如此,由于模型被視為消耗品,隨著時間的推移,模??型腐爛會削弱可靠性。致力于生命周期管理是關鍵。
小型語言模型的未來機遇與挑戰
小型語言模型帶來的效率、多功能性和易用性,標志著新一輪工業人工智能應用浪潮的開始,該浪潮針對垂直需求而非一刀切的解決方案量身定制。隨著開發人員掌握這些新的可定制代碼庫所帶來的影響,創新空間仍然巨大。
然而,考慮到語言模型固有的社會技術復雜性,即使在小規模的情況下,負責任的實施方面的實踐和勤勉也至關重要。最后,讓我們簡要強調一下未來的有希望的機遇和關鍵挑戰:
機遇:
- 定制化可以彌補通用人工智能服務不足的行業的專業空白,而語言輔助可以提高成果。
- 混合智能與人類領域專家的結合很可能在短期內被證明是最具建設性的,設計人工智能是為了增強而不是取代工作。
- 高效訓練技術和多任務模型架構的持續進步將進一步擴展小型語言模型的功能。
- 隨著更有針對性的商業回報在各個垂直領域更快地顯現出來,定制語言人工智能的采用勢頭可能會超過普遍采用。
挑戰:
- 在敏感用例中過度依賴人工智能可能會忽視人類的專業知識和做出社會明智決策所需的監督。
- 當應用模型做出超出其專門訓練分布的不受支持的推理時,數據質量和概念漂移問題會迅速加劇。
- 由于大量小模型掩蓋了特定輸出產生的原因,尤其是根據行業數據進行個性化時,透明度將變得更加難以捉摸。
- 惡意利用仍然是任何蓬勃發展的技術所面臨的一個問題,需要采取措施防止語言模型直接或間接造成傷害。
只要重視負責任的開發原則,小型語言模型就有可能在未來幾年內讓大量行業變得更好。隨著專業化人工智能的出現,我們才剛剛開始看到這些可能性。
結論
- 小型語言模型的構成以及它們在功能上與當今規模最大的模型相比如何
- 效率、成本節約和可定制性等動機推動人們采用小型語言模型而不是通用語言 AI
- 模型小型化的前沿——通過現代訓練技術,語言模型可以縮小到多小,同時保留強大的功能?
- 現實世界中,公司將專門的小型語言模型應用于教育、醫藥、金融和娛樂等垂直領域的案例
- 開發人員資源使企業能夠從對 AI 的興趣轉向使用定制語言模型進行實施
小型語言模型的體驗式技術將語言 AI ??的廣泛熱議提煉為可供商業團隊和用戶使用的實用構建模塊。ParagogerAI訓練營 2img.ai
該行業仍處于起步階段,隨著專業模型的傳播,解鎖新應用需要開發人員的創造力和對影響的深思熟慮。但現在出現的可定制語言智能似乎有望推動 AI 生產力的下一階段。