端側大模型綜述On-Device Language Models: A Comprehensive Review

此為機器翻譯，僅做個人學習使用

設備端語言模型：全面回顧

DOI：10.48550/arXiv.2409.00088

1 摘要

大型語言模型（LLM）的出現徹底改變了自然語言處理應用程序，由于減少延遲、數據本地化和個性化用戶體驗等原因，在邊緣設備上運行 LLM 變得越來越有吸引力。本綜述探討了在資源受限的設備上部署計算成本高昂的 LLM 所面臨的挑戰，并探討了跨多個領域的創新解決方案。本文研究了設備端語言模型的開發、其高效架構（包括參數共享和模塊化設計）以及最先進的壓縮技術，如量化、修剪和知識蒸餾。分析了硬件加速策略和協作邊緣云部署方法，突出了性能和資源利用率之間的復雜平衡。來自主要移動制造商的設備端語言模型的案例研究展示了實際應用和潛在優勢。該審查還涉及自適應學習、多模式功能和個性化等關鍵方面。通過確定關鍵研究方向和開放挑戰，本文為設備語言模型的未來發展提供了路線圖，強調了跨學科努力的必要性，以實現無處不在的智能計算的全部潛力，同時確保負責任和合乎道德的部署。有關設備端大型語言模型（LLM）的研究工作和教育資源的全面回顧，請訪問 https://github.com/NexaAI/Awesome-LLMs-On-Device。要下載和運行設備端的 LLM，請訪問 https://www.nexaai.com/models。

2 引言

大型語言模型（LLM）的出現催化了自然語言處理（NLP）應用程序的變革性轉變。通過利用 transformer 架構（Vaswani et al.， 2017），OpenAI 的 GPT 系列等 LLM（Radford et al.， 2019;Brown et al.， 2020;Achiam等人，2023 年）和 Meta 的 LLaMA 系列（Touvron等人，2023a;b;Meta，2024 年;Dubey et al.， 2024）在理解和生成類似人類的文本方面表現出無與倫比的熟練程度，對從自動化客戶支持到高級內容創建等領域產生了深遠的影響。這些模型無縫執行各種NLP任務的能力使它們成為現代人工智能驅動應用程序的支柱(Wu et al., 2023b; Ge et al., 2024; Nam et al., 2024; Zheng et al., 2024a; Yang et al., 2024b).

但是，主要在云服務器上部署 LLM 的傳統部署存在一些挑戰，尤其是在延遲、安全性和持續 Internet 連接的需求方面。這些擔憂推動了人們對在邊緣設備上部署 LLM 的興趣日益濃厚，這一轉變有望縮短響應時間，并直接在智能手機、汽車系統和個人可穿戴設備等用戶設備上提供個性化的用戶體驗。這種范式轉變不僅符合用戶對即時和個性化幫助日益增長的需求，而且還降低了與云計算相關的帶寬和能源成本。
![[Pasted image 20250416191411.png]]

對設備端 AI 部署的興趣日益濃厚，這反映在快速擴張的邊緣 AI 市場中。如圖 1 所示，從 2022 年到 2032 年，邊緣 AI 市場將在各個領域出現大幅增長。市場規模預計將從 2022 年的 152 億美元增加到 2032 年的 1436 億美元，十年內增長近 10 倍（Market.us，2024 年）。這種增長跨越多個行業，其中制造業、汽車和政府部門做出了重大貢獻。預計的市場擴張突顯了對邊緣 AI 解決方案（包括設備端語言模型）的需求不斷增長，這是由于各種應用程序對更快、更私密和高效的 AI 功能的需求所推動的。這一市場趨勢與向更本地化的 AI 處理的技術推動相一致，進一步強調了開發高效的設備端 LLM 解決方案的重要性。

盡管具有引人注目的優勢，但在邊緣設備的約束下集成計算密集型語言模型會帶來重大挑戰。主要障礙包括計算能力有限、內存容量減少和能源限制，這些因素共同使直接采用基于云的 LLM 架構變得復雜。例如，在智能手機上執行最先進的4050億個參數模型（Dubey et al., 2024）在模型性能和能源效率方面沒有實質性的妥協是不可實現的。
![[Pasted image 20250416191518.png]]

本綜述全面探討了在邊緣設備上部署 LLM 的當前策略和進展。我們的目標是批判性地分析為使 LLM 適應邊緣計算的約束而開發的各種技術和架構。這包括對模型壓縮技術、節能計算策略和新型輕量級模型架構開發的詳細研究。此外，本文將深入探討在邊緣場景中有效使用 LLM 的部署策略，重點介紹關鍵的行業應用和由此產生的好處。通過這篇評論，我們打算闡明從基于云的語言模型過渡到設備端語言模型的途徑和挑戰，為這種轉變如何重新定義應用程序和 AI 可訪問性的前景提供見解。該論文的結構如圖 2 所示。我們首先探討了第 2 節的基礎和初步內容，包括 LLM 在設備上的演變、架構基礎和設備端訓練技術。第 3 節深入探討了設備端語言模型的高效架構，討論了創新的設計原則、模型壓縮和協作方法。第 4 節繼續深入研究模型壓縮和優化技術，包括量化、修剪、知識蒸餾和低秩分解。第 5 節研究了硬件加速和部署策略，重點介紹了流行的設備端 LLM 框架和特定于硬件的優化。為了將這些進步置于上下文中，在第 6 節中，我們展示了現有的設備端語言模型及其在各個領域的實際應用的示例。最后，第 7 節討論了該領域的未來方向和公開挑戰，第 8 節總結了我們的回顧。通過關注 LLM 能力和邊緣計算需求的交叉點，本文為 AI 研究中正在進行的討論做出了貢獻，為在資源受限的環境中實現模型性能和計算效率之間的微妙平衡提供了全面的視角。

3 基礎和預備

3.1 設備端 LLM 的演變

設備端 LLM 的演變是一個與技術進步密切相關的過程。圖 3 提供了自 2023 年以來設備端語言模型開發的全面時間表，說明了該領域的快速發展。如圖所示，對邊緣大型語言模型的探索和實驗于 2023 年正式開始。我們看到了幾個參數低于 10B 的有影響力的模型系列的出現，使 LLM 可以在邊緣設備上運行。值得注意的例子包括：
![[Pasted image 20250416191916.png]]

此外，還有 TII 發布的 Falcon（Almazrouei et al.， 2023）和 Mosaic ML 發布的 MPT 模型（MosaicML，2023）等模型都參與了此類模型的競爭。盡管這些小參數模型的性能不如傳統的大參數模型，但它們使 LLM 可以在邊緣設備上運行。它們的出現標志著語言模型行業對使用 LLM 的邊緣設備應用場景的重要性。同時，隨著混合專家、量化和壓縮等技術的應用，小參數模型的性能在保持參數體積的同時不斷取得長足進步。

![[Pasted image 20250416192012.png]]

圖 3 還強調了自 2023 年以來多模態模型的出現，例如 LLaVa 系列（Liu et al.， 2024a;b）、QwenVL（Bai等人，2023b）、Gemini Nano（團隊等人，2023 年）和 Yi VL（Young等人，2024 年）。這些模型代表了在邊緣部署多模式 LLM 的寶貴嘗試，以適應移動設備上更復雜和不斷變化的用戶場景。

進入 2024 年，創新步伐加快，從圖最右側密集的新車型集群中可以明顯看出。這一時期引入了：

![[Pasted image 20250416192052.png]]

圖 3 清楚地表明，2024 年人們更加關注多模態功能，許多新模型同時提供文本和多模態功能，以應對不同的任務處理場景。正如模型的多樣性和發展所表明的那樣，設備上的語言模型正在迅速發展和多樣化。這一趨勢，加上智能硬件和軟件技術的不斷成熟，使這些模型能夠集成到智能手機、聯網汽車、計算機、機器人和其他終端設備中，展示其不斷增長的應用潛力和價值。

3.2 LLM 架構基礎

傳統的基于文本的 LLM： 讓我們從一切開始的地方開始。Transformer 是一種基于注意力機制的深度學習模型（Vaswani et al.， 2017），廣泛用于處理順序數據，尤其是在自然語言處理任務中。它由兩部分組成：編碼器和解碼器。如今，流行的大型語言模型主要使用純解碼器架構（Fu et al.， 2023），代表GPT（Generative Pre-trained Transformer）、LLaMA（Large Language Model Meta AI）等模型。GPT 模型由多個解碼器層組成（Radford等人，2018 年;2019 年;Brown et al.， 2020），每個解碼器層都由一個自我注意機制組成。GPT模型還在每個子層之后應用層歸一化（Floridi & Chiriatti，2020）。相比之下，LLaMA 應用了歸一化（Ioffe & Szegedy，2015 年;Zhang & Sennrich， 2019;Xiong et al.， 2020），這有助于提高訓練過程的穩定性（Touvron et al.， 2023a）。在注意力機制的應用方面，GPT 模型使用標準的自注意力機制，允許模型在生成序列時考慮來自輸入序列中所有位置的信息，而 LLaMA 使用組查詢注意力（GQA）（Ainslie et al.， 2023），這是一種優化技術，可以減少模型的計算和內存占用并提高效率。
MoE （Mix of Expert）概念起源于 1991 年（Jacobs et al.， 1991），在當今的語言模型預訓練中起著關鍵作用。它支持高效的預訓練，使用比密集模型所需的計算資源少得多的計算資源。該機制由兩個關鍵組件組成：一個包含許多“專家”的稀疏 MoE 層，每個專家本身就是一個獨立的神經網絡（Shazeer et al.， 2017;Chen et al.， 2022;Du et al.， 2022）;以及門控網絡或路由：該組件用于確定將哪些 tokens 發送到哪個 Expert Model 進行處理。架構用MoE層替換了傳統Transformer模型中的每個前饋網絡（FFN）層，MoE層由兩個核心組件組成：一個門控網絡和一些專家（Masoudnia & Ebrahimpour，2014）。
多模態 LLM： 借助 Transformer 強大的學習架構，大型多模態模型可以同時處理多種不同的模態，例如文本、圖像、聲音、數據表等（Xie et al.， 2024;Wu et al.， 2023a）。其內部作機制如下：
1. 使用標準的交叉注意力層在模型內部層進行多模態輸入的深度融合（如 MultiModal-GPT （Gong et al.， 2023））
2. 使用定制設計的層在模型內部層進行多模態輸入的深度融合（LLaMA-Adapter （Zhang et al. （2023a））， MoE-LLaVa （Lin et al. （2024a）））
3. 使用特定于模態的編碼器（LLaVa （Liu et al.， 2024b）， Qwen-VL （Bai et al.， 2023a））在模型的輸入階段進行多模態輸入的早期融合 D）在輸入階段進行早期融合，但使用分詞化技術（如分詞器）來處理模態（Wadekar et al.， 2024）。

3.3 設備上 LLM 訓練

在資源受限的設備上部署大型語言模型（LLM）會帶來內存和計算能力受限等挑戰（Loukas 等人（2023 年））。為了解決這些問題，協作和分層模型方法通過分配計算負載和利用具有不同功能的模型來提供創新的解決方案。

在資源受限的設備上進行訓練的經典方法包括：

量化感知縮放：通過自動縮放不同位精度張量的梯度來穩定訓練過程，解決量化圖中不同位寬張量梯度尺度不一致的問題，使量化模型的訓練精度與浮點模型相當（Nagel et al.， 2022;Huang et al.， 2024a）。
稀疏更新：選擇性地更新網絡中一部分層的權重，跳過不太重要的層和子張量的梯度計算，從而減少內存使用和計算成本（Liu et al.， 2023;Ansell et al.， 2024）。
微型訓練引擎（TTE）：在反向圖中包含冗余節點，例如凍結權重的梯度節點，以及重新排序作以實現就地更新（Lin et al.， 2023a;Khouas et al.， 2024）。
貢獻分析：自動確定稀疏更新方案，即確定哪些參數（權重/偏差）對下游精度貢獻最大，從而選擇在有限的內存預算下應該更新張量的哪些層或部分（Lin et al.， 2022;任 et al.， 2024;Zeng et al.， 2023a）。

3.4 基于云的 LLM 推理的局限性和設備端推理的優勢

LLM 的邊緣-云（本地-遠程）協作部署是首選，而現有的純云（僅遠程）（例如 ChatGPT）不是一個被廣泛接受的解決方案。如圖 4 所示，88% 的參與者更喜歡邊緣云協作架構，58.33% 的參與者支持本地部署，81.82% 的參與者對現有的純云解決方案不滿意。他們主要關注的是 1）遠程 LLM 服務的高延遲，2）將個人數據傳輸到云的風險，以及 3）基于云的 LLM 服務的成本（Li et al.， 2024c）。

![[Pasted image 20250416192815.png]]

盡管基于云的 LLM 提供了強大的功能，但它們也存在一些缺點，包括潛在的延遲問題（Wang et al.， 2024b）和由于依賴網絡而導致的數據問題。因此，通過邊緣計算的設備上部署的概念已經出現，以減少延遲和保護用戶數據（Gerganov, 2023）。處理在本地進行，消除了數據傳輸的需要。此外，移動設備上定制硬件加速器的激增使得直接在設備上運行具有數十億個參數的大型llm成為可能。

設備上推理為減少延遲提供了一個令人信服的案例，因為它允許模型直接在用戶的設備上運行，而無需將數據發送到云服務器。此方法對于需要實時響應的應用程序特別有用。在基于云獲取響應的 GPT-4 的情況下，每個token的生成速度約為 200 毫秒，而常見的端側模型已經可以比這更快地生成token（taivo，2023 年）。

離線運行模型的能力減少了對網絡連接的依賴，使應用程序在網絡覆蓋較差的區域或其他離線環境中更易于訪問。例如，Google 基于 Gemini Nano 的 TalkBack 功能使用多模態功能來識別圖像內容，為殘障人士提供語音廣播，即使在完全離線的情況下也可以正常工作（Google，2024b）。設備上推理還通過模型量化等技術優化了有限計算資源的使用，使語言模型即使在內存有限的設備上也能高效運行。

用戶友好的界面進一步促進了 LLM 在移動設備上的部署，這些界面抽象了 AI 的復雜性，使沒有專業知識的用戶也能使用該技術。此外，這些應用程序不僅限于文本生成，還可以通過創新的文本到作功能擴展其功能以與設備功能交互，例如撥打電話、進行網絡搜索和管理日歷事件。

3.5 設備上的 LLM 的性能指標

延遲是從用戶輸入請求到系統開始響應所花費的時間。它通常是指從模型收到輸入文本到開始生成第一個輸出的時間。我們通常使用 TTFT（Time-to-First-Token）來衡量這個指標(Hu et al., 2024a; Agrawal et al., 2024b;a).

推理速度是指 LLM 根據到目前為止看到的所有先前標記對下一個標記進行自回歸預測的速度。但是，除了初始提示解碼之外，推斷下一個 Token 還需要一次解碼一個 Token 的邏輯。這是因為每個新 Token 都依賴于之前的 Token，而之前的 Token 無法提前知道。這一步在大型語言模型的推理中占用的時間最多。正因為如此，這一步的速度，主要會決定用戶對話模式是否流暢，從而直接影響用戶體驗（C ? ?oplu ? et al.， 2023;Cai et al.， 2024a;Zheng et al.， 2024b）。

使用的 RAM/VRAM 大小也是語言模型運行的性能指標之一。由于語言模型的運行機制，在推理時會根據模型參數的大小消耗相應的 RAM。例如，在個人辦公筆記本電腦上部署具有 70B 參數的模型是不切實際的。這對于許多 RAM 大小有限的邊緣設備至關重要。工程師必須使用各種模型壓縮技術來最大限度地減少語言模型推理占用的內存（Kwon et al.， 2023;Zhao et al.， 2024b;c).

此外，例如，模型占用的存儲空間和推理過程中消耗的能量將成為邊緣設備上的重要指標。這些指標對于 LLM 是否可以在邊緣設備上運行以及它們可以運行多長時間尤為重要。在大多數情況下，LLM 推理將使處理器進入完全加載的工作狀態。如果作時間過長，會嚴重消耗移動設備的電池，從而帶來新的問題。例如，一個 7B 參數的 LLM 推理將消耗每個token大約 0.7J。對于電池容量約為 50kJ 的 iPhone，這意味著與模型的對話最多只能持續兩個小時。這沒有考慮到其他問題，例如模型推理引起的設備發熱(Liu et al., 2024c; Stojkovic et al., 2024; Jiang et al., 2024b).

4 設備上 LLM 的高效架構

4.1 設備上 LLM 的架構設計原則和創新

為設備上部署設計語言模型涉及多項架構原則和創新，旨在克服移動和邊緣設備典型的資源限制。關鍵策略包括 1）參數共享（Lin et al.， 2023b;Cao等人，2024 年），這涉及在模型的不同部分重復使用權重以減少整體參數數量;2）模塊化架構（Ning et al.， 2023;Ostapenko 等人，2024 年;Shen et al.， 2024），將 LLM 分解為更小的、獨立的組件或模塊，這些組件或模塊可以單獨或并行處理;3）緊湊表示，專注于通過量化和權重修剪等技術減少 LLM 的內存占用（Liu et al.， 2024c;Zhang et al.， 2024b;Xu et al.， 2023）。為了對這些架構進行全面比較，我們考慮了它們的性能、計算效率和內存要求，表 1 中總結了這些內容。

![[Pasted image 20250416193157.png]]

4.2 模型壓縮和參數共享

在資源受限的設備（如智能手機和邊緣設備）上高效部署 LLM 通常需要在不顯著犧牲性能的情況下減小模型大小。模型壓縮和參數共享技術在實現這種平衡方面起著關鍵作用。本節回顧了通過創新的壓縮和參數共享方法優化sub-billion參數llm的關鍵研究工作。

Lin et al. （2024b）引入了一種新的僅權重量化方法，該方法側重于權重在 LLM 中的重要性。AWQ 保護了一小部分關鍵權重（0.1%-1%），減少了量化損失并保持了 LLM 在不同領域和模態中的泛化能力。與傳統方法不同，AWQ 不需要反向傳播或重建，因此可以保持效率和性能。擬議的 TinyChat 推理框架實現了 AWQ，在桌面和移動 GPU 上實現了比傳統 FP16 實現更快的速度（高達 3×）。

MobileLLM 通過提出一種針對低于1 0 億個參數計數優化的深度和精簡架構，解決了移動設備上對高效 LLM 的需求（Liu et al.， 2024c）。這種方法挑戰了模型越寬越好的普遍看法，表明深而薄的結構可以有效地捕獲復雜的模式。關鍵技術包括嵌入共享、分組查詢注意力和分塊立即權重共享。與以前的先進模型相比，MobileLLM 的精度顯著提高（例如，125M 和 350M 模型的精度分別提高了 2.7% 和 4.3%）。增強版 MobileLLM-LS 進一步提高了準確性，同時保持了較小的模型尺寸，使其成為設備端應用的理想選擇。

AWQ 和 MobileLLM 都展示了模型壓縮和參數共享技術在使 LLM 在移動和邊緣設備上部署的可能性。AWQ 專注于權重量化以減小模型大小并提高推理速度，而 MobileLLM 則強調架構優化和權重共享，以創建高效的十億以下參數模型。這些創新對于在資源受限的環境中提高 LLM 的性能和可訪問性至關重要，在不影響準確性或效率的情況下在個人設備上實現高級 AI 功能。

4.3 協作和分層模型方法

在資源受限的設備上部署語言模型面臨重大挑戰，例如內存和計算能力有限。協作和分層模型方法提供了創新的解決方案，通過分配計算負載和利用具有不同功能的多個模型來克服這些限制。本小節回顧了實施協作和分層策略以提高設備上 LLM 的效率和可擴展性的關鍵研究工作。

EdgeShard 引入了 EdgeShard 框架，該框架將大型 LLM 劃分為較小的段（分片），并戰略性地將它們分布在邊緣設備和云服務器之間（Zhang et al.， 2024b）。此方法通過同時利用多個設備的計算能力來減少延遲并提高吞吐量。動態編程算法可優化分片放置，平衡計算負載并最大限度地減少通信開銷。實驗結果表明，與傳統的基于云的方法相比，延遲降低（高達 50%）和吞吐量增強（高達 2×）都有顯著改善。

LLMCad 提出了一種新穎的推理引擎，它將更小、駐留在內存中的 LLM 與更大、更準確的 LLM 相結合（Xu et al.， 2023）。較小的 LLM 生成候選token，而較大的 LLM 驗證和更正這些token。這種“先生成后驗證”的方法利用了較小模型的效率，并保持了較大模型的準確性。LLMCad 引入了多種技術，包括token樹生成和驗證、自適應回退策略和推測生成管道。這些創新使 LLMCad 能夠在不影響準確性的情況下實現高達 9.3× 的token生成速度，使其適用于移動設備上的實時應用程序。

WDMoE 提出了一種在無線通信系統中部署 LLM 的新范式（Xue et al.， 2024a）。通過執行 MoE 層分解，可以部署基站的門控網絡，并在移動設備上分配專家網絡，以優化性能并減少延遲。此外，提出了專家選擇策略，根據無線信道條件動態調整專家選擇，以保證性能最優。

協作和分層模型方法（例如 EdgeShard 和 LLMCad 中提出的方法）為在資源受限的設備上部署 LLM 的挑戰提供了有效的解決方案。通過在多個設備之間分配計算負載并使用較小的模型進行初步任務，這些方法提高了 LLM 推理的可擴展性和效率。EdgeShard 框架展示了協作邊緣云計算的優勢，而 LLMCad 展示了分層模型協作在保持準確性和提高推理速度方面的潛力。這些方法對于在移動和邊緣設備上啟用高級 AI 功能、提供實時性能和高效資源利用率至關重要。

4.4 內存和計算效率

高效的內存和計算資源利用率對于在移動設備和邊緣設備上部署大型語言模型（LLM）至關重要。各種技術和創新旨在優化有限資源的使用，以確保 LLM 能夠有效執行而不會壓倒設備的功能。本小節回顧了專注于提高設備上 LLM 的內存和計算效率的關鍵研究工作。

三星電子的研究人員提出了創新的內存解決方案，以解決 LLM 部署中的內存瓶頸（Kim et al.， 2024c）。作者介紹了Processing-in-Memory (PIM) and Processing-near-Memory (PNM) 技術：

Aquabolt-XL （Kim et al.， 2021）和 LPDDR-PIM （Kim et al.， 2024a）：這些 PIM 器件將邏輯嵌入到內存內核中，從而提高內部內存帶寬并支持高性能計算任務，包括 LLM 加速。AXDIMM （Ke et al.， 2021）和 CXL-PNM：這些 PNM 解決方案將計算邏輯放置在內存內核附近，從而提高了內存帶寬和容量。CXL-PNM 將計算邏輯集成到 CXL 內存控制器中，顯著提高了內存容量和性能。實驗結果表明，與傳統內存架構相比，這些內存解決方案的性能提高了 4.5×，能耗降低了 71%，非常適合在資源受限的設備上進行 LLM 推理。

MELTing Point 引入了 MELT 基礎設施，旨在促進在移動設備上執行和基準測試 LLM（Laskaridis 等人，2024 年）。MELT 框架支持 Android、iOS 和 Nvidia Jetson 設備，并提供詳細的性能和能源指標。MELT 系統地評估設備上的 LLM 執行情況，從而深入了解各種模型的性能、能效和內存使用情況。該論文研究了模型量化對性能和準確性的影響，表明雖然量化降低了內存需求，但它會產生準確性成本。結果強調了平衡內存和計算效率與性能的重要性，以使 LLM 適用于移動應用程序。

內存和計算效率對于在移動和邊緣設備上部署 LLM 至關重要。本小節回顧的研究工作提出了克服內存墻和優化資源使用的創新解決方案。三星的內存解決方案（如 PIM 和 PNM）顯著提高了內存帶寬和容量，從而實現了高效的 LLM 推理。MELT 基礎設施提供了一個全面的評估框架，為性能、能效和內存使用之間的權衡提供了有價值的見解。這些進步對于確保 LLM 能夠在資源受限的設備上有效運行至關重要，為移動和邊緣環境中更實用、更高效的 AI 應用鋪平了道路。

4.5 混合專家（MoE）架構

Mixture-of-Experts （MoE）架構通過利用稀疏激活和動態路由來提高效率，為在邊緣設備上部署 LLM 提供了一種很有前途的方法。本小節回顧了主要研究工作，重點關注基于 MoE 的模型，這些模型旨在優化設備部署中的性能和資源利用率。

EdgeMoE 引入了一個框架，旨在在邊緣設備上高效執行 MoE 模型（Yi et al.， 2023）。作者提出了 Expert-wise Bitwidth Adaptation，以使用每通道線性量化來減小專家權重的大小，同時將精度損失降至最低。通過利用新穎的專家管理方法，他們將專家權重預加載到計算 I/O 管道中，以減少 I/O 交換開銷。實驗結果表明，與基線解決方案相比，內存節省和性能顯著提高，推理速度提高了 2.78×。

LocMoE 引入了路由策略和通信優化方案，以提高訓練基于 MoE 的 LLM 的效率（Li et al.， 2024b）。采用 Orthogonal Gating Weights 方法降低計算成本并促進顯式布線決策。此外，他們還引入了基于地方的專家正規化，以鼓勵當地專家參與競爭，減少溝通時間并避免培訓不足。它們還包括 Group-Wise All-to-All 和 Communication Overlap，通過將計算與通信重疊來掩蓋延遲，從而優化 All-to-All作。

Yin et al. （2024）提出了 LLMaaS 范式，將大型語言模型作為系統服務集成到移動設備上。在他們提議的設計中，Stateful Execution 允許系統在多次調用中維護持久狀態（KV 緩存）以提高性能。統一接口通過將 LLM 及其基礎結構作為系統功能公開給移動應用程序來幫助減少內存使用量。他們還引入了分塊 KV 緩存壓縮和交換等技術，以最大限度地減少上下文切換開銷。

JetMoE 提出了一種使用稀疏門控混合專家（SMoE）架構進行大型語言模型訓練的有效方法（Shen et al.， 2024）。作者將稀疏激活應用于注意力層和前饋層，在保持高性能的同時顯著降低了計算成本。JetMoE-8B 使用 1.25T token和 30000 個 H100 GPU 小時以不到 10 萬美元的成本進行訓練，其性能優于 Llama2-7B，而 JetMoE-8BChat 超過了 Llama2-13B-Chat。與 Llama2-7B 相比，該模型的 8B 總參數（每個輸入標記僅激活 2B）將推理計算減少了約 70%。

MoE 架構為在邊緣設備上部署 LLM 的挑戰提供了創新的解決方案。這些方法利用稀疏激活和動態路由來提高計算效率和資源利用率。

4.6 一般效率和性能改進

在邊緣設備上實現 LLM 的高效部署涉及一系列策略，旨在提高整體性能，同時管理計算和內存限制。本小節回顧了引入創新方法以提高設備端 LLM 的效率和有效性的關鍵研究工作。

Any-Precision LLM 提出了一種新穎的方法，以節省內存的方式部署具有不同精度的各種 LLM（Park et al.， 2024）。Any-Precision 模型將 any-precision 深度神經網絡擴展到 LLM，允許單個 n 位量化模型支持多個低至 3 位的較低位寬模型。這減少了內存使用量，而不會顯著降低性能。訓練后量化（PTQ）創建低位模型，并逐步將其放大到更高的位寬。這避免了每個精度的多個訓練階段，從而節省了時間和資源。針對任意精度支持優化的新軟件引擎可管理內存帶寬并提高服務效率，從而確保在邊緣設備上實際部署 LLM。實驗結果表明，它可以節省大量內存并提高服務效率，使任意精度 LLM 適用于各種設備端應用。

Yan et al. （2023）探討了 LLM 在軟硬件協同設計中的應用，以優化內存計算（CiM）深度神經網絡（DNN）加速器的開發。LCDA 框架將 LLM 集成到硬件和軟件的設計過程中，利用它們對各種數據集的廣泛培訓來加快協同設計。通過結合來自預訓練llm的啟發式知識，該框架繞過了冷啟動問題，能夠更快地收斂到最優解。與最先進的方法相比，該框架在設計過程中加速了25倍，同時在設計高效的DNN模型和硬件架構時保持了相當的性能水平。這種方法凸顯了法學碩士在增強協同設計過程、提高高級人工智能應用軟件和硬件效率方面的潛力。

一般效率和性能改進對于在邊緣設備上實際部署 LLM 至關重要。本小節回顧的研究工作介紹了提高內存效率、計算速度和整體性能的創新方法。Any-Precision LLM 方法為部署具有不同精度的多個 LLM 提供了一種靈活且節省內存的解決方案，而 LCDA 框架展示了將 LLM 集成到協同設計過程中以優化軟件和硬件的優勢。這些進步有助于使 LLM 在資源受限的環境中更易于訪問和有效，從而在移動和邊緣設備上實現更廣泛的 AI 應用程序。

5 設備上 LLM 的模型壓縮和優化技術

在 LLM 領域，在保持性能的同時優化計算效率至關重要，尤其是在邊緣設備上部署時。本節將介紹四種關鍵的模型壓縮技術：量化、修剪、知識蒸餾和低秩分解。這些方法提高了 LLM 的運行效率，通過平衡性能、內存占用和推理速度來確保它們在設備上應用程序的可行性。

5.1 量化

神經網絡中的量化是指將高精度（浮點）權重和激活轉換為較低位寬（整數）的過程。這種技術大大減少了模型大小和計算需求，實現了更快的推理并減少了內存消耗，同時保持了準確性。

訓練后量化（PTQ）：PTQ 在模型訓練后應用，不需要重新訓練，因此比量化感知訓練（QAT）更快、資源密集度更低。有一些值得注意的 PTQ 方法。GPTQ （Frantar et al.， 2022）利用二階信息進行誤差補償，有效地將位寬減少到每個權重 3 或 4 位。這種方法保持了高精度，并且困惑度的增加最小，使 OPT-175B 等語言模型能夠在單個高端 GPU 上運行。激活感知權重量化（AWQ）（Lin et al.， 2024c）基于以下觀察結果：一小部分（0.1%-1%）權重對 LLM 的性能至關重要。通過選擇性地跳過這些顯著權重的量化，AWQ 顯著減少了量化損失。
1. 僅權重量化：在僅權重量化中，僅量化神經網絡的權重。這種方法簡化了量化過程，當激活范圍沒有顯著變化或計算資源嚴重受限時，這種方法可能特別有效。（
2. 權重激活共量化：權重和激活都被量化，從而進一步降低了計算復雜性。由于高效的矩陣乘法（Dettmers et al.， 2022），這種方法在硬件實現中是有利的，這在神經計算中至關重要。BitNet b1.58（馬 et al.， 2024）對每個參數使用三元量化 -1、0、1，顯著增強了延遲、內存、吞吐量和能耗指標。
量化感知訓練（QAT）： QAT 將量化直接整合到訓練過程中，使模型能夠從本質上適應降低的精度約束。這種集成通常會產生更高的后量化精度，因為模型在其訓練階段主動學習補償潛在的量化誤差。

5.2 剪枝

神經網絡中的剪枝涉及選擇性地刪除權重或神經元，以降低復雜性并提高計算效率，而不會顯著影響性能。此過程針對模型中不太重要的組件，側重于效率和功能完整性。

結構化修剪：這種方法刪除了整個參數子集，如層、通道或濾波器，由于更規則的內存訪問模式和簡化的計算，這對硬件優化有益。“LLM-Pruner”（Kaddour等人，2023 年）采用結構化修剪來消除基于梯度數據的非必要組，從而保持關鍵功能。它還通過 LoRA 等技術促進性能恢復，從而允許以最少的數據進行高效恢復。
非結構化修剪：與結構化修剪不同，非結構化修剪去除了整個模型中的單個權重，從而提供更精細的粒度和可能更高的壓縮率（Li et al.， 2023a）。但是，這種方法通常會導致稀疏矩陣，這可能與傳統硬件架構的兼容性較差，從而影響計算效率。它最適用于需要最大壓縮而不受結構保護限制的情況。
上下文修剪：這種高級方法根據模型的作環境進行修剪，針對僅在特定條件或特定任務下相關的權重或神經元。上下文修剪可確保縮減與模型的運營需求動態一致，從而在最重要的地方保持性能。

5.3 知識蒸餾

知識蒸餾（KD）是一種將知識從大型計算密集型模型（教師）轉移到更小、更高效的模型（學生）的技術。此方法對于將大型語言模型（LLM）的功能壓縮為更易于管理的形式而不會顯著影響性能至關重要。

黑盒知識蒸餾：這種方法涉及學生模型僅從教師模型的輸出中學習，而無法訪問其內部機制或參數。當教師模型的細節是專有的，或者當教師和學生模型的架構明顯不同時，這一點尤其有利。例如，Gu 等人（2023 年）證明，黑盒 KD 可以僅使用 ChatGPT 等 LLM API 的輸出數據有效地訓練模型。學生模型訓練以根據輸入-輸出對模擬教師的輸出分配，這一過程雖然有效，但將學習限制在外部行為上，而不會挖掘教師更深層次的內心狀態。
白盒知識蒸餾：相比之下，白盒知識蒸餾允許學生模型訪問教師的內部狀態和工作，從而促進更深入、更精確的學習過程。這種方法使學生不僅可以模仿輸出，還可以模仿教師的內部狀態分布，從而提高學習效率和深度。增加對教師詳細工作的訪問權限有助于指導學生的學習，從而產生更準確和強大的模型。但是，這種技術需要仔細調整模型架構，以確保有效的知識傳遞，并且通常實現起來更復雜。

5.4 低秩分解

低秩分解（Low-Rank Factorization：LRF）是一種用于將矩陣分解為較小組件的技術，可在不嚴重影響模型準確性的情況下顯著降低計算復雜性。利用許多現實世界矩陣中普遍存在的固有低秩結構，LRF通過低秩因子的乘積促進了這些矩陣的逼近，這在圖像處理、機器學習模型中的降維和數據壓縮等應用中被證明是不可或缺的（Saha等人，2023）。這種方法不僅保持了基本的數據特性，還確保了高效的存儲和處理，突出了它在現代計算任務中的關鍵作用。Yao 等人（2024b）的一項研究進一步擴展了其應用，將 LRF 與大型語言模型中的訓練后量化（PTQ）相結合。這種創新方法稱為低秩補償（LoRC），通過顯著減小模型大小和保持準確性來提高模型效率，從而有效減輕激活量化的不利影響。LRF 和 PTQ 的這種綜合表明，在優化計算效率的同時，在復雜模型中保持性能完整性方面取得了重大進步。

6 硬件加速和部署策略

GPU、TPU 和專用 AI 芯片等硬件加速器通過提供強大的計算能力和高內存帶寬，在實現 LLM 的高效設備端推理方面發揮著至關重要的作用。在 GPU、TPU、FPGA 和其他 AI 專用芯片之間進行選擇時，需要仔細考慮涉及性能、功耗和成本的權衡。例如，GPU 因其并行處理能力而受到青睞，TPU 因其專門的矩陣運算而受到青睞，而 FPGA 因其針對特定任務量身定制的可定制硬件而受到青睞，這些硬件可以更加節能。軟件-硬件協同設計方法（包括量化感知訓練和模型壓縮）進一步提高了效率，使 LLM 在從高功率服務器到低功耗邊緣設備的一系列設備上都可行。參數共享和高級內存管理技術等優化策略對于減少 LLM 的占用空間至關重要，可確保在不同的計算環境中更快、更經濟高效地進行部署。這些策略共同改進了 LLM 的部署和執行，滿足各種應用程序需求和硬件限制。

6.1 流行的設備上 LLM 框架

LLM 的部署策略可能會因使用案例和可用基礎設施的不同而有很大差異，從完全基于云的解決方案到僅邊緣部署。

Edge-only
1. Llama.cpp
  - 描述： Llama.cpp （Gerganov， 2023）是一個 C/C++ 庫，旨在在各種硬件平臺上對大型語言模型進行高效推理。它支持整數量化、 GPU 加速和 CPU+GPU 混合推理。
  - 訓練：支持在設備上微調 LORA 適配器。
  - 推理：支持跨 ARM 和 x86 架構的 CPU 和 CPU+GPU 混合推理。
2. MNN
  - 描述：MNN（阿里巴巴，2024 年）利用移動神經網絡技術在各種平臺上進行高效的 LLM 推理，并針對具有動態輸入和多模態交互的移動設備進行了優化。
  - 訓練：支持在設備上進行全尺寸微調和 LORA 微調。
  - 推理：支持跨不同后端（包括 CPU、CUDA 和 OpenCL）部署 ONNX 和 MNN 格式的模型。
3. PowerInfer
  - 描述：PowerInfer （Song et al.， 2023）和 PowerInfer2 （Xue et al.， 2024b）是一種高速推理引擎，利用以位置為中心的設計，針對在具有消費級 GPU 的 PC 上部署 LLM 進行了優化。
  - 訓練：沒有內置的培訓功能。
  - 推理：支持各種計算平臺，包括 x86-64 CPU 和 Apple M 芯片，針對 Windows 和 Linux 進行了優化。
4. ExecuTorch
  - 描述：ExecuTorch （PyTorch， 2024）是 PyTorch Edge 生態系統的一部分，旨在在手機和可穿戴設備等邊緣設備上高效部署 PyTorch 模型。
  - 訓練：沒有內置的培訓功能。
  - 推理：在各種計算平臺上利用 CPU、NPU 和 DSP 等完整硬件功能。
5. MediaPipe
  - 描述：MediaPipe（AI，2024b）由 Google 開發，是一個框架，用于構建和部署涉及視頻、音頻和其他時間序列數據的多模態機器學習管道。
  - 訓練：沒有內置的培訓功能。
  - 推理：支持多種平臺，包括 Android、iOS、macOS、Windows 和 Linux，利用 CPU 和 GPU 資源。
Edge-cloud
1. MLC-LLM
  - 描述：MLC-LLM（團隊，2023 年）是一個機器學習編譯器和高性能部署引擎，支持在邊緣設備和云環境中進行通用 LLM 部署。
  - 訓練：沒有內置的培訓功能。
  - 推理：支持在各種平臺上進行推理，包括跨 ARM 和 x86 架構的 CPU 和 GPU。
2. VLLM
  - 描述：VLLM（團隊，2024 年）針對邊緣云環境進行了優化，支持高級量化方法，可在推理過程中實現高效的鍵和值內存管理。
  - 訓練：沒有內置的培訓功能。
  - 推理：支持多個 GPU 平臺，并與 Vulkan、CUDA、Metal 和 WebGPU 技術集成。
3. BentoML 的 OpenLLM
  - 描述：OpenLLM（BentoML，2024 年）支持將各種開源 LLM 部署為與 OpenAI 兼容的 API 端點，針對高吞吐量和簡化的云部署進行了優化。
  - 訓練：沒有內置的培訓功能。
  - 推理：與各種模型架構和后端實現兼容，以便在生產環境中高效部署。

6.2 硬件加速

硬件技術的持續進步對設備上 LLM 的部署和性能產生了重大影響。

GPU：圖形處理單元（GPU）由于其大規模并行性和高內存帶寬，已成為訓練和加速大型語言模型的標準。NVIDIA 的 Tensor Core 在 Volta 架構中引入并在后續幾代中得到改進，為混合精度矩陣乘法累加運算提供專用硬件，這對于基于 transformer 的模型至關重要。最近的進展，如具有 80GB HBM2e 內存的 NVIDIA A100 GPU，支持在單個設備上訓練具有數十億個參數的模型。在 Megatron-LM 等框架中實現的張量并行和管道并行等技術允許跨多個 GPU 高效擴展 LLM 。使用混合精度訓練，尤其是 FP16 和 BF16 格式，可顯著減少內存占用并提高現代 GPU 的計算吞吐量。
NPU：神經處理單元（NPU），也稱為人工智能加速器，是專為機器學習工作負載設計的專用芯片。b谷歌的張量處理單元（tpu）就是一個突出的例子，最新的v4提供了每片BF16性能的275 TFLOPS。tpu利用收縮陣列架構進行有效的矩陣乘法，這特別適合llm中的變壓器層。TPU Pod配置允許擴展到數千個芯片，從而可以訓練GPT-3和PaLM等模型。華為的Ascend AI處理器和蘋果的Neural Engine是npu的其他例子，它們為小型llm的推理提供設備上的加速，利用量化和修剪等技術來減少模型尺寸和計算需求。
FPGA：現場可編程門陣列（FPGA）為加速 LLM 提供了一個靈活的硬件平臺，特別是用于推理。最近的工作展示了 Transformer 層在 FPGA 上的高效實現，利用稀疏矩陣乘法和量化等技術。例如，Microsoft 的 Project Brainwave 使用英特爾 Stratix 10 FPGA 來加速 BERT 推理，實現低延遲和高吞吐量。FPGA 在能效方面表現出色，可以針對特定模型架構進行優化，使其適用于較小 LLM 的邊緣部署。然而，與 GPU 和 ASIC 相比，它們的計算密度較低，限制了它們在訓練大規模模型中的應用。

7 示例和應用

在過去幾年中，人工智能技術的快速發展和移動設備硬件的不斷升級，使在邊緣設備上部署大型語言模型成為現實。智能手機是人們日常生活中最常用的設備之一，其上的語言模型尤為引人注目。目前，全球主要的手機品牌廠商已經開發并發布了多款部署在設備端或采用端云協同策略的先進機型，如表 2 所示。這些模型不僅標志著移動計算的重大飛躍，還為用戶帶來了傳統云部署無法比擬的一系列優勢。

![[Pasted image 20250416202523.png]]

7.1 設備端語言模型示例

Gemini Nano：移動作系統將 LLM 及其推理基礎設施作為系統功能公開給移動應用程序，例如位置或通知服務。用戶可以通過 Google AI Edge SDK 訪問 AI 核心。在 AI Core 內部，谷歌提供了一個 Gemini Nano 模型，該模型比其他在云中運行推理的 Gemini 模型要小，但速度更快，推理速度更低。AI 核心負責 Gemini Nano 模型的分發，因此可以很好地管理內存。此外，AI Core 可以以最佳速度運行，因為它利用設備上的硬件來加速推理。Gemini Nano 模型是通過從較大的 Gemini 模型中提取來訓練的。它是 4 位量化的部署，并提供一流的性能（Team et al.， 2023）。
Nexa AI Octopus 系列模型：在邊緣設備上運行的 20 億參數模型在準確性和延遲方面超過了 GPT-4，并將上下文長度減少了 95%。通過對核心函數的名稱進行標記并使用函數標記微調模型，模型可以理解軟件應用程序的功能并學習將函數描述映射到特定標記。章魚模型在移動設備上的部署證明了快速的響應時間，即使在標準的Android手機上，對于20到30個token的典型查詢，在1.1到1.7秒內完成函數調用(Chen et al., 2024b；陳和李，20024a;b;c)。
Apple OpenELM 和 Ferret-v2：Apple 開發了 OpenELM（Mehta et al.， 2024），這是一個集成在 iOS 中的大型語言模型，用于增強應用程序功能，類似于位置跟蹤等基本系統服務。OpenELM 采用逐層擴展架構，有效部署其 11 億個參數，與以前的模型相比，準確率提高了 2.36%，而只需要一半的預訓練token。此外，它與 MLX 庫兼容，便于在 Apple 設備上直接微調。同時，Ferret-v2 （Zhang et al.， 2024a）標志著對其前身的重大升級，結合了任意分辨率接地、通過集成 DINOv2 編碼器實現的多粒度視覺編碼以及復雜的三階段訓練方案等功能。這些增強功能通過推進高分辨率圖像處理和豐富視覺理解來顯著提高性能，從而確保為 iOS 用戶提供強大的設備功能。
Microsoft Phi 系列：Microsoft 最新的 Phi-3-mini（Abdin 等人，2024 年）是一個緊湊但強大的 38 億參數語言模型，在廣泛的 3.3 萬億個token數據集上進行訓練。盡管體積小，適合移動部署，但 Phi-3mini 的性能與 Mixtral 8x7B 和 GPT-3.5 等大型型號相比具有競爭力，在 MMLU 上實現 69%，在 MT 工作臺上實現 8.38。該模型受益于獨特的訓練數據集，該數據集是用于 Phi-2 的擴展版本，它將經過嚴格過濾的公開可用 Web 數據與合成數據相結合，增強了穩健性、安全性和聊天功能。此外，我們還展示了我們的縮放模型 Phi-3-small 和 Phi-3-medium 的初步結果，這些模型分別在 4.8 萬億個代幣上進行了訓練，分別具有 70 億和 140 億個參數，顯示出卓越的功能（MMLU 為 75% 和 78%，MTbench 得分為 8.7 和 8.9）。進一步擴展，我們引入了 Phi-3-vision，這是一個源自 Phi-3-mini 的 42 億個參數模型，旨在增強圖像和文本提示的推理能力。
MiniCPM：MiniCPM-Llama3-V 2.5 是清華大學和 ModelBest 合作打造的開源 MiniCPM-V 系列的最新成員，擁有 85 億個參數（清華大學，2024 年）。該模型在 OpenCompass 評估平臺中展示了卓越的性能，該平臺包含 11 個多模式基準。MiniCPM-Llama3-V 2.5 的平均得分為 65.1，超過了領先的行業型號，包括 GPT-4V-1106 的 63.5、Gemini Pro 的 62.9、Claude 3 和 Qwen-VL-Max，盡管它只擁有這些型號的一小部分參數。在專注于光學字符識別（OCR）和場景文本理解的具體評估中，MiniCPM-Llama3-V 2.5 表現出色，在 OCRBench 上獲得了超過 700 分的分數，從而超越了 GPT-4 和 Gemini Pro 等同類產品。此外，它在 TextVQA 基準測試中取得了 76.6% 的顯著準確率，在 DocVQA 上取得了令人印象深刻的 84.8%，有效地為這些領域的開源模型的性能建立了新標準。
Gemma2-9B：Gemma 是 Google 提供的輕量級、最先進的開放模型系列。Gemma2 是 Google 的 Gemma 升級版，有兩種不同的尺寸可供選擇，9B 和 27B。對于 9B 版本，Gemma2 的 Web 數據、代碼和數學數據的訓練數據量為 8 TB Token。作者采取了一種新穎的方法將注意力結合起來，即一層滑動窗口注意力和一層全局注意力。還使用了知識蒸餾、模型合并等技術。Gemma2-9B 模型在其等效體積類別中也表現良好，在推理、數學和代碼等多個領域優于 Llama 3-8B 和其他類似的開放模型。該模型還與 HuggingFace 等主要 AI 框架以及 Keras 3.0、vLLM、Gemma.cpp 和 Llama.cpp 具有良好的兼容性（Google，2024a）。
Qwen2-0.5B：Qwen 團隊，阿里云已將 Qwen 模型系列升級為 Qwen2，并將該系列提升至五個尺寸。其中，Qwen2-0.5B 是參數數量最少的，上下文長度為 32K 的。在多次測試中，Qwen2-0.5B 的性能與 Gemma-2B 和 Phi-2 相似（Qwen Team，2024），但參數數量較少，這使得它有可能在未來的智能家居行業中發揮重要作用。此外，針對上下文長度短的問題，Qwen-Agent 框架采用了 Agentic RAG 的思想，可以將處理上下文擴展到 1M，從而實現長文本理解（Bai et al.， 2023a）。

7.2 設備端 LLM 的應用

設備上的語言模型正在開創智能、響應式和個性化應用程序的新時代。通過將高級自然語言處理的強大功能直接引入最終用戶設備，這些模型正在改變我們在日常生活和專業工作中與技術交互的方式。從即時消息建議到實時語言翻譯，從保密醫療咨詢到尖端的自動駕駛汽車，設備上的 LLM 被證明是具有深遠影響的多功能工具。如圖 5 所示，以下示例說明了設備上 LLM 應用程序的廣度和深度，展示了這項技術如何不僅增強現有服務，而且在不同領域實現全新類別的智能、響應式和安全應用程序。

![[Pasted image 20250416202800.png]]

消息文本生成：過去，基于云 LLM 的快速回復功能受生成速度和網絡延遲的限制，因此為用戶生成回復會很慢。這在快節奏的即時對話中效率低下。借助設備上的 LLM，Gboard（Google 的鍵盤應用程序）可以使用 Gemini Nano，這是 Google 的設備端 LLM（AI，2024a）。當檢測到用戶正在在線聊天時，Gemini Nano 可以根據聊天內容快速生成對話感知的快速回復，供用戶選擇。由于使用的語言模型不需要連接到Internet等待服務器響應，因此該功能可以反映真實的響應速度。
翻譯： LLM 已廣泛應用于語言翻譯領域。這種方法可以使用適合特定領域的術語和樣式進行翻譯，這在傳統的機器翻譯方法中是不可能的。但是，基于云的 LLM 仍然存在響應速度慢和需要上傳信息等問題。設備上的 LLM 更好地解決了這些問題，參數更小，響應速度更快，也可以在離線環境中運行。這也為許多場景提供了數據安全性。在翻譯質量方面，使用小尺寸模型不會顯著降低翻譯的準確性。使用 T5 小模型生成的標記精度僅比 T5 語言模型低 4%（Xu et al.， 2023）。此外，更快的響應速度意味著設備端模型將更適合更直接的翻譯情況，例如同聲傳譯。
會議總結：Distill-CLI 是 Amazon 首席技術官發布的基于云的解決方案，它使用 Anthropic 的 Claude 3 Sonnet 模型和 Amazon Transcribe 技術來生成實時會議摘要（Vogels，2024 年）。類似的應用程序，例如帶有 GPT-4o 模型的 Plaud Note（Plaud，2024 年）、Zoom-IQ（Zoom，2024 年）等。但是，使用基于云的模型的缺點是會產生訂閱服務費，以及網絡導致的網絡延遲問題。通過采用設備端模型，數據將保持本地化狀態，無需上傳到基于云的服務器。
醫療保健應用：當前的醫療模型，如 Med-Palm 多模態（Tu et al.，2024）可以組合和分析患者陳述、電子記錄信息、X 射線和其他醫學圖像，以生成高精度的長格式響應。邊緣部署可以幫助患者離線回答問題，從而保證模型的緊急可用性，并保持患者病情的本地化。令人興奮的是，在專業醫療領域出現了基于預訓練模型進行微調的模型，例如 BioMistral-7B（Labrak et al.， 2024）、HuatuoGPT-7B-II（Chen et al.， 2023）等。這些低參數模型有可能部署在終端設備上。
科研支持：像 GatorTronGPT （Peng et al.， 2023）這樣的傳統研究支持 LLM 使用大量某些專業數據進行訓練。這使他們能夠生成高質量的專業文本，從而加速科學研究的進步，尤其是在數據稀缺或敏感的研究領域。改為端端 LLM 后，可以降低使用語言模型輔助科研任務的硬件成本，獲得更快的響應，保護科研信息的機密性。
伴侶機器人：已經有一些研究案例使用語言模型來增強機器人或物聯網（IoT）設備的能力（Ahn et al.， 2022;Xu et al.， 2024a）。LLM 強大的規劃和推理能力可以將人類指令分解成一系列的文本子任務，讓機器人更好地理解自然語言指令（Zeng et al.， 2023b）。例如，基于 Open AI 多模態語言模型的 Figure 01 機器人可以與人進行深度交流，并根據對話內容做出獨立的決策和行動（AI，2024c）。隨著小型模型的興起，部署設備端語言模型的機器人在相應的生成速度上可以勝過傳統的云端模型機器人。同時，客戶端模型可以保證機器人在離線時仍能保持其智能能力。
殘障人士支持：對于視障用戶來說，將圖片轉換為文本是一項非常基本且重要的功能。目前，有許多設備上的大型多模態模型，如Octopus v3 （Chen & Li， 2024b）， MiniCPM-Llama3-V 2.5 （清華大學， 2024）可以通過多模型能力實現此功能。有了它們，盲人也可以輕松了解對話中的圖片和視頻信息。Google 即將推出基于 Gemini Nano 的 Talkback 功能，幫助盲人或視力低下的人更豐富、更清晰地描述圖像中發生的事情（Google，2024b）。由于 Gemini Nano 是部署在邊緣的模型，因此即使沒有網絡連接，這些描述也會快速出現并正常工作。類似的功能也可以用于手語識別，有些項目使用 ChatGPT 模型進行手語翻譯（Sincan et al.， 2024）。相比之下，端模型可以生成與手語對應的文本翻譯，延遲時間更低，并確保其離線可用性。
自動駕駛汽車：使用語言模型駕駛自動駕駛汽車可能是一個理想的未來，但我們今天已經有這樣的例子。DriveVLM Dual 是一個將自動駕駛技術與大規模視覺語言模型（VLM）相結合的系統，以提高對城市環境中復雜和長尾場景的理解。該系統使用語言來描述駕駛環境并識別場景中的關鍵物體。它逐漸制定從元作和決策描述到航點的計劃。DriveVLM 在公共基準測試和研究人員自己的基準測試中都超越了現有的最先進方法，尤其是在處理復雜和動態場景方面。令人興奮的是，DriveVLM 可以本地部署在汽車上，這也為其即時響應提供了便利（Tian et al.， 2024）。

8 未來方向和開放挑戰

![[Pasted image 20250416203019.png]]

隨著設備端 LLM 的不斷發展，幾個重要領域成為有前途的未來研發方向。在對 1）數據安全、2）低延遲和 3）邊緣設備上個性化 AI 體驗的需求不斷增長的推動下，設備上 LLM 領域正在迅速發展。這一進步體現在最近的發展，如TinyLlama (Zhang et al., 2024c), MobileVLM (Murthy et al., 2024；Chu等人，2024)，以及像OpenELM這樣的新方法（Mehta等人，2024）。然而，在資源受限的設備上部署llm面臨著與傳統的基于云的實現截然不同的獨特挑戰。這些挑戰涉及多個領域，包括模型壓縮、高效推理、安全性、能源效率以及與各種硬件平臺的無縫集成。此外，邊緣環境的動態性質和持續適應的需求引入了必須考慮的額外復雜性。我們概述了在推動設備 LLM 領域的最緊迫的挑戰和機遇。通過確定這些關鍵領域并激發創新，開發功能更強大、更高效、更可靠的設備端語言模型，我們的目標是為未來的研究工作提供見解。我們應該注意到，這里討論的挑戰和機遇是相互關聯的：一個領域的進展往往會對其他領域產生影響。因此，考慮設備上 LLM 部署不同方面之間相互作用的整體方法對于在該領域取得重大進步至關重要。我們深入研究了研究的現狀，確定了關鍵挑戰并為未來的工作提出了潛在的方向，如圖 6 所示。通過應對這些挑戰，研究人員和從業者可以突破設備上 LLM 的界限，最終在各種應用程序和領域中實現更智能、更高效和以用戶為中心的計算體驗。

8.1 數據安全技術

設備上的語言模型可能提供固有的數據安全優勢，因為所有數據都可以保持本地化。未來的工作應側重于：

開發高效的隱私技術技術，包括查詢混淆（Yuan et al.， 2024）、prompt tuning （Li et al.， 2023b）和高級隨機化技術（Zhang et al.， 2024e），以平衡數據安全保證與模型效用和計算約束。
通過創建復雜的基準系統（Yuan 等人，2024 年）、實施實時監控（Das 等人，2024 年）以及設計系統來檢測和減少推理過程中潛在的 PII 泄漏（Kim 等人，2024 年d），加強風險評估和監控。
優化模型架構和通信策略，專注于高效的模型分片（Yang et al.， 2024a）、安全性增強架構（Yao et al.， 2024a）和最小化數據傳輸（Wang et al.， 2023）。
通過安全的多方計算（Das et al.， 2024）、長時間對話的數據保護（Yuan et al.， 2024）以及擴展 PFID 等框架以支持更廣泛的 LLM 架構和任務（Yang et al.， 2024a），解決協作和分布式學習場景中的安全挑戰。

8.2 自適應邊云協作

隨著設備上語言模型的不斷發展，邊緣計算和云基礎設施之間的協同作用既帶來了機遇，也帶來了挑戰。設備上 LLM 的自適應邊緣-云協作的未來研究應探索：

發明先進的緩存和請求分析技術，包括復雜的矢量數據庫緩存策略、針對不同 LLM 請求的特征提取模型（Yao et al.， 2024c）以及不確定性引導的token采樣方法，以優化邊緣設備和云服務器之間的數據傳輸（Wang et al.， 2024a）。
設計智能調度和資源分配算法，結合個性化推理調度（Yao et al.， 2024c）、異構基礎設施的自適應資源分配（Yang et al.， 2024c）和批量大小感知優化技術，以跨邊緣云環境高效分配 LLM 組件和工作負載（Zhang et al.， 2024b）。
創建高效的知識傳遞和模型壓縮方法，例如針對多模態 LLM 的基于適配器的知識蒸餾（Zhang et al.， 2024f）、用于各種 LLM 架構的動態量化技術以及自適應權重更新壓縮策略，以實現語言模型在資源受限的設備上的有效部署（Wang et al.， 2024a）。
通過開發用于代幣級協作的自適應控制機制（Yang et al.， 2024c）、用于實時決策的高效約束滿足算法以及減少延遲和改善混合邊緣云系統中管道執行的創新技術（Hao et al.， 2024;Zhang et al.， 2024b）。

8.3 多模態和跨模態學習

隨著 LLM 擴展到包含多種模式，對適用于設備部署的高效多模式架構的需求越來越大（Carreira 等人，2023 年;Liu et al.， 2024c）。主要研究方向包括：

開發高效的多模態處理和壓縮技術，包括先進的不確定性引導token采樣方法、用于云到設備模型更新的動態權重更新壓縮策略（Wang et al.， 2024a;McKinzie等人，2024 年），以及為設備上模型有效組合音頻、文本和視頻等多種模式的創新方法（Wagner 等人，2024 年）。
增強知識傳遞和適應能力，例如探索先進的基于適配器的知識蒸餾方法，將知識從較大的云模型轉移到較小的設備端模型，提高跨模態的少發和零發能力（Chen et al.， 2024a;Han et al.， 2024;McKinzie等人，2024 年），并研究結合生成和基于檢索的方法進行多模態內容生成的混合方法（Wu 等人，2023c）。
通過為非圖像模態開發大規模數據集，設計新的編碼器以對高分辨率圖像、長視頻序列和復雜音頻輸入進行細粒度的多模態理解（Han et al.， 2024），以及整合對網頁、3D 視覺、熱圖和表格/數字等其他模態和任務的支持（Wu et al.， 2023c）。
通過研究包含先前交互特征的較長上下文窗口，開發復雜的技術來處理和理解跨模態的時間和順序信息，并探索在與虛擬助手交互期間有用的任務，例如音頻字幕和聲學場景分類，從而提高時間和上下文處理能力（Wagner et al.， 2024）。

8.4 資源節約型解決方案

在邊緣設備上部署 LLM 引發了對能耗和環境影響的擔憂。未來的研究應優先考慮：

創建高效的模型壓縮和執行算法：為 LLM 開發高級修剪、量化和知識蒸餾技術。探索優化大于內存的模型執行的方法。研究動態和自適應推理技術，以根據輸入和可用資源調整模型復雜性（Bai et al.， 2024）。
利用模型稀疏性：研究利用語言模型的運行時激活稀疏性的技術，其中只有一小部分模型為給定任務激活。這可能會導致推理時間和內存占用的顯著減少，從而更有效地擴展模型大小（Xu et al.， 2024b）。
開發節能培訓和部署策略，包括節能算法和運行時優化（Bai et al.， 2024）。探索在邊緣設備上平衡安全性、能效和性能的自適應參數高效微調方法（He et al.， 2024）。

8.5 軟硬件協同設計

硬件和軟件開發之間的更緊密集成對于優化設備上的 LLM 性能至關重要。未來的研究方向包括：

推進各種內存類型的 PIM/PNM 架構，包括針對基于 CXL 的系統的優化和針對邊緣設備的低功耗解決方案（Kim et al.， 2024b）。
開發硬件感知優化技術，例如修剪感知量化、上下文稀疏性開發（Wan et al.， 2024）和動態稀疏注意力優化（Kachris， 2024）。
增強特定于 AI 的編譯器和運行時系統，以自動識別和優化 PIM/PNM 硬件的作（Huang et al.， 2024b），同時考慮圖形級和特定于硬件的優化（Kim et al.， 2024b;Wan et al.， 2024）。
為邊緣計算和多設備系統設計有效的策略，包括動態稀疏樹優化（Luk et al.， 2024）、自適應位寬技術和能量感知協同設計方法。

8.6 穩健性和可靠性

確保設備上語言模型在各種作條件下的穩健性和可靠性對于其廣泛采用至關重要。未來的工作應解決：

研究檢測和減輕設備上 LLM 輸出中潛在偏差和幻覺的方法，特別是在安全關鍵應用中（Ailem 等人，2024 年）。
探索形式化驗證和確認框架，以評估設備端語言模型在真實場景中的可靠性（Zhang et al.， 2023b）。
利用集成方法減少方差和偏差（Xu & Sen，2023;2024）。探索概率推理方法，通過 LLM 管道量化和傳播不確定性。

8.7 可擴展性和部署優化

有效地擴展設備上的 LLM 以支持越來越多的用戶和應用程序是一項重大挑戰。未來的研究應探索：

為跨異構邊緣設備的分布式 LLM 推理開發動態資源分配和負載平衡技術（Yang et al.， 2024c;Wilkins et al.， 2024）。
研究在協作邊緣計算場景中減少延遲和提高吞吐量的優化策略，可能利用模型分片和流水線推理等技術（Zhang et al.， 2024b;Dhar et al.， 2024）。
探索跨不同邊緣設備管理和更新多個 LLM 版本的有效方法，同時考慮網絡限制和設備功能等因素。構建網絡基礎設施以提高模型和數據集的可重用性和可重復性（Wolf et al.， 2019;Lhoest等人，2021 年;鄧等人，2019 年）。

8.8 持續學習和個性化

設備上 LLM 的部署為個性化 AI 體驗提供了前所未有的機會。然而，它也在保持模型相關性和隨著時間的推移適應新信息和用戶偏好方面帶來了獨特的挑戰。未來的研究應側重于：

實現可控的知識保留和遺忘，例如當模型遇到新的數據流時選擇性地保留或忘記信息。這對于管理錯誤信息和確保持續的準確性至關重要。增強模型自主學習新技能的能力，并根據用戶交互和本地數據改進現有能力（Li et al.， 2024d）。開發有效的歷史跟蹤機制，以了解 LLM 在各個學習階段的演變（Qi et al.， 2024）。
通過開發強大的理論基礎來理解和預測在設備上持續學習 LLM 的行為，推進理論基礎和實踐優化。這還包括進行大規模的用戶研究，以完善個性化框架并確定跨不同用戶群和場景的有效服務交付（Zhang等人，2024d），以及改進密鑰生成和檢索過程，以更好地表示向量空間中的任務分布（Peng et al.，2024）。
開發高效的持續學習機制，包括復雜的數據混合策略和高效的重放樣本選擇（Shi et al.， 2024）。這包括探索可控記憶系統和設計用于連續模型適應的自適應微調機制（Wu et al.， 2024;Li et al.， 2024d）。

展望這些未來的道路和未解決的問題（Gao et al.， 2024;Su et al.， 2024;Schwartz 等人，2023 年;Mahmood et al.， 2023;Zhao et al.， 2024a），研究人員和從業者有機會將設備上的 LLM 推向新的高度，并改變邊緣計算的格局。這些技術的有效發展和集成有可能為智能和定制應用程序解鎖創新框架，同時解決圍繞安全性、效率和可靠性的關鍵問題。這些進步的影響遠遠超出了理論上的增強，為廣泛領域的重大變革提供了潛力。在移動計算領域，增強的基于設備LLM的AI代理（Chen & Li，2024c）有可能促進高級自然語言界面和上下文感知服務，從而顯著提升用戶體驗。在 IoT 應用程序的上下文中，這些進步使更加自主和適應性更強的系統能夠實時處理復雜的語言輸入，即使在資源受限的環境中也是如此。在汽車行業，改進的設備上 LLM 可以提升自動駕駛汽車中的人機交互。此外，這些技術可以在醫療保健領域實現更加個性化和響應迅速的 AI 輔助患者護理。

實現這些進步是為了使對復雜 AI 功能的訪問民主化，使其在各種設備和用例中更易于訪問和高效。因此，該領域的持續研究和開發在技術上勢在必行且具有社會意義，有望預示著一個更易訪問、更高效、更可靠的人工智能應用程序的新時代，有望對社會和行業的各個方面產生積極影響。

9 結論

這篇全面的綜述闡明了設備上語言模型的最新進展。本文提供的廣泛分析突出了模型壓縮技術、高效架構設計和軟硬件協同優化策略方面的重大進步，所有這些都共同促進了在資源受限的邊緣設備上部署復雜的語言模型。這些改進的潛在影響是廣泛的，可以提高數據保護水平，減少延遲，并在不同行業和應用中平等地獲得高級 AI 功能。

從以云為中心的 LLM 部署過渡到基于邊緣的 LLM 部署不僅僅意味著技術進步;它代表了人機交互范式的轉變。通過將高級自然語言處理功能直接引入最終用戶設備，這種轉型為個性化、上下文感知和即時 AI 體驗開辟了新途徑。設備上的 LLM 將徹底改變用戶交互，并促進從移動電話和 IoT 到醫療保健和自主系統的更智能、響應更迅速的技術。

然而，向無處不在的設備端 LLM 發展的軌跡面臨著重大挑戰。在模型性能和邊緣設備固有的資源限制之間取得最佳平衡仍然是一個關鍵的研究問題。確保模型在異構作條件下的魯棒性并開發有效的持續學習機制是額外的障礙。此外，隨著設備端 AI 的界限不斷突破，有關能源效率、可持續性和負責任部署的問題變得越來越突出，因此需要創新的解決方案和謹慎的道德考慮。

要充分發揮設備端語言模型的潛力，需要多學科的共同努力。研究界必須繼續推進模型壓縮技術和高效架構設計的前沿，同時解決數據安全性和系統可靠性的潛在問題。該領域的從業者應該探索新穎的軟硬件協同設計方法和自適應邊緣-云協作策略，以優化實際部署。行業利益相關者在開發專用硬件加速器和促進設備上 AI 部署的開放標準方面發揮著關鍵作用。

隨著該領域研究的發展，設備端語言模型被置于即將發生的技術突破的最前沿。越來越高效的模型、更強大的邊緣硬件和創新部署策略的融合有望在人機交互中釋放前所未有的可能性。通過應對挑戰并利用本次調查中的機遇，研究界可以努力實現一個將復雜的 AI 功能無縫集成到日常生活中的未來，在尊重個性化和個性的同時增強人類的能力。邁向無處不在的智能計算的旅程正在順利進行，設備上的 LLM 已準備好在塑造這一激動人心的未來方面發揮關鍵作用。

總之，這篇綜述為研究人員和從業者提供了全面的資源，徹底分析了設備上 LLM 的現狀，并闡明了未來研發的關鍵領域。隨著設備上 LLM 領域的持續快速發展，研究界必須繼續致力于應對挑戰并抓住這項變革性技術帶來的機遇。