論文閱讀： Mobile Edge Intelligence for Large LanguageModels: A Contemporary Survey

地址：Mobile Edge Intelligence for Large Language Models: A Contemporary Survey

摘要

設備端大型語言模型（LLMs）指在邊緣設備上運行 LLMs，與云端模式相比，其成本效益更高、延遲更低且更能保護隱私，因此引發了廣泛關注。然而，設備端 LLMs 的性能本質上受限于邊緣設備的資源約束。移動邊緣智能（MEI）介于云端 AI 和設備端 AI 之間，通過在移動網絡邊緣提供 AI 能力，允許終端用戶將繁重的 AI 計算卸載到附近的邊緣服務器，為這一問題提供了可行解決方案。本文對利用 MEI 支持 LLMs 的研究進行了最新綜述：首先，通過若干典型應用場景說明在網絡邊緣部署 LLMs 的迫切需求；其次，介紹 LLMs 和 MEI 的基礎知識，以及資源高效的 LLM 技術；隨后，概述面向 LLMs 的 MEI 架構（MEI4LLM），闡述其核心組件及對 LLMs 部署的支持方式；接著，深入探討 MEI4LLM 的各個方面，包括邊緣 LLM 緩存與分發、邊緣 LLM 訓練和邊緣 LLM 推理；最后，指出未來的研究方向。希望本文能啟發研究者利用移動邊緣計算推動 LLMs 部署，從而在各類隱私敏感和延遲敏感型應用中釋放 LLMs 的潛力。

概述

背景與動機
- 云端 LLMs 存在隱私泄露、帶寬成本高、延遲長等問題；設備端 LLMs 受限于資源，難以支持大規模模型和復雜任務。
- MEI 作為折中方案，通過邊緣服務器提供 AI 能力，平衡計算資源、延遲和隱私需求，成為 6G 時代 LLMs 部署的關鍵方向。
核心應用場景
聚焦四個對邊緣部署 LLMs 需求迫切的場景：
- 移動醫療：需低延遲處理敏感健康數據，符合隱私法規（如 GDPR）；
- 類人機器人：依賴實時響應（10-100ms 延遲）和本地化數據處理；
- 虛擬助手：要求低延遲交互（<200ms）和用戶數據隱私保護；
- 自動駕駛：需超低延遲（10ms 級）和處理海量多模態傳感器數據。
基礎技術
- LLMs 基礎：基于 Transformer 架構，分為編碼器僅用、解碼器僅用、編碼器 - 解碼器三類，支持文本、圖像等多模態輸入，存在自回歸生成等特性。
- MEI 基礎：融合移動邊緣計算與 AI，通過邊緣服務器實現分布式訓練和推理，支持聯邦學習、拆分學習等框架。
- 資源高效技術：包括模型壓縮（量化、剪枝、知識蒸餾）、快速解碼（投機解碼、早期退出）、參數高效微調（LoRA、前綴調優）等。
MEI4LLM 架構
- 核心組件：AI 原生網絡架構、參數共享的 LLM 緩存與分發、分布式 LLM 訓練、分布式 LLM 推理。
- 關鍵技術：
  - 緩存與分發：利用參數共享特性優化邊緣緩存（如 TrimCaching），通過多播和量化減少傳輸成本；
  - 訓練：支持集中式邊緣學習、聯邦學習、拆分學習和分層協同學習，結合參數高效微調降低資源消耗；
  - 推理：包括集中式推理（邊緣服務器統一處理）、拆分推理（設備與服務器分工）、協同推理（設備生成初步結果，服務器驗證）。
未來方向
- 綠色邊緣 LLM（降低能耗）、安全邊緣 LLM（防御隱私攻擊）、質量感知的邊緣 LLM 訓練（數據質量控制）。

一、相關技術總結

資源高效的 LLM 技術

技術類別	具體方法	核心原理	優點	缺點	性能表現（典型案例）
模型壓縮	量化（PTQ/QAT）	將高精度參數（如 FP16）轉為低精度（如 INT4/INT8）	減少存儲和計算量，適配邊緣設備內存	可能導致精度損失，QAT 需額外訓練資源	Llama2-7B 經 4-bit 量化后內存從 28GB 降至 3.5GB，精度損失 <1% [8,131]
	剪枝（結構化 / 非結構化）	移除冗余參數（如注意力頭、權重）	降低模型復雜度，加速推理	非結構化剪枝需專用硬件支持	GPT-3 經 60% 非結構化剪枝后，精度無顯著損失 [133]
	知識蒸餾	用小模型（學生）學習大模型（教師）的輸出分布	保留核心能力，模型體積大幅縮減（如 10 倍）	蒸餾過程需大量標注數據，可能丟失細粒度知識	MiniLLM 在文本生成任務上性能接近教師模型，體積縮減 90% [134]
快速解碼	投機解碼	輕量模型生成候選 token，大模型驗證修正	減少自回歸迭代次數，延遲降低 50% 以上	需維護輕量模型，驗證錯誤可能引入額外成本	llama.cpp 中投機解碼使生成速度提升 2 倍，能耗降低 50% [129]
	早期退出	在中間層設置出口，滿足置信度時終止推理	動態平衡速度與精度，短文本任務加速顯著	長文本生成中需保留 KV 緩存，增加內存占用	BERT 經早期退出優化后，推理速度提升 40%，精度損失 <2% [137]
參數高效微調	LoRA	凍結預訓練權重，僅訓練低秩矩陣	微調參數減少 99%，適配邊緣設備計算能力	推理時需合并低秩矩陣，可能增加延遲	LLaMA-7B 經 LoRA 微調后，下游任務性能接近全量微調，參數僅增加 0.1% [153]
	前綴調優	在輸入前添加可訓練的軟提示（Soft Prompt）	無需修改模型結構，適配多任務場景	提示設計依賴人工經驗，復雜任務性能有限	GPT-2 通過前綴調優在機器翻譯任務上 BLEU 值達 69，接近全量微調 [149]

模型壓縮：
- 量化：將高精度參數轉為低精度（如 INT4），減少存儲和計算量（如 GPTQ、AWQ）；
- 剪枝：移除冗余參數，分結構化（剪枝注意力頭）和非結構化（稀疏化權重）兩類；
- 知識蒸餾：通過 “教師 - 學生” 模型傳遞知識，適配邊緣設備（如 MiniLLM）。
快速解碼：
- 投機解碼：用輕量模型生成候選 tokens，由大模型驗證，減少迭代次數；
- 早期退出：在中間層終止推理，平衡速度與精度；
- KV 緩存優化：壓縮或動態管理緩存，減少內存占用（如 MiniCache）。
參數高效微調：
- 適配器調優（Adapter Tuning）、前綴調優（Prefix Tuning）等，僅更新少量參數即可適配下游任務；
- LoRA 通過低秩矩陣分解減少微調參數，兼容邊緣設備。

邊緣 LLM 緩存與分發

技術方法	核心原理	優點	缺點	性能表現（典型案例）
參數共享緩存	緩存共享參數塊（如預訓練權重），僅存儲任務特定參數（如 LoRA 適配器）	存儲效率提升 5-10 倍，支持多模型并發	緩存替換策略復雜，依賴參數共享度	TrimCaching 在 12 個邊緣服務器部署 100 個微調模型，緩存命中率提升至 80% [197]
多播分發	對共享參數塊多播，任務特定參數單播	傳輸效率提升 3-5 倍，減少帶寬消耗	多播組管理復雜，適用于密集用戶場景	多播分發 Llama2-7B，下載延遲從 5s 降至 1.2s [198]
量化傳輸	模型參數量化后傳輸，邊緣設備解壓使用	傳輸量減少 4-8 倍，適配低帶寬邊緣網絡	解壓增加設備計算負擔，可能損失精度	4-bit 量化傳輸 GPT-3，傳輸時間減少 75%，精度損失 <2% [199]

緩存策略：利用 LLM 參數共享特性（如 LoRA 微調模型共享預訓練權重），采用 TrimCaching 等方法減少存儲冗余；
分發優化：通過參數塊多播、量化傳輸、聯合緩存與路由優化，降低傳輸延遲和帶寬消耗。

邊緣 LLM 訓練與推理

訓練框架：

訓練框架	核心原理	優點	缺點	性能表現（典型案例）
集中式邊緣學習	邊緣設備上傳數據至服務器，統一訓練	訓練效率高，適合數據非敏感場景	隱私風險高，上傳海量多模態數據消耗帶寬	用 12 個邊緣服務器并行訓練 LLaMA-2 7B，每輪迭代 latency 降低至 80s [216]
?聯邦學習（FL）	設備本地訓練，僅上傳模型更新，服務器聚合	保護數據隱私，適配分布式數據場景	通信成本高，設備異構性導致訓練不穩定	聯邦 LoRA 微調 LLaMA-13B，通信量減少 99%，精度損失 <3% [218]
拆分學習（SL）	模型拆分為設備端和服務器端子模型，通過中間特征交互訓練	避免原始數據上傳，平衡隱私與計算效率	中間特征傳輸仍可能泄露隱私，拆分點選擇影響性能	拆分 GPT-3 在醫療數據上訓練，隱私泄露風險降低 70%，精度保持 95% [225]
分層協同學習	云 - 邊緣 - 設備三級協同，邊緣聚合本地模型，云端聚合全局知識	兼顧全局泛化與本地適配，支持大規模部署	架構復雜，跨層通信延遲高	自動駕駛場景中，分層訓練使模型適配不同區域路況，精度提升 15% [228]

聯邦學習：邊緣設備本地訓練，僅上傳模型更新，保護數據隱私（如 FedLoRA）；
拆分學習：將模型拆分為設備端和服務器端子模型，通過中間特征交互協同訓練，減少原始數據傳輸；
分層協同學習：結合云、邊緣、設備三級資源，平衡全局知識與本地適配。

推理框架：

推理框架	核心原理	優點	缺點	性能表現（典型案例）
** 集中式推理	設備上傳數據至邊緣服務器，由服務器執行完整推理	利用服務器強算力，支持大模型	隱私風險高，上傳多模態數據帶寬消耗大	邊緣服務器部署 Llama2-70B，推理延遲比云端低 60% [24]
** 拆分推理	設備處理底層網絡，服務器處理高層網絡，通過中間特征交互	減少原始數據傳輸，平衡隱私與延遲	特征傳輸仍占帶寬，拆分點需優化	拆分 GPT-4 在自動駕駛場景中，延遲降至 50ms，帶寬消耗減少 40% [277]
** 協同推理	設備用輕量模型生成初步結果，服務器用大模型驗證修正	設備端快速響應，服務器保證精度	驗證錯誤可能導致返工，需協調設備與服務器模型	虛擬助手場景中，協同推理使響應延遲 <100ms，準確率達 92% [278]

集中式推理：邊緣服務器統一處理，適用于非敏感數據；
拆分推理：設備處理部分層并上傳中間特征，服務器完成剩余計算，平衡隱私與延遲；
協同推理：設備用輕量模型生成初步結果，服務器用大模型驗證，提升效率（如投機解碼）。

二、未來研究方向

綠色邊緣 LLM：聚焦降低邊緣 LLM 訓練和推理的能耗，通過優化算法（如基于零階優化器減少內存消耗）、硬件創新（如三星的 PIM 和 PNM 技術提升內存帶寬與容量同時降低能耗），適配電池供電的邊緣設備，滿足可持續發展需求。
安全邊緣 LLM：抵御隱私攻擊（如防止通過中間特征恢復原始數據）、對抗攻擊（如數據投毒），保障 LLM 在邊緣安全運行。研究安全聚合協議、加密機制，確保聯邦學習中模型更新安全傳輸；開發魯棒訓練算法，提升模型抗攻擊能力。
質量感知的邊緣 LLM 訓練：在邊緣數據質量參差不齊的情況下，實現數據質量控制。研究數據篩選、增強技術，結合邊緣設備數據特性優化訓練過程，如利用分層協同學習框架，在不同層次對數據質量進行評估與處理，提升模型泛化性和準確性。

三、難點

通信瓶頸：現有研究多關注計算效率，忽視通信對 LLM 訓練、推理、緩存及分發的影響。在移動邊緣網絡中，多模態數據上傳下載、中間特征傳輸消耗大量帶寬，制約 LLM 性能，需設計通信高效的邊緣架構與協議。
模型與網絡協同優化：當前 LLM 資源高效技術與無線邊緣網絡相互作用研究不足。如參數高效微調、分割推理等技術在復雜網絡環境下性能不穩定，需聯合優化模型部署與網絡資源分配。
邊緣設備異構性：邊緣設備在計算、內存、存儲能力上差異大，難以統一適配 LLM。需開發自適應技術，根據設備能力動態調整模型配置、訓練推理策略，保障不同設備上 LLM 的可用性與性能。