[論文閱讀] 人工智能 + 軟件工程 | 從軟件工程視角看大語言模型：挑戰與未來之路

從軟件工程視角看大語言模型：挑戰與未來之路

論文標題：Software Engineering for Large Language Models: Research Status, Challenges and the Road Ahead

arXiv:2506.23762
Software Engineering for Large Language Models: Research Status, Challenges and the Road Ahead
Hongzhou Rao, Yanjie Zhao, Xinyi Hou, Shenao Wang, Haoyu Wang
Subjects: Software Engineering (cs.SE); Artificial Intelligence (cs.AI)

研究背景：當LLM遇上軟件工程

想象一下，你讓ChatGPT寫一首詩，第一次得到的是浪漫的十四行詩，第二次同樣的prompt卻收到了一首俳句——這就是大語言模型(LLM)的非確定性魅力，但也給軟件開發帶來了新難題。隨著GPT-4、LLaMA等模型的爆發式發展，LLM已從實驗室走向醫療、金融等關鍵領域，但它們的開發過程仍面臨著傳統軟件工程未曾遇到的挑戰：

傳統軟件VS LLM：你的計算器APP每次輸入"2+2"都會輸出"4"，但LLM可能今天給你講個數學故事，明天才給出正確答案。這種概率性輸出讓傳統的確定性測試方法失效。
算力黑洞：訓練一個千億參數模型的成本堪比建造一座小型數據中心，這讓中小團隊望而卻步。
黑盒困境：當LLM生成錯誤信息時，工程師很難像調試傳統代碼一樣定位問題，就像醫生無法給"大腦"做CT掃描。

這些問題催生了一個新領域：大語言模型軟件工程(SE for LLM)。華中科技大學的研究團隊正是看到了這一空白，系統分析了LLM從需求到運維的全生命周期挑戰。

主要作者及單位信息

Hongzhou Rao, Yanjie Zhao等：來自華中科技大學計算機學院，長期從事AI與軟件工程交叉研究。
Haoyu Wang：通訊作者，華中科技大學教授，研究方向包括智能軟件與大規模系統。

創新點：第一個吃螃蟹的系統性研究

這篇論文的獨特之處在于：

全生命周期視角：首次將LLM開發分為需求工程→數據集構建→模型開發→測試評估→部署運維→維護演進六個階段，每個階段都給出了SE解決方案。
跨界融合思維：把傳統軟件工程的模塊化、版本控制等思想，與LLM特有的量化、微調等技術結合，比如提出"LLMOps"概念升級傳統MLOps。
問題-方案雙軌制：不僅指出"數據中毒"“災難性遺忘"等12大核心挑戰，還給出了如"多利益方協作需求定義”"自適應數據評估框架"等具體解決方向。

研究方法和思路：像搭積木一樣拆解LLM開發

核心研究框架

論文采用"分階段剖析"的方法，每個階段都遵循：

現狀掃描：梳理當前研究進展
挑戰識別：找出技術瓶頸
未來指路：提出研究方向

關鍵創新方法舉例

需求工程階段：如何讓LLM理解"好"的標準？

問題：用戶說"我要一個智能客服"，但"智能"的定義模糊不清。
方法：
1. 引入多利益方協作機制，讓業務人員、工程師、用戶共同定義指標（如響應準確率、情感識別率）
2. 采用實證研究方法，通過A/B測試確定關鍵需求優先級
3. 建立需求驗證閉環，用LLM生成測試用例反推需求合理性

數據集構建：如何避免"垃圾進垃圾出"？

創新數據管道：
- 利用LLM自動過濾重復數據，但引入人類專家對關鍵樣本標注
- 采用動態長尾適應技術，對稀有數據類別自動合成補充

模型部署：如何讓LLM在手機上跑起來？

邊緣部署方案：
1. 量化壓縮：將16位浮點數轉為4位整數，模型體積縮小4倍
2. 混合架構：云邊協同，復雜推理放云端，實時響應放邊緣
3. 安全沙箱：用TEE(可信執行環境)隔離模型，防止惡意篡改

主要貢獻：給LLM開發裝上"工程方向盤"

1. 建立SE for LLM的方法論體系

定義了6大階段的工程化標準，比如在測試階段提出"三維評估框架"（評估內容-場景-方法）
開發了LLMOps工具鏈原型，集成模型版本控制、自動部署等功能

2. 解決10+關鍵工程挑戰

挑戰領域	傳統方案問題	論文提出的改進
模型微調	災難性遺忘嚴重	引入記憶增強模塊，保留關鍵知識
測試評估	非確定性難測	設計概率容忍度測試標準，允許合理波動
數據安全	中毒攻擊隱蔽	開發實時異常檢測系統，識別惡意數據模式

3. 推動跨學科研究

促進AI研究者與SE專家合作，比如讓NLP專家參與需求工程
為工業界提供落地指南，如金融領域LLM的合規性部署流程

一段話總結

文檔聚焦于從軟件工程視角探討大型語言模型（LLMs）發展，將其生命周期分為需求工程、數據集構建、模型開發與增強、測試與評估、部署與運維、維護與演進六個階段，分析各階段研究現狀、挑戰及未來方向，強調LLMs在確定性、可解釋性等方面與傳統軟件差異，指出需結合軟件工程方法應對計算成本高、非確定性測試等挑戰，為LLMs開發提供系統性指導。

思維導圖

在這里插入圖片描述

詳細總結

一、LLMs與傳統軟件的差異

特征	傳統軟件	LLMs
確定性	相同輸入輸出一致	概率性輸出，具不確定性
可執行性	基于顯式邏輯執行	神經網絡推理，透明度低
可維護性	代碼修改調試	微調、再訓練或數據增強
可復用性	跨項目復用代碼組件	預訓練模型適配多任務
可測試性	支持系統單元和集成測試	需基于輸出評估，容不確定性
可擴展性	模塊化設計擴展	通過MoE、LoRA等參數高效方法擴展
可部署性	需特定平臺部署方法	跨平臺，基礎設施需求相似

二、LLM開發生命周期各階段分析

需求工程
- 研究現狀：利用LLMs支持需求工程任務研究較多，但針對LLM自身需求工程方法研究有限，多為領域特定需求，如醫療、法律等領域。
- 關鍵挑戰：需求定義準確性，如非功能需求中“創造力”等概念模糊；需求定義合理性，如邊緣部署中性能與資源的權衡。
- 未來方向：多利益相關方協作定義需求；開展實證研究，明確需求邊界。
數據集構建
- 數據質量
  - 現狀：手動標注數據質量高但規模有限，LLM輔助數據構建效率高但依賴LLM性能。
  - 挑戰：手動構建勞動密集、規模受限；數據分布不平衡，長尾效應明顯；LLM合成數據存偏見與誤差。
  - 方向：優化數據管道，集成多模型協作與人工反饋；建立自適應數據評估機制，動態調整數據生成。
- 數據安全
  - 現狀：面臨數據中毒、惡意代碼注入、未經授權數據使用等風險。
  - 挑戰：訓練數據中毒難以檢測；數據授權驗證技術精度不足。
  - 方向：建立可信數據源過濾機制；開發更精確數據檢測技術，如LLM輔助實時異常檢測。
模型開發與增強
- 預訓練
  - 現狀：關注訓練穩定性與計算資源優化，如控制梯度爆炸、優化學習率。
  - 挑戰：缺乏通用訓練穩定性評估模型；訓練成本高昂，限制中小團隊發展。
  - 方向：深入理論研究訓練動態，開發實時監控工具；探索模型增長技術，提高訓練效率。
- 微調
  - 現狀：多任務微調與災難性遺忘問題受關注，LoRA等技術應用較廣。
  - 挑戰：多任務間干擾，資源分配困難；災難性遺忘機制不清，解決方案有限。
  - 方向：設計混合微調架構，動態分配資源；開發知識保留技術，如記憶增強模型。
- 模型集成
  - 現狀：多模態模型、多模型協作及LLM-based代理應用發展迅速。
  - 挑戰：跨模態語義對齊困難；多模型協作中模型能力與價值觀差異。
  - 方向：構建智能提示與安全框架，實現跨模態信息轉換與安全交互。
- 模型壓縮
  - 現狀：量化、知識蒸餾、pruning是主要方法。
  - 挑戰：壓縮與性能平衡難，極端量化性能下降明顯。
  - 方向：聯合優化多種壓縮技術，開發自動化評估框架。
- PEFT
  - 現狀：參數高效微調技術如LoRA廣泛應用。
  - 挑戰：適配器引入復雜度與延遲，存在安全風險。
  - 方向：設計自適應適配器架構，優化模塊選擇與安全防護。
測試與評估
- 評估內容
  - 現狀：多維度評估LLM能力，如推理、偏見等。
  - 挑戰：抽象能力量化難，評估結果不一致。
  - 方向：引入跨域方法，如教育科學中的知識轉移評估；適應不同測試環境，動態調整評估場景。
- 評估場景
  - 現狀：各領域開發專用評估基準。
  - 挑戰：基準覆蓋不全、質量參差不齊，數據污染影響評估結果。
  - 方向：建立綜合評估平臺，持續更新基準；采用數據擾動技術，減少污染影響。
- 評估方法
  - 現狀：自動化評估與人工評估結合。
  - 挑戰：抽象能力評估依賴人工，效率低。
  - 方向：改進LLM-as-Judge框架，降低偏見；推動人機協作評估，平衡效率與準確性。
部署與運維
- 集群部署
  - 現狀：關注資源管理、 latency優化與安全。
  - 挑戰：異構硬件資源調度復雜；API暴露與數據泄漏風險。
  - 方向：開發高效調度算法，動態分配資源；建立隱私保護與安全風險評估框架。
- 邊緣部署
  - 現狀：模型壓縮與跨平臺部署是重點。
  - 挑戰：硬件資源有限，模型壓縮影響性能；模型暴露易受攻擊。
  - 方向：開發通用部署框架，支持多模型與硬件；利用TEE技術，增強邊緣部署安全。
- 混合部署
  - 現狀：云邊協同計算模式興起。
  - 挑戰：設備間協作與數據安全傳輸。
  - 方向：優化任務分配與通信，設計加密與聯邦學習方案。
維護與演進
- 現狀：技術債務積累，模型漂移影響性能，需持續更新適應法規倫理。
- 挑戰：技術債務缺乏系統研究，模型漂移檢測與適應困難；倫理合規自動化難。
- 方向：系統研究技術債務，利用LLMOps管理；開發漂移適應機制，動態更新模型；將倫理規范轉化為模型約束，實現自適應合規。

關鍵問題及答案

LLMs在需求工程階段面臨的核心挑戰是什么？
- 答案：LLMs在需求工程階段核心挑戰是需求定義的準確性與合理性。準確性方面，非功能需求如“創造力”“推理能力”等概念模糊，缺乏明確量化標準；合理性方面，需平衡不同利益相關方需求，如邊緣部署中性能與資源消耗的權衡，以及處理LLMs概率性輸出與用戶確定性需求的矛盾。
數據集構建中數據安全的主要威脅及應對方向是什么？
- 答案：數據集構建中數據安全主要威脅有數據中毒（惡意數據注入導致模型行為異常）和數據授權問題（未經授權使用數據引發法律風險）。應對方向包括建立可信數據源過濾機制，結合數據 provenance技術追蹤數據來源；開發更精確的數據檢測技術，如利用LLM輔助實時異常檢測，識別惡意數據與偏見內容。
模型部署與運維階段，邊緣部署相比集群部署的獨特挑戰是什么？
- 答案：邊緣部署相比集群部署的獨特挑戰在于硬件資源限制與安全風險。硬件上，邊緣設備計算能力、內存和能源有限，需在模型壓縮時平衡性能與精度；安全上，邊緣設備模型暴露易受物理 tampering、模型 stealing等攻擊，且本地處理敏感數據需更強隱私保護機制，而集群部署可依托云資源實現更復雜的安全防護與資源調度。