【自然語言處理與大模型】大模型（LLM）基礎知識④

（1）微調主要用來干什么？

微調目前最主要用在定制模型的自我認知和改變模型對話風格。模型能力的適配與強化只是輔助。

定制模型的自我認知：通過微調可以調整模型對自我身份、角色功能的重新認知，使其回答更加符合自定義的場景。還能限制模型的任務邊界，讓其在指定領域范圍回答問題，避免越界或錯誤信息。

????????比如：qwen的模型默認回答“我是qwen”，微調過后讓其回答“我是小呆（自定義的名字）”，再比如：你問模型“你有什么能力？”，模型默認回答“我會生成文本、寫作、編寫代碼等等”。但如果你做的是醫療領域的微調，模型就可以輸出“我可以幫助用戶分析應該吃什么藥”。再比如：微調前模型什么問題都回答，微調后只回答醫療問題，其他的問題拒絕回答。

改變模型的對話風格：是指通過在預訓練大模型的基礎上，使用特定風格的對話數據對模型進行二次訓練，使其在保持原有語言能力的同時，生成更符合目標風格的回復。通過微調實現的風格遷移本質上是模型參數空間的向量偏移。

????????比如：醫療咨詢場景中，微調后的模型會使用更嚴謹的術語；兒童教育場景中，模型會生成更親切的回復。

模型能力的適配與強化：通過微調能使通用模型具備垂直領域的知識，使其對垂直領域的問答能力提升，但由于模型具有幻覺且若想回復垂直領域的效果很好需要預處理大量訓練數據，所以使用微調為模型注入垂直領域知識只是一種輔助手段。

????????過少的樣本或單一的微調數據會導致模型在未見過的數據上表現不佳，此時模型過擬合，泛化能力差。少樣本的長時間微調還可能導致模型原有的通用能力被削弱，造成災難性遺忘。

（2）為什么不選擇直接使用微調來實現專業領域問答系統？

????????要想獲得好效果需要大量數據標注，而想要得到大量數據要付出較高成本，即便擁有大量數據也可能出現幻覺。而少樣本的數據微調可能會導致過擬合，使得模型泛化能力不佳，嚴重的會導致通用能力下降。

數據標注成本高：微調需要依賴高質量的標注數據，而專業領域的標注數據獲取成本極高。需要領域專家參與標注（如法律合同條款解析、醫學診斷邏輯標注），成本遠高于通用領域。專業領域的高質量數據量通常有限，導致模型難以覆蓋所有場景。領域知識（如法律條文、醫療指南）會隨時間變化，需持續維護標注數據，進一步增加成本。
幻覺問題難以徹底解決：即使使用高質量數據微調，模型仍可能產生幻覺（生成錯誤或虛構信息）。如果標注數據本身存在偏差或過時信息，模型可能繼承這些錯誤。微調后的模型在處理復雜或模糊問題時，可能生成邏輯不嚴謹的回答。專業領域的知識往往分散在多個來源（如論文、法規、案例），微調模型難以整合所有信息。
少樣本微調導致過擬合：數據量不足導致模型無法學習到領域知識的通用規律，反而“記住”了訓練數據中的噪聲和細節。少樣本對參數很大的模型而言，只會被“記住”而無法抽象成一個知識。

（3）實際應用中如何實現專業領域問答呢？

????????實際應用中常采取混合策略，也就是先用RAG，然后再使用微調進一步提升RAG輸出的準確率。RAG的優勢在于對知識更新成本低，不需要重新訓練模型只需要外掛知識庫就可以實現，對于動態數據也能低成本的更新。RAG還極大的增強了模型輸出內容的可解釋性，回答基于可以驗證的知識庫，能夠溯源。但RAG之后模型每次都是對相似度匹配出來的top-n結果做閱讀理解，模型本身并沒有相關領域的深刻知識。于是想到了對模型進行微調，起到補充作用，提升模型對領域術語的理解（如法律術語，醫學名詞），還可以優化生成邏輯（如合同條款解析的格式化輸出）。

（4）大模型應用落地的三個方向是？

????????大模型應用落地的三個方向——微調（Fine-tuning）、檢索增強生成（Retrieval-Augmented Generation, RAG）、以及智能體（Agent），各自代表了將大型預訓練模型應用于具體任務或場景的不同策略。下面簡要介紹這三個概念：

微調（Fine-tuning）：微調是指在已經在一個大規模數據集上預訓練好的模型基礎上，針對特定任務使用較小規模的特定數據集進行進一步訓練的過程。通過這種方式，模型可以學習到執行特定任務所需的細節和細微差別，同時保留從預訓練階段學到的廣泛知識。這種方法特別適用于那些有大量標記數據的任務。
檢索增強生成（Retrieval-Augmented Generation, RAG）：RAG是一種結合了信息檢索與文本生成的方法，旨在提高生成式模型輸出的相關性和準確性。它的工作原理是首先根據輸入查詢從一個大的文檔庫中檢索出最相關的文檔片段，然后將這些片段作為額外的信息提供給生成模型，以幫助其生成更加準確和上下文相關的回復。這種方法對于需要精確事實依據的任務特別有用。
智能體（Agent）：在人工智能領域，“Agent”通常指的是能夠自主執行任務、作出決策并適應環境變化的系統或模型。當談論大模型時，“Agent”的概念通常涉及利用這些模型來構建可以理解復雜指令、規劃步驟、解決問題并執行任務的智能體。這樣的“Agent”可以通過對環境的觀察來學習，并且能夠在不同的應用場景中表現出靈活的行為。這包括但不限于對話系統、自動化助手以及各種形式的機器人技術等。

（5）哪些模型參數來控制對話生成的自由度和多樣性？

Top_p (核采樣Nucleus Sampling)

定義：Top_p是一種采樣方法，通過選取概率總和達到p的最小集合中的單詞進行采樣。與傳統的top-k采樣（僅從概率最高的k個詞中選擇）不同，top_p根據累積概率動態決定候選詞匯集。

大小范圍：通常取值在0到1之間。例如，當設置為0.9時，意味著會選擇累計概率達到90%的那些最有可能的詞作為候選進行采樣。

存在處罰（Presence Penalty）

定義：存在處罰是用來控制生成文本中新話題引入頻率的一個參數。較高的存在處罰可以鼓勵模型產生更多樣化的內容，減少重復提及相同的主題或概念。

大小范圍：該參數的值通常是正數，表示懲罰強度。正值越大，對已經提到過的詞語再次出現的懲罰越強；如果設置為0，則不應用任何懲罰。

頻率懲罰（Frequency Penalty）

定義：頻率懲罰用于調節生成文本中詞語出現頻率的一種機制。它基于詞語在整個輸出序列中的出現次數來施加懲罰，旨在避免某些詞被過度使用，從而增加輸出內容的新穎性和多樣性。

大小范圍：類似于存在處罰，頻率懲罰的值也是非負實數。數值越高，對于高頻詞的抑制作用越強。設置為0則表示不對詞頻做額外處理。

（6）RAG的優點有哪些？

優點	描述
避免模型幻覺	引入外部知識庫信息，減少虛假內容生成
動態知識更新	知識庫可實時更新，無需重新訓練模型
提高答案準確性	結合外部知識生成更準確、相關的內容
增強可解釋性	生成內容基于可檢索知識，用戶可驗證來源
成本效益高	無需修改模型參數，僅優化輸入過程，節省訓練和部署成本
安全與隱私管理	通過限制知識庫權限控制敏感信息訪問
靈活定制	可針對特定領域（如醫療、金融）定制知識庫，快速適配不同場景

（7）RAG的缺點有哪些？

缺點	描述
依賴外部知識庫	檢索結果的質量和知識庫完整性直接影響生成效果
檢索效率與準確性矛盾	大規模知識庫檢索可能降低效率，難以兼顧速度和精準度
處理復雜查詢能力有限	對涉及多步驟推理或模糊語義的查詢效果不佳
數據敏感性不足	對日期、數值等細節信息的處理容易出錯
文檔拆分問題	文檔切分可能導致關鍵信息丟失或上下文斷裂
用戶查詢質量影響效果	用戶提問模糊或使用縮寫時，可能降低模型理解能力
實現復雜性	需要協調檢索和生成模塊，增加系統設計和維護成本

（8）RAG的核心優勢與核心痛點是什么？

RAG的核心優勢是動態更新知識庫方便，讓模型具備領域知識的成本低，可解釋性強。

RAG的核心痛點是對回復內容的精度要求越高，越難實現。知識庫的內容往往是多模態的，這導致構建知識庫所需要做的數據預處理越來越復雜。當前 RAG 的優化方向可歸納為 “數據質量 → 檢索精度 → 生成控制 → 查詢理解” 的全流程改進。

數據質量：原始知識庫中存在噪音（如HTML標簽、重復內容）、結構化數據解析困難（如表格、多模態數據）。對應使用去重糾錯工具去除冗余內容和糾正錯誤格式。引入多模態支持，使用圖像、表格的專用解析器（如 PDFBox、Tesseract OCR）
檢索精度：檢索結果排名靠前的文檔可能不包含答案，有可能是chunk分的不好，或者是top-k設置的不合理。對應解決方案目前有Rerank重排序算法，對檢索結果進行語義重排序。還引入知識圖譜，進行混合檢索（同時使用相似度、關鍵詞匹配、圖譜查詢）。

（9）什么是模態？什么是多模態？

模態是指一種特定類型的數據形式或感知方式。在人工智能和機器學習中，常見的模態包括：文本、圖像、音頻、視頻、傳感器數據。
多模態是指同時處理多種模態的數據，提升理解和生成能力。多模態大模型（Multimodal Large Model）能夠將不同模態的信息結合起來，完成跨模態的任務。

（10）多模態有哪些應用場景？

Language-Audio

Text-to-Speech Synthesis（文轉音）: 將文本轉換為語音，實現自然語言到聲音的轉換。
Audio Captioning（音頻字幕）: 從語音中提取關鍵信息，生成簡潔的文字描述，用于內容摘要或理解。

Vision-Audio

Audio-Visual Speech Recognition（視聽語音識別）: 結合視頻和音頻信息，提高語音識別的準確性和魯棒性。
Video Sound Separation（視頻聲源分離）: 在復雜場景下分離不同聲源，增強音頻處理能力。
Image Generation from Audio（音頻生成圖像）: 根據聲音生成相關圖像，可用于音樂可視化或情感表達。
Speech-conditioned Face generation（語音驅動面部生成）: 通過語音生成說話者的面部視頻，實現語音到視覺的轉換。
Audio-Driven 3D Facial Animation（音頻驅動的3D面部動畫）: 利用語音驅動3D人臉模型，生成逼真的面部動畫，適用于虛擬現實和娛樂領域。

Vision-Language

Image/Video-Text Retrieval (圖像/視頻與文本的相互檢索): 圖像/視頻<--->文本的相互檢索。
Image/Video Captioning (圖像/視頻的內容描述): 給定一個圖像/視頻，生成文本描述其主要內容。
Visual Question Answering (基于圖像/視頻的問答系統): 給定一個圖像/視頻與一個問題，預測答案。
Image/Video Generation from Text（文本驅動的圖像/視頻生成）: 給定文本，生成相應的圖像或視頻。
Multimodal Machine Translation（多模態機器翻譯）: 給定一種語言的文本與該文本對應的圖像，翻譯為另外一種語言。
Vision-and-Language Navigation (視覺-語言導航): 給定自然語言進行指導，使得智能體根據視覺傳感器導航到特定的目標。
Multimodal Dialog (多模態對話): 給定圖像、歷史對話，以及與圖像相關的問題，預測該問題的回答。

定位相關的任務

Visual Grounding (視覺定位): 根據文本描述在圖像中定位相應的物體，實現文本與視覺內容的精確對應。
Temporal Language Localization (時序語言定位): 在視頻中根據文本描述定位特定動作的發生時間，用于事件檢測和時間線分析。
Video Summarization from text query (基于文本查詢的視頻摘要): 根據文本查詢生成視頻摘要，提取關鍵幀或片段，形成簡短的視頻概要。
Video Segmentation from Natural Language Query (基于自然語言查詢的視頻分割): 根據文本查詢對視頻進行分割，識別并提取出與查詢相關的物體或場景。
Video-Language Inference (視頻-語言推理): 結合視頻內容和文本假設，判斷二者是否存在語義上的關聯，用于視頻內容的理解和驗證。
Object Tracking from Natural Language Query (基于自然語言查詢的對象追蹤): 在視頻中根據文本描述追蹤特定對象，實現動態目標的持續跟蹤。
Language-guided Image/Video Editing (語言引導的圖像/視頻編輯): 根據文本指令自動對圖像或視頻進行編輯，如添加、刪除或修改特定元素，提升內容創作的效率和靈活性。