【自然語言處理與大模型】大模型(LLM)基礎知識④

(1)微調主要用來干什么

微調目前最主要用在定制模型的自我認知和改變模型對話風格。模型能力的適配與強化只是輔助。

  • 定制模型的自我認知:通過微調可以調整模型對自我身份、角色功能的重新認知,使其回答更加符合自定義的場景。還能限制模型的任務邊界,讓其在指定領域范圍回答問題,避免越界或錯誤信息。

????????比如:qwen的模型默認回答“我是qwen”,微調過后讓其回答“我是小呆(自定義的名字)”,再比如:你問模型“你有什么能力?”,模型默認回答“我會生成文本、寫作、編寫代碼等等”。但如果你做的是醫療領域的微調,模型就可以輸出“我可以幫助用戶分析應該吃什么藥”。再比如:微調前模型什么問題都回答,微調后只回答醫療問題,其他的問題拒絕回答。

  • 改變模型的對話風格:是指通過在預訓練大模型的基礎上,使用特定風格的對話數據對模型進行二次訓練,使其在保持原有語言能力的同時,生成更符合目標風格的回復。通過微調實現的風格遷移本質上是模型參數空間的向量偏移。

????????比如:醫療咨詢場景中,微調后的模型會使用更嚴謹的術語;兒童教育場景中,模型會生成更親切的回復。

  • 模型能力的適配與強化:通過微調能使通用模型具備垂直領域的知識,使其對垂直領域的問答能力提升,但由于模型具有幻覺且若想回復垂直領域的效果很好需要預處理大量訓練數據,所以使用微調為模型注入垂直領域知識只是一種輔助手段。

????????過少的樣本或單一的微調數據會導致模型在未見過的數據上表現不佳,此時模型過擬合,泛化能力差。少樣本的長時間微調還可能導致模型原有的通用能力被削弱,造成災難性遺忘。

(2)為什么不選擇直接使用微調來實現專業領域問答系統?

????????要想獲得好效果需要大量數據標注,而想要得到大量數據要付出較高成本,即便擁有大量數據也可能出現幻覺。而少樣本的數據微調可能會導致過擬合,使得模型泛化能力不佳,嚴重的會導致通用能力下降。

  • 數據標注成本高:微調需要依賴高質量的標注數據,而專業領域的標注數據獲取成本極高。需要領域專家參與標注(如法律合同條款解析、醫學診斷邏輯標注),成本遠高于通用領域。專業領域的高質量數據量通常有限,導致模型難以覆蓋所有場景。領域知識(如法律條文、醫療指南)會隨時間變化,需持續維護標注數據,進一步增加成本。
  • 幻覺問題難以徹底解決:即使使用高質量數據微調,模型仍可能產生幻覺(生成錯誤或虛構信息)。如果標注數據本身存在偏差或過時信息,模型可能繼承這些錯誤。微調后的模型在處理復雜或模糊問題時,可能生成邏輯不嚴謹的回答。專業領域的知識往往分散在多個來源(如論文、法規、案例),微調模型難以整合所有信息。
  • 少樣本微調導致過擬合:數據量不足導致模型無法學習到領域知識的通用規律,反而“記住”了訓練數據中的噪聲和細節。少樣本對參數很大的模型而言,只會被“記住”而無法抽象成一個知識。
(3)實際應用中如何實現專業領域問答呢?

????????實際應用中常采取混合策略,也就是先用RAG,然后再使用微調進一步提升RAG輸出的準確率。RAG的優勢在于對知識更新成本低,不需要重新訓練模型只需要外掛知識庫就可以實現,對于動態數據也能低成本的更新。RAG還極大的增強了模型輸出內容的可解釋性,回答基于可以驗證的知識庫,能夠溯源。但RAG之后模型每次都是對相似度匹配出來的top-n結果做閱讀理解,模型本身并沒有相關領域的深刻知識。于是想到了對模型進行微調,起到補充作用,提升模型對領域術語的理解(如法律術語,醫學名詞),還可以優化生成邏輯(如合同條款解析的格式化輸出)。

(4)大模型應用落地的三個方向是?

????????大模型應用落地的三個方向——微調(Fine-tuning)、檢索增強生成(Retrieval-Augmented Generation, RAG)、以及智能體(Agent),各自代表了將大型預訓練模型應用于具體任務或場景的不同策略。下面簡要介紹這三個概念:

  • 微調(Fine-tuning):微調是指在已經在一個大規模數據集上預訓練好的模型基礎上,針對特定任務使用較小規模的特定數據集進行進一步訓練的過程。通過這種方式,模型可以學習到執行特定任務所需的細節和細微差別,同時保留從預訓練階段學到的廣泛知識。這種方法特別適用于那些有大量標記數據的任務。
  • 檢索增強生成(Retrieval-Augmented Generation, RAG):RAG是一種結合了信息檢索與文本生成的方法,旨在提高生成式模型輸出的相關性和準確性。它的工作原理是首先根據輸入查詢從一個大的文檔庫中檢索出最相關的文檔片段,然后將這些片段作為額外的信息提供給生成模型,以幫助其生成更加準確和上下文相關的回復。這種方法對于需要精確事實依據的任務特別有用。
  • 智能體(Agent):在人工智能領域,“Agent”通常指的是能夠自主執行任務、作出決策并適應環境變化的系統或模型。當談論大模型時,“Agent”的概念通常涉及利用這些模型來構建可以理解復雜指令、規劃步驟、解決問題并執行任務的智能體。這樣的“Agent”可以通過對環境的觀察來學習,并且能夠在不同的應用場景中表現出靈活的行為。這包括但不限于對話系統、自動化助手以及各種形式的機器人技術等。
(5)哪些模型參數來控制對話生成的自由度和多樣性?
  • Top_p (核采樣Nucleus Sampling)

定義:Top_p是一種采樣方法,通過選取概率總和達到p的最小集合中的單詞進行采樣。與傳統的top-k采樣(僅從概率最高的k個詞中選擇)不同,top_p根據累積概率動態決定候選詞匯集。

大小范圍:通常取值在0到1之間。例如,當設置為0.9時,意味著會選擇累計概率達到90%的那些最有可能的詞作為候選進行采樣。

  • 存在處罰(Presence Penalty)
定義:存在處罰是用來控制生成文本中新話題引入頻率的一個參數。較高的存在處罰可以鼓勵模型產生更多樣化的內容,減少重復提及相同的主題或概念。
大小范圍:該參數的值通常是正數,表示懲罰強度。正值越大,對已經提到過的詞語再次出現的懲罰越強;如果設置為0,則不應用任何懲罰。
  • 頻率懲罰(Frequency Penalty)

定義:頻率懲罰用于調節生成文本中詞語出現頻率的一種機制。它基于詞語在整個輸出序列中的出現次數來施加懲罰,旨在避免某些詞被過度使用,從而增加輸出內容的新穎性和多樣性。

大小范圍:類似于存在處罰,頻率懲罰的值也是非負實數。數值越高,對于高頻詞的抑制作用越強。設置為0則表示不對詞頻做額外處理。

(6)RAG的優點有哪些?

優點

描述

避免模型幻覺

引入外部知識庫信息,減少虛假內容生成

動態知識更新

知識庫可實時更新,無需重新訓練模型

提高答案準確性

結合外部知識生成更準確、相關的內容

增強可解釋性

生成內容基于可檢索知識,用戶可驗證來源

成本效益高

無需修改模型參數,僅優化輸入過程,節省訓練和部署成本

安全與隱私管理

通過限制知識庫權限控制敏感信息訪問

靈活定制

可針對特定領域(如醫療、金融)定制知識庫,快速適配不同場景

(7)RAG的缺點有哪些?

缺點

描述

依賴外部知識庫

檢索結果的質量和知識庫完整性直接影響生成效果

檢索效率與準確性矛盾

大規模知識庫檢索可能降低效率,難以兼顧速度和精準度

處理復雜查詢能力有限

對涉及多步驟推理或模糊語義的查詢效果不佳

數據敏感性不足

對日期、數值等細節信息的處理容易出錯

文檔拆分問題

文檔切分可能導致關鍵信息丟失或上下文斷裂

用戶查詢質量影響效果

用戶提問模糊或使用縮寫時,可能降低模型理解能力

實現復雜性

需要協調檢索和生成模塊,增加系統設計和維護成本

(8)RAG的核心優勢與核心痛點是什么?

RAG的核心優勢是動態更新知識庫方便,讓模型具備領域知識的成本低,可解釋性強。

RAG的核心痛點是對回復內容的精度要求越高,越難實現。知識庫的內容往往是多模態的,這導致構建知識庫所需要做的數據預處理越來越復雜。當前 RAG 的優化方向可歸納為 數據質量 → 檢索精度 → 生成控制 → 查詢理解 的全流程改進。

  • 數據質量:原始知識庫中存在噪音(如HTML標簽、重復內容)、結構化數據解析困難(如表格、多模態數據)。對應使用去重糾錯工具去除冗余內容和糾正錯誤格式。引入多模態支持,使用圖像、表格的專用解析器(如 PDFBox、Tesseract OCR)
  • 檢索精度:檢索結果排名靠前的文檔可能不包含答案,有可能是chunk分的不好,或者是top-k設置的不合理。對應解決方案目前有Rerank重排序算法,對檢索結果進行語義重排序。還引入知識圖譜,進行混合檢索(同時使用相似度、關鍵詞匹配、圖譜查詢)。
(9)什么是模態?什么是多模態?
  • 模態是指一種特定類型的數據形式或感知方式。在人工智能和機器學習中,常見的模態包括:文本、圖像、音頻、視頻、傳感器數據。
  • 多模態是指同時處理多種模態的數據,提升理解和生成能力。多模態大模型(Multimodal Large Model)能夠將不同模態的信息結合起來,完成跨模態的任務。
(10)多模態有哪些應用場景

Language-Audio

  • Text-to-Speech Synthesis(文轉音): 將文本轉換為語音,實現自然語言到聲音的轉換。
  • Audio Captioning(音頻字幕): 從語音中提取關鍵信息,生成簡潔的文字描述,用于內容摘要或理解。

Vision-Audio

  • Audio-Visual Speech Recognition(視聽語音識別): 結合視頻和音頻信息,提高語音識別的準確性和魯棒性。
  • Video Sound Separation(視頻聲源分離): 在復雜場景下分離不同聲源,增強音頻處理能力。
  • Image Generation from Audio(音頻生成圖像): 根據聲音生成相關圖像,可用于音樂可視化或情感表達。
  • Speech-conditioned Face generation(語音驅動面部生成): 通過語音生成說話者的面部視頻,實現語音到視覺的轉換。
  • Audio-Driven 3D Facial Animation(音頻驅動的3D面部動畫): 利用語音驅動3D人臉模型,生成逼真的面部動畫,適用于虛擬現實和娛樂領域。
Vision-Language
  • Image/Video-Text Retrieval (圖像/視頻與文本的相互檢索): 圖像/視頻<--->文本的相互檢索。
  • Image/Video Captioning (圖像/視頻的內容描述): 給定一個圖像/視頻,生成文本描述其主要內容。
  • Visual Question Answering (基于圖像/視頻的問答系統): 給定一個圖像/視頻與一個問題,預測答案。
  • Image/Video Generation from Text(文本驅動的圖像/視頻生成): 給定文本,生成相應的圖像或視頻。
  • Multimodal Machine Translation(多模態機器翻譯): 給定一種語言的文本與該文本對應的圖像,翻譯為另外一種語言。
  • Vision-and-Language Navigation (視覺-語言導航): 給定自然語言進行指導,使得智能體根據視覺傳感器導航到特定的目標。
  • Multimodal Dialog (多模態對話): 給定圖像、歷史對話,以及與圖像相關的問題,預測該問題的回答。

定位相關的任務

  • Visual Grounding (視覺定位): 根據文本描述在圖像中定位相應的物體,實現文本與視覺內容的精確對應。
  • Temporal Language Localization (時序語言定位): 在視頻中根據文本描述定位特定動作的發生時間,用于事件檢測和時間線分析。
  • Video Summarization from text query (基于文本查詢的視頻摘要): 根據文本查詢生成視頻摘要,提取關鍵幀或片段,形成簡短的視頻概要。
  • Video Segmentation from Natural Language Query (基于自然語言查詢的視頻分割): 根據文本查詢對視頻進行分割,識別并提取出與查詢相關的物體或場景。
  • Video-Language Inference (視頻-語言推理): 結合視頻內容和文本假設,判斷二者是否存在語義上的關聯,用于視頻內容的理解和驗證。
  • Object Tracking from Natural Language Query (基于自然語言查詢的對象追蹤): 在視頻中根據文本描述追蹤特定對象,實現動態目標的持續跟蹤。
  • Language-guided Image/Video Editing (語言引導的圖像/視頻編輯): 根據文本指令自動對圖像或視頻進行編輯,如添加、刪除或修改特定元素,提升內容創作的效率和靈活性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/906158.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/906158.shtml
英文地址,請注明出處:http://en.pswp.cn/news/906158.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于 Spring Boot 瑞吉外賣系統開發(十五)

基于 Spring Boot 瑞吉外賣系統開發&#xff08;十五&#xff09; 前臺用戶登錄 在登錄頁面輸入驗證碼&#xff0c;單擊“登錄”按鈕&#xff0c;頁面會攜帶輸入的手機號和驗證碼向“/user/login”發起請求。 定義UserMapper接口 Mapper public interface UserMapper exte…

什么是TCP協議?它存在哪些安全挑戰?

一、TCP協議概述 TCP&#xff08;傳輸控制協議&#xff09;是互聯網中面向連接、可靠的傳輸層協議&#xff0c;主要負責在不可靠的IP層上實現數據的可靠傳輸。其核心特點包括&#xff1a; 面向連接&#xff1a;通信前需通過三次握手&#xff08;SYN-SYN/ACK-ACK&#xff09;建…

12條熱門照片提示

12條熱門照片提示 1. 賽博朋克光彩 (Cyberpunk Glow-Up) 未在文件中顯示2. 卡通化我 (Cartoonify Me) Convert this image of [your subject here] into a 3D Pixar-style cartoon clean lines, soft lighting, expressive features, and a polished render that feels cine…

Java求職面試揭秘:從Spring到微服務的技術挑戰

文章簡述 在這篇文章中&#xff0c;我們將通過一個幽默的面試場景&#xff0c;揭秘互聯網大廠Java求職者在面試中面對的技術挑戰。面試官將從Spring框架、微服務架構到大數據處理等多個維度進行提問&#xff0c;并詳細講解這些技術點的應用場景和解決方案&#xff0c;幫助小白…

用Python輸出一個文件夾的所有文件結構

輸出一個文件夾的所有目錄和文件結構 新建一個Python文件&#xff0c;輸入 這個文件表示查詢一個文件夾所有的目錄結構 import osdef print_directory_structure(root_dir):"""打印樹狀目錄結構&#xff08;優化版&#xff09;"""if not os.p…

R語言的專業網站top5推薦

李升偉 以下是學習R語言的五個頂級專業網站推薦&#xff0c;涵蓋教程、社區、資源庫和最新動態&#xff1a; 1.R項目官網 (r-project.org) R語言的官方網站&#xff0c;提供軟件下載、文檔、手冊和常見問題解答。特別適合初學者和高級用戶&#xff0c;是獲取R語言核心資源的…

IntelliJ IDEA給Controller、Service、Mapper不同文件設置不同的文件頭注釋模板、Velocity模板引擎

通過在 IntelliJ IDEA 中的 “Includes” 部分添加多個文件頭模板&#xff0c;并在 “Files” 模板中利用這些包含來實現不同類型文件的注釋。以下是為 Controller、Service、Mapper 文件設置不同文件頭的完整示例&#xff1a; 1. 設置 Includes 文件頭模板 File > Settin…

LabVIEW雙音信號互調失真測量

該VI構建實現了一套完整的雙音信號互調失真&#xff08;IMD&#xff09;測量系統。該系統通過精確控制信號生成、采集與分析流程&#xff0c;實現對被測設備&#xff08;DUT&#xff09;非線性特性的量化評估&#xff0c;可廣泛應用于通信設備、音頻系統、射頻器件等領域的研發…

56.合并區間(java)

題目描述&#xff1a; 1.先判斷給定intervals是否為空或者大小是否為1&#xff0c;是則直接返回intervals。 2.對intervals進行排序 數組形式則使用&#xff1a;Arrays.sort(intevals,(a,b)->Integer.compare(a[0],b[0])); ArrayList形式&#xff1a;intervals.sort((a,b)-…

Redis設計與實現——Redis命令參考與高級特性

Redis命令參考 數據類型相關命令 SET&#xff1a;設置鍵值&#xff0c;支持過期時間、不存在/存在條件。GET&#xff1a;獲取鍵值&#xff0c;若鍵不存在返回 nil。INCR/DECR&#xff1a;將鍵的整數值增1/減1&#xff0c;鍵不存在時初始化為0。MSET/MGET&#xff1a;批量設置…

基于 STM32 的全自動洗車監控系統設計與實現

摘要 本文提出一種基于 STM32F103RCT6 芯片的全自動洗車監控系統方案,通過多傳感器融合與智能控制算法,實現車輛檢測、洗車流程自動化及狀態遠程監控。系統集成硬件選型、電路設計、軟件流程及通信功能,可廣泛應用于智能洗車場景。 一、硬件系統設計 1. 核心芯片選型 主控…

掌握Multi-Agent實踐(七):基于AgentScope分布式模式實現多智能體高效協作[并行加速大模型輔助搜索、分布式多用戶協同辯論賽]

之前的案例都是運行在單臺機器上以單進程形式運行,受限于 Python 的全局解釋器鎖,實際只能有效利用一個 CPU 的計算資源,并且無法支持多個用戶從自己的電腦上接入同一個 Multi-Agent 應用進行交互。?為了提高運行效率并支持多用戶接入同一個應用中,AgentScope 提供了分布式…

docker-compose部署項目(springboot服務)以及基礎環境(mysql、redis等)ruoyi-ry

上傳jar 配置文件等 到目錄&#xff1a;/home/ruoyi/docker 設置權限 chmod x *.sh 開通端口&#xff08;我已經開通了&#xff09; sh ./deploy.sh port 開始構建 docker-compose build 構建成功 可以先拉取鏡像 docker pull nacos/nacos-server docker pull nginx docker …

Axure疑難雜癥:統計分析頁面引入Echarts示例動態效果

親愛的小伙伴,在您瀏覽之前,煩請關注一下,在此深表感謝! Axure產品經理精品視頻課已登錄CSDN可點擊學習https://edu.csdn.net/course/detail/40420 課程主題:統計分析頁面引入Echarts示例動態效果 主要內容:echart示例引入、大小調整、數據導入 應用場景:統計分析頁面…

如何使用WordPress創建美食博客

不管你是否意識到&#xff0c;食物是我們生活的核心。有些人將其用作燃料&#xff0c;而另一些人則將食譜作為一種藝術形式呈現。如果您屬于后者&#xff0c;并且想創建一個美食博客來分享您的熱情&#xff0c;那么WordPress是一個頂級平臺。 幾乎每個話題都有一個博客利基&am…

【MySQL】庫與表的操作

一、庫的操作 1. 查看數據庫 語法&#xff1a;show databases;這里的database是要加s的 查看當前自己所處的數據庫&#xff1a;select database(); 例如下圖&#xff0c;我當前所處的數據庫就是在class1數據庫 2. 創建數據庫 語法&#xff1a;create database [if not e…

Unity3D開發AI桌面精靈/寵物系列 【六】 人物模型 語音口型同步 LipSync 、梅爾頻譜MFCC技術、支持中英文自定義編輯- 基于 C# 語言開發

Unity3D開發AI桌面精靈/寵物系列 【六】 人物模型 語音口型同步 LipSync 、梅爾頻譜MFCC技術 C# 語言開發 該系列主要介紹怎么制作AI桌面寵物的流程&#xff0c;我會從項目開始創建初期到最終可以和AI寵物進行交互為止&#xff0c;項目已經開發完成&#xff0c;我會仔細梳理一下…

MoonBit正式入駐GitCode!AI時代的編程語言新星,開啟高性能開發新紀元

在AI與編程語言深度交融的今天&#xff0c;開發者們正見證一場技術生產力的革命。由IDEA研究院基礎軟件中心傾力打造的MoonBit&#xff08;月兔&#xff09;編程語言&#xff0c;自2023年橫空出世以來&#xff0c;憑借高性能、低延遲、輕量化的特性&#xff0c;迅速成為全球開發…

LLMs:《POE報告:2025年春季人工智能模型使用趨勢》解讀

LLMs&#xff1a;《POE報告&#xff1a;2025年春季人工智能模型使用趨勢》解讀 導讀&#xff1a;2025年5月13日&#xff0c;該報告基于 Poe 平臺的用戶數據&#xff0c;分析了 2025 年春季人工智能模型的使用趨勢。報告指出&#xff0c;人工智能格局快速演變&#xff0c;通用文…

STM32 之網口資源

1 網口資源介紹 STM32F407 是 STMicroelectronics 推出的高性能 ARM Cortex-M4 微控制器&#xff0c;具備多種外設接口&#xff0c;其中包括一個 Ethernet MAC 控制器&#xff08;帶 IEEE 1588 支持&#xff09;。這意味著你可以使用 STM32F407 實現網絡通信功能&#xff08;通…