LLM 中評價指標與訓練概要介紹

在【LLM】LLM 中增量解碼與模型推理解讀一文中對 LLM 常見名詞進行了介紹,本文會對 LLM 中評價指標與訓練概要進行介紹,本文并未介紹訓練實操細節,未來有機會再了解~

一、LLM 如何停止輸出

在看 LLM 評價指標前,先看看 LLM 如何停止輸出。

大模型常通過以下幾種策略控制生成終止:

  1. 結束符號(EOS Token)

模型生成特殊終止符(如 DeepSeek R1 MoE 中 ID 為 1 的 token)表示回答完成。

...在物理學領域做出了革命性貢獻。[EOS]  
  1. 最大長度限制 預設生成 token 上限(常見值:512/1024/2048),防止無限生成,保障系統資源安全。
  2. 停止詞 / 序列觸發 設置 “\n\n”“###” 等符號為停止信號,強制結束生成(適用于格式控制)。
  3. 內容智能判斷
    1. 重復檢測:識別循環或冗余內容時自動終止。
    2. 語義完整性:當回答覆蓋查詢所有維度(如時間、影響)時停止。

停止機制建議組合使用(如 EOS + 最大長度),確保生成既完整又可控。

綜合來看,Decode 階段的循環機制是大模型實現長文本生成的核心:

  • 效率優化:通過 KV 緩存復用大幅降低計算成本;
  • 可控生成:多維度停止策略平衡輸出質量與資源消耗;
  • 語義連貫:自回歸模式確保上下文邏輯銜接緊密。

二、LLM 評價指標

常見 LLM 評價指標如下:

Description

三、LLM 訓練概要

本節主要參考: https://zhuanlan.zhihu.com/p/719730442 https://zhuanlan.zhihu.com/p/1912101103086043526

  1. 數據準備:喂給模型“知識”
    • 收集數據:從互聯網、書籍、論文等獲取海量文本(如英文維基百科+書籍+網頁)。
    • 清洗數據:過濾垃圾、重復內容、有害信息,保留高質量文本。
    • 分詞(Tokenization):把文本拆成“詞語片段”(如用 Byte-Pair Encoding 或 SentencePiece)。
  2. 模型設計:搭建“大腦”結構
    • 選擇架構:通常用 Transformer 解碼器堆疊(如 GPT 系列)。
    • 確定參數量:比如 70 億、150 億參數(參數越多,模型越強,但計算成本越高)。
  3. 預訓練(Pre-training):自主學習語言規律
    • 任務目標:通過自監督學習預測文本中的缺失部分(如遮蔽語言建模,Masked Language Modeling)
      • 自回歸(AutoRegressive):根據上文預測下一個詞(如 GPT 系列)。
      • 掩碼預測(Masked Modeling):隨機遮蔽部分詞,讓模型填補空缺(如 BERT)。
    • 訓練方法:
      • 輸入一段文本 → 模型預測下一個詞 → 計算損失(預測誤差) → 反向傳播更新參數。
      • 重復數萬億次(用 GPU/TPU 集群加速),直到模型學會語言規律。
  4. 微調(Fine-tuning):定向優化能力 場景化訓練:用特定任務的數據(如客服對話、醫療問答)進一步優化模型。
    • 監督微調(SFT):人工標注的高質量問答對,教模型生成更準確的回答。
    • 強化學習(RLHF):讓人類對模型輸出打分,通過獎勵機制優化(如 ChatGPT 的訓練方法)。
  5. 評估與部署:測試和落地
    • 評估指標:用困惑度(Perplexity)、準確率等指標測試模型性能。
    • 部署上線:壓縮模型(如量化、剪枝),部署到服務器供用戶調用。

四、LLM 中學習策略

在上面的訓練過程中,提到了“自監督學習"、"強化學習”這幾個概念。這些都屬于大模型訓練過程中的學習策略或者叫學習范式,以下是對不同學習策略的總結和對比:

Description

  • 監督學習的標簽是人工標注的,這是 CNN 這些架構訓練模型或算法很常見的方法。標注的意思就是我們喂給模型的數據會被人工提前標注出特征點,比如我們會給很多圖片中的汽車做出標記,目的是告訴大模型我們打標簽的這些圖形就是汽車,讓大模型記住它。
  • 強化學習不需要大量的人工標注,只是需要設計一個獎勵函數,設計好獎勵規則,當模型給出的結果是接近目標值的,我們就給一個正反饋或者高的分數。

五、常見 LLM 模型

常見 LLM 模型如下表

Description

六、LLM 的挑戰與展望

6.1 挑戰

  • 幻覺現象(Hallucination):生成看似合理但事實錯誤的內容。
  • 推理成本高:內存與計算資源消耗大,部署成本高昂。
  • 推理速度慢:長文本響應延遲顯著影響用戶體驗。
  • 數據安全與偏見問題:訓練數據中可能包含歧視或敏感信息。

6.2 展望

LLM 目前已用于多個場景,例如:

  • 文本生成:自動撰寫新聞、故事、詩歌。
  • 翻譯系統:多語言互譯,甚至語音到文本。
  • 情緒分析:用于品牌情感監測、影評判斷。
  • 對話機器人:如 ChatGPT,提供自然流暢的對話能力。
  • 代碼生成:輔助編程任務,生成/解釋代碼。

近年來也發展出支持圖像、語音、視頻等多模態輸入的 VLM(Vision-Language Models)和 VLA(Vision-Language-Action),可以研究學習的地方非常多。

后續會轉到 VLM 的學習~

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94436.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94436.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94436.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java 20 新特性及具體應用

目錄 1. 模式匹配 for switch(預覽特性) 2. 記錄模式(預覽特性) 3. 外部函數與內存 API(預覽特性) 4. 矢量 API(孵化器特性) 5. 作用域值(預覽特性) 6. …

【STM32】CubeMX(十一):FreeRTOS任務掛起與解掛

這篇文章是 STM32 HAL FreeRTOS 下的任務掛起與恢復機制, 結合 CubeMX 圖示與代碼,構建了一個 FreeRTOS 控制示例。 本篇目標:創建兩個任務: 一個控制藍燈閃爍(myTask01) 另一個監控按鍵(Start…

圖片預加載:提升Web性能的關鍵

🤍 前端開發工程師、技術日更博主、已過CET6 🍨 阿珊和她的貓_CSDN博客專家、23年度博客之星前端領域TOP1 🕠 牛客高級專題作者、打造專欄《前端面試必備》 、《2024面試高頻手撕題》、《前端求職突破計劃》 🍚 藍橋云課簽約作者、…

大模型壓縮三劍客:量化、剪枝與知識蒸餾全解析

在人工智能飛速發展的今天,大語言模型(LLM)如通義千問、GPT 等已成為推動智能應用的核心引擎。然而,這些模型動輒數十億甚至上千億參數,帶來了高昂的計算成本和部署門檻。如何在不顯著犧牲性能的前提下,讓大…

Seaborn數據可視化實戰:Seaborn基礎圖表繪制入門

基礎圖表繪制:Seaborn入門教程 學習目標 通過本課程的學習,你將掌握如何使用Seaborn庫繪制基礎圖表,包括條形圖、折線圖和散點圖。你將了解Seaborn的基本函數和參數設置,以及如何通過調整這些參數來優化圖表的視覺效果。 相關知識…

阿里開源通義萬相Wan2.2:視頻生成技術的革命性突破

在人工智能視頻生成領域,阿里云通義實驗室于2025年7月重磅開源了新一代視頻生成大模型 Wan2.2,其核心亮點包括人體動作生成的極致精度、電影級美學表達以及高效的資源利用效率,標志著視頻生成技術邁入了一個全新的階段。 一、核心功能:三大模型,覆蓋全場景視頻生成 Wan2.…

說說你對Integer緩存的理解?

大家好,我是鋒哥。今天分享關于【說說你對Integer緩存的理解?】面試題。希望對大家有幫助; 說說你對Integer緩存的理解? 超硬核AI學習資料,現在永久免費了! Integer 緩存是 Java 中一個優化機制,它主要通過緩存一部…

高速CANFD收發器ASM1042在割草機器人輪轂電機通信系統中的適配性研究

摘要割草機器人輪轂電機的通信系統對其實現自主控制和高效作業至關重要。本文旨在研究國科安芯推出的高速CANFD收發器芯片ASM1042是否能夠滿足割草機器人輪轂電機通信系統的復雜需求。通過詳細分析輪轂電機通信系統的性能要求,以及ASM1042的電氣、功能和環境特性&am…

MTK Linux DRM分析(十二)- KMS Panel框架層(drm_panel.c、drm_mipi_dbi.c、drm_mipi_dsi.c)

一、簡介 三個代碼文件(drm_mipi_dbi.c、drm_panel.c、drm_mipi_dsi.c)的分析。這些文件都是Linux內核DRM(Direct Rendering Manager)子系統的組成部分,主要用于支持顯示面板,特別是通過MIPI(Mobile Industry Processor Interface)接口的顯示設備。它們提供了顯示驅動…

合合信息acge模型獲C-MTEB第一,文本向量化迎來新突破

前言: 在當今時代,大型語言模型以其驚人的發展速度和廣泛的應用前景,正成為全球科技界的矚目焦點。這些模型的強大能力,源自于背后默默支撐它們的Embedding技術——一種將語言轉化為機器可理解的數值向量的關鍵技術。隨著大型語言…

26.內置構造函數

2.內置構造函數2.1Object2.2Array2.3String2.4number

tauri配置允許執行eval腳本,在打包cocos游戲web/phone移動端的時候一定要配置

解決辦法:在tauriconfig中配置"csp": "default-src self asset: unsafe-inline customprotocol://* http://localhost:* ws:localhost:* unsafe-eval ipc: http://ipc.localhost; script-src unsafe-eval self https://www.googletagmanager.com uns…

K 均值聚類算法學習總結

一、聚類算法基礎認知 核心概念:聚類屬于無監督學習,核心是把 “相似的樣本” 自動分到同一組(簇),不需要預先標注的標簽。主要挑戰是怎么定義 “相似性”、評估聚類效果以及確定最好的聚類數量。 距離度量&#xff1a…

基于Spring Cloud Gateway動態路由與灰度發布方案對比與實踐指導

基于Spring Cloud Gateway動態路由與灰度發布方案對比與實踐指導 一、問題背景介紹 在微服務架構中,API網關負責統一入口、路由分發與權限校驗功能。隨著業務需求的不斷演進,如何靈活地實現路由動態更新、版本灰度發布以及流量打點就成為運維和開發團隊的…

MySQL InnoDB Buffer Pool詳解:原理、配置與性能優化

1. 為什么需要 Buffer Pool?1.1 數據庫性能瓶頸分析在 MySQL 的運行過程中,最核心的性能瓶頸來自磁盤 IO。磁盤訪問延遲:一次機械硬盤 IO 操作可能需要數毫秒,即使是 SSD,訪問延遲也在幾十微秒量級。內存訪問延遲&…

ArcGIS Pro 安裝路徑避坑指南:從崩潰根源到規范實操(附問題修復方案)

作為 GIS 從業者,你是否遇到過這些糟心場景:ArcGIS Pro 雙擊啟動無響應、運行中突然彈出 “Runtime Error” 崩潰、加載矢量數據時提示 “找不到指定文件”?排查半天后發現,這些問題的 “元兇” 竟藏在安裝路徑里 —— 中文路徑或…

Python 實戰:內網滲透中的信息收集自動化腳本(2)

用途限制聲明,本文僅用于網絡安全技術研究、教育與知識分享。文中涉及的滲透測試方法與工具,嚴禁用于未經授權的網絡攻擊、數據竊取或任何違法活動。任何因不當使用本文內容導致的法律后果,作者及發布平臺不承擔任何責任。滲透測試涉及復雜技…

批量轉雙層PDF軟件:高效轉換,提升文檔管理效率

在文檔管理和信息檢索中,雙層PDF文件因其獨特的結構而備受青睞。雙層PDF文件不僅保留了原始文檔的外觀,還增加了對文檔內容進行搜索和選擇的功能,極大地提高了文檔管理和信息檢索的效率。批量轉雙層PDF軟件正是為了解決這一需求而設計的&…

rust語言 (1.88) egui (0.32.1) 學習筆記(逐行注釋)(七) 鼠標在控件上懸浮時的提示

文本提示on_hover_text ui.label("標簽").on_hover_text("這是一個標簽"); ui.text_edit_singleline(&mut edittext).on_hover_text("這是輸入框"); if ui.button("提交").on_hover_text("這是一個按鈕").clicked(){}提…

【NVIDIA-B200】生產報錯 Test CUDA failure common.cu:1035 ‘system not yet initialized‘

目錄 1. 檢查 NVIDIA 驅動狀態 2. 驗證 CUDA 安裝情況 3. 檢查相關服務運行狀態(多 GPU 場景關鍵) 4. 用簡單 CUDA 程序驗證基礎功能 5. 重啟系統 6. 排查硬件相關問題 7.實際生產解決步驟 報錯日志: # Collective test starting: all_reduce_perf # nThread 1 nGpu…