大語言模型LLM在訓練/推理時的padding

討論的是在訓練大型語言模型(Transformer-based models,比如GPT等)時,文本序列的填充(padding)問題,即訓練和推理時分辨填充在序列的左側(left padding)或右側(right padding)進行?

先說結論:常規實踐時,訓練時,我們通常使用右填充(right padding);在推理時,使用左填充(left padding)。當然在通常的訓練推理框架中這是一個可選配置。例如,在Hugging Face的Transformers庫中,默認的填充方式可以通過tokenizer的設置來選擇。
為什么會有這樣的常規設置?

下面先詳細解釋一下左右padding的含義:

1. 右填充(Right Padding): 在序列的右側(即末尾)添加填充符號(如[PAD] token)直到達到最大長度。 例如,假設最大長度為5,一個序列為["A", "B"],右填充后變成["A", "B", "[PAD]", "[PAD]", "[PAD]"]。
2. 左填充(Left Padding): 在序列的左側(即開頭)添加填充符號。 同樣的例子,左填充后變成["[PAD]", "[PAD]", "[PAD]", "A", "B"]。

padding的作用是:

  • 一個批次(batch)中的文本序列長度不同,需通過添加特殊符號(如[PAD])使所有序列等長。

  • 便于并行計算(如GPU加速),避免因長度不一致導致的計算錯誤。

接下來解釋為什么訓練是右填充,推理是左填充:

訓練時,對于自回歸模型(從左到右生成),我們一次處理整個序列,模型在預測下一個token時,注意力機制會關注到左側的所有token,因此我們把填充部分放在右邊,右填充確保真實token集中在左側,模型更易學習連續依賴關系。然后通常會對填充位置計算損失時進行掩碼(mask),所以填充部分不會影響訓練。

在推理時,當我們使用批次推理(batch inference)并采用自回歸生成時,左填充可以使得每個序列的真實內容都位于右側,這樣在生成過程中,模型每次只需要關注最新的token(即最右側的token),而左側的填充不會干擾生成。同時,由于模型在生成時是從左到右,左填充確保了真實內容在生成過程中始終位于模型的右側上下文,生成文本時(如逐token生成),左填充將真實token推向右側,使模型每次只需關注最新生成的token(右側)。若用右填充,生成過程中真實token在左側,而模型會根據右側Padding token來生成新內容,效果差。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89762.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89762.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89762.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

50 個常用 Docker 命令

1. Docker 基礎命令 查看 Docker 版本 docker --version查看 Docker 運行狀態 systemctl status docker查看 Docker 信息 docker info查看幫助信息 docker help2. 鏡像管理 拉取鏡像 docker pull <鏡像名>查看本地鏡像 docker images刪除鏡像 docker rmi <鏡…

紋理貼圖算法研究論文綜述

紋理貼圖&#xff08;Texture Mapping&#xff09;是計算機圖形學和計算機視覺中的核心技術&#xff0c;廣泛應用于三維重建、游戲渲染、虛擬現實&#xff08;VR&#xff09;、增強現實&#xff08;AR&#xff09;等領域。對其算法的研究涵蓋了紋理生成、映射、縫合、優化等多個…

關于使用cursor tunnel鏈接vscode(避免1006 issue的做法)

詳細步驟 第 1 步&#xff1a;在你的本地機器上準備好 Cursor 這一步很簡單&#xff0c;你可能已經完成了。只需確保你的本地電腦上已經安裝了 Cursor 桌面應用程序。 要做的事&#xff1a;無&#xff0c;只需確保 Cursor 已安裝。 第 2 步&#xff1a;在遠程服務器上安裝 Curs…

Redis常見性能問題和解決方案有哪些

Redis 作為高性能的內存數據庫&#xff0c;在電商等高并發場景中廣泛使用&#xff0c;但可能因配置、使用不當或環境限制出現性能問題。以下是 Redis 常見的性能問題及其解決方案&#xff0c;結合電商場景&#xff0c;用中文簡潔說明&#xff1a;### 1. **高延遲&#xff08;響…

明遠智睿RK3588:創新了高性能,讓顧慮煙消云散

在科技浪潮的推動下&#xff0c;高性能開發已經成為眾多行業發展的核心驅動力。從智能交通的車路協同&#xff0c;到醫療領域的影像診斷&#xff1b;從智能家居的智能控制&#xff0c;到工業互聯網的智能制造&#xff0c;每一個領域都對模塊的性能提出了極高的要求。然而&#…

I Data Lab

萬事開頭難&#xff0c;尤其是和 0 與 1 打交道&#xff0c;和后面的實驗相比&#xff0c;這次只能算個熱身。但是喜歡運動的都知道&#xff0c;熱身很重要&#xff01;任務目標我們先來看看 Datalab 需要我們做什么。主要是通過這次的作業來熟悉整型及浮點數的位表達形式&…

SQLite 安裝使用教程

一、SQLite 簡介 SQLite 是一個輕量級的關系型數據庫管理系統&#xff0c;嵌入式、零配置、無需安裝服務器&#xff0c;廣泛應用于移動端開發&#xff08;如 Android&#xff09;、桌面應用、小型網站等場景。 二、下載安裝 2.1 官方網站下載 訪問 SQLite 官網 下載適用于操…

Python-Word文檔、PPT、PDF以及Pillow處理圖像詳解

Python操作Word和PowerPoint文件操作Word文檔命令來安裝python-docx三方庫。pip install python-docxfrom docx import Document from docx.shared import Inches, Pt, RGBColor from docx.enum.text import WD_ALIGN_PARAGRAPH from docx.enum.table import WD_TABLE_ALIGNMEN…

高可擴展屬性建模設計:架構師的全局思考與落地方案

在復雜業務系統中&#xff0c;動態屬性擴展始終是架構設計的核心難題之一。傳統方案如寬表設計和EAV&#xff08;實體-屬性-值&#xff09;模型分別在性能與擴展性上各有優勢與劣勢&#xff0c;但也都有明顯局限。 為了兼顧性能、擴展性、維護成本&#xff0c;需要引入更靈活的…

數據結構入門:鏈表

鏈式存儲結構通過使用指針將分散的存儲單元鏈接起來&#xff0c;每個元素由數據部分和指針部分組成。 鏈式表的定義和特點 鏈式表的每個節點包含兩個部分&#xff1a; 數據域&#xff1a;存儲數據元素。指針域&#xff1a;存儲下一個節點的內存地址。 鏈式表的頭指針指向第一個…

達夢數據庫DMHS介紹及安裝部署

目錄 概述 安裝規劃 安裝步驟 上傳安裝包 更改權限 執行安裝命令 源端和目的端處理 開啟歸檔 開啟邏輯日志 創建測試表 生成測試數據 配置目的端文件 配置源端文件 啟動目的端 啟動源端 裝載數據 源端開啟cpt模塊 數據同步驗證 隨機數據驗證 概述 達夢數據實時同…

BERT 模型詳解:結構、原理解析

前言 在自然語言處理&#xff08;NLP&#xff09;領域&#xff0c;BERT&#xff08;Bidirectional Encoder Representations from Transformers&#xff09;已經成為理解類任務的標配模型。相比 GPT 更擅長文本生成&#xff0c;BERT 則在語言理解任務上展現出卓越的能力。本文…

一、bfv_basics

目錄 一、加密參數 EncryptionParameters類1. 三個重要的參數2. 參數的作用3. 同態加密方案4. 多項式模數的度 poly_modulus_degree (n)5. 密文模數 coeff_modulus (q)6. 明文模數 plain_modulus (t&#xff0c;這是 BFV 方案才有的&#xff0c;CKKS 沒有) 二、上下文 SEALCont…

AI大模型LangChain架構介紹及其在環保領域的應用

1.LangChain 概述與架構 LangChain 是一個面向大型語言模型&#xff08;LLM&#xff09;應用的開發框架&#xff0c;其核心理念是將復雜的基于語言的 AI 系統拆分為可復用的模塊&#xff0c;簡化 LLM 與數據源的集成。LangChain 官方文檔將其定義為“一個用于開發以 LLM 為驅動…

centos 7 安裝NVIDIA Container Toolkit

要在 CentOS 7 上離線安裝 NVIDIA Container Toolkit&#xff0c;需確保已安裝 NVIDIA 驅動和 Docker 環境。以下是完整步驟及注意事項&#xff1a; ?? 一、環境準備 驗證 NVIDIA 驅動 運行 nvidia-smi 確認驅動已正確安裝&#xff0c;若未安裝需先離線安裝驅動&#xff1a; …

C++學習之STL學習:list的使用

本篇我們將學習STL中list的使用 目錄 list的初始和官方文檔 list的官方文檔 list的構造與析構 構造函數 析構函數 運算符重載 迭代器 正向迭代器 反向迭代器 const正向迭代器 const反向迭代器 容量 empty size max_size 訪問 訪問第一個元素?編輯 訪問最后一個元素 修…

USB服務器在證券公司虛擬化進程中的應用分析

在證券公司全面擁抱虛擬化、云化的技術浪潮中&#xff0c;一個看似微小卻至關重要的環節曾長期阻礙進程&#xff1a;分散在各業務環節的銀行前置機U盾、各種系統認證Ukey等物理USB安全設備的管理難題。這些承載著資金劃撥、交易認證核心權限的“小鑰匙”&#xff0c;在傳統模式…

網閘內部架構設計:分層與微服務的生死博弈

引言 “物理隔離是網閘的命脈,而架構設計決定其生死。” 在數據安全領域,網閘(安全隔離與信息交換系統)是守護核心網絡的鋼鐵長城。但當開發者試圖將現代架構思想(如微服務)引入其內部時,卻可能引發災難性沖突。本文通過深度拆解分層架構與微服務在網閘中的適用性,揭示…

通過MaaS平臺免費使用大模型API

文章目錄 一、引言&#xff1a;MaaS平臺——免費使用大模型API的新選擇二、模型代碼與限制術語詳解&#xff08;一&#xff09;模型代碼含義解析&#xff08;二&#xff09;模型使用限制術語縮寫詳解 三、5個MaaS平臺詳細介紹&#xff08;一&#xff09;OpenRouter&#xff08;…

進程代理單窗口單IP技術:原理、應用與實現

“在當今數字化時代&#xff0c;網絡隱私保護與多賬號管理需求日益增長。單窗口單IP技術通過為每個進程分配獨立網絡身份&#xff0c;巧妙地解決了多賬號管理中的IP關聯難題。從游戲多開防封到數據采集優化&#xff0c;從隱私保護到測試驗證&#xff0c;這項技術的應用場景不斷…