[論文閱讀]Text Compression for Efficient Language Generation

Text Compression for Efficient Language Generation

[2503.11426] Text Compression for Efficient Language Generation

NAACL 2025

提出了“Generative Pretrained Thoughtformer”(GPTHF),這是一個分層 transformer 語言模型,它能夠通過將文本壓縮成句子嵌入并采用句子注意力機制來進行文本生成(將句子壓縮成一個固定大小的嵌入并采用句子級注意力來生成文本,對GPT的修改很小)。?GPTHF 保留了 GPT 的架構,僅通過動態稀疏注意力掩碼修改 token 交互。

這項工作沒有壓縮固定大小的 token 組,而是將一個句子——語言中具有更高語義價值的單元——壓縮成一個嵌入。作者專注于利用這些嵌入來提高計算效率,而不是嵌入本身。

方法

架構

GPTHF 模型由兩個主要組件組成:一個詞級 Transformer 編碼器 (wlt_encoder) 和一個句子級 Transformer 主體 (slt_body)。?編碼器將每個句子壓縮成一個單獨的嵌入,同時保留基本信息。?slt_body?對這些句子嵌入進行上下文處理并生成下一個 token 預測。

預訓練

使用自動回歸模型中常見的下一個 Token 預測目標。?為了在啟用有效的并行訓練的同時,為 Token 預測準備GPTHF,再次采用專門的注意性掩碼(圖4)。?目標是序列中的下一個 Token (圖3)?

訓練語料庫包含了 OpenWebText、維基百科和 ArXiv。使用標準的GPT-2 Token ,繼承了其詞匯大小和未知單詞的處理,同時引入了“EOS” Token 。?這個 Token 對于快速生成方法的設計至關重要,這是這項工作的基石。

使用 Adam 優化器,權重衰減為 0.01,β1=0.9,β2=0.98?和??=10?8.

保持梯度裁剪,值為 0.5。

學習率調度器使用線性衰減并進行 10000 步的預熱

批次大小調度器,起始批次大小為 64,并線性增加到 4096,在訓練持續時間的 60% 時達到峰值。?

在訓練期間消除了 dropout。

模型在預訓練語料庫上只進行一次或更少的傳遞,這降低了過擬合的風險。

快速生成

【感覺上是一句話有對應的emb,常規的生成token并不會影響先前已有句子的emb,因此在更新emb的時候效率得到了提高】

實驗

使用驗證困惑度和效率指標(FLOPs 和運行時)評估 GPTHF 與大小相當的 GPT 風格基線。

訓練數據限制為 100 億個 token,分為 320’000 個大小為 64 的微批次步驟,上下文大小為 512 個 token。?所有模型都在相同的數據集上進行預訓練。

基線:訓練了一個名為“Baseline-12”的 12 層基線和一個名為“Baseline-24”的 24 層基線,它們與 GPTHF 對應物具有相同的架構和大小。?唯一的區別是與圖4中的掩碼相反,它們使用用于編碼器和主體的完整三角掩碼進行訓練。

困惑度

GPTHF-16-8 和 12 層基線模型的表現相當,為進一步比較奠定了基礎:如果 GPTHF-16-8 實現了比 12 層 GPT 更高的生成效率和/或速度,那么訓練一個能夠壓縮的更大模型可能是值得的。

FLOPs

快速生成算法的加速度取決于跨句子的 Token 分布,而不是僅輸入的形狀。?直觀地說,更多句子通過緩存已完成的句子來跳過編碼器。

?效率增益隨著提示長度的增加而增加。

?平均句子數(x 軸)與效率提升(y 軸)的散點圖。效率提升與平均句子數線性相關。對于批處理數據,效率提升較低,這可能是由于 token 的多樣性較大(從增加的方差可以看出),導致處理了更多的 padding token,從而減慢了快速生成算法的速度。

推理時間

隨著上下文增加,加速比也會增加。

綜合來看,核心貢獻是以句子為基準進行劃分,只修改最后一句話在添加新的生成token后的emb,前面句子的emb不做變化。也對encoder的作用區域進行了精簡。

對我來說用處不大,簡單了解即可。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88789.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88789.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88789.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SwiftUI 7 新 WebView:金蛇出洞,網頁江湖換新天

概述 崇禎年間,華山派武學雖盛,卻在應對江湖新局時漸顯頹勢;如今 SwiftUI 江湖亦是如此 ——WWDC 25 之前,若要在 SwiftUI 中顯示網頁,開發者恰似袁承志初闖江湖,縱有一身本領,卻苦無稱手兵刃。…

LeetCode|Day9|976. 三角形的最大周長|Python刷題筆記

LeetCode|Day9|976. 三角形的最大周長|Python刷題筆記 🗓? 本文屬于【LeetCode 簡單題百日計劃】系列 👉 點擊查看系列總目錄 >> 📌 題目簡介 題號:976. 三角形的最大周長 難度&#x…

華擎B150M Pro4S魔改bios上8代U

100、200系主板魔改bios在DIY領域當屬于歷史性事件,2018年左右興起。雖然現在已經是2025年,魔改bios已經沒有多大意義,但是跟著前輩的教程魔改一次,可以重溫下當年DIY玩家的激情。 魔改教程在SMXDIY網站,寫的非常詳細&…

音視頻學習(三十七):pts和dts

概念 PTS(Presentation Time Stamp)顯示時間戳 表示:該幀應該在什么時間被顯示/播放。主要用于:同步音頻與視頻,控制播放節奏。舉例:視頻幀 A 的 PTS 是 300ms,表示應在視頻播放第 300 毫秒時顯…

關于數據庫的慢查詢

1.數據庫的慢查詢慢查詢是指執行時間超過預設閾值的數據庫查詢操作。它是數據庫性能優化的一個重要指標和切入點。慢查詢的主要特點執行時間長:超過了數據庫系統設定的慢查詢閾值(如MySQL默認是10秒)資源消耗大:可能占用大量CPU、…

【Rust日報】 Python 核心開發者對 Rust 的期望

半月刊:The Embedded Rustacean Issue #49亮點:📢 樂鑫 DevCon 2025 演講嘉賓征集🦺 CISA 和 NSA 參與內存安全對話🔐 微軟宣布 RIFT (Rust 惡意軟件分析工具)💰? Nordic 收購 Memf…

vue是什么

Vue簡介Vue(Vue.js)是一個用于構建用戶界面的漸進式JavaScript框架。它專注于視圖層,易于集成到現有項目中,也可用于開發復雜的單頁面應用(SPA)。Vue的核心特點是輕量、靈活和高效,通過數據綁定…

10分鐘掌握 Nginx 配置文件結構

在實際部署前端或后端項目時,Nginx 配置文件(nginx.conf) 是我們無法繞開的第一道門檻。 本文將帶你用10分鐘掌握 nginx.conf 的核心結構與常見配置方法,并提供一篇完整的實戰文檔鏈接,適合初學者快速掌握。 &#x1…

典型的前后端交互數據示例

提供幾種典型的前后端交互數據示例: 前端如何組織數據,以及后端如何接收數據。 文章目錄1. POST請求后端實體類接收前端js后端接收結果查看2. GET請求后端實體類接收前端js后端接收結果查看3. GET請求后端基本類型接收前端js后端接收結果查看1. POST請求…

計算機畢業設計springboot影視周邊推薦系統 基于SpringBoot的電影衍生品智能推薦平臺 JavaWeb實現的影視文化周邊個性化服務系統

計算機畢業設計springboot影視周邊推薦系統6c31q9 (配套有源碼 程序 mysql數據庫 論文) 本套源碼可以在文本聯xi,先看具體系統功能演示視頻領取,可分享源碼參考。疫情之后,線上娛樂需求激增,人們對電影及其衍生商品的關…

(4)機器學習小白入門YOLOv :圖片標注實操手冊

(1)機器學習小白入門YOLOv :從概念到實踐 (2)機器學習小白入門 YOLOv:從模塊優化到工程部署 (3)機器學習小白入門 YOLOv: 解鎖圖片分類新技能 (4)機器學習小白入門YOLOv :圖片標注實操手冊 (5)機器學習小白入門 YOLOv:…

【JMeter】調試方法

文章目錄取樣器:發送請求、接收響應>>察看結果樹斷言:驗證響應>>察看結果樹提取器:創建變量>>調試取樣器自定義斷言:代碼>>日志了解JMeter的內部細節,排查錯誤的原因。取樣器:發送…

Vue框架之鉤子函數詳解

Vue框架之生命周期主要鉤子函數詳解一、Vue生命周期的整體流程二、創建階段:初始化組件實例2.1 beforeCreate:實例創建前2.2 created:實例創建后三、掛載階段:組件與DOM結合3.1 beforeMount:掛載前3.2 mounted&#xf…

Syntax Error: TypeError: Cannot set properties of undefined (setting ‘parent‘)

Date: 2025-07-12 19:21:24 author: lijianzhan使用npm run dev運行前端項目時報錯,具體報錯信息如下: ERROR Failed to compile with 1 error …

JAVA后端開發——類命名規范

引言良好的命名規范是軟件工程的基石。它不僅能提升代碼的可讀性,還能降低團隊協作的溝通成本,使項目在長期迭代中更易于維護。本規范結合了業界主流實踐(如阿里巴巴Java開發手冊)以及現代Web應用分層架構的特點,旨在提…

Ubuntu2404修改國內鏡像

文章目錄1 備份原文件2 修改文件內容Ubuntu2404修改國內鏡像 2404和2204修改鏡像的方式不一致 且鏡像保存的位置也不一致,位置在/etc/apt/source.list.d/ubuntu.sources 參考:https://blog.csdn.net/Kiffy_Yam/article/details/145876447 1 備份原文件…

Chrome拓展 Video Speed Controller 等內嵌惡意后門

【高危】Chrome拓展 Video Speed Controller 等內嵌惡意后門 漏洞描述 當用戶安裝受影響版本的 Video Speed Controller 等Chrome拓展會竊取用戶的瀏覽鏈接,并與攻擊者可控的C2地址建立持久化連接,攻擊者可將用戶瀏覽器重定向到惡意網站。 MPS編號MPS…

Spring Ai Alibaba Gateway 實現存量應用轉 MCP 工具

作者簡介:你好,我是影子,Spring Ai Alibaba開源社區 Committer,持續分享Spring Ai Alibaba最新進展 業界各類AI工程相關的方案 最近有斷時間沒更了,熟悉我的朋友知道我剛結束完畢業旅行,最近也因為入職&a…

HTTP和HTTPS部分知識點

HTTP基本概念 超文本-傳輸-協議 協議 HTTP是一個用在計算機世界里的協議。它使用計算機可以理解的語言確立了一種計算機之間交流通信的規范(兩個以上的參與者),以及相關的各種控制和錯誤處理方式(行為約定和規范)。傳輸 HTTP協議是一個雙向協議。是一個在計算機世界…

第10講——一元函數積分學的幾何應用

文章目錄定積分計算平面圖形的面積直角坐標系下參數方程下極坐標系下定積分計算旋轉體的體積曲邊梯形繞x軸旋轉一周所得到的旋轉體的體積曲邊梯形繞y軸旋轉一周所得到的旋轉體的體積平面曲線繞定直線旋轉定積分計算函數的平均值定積分計算平面光滑曲線的弧長曲線L繞x軸旋轉一周…