APB-清華聯合騰訊等機構推出的分布式長上下文推理框架

APB (Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks acrossGPUs)是清華大學等機構聯合提出的分布式長上下文推理框架。通過稀疏注意力機制和序列并行推理方式,有效解決了大模型處理長文本時的效率瓶頸。APB采用更小的Anchor block和Passing block,結合查詢感知的上下文壓縮技術,減少計算開銷的同時,精準傳遞關鍵信息,實現長距離語義依賴的高效處理。在128K文本上,APB推理速度比Flash Attention快約10倍,比英偉達的Star Attention快1.6倍,且性能優異。具備卓越的兼容性,能適應不同分布式設定和模型大小。

APB的主要功能


加速長上下文推理:APB通過多主機近似注意力機制顯著提升推理速度,相比FlashAttention、Ring Atention和Star Attention分別實現了高達9.2倍、4.2倍和1.6倍的速度提升。通過序列并行化和近似注意力機制的結合,APB在保持任務性能的同時,大幅減少了計算量和通信開銷。
高效的分布式計算:
上下文分割:輸入序列被均勻分配到多個主機上,在每個主機的本地上下文塊前附加一個錨點塊(Anchor0Block),保留對輸入序列初始部分的可見性。
0塊壓縮:在每個主機上,使用Locret的保留頭(Retaining Heads)對KV緩存進行壓縮,減少通信和計算開銷。
通信機制:通過AllGather通信機制,將壓縮后的上下文塊發送到所有主機,并構建傳遞塊(Passing)Block),以傳遞前序主機的重要KV緩存單元。
0計算:在每個主機上,結合錨點塊、傳遞塊和本地上下文塊進行注意力計算。傳遞塊在注意力計算后被丟棄,不參與后續計算。
適應性強:APB支持多種模型和并行配置,能適應不同的分布式設置和模型大小,具有良好的可擴展性,通過調整錨點塊和傳遞塊的大小,APB可以在不同長度的輸入序列上實現最佳性能。
保持任務性能:在長上下文推理任務中,APB速度更快,在性能上與全注意力計算(fu Attention)相當,在某些任務上表現更好。通過查詢感知的上下文壓縮技術,APB能更精準地識別和傳遞與查詢相關的上下文信息,保持或提升任務性能。


APB的技術原理


稀疏注意力機制:APB框架整合了稀疏注意力機制,通過減少計算量來提升推理速度。通過以下方式實現稀疏注意
力:
。更小的Anchor block:與Star Attention相比,APB將Anchor block的大小縮小到上下文塊的1/4或1/8,從而減少了額外的計算開銷。
Passing block:為了解決長距離語義依賴問題,APB通過構建Passing block來傳遞重要信息。Passing blockD由前面設備上的重要KV對組成,每個上下文塊被壓縮后通信到后續GPU上構建Passing block。查詢感知的上下文壓縮:APB在Anchor block的開頭嵌入查詢,使上下文壓縮器能夠看到查詢的內容,更精
準地識別出查詢相關的KV對,通過通信機制傳給后續設備。
序列并行推理:APB框架采用序列并行的方式,將長文本均勻分配到多個GPU上進行并行處理,同時通過局部KV緩存壓縮和精簡的跨GPU通信機制,解決了長上下文中的遠距離語義依賴問題。?

APB的應用場景


長文本推理:如長文本生成、長文本問答等,需要處理極長輸入序列的應用。
多Agent協作:多個Agent需要協同處理長上下文信息的場景。
大規模模型服務:需要在分布式環境中高效處理長上下文的模型服務。知識圖譜構建:知識圖譜構建任務需要處理大量的文本數據,提取和整合知識。APB框架通過高效的上下文壓縮和傳遞機制,能顯著提升知識圖譜構建的效率。
實時交互系統:實時交互系統需要快速處理用戶的輸入生成準確的回復。APB框架通過高效的上下文壓縮和傳遞機制,能顯著提升實時交互系統的效率。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/73474.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/73474.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/73474.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據庫分庫分表介紹

分庫分表是解決數據庫性能瓶頸的常用技術手段,主要用于應對數據量過大、讀寫壓力過高的問題。通過將數據分散到多個數據庫或表中,可以提高系統的擴展性和性能。 1. 分庫分表的核心概念 (1)分庫 定義:將數據分散到多個…

#mapreduce打包#maven:could not resolve dependencies for project

打包報錯: #報錯信息: [ERROR] Failed to execute goal on project mapreduce_teacher1: Could not resolve dependencies for project org.example:mapreduce_teacher1:jar:1.0-SNAPSHOT: Failed to collect dependencies at org.apache.hive:hive-exe…

Rabit

之前發過rabit了,所以這里不再贅述,講講原理 在線Rabbit加密 | Rabbit解密- 在線工具 (sojson.com) rabbit加密原理 Rabbit加密算法是一種流密碼算法,由Daniel J. Bernstein設計,并被廣泛用于多種加密和安全通信應用中。它的設…

【A2DP】深入解讀A2DP中通用訪問配置文件(GAP)的互操作性要求

目錄 一、模式支持要求 1.1 發現模式 1.2 連接模式 1.3 綁定模式 1.4 模式間依賴關系總結 1.5 注意事項 1.6 協議設計深層邏輯 二、安全機制(Security Aspects) 三、空閑模式操作(Idle Mode Procedures) 3.1 支持要求 …

模型蒸餾系列——開源項目

推薦項目:MiniMind(低成本全流程訓練框架) GitHub:https://github.com/jingyaogong/minimind 核心特性:完整實現從數據清洗到模型部署的全流程,支持單卡低成本訓練,代碼全透明,適合…

【軟考-架構】13.1、軟件架構概述-構件技術

?資料&文章更新? GitHub地址:https://github.com/tyronczt/system_architect 文章目錄 ?【重點】系統架構設計軟件架構概述軟件架構設計與生命周期構件🌟軟件架構風格數據流風格調用/返回風格獨立構件風格虛擬機風格倉庫風格閉環控制風格C2體系結…

《Android啟動偵探團:追蹤Launcher啟動的“最后一公里”》

1. 開機儀式的“黑屏懸案” 當Android設備完成開機動畫后,某些產品會陷入詭異的“黑屏時刻”——仿佛系統在玩捉迷藏。此時,**Launcher(桌面)**就是躲貓貓的主角。我們的任務:揪出Launcher何時完成啟動,終…

Redis事務與管道

Redis事務 可以一次執行多個命令,本質是一組命令的集合。一個事務中的所有命令都會序列化,按順序地串行執行而不會被其他命令插入,不許加塞。 一個隊列中,一次性、順序性、排他性的執行一系列命令。 Redis事務VS數據庫事務 常用…

掌握這些 UI 交互設計原則,提升產品易用性

在當今數字化時代,用戶對于產品的體驗要求越來越高,UI 交互設計成為決定產品成敗的關鍵因素之一。一個易用的產品能夠讓用戶輕松、高效地完成各種操作,而實現這一目標的核心在于遵循一系列科學合理的 UI 交互設計原則。本文將詳細闡述簡潔性、…

Alembic 實戰指南:快速入門到FastAPI 集成

一、快速開始 1.1 簡介 Alembic 是一個基于 SQLAlchemy 的數據庫遷移工具,主要用于管理數據庫模式(Schema)的變更,例如新增表、修改字段、刪除索引等,確保數據庫結構與應用程序的 ORM 模型保持一致。 Alembic 通過版…

LRU(最近最少使用)算法實現

核心思想與基本思路 LRU(Least Recently Used)算法是一種緩存淘汰策略,其核心思想是淘汰最近最少使用的數據。 最近使用原則:最近被訪問的數據在未來被訪問的概率更高,因此應保留在緩存中。淘汰機制:當緩…

現在有分段、句子數量可能不一致的中英文文本,如何用python實現中英文對照翻譯(即每行英文對應相應的中文)

以下是處理分段且中英文句子數量可能不一致的文本的Python實現方案,包含分句、翻譯和對齊功能: from googletrans import Translator import redef split_paragraphs(text):"""按空行分割段落并清洗"""return [p.strip()…

C語言每日一練——day_8

引言 針對初學者,每日練習幾個題,快速上手C語言。第八天。(連續更新中) 采用在線OJ的形式 什么是在線OJ? 在線判題系統(英語:Online Judge,縮寫OJ)是一種在編程競賽中用…

基礎知識《Redis解析》

Redis 詳細解析與介紹 Redis(Remote Dictionary Server)是一個開源的高性能鍵值對(Key-Value)數據庫,支持多種數據結構(如字符串、哈希、列表、集合等),廣泛應用于緩存、消息隊列、…

區跨鏈知識和概念

1、以太坊 Geth 源碼解析 Geth(Go Ethereum)是以太坊官方提供的 Go 語言實現的客戶端,廣泛用于以太坊全節點運行、挖礦、DApp 開發等。理解 Geth 的源碼有助于掌握以太坊區塊鏈底層邏輯,如區塊同步、EVM 執行、P2P 交互等。 2、…

Vue 計算屬性與 Data 屬性同名問題深度解析

文章目錄 1. 問題背景與核心概念1.1 Vue 響應式系統架構1.2 核心概念定義 2. 同名問題的技術分析2.1 同名場景示例2.2 問題發生機制 3. 底層原理剖析3.1 Vue 初始化流程3.2 響應式系統關鍵代碼 4. 問題解決方案4.1 最佳實踐建議4.2 錯誤處理機制 5. 性能影響分析5.1 遞歸調用性…

Mybatis——基礎操作、動態SQL

目錄 一.基礎操作 1.刪除 2.新增 3.更新 4.查詢 5.XML映射文件 二、動態SQL 1.<if> 2.<where> 3.<set> 4.<foreach> 5.<sql> 6.<include> 一.基礎操作 1.刪除 參數占位符&#xff1a; 注意&#xff1a; #{...}相比于${...}…

[設計模式]1_設計模式概覽

摘要&#xff1a;設計模式原則、設計模式的劃分與簡要概括&#xff0c;怎么使用重構獲得設計模式并改善代碼的壞味道。 本篇作概覽與檢索用&#xff0c;后續結合源碼進行具體模式深入學習。 目錄 1、設計模式原理 核心原則&#xff08;語言無關&#xff09; 本質原理圖 原…

C語言數據類型取值范圍及格式化符號

一、數據類型取值范圍與格式化輸出符號表格 數據類型大小&#xff08;字節&#xff09;取值范圍格式化輸出符號char1-128到127<br>或0到255&#xff08;如果聲明為unsigned char&#xff09;%c (字符)<br>%hhu (無符號)signed char1-1.2810到1.2710%hhd (有符號)u…

2024華東師范大學計算機復試上機真題

2024華東師范大學計算機復試機試真題 2023華東師范大學計算機復試機試真題 2022華東師范大學計算機復試機試真題 2024華東師范大學計算機復試上機真題 2023華東師范大學計算機復試上機真題 2022華東師范大學計算機復試上機真題 在線評測&#xff1a;傳動門&#xff1a;pgcode…