doubao-lite-32k 模型緩存機制使用指南
一、緩存概述
1. 緩存作用
doubao-lite-32k 模型的緩存(Session 緩存)主要用于多輪對話場景,實現以下功能:
-
存儲歷史對話信息(Token),避免重復傳輸上下文,減少計算資源消耗。
-
優化長上下文(最長 32K Token)處理效率,提升多輪對話響應速度。
2. 適用場景
-
智能客服、聊天機器人等需要記憶歷史對話的場景。
-
分段處理長文檔問答等需復用上下文的任務。
二、緩存類型與機制
1. 緩存類型
僅支持 Session 緩存(上下文緩存),需通過 API 顯式創建,適用于last_history_token
模式。
2. 工作機制
(1)創建與調用
-
手動創建:通過 API 接口(如
CreateSession
)創建緩存,獲取唯一標識session_id
。 -
關聯調用:后續請求需攜帶
session_id
,模型自動拼接緩存中的歷史上下文與