7月2日,系統之家發布消息,月之暗面科技有限公司旗下的Kimi開放平臺正式推出上下文緩存功能,并已開放公測。這項功能專為處理頻繁請求和大量重復引用初始上下文的場景設計,能有效降低使用長文本模型的成本,并顯著提升處理效率。據官方數據顯示,上下文緩存功能可以將費用降低至最高90%,同時將首次Token的延遲時間縮短83%,從而加快模型的響應速度。
系統之家附 Kimi 開放平臺上下文緩存功能公測詳情如下:
? ? ? 技術簡介
據介紹,上下文緩存是一種數據管理技術,允許系統預先存儲會被頻繁請求的大量數據或信息。當用戶請求相同信息時,系統可以直接從緩存中提供,無需重新計算或從原始數據源中檢索。
? ? ?適用場景
適用業務場景如下:
提供大量預設內容的 QA Bot,例如 Kimi API 小助手
針對固定的文檔集合的頻繁查詢,例如上市公司信息披露問答工具
對靜態代碼庫或知識庫的周期性分析,例如各類 Copilot Agent
瞬時流量巨大的爆款 AI 應用,例如哄哄模擬器,LLM Riddles
交互規則復雜的 Agent 類應用等
計費說明
上下文緩存收費模式主要分為以下三個部分:
Cache 創建費用
調用 Cache 創建接口,成功創建 Cache 后,按照 Cache 中 Tokens 按實際量計費。24 元 / M token
Cache 存儲費用
Cache 存活時間內,按分鐘收取 Cache 存儲費用。10 元 / M token / 分鐘
Cache 調用費用
Cache 調用增量 token 的收費:按模型原價收費
Cache 調用次數收費:Cache 存活時間內,用戶通過 chat 接口請求已創建成功的 Cache,若 chat message 內容與存活中的 Cache 匹配成功,將按調用次數收取 Cache 調用費用。0.02 元 / 次
? ? ?公測時間和資格說明
公測時間:功能上線后,公測 3 個月,公測期價格可能隨時調整。
公測資格:公測期間 Context Caching 功能優先開放給 Tier5 等級用戶,其他用戶范圍放開時間待定。
以上是系統之家提供的最新資訊,感謝您的閱讀,更多精彩內容請關注系統之家官網。