大語言模型怎么進行記憶的
大語言模型(LLM)本身是無狀態的,每次輸入獨立處理,但可通過以下方式實現對話記憶及長期記憶能力:
模型架構改進
- 顯式記憶模塊:
- 記憶網絡(Memory Networks) :在模型里嵌入可讀寫的記憶單元,像鍵值存儲 (Key - Value Memory)或動態記憶矩陣。以問答系統為例,可將常見問題及答案存儲在記憶單元中,模型回答時從中檢索相關信息,實現信息持久化存儲和快速檢索。
- 神經圖靈機(Neural Turing Machine, NTM) :由控制器和外部記憶庫組成,控制器可對記憶庫進行讀寫操作,模仿計算機存儲機制。比如在文本生成任務中,能依據之前生成內容,從記憶庫中提取信息續寫,增強連貫性。
- 遞歸記憶層:在Transformer架構中引入長期記憶層,如Memformer 。通過遞歸機制,將前序對話或任務信息傳遞到后續處理中,實現跨對話、任務的信息傳遞。
- 動態記憶更