閱讀筆記:
理解LLM
deepseek創新了什么
什么是多模態
什么是token
??
- 定義??:Token是LLM處理文本的最小單位,相當于語言的"原子"
- ??類比??:
中文:1個token ≈ 1個漢字或常見詞(如"模型"可能為1個token)
英文:1個token ≈ 4個字母(如"apple"可能拆為"app"+“le”)
每個token都會在模型中生成三個核心向量
○ Q 是查詢向量
○ K 是線索向量
○ V 是答案向量
候選token:在自注意力機制中,??候選token?? 是指當前token在計算注意力權重時,所有可能與之發生交互的其他token。
api
大語言模型的 本質就是文字接龍 , 相對應的使用大模型也比較簡單. 可以參見deepseek的文字接龍 api 請求:
tools 工具支持:
大模型對 function calling 的支持,即大模型可以調用各種外部工具
為什么說LLM是無狀態的
LLM有自注意力機制能??動態關聯上下文??(通過Q/K/V向量),但LLM卻被認為??無狀態??。這看似矛盾,實則反映了不同層級的特性:
這時候就有一個問題,既然LLM是無狀態的,不能記住跨序列的多次輸入,那么LLM是如何持續關聯一個對話的上下文的?——增加一個外部記憶庫(傳統方案是增大一個序列的max_length)