大型語言模型(LLM)的技術面試題
目錄
-
- 大型語言模型(LLM)的技術面試題
-
- 一、提示校準:減輕提示學習中的偏見
- 二、矢量存儲的適用場景
- 三、模型與人類價值觀對齊的技術
- 四、RLHF中的Reward Hacking
- 五、微調效果的關鍵影響因素:預訓練模型架構與大小
- 六、Transformer自注意力機制:衡量單詞重要性
- 七、子詞算法(如BPE、WordPiece):限制詞匯量
- 八、Adaptive Softmax:利用Zipf定律提升效率
- 九、推理參數“溫度(Temperature)”:控制輸出隨機性
- 十、跨GPU訓練技術:FSDP(Fully Sharded Data Parallel)
一、提示校準:減輕提示學習中的偏見
原理:提示校準(Prompt calibration)通過調整提示詞的表述方式,減少模型輸出中的固有偏見,而非修改模型本身或訓練數據。它聚焦于優化輸入指令的中立性和精確性,從而引導模型生成更公平的結果。
舉例:若要通過LLM篩選簡歷,原始提示可能包含“優先考慮年輕候選人”,這隱含年齡偏見。通過提示校準,可調整為“根據崗位要求匹配候選人技能,不考慮年齡因素”,使模型輸出更符合公平原則。
二、矢量存儲的適用場景
原理:矢量存儲用于存儲文本的語義向量(捕獲語義信息),主要支持需要外部知識檢索的任務(如RAG系統)。但并非所有文本任務都需要——僅依賴文本自身上下文即可完成的任務無需矢量存儲。
無需矢量存儲的場景舉例:
- 情感分析:判斷“這部電影太精彩了!”為積極情感,僅需分析文本本身,無需外部知識。
- 機器翻譯:將“Hello world”譯為“你好世界”,依賴句子內部結構和語言規則,無需額