太好了!下面按你點名的 6 大主題(NLP、檢索/RAG、部署、對齊、 安全、多模態)給出深度版答案 + 關鍵公式/推導 + 最小可跑示例代碼 + 常見坑。都盡量精煉到“拿來即用/面試可白板推導”的粒度。
NLP(架構、位置編碼、指令跟隨)
1) RoPE 長上下文與縮放
要點:RoPE 將位置 pp 以旋轉矩陣注入到 q,kq,k:
NTK/動態縮放:把 pp 替換為 p/αp/\alpha 或調 θ0\theta_0,能在不改結構下外推更長序列;α>1\alpha>1 代表拉伸時間軸(常見 1.5–8)。
最小偽代碼(PyTorch):
def apply_rope(x, pos, base=10000.0, scale=1.0):# x: [B, L, H, D], D 偶數;pos: [L]half = x.shape[-1] // 2freqs = base ** (-torch.arange(0, half, device=x.device) / half)# 位置縮放:pos/scaleangles = torch.einsum('l,d->ld', pos / scale, freqs