引言:為什么你的模型總在"精神分裂"?
想象你訓練了一個AI實習生:
- 早上做文本分類時準確率90%
- 下午做實體識別卻把"蘋果"都識別成水果公司
- 晚上做情感分析突然開始輸出亂碼
這就是典型的任務沖突災難——模型像被不同任務"五馬分尸"。DeepSeek通過共享表示層設計,讓模型既能在多任務間"融會貫通",又能保持各任務的"個性發揮"。本文將用工程視角,拆解其中23個關鍵技術細節(含3個未公開秘籍)。
第一章 共享表示層的底層邏輯:從"大鍋飯"到"自助餐"
1.1 傳統MTL的三大死穴
傳統多任務學習常陷入:
- 特征綁架:強勢任務獨占共享層(如分類任務碾壓NER)
- 梯度戰爭:不同任務的梯度在反向傳播時"打架"
- 維度詛咒:共享層維度不夠導致特征糾纏(實驗顯示512維是臨界點)