表征工程(Representation Engineering, RepE)
近年來,表征工程(Representation Engineering, RepE)在提升AI系統透明度和可控性方面取得了顯著進展。
一、大模型可解釋性與可控性的突破
核心論文:《Representation Engineering: A Top-Down Approach to AI Transparency》(2023, CMU等機構)
核心原理:
該研究提出了一種自上而下的表征工程方法,將神經網絡中的“表征”作為分析核心,而非傳統的神經元或電路。通過**線性人工層析掃描(LAT)**技術,研究者設計刺激任務(如讓模型回答真假問題),收集神經活動數據并構建線性模型,從而提取與目標概念(如真實性、撒謊)相關的內部表征。例如,通過檢測模型在TruthfulQA數據集上的神經活動,發現其內部存在一致的“真理概念”區域,且更大的模型具有更準確的信念。
關鍵技術:
- 表征讀取:定位與