如何分析大語言模型(LLM)的內部表征來評估文本的“誠實性”
基于這樣一個假設:模型在生成誠實和不誠實回答時,其內部狀態會存在系統性差異
LAT :線性人工斷層掃描
我們通過一個生活化的例子來理解如何通過分析大語言模型的內部表征評估文本的“誠實性”。
場景類比:判斷水果描述的真實性
假設你是一個水果質檢員,需要判斷以下兩句話的真實性:
- “蘋果是甜的。”(誠實描述)
- “蘋果是咸的。”(不誠實描述)
你無法直接品嘗蘋果,但可以通過分析人們談論蘋果時的“語氣特征”來判斷。
大語言模型的“語氣特征” = 內部表征
當大語言模型生成上述兩句話時,其內部神經元會產生不同的激活模式(即“內部表征”)。我們可以把這些表征想象成模型的“語氣指紋”。
具體評估步驟
1. 收集“誠實”與“不誠實”的樣本
- <