目錄
- 5.5 模型編輯應用
- 5.5.1 精準模型更新
- 5.5.2 保護被遺忘權
- 5.5.3 提升模型安全
5.5 模型編輯應用
大語言模型面臨更新成本高、隱私保護難、安全風險大等問題。模型編輯技術:
-
通過細粒度修改預訓練模型,避免從頭訓練,降低更新成本;
-
能夠精準修改特定事實,保護隱私信息;
-
還能精細控制編輯過程,及時識別并消除安全隱患,提升模型的安全性和可靠性。
5.5.1 精準模型更新
模型編輯技術是一種通過直接修改或調整模型參數來更新模型知識或行為的方法。相比傳統的微調方法,它減少了對大量數據和計算資源的依賴,同時避免了遺忘原有知識的風險。這種方法具有高效、精準的特點,能夠快速修復模型的特定問題或添加新知識,特別適用于大語言模型的即時更新場景。
例如,2023年12月,Gemini Pro 詢問“你是誰”時,Gemini Pro 會回答“我是百度文心大模型”。僅僅一天之后,Gemini Pro 便不再回答類似的內容。考慮到重新訓練模型的成本和時間不可接受,推測 Google 使用了模型編輯技術進行了緊急修復,快速糾正了模型的回答。這種技術的外科手術般的精準性使其成為應對模型即時更新需求的理想選擇。
5.5.2 保護被遺忘權
被遺忘權(RTBF,Right to be forgotten)是個人有權要求刪除互聯網上的私人信息的權利,旨在平衡隱私與信息自由流通。歐盟法院在岡薩雷斯訴谷歌案中確立了這一權利,并納入《通用數據保護條例》。大語言模型因記憶和使用個人信息而受此約束,需采取技術措施刪除或修改信息。
大語言模型可能泄露隱私,如生成文本泄露身份信息、攻擊者分析輸出推斷敏感信息或模型參數遭不當訪問。現有隱私保護方法雖能減少泄露,但仍存在漏洞。例如,Nasr等人發現重復輸入特定詞匯可能導致模型泄露隱私。為此,模型編輯技術如DPEN結合隱私神經元檢測器和編輯器,定位并消除與隱私相關的參數,實現機器遺忘,有效保護隱私。
5.5.3 提升模型安全
祛除毒性
-
大語言模型可能因有害輸入生成有毒輸出,傳統方法(如對齊數據微調)成本高且抗干擾能力弱。
-
模型編輯通過微調少量參數,引導模型輸出更積極內容,降低毒性風險,同時減少優化成本。
-
現有研究(如 Geva 等)通過操作神經元權重提升積極內容輸出,但過度回避敏感詞匯可能導致模型能力受限。未來需開發能兼顧語義安全和內容多樣性的編輯方法。
減弱偏見
-
模型可能吸收訓練數據中的偏見,導致不公平輸出。
-
LSDM 和 DAMA 等研究通過定位編輯法(如因果分析和正交投影)調整模型參數,有效減少性別偏見,同時保持模型性能。
-
模型編輯技術在降低更新成本、保護隱私和應對安全風險方面具有優勢,未來有望推動大語言模型更廣泛應用。
.
其他參考:【大模型基礎_毛玉仁】系列文章
聲明:資源可能存在第三方來源,若有侵權請聯系刪除!