在訓練階段,訓練算法通過優化目標/損失函數在訓練數據集上的表現,不斷更新模型參數θ。在監督學習場景中,訓練數據集由輸入-標簽對(真實輸出值)組成。目標函數應當獎勵模型根據訓練輸入成功預測真實輸出的行為,同時也需避免過擬合、訓練集偏差或對其他非代表性訓練數據的過度依賴。
由于訓練模型的質量本質上與訓練數據的質量相關,應盡可能減少訓練數據中的標注錯誤。然而仍需假設此類錯誤可能存在,并采取措施降低其污染模型的風險。
在數據預處理階段,必須確保數據不包含任何無效值,例如空值、無窮大或與特定特征預期類型不匹配的值。當檢測到數據中的錯誤時,首先需要思考的問題是:"應如何修正這些錯誤?"一個簡單的解決方案可能是直接刪除包含缺失或損壞特征的記錄。然而,這種做法可能導致大量經過微小調整即可使用的數據被剔除。
針對此類問題,可采用多種處理技術:無效值可以用最小值、最大值或平均值替代;另一種解決方案是訓練一個較小的模型,利用其他所有特征來預測特定特征,進而填補缺失或損壞的值。部分數據科學家甚至建議直接刪除異常值,將其視為"可能的錯誤",但需謹慎操作,因為異常值未必意味著數據收集錯誤。
在測試和評估模型時,選擇能準確反映模型需求的評估指標至關重要。例如,若銀行訓練金融欺詐檢測模型,評估指標可能需要同時考慮誤判正常交易的代價與漏判惡意交易的損失。由于不同錯誤的代價可能存在差異,簡單的準確率指標可能不足,甚至可能曲解根本目標。
隱私問題
據估算,2024年全球每日將消耗149澤字節(1021字節)數據。盡管數據規模如此龐大,但可用于模型訓練的現成數據——尤其是高質量標注數據——仍是珍貴且稀缺的資源,研究人員往往難以獲取。由于商業利益、倫理道德或法律監管等方面的考量,數據所有者出于隱私保護、保密要求等因素,通常不愿共享其數據。
即便模型完成訓練后,數據科學家仍面臨各類隱私隱患:既可能從訓練好的模型中提取出私密數據,也能從聚合數據中還原出個人身份信息。雖然各類匿名化技術能在一定程度上緩解隱私問題,但這些技術往往需要在隱私保護與數據準確性/可用性之間作出權衡。
上述問題主要涉及個人身份信息(PII)的保護,但還需考慮防范以模型權重形式存在的知識產權(IP)被盜風險。攻擊者既可能通過系統入侵竊取完整模型,也能在黑盒模型使用場景中實施基于查詢的攻擊算法。
發送至模型作為查詢輸入的數據,也可能通過中間人攻擊泄露給惡意行為者。此類情況下,能夠截獲數據傳輸的惡意黑客 運行該模型的計算機平臺會等待數據被解密后,再交由分析模型進行處理,隨后竊取有價值的明文信息。最后,模型輸出和分析結果也可能被視為敏感信息,因此必須確保學習過程的安全性,以免涉及金融、醫療或其他機密信息的結果落入不法分子之手。
應對上述隱私問題,除了全同態加密(FHE)外,以下簡要討論幾種常見方法和技術:
多方計算(MPC)技術通過強密碼學保障實現數據保護,無需依賴專用硬件或軟件。該技術允許多方在不泄露各自輸入數據的前提下,協同計算某個函數或算法的結果——最終僅向指定方或全體參與方公開計算結果。但MPC存在顯著局限性:其底層算法的實現可能因多方間頻繁交互而產生巨大的網絡開銷[3]。
MPC的理論雛形最初由姚期智提出雙方案例,后經Goldreich、Micali和Wigderson推廣至多方場景。文獻[16]提出的混淆電路(GC)概念為MPC理論奠定了基礎。GC協議使兩個互不信任的方無需第三方中介即可進行安全計算。
MPC的核心驅動力源于跨實體/組織數據共享場景中隱私保護與數據價值挖掘的雙重需求。當機構間能安全共享隱私數據時,將產生無數帶來重大商業利益的場景用例。某些情況下,以隱私保護方式實現多方數據共享甚至能催生全新商業模式。
實際應用的MPC協議多針對特定場景開發,如隱私投標和安全集合求交。但由于實施難度大、計算與通信開銷遠高于其他隱私保護方案,該技術在工業界的應用仍受限。
2008年丹麥甜菜拍賣應用[7]成為多方計算(MPC)領域的重要里程碑。這是首個大規模實際應用的 商業領域的多方計算(MPC)。丹麥甜菜種植者協會代表、丹麥甜菜加工企業丹尼斯克公司以及MPC協議實施團隊成功運行了一場基于MPC協議的虛擬拍賣。該技術的運用確保了農民的投標信息對丹麥市場唯一甜菜加工商丹尼斯克保密,同時降低了整體拍賣流程成本。鑒于農民報價可能暴露其經濟狀況與生產能力,必須防止丹尼斯克獲取這些信息并在銷售合同時謀取優勢。
機密計算(CC)是通過基于硬件的可信執行環境(TEE,又稱安全飛地)處理數據的技術。在TEE部署軟件時需進行認證流程,確保運行軟件棧的合法性。IBM、英特爾和AMD等廠商提供的TEE方案中,內存數據全程加密,僅在中央處理器(CPU)內部解密。相較于MPC和全同態加密(FHE)等技術,該方案具有顯著時效優勢,但其安全假設存在固有局限——必須預設安全飛地內的硬件與軟件棧始終未被攻破。這種假設在軟件漏洞與側信道攻擊頻發的背景下尤其值得商榷。此外,安全飛地技術無法實現多方間的敏感數據安全協同處理。
差分隱私(DP)通過量化潛在數據泄露量來提供強隱私保障,但會降低數據效用與保真度,制約工業場景應用。該方法通過向私有屬性添加特定噪聲來保護個體隱私,同時保持群體趨勢可觀測性。經定制調參的噪聲分布能隱藏個體在數據集中的存在狀態,使攻擊者無法區分包含特定個體的分析結果與替換個體數據的分析結果。這種"無法檢測個體數據是否存在于數據集"的特性,正符合隱私法規對參與者身份不可識別性的要求。