機器學習入門 | 訓練、推理與其他機器學習活動(預處理、測試與評估)

在訓練階段,訓練算法通過優化目標/損失函數在訓練數據集上的表現,不斷更新模型參數θ。在監督學習場景中,訓練數據集由輸入-標簽對(真實輸出值)組成。目標函數應當獎勵模型根據訓練輸入成功預測真實輸出的行為,同時也需避免過擬合、訓練集偏差或對其他非代表性訓練數據的過度依賴。

由于訓練模型的質量本質上與訓練數據的質量相關,應盡可能減少訓練數據中的標注錯誤。然而仍需假設此類錯誤可能存在,并采取措施降低其污染模型的風險。

在數據預處理階段,必須確保數據不包含任何無效值,例如空值、無窮大或與特定特征預期類型不匹配的值。當檢測到數據中的錯誤時,首先需要思考的問題是:"應如何修正這些錯誤?"一個簡單的解決方案可能是直接刪除包含缺失或損壞特征的記錄。然而,這種做法可能導致大量經過微小調整即可使用的數據被剔除。

針對此類問題,可采用多種處理技術:無效值可以用最小值、最大值或平均值替代;另一種解決方案是訓練一個較小的模型,利用其他所有特征來預測特定特征,進而填補缺失或損壞的值。部分數據科學家甚至建議直接刪除異常值,將其視為"可能的錯誤",但需謹慎操作,因為異常值未必意味著數據收集錯誤。

在測試和評估模型時,選擇能準確反映模型需求的評估指標至關重要。例如,若銀行訓練金融欺詐檢測模型,評估指標可能需要同時考慮誤判正常交易的代價與漏判惡意交易的損失。由于不同錯誤的代價可能存在差異,簡單的準確率指標可能不足,甚至可能曲解根本目標。

隱私問題

據估算,2024年全球每日將消耗149澤字節(1021字節)數據。盡管數據規模如此龐大,但可用于模型訓練的現成數據——尤其是高質量標注數據——仍是珍貴且稀缺的資源,研究人員往往難以獲取。由于商業利益、倫理道德或法律監管等方面的考量,數據所有者出于隱私保護、保密要求等因素,通常不愿共享其數據。

即便模型完成訓練后,數據科學家仍面臨各類隱私隱患:既可能從訓練好的模型中提取出私密數據,也能從聚合數據中還原出個人身份信息。雖然各類匿名化技術能在一定程度上緩解隱私問題,但這些技術往往需要在隱私保護與數據準確性/可用性之間作出權衡。

上述問題主要涉及個人身份信息(PII)的保護,但還需考慮防范以模型權重形式存在的知識產權(IP)被盜風險。攻擊者既可能通過系統入侵竊取完整模型,也能在黑盒模型使用場景中實施基于查詢的攻擊算法。

發送至模型作為查詢輸入的數據,也可能通過中間人攻擊泄露給惡意行為者。此類情況下,能夠截獲數據傳輸的惡意黑客 運行該模型的計算機平臺會等待數據被解密后,再交由分析模型進行處理,隨后竊取有價值的明文信息。最后,模型輸出和分析結果也可能被視為敏感信息,因此必須確保學習過程的安全性,以免涉及金融、醫療或其他機密信息的結果落入不法分子之手。


應對上述隱私問題,除了全同態加密(FHE)外,以下簡要討論幾種常見方法和技術:

多方計算(MPC)技術通過強密碼學保障實現數據保護,無需依賴專用硬件或軟件。該技術允許多方在不泄露各自輸入數據的前提下,協同計算某個函數或算法的結果——最終僅向指定方或全體參與方公開計算結果。但MPC存在顯著局限性:其底層算法的實現可能因多方間頻繁交互而產生巨大的網絡開銷[3]。

MPC的理論雛形最初由姚期智提出雙方案例,后經Goldreich、Micali和Wigderson推廣至多方場景。文獻[16]提出的混淆電路(GC)概念為MPC理論奠定了基礎。GC協議使兩個互不信任的方無需第三方中介即可進行安全計算。

MPC的核心驅動力源于跨實體/組織數據共享場景中隱私保護與數據價值挖掘的雙重需求。當機構間能安全共享隱私數據時,將產生無數帶來重大商業利益的場景用例。某些情況下,以隱私保護方式實現多方數據共享甚至能催生全新商業模式。

實際應用的MPC協議多針對特定場景開發,如隱私投標和安全集合求交。但由于實施難度大、計算與通信開銷遠高于其他隱私保護方案,該技術在工業界的應用仍受限。

2008年丹麥甜菜拍賣應用[7]成為多方計算(MPC)領域的重要里程碑。這是首個大規模實際應用的 商業領域的多方計算(MPC)。丹麥甜菜種植者協會代表、丹麥甜菜加工企業丹尼斯克公司以及MPC協議實施團隊成功運行了一場基于MPC協議的虛擬拍賣。該技術的運用確保了農民的投標信息對丹麥市場唯一甜菜加工商丹尼斯克保密,同時降低了整體拍賣流程成本。鑒于農民報價可能暴露其經濟狀況與生產能力,必須防止丹尼斯克獲取這些信息并在銷售合同時謀取優勢。

機密計算(CC)是通過基于硬件的可信執行環境(TEE,又稱安全飛地)處理數據的技術。在TEE部署軟件時需進行認證流程,確保運行軟件棧的合法性。IBM、英特爾和AMD等廠商提供的TEE方案中,內存數據全程加密,僅在中央處理器(CPU)內部解密。相較于MPC和全同態加密(FHE)等技術,該方案具有顯著時效優勢,但其安全假設存在固有局限——必須預設安全飛地內的硬件與軟件棧始終未被攻破。這種假設在軟件漏洞與側信道攻擊頻發的背景下尤其值得商榷。此外,安全飛地技術無法實現多方間的敏感數據安全協同處理。

差分隱私(DP)通過量化潛在數據泄露量來提供強隱私保障,但會降低數據效用與保真度,制約工業場景應用。該方法通過向私有屬性添加特定噪聲來保護個體隱私,同時保持群體趨勢可觀測性。經定制調參的噪聲分布能隱藏個體在數據集中的存在狀態,使攻擊者無法區分包含特定個體的分析結果與替換個體數據的分析結果。這種"無法檢測個體數據是否存在于數據集"的特性,正符合隱私法規對參與者身份不可識別性的要求。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86940.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86940.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86940.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Node.js特訓專欄-實戰進階:11. Redis緩存策略與應用場景

🔥 歡迎來到 Node.js 實戰專欄!在這里,每一行代碼都是解鎖高性能應用的鑰匙,讓我們一起開啟 Node.js 的奇妙開發之旅! Node.js 特訓專欄主頁 專欄內容規劃詳情 Redis 緩存策略與應用場景:從理論到實戰的高…

【stm32】HAL庫開發——Cube配置基本定時器

目錄 一、Cube配置基本定時器 1.定時器CubeMX配置介紹 2.定時器中斷控制LED 3.定時器常用函數 4.定時器從模式(Reset Mode) 5.定時器的從模式(Gated Mode) 6.定時器的編碼器接口 一、Cube配置基本定時器 1.定時器CubeMX配置…

nginx反向代理后端服務restful及token處理

#user nobody; worker_processes 1;#error_log logs/error.log; #error_log logs/error.log notice; #error_log logs/error.log info;#pid logs/nginx.pid;events {worker_connections 1024; } #代理mysql服務 stream {upstream mysql_backend {server 192.168…

正確理解Cola StateMachine不內置事務管理機制

? 正確理解:Cola StateMachine 并非“不支持”事務一致性,而是“不內置”事務管理機制 因為: Cola StateMachine 是輕量級、無狀態、不依賴 Spring 的框架,它本身 不綁定任何事務上下文。它不像 Spring StateMachine 那樣自動與…

AudioTrack使用

** AudioTrack ** AudioTrack 是 Android 音頻系統中的核心類,用于播放原始音頻數據(PCM)或壓縮音頻(如 MP3、AAC)。它提供了低級別的音頻播放控制,適合需要精細管理的場景(如游戲音效、實時音…

解密:MySQL 的常見存儲引擎

在數據庫領域,MySQL 作為一款廣受歡迎的關系型數據庫管理系統,提供了多種存儲引擎以滿足不同應用場景的需求。每種存儲引擎都有其獨特的特性、優勢和適用場景。本文將深入探討 MySQL 中幾種常見的存儲引擎,包括 InnoDB、MyISAM、MEMORY 和 AR…

qt和qtcreator版本關系

實例展示: 如圖所示的qtcreator是使用qt5.15安裝過程選擇勾選了qtcreator 14.0.2,安裝完成qtcreator版本信息: 安裝過程中選擇了這些構件kits,會自動識別到: 使用qt5.9.9另外安裝的kits,需要手動設置才能識…

2個任務同時提交到YARN后2個都卡住(CDH)

文章目錄 問題描述解決方案1、增加資源2、調整ApplicationMaster資源3、關閉YARN調度器的資源搶占4、不使用公平調度器 問題描述 在CDH集群上,同時提交2個任務到YARN后,2個任務都卡住 解決方案 1、增加資源 增加服務器的內存和CPU 2、調整Applicatio…

web3區塊鏈-ETH以太坊

一. 以太坊概述 以太坊(Ethereum)作為區塊鏈技術的代表性項目之一,自2015年發布以來,迅速成為全球區塊鏈行業的核心基礎設施。相比比特幣,以太坊不僅支持點對點的價值轉移,還引入了智能合約,使…

【智能協同云圖庫】智能協同云圖庫第二彈:用戶管理系統后端設計與接口開發

用戶管理系統 一、需求分析 對于用戶模塊,通常要具有下列功能: 二、方案設計 (一)庫表設計 實現用戶模塊的難度不大,在方案設計階段,我們需要確認以下內容: 庫表設計用戶登錄流程如何對用戶權限…

閑庭信步使用SV搭建圖像測試平臺:第十三課——談談SV的數據類型

(本系列只需要modelsim即可完成數字圖像的處理,每個工程都搭建了全自動化的仿真環境,只需要雙擊top_tb.bat文件就可以完成整個的仿真,大大降低了初學者的門檻!!!!如需要該系列的工程…

前端進階之路-從傳統前端到VUE-JS(第一期-VUE-JS環境配置)(Node-JS環境配置)(Node-JS/npm換源)

經過前面的傳統前端開發學習后,我們接下來進行前端的VUE-JS框架學習(寫這篇文章的時候VUE-JS最新版是VUE3,所以默認為VUE3即可) 首先,我們要配置Node-JS環境,雖然我們還不學習Node-JS但是Node-JS可以快速配…

Requests源碼分析:面試考察角度梳理

簡單描述執行流程 ?? Q:能簡單描述一下發送一個requests.get(url)請求時,在requests庫內部的主要執行流程嗎?(從調用get方法到收到響應) 入口委托: get() 方法內部調用 requests.request(GET, url)。Session 接管: request() 方法會獲取或隱式創建一個 Session 對象,并…

航天VR賦能,無人機總測實驗艙開啟高效新篇?

(一)沉浸式培訓體驗? 在傳統的無人機培訓中,操作人員主要通過理論學習和簡單的模擬操作來掌握技能。但這種方式存在很大局限性,難以讓操作人員真正感受無人機在復雜環境下的運行狀態。而航天 VR 技術引入到 VR 無人機總測實驗艙后,徹底改變了…

Kotlin 函數與 Lambda 表達式

今天繼續分享Kotlin學習內容。 目標:掌握函數定義、調用、參數傳遞,以及 Lambda 表達式的基礎用法 1. 函數:Kotlin 的代碼模塊化工具 定義:函數是可重復調用的代碼塊,用于封裝邏輯。 語法: fun 函數名(參…

[mcp-servers] docs | AI客戶端-MCP服務器-AI 架構

鏈接:https://github.com/punkpeye/awesome-mcp-servers 服務器調用 相關專欄:實現Json-Rpc docs:精選MCP服務器資源列表 本專欄為精選 模型上下文協議(MCP)服務器的列表。 MCP 是一種標準協議語言,允許*…

1688商品發布API:自動化上架與信息同步

一、1688商品發布API的核心功能與技術架構 1.1 API功能全景 1688商品發布API是1688開放平臺的核心組件之一,支持商品信息的自動化發布、編輯、上下架及庫存同步。其核心功能包括: 商品信息管理:支持商品標題、描述、價格、庫存、SKU&#…

如何在x86_64 Linux上部署Android Cuttlefish模擬器運行環境

0 軟硬件環境 x86_64服務器Ubuntu20.04 LTS參考:Cuttlefish 虛擬 Android 設備參考: 筆記:搭建 Cuttlefish 運行環境可以下載編好的android-cuttlefish:android-cuttlefish.tar.gz 1 系統采用Ubuntu20.04 LTS 2 搭建cuttlefish…

機器學習9——決策樹

決策樹 Intro 歸納學習(Inductive Learning)的目標:從訓練數據中學習一般規則,應用于未見過的數據。 決策樹是一個樹形結構,其中: 每個分支節點表示一個屬性上的選擇(即決策條件)。…

CppCon 2017 學習:The Asynchronous C++ Parallel Programming Model

清晰理解 Amdahl’s Law(阿姆達爾定律),這是一條描述并行計算加速能力的核心定律。 定義公式: S 1 ( 1 ? P ) P N S \frac{1}{(1 - P) \frac{P}{N}} S(1?P)NP?1? S S S:加速比(Speedup&#xff09…