論文閱讀 A Distributional Framework for Data Valuation

本論文解決的問題

  1. 量化數據價值(機器學習模型訓練中各個數據點的貢獻)

  2. 避免數據價值受到其所處數據集的影響,使數據點的估值更加穩定、一致

變量假設

假設 D 表示一個在全集 Z 上的數據分布。對于監督學習問題,我們通常認為 Z = X × Y,其中 X 是特征空間的一個子集,Y 是輸出,它可以是離散的或連續的。

S 是從 D 中獨立同分布抽取的 k 個數據點的集合。

簡寫:[m]={1, …, m},k ~ [m] 表示從 [m] 中均勻隨機抽取的樣本。

U 表示一個取值在 [0, 1] 上的潛在函數(potential function)或性能度量(performance metric)。在本文的背景下,認為 U 表示學習算法(learning algorithm)和評估指標(evaluation metric)。對于任何 S ? Z,U(S) 表示集合 S 的價值。

Data Shapley

? ( z ; U , B ) = 1 m ∑ k = 1 m ( m ? 1 k ? 1 ) ? 1 ∑ S ? B \ { z } ∣ S ∣ = k ? 1 ( U ( S ∪ { z } ) ? U ( S ) ) \phi(z ; U, B)=\frac{1}{m} \sum_{k=1}^m\binom{m-1}{k-1}^{-1} \sum_{\substack{S \subseteq B \backslash\{z\} \\|S|=k-1}}(U(S \cup\{z\})-U(S)) ?(z;U,B)=m1?k=1m?(k?1m?1?)?1S?B\{z}S=k?1??(U(S{z})?U(S))

解釋如下:

  • ? ( z ; U , B ) \phi(z ; U, B) ?(z;U,B) :表示數據點 z z z 在數據集 B B B 中的 data Shapley 值。
  • m m m :數據集 B B B 中數據點的總數。
  • U U U :勢函數或性能度量,用于評估數據集的價值或模型的性能。
  • S S S :數據集 B B B 的任意子集,不包含點 z z z
  • ( m ? 1 k ? 1 ) \binom{m-1}{k-1} (k?1m?1?) : 是從 m ? 1 m-1 m?1 個數據點中選擇 k ? 1 k-1 k?1 個數據點的組合數,作為權重。
  • ∑ S ? B \ { z } ∣ S ∣ = k ? 1 \sum_{\substack{S \subseteq B \backslash\{z\} \\|S|=k-1}} S?B\{z}S=k?1?? :求和符號,表示遍歷所有可能的子集 S S S ,這些子集是從 B B B 中除去 z z z 后剩余的數據點中選取 k ? 1 k-1 k?1 個數據點形成的。

上式為 Data Shapley 值的定義,只是改變 Data Shapley: Equitable Valuation of Data for Machine Learning 中公式的形式。
? i = C ∑ S ? D ? { i } V ( S ∪ { i } ) ? V ( S ) ( n ? 1 ∣ S ∣ ) \phi_i=C \sum_{S \subseteq D-\{i\}} \frac{V(S \cup\{i\})-V(S)}{\left(\begin{array}{c}n-1 \\ |S|\end{array}\right)} ?i?=CS?D?{i}?(n?1S?)V(S{i})?V(S)?
計算差別體現在:D-Shapley 論文中每種 |S| 集合情況下,因為權重相同,所以先求和再乘上權重 C n ? 1 k ? 1 C_{n-1}^{k-1} Cn?1k?1?,然后求和,最后乘上 1 / m 1/m 1/m?? 權重。Data Shapley 論文中,是對于每種 |S| 情況,計算邊際貢獻后,就乘上對應的兩個權重。

請添加圖片描述

Distributional Shapley Value

Distributional Shapley Value 中數據點 z z z 的數據價值為:

ν ( z ; U , D , m ) ? E B ~ D m ? 1 [ ? ( z ; U , B ∪ { z } ) ] \nu(z ; U, \mathcal{D}, m) \triangleq \underset{B \sim \mathcal{D}^{m-1}}{\mathbf{E}}[\phi(z ; U, B \cup\{z\})] ν(z;U,D,m)?BDm?1E?[?(z;U,B{z})]?

上式中的 ? ( z ; U , B ∪ { z } ) \phi(z ; U, B \cup\{z\}) ?(z;U,B{z}) 可視為一個隨機變量。其中,數據集 B B B 為從分布 D D D 中隨機抽取的,包含 𝑚?1 個數據點的數據集。因為每次抽樣會得到不同的數據集 B B B,從而導致 Data Shapley 值的不同結果,但是通過期望就能考慮所有可能的數據集的平均情況,求出數據點的價值。

下面的公式提供了 D-Shapley 值的一個等價表述。
ν ( z ; U , D , m ) = E D ~ D m ? 1 [ ? ( z ; U , D ∪ { z } ) ] = E D ~ D m ? 1 [ 1 m ∑ k = 1 m 1 ( m ? 1 k ? 1 ) ∑ S ? D : ∣ S ∣ = k ? 1 ( U ( S ∪ { z } ) ? U ( S ) ) ] = 1 m ∑ k = 1 m 1 ( m ? 1 k ? 1 ) E D ~ D m ? 1 [ ∑ S ? D : ∣ S ∣ = k ? 1 ( U ( S ∪ { z } ) ? U ( S ) ) ] = 1 m ∑ k = 1 m E S ~ D k ? 1 [ U ( S ∪ { z } ) ? U ( S ) ] = E k ~ [ m ] S ~ D k ? 1 [ U ( S ∪ { z } ) ? U ( S ) ] \begin{aligned} & \nu(z ; U, \mathcal{D}, m)=\underset{D \sim \mathcal{D}^{m-1}}{\mathbf{E}}[\phi(z ; U, D \cup\{z\})] \\ & =\underset{D \sim \mathcal{D}^{m-1}}{\mathbf{E}}\left[\frac{1}{m} \sum_{k=1}^m \frac{1}{\binom{m-1}{k-1}} \sum_{\substack{S \subseteq D: \\ |S|=k-1}}(U(S \cup\{z\})-U(S))\right] \\ & =\frac{1}{m} \sum_{k=1}^m \frac{1}{\binom{m-1}{k-1}} \underset{D \sim \mathcal{D}^{m-1}}{\mathbf{E}}\left[\sum_{\substack{S \subseteq D: \\ |S|=k-1}}(U(S \cup\{z\})-U(S))\right] \\ & =\frac{1}{m} \sum_{k=1}^m \underset{S \sim \mathcal{D}^{k-1}}{\mathbf{E}}[U(S \cup\{z\})-U(S)] \\ & =\underset{\substack{k \sim[m] \\ S \sim \mathcal{D}^{k-1}}}{\mathbf{E}}[U(S \cup\{z\})-U(S)] \\ & \end{aligned} ?ν(z;U,D,m)=DDm?1E?[?(z;U,D{z})]=DDm?1E? ?m1?k=1m?(k?1m?1?)1?S?D:S=k?1??(U(S{z})?U(S)) ?=m1?k=1m?(k?1m?1?)1?DDm?1E? ?S?D:S=k?1??(U(S{z})?U(S)) ?=m1?k=1m?SDk?1E?[U(S{z})?U(S)]=k[m]SDk?1?E?[U(S{z})?U(S)]?

首先 k k k 是從集合 [ m ] [m] [m] 中進行均勻隨機抽樣,然后對從分布 D D D 中隨機抽取的 k ? 1 k-1 k?1 個數據點構成的數據集 S S S,進行期望計算,最后得到的是添加數據點 z z z S S S 后性能度量函數 U U U? 變化量的期望。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24202.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24202.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24202.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

jvm學習筆記(一) ----- JAVA 內存

JAVA 內存 一、程序計數器二、虛擬機棧三、本地方法棧四、堆五、非JAVA內存(堆外內存)1.元空間(Metaspace)2.直接內存 鏈接: jvm學習筆記(二) ----- 垃圾回收 鏈接: jvm學習筆記(三) ----- 垃圾回收器 一、程序計數器 虛擬機需要通過『程序計數器』記錄指令執行到哪了。線程要…

代碼隨想錄算法訓練營day43

題目:1049. 最后一塊石頭的重量 II 、494. 目標和、474.一和零 參考鏈接:代碼隨想錄 1049. 最后一塊石頭的重量 II 思路:本題石頭是相互粉碎,粉碎后剩下的重量就是兩塊石頭之差,我們可以想到,把石頭分成…

使用智譜 GLM-4-9B 和 SiliconCloud 云服務快速構建一個編碼類智能體應用

本篇文章我將介紹使用智譜 AI 最新開源的 GLM-4-9B 模型和 GenAI 云服務 SiliconCloud 快速構建一個 RAG 應用,首先我會詳細介紹下 GLM-4-9B 模型的能力情況和開源限制,以及 SiliconCloud 的使用介紹,最后構建一個編碼類智能體應用作為測試。…

數據結構和算法之數組和鏈表

一、數組 數組是一種線性數據結構,它是由一組連續的內存單元組成的,用于存儲相同類型的數據。在JavaScript中,數組可以包含任意類型的數據,不只限于基本數據類型。 1.存儲方式 在內存中,數組的元素是連續存儲的&…

【Vue】組件的存放目錄問題

注意: .vue文件 本質無區別 組件分類 .vue文件分為2類,都是 .vue文件(本質無區別) 頁面組件 (配置路由規則時使用的組件)復用組件(多個組件中都使用到的組件) 存放目錄 分類開來的…

Llama模型家族之拒絕抽樣(Rejection Sampling)(二)均勻分布簡介

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…

ssti模板注入

一、Flask應用 1、介紹 定義 Flask:是一個使用Python編寫的輕量級web應用框架。Flask基于Werkzeug WSGI工具包和Jinja2模板引擎。 特點 良好的文檔、豐富的插件、包含開發服務器和調試器、集成支持單元測試、RESTful請求調度、支持安全cookies、基于Unicode。 …

手機短信刪除怎么恢復?快速找回的3個秘密武器

手機,這個我們每天離不開的小玩意兒,有時候也會讓我們頭疼不已。比如,你一不小心,或者為了清理點空間,就把那些重要的短信給刪了。這些短信可能是你和好友的深夜聊天,或者是重要的工作信息。一旦刪除&#…

人工智能就業方向有哪些?

人工智能就業方向有哪些? 隨著人工智能技術的不斷發展,其應用領域也越來越廣泛。對于想要進入人工智能領域的年輕人來說,選擇一個合適的職業方向是至關重要的。今天給大家介紹六個熱門的人工智能就業方向,分別是機器學習工程師、自然語言處理…

Webshell檢測初識

最近在研究webshell檢測的小東西,所以開啟一個專門記錄webshell檢測工具開發的專欄,若有遺漏之處,請大佬們指出。 本篇大致了解以下內容 什么是webshll?有哪些類型?各自有什么不同?Webshell有哪些常見的檢測…

鼠標側鍵映射虛擬桌面切換 —— Win11

鼠標側鍵映射虛擬桌面切換 —— Win11 基于 AutoHotkey 實現功能 下載軟件 AutoHotkey建議安裝在默認路徑下(C盤) 此軟件非常小,幾乎不占用資源軟件安裝在默認路徑以外的位置可能導致部分功能不可用 新建一個 .ahk 文件使用記事本打開該 .a…

哪款開放式耳機佩戴最舒服?2024五款備受推崇產品分享!

?在現今耳機市場,開放式耳機憑借其舒適的佩戴體驗和獨特的不入耳設計,備受消費者追捧。它們不僅讓你在享受音樂時,仍能察覺周圍的聲音,確保與人交流無障礙,而且有利于耳朵的衛生與健康。對于運動愛好者和耳機發燒友而…

GIGE 協議摘錄 —— 引導寄存器(四)

系列文章目錄 GIGE 學習筆記 GIGE 協議摘錄 —— 設備發現(一) GIGE 協議摘錄 —— GVCP 協議(二) GIGE 協議摘錄 —— GVSP 協議(三) GIGE 協議摘錄 —— 引導寄存器(四) GIGE 協議…

Flutter Dismissible 屬性介紹及使用指南

在移動應用開發中,滑動刪除是一種常見的交互方式。Flutter 提供了一個強大的小部件 Dismissible,使得實現這一功能變得非常簡單。本文將介紹 Dismissible 的主要屬性及其使用方法。 1. Dismissible 簡介 Dismissible 是一個 Flutter 小部件&#xff0c…

前后端實現文件上傳進度條-實時進度

后端接口代碼&#xff1a; PostMapping("/upload")public ResponseEntity<String> handleFileUpload(RequestParam("file") MultipartFile file) {try {// 獲取文件名String fileName file.getOriginalFilename();// 創建上傳目標路徑Path targetPa…

基于簡單Agent對醫療數據進行分析

數據表 供應商資格審核規定.pdf 醫生名錄.xlsx 歷史就診記錄.xlsx 患者信息名錄.xlsx 藥品.xlsx 藥品庫存管理.xlsx 采購單位基本信息.xlsx Agent測試 模型基于ChatGPT-3.5 問題&#xff1a;幫我找出不達標的供應商 Agent分析過程 [Thought: 0] Key Concepts: - 不達標的供…

P7 品牌管理

逆向生成頁面 新增菜單—商品系統的品牌管理 —product/brand 在代碼生成器得到的文件中&#xff0c; main-resources-src-views-modules-product brand.vue、brand-add-or-update.vue放到category.vue同級vue文件有新增、刪除按鈕&#xff0c;但頁面未顯示&#xff0c;是因…

嵌入式Linux系統中RTC應用的操作詳解

第一:RTC的作用以及時間簡介 “RTC”的英文全稱是Reul-Time Clock,翻譯過來是實時時鐘芯片.實時時鐘芯片是日常生活中應用最為廣泛的電子器件之一,它為人們或者電子系統提供精確的實時時間,實時時鐘芯片通過引腳對外提供時間讀寫接口,通常內部帶有電池,保證在外部系統關…

【Android】使用EventBus進行線程間通訊

EventBus 簡介 EventBus&#xff1a;github EventBus是Android和Java的發布/訂閱事件總線。 簡化組件之間的通信 解耦事件發送者和接收者 在 Activities, Fragments, background threads中表現良好 避免復雜且容易出錯的依賴關系和生命周期問題 Publisher使用post發出…

好書推薦-人工智能數學基礎

本書以零基礎講解為宗旨&#xff0c;面向學習數據科學與人工智能的讀者&#xff0c;通俗地講解每一個知識點&#xff0c;旨在幫助讀者快速打下數學基礎。    全書分為 4 篇&#xff0c;共 17 章。其中第 1 篇為數學知識基礎篇&#xff0c;主要講述了高等數學基礎、微積分、泰…