AIF360入門教學

1、AIF360簡介

  • AI Fairness 360 工具包(AIF360)是一個開源軟件工具包,可以幫助檢測和緩解整個AI應用程序生命周期中機器學習模型中的偏見。
  • 在整個機器學習的過程中,偏見可能存在于初始訓練數據、創建分類器的算法或分類器所做的預測中。AI Fairness 360 工具包可以衡量和緩解機器學習過程中三個階段的偏見。
  • 開源網站:https://github.com/Trusted-AI/AIF360

2、安裝AIF360

  • 使用pip安裝最新穩定的版本(先使用這個)
  • pip install aif360
  • 【注】某些算法需要額外的依賴包,安裝額外的依賴包,例如運行:
    • pip install aif360[LFR,OptimPreproc]
    • 或安裝完整功能的AIF360
    • pip install aif360[all]

3、使用示例

  • 從github上找到官方提供的有關教程。
  • 網站:AIF360/examples/README.md at master ·可信AI/AIF360 ·GitHub

3.1、信用評分(數據預處理去偏)

  • 本案例演示了在使用德國信用數據集的信用評分場景中的年齡偏差背景下使用一個公平性指標(平均差)和一個偏見緩解算法(重新加權)
  • 具體工作:檢查初始訓練數據中的偏見,緩解偏見,然后重新檢查。
  • 網站:Jupyter 筆記本查看器 (nbviewer.org)

3.2、新建項目

  • 使用PyCharm建立一個新的項目。
  • 【注】在系統中使用pip下載的包,在Pycharm中一定要選擇系統解釋器才能夠引用。

3.3、編寫導入語句

  • 以下所有語句都在main.py中編寫。
  • 與任何python程序一樣,第一步是導入必要的包。下面我們從包中導入幾個組件。我們導入 GermanDataset,用于檢查偏見的指標以及與我們將用于減輕偏差的算法相關的類。
  • # 導入所有需要的包
    import sys
    sys.path.insert(1, "../")  import numpy as np
    np.random.seed(0)from aif360.datasets import GermanDataset
    from aif360.metrics import BinaryLabelDatasetMetric
    from aif360.algorithms.preprocessing import Reweighingfrom IPython.display import Markdown, display
  • 編譯報錯(沒什么包,加什么包)
  • 添加包(還是報錯先不管它)
  • pip install aif360[LawSchoolGPA]
  • ?安裝IPython
  • pip install ipython
  • 再次編譯報錯
  • 需要下載數據集到指定位置。分別點擊上述兩個鏈接,右鍵另存為到指定的位置。(注意修改文件名字和后綴)

3.4、設置偏差檢測選項、加載數據集并在訓練和測試之間拆分

  • 加載初始數據集,將受保護屬性設置為 age。
  • 將原始數據集拆分為訓練數據集和測試數據集。雖然在本教程中我們將僅使用訓練數據集,但正常的工作流也會使用測試數據集來評估機器學習模型開發期間的有效性(準確性、公平性等)。
  • 為 age 屬性的特權群體(1)和非特權群體(0)設置兩個變量。
  • dataset_orig = GermanDataset(protected_attribute_names=['age'],           # 將年齡指定為被保護屬性privileged_classes=[lambda x: x >= 25],      # age >=25 認為是特權features_to_drop=['personal_status', 'sex']  # 忽略與性別有關的屬性
    )dataset_orig_train, dataset_orig_test = dataset_orig.split([0.7], shuffle=True)privileged_groups = [{'age': 1}]
    unprivileged_groups = [{'age': 0}]  # 其中“1”(大于或等于 25)和“0”(小于 25)分別是特權組和非特權組的值

3.5、計算原始訓練數據集上的公平性指標

  • 使用平均差來度量數據集中的偏見。比較特權和非特權群體的有利結果百分比,從后者中減去前者的百分比,負值表示對非特權組不利的結果。
  • 使用BinaryLabelDatasetMetric類中的mean_difference方法實現。
  • # 創建BinaryLabelDatasetMetric對象,傳入原始訓練數據集dataset_orig_train,以及privileged_groups和unprivileged_groups的定義
    metric_orig_train = BinaryLabelDatasetMetric(dataset_orig_train, unprivileged_groups=unprivileged_groups,privileged_groups=privileged_groups)
    display(Markdown("#### Original training dataset"))
    print("Difference in mean outcomes between unprivileged and privileged groups = %f" % metric_orig_train.mean_difference())
  • 編譯后顯示差值為 -0.169905。

3.6、通過轉換原始數據集來緩解偏差

  • 嘗試減輕訓練數據集中的偏見被稱為預處理去偏,因為它發生在創建模型之前。
  • AI Fairness 360 實現了多種預處理緩解算法,選擇重新加權算法(通過改變樣本權重的方式來減少數據集中不同群體之間的偏差),該算法在包中的類中實現。此算法將轉換數據集,使其在特權組和非特權組的受保護屬性的積極結果上具有更大的公平性。
  • 再調用擬合和轉換方法來執行轉換,生成新轉換的訓練數據集(dataset_transf_train)。
  • RW = Reweighing(unprivileged_groups=unprivileged_groups,privileged_groups=privileged_groups)  # 創建Reweighing對象RW
    dataset_transf_train = RW.fit_transform(dataset_orig_train)  # 計算權重,并生成一個新的訓練數據集

3.7、在轉換后的訓練數據集上計算公平性指標

  • 再次使用平均差來度量它的去偏效果。
  • metric_transf_train = BinaryLabelDatasetMetric(dataset_transf_train, unprivileged_groups=unprivileged_groups,privileged_groups=privileged_groups)
    display(Markdown("#### Transformed training dataset"))
    print("Difference in mean outcomes between unprivileged and privileged groups = %f" % metric_transf_train.mean_difference())
  • 結果顯示去偏效果非常明顯,平均結果的差異現在是0.0。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/37595.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/37595.shtml
英文地址,請注明出處:http://en.pswp.cn/news/37595.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OPENCV C++(十一)

鼠標響應函數 //鼠標響應函數 void on_mouse(int EVENT, int x, int y, int flags, void* userdata) {Mat hh;hh *(Mat*)userdata;switch (EVENT){case EVENT_LBUTTONDOWN:{vP.x x;vP.y y;drawMarker(hh, vP, Scalar(255, 255, 255));//circle(hh, vP, 4, cvScalar(255, 255…

人工智能在監控系統中的預測與優化:提升效率和響應能力

引言:人工智能的發展給監控系統帶來了新的可能性,通過分析歷史監控數據和其他相關數據,人工智能可以預測未來可能發生的事件,如交通擁堵、安全隱患等,并幫助優化監控系統的配置和資源分配。這種預測和優化的能力可以提…

2023年國賽數學建模思路 - 復盤:校園消費行為分析

文章目錄 0 賽題思路1 賽題背景2 分析目標3 數據說明4 數據預處理5 數據分析5.1 食堂就餐行為分析5.2 學生消費行為分析 建模資料 0 賽題思路 (賽題出來以后第一時間在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 賽題背景 校園一卡通是集…

vue3表格,編輯案例

index.vue <script setup> import { onMounted, ref } from "vue"; import Edit from "./components/Edit.vue"; import axios from "axios";// TODO: 列表渲染 const list ref([]); const getList async () > {const res await ax…

6.2.0在線編輯:GrapeCity Documents for Word (GcWord) Crack

GrapeCity Word 文檔 (GcWord) 支持 Office Math 函數以及轉換為 MathML GcWord 現在支持在 Word 文檔中創建和編輯 Office Math 內容。GcWord 中的 OMath 支持包括完整的 API&#xff0c;可處理科學、數學和通用 Word 文檔中廣泛使用的數學符號、公式和方程。以下是通過 OMa…

無法在 macOS Ventura 上啟動 Multipass

異常信息 ? ~ sudo multipass authenticate Please enter passphrase: authenticate failed: Passphrase is not set. Please multipass set local.passphrase with a trusted client. ? ~ multipass set local.passphrase Please enter passphrase: Please re-enter…

大語言模型LLM的一些點

LLM發展史 GPT模型是一種自然語言處理模型,使用Transformer來預測下一個單詞的概率分布,通過訓練在大型文本語料庫上學習到的語言模式來生成自然語言文本。 GPT-1(117億參數),GPT-1有一定的泛化能力。能夠用于和監督任務無關的任務中。GPT-2(15億參數),在生成方面表現出很…

vue自定義指令--動態參數綁定

在企業微信側邊欄應用中&#xff0c;給dialog添加了拖拽功能&#xff0c;但是因為dialog高度超過了頁面高度&#xff0c;所以高度100%時拖拽有個bug--自動貼到窗口頂部而且企業側邊欄寬高都有限制&#xff0c;拖拽效果并不理想&#xff0c;所以就想縮小dialog再進行拖拽。 拖拽…

IntelliJ IDEA和Android studio怎么去掉usage和作者提示

截止到目前我已經寫了 600多道算法題&#xff0c;其中部分已經整理成了pdf文檔&#xff0c;目前總共有1000多頁&#xff08;并且還會不斷的增加&#xff09;&#xff0c;大家可以免費下載 下載鏈接&#xff1a;https://pan.baidu.com/s/1hjwK0ZeRxYGB8lIkbKuQgQ 提取碼&#xf…

java處理CSV文件

文章目錄 1. 方法2. maven依賴3. 示例代碼 1. 方法 opencsv–>CSVParser&#xff1b;commons-csv–>CSVReader&#xff1b;有時候文本里有逗號可能會導致錯誤分割 2. maven依賴 <dependency><groupId>org.apache.commons</groupId><artifactId>…

457. 環形數組是否存在循環

457. 環形數組是否存在循環 原題鏈接&#xff1a;完成情況&#xff1a;解題思路&#xff1a;參考代碼&#xff1a;經驗吸取 原題鏈接&#xff1a; 457. 環形數組是否存在循環 https://leetcode.cn/problems/circular-array-loop/description/ 完成情況&#xff1a; 解題思路…

使用Pandas進行數據清理的入門示例

數據清理是數據分析過程中的關鍵步驟&#xff0c;它涉及識別缺失值、重復行、異常值和不正確的數據類型。獲得干凈可靠的數據對于準確的分析和建模非常重要。 本文將介紹以下6個經常使用的數據清理操作&#xff1a; 檢查缺失值、檢查重復行、處理離群值、檢查所有列的數據類型…

explicit關鍵字 和 static成員

explicit關鍵字 和 static成員 1、explicit 關鍵字2、static成員&#xff08;靜態成員變量屬于類的&#xff08;只有所屬這個類的對象才能修改&#xff09;&#xff0c;不同于全局變量&#xff08;任何對象都能修改&#xff09;&#xff09;2.1 定義和性質2.2 靜態成員的使用場…

opencv進階02-在圖像上繪制多種幾何圖形

OpenCV 提供了方便的繪圖功能&#xff0c;使用其中的繪圖函數可以繪制直線、矩形、圓、橢圓等多種幾何圖形&#xff0c;還能在圖像中的指定位置添加文字說明。 OpenCV 提供了繪制直線的函數 cv2.line()、繪制矩形的函數 cv2.rectangle()、繪制圓的函數cv2.circle()、繪制橢圓的…

【Quarkus技術系列】「云原生架構體系」在云原生時代下的Java“拯救者”是Quarkus,那云原生是什么呢?

云原生時代下的Java"拯救者" 在云原生時代&#xff0c;其實Java程序是有很大的劣勢的&#xff0c;以最流行的spring boot/spring cloud微服務框架為例&#xff0c;啟動一個已經優化好&#xff0c;很多bean需要lazy load的application至少需要3-4秒時間&#xff0c;內…

廣西一公司泄露22萬個人信息,被罰23萬

近日&#xff0c;廣西北海公安網安部門發現&#xff0c;北海某公司網站存在嚴重數據泄露問題&#xff0c;約22萬個人信息數據已掛在暗網售賣。 經查&#xff0c;涉案公司主要提供網上咨詢服務&#xff0c;在日常工作中收集了個人和企業等大量公民信息&#xff0c;但公司存放數…

【算法題】2547. 拆分數組的最小代價

題目&#xff1a; 給你一個整數數組 nums 和一個整數 k 。 將數組拆分成一些非空子數組。拆分的 代價 是每個子數組中的 重要性 之和。 令 trimmed(subarray) 作為子數組的一個特征&#xff0c;其中所有僅出現一次的數字將會被移除。 例如&#xff0c;trimmed([3,1,2,4,3,4…

一站式自動化測試平臺-Autotestplat

3.1 自動化平臺開發方案 3.1.1 功能需求 3.1.3 開發時間計劃 如果是剛入門、但有一點代碼基礎的測試人員&#xff0c;大概 3 個月能做出演示版(Demo)進行自動化測試&#xff0c;6 個月內勝任開展工作中項目的自動化測試。 如果是有自動化測試基礎的測試人員&#xff0c;大概 …

python序列化反序列化和異常處理筆記

迭代器 迭代是訪問集合元素的一種方式。迭代器是一個可以記住遍歷的位置的對象。迭代器對象從集合的第一個元素開始訪問&#xff0c;直到所有的元素被訪問完結束。迭代器只能往前不會后退。 1. 可迭代對象 我們已經知道可以對list、tuple、str等類型的數據使用for...in...的…

面試熱題(數組中的第K個最大元素)

給定整數數組 nums 和整數 k&#xff0c;請返回數組中第 k 個最大的元素。 請注意&#xff0c;你需要找的是數組排序后的第 k 個最大的元素&#xff0c;而不是第 k 個不同的元素。 輸入: [3,2,1,5,6,4] 和 k 2 輸出: 5提到數組中最大元素&#xff0c;我們往往想到就是先給數組…