? ? ? ?在人工智能(AI)與人類動態的交匯處,既存在機遇也存在挑戰,特別是在人工智能領域。盡管取得了進步,但根植于歷史不平等中的持續偏見仍然滲透在我們的數據驅動系統中,這些偏見不僅延續了不公平現象,還加劇了社會的分歧。歷史上的偏見影響了數據收集,對AI模型的結果產生了影響,經常放大了現有的不平等狀況。盡管存在關于隱私、責任和公共關系的擔憂,但收集特殊和敏感類別數據對于偏見評估至關重要。此外,不斷演變的法律框架,例如最近的AI法案和通用數據保護條例[英國信息專員辦公室,2022年],要求檢測、預防和減輕偏見,同時對敏感數據的使用施加了一些限制。
? ? ? 在廣告中的算法歧視可能與敏感垂直領域有關,這些領域突出了有益的就業、金融和住房機會,或者關于誰看到了可能不太受歡迎的廣告,例如掠奪性貸款服務的廣告。雖然廣告中的不公平行為不是懲罰性的,而是輔助性的,即公平性在于提供平等獲取寶貴機會的機會,但確保廣告實踐的公平性至關重要。
? ? ? 大多數關于廣告中歧視行為的研究都是通過創建廣告活動、選擇目標受眾,并從用戶的角度分析數據進行的,而沒有訪問算法特征。缺乏公開可用的、現實的數據集導致研究人員基于私有數據發布結果,導致科學界的主張無法復現。這為關鍵評估和在科學界建立在先前工作之上帶來了挑戰。
在線廣告篩選簡化流程
為了促進現實場景中的公平性研究,本文發布了一個大規模的公平意識廣告FairJob數據集。
鏈接:https://huggingface.co/datasets/criteo/FairJob。
1 廣告中的公平性問題
1.1 招聘廣告中的性別歧視
? ? ?研究表明,招聘廣告的投放過程中存在性別歧視現象。例如,管理職位的招聘廣告更傾向于展示給男性用戶,這可能導致女性用戶獲得的機會更少,加劇性別差距。
? ? ? 這種歧視可能并非廣告服務平臺的本意,而是由于數據偏差或算法設計不當導致的。
1.2 市場偏差
? ? ? ?廣告投放平臺通常采用實時競價 (RTB) 機制進行廣告投放。在這個過程中,平臺會根據用戶和廣告主的特征進行競價,并選擇最優的廣告進行展示。
? ? ? 由于市場競爭和成本效益的考慮,一些廣告主可能會針對特定群體投放廣告。例如女性用戶可能更貴,因此平臺可能會減少對女性用戶的廣告投放。這種市場偏差可能會導致廣告投放結果出現不公平現象。
1.3 算法偏差
廣告推薦算法可能會根據用戶的歷史行為和特征進行推薦,如果這些數據和算法存在偏差,那么推薦結果也可能存在偏差。
例如,如果算法認為男性用戶更傾向于點擊某些類型的廣告,那么這些廣告就會更頻繁地展示給男性用戶,從而導致女性用戶獲得的機會更少。
1.4 評估指標
? ? ? ?廣告推薦系統的評估指標通常包括點擊率、轉化率等,但這些指標可能無法完全反映廣告的公平性。
? ? ?例如,即使廣告投放結果在不同群體之間沒有顯著差異,但如果某些群體對廣告的響應率本身就較低,那么這種結果仍然是不公平的。
1.5 數據隱私
為了評估和解決廣告中的公平性問題,需要收集和分析用戶的數據,包括敏感數據(例如性別、種族等)。
然而,收集敏感數據可能涉及到數據隱私和安全問題,需要進行嚴格的保護和管理。
2 FairJob數據集
? ? ? ?FairJobs 數據集是一個用于研究廣告推薦系統公平性的大型數據集。它包含匿名化的用戶和廣告主特征,以及廣告投放結果,旨在幫助研究人員評估和解決廣告中的公平性問題。
2.1 數據來源
? ? ?FairJobs 數據集來自 Criteo AdTech 公司在 2024 年進行的一項為期 5 個月的招聘廣告投放活動。數據包含以下信息:
- 用戶特征: 包括 20 個匿名化的類別特征和 39 個匿名化的數值特征。
- 廣告主特征: 包括 7 個匿名化的類別特征。
- 廣告投放結果: 包括點擊情況(是否點擊廣告)、廣告是否為高級職位、以及用戶、廣告和廣告投放的唯一標識符。
- 敏感屬性代理: 由于數據集不包含性別等敏感信息,因此使用用戶與男性或女性產品互動的傾向作為性別代理。
2.2 數據特點
- 大規模: 數據集包含 107 萬多條記錄,可以用于訓練和評估大規模的機器學習模型。
- 多樣性: 數據集包含多種類型的特征,包括類別特征和數值特征,可以用于研究不同類型特征的公平性問題。
- 不平衡性: 數據集的正負樣本比例嚴重不平衡,可以用于研究不平衡數據下的公平性問題。
- 匿名化: 數據集經過匿名化處理,保護用戶隱私。
2.3 數據應用
? ? ?FairJobs 數據集可以用于以下研究:
- 公平性評估: 評估廣告推薦系統的公平性,例如不同性別群體獲得廣告的機會是否平等。
- 公平性算法設計: 開發新的公平性算法,例如“公平性懲罰”和“對抗訓練”,以減少算法偏差。
- 評估指標改進: 開發新的評估指標,例如“群體公平性”和“機會公平性”,以更全面地評估廣告推薦系統的公平性。
- 數據隱私保護: 研究數據匿名化、差分隱私等技術,保護用戶數據隱私。
2.4 FairJobs 數據集的優勢
- 真實場景: 數據集來自真實的廣告投放活動,可以更好地反映現實世界中的公平性問題。
- 匿名化: 數據集經過匿名化處理,可以保護用戶隱私。
- 開放獲取: 數據集開放獲取,方便研究人員進行研究和實驗。
2.5 FairJobs 數據集的局限性
- 敏感屬性代理: 由于數據集不包含性別等敏感信息,因此使用用戶與男性或女性產品互動的傾向作為性別代理,可能存在一定的誤差。
- 數據不平衡性: 數據集的正負樣本比例嚴重不平衡,可能會影響模型的訓練和評估。
- 市場偏差: 數據集可能存在市場偏差,例如某些廣告主可能更傾向于投放給特定群體。
3 實驗
3.1 實驗設置
實驗源代碼:https://github.com/criteo-research/FairJob-dataset
3.1.1 數據集
FairJob 數據集,包含 1,072,226 條記錄,每條記錄包含用戶特征、產品特征、點擊標簽、性別代理、職位等級等信息。
3.1.2 模型
3.1.2.1 基線模型
- Dummy: 基于單一閾值對正類概率進行分類。在無感知設置中使用,即不考慮受保護屬性。Dummy分類器的性能雖然有限,但它提供了一個基準,幫助我們理解在沒有任何模型學習的情況下的公平性水平。
- XGBoost:一個強大的梯度提升框架,用于處理各種類型的數據。在實驗中,分別在不公平(包含受保護屬性)和無感知(不包含受保護屬性)設置下使用。
- XGBoostLogistic Regression:邏輯回歸是一種廣泛應用于二元分類問題的統計方法。在實驗中,使用邏輯回歸來評估不公平、無感知和公平設置下的性能。
3.1.2.2 公平性模型
- 公平 XGBoost: 使用公平性懲罰的 XGBoost 模型。
- 公平 Logistic Regression: 使用公平性懲罰的 Logistic Regression 模型。
3.1.3 訓練設置
- 特征嵌入: 使用嵌入方法將類別特征轉換為數值特征。
- 類別不平衡: 使用過采樣方法來處理類別不平衡問題。
- 超參數調整: 使用 Optuna 庫進行貝葉斯優化,以找到最佳的超參數設置。
- 評估: 使用測試集評估模型的公平性和性能。
3.2 評估指標
3.2.1 公平性指標
- 人口統計學平等性 (Demographic Parity, DP): 該指標衡量模型對不同性別群體預測結果的差異。理想情況下,DP 應該為 0,表示模型對不同性別的用戶展示高級職位廣告的概率相同。
- 平等化機會 (Equal Opportunity): 該指標確保模型對不同性別群體預測正類結果的能力相同。然而,FairJob 論文沒有使用該指標,因為它可能導致更多對弱勢群體的誤分類。
- 平等化公平 (Equalized Odds): 該指標確保模型對不同性別群體預測正類和負類結果的能力相同。FairJob 論文也沒有使用該指標,因為它可能導致更多對弱勢群體的誤分類。
3.2.2 性能指標
- 負對數似然 (Negative Log-Likelihood, NLLH): 該指標衡量模型預測結果的準確度。NLLH 越低,模型的預測能力越強。
- ROC 曲線下面積 (Area Under the ROC Curve, AUC): 該指標衡量模型區分正類和負類結果的能力。AUC 越高,模型的預測能力越強。
- 點擊-排名效用 (Click-Rank Utility, U): 該指標衡量模型推薦廣告的點擊率。U 越高,模型推薦的廣告越受用戶歡迎。
- 產品-排名效用 (Product-Rank Utility, ?U): 該指標考慮了選擇偏差,衡量模型推薦廣告的點擊率。?U 越高,模型推薦的廣告越受用戶歡迎,并考慮了選擇偏差的影響。
3.3 實驗結果
- 基線模型: Dummy 模型在 DP 方面表現最佳,但在 NLLH 和 AUC 方面表現較差。XGBoost 模型在 NLLH 和 AUC 方面表現較好,但在 DP 方面表現較差。
- 公平性模型: 使用公平性懲罰的模型在 DP 方面表現有所提高,但 NLLH 方面有所下降。公平性懲罰的 Logistic Regression 模型在 DP 和 ?U 方面表現有所提高,同時 NLLH 方面下降較少。