【雜談】-因果性：開啟機器學習新紀元？

文章目錄

因果性：開啟機器學習新紀元？
- 一、機器學習的現狀與局限
- 二、因果性的定義與意義
- - （一）日常生活中的因果性案例
  - （二）相關性與因果性的區別
- 三、現有機器學習模型的困境與因果性的價值
- - （一）提升泛化能力
  - （二）增強可解釋性
  - （三）支持反事實推理
- 四、機器學習的實際應用與因果推斷技術
- - （一）醫療領域
  - （二）金融領域
  - （三）社會科學領域
  - （一）結構因果模型（SCM）
  - （二）珀爾的因果層次結構
  - （三）有向無環圖（DAGs）
  - （一）魯賓因果模型
  - （二）“做”運算（do-calculus）
  - （三）反事實分析
- 五、因果機器學習面臨的挑戰
- - （一）數據匱乏
  - （二）計算復雜性
  - （三）因果關系識別難題
- 六、因果發現與自動化因果學習的進展
- 七、引領因果 AI 創新的公司和研究實驗室
- - （一）微軟的 DoWhy
  - （二）Facebook 的 CausalML
  - （三）谷歌 AI
- 八、因果機器學習的未來展望
- 九、因果 AI 的倫理和社會影響
- - （一）減少偏見
  - （二）濫用風險

因果性：開啟機器學習新紀元？

在當今時代，機器學習憑借其卓越的預測能力席卷了各行各業。然而，其發展進程中遭遇的瓶頸也促使人們思考：因果性能否成為機器學習邁向下一階段的關鍵突破？對于那些沒有深厚數學背景的人來說，可能對因果性在機器學習領域的重要性感到困惑。當初次接觸“因果性”這一概念時，筆者也曾對其在機器學習中的關鍵作用感到迷茫。本文將深入探討因果性與機器學習結合的潛力以及面臨的挑戰。

一、機器學習的現狀與局限

機器學習賦予了計算機從海量數據中自主學習并做出精準決策與預測的能力，無需進行繁瑣的編程操作。傳統的機器學習路徑要求從業者精通軟件編程，從而能夠編寫復雜的算法。這無疑需要投入大量的時間、精力和人力資源。

但如今，構建機器學習模型的方式日益多樣化。團隊能夠在更短的時間內，以更低的成本甚至無需深厚的編碼知識，快速訓練和部署模型。現代的機器學習主要依賴大數據來挖掘模式，從而實現預測功能。不過，當前大多數模型都局限于相關性分析，即僅僅識別變量之間的關聯，卻無法揭示背后的因果機制。

二、因果性的定義與意義

因果性描述了一種事件（因）如何導致另一事件（果）發生的關聯。例如，吸煙會增加患肺癌的風險，這就是典型的因果關系。與相關性不同，因果性更能深刻地解釋現象背后的本質驅動因素。

（一）日常生活中的因果性案例

在日常生活中，因果性的示例無處不在。比如，接種疫苗可以降低患病幾率，增加運動量有助于改善心血管健康。盡管相關性可能會提供一些線索，但只有通過因果推斷，我們才能確切知曉某個事件發生的真正原因。

（二）相關性與因果性的區別

“相關性并不意味著因果性”這一統計學和機器學習領域的重要原則表明，雖然兩個變量可能在表面上呈現出相關性，但這并不意味著其中一個變量的變化會直接導致另一個變量的變化。例如，冰淇淋銷量和溺水事故呈正相關，但實際上二者之間的聯系僅僅是因為夏季氣溫升高。從數學角度來看，因果性需要基于干預分析，即通過假設性的改變來觀察系統的反應，以此確定因果關系。