機器學習作為人工智能的子領域,專注于訓練計算機算法自動發現數據中的模式與關聯關系。以下是其核心基礎概念:
4.1 數據
數據是機器學習的基石。缺乏數據,算法將無從學習。數據可呈現為結構化數據(如電子表格、數據庫)和非結構化數據(如文本、圖像)等形式。訓練數據的質量與數量對算法性能具有決定性影響。
4.2 特征
特征是描述輸入數據的變量或屬性。關鍵在于選擇最具相關性和信息量的特征,以確保算法做出準確預測或決策。特征選擇是機器學習流程中的核心環節,算法性能很大程度上取決于特征的質量與相關性。
4.3 模型
機器學習模型是輸入數據(特征)與輸出(預測或決策)之間關系的數學表征。模型通過訓練數據集構建,并經由獨立驗證數據集評估,其核心目標是能夠準確泛化至未知的新數據。
4.4 訓練
訓練是教導算法進行準確預測的過程。通過提供大規模數據集,使算法學習數據中的模式與關聯。在此過程中,算法通過調整內部參數來縮小預測輸出與實際結果之間的差距。
4.5 測試
測試用于評估算法在未知數據集上的性能表現,旨在驗證其泛化能力。若在測試集上表現良好,則表明模型構建成功。
4.6 過擬合
當模型過于復雜且過度貼合訓練數據時會出現過擬合。這將導致模型在未知數據上表現不佳,因其過度特化于訓練集。為防止過擬合,需采用驗證集評估性能,并運用正則化技術簡化模型。
4.7 欠擬合
當模型過于簡單無法捕捉數據中的模式時會產生欠擬合。這將導致訓練集和測試集上的雙重表現不佳。改進技術包括增加模型復雜度、收集更多數據、降低正則化強度以及特征工程。
需注意,預防欠擬合需要在模型復雜度與數據量之間尋求平衡。增加模型復雜度可緩解欠擬合,但若數據量不足,反而可能引發過擬合。因此必須持續監控模型性能并動態調整復雜度。
4.8 機器學習的需求場景
除已知需求外,還需明確何時需要讓機器進行學習。以下場景中采用機器學習尤為高效:
(1)人類專家缺失
在缺乏人類專業知識的領域(例如未知領域或外星探測導航),需依靠機器進行數據驅動決策。
(2)動態環境
對于網絡連接、基礎設施可用性等持續變化的場景,需要機器通過自主學習適應動態變化。
(3)難以轉化為計算任務
在語音識別、認知任務等人類具備專業知識但無法轉化為計算任務的領域,機器學習成為必然選擇。
4.9 機器學習模型定義
參考Mitchell教授的形式化定義:
"若計算機程序在任務T上的性能指標P隨著經驗E積累而提升,則稱該程序具有學習能力。"
該定義聚焦三個核心參數(也是學習算法的主要構成):
(1)任務(T)
(2)性能(P)
(3)經驗(E)
可簡化為:機器學習是由學習算法構成的AI領域,這些算法能夠:
? 在特定任務(T)上
? 隨著經驗(E)積累
? 持續提升性能(P)
基于此定義,下圖展示了機器學習模型的基本框架:
??
機器學習核心三要素詳解
以下我們對任務(T)、經驗(E)和性能(P)進行深入解析:
(1)任務(T)
從問題視角看,任務T可定義為待解決的實際問題,例如預測某地最優房價或制定最佳營銷策略等。然而在機器學習范疇中,任務的定義具有特殊性——因其往往無法通過傳統編程方法解決。
當任務需要基于特定流程處理數據點且系統必須遵循該流程時,即可稱為機器學習任務。典型類型包括:
1)分類(Classification)
2)回歸(Regression)
3)結構化標注(Structured annotation)
4)聚類(Clustering)
5)轉錄(Transcription)
(2)經驗(E)
指算法或模型從數據點中獲取的知識。給定數據集后,模型通過迭代運行學習內在規律,由此獲得的知識即為經驗(E)。類比人類學習:如同人們從情境、關聯等多元屬性中汲取經驗,機器學習亦通過監督學習、無監督學習和強化學習等方式積累經驗。這些經驗將用于解決任務T。
(3)性能(P)
機器學習算法隨時間推移執行任務并積累經驗,其表現是否符合預期需要通過性能(P)來衡量。P是量化指標,用于評估模型如何運用經驗(E)完成任務(T)。常用評估指標包括:
1)準確率(Accuracy score)
2)F1分數(F1 score)
3)混淆矩陣(Confusion matrix)
4)精確率(Precision)
5)召回率(Recall)
6)敏感度(Sensitivity)