上一章:機器學習核心知識點目錄
下一章:機器學習02——模型評估與選擇
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備
文章目錄
- 一、參考書推薦
- 二、機器學習的基本概念
- (一)核心定義
- 三、機器學習的基本術語
- (一)數據相關術語
- (二)任務類型
- (三)學習類型(按樣本是否有標記)
- (四)泛化能力
- (五)歸納偏好
- 四、機器學習系統的基本流程
- 五、機器學習的發展歷程
- 六、機器學習的應用領域
- 七、機器學習的參考資源
- (一)學術會議與期刊
一、參考書推薦
- 《機器學習》,周志華著,清華大學出版社,2016.1(第一版第35次印刷,2020年11月);
- 《機器學習理論導引》,周志華、王魏等著,機械工業出版社,2020.6;
- Machine Learning: A First Course for Engineers and Scientists,by Andreas Lindholm etc, Cambridge University Press, 2022。
二、機器學習的基本概念
(一)核心定義
機器學習致力于研究如何通過計算手段,利用經驗改善系統自身性能,其核心研究內容是從數據中產生“模型”的“學習算法”——即通過算法讓計算機從數據中學習規律,進而對新數據做出判斷或預測。
三、機器學習的基本術語
(一)數據相關術語
- 樣本:指待處理的個體,是機器學習的基本處理單位。
- 特性:指一類樣本構成的集合中所有樣本的共同屬性,也可理解為描述樣本的“特征”(如“瓜”的色澤、根蒂等)。
- 示例數據:文檔中以“瓜”為例,展示了包含編號、色澤、根蒂、敲聲、“好瓜”標簽的數據表格,其中“色澤”“根蒂”等是樣本的特征,“好瓜”是預測目標(標簽)。
(二)任務類型
根據預測目標的性質,機器學習任務可分為:
- 分類:預測離散值。例如“好瓜/壞瓜”屬于二分類,“冬瓜/南瓜/西瓜”屬于多分類;
- 回歸:預測連續值。例如預測“瓜的成熟度”(0-100的連續數值);
- 聚類:無需標記信息,自動將樣本劃分為不同群體(如根據瓜的特征將其分為不同品類,無需提前定義“好瓜”“壞瓜”)。
(三)學習類型(按樣本是否有標記)
- 監督學習:使用帶標記的樣本(如已知“好瓜/壞瓜”標簽的數據),主要任務為分類和回歸;
- 無監督學習:使用無標記的樣本(如只有瓜的特征,沒有“好瓜”標簽),主要任務為聚類;
- 半監督學習:結合有標記和無標記樣本,適用于標記數據稀缺的場景(如少量已知“好瓜”標簽,大量未知標簽的瓜數據)。
(四)泛化能力
- 定義:指模型適用于“新樣本”的能力,而非僅在訓練數據上表現良好;
- 假設前提:通常假設樣本服從未知分布D,且樣本獨立同分布(i.i.d.)——即新樣本與訓練樣本來自同一分布,且相互獨立;
- 關鍵影響:一般來說,訓練樣本數量越多,越容易學到具有強泛化能力的模型(避免“過擬合”,即模型只記住訓練數據,無法應對新數據)。
(五)歸納偏好
- 定義:學習算法在選擇模型時對某種類型假設的“偏好”,可理解為算法的“價值觀”;
- 典型原則:“奧卡姆剃刀”是常用原則,即“若多個假設與觀察一致,選擇最簡單的那個”(如用直線擬合數據比用復雜曲線更優先,前提是兩者均符合訓練樣本);
- 重要結論:“沒有免費的午餐”——不存在對所有問題都最優的算法,需根據具體問題選擇合適的歸納偏好。
四、機器學習系統的基本流程
機器學習系統的訓練過程主要包括以下環節:
- 信息獲取:通過傳感器將光、聲音等物理信息轉化為電信息(如將圖像、聲波、心電圖等轉化為計算機可處理的數據);
- 預處理:對數據進行清洗和轉換,包括A/D轉換(模擬信號轉數字信號)、二值化、平滑、濾波、增強等,目的是去除噪聲、統一格式;
- 特征選擇:從原始特征中篩選出對預測任務最關鍵的特征(如判斷“好瓜”時,“根蒂”可能比“色澤”更重要);
- 分類器設計:選擇或設計學習算法,基于處理后的 data 訓練模型(如用決策樹、神經網絡等算法訓練“好瓜判斷模型”);
- 分類決策:用訓練好的模型對新樣本進行預測(如判斷一個未知瓜是否為“好瓜”)。
五、機器學習的發展歷程
機器學習的發展可大致分為三個階段,各階段核心方法如下:
- 推理期(20世紀60-70年代):以符號主義學習為主,如決策樹、基于邏輯的學習(依賴手動設計規則);
- 知識期(20世紀80-90年代):連接主義學習(如早期神經網絡)和統計學習(如支持向量機、核方法)興起,開始結合數據驅動;
- 學習期(21世紀以來):連接主義學習復興并發展為深度學習(深度神經網絡),依托大數據和算力突破,在復雜任務(如圖像、語音)中表現優異。
六、機器學習的應用領域
機器學習已廣泛應用于多個領域,包括:
- 識別任務:字符識別(印刷體/手寫體OCR)、指紋識別、人臉識別、車牌識別等;
- 醫療健康:心電圖/腦電圖分析、癌細胞識別、疾病診斷(如肝炎專家系統);
- 環境與資源:遙感圖像處理(資源衛星、氣象衛星)、環保檢測(大氣、水源監測);
- 工業與制造:產品質量自動檢測、智能制造;
- 人機交互:語音識別(如電話號碼自動查詢)、機器翻譯;
- 其他領域:智能交通、智慧農業、軍事應用等。
七、機器學習的參考資源
(一)學術會議與期刊
- 頂級會議:機器學習領域包括ICML、ICLR、UAI等;模式識別與計算機視覺領域有相關專業會議;
- 核心期刊:如IEEE Transactions on Pattern Analysis and Machine Intelligence、Journal of Machine Learning Research、Machine Learning(Elsevier)等。
上一章:機器學習核心知識點目錄
下一章:機器學習02——模型評估與選擇
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備