機器學習01——機器學習概述

上一章:機器學習核心知識點目錄
下一章:機器學習02——模型評估與選擇
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備

文章目錄

      • 一、參考書推薦
      • 二、機器學習的基本概念
        • (一)核心定義
      • 三、機器學習的基本術語
        • (一)數據相關術語
        • (二)任務類型
        • (三)學習類型(按樣本是否有標記)
        • (四)泛化能力
        • (五)歸納偏好
      • 四、機器學習系統的基本流程
      • 五、機器學習的發展歷程
      • 六、機器學習的應用領域
      • 七、機器學習的參考資源
        • (一)學術會議與期刊

一、參考書推薦

  1. 《機器學習》,周志華著,清華大學出版社,2016.1(第一版第35次印刷,2020年11月);
  2. 《機器學習理論導引》,周志華、王魏等著,機械工業出版社,2020.6;
  3. Machine Learning: A First Course for Engineers and Scientists,by Andreas Lindholm etc, Cambridge University Press, 2022。

二、機器學習的基本概念

(一)核心定義

機器學習致力于研究如何通過計算手段,利用經驗改善系統自身性能,其核心研究內容是從數據中產生“模型”的“學習算法”——即通過算法讓計算機從數據中學習規律,進而對新數據做出判斷或預測。

三、機器學習的基本術語

(一)數據相關術語
  • 樣本:指待處理的個體,是機器學習的基本處理單位。
  • 特性:指一類樣本構成的集合中所有樣本的共同屬性,也可理解為描述樣本的“特征”(如“瓜”的色澤、根蒂等)。
  • 示例數據:文檔中以“瓜”為例,展示了包含編號、色澤、根蒂、敲聲、“好瓜”標簽的數據表格,其中“色澤”“根蒂”等是樣本的特征,“好瓜”是預測目標(標簽)。
(二)任務類型

根據預測目標的性質,機器學習任務可分為:

  • 分類:預測離散值。例如“好瓜/壞瓜”屬于二分類,“冬瓜/南瓜/西瓜”屬于多分類;
  • 回歸:預測連續值。例如預測“瓜的成熟度”(0-100的連續數值);
  • 聚類:無需標記信息,自動將樣本劃分為不同群體(如根據瓜的特征將其分為不同品類,無需提前定義“好瓜”“壞瓜”)。
(三)學習類型(按樣本是否有標記)
  • 監督學習:使用帶標記的樣本(如已知“好瓜/壞瓜”標簽的數據),主要任務為分類和回歸;
  • 無監督學習:使用無標記的樣本(如只有瓜的特征,沒有“好瓜”標簽),主要任務為聚類;
  • 半監督學習:結合有標記和無標記樣本,適用于標記數據稀缺的場景(如少量已知“好瓜”標簽,大量未知標簽的瓜數據)。
(四)泛化能力
  • 定義:指模型適用于“新樣本”的能力,而非僅在訓練數據上表現良好;
  • 假設前提:通常假設樣本服從未知分布D,且樣本獨立同分布(i.i.d.)——即新樣本與訓練樣本來自同一分布,且相互獨立;
  • 關鍵影響:一般來說,訓練樣本數量越多,越容易學到具有強泛化能力的模型(避免“過擬合”,即模型只記住訓練數據,無法應對新數據)。
(五)歸納偏好
  • 定義:學習算法在選擇模型時對某種類型假設的“偏好”,可理解為算法的“價值觀”;
  • 典型原則:“奧卡姆剃刀”是常用原則,即“若多個假設與觀察一致,選擇最簡單的那個”(如用直線擬合數據比用復雜曲線更優先,前提是兩者均符合訓練樣本);
  • 重要結論:“沒有免費的午餐”——不存在對所有問題都最優的算法,需根據具體問題選擇合適的歸納偏好。

四、機器學習系統的基本流程

機器學習系統的訓練過程主要包括以下環節:

  1. 信息獲取:通過傳感器將光、聲音等物理信息轉化為電信息(如將圖像、聲波、心電圖等轉化為計算機可處理的數據);
  2. 預處理:對數據進行清洗和轉換,包括A/D轉換(模擬信號轉數字信號)、二值化、平滑、濾波、增強等,目的是去除噪聲、統一格式;
  3. 特征選擇:從原始特征中篩選出對預測任務最關鍵的特征(如判斷“好瓜”時,“根蒂”可能比“色澤”更重要);
  4. 分類器設計:選擇或設計學習算法,基于處理后的 data 訓練模型(如用決策樹、神經網絡等算法訓練“好瓜判斷模型”);
  5. 分類決策:用訓練好的模型對新樣本進行預測(如判斷一個未知瓜是否為“好瓜”)。

五、機器學習的發展歷程

機器學習的發展可大致分為三個階段,各階段核心方法如下:

  • 推理期(20世紀60-70年代):以符號主義學習為主,如決策樹、基于邏輯的學習(依賴手動設計規則);
  • 知識期(20世紀80-90年代):連接主義學習(如早期神經網絡)和統計學習(如支持向量機、核方法)興起,開始結合數據驅動;
  • 學習期(21世紀以來):連接主義學習復興并發展為深度學習(深度神經網絡),依托大數據和算力突破,在復雜任務(如圖像、語音)中表現優異。

六、機器學習的應用領域

機器學習已廣泛應用于多個領域,包括:

  • 識別任務:字符識別(印刷體/手寫體OCR)、指紋識別、人臉識別、車牌識別等;
  • 醫療健康:心電圖/腦電圖分析、癌細胞識別、疾病診斷(如肝炎專家系統);
  • 環境與資源:遙感圖像處理(資源衛星、氣象衛星)、環保檢測(大氣、水源監測);
  • 工業與制造:產品質量自動檢測、智能制造;
  • 人機交互:語音識別(如電話號碼自動查詢)、機器翻譯;
  • 其他領域:智能交通、智慧農業、軍事應用等。

七、機器學習的參考資源

(一)學術會議與期刊
  • 頂級會議:機器學習領域包括ICML、ICLR、UAI等;模式識別與計算機視覺領域有相關專業會議;
  • 核心期刊:如IEEE Transactions on Pattern Analysis and Machine IntelligenceJournal of Machine Learning ResearchMachine Learning(Elsevier)等。

上一章:機器學習核心知識點目錄
下一章:機器學習02——模型評估與選擇
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/96268.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/96268.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/96268.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Shell編程:檢測主機ip所在網段內其他在線ip

一、邏輯設計獲取本機 ip 及 網段循環檢測網段內所有 ip判斷 ping 結果,符合條件的輸出相關信息二、代碼展示#!/bin/bash#獲取本機ip local_iphostname -I #local_ipip addr| grep "inet "|grep -v 127.0.0.1| awk {print $2}#獲取本機網段 networkecho $…

Windows安裝Chroma DB

安裝步驟 安裝python 3.8或以上的版本創建虛擬環境:python -m venv chroma_env激活虛擬環境:.\chroma_env\Scripts\activate安裝Chroma DB:pip install chromadb(可選)安裝擴展功能:pip install sentence-transformers pypdf tikt…

李彥宏親自說

昨天,李彥宏親自說:百度的數字人直播以假亂真,很多人是看不出這是數字人,而且轉化率很高”這幾個月百度一直在推“數字人”不再強調“大模型”了。數字人是AI落地最適合企業的一款產品,一般用于客服、面試、直播帶貨等…

JS 中bind、call、apply的區別以及手寫bind

1.作用call、apply、bind作用是改變函數執行的上下文,簡而言之就是改變函數運行時的this指向那么什么情況下需要改變this的指向呢?下面舉個例子var name "lucy"; var obj {name: "martin",say: function () {console.log(this.nam…

vue2(7)-單頁應用程序路由

1.單頁應用程序如 單頁:網易云,多頁:京東單頁應用程序,之所以開發效率高,性能高,用戶體驗好最大的原因是:頁面按需更新 要按需更新,就要明確訪問路徑和組件的關系這時候就要用…

vue中通過heatmap.js實現熱力圖(多個熱力點)熱區展示(帶鼠標移入彈窗)

直接上完整代碼&#xff01;記錄實現方式 注意heatmap.min.js需要通過heatmap.js提供的下載地址進行下載&#xff0c;地址放在下邊 url&#xff1a;heatmap GIT地址 <template><div class"heatmap-view" ref"heatmapContainer"></div&g…

配置Kronos:k線金融大模型

github地址 網頁btc預測demo使用的Kronos-mini模型 huggingface的倉庫 文章目錄配置環境安裝python環境獲取市場數據的庫通過webui使用example中的例子prediction_example.py補充說明根據原例優化的代碼CryptoDataFetcher單幣對多周期預測配置環境 使用conda的環境. 首先進行換…

【Deep Learning】Ubuntu配置深度學習環境

【start: 250715】 文章目錄ubuntu與深度學習安裝cuda查看顯卡信息&#xff08;nvidia-smi&#xff09;升級驅動下載cuda安裝conda安裝anaconda默認指向自己的conda初始化conda確認 conda.sh 被加載安裝cuda-toolkit直接安裝cuda-toolkit&#xff08;高級的&#xff09;安裝高于…

車載數據采集(DAQ)解析

<摘要> 車載數據采集&#xff08;DAQ&#xff09;軟件模塊是現代汽車電子系統的核心組件&#xff0c;負責實時采集、處理、記錄和傳輸車輛運行數據。本文系統解析了DAQ模塊的開發&#xff0c;涵蓋其隨著汽車智能化演進的歷史背景&#xff0c;深入闡釋了信號、協議、緩存等…

強化學習框架Verl運行在單塊Tesla P40 GPU配置策略及避坑指南

1.前言 由于比較窮,身邊只有1塊10年前的Tesla P40 GPU卡(2016年9月發布),想利用起來學習強化學習框架Verl。程序員學習開源代碼,大部分人的第一直覺不是分析模塊組成,而是跑起來試試,然后去debug一下后面的運行邏輯。 由于在官方部署指導文檔中并未指明跑通Verl的最低…

leetcode169.多數元素

題目描述給定一個大小為 n 的數組 nums &#xff0c;返回其中的多數元素。多數元素是指在數組中出現次數 大于 ? n/2 ? 的元素。你可以假設數組是非空的&#xff0c;并且給定的數組總是存在多數元素。題目解法博耶-摩爾多數投票算法&#xff08;英語&#xff1a;Boyer–Moore…

基于機器學習的P2P網貸平臺信用違約預測模型

使用平臺提供的借款人信息&#xff08;年齡、收入、歷史信用等&#xff09;和借款信息&#xff0c;構建一個二分類模型來預測借款人是否會違約。重點解決類別不平衡問題和模型可解釋性。邏輯回歸、隨機森林、XGBoost、SMOTE過采樣、模型評估&#xff08;AUC, KS, F1-Score&…

豆瓣網影視數據分析與應用

源碼鏈接&#xff1a;點擊下載源碼 相關文檔&#xff1a;點擊下載相關文檔 摘 要 隨著互聯網的快速發展&#xff0c;豆瓣網作為一個綜合性的影視評分和評論平臺&#xff0c;積累了大量的用戶數據&#xff0c;這些數據為影視分析提供了豐富的素材。借助Hadoop這一大數據處理框…

四、計算機網絡與分布式系統(中)

一、局域網與廣域網1、局域網&#xff08;1&#xff09;定義將有限地理范圍內的多臺計算機通過傳輸媒體連接&#xff0c;借助網絡軟件實現設備間通信與資源共享的通信網絡&#xff08;2&#xff09;特點1.地理范圍小&#xff1a;通常為數百米至數公里內。2.傳輸速率高&#xff…

Python 面向對象實戰:私有屬性與公有屬性的最佳實踐——用線段類舉例

描述 在繪圖軟件、GIS、CAD 或簡單的圖形編輯器中&#xff0c;線段&#xff08;Segment&#xff09;是非常基礎的對象。每個線段有兩個端點&#xff08;x1,y1&#xff09;和&#xff08;x2,y2&#xff09;。在實現時我們通常希望&#xff1a; 封裝端點數據&#xff08;防止外部…

流式細胞術樣本處理全攻略(一):組織、血液、體液制備方法詳解

摘要 流式細胞術作為多參數、高通量的細胞分析技術,在細胞表型鑒定、免疫反應研究、疾病機制探索及藥物效果評估中發揮關鍵作用。而樣本制備是流式實驗成功的核心前提,需將不同來源樣本處理為單顆粒懸液,并最大程度減少細胞死亡與碎片干擾。本文針對組織、外周血 / 骨髓、體…

【C#】理解.NET內存機制:堆、棧與裝箱拆箱的底層邏輯及優化技巧

文章目錄前言一、棧與堆1.1 棧&#xff08;Stack&#xff09;1.1.1 基本信息1.1.2 特點1.2 堆&#xff08;Heap&#xff09;1.2.1 基本信息1.2.2 特點1.3 從代碼中窺見堆棧二、裝箱與拆箱2.1 裝箱2.2 拆箱2.3 如何避免不必要的裝箱與拆箱2.3.1 泛型集合2.3.2 泛型參數總結前言 …

人工智能學習:Transformer結構中的子層連接(Sublayer Connection)

Transformer結構中的子層連接(Sublayer Connection) 一、子層連接介紹 概念 子層連接(Sublayer Connection),也稱為殘差連接(Residual Connection),是Transformer模型中的一個關鍵設計,用于將多個子層(如自注意力層和前饋全連接層)組合在一起。它通過殘差連…

解鎖Roo Code的強大功能:深入理解上下文提及(Context Mentions)

在AI使用中&#xff0c;我們經常需要AI或AI工具描述代碼中的某個具體部分。但如果工具能直接“看到”所指的代碼、錯誤信息甚至終端輸出&#xff0c;協作效率會不會大幅提升&#xff1f;這正是 Roo Code 的“上下文提及&#xff08;Context Mentions&#xff09;”功能所要實現…

第5篇、 Kafka 數據可靠性與容錯機制

在分布式消息隊列系統中&#xff0c;數據可靠性 與 容錯能力 是核心指標。Kafka 作為高吞吐、可擴展的流式處理平臺&#xff0c;依靠副本復制、Leader 選舉和 ISR 機制&#xff0c;保證了在節點故障時消息依然能夠可靠傳輸與消費。 &#x1f4da; 目錄 理論基礎 一、數據復制…