Python-機器學習概述

??一、人工智能三大概念??

  1. ??人工智能(AI)??

    • 定義:使用計算機模擬或代替人類智能的研究領域

    • 目標:像人類一樣思考(理性推理)、行動(決策執行)

    • 別名:仿智

  2. ??機器學習(ML)??

    • 定義:從數據中??自動學習規律??(模型),并用模型預測新數據

    • 核心:基于模型自動學習(非人工規則編程)

    • 示例:房價預測模型 y = ax + b(a、b為模型參數)

  3. ??深度學習(DL)??

    • 定義:模擬人腦神經元的??深度神經網絡??,通過多層結構學習復雜規律

    • 特點:從機器學習發展而來,適合圖像、語音等復雜任務

  4. ??三者關系??

機器學習是實現人工智能的一種途徑,深度學習是機器學習的一種方法


??二、機器學習的應用領域與發展史??

??應用領域??
  • ??計算機視覺(CV)??:圖像/視頻理解(如人臉識別)

  • ??自然語言處理(NLP)??:文本分析、機器翻譯

  • ??數據挖掘??:從大數據中發現隱藏規律

??發展史??
  • ??1956年??:AI元年

  • ??2012年??:AlexNet引爆深度學習(CV領域)

  • ??2017年??:Transformer框架推動NLP發展

  • ??2022年??:ChatGPT開啟AIGC時代

??三要素??
  • ??數據??:模型訓練的基礎

  • ??算法??:解決問題的數學方法

  • ??算力??:硬件支持(CPU/GPU/TPU)

    • CPU:適合I/O密集型任務

    • GPU:適合計算密集型任務(如神經網絡訓練)


??三、機器學習常用術語??

術語

說明

示例

??樣本??

數據集中的一行數據(一條記錄)

西瓜數據集中的一條

??特征??

描述樣本的屬性(一列數據)

西瓜的色澤、根蒂

??標簽??

待預測的目標值

西瓜是否是好瓜(0/1)

??訓練集??

用于訓練模型的數據(70-80%)

x_train, y_train

??測試集??

用于評估模型的數據(20-30%)

x_test, y_test


??四、機器學習算法分類??

1. ??監督學習??(數據含標簽)
  • ??回歸??:預測連續值(如房價)

  • ??分類??:預測離散類別(如是否垃圾郵件)

2. ??無監督學習??(數據無標簽)
  • ??聚類??:按樣本相似性分組(如用戶分群)

3. ??半監督學習??
  • 少量標注數據 + 大量未標注數據,降低標注成本

4. ??強化學習??
  • 智能體通過??環境交互??獲取獎勵(如AlphaGo、自動駕駛)

  • 四要素:Agent, Environment, Action, Reward


??五、機器學習建模流程?

  1. ??數據預處理??:處理缺失值、異常值

  2. ??特征工程??(核心耗時步驟):

    • 特征提取 → 特征預處理 → 特征降維 → 特征選擇 → 特征組合

  3. ??模型訓練??:選擇算法(如線性回歸、決策樹)

  4. ??模型評估??:

    • 回歸:均方誤差(MSE)

    • 分類:準確率、召回率


??六、特征工程詳解??

??目標??:提升模型效果,是影響模型上限的關鍵

??原則??:數據和特征 > 模型算法

步驟

作用

??特征提取??

從原始數據構造特征向量(如文本轉詞向量)

??特征預處理??

標準化/歸一化,消除特征量綱影響(如MinMax縮放)

??特征降維??

降低特征維度,保留主要信息(如PCA)

??特征選擇??

篩選與任務相關的特征子集(不修改原始數據)

??特征組合??

合并特征(如乘法/加法),增強表達能力(如組合“面積×位置”預測房價)


??七、模型擬合問題??

問題

表現

原因

解決方案

??欠擬合??

訓練集和測試集效果均差

模型過于簡單

增加特征、增強模型復雜度

??過擬合??

訓練集效果好,測試集效果差

模型復雜/數據噪聲多

簡化模型、正則化、增加數據量

??核心概念??
  • ??泛化能力??:模型在??新數據??上的表現(最終目標)

  • ??奧卡姆剃刀原則??:相同效果下,選擇更簡單的模型


??八、開發環境??

  • ??工具??:scikit-learn(Python庫)

    • 特點:

      • 基于NumPy/SciPy/matplotlib

      • 開源,支持分類/回歸/聚類等算法

    • 安裝:pip install scikit-learn

    • 官網:https://scikit-learn.org


??關鍵總結??

  1. ??學習方式??:

    • 規則編程(人工定義邏輯) → 機器學習(自動學習模型)

  2. ??核心鏈路??:

    數據 → 特征工程 → 模型訓練 → 評估優化

  3. ??避坑指南??:

    • 優先解決特征工程,再優化模型

    • 模型選擇:簡單模型優先,避免過擬合

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/94556.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/94556.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/94556.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

GIT壓縮提交,將多個已經push的commit提交,合并成一個

1.選中要合并的提交2.選中后右鍵選著Squash Committs3.重新編輯提交信息4.操作完成后不能pull,要強制pushgit push --force

(多線程)線程安全和線程不安全 產生的原因 synchronized關鍵字 synchronized可重入特性死鎖 如何避免死鎖 內存可見性

線程安全問題產生原因 線程安全問題主要發生在多線程環境下,當多個線程同時訪問共享資源時, 如果沒有采取適當的同步措施,就可能導致數據不一致或程序行為異常1.[根本]操作系統對于線程的調度是隨機的.搶占式執行,這是線程安全問題…

defineCustomElement 的局限性及重載需求分析

一、defineCustomElement 的核心局限性 Vue 的 defineCustomElement 雖然實現了 Vue 組件到 Web Components 的轉換,但在跨框架/跨語言場景下存在以下關鍵局限,這也是你的項目需要重載其返回構造器的根本原因: 1. 框架間事件模型不兼容 Vue 事件機制:依賴 $emit 轉換的 C…

如何在前端開發中應用AI技術?

一、AI 輔助前端開發流程(提效工具)智能代碼生成與補全使用 AI 編程工具(如 GitHub Copilot、Cursor、Amazon CodeWhisperer)實時生成代碼片段,支持 HTML、CSS、JavaScript、React/Vue 等框架語法。例如,輸…

極海發布APM32F425/427系列高性能MCU:助力工業應用升級

聚焦工業4.0及能源管理應用對主控MCU的高性能需求,極海正式發布APM32F425/427系列高性能拓展型MCU,集合運算性能、ADC性能、Flash控制器性能與通信接口四大維度革新,進一步增強了EMC性能,重新定義Cortex-M4F內核在復雜工業場景下的…

JSX深度解析:不是HTML,勝似HTML的語法糖

JSX深度解析:不是HTML,勝似HTML的語法糖 作者:碼力無邊大家好!我是依然在代碼世界里乘風破浪的碼力無邊。歡迎回到我們的《React奇妙之旅》第二站! 在上一篇文章中,我們成功地用Vite啟動了第一個React應用&…

大模型應用新趨勢:從思維鏈到 HTML 渲染的破局之路

一、大模型交互范式的演進:從 Prompt 工程到思維鏈革新早期的 Prompt 工程曾面臨 “模型特異性” 困境 —— 精心設計的提示詞在不同模型上效果迥異。但隨著 ** 思維鏈(CoT)** 技術的成熟,這一局面正在改變。從 OpenAI o1 的隱式整…

從“找不到”到“秒上手”:金倉文檔系統重構記

你是否曾在浩如煙海的產品手冊中迷失方向?是否為了一個關鍵參數翻遍十幾頁冗余說明?是否對時靈時不靈的搜索功能感到抓狂?甚至因為漫長的加載時間而失去耐心?我們懂你!這些曾困擾金倉用戶的文檔痛點,從現在起&#xff…

【開源項目分享】可監控電腦CPU、顯卡、內存等硬件的溫度、功率和使用情況

系列文章目錄 【開源項目分享】可監控電腦CPU、顯卡、內存等硬件的溫度、功率和使用情況 (一)開源的硬件監控工具 LibreHardwareMonitor (二)LibreHardwareMonitor 分層架構設計 (三)LibreHardwareMonitor…

帕累托優化:多目標決策的智慧與藝術

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術! 在相互沖突的目標中尋找最優平衡 ? 1. 帕累托優化概述 帕累托優化&a…

#Linux內存管理學以致用# 請你根據linux 內核struct page 結構體的雙字對齊的設計思想,設計一個類似的結構體

Linux struct page 的雙字對齊設計思想1.雙字對齊(8字節對齊):確保struct page的大小是sizeof(long)的整數倍(通常8字節),便于CPU高效訪問。減少內存碎片,提高緩存行(Cache Line&…

白酒變局,透視酒企穿越周期之道

今年以來,在科技股的帶動下,A股市場表現十分突出,近期滬指甚至創出了十年來新高。然而,在這輪市場的表現中,曾經被資金熱捧的白酒板塊,卻顯得有些沉寂。業績層面,從目前已披露的白酒上市公司半年…

智慧園區:從技術賦能到價值重構,解鎖園區運營新范式

在數字化浪潮席卷產業的當下,智慧園區已從 “概念藍圖” 落地為 “實戰方案”,其核心邏輯既源于技術的突破性應用,也扎根于企業的實際需求,更順應著行業發展的未來趨勢,成為驅動園區從傳統管理向智能化運營升級的核心引…

模運算(密碼學/算法)

1 什么是模運算 模運算的概念 模運算是一種算術運算,常寫作a mod n,表示整數a除以正整數n后的余數。 模數是模運算中的除數n,它決定了結果的范圍。 公式表達: 對于任意整數a和正整數n,可以將a表示為:a qn …

海康相機的 HB 模式功能詳解

海康相機的 HB 模式是一種無損壓縮技術,全稱為High Bandwidth 模式,主要用于提升工業相機在高速場景下的數據傳輸效率。其核心原理是通過硬件級無損壓縮算法對原始圖像數據進行壓縮,在不損失畫質的前提下減少數據量,從而突破千兆網絡的帶寬限制,實現更高的行頻和傳輸幀率。…

electron應用開發:命令npm install electron的執行邏輯

我們來徹底解析 npm install electron 這個命令背后的完整執行邏輯。這是一個非常精妙的過程,遠不止下載一個簡單的 JavaScript 包那么簡單。理解了它,你就能透徹地明白 Electron 開發環境的運作原理,并能輕松解決各種安裝問題。 npm instal…

Visual Studio 2022不同項目設置不同背景圖

ClaudiaIDE Visual Studio 地址:https://marketplace.visualstudio.com/items?itemNamekbuchi.ClaudiaIDE&ssrfalse#overviewgithub 地址:https://github.com/buchizo/ClaudiaIDE/ 這是一個Visual Studio擴展,可以讓你設置自定義背景圖…

React頁面使用ant design Spin加載遮罩指示符自定義成進度條的形式

React頁面使用ant design Spin加載遮罩指示符自定義成進度條的形式具體實現:import React, { useState, useEffect, } from react; import { Spin, Progress, } from antd; import styles from ./style.less;const App () > {// 全局加載狀態const [globalLoadi…

TCP并發服務器構建

TCP并發服務器構建: 單循環服務器:服務端同一時刻只能處理單個客戶端的任務 并發服務器:服務端同一時刻能夠處理多個客戶端的任務 產生多個套接字可建立多個連接:TCP服務端并發模型: 1:使用多進程 頭文件&a…

優選算法-常見位運算總結

1.基礎位運算: >> :右移運算符: 邏輯右移(無符號數):高位補 0,低位直接丟棄。 示例:8 >> 2(二進制 1000 右移 2 位)結果為 0010(十進制 2&#…