【機器學習】建模流程

1、數據獲取

1.1 來源

數據獲取是機器學習建模的第一步,常見的數據來源包括數據庫、API、網絡爬蟲等。

  1. 數據庫是企業內部常見的數據存儲方式,例如:MySQL、Oracle等關系型數據庫,以及MongoDB等非關系型數據庫,它們能夠存儲大量的結構化和非結構化數據
  2. API(應用程序編程接口)提供了從外部獲取數據的便捷方式,例如:社交媒體平臺的API可以獲取用戶發布的內容和互動信息
  3. 網絡爬蟲則適用于從網頁中提取數據,通過模擬瀏覽器行為獲取網頁內容并解析提取有用信息

1.2 解釋

在實際應用中,

  1. 通過電商平臺的數據庫查詢用戶的基本信息、購買歷史、瀏覽記錄等數據
  2. 利用API可以獲取平臺開放的某些數據,如商品評價、推薦商品等
  3. 對于未開放的數據,可能需要使用網絡爬蟲在遵守法律法規和網站規則的前提下,爬取商品詳情頁、用戶評論等信息,從而豐富用戶行為數據集

2、數據預處理

2.1 缺失值處理

在實際數據收集過程中,數據缺失是常見問題。缺失值處理的方法包括刪除缺失樣本或用均值/中位數填充。

  1. 當缺失值占比較小數據量足夠大時,刪除缺失樣本可以避免數據不完整對模型訓練的影響
  2. 如果缺失值較多,刪除可能導致數據量不足,此時可以使用均值或中位數填充

例如,對于數值型數據如收入、年齡等,可以用該特征的均值或中位數來填充缺失值,以保持數據的完整性

2.2 異常值檢測

異常值可能對模型訓練產生負面影響,因此需要進行檢測和處理。箱線圖是一種常用的異常值檢測工具,它通過計算數據的四分位數=和異常范圍來識別異常值。在箱線圖中,正常數據分布在箱體和須之間,超出須范圍的數據點則被視為異常值。

例如,在分析房屋價格數據時,若某個樣本的價格遠高于其他類似房屋的價格,可能被判定為異常值。對于這些異常值,可以采取刪除、修正或分組處理等方式,以確保數據的質量。

3、特征工程

3.1 特征提取

特征提取是從原始數據中提取有用信息并轉化為適合模型輸入的過程。對于文本數據,常用的方法是將其轉為詞頻矩陣,如TF-IDF詞頻-逆文檔頻率)。TF-IDF能夠反映一個詞在文檔中的重要程度,通過計算每個詞在文檔中的出現頻率與在整個語料庫中的逆文檔頻率的乘積,得到一個權重矩陣。

例如,在文本分類任務中,將新聞文章轉換為TF-IDF矩陣,作為模型的輸入特征。

3.2 特征組合

特征組合是通過將多個特征進行數學運算生成新的特征,以更好地描述數據的內在關系。特征組合可以增加模型的表達能力,提高預測準確性。

例如,在房地產數據中,將房屋的面積和單價相乘生成總價這一新特征,這可能比單獨使用面積或單價更能反映房屋的價值。

3.2 特征降維

當數據的維度較高時,特征降維可以降低數據的復雜度提高模型的效率。PCA(主成分分析)是一種常用的線性降維方法,它通過找到數據中方差最大的幾個方向(主成分),將數據投影到這些方向上,從而實現降維。

例如,對于高維的圖像數據,使用PCA可以將其降至二維,便于可視化和分析,同時保留數據的主要特征。

4、模型訓練

4.1 算法選擇

根據問題的類型選擇合適的算法:

  1. 對于回歸問題,如預測明日氣溫,可以選擇線性回歸算法。線性回歸假設因變量與自變量之間存在線性關系,通過擬合一條直線來預測目標值
  2. 對于分類問題,如判斷腫瘤是良性或惡性,可以選擇邏輯回歸算法。邏輯回歸雖然名字中有“回歸”,但實際上是一種分類算法,它通過 sigmoid 函數將線性組合的輸出映射到 0 和 1 之間,從而實現分類

4.2 超參數調優

超參數是模型在訓練之前需要設定的參數,它們對模型的性能有重要影響。網格搜索是一種常用的超參數調優方法,它通過在預設的超參數范圍內進行窮舉搜索,找到使模型性能最優的超參數組合。

例如,在訓練神經網絡時,學習率和迭代次數是重要的超參數,通過網格搜索可以找到最佳的學習率和迭代次數,以提高模型的收斂速度和準確性。

5、模型評估

5.1 指標

根據問題類型選擇合適的評估指標:

  1. 對于回歸問題,常用的指標是均方誤差MSE),它計算預測值與真實值之間的平方誤差的平均值,反映了模型預測的準確性
  2. 對于分類問題,常用的指標包括準確率F1 分數等。
    • 準確率是正確預測的樣本數占總樣本數的比例
    • F1 分數則是精確率和召回率的調和平均數,能夠綜合衡量模型的精確性和完整性

5.2 驗證方法

交叉驗證是一種常用的模型評估方法,它將數據分為多份,輪流作為訓練集和驗證集。

例如,將數據分為 5 份,每次用其中的 4 份作為訓練集,1 份作為驗證集,進行 5 次訓練和驗證。通過計算多次驗證的平均性能指標,可以更準確地評估模型的泛化能力,避免因數據劃分的偶然性導致的評估偏差。


微語錄:自己選擇了方向與路途時,就不要抱怨,一個人只有承擔起狂風暴雨,才能最終守得住彩虹滿天。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/898920.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/898920.shtml
英文地址,請注明出處:http://en.pswp.cn/news/898920.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

GitHub 上的 Khoj 項目:打造你的專屬 AI 第二大腦

在信息爆炸的時代,高效管理和利用個人知識變得愈發重要。GitHub 上的 Khoj 項目為我們提供了一個強大的解決方案,它能成為你的 “AI 第二大腦”,幫你輕松整合、搜索和運用知識。今天,就來詳細了解下 Khoj。? Khoj 是什么&#x…

爬蟲(requsets)筆記

一、request_基本使用 pip install requests -i https://pypi.douban.com/simple 一個類型六個屬性 r.text 獲取網站源碼 r.encoding 訪問或定制編碼方式r.url 獲取請求的urlr.content 響應的字節類型r.status_code 響應的狀態碼r.headers 響應的頭信息 import requestsur…

centos7連不上接網絡

選擇編輯, 選擇虛擬機網絡編輯 右鍵虛擬機,點擊設置,設置網絡,選擇nat模式, 配置:/etc/sysconfig/network-scripts/ifcfg-ens33 vim /etc/sysconfig/network-scripts/ifcfg-ens33設置IP地址如圖所示,重…

OpenResty(Lua)+Redis實現動態封禁IP

文章目錄 架構設計環境準備源碼編輯安裝OpenResty下載安裝準備依賴編譯安裝配置環境變量(可選)OpenResty 服務管理命令 安裝Redis配置Lua腳本測試準備測試工具測試封禁邏輯 刪除版本信息清除編譯安裝的OpenResty 架構設計 通過 Nginx Redis 的方案&…

Turtle基本操作(前進、后退、旋轉)

1. Turtle基本移動概念 在Turtle繪圖中,“海龜”(Turtle)相當于一支筆,它在屏幕上移動時,會在經過的路徑上留下軌跡。我們可以通過一系列簡單的指令控制它的前進、后退和旋轉,從而繪制各種形狀和圖案。 2. 前進與后退 2.1 前進(forward() 或 fd()) Turtle的 forward…

C++類與對象的第一個簡單的實戰練習-3.24筆記

在嗶哩嗶哩學習的這個老師的C面向對象高級語言程序設計教程&#xff08;118集全&#xff09;講的真的很不錯 實戰一&#xff1a; 情況一&#xff1a;將所有代碼寫到一個文件main.cpp中 #include<iostream> //不知道包含strcpy的頭文件名稱是什么,問ai可知 #include<…

Jetson Orin NX使用 Ollama 本地部署 deepseek

本文記錄在 jetson orin nx 上使用 ollama 部署 deepseek 的過程 有用的網站及工具 NVIDIA Jetson AI LabOllama官網Jtop 工具 > 用以查看jetson GPU/CPU/Memory 等占用情況的工具&#xff0c;安裝過程如下&#xff1a; sudo apt-get install python3-pip sudo -H pip3 in…

目標檢測20年(三)

對這篇論文感興趣的小伙伴可以訂閱筆者《目標檢測》專欄&#xff0c;關注筆者對該文獻的閱讀和理解。 前兩篇解讀鏈接&#xff1a; 目標檢測20年&#xff08;一&#xff09;-CSDN博客 目標檢測20年&#xff08;二&#xff09;-CSDN博客 目錄 四、 檢測器的加速發展 4.1 特…

智能手持終端PDA在設備巡檢管理中的應用

在工業制造、能源電力、軌道交通等領域&#xff0c;設備巡檢是保障生產安全與連續性的核心環節。傳統巡檢模式存在效率低、易出錯、數據滯后等痛點。上海岳冉智能設備巡檢手持終端PDA&#xff0c;以智能化、數字化、高可靠為核心設計理念&#xff0c;集RFID、條碼掃描、AI圖像識…

AI知識補全(二):提示工程(Prompting)是什么?

名人說&#xff1a;人生如逆旅&#xff0c;我亦是行人。 ——蘇軾《臨江仙送錢穆父》 創作者&#xff1a;Code_流蘇(CSDN)&#xff08;一個喜歡古詩詞和編程的Coder&#x1f60a;&#xff09; 上一篇&#xff1a;AI知識補全&#xff08;一&#xff09;&#xff1a;tokens是什么…

C++友元:跨墻訪問的三種姿勢

目錄 友元 友元之普通函數形式 友元之成員函數形式 友元類 友元的特點 友元 什么叫友元&#xff1f; 一般來說&#xff0c;類的私有成員只能在類的內部訪問&#xff0c;類之外是不能訪問它們的。但如果將其他類/函數設置為類的友元&#xff0c;那么友元類/函數就可以在前…

位運算[找出唯一成對的數]

題目來源&#xff1a;藍橋云課 不用輔助儲存空間 import java.util.Random;public class T_01 {public class Util {public static void swap(int[] arr, int i, int j) {int temp arr[i];arr[i] arr[j];arr[j] temp;}public static void print(int[] arr) {for (int i 0; …

簡記_FPGA 硬件最小系統設計

一、FPGA板級設計的五要素 1.1、電源電路 核心電壓&#xff1a;一般為固定值 IO電壓&#xff1a;FPGA的IO分為多個bank&#xff0c;同一個bank的不同IO引腳電壓相同&#xff0c;不同bank的電壓可以不同 輔助電壓&#xff1a;除了核心電壓和IO電壓&#xff0c;FPGA工作所需的…

7.2 控件和組件

版權聲明&#xff1a;本文為博主原創文章&#xff0c;轉載請在顯著位置標明本文出處以及作者網名&#xff0c;未經作者允許不得用于商業目的 C#工具箱位于編輯窗口的左側&#xff0c;它默認內置了大量的控件和組件。控件一般派生于System.Windows.Forms.Control類&#xff0c;顯…

Spring Boot中接口數據字段為?Long?類型時,前端number精度丟失問題解決方案

Spring Boot中接口數據字段為 Long 類型時&#xff0c;前端number精度丟失問題解決方案 在Spring Boot中&#xff0c;當接口數據字段為 Long 類型時&#xff0c;返回頁面的JSON中該字段通常會被序列化為數字類型。 例如&#xff0c;一個Java對象中有一個 Long 類型的屬性 id …

OpenCV第2課 OpenCV的組成結構與圖片/視頻的加載及展示

1.OpenCV 的組成結構 2.OpenCV 的具體模塊 3. 圖像的讀取 4. 視頻的讀取 1.OpenCV 的組成結構 OpenCV 是由很多模塊組成的,這些模塊可以分成很多層: 最底層是基于硬件加速層(HAL)的各種硬件優化。再上一層是opencv_contrib 模塊所包含的OpenCV 由其他開發人員所貢獻的代…

安裝配置Tesseract-OCR

1,下載對應的可執行文件 在Tesseract OCR下載地址Index of /tesseract下載合適的版本安裝包,如下: 點擊安裝包進行安裝: 語言選擇英文: 如果需要識別中文,則可以在安裝過程中勾選下載中文語言包和腳本(也可以按需選擇繁體):

關于墻面涂鴉的視覺檢測與噴涂修復裝置研究(大綱)

公共場所墻面涂鴉視覺檢測與精準噴涂修復裝置研究 融合視覺識別與自動化噴涂的墻面維護解決方案 第一章 緒論 1.1 研究背景與意義 城市形象與秩序維護&#xff1a; 涂鴉對公共環境的影響&#xff08;破壞美觀、傳遞不良信息&#xff09;清除涂鴉的重要性&#xff08;恢復原貌…

圖論 | 98. 所有可達路徑

98. 所有可達路徑 題目鏈接&#xff1a; 98. 所有可達路徑 思路 先創建鄰接矩陣&#xff0c;再深搜寫代碼是需要注意的是acm格式&#xff0c;輸入的格式要轉化為int&#xff0c;輸出要轉化為str&#xff0c;用map&#xff08;&#xff09;實現。 dfs def dfs(grid,node,n,…

MCP+Hologres+LLM 搭建數據分析 Agent

LLM大模型在數據分析領域的挑戰 在數據分析領域&#xff0c;大模型&#xff08;LLM&#xff09;具備強大語言理解能力&#xff0c;NL2SQL等各類智能化工具也極大提升了數據分析人員的分析效率&#xff0c;但仍舊面臨不少挑戰&#xff1a; 傳統 LLM 缺乏實時數據接入能力&…