機器學習——分類、回歸、聚類、LASSO回歸、Ridge回歸(自用)

糾正自己的誤區:機器學習是一個大范圍,并不是一個小的方向,比如:線性回歸預測、卷積神經網絡和強化學都是機器學習算法在不同場景的應用。

機器學習最為關鍵的是要有數據,也就是數據集

名詞解釋:數據集中的一行叫一條樣本或者實例,列名稱為特征或者屬性。樣本的數量稱為數據量,特征的數量稱為特征維度

機器學習常用庫:Numpy和sklearn

樸素的意思是特征的各條件都是相互獨立的

機器學習(模型、策略、算法)

損失函數

學習類型

分類

交叉熵或對數

有監督

回歸

均方差(MSE)

聚類

誤差平方和(SSE)

無監督

訓練過程中,對于每一次迭代過程中,基于函數計算當前迭代的預測值、均方損失和梯度,并根據梯度下降法不斷更新系數。在訓練過程中記錄每一步損失、每10000次迭代(10000 epochs)打印當前損失信息,保存更新后的模型參數字典和梯度字典。

對于數據集的描述要具體:數據集屬性(樣本量、特征數、各特征含義、特征值范圍、標簽含義、標簽取值范圍)、數據集的創建目的用途和創建者

對于回歸則需要畫出訓練過程中的均方差損失下降曲線或者回歸模型的R方系數(該值越靠近1說明擬合效果越好)。

線性回歸模型代碼編寫思路:

數據訓練和測試的可視化可以選擇散點圖和繪制分類的決策邊界進行直觀呈現分類預測評估報告需要用的包括精確率、召回率、F1得分,其三個指標數值越接近于1,說明模型分類效果越好。
對數分類代碼的編寫思路:其是感知機模型、神經網絡和支持向量機等模型的基礎

LASSO回歸:在面對待研究問題的眾多影響因素的作用下,如何通過在眾多影響因子中找到對問題產生較大影響的關鍵因素,并對問題趨勢進行預測。針對這個問題常使用LASSO回歸(the least absolute shrinkage and selection operator,譯為:最小絕對收縮和選擇算子,在眾多因素找出關鍵因素,適用于特征數大于樣本量的場景),突然想到這個思路是不是和之前學的正則化的思想一樣,對模型影響小的直接置為0的方式,使得模型不那么復雜但是這里使用的不是梯度下降法,而是坐標下降法這是由于其約束項(正則化項)導致的,使得其在為連續不可導函數,故其只能使用坐標下降法(一種迭代算法,其通過當前坐標軸上搜索損失函數的最小值,無需計算函數梯度;而梯度下降法是通過損失函數的負梯度來確定下降方向;簡記:坐標以坐標找損失函數min,梯度以梯度找損失函數min)

坐標下降法的思想:假設一個函數為L(x,y),先固定x0,求使得L(y)最小的y1;然后固定y1,求使得L(x)最小的x1;依次反復迭代得到使得L(x,y)達到最小值的點。

由于得到的模型損失表達式其為連續不可導,故需要一個符號函數(作用是輔助計算)將其進行向量化,從而達到梯度下降尋找最優的解。

LASSO回歸代碼的編寫思路:

Ridge回歸: 與LASSO回歸類似的方法是Ridge回歸,該回歸是的損失函數公式是連續且可導的,所以其求解參數的過程比LASSO回歸容易(其可以使用梯度下降方法),但與LASSO回歸不同的是Ridge回歸參數只是接近0但不等于0,而LASSO回歸則直接為0

LASSO回歸加上的是L1正則化項,L1正則化項其連續不可導

Ridge回歸加上的是L2正則化項,L2正則化項其連續可導

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/74126.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/74126.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/74126.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

本地AI大模型工具箱 Your local AI toolkit:LMStudio

LMStudio介紹 官網:LM Studio - Discover, download, and run local LLMs LMStudio 是一個面向機器學習和自然語言處理的,旨在使開發者更容易構建和部署AI語言模型的應用軟件。 LMStudio的特點是: 完全本地離線運行AI大模型 可以從Huggi…

[OpenCV】相機標定之棋盤格角點檢測與繪制

在OpenCV中,棋盤格角點檢測與繪制是一個常見的任務,通常用于相機標定。 棋盤格自定義可參考: OpenCV: Create calibration pattern 目錄 1. 棋盤格角點檢測 findChessboardCorners()2. 棋盤格角點繪制 drawChessboardCorners()3. 代碼示例C版本python版本…

redis的典型應用 --緩存

Redis最主要的用途,分為三個方面: 1.存儲數據(內存數據庫) 2.緩存(最常用) 3.消息隊列 緩存 (cache) 是計算機中的?個經典的概念。核?思路就是把?些常?的數據放到觸?可及(訪問速度更快)的地?&…

本地基于Ollama部署的DeepSeek詳細接口文檔說明

前文,我們已經在本地基于Ollama部署好了DeepSeek大模型,并且已經告知過如何查看本地的API。為了避免網絡安全問題,我們希望已經在本地調優的模型,能夠嵌入到在本地的其他應用程序中,發揮本地DeepSeek的作用。因此需要知…

基于ArcGIS和ETOPO-2022 DEM數據分層繪制全球海陸分布

第〇部分 前言 一幅帶有地理空間參考、且包含海陸分布的DEM圖像在研究區的繪制中非常常見,本文將實現以下圖像的繪制 關鍵步驟: (1)NOAA-NCEI官方下載最新的ETOPO-2022 DEM數據 (2)在ArcGIS(…

自動化測試框架pytest+requests+allure

Pytest requests Allure 這個框架基于python的的 Pytest 進行測試執行,并結合 Allure插件 生成測試報告的測試框架。采用 關鍵字驅動 方式,使測試用例更加清晰、模塊化,同時支持 YAML 文件來管理測試用例,方便維護和擴展。 測試…

Retrofit中scalars轉換html為字符串

簡介 在Retrofit中,如果你想直接獲取HTML或其他文本格式的響應內容而不是將其映射到一個模型類,ScalarsConverterFactory 就派上用場了。ScalarsConverterFactory 是一個轉換器工廠,它能夠將響應體轉換為Java基本類型如String、Integer或Byte…

Powershell WSL Windows系統復制數據到ubuntu子系統系統

從本地D盤下拷貝數據到ubuntu子系統下 Powershell 管理員打開執行 /mnt/d 此處是本地Windows系統的路徑表示/opt ubutu 子系統目錄 wsl -d Ubuntu-22.04 -u root -- bash -c cp -rf /mnt/d/nginx.conf /opt/從ubuntu子系統中拷貝數據到本地D盤下 Powershell 管理員打開執行…

【多線程】線程安全集合類,ConcurrentHashMap實現原理

文章目錄 線程安全集合類解決方案多線程環境使用順序表多線程環境使用隊列多線程環境使用哈希表ConcurrentHashMap1. 縮小鎖的粒度2. 充分使用 CAS3. 針對擴容操作 線程安全集合類 ArrayList、Queue、HsahMap… 都是線程不安全的 Vector、Stack、Hashtable 都是線程安全的&am…

spring-tx筆記

編程式事務與聲明式事務的理解 補充:什么是事務? 事務是一個重要概念,尤其在數據庫管理系統中。事務是指一組操作。,這些操作要么全部成功執行,要么全部不執行,確保數據的一致性和完整性 編程式事務 編…

Android第四次面試(Java基礎篇)

一、Java 中的 DCL 單例模式 單例模式是設計模式中最常用的模式之一,其核心目標是確保一個類在程序中僅有一個實例,并提供全局訪問點。在 Java 中,實現單例模式需要兼顧線程安全和性能優化。DCL(Double-Checked Locking&#xff0…

Java-SpringBootWeb入門、Spring官方腳手架連接不上解決方法

一. Spring 官網:Spring | Home Spring發展到今天已經形成了一種開發生態圈,Spring提供了若干個子項目,每個項目用于完成特定的功能(Spring全家桶) Spring Boot可以幫助我們非常快速的構建應用程序、簡化開發、提高效率 。 二. Spring Boot入…

1.7 無窮小的比較

1.定義 2.性質 3.無窮小的比較 3.1等價無窮小的性質 3.2 常見等價無窮小

StarRocks 升級注意事項

前段時間升級了生產環境的 StarRocks,從 3.3.3 升級到了 3.3.9,期間還是踩了不少坑所以在這里記錄下。 因為我們的集群使用的是存算分離的版本,也是使用官方提供的 operator 部署在 kubernetes 里的,所以沒法按照官方的流程進入虛…

深入探究 JVM 堆的垃圾回收機制(一)— 判活

垃圾回收分為兩步:1)判定對象是否存活。2)將“消亡”的對象進行內存回收。 1 判定對象存活 可達性分析算法:通過一系列“GC Roots”對象作為起始節點集,從這些節點開始,根據引用關系向下搜索,…

國產開發板—米爾全志T113-i如何實現ARM+RISC-V+DSP協同計算?

近年來,隨著半導體產業的快速發展和技術的不斷迭代,物聯網設備種類繁多(如智能家居、工業傳感器),對算力、功耗、實時性要求差異大,單一架構無法滿足所有需求。因此米爾推出MYD-YT113i開發板(基…

Tomcat虛擬主機配置詳解:Centos環境下多域名部署(詳細教程!)

🏡作者主頁:點擊! Tomcat服務器📝專欄:點擊! 🐧Linux高級管理防護和群集專欄:點擊! ??創作時間:2025年3月18日14點14分 最近在折騰 Tomcat 的時候&…

鴻蒙開發工程師簡歷項目撰寫全攻略

一、項目結構的黃金法則 建議采用「41」結構: 項目背景(業務價值)技術架構(鴻蒙特性)核心實現(技術難點)個人貢獻(量化成果)附加價值(延伸影響) …

dfs刷題排列問題 + 子集問題 + 組和問題總結

文章目錄 一、排列問題全排列II題解代碼 優美的排列題解代碼 二、子集問題字母大小寫全排列題解代碼 找出所有子集的異或總和再求和題解代碼 三、組合問題電話號碼的字母組合題解代碼 括號生成題解代碼 組合題解代碼 目標和題解代碼 組合總和題解代碼 總結 一、排列問題 全排列…

【Linux】VMware17 安裝 Ubuntu24.04 虛擬機

目錄 安裝教程 一、下載 Ubuntu 桌面版iso映像 二、安裝 VMware 三、安裝 Ubuntu 桌面版 VMware 創建虛擬機 掛載 Ubuntu ISO 安裝 Ubuntu 系統 安裝教程 一、下載 Ubuntu 桌面版iso映像 鏈接來自 清華大學開源軟件鏡像站 ISO文件地址:ubuntu-24.04.2-des…