【機器學習】必會數學知識:一文掌握數據科學核心數學知識點(上),值得收藏~

核心數學知識點

  • 1、引言
  • 2、數據科學必會數學知識
    • 2.1 線性代數
    • 2.2 微積分
    • 2.3 概率論
    • 2.4 數理統計
    • 2.5 隨機過程
    • 2.6 數據分布
    • 2.7 貝葉斯統計
    • 2.8 線性回歸
    • 2.9 邏輯回歸
    • 2.10 矩陣分解
    • 2.11 主成分分析(PCA)
    • 2.12 奇異值分解(SVD)
  • 3、總結

1、引言

小屌絲:魚哥,能不能講一講數學知識點啊。
小魚:這,跟著每一章內容學習就好了
小屌絲:覺得麻煩,你就給總結一下唄。
小魚:.額… 這真是不拿我當外人啊。
小屌絲:自家人,何必見外。
小魚:…
在這里插入圖片描述

2、數據科學必會數學知識

2.1 線性代數

  • 定義:研究向量、矩陣及其操作的數學分支。
  • 核心原理:向量與矩陣乘法、線性變換、特征值和特征向量等。
  • 用法:數據表示、矩陣分解、降維。
  • 算法公式:矩陣-向量乘法 A x = b A \mathbf{x} = \mathbf{b} Ax=b
  • 代碼示例
import numpy as np
A = np.array([[1, 2], [3, 4]])
x = np.array([1, 2])
b = np.dot(A, x)

2.2 微積分

  • 定義:研究變化率(微分)和累積量(積分)的數學分支。
  • 核心原理:導數、積分、梯度、鏈式法則。
  • 用法:優化算法(如梯度下降)、曲線擬合。
  • 算法公式:梯度 ? f ( x ) \nabla f(x) ?f(x)
  • 代碼示例
import sympy as sp
x = sp.Symbol('x')
f = x**2
f_prime = sp.diff(f, x)

2.3 概率論

  • 定義:研究隨機事件發生概率及其分布規律的數學分支。
  • 核心原理:概率空間、條件概率、貝葉斯定理。
  • 用法:機器學習模型中的概率估計、潛在變量模型。
  • 算法公式:貝葉斯公式 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)?
  • 代碼示例
from scipy.stats import normp = norm.pdf(0)  # 標準正態分布在0點處的概率密度值

2.4 數理統計

  • 定義:利用概率分布對數據進行推斷和驗證的數學分支。
  • 核心原理:假設檢驗、置信區間、最大似然估計(MLE)。
  • 用法:統計模型的參數估計、驗證模型。
  • 算法公式:t-檢驗公式 t = x ˉ ? μ 0 s / n t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} t=s/n ?xˉ?μ0??
  • 代碼示例
from scipy import stats
t_stat, p_value = stats.ttest_1samp([1, 2, 3, 4, 5], 3)

2.5 隨機過程

  • 定義:研究隨時間或空間隨機變量變化的數學模型。
  • 核心原理:馬爾可夫鏈、泊松過程、隨機游走。
  • 用法:時間序列分析、金融建模。
  • 算法公式:馬爾可夫鏈狀態轉移概率 P ( X n + 1 = j ∣ X n = i ) P(X_{n+1}=j|X_n=i) P(Xn+1?=jXn?=i)
  • 代碼示例
import numpy as np
# 簡單的馬爾可夫鏈模擬
transition_matrix = np.array([[0.5, 0.5], [0.2, 0.8]])
initial_state = np.array([0.8, 0.2])
next_state = np.dot(initial_state, transition_matrix)

2.6 數據分布

  • 定義:研究數據如何在數值范圍內分布的數學特征。
  • 核心原理:正態分布、泊松分布、指數分布等。
  • 用法:數據建模、異常檢測。
  • 算法公式: 正態分布概率密度函數 f ( x ) = 1 2 π σ e ? ( x ? μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π ?σ1?e?2σ2(x?μ)2?
  • 代碼示例
import numpy as np
import matplotlib.pyplot as plt
mean, std_dev = 0, 1
samples = np.random.normal(mean, std_dev, 1000)
plt.hist(samples, bins=30, density=True)
plt.show()

2.7 貝葉斯統計

  • 定義:一種基于貝葉斯定理的統計推斷方法。
  • 核心原理:先驗分布、后驗分布、貝葉斯更新。
  • 用法:貝葉斯網絡、貝葉斯優化。
  • 算法公式:后驗概率 P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)?
  • 代碼示例
import pymc3 as pm
# 使用PyMC3進行貝葉斯推斷
with pm.Model() as model:theta = pm.Uniform('theta', lower=0, upper=1)y = pm.Bernoulli('y', p=theta, observed=[1, 0, 0, 1, 1])trace = pm.sample(1000, step=pm.Metropolis())
pm.traceplot(trace)

2.8 線性回歸

  • 定義:用線性模型描述自變量和因變量關系的統計方法。

  • 核心原理:最小二乘法、回歸系數估計。

  • 用法:趨勢預測、關系探索。

  • 算法公式 y = β 0 + β 1 x + ε y = \beta_0 + \beta_1 x + \varepsilon y=β0?+β1?x+ε

  • 代碼示例

from sklearn.linear_model import LinearRegressionX = [[1], [2], [3], [4]]
y = [2, 3, 5, 7]
model = LinearRegression().fit(X, y)

2.9 邏輯回歸

  • 定義:用于分類問題的回歸模型。
  • 核心原理:邏輯函數映射概率、最大似然估計。
  • 用法:二元分類、多分類。
  • 算法公式 P ( y = 1 ∣ x ) = 1 1 + e ? ( β 0 + β 1 x ) P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}} P(y=1∣x)=1+e?(β0?+β1?x)1?
  • 代碼示例
from sklearn.linear_model import LogisticRegressionX = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
model = LogisticRegression().fit(X, y)

2.10 矩陣分解

  • 定義:將矩陣分解成多個矩陣乘積的技術。
  • 核心原理:特征分解、奇異值分解(SVD)。
  • 用法:降維、推薦系統。
  • 算法公式 A = U Σ V T A = U \Sigma V^T A=UΣVT
  • 代碼示例
import numpy as npA = np.array([[3, 1], [1, 3]])
U, Sigma, Vt = np.linalg.svd(A)

2.11 主成分分析(PCA)

  • 定義:一種降維技術,通過線性變換將數據投影到較低維度空間。
  • 核心原理:協方差矩陣、特征值和特征向量。
  • 用法:降維、數據壓縮。
  • 算法公式 Z = X W \mathbf{Z} = \mathbf{XW} Z=XW
  • 代碼示例
from sklearn.decomposition import PCAX = [[1, 2], [3, 4], [5, 6]]
pca = PCA(n_components=1)
principal_components = pca.fit_transform(X)

2.12 奇異值分解(SVD)

  • 定義:一種矩陣分解方法,將矩陣分解為三個子矩陣的乘積。
  • 核心原理:特征分解、秩、范數。
  • 用法:降維、信號處理。
  • 算法公式 A = U Σ V T A = U \Sigma V^T A=UΣVT
  • 代碼示例
import numpy as npA = np.array([[3, 1], [1, 3]])
U, Sigma, Vt = np.linalg.svd(A)

3、總結

由于臨時任務,今天的內容就先寫到這里了。
關于另一部分數學知識點,小魚會在這篇體現哦

  • 【機器學習】必會數學知識:一文掌握數據科學核心數學知識點(上),收藏~

  • 【機器學習】必會數學知識:一文掌握數據科學核心數學知識點(下),收藏~
    我是小魚

  • CSDN 博客專家

  • 阿里云 專家博主

  • 51CTO博客專家

  • 企業認證金牌面試官

  • 多個名企認證&特邀講師等

  • 名企簽約職場面試培訓、職場規劃師

  • 多個國內主流技術社區的認證專家博主

  • 多款主流產品(阿里云等)評測一等獎獲得者

關注小魚,學習【機器學習】&【深度學習】領域的知識。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/43008.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/43008.shtml
英文地址,請注明出處:http://en.pswp.cn/web/43008.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Git 入門】初始化配置與新建倉庫

文章目錄 前言配置git新建倉庫倉庫的概念創建倉庫命令總結前言 在現代軟件開發中,版本控制系統已經成為了不可或缺的工具。其中,Git 是最為廣泛使用的版本控制系統之一。Git 不僅可以幫助我們管理和跟蹤代碼的變化,還可以方便地與他人協作。本文將介紹 Git 的基礎知識,包括…

【人工智能大語言模型技術發展研究報告 2024】

文末?有福利! 人工智能作為引領新一輪科技產業革命的戰略性技術和新質生產力重要驅動力,正在引發經濟、社會、文化等領域的變革和重塑,2023 年以來,以 ChatGPT、GPT-4 為代表的大模型技術的出臺,因其強大的內容生成及…

提升教師健康,聚焦智慧校園人事系統的職工體檢功能

智慧校園人事管理系統內置的職工體檢管理,是專為教職員工設計的一項健康管理創新實踐,巧妙融合先進信息技術,致力于為教職工提供更加便捷、易懂且持續性的健康檢查與管理支持。該服務從多個維度出發,全面呵護教職工的身心健康。 該…

給你的博客加上評論區

一個網站如果有評論功能,可以更好的和讀者互動。VuePress 也有很多評論插件,這里簡單介紹下,最后介紹本站所使用的 Twikoo。 大部分評論插件都是使用的 Github 或 Gitee 的 issue 功能,也就是用 issue 去存儲評論;而 …

自然語言處理(NLP)與大語言模型(LLM) 主要差異

一、簡述 NLP 和 LLM 技術是大規模分析和生成人類語言的核心。隨著它們的日益普及,區分 LLM 與 NLP 變得越來越重要。 NLP 包含一套用于理解、操縱和生成人類語言的算法。自 20 世紀 50 年代誕生以來,NLP 已發展到分析文本關系的階段。它使用詞性標注、命…

腳本實現保留文本中特定字符之后的字符串

#目的背景 原始txt文本如下圖 目的是為了去除序號,每行只單獨呈現域名 手工刪除漫長又麻煩,使用腳本快捷些 代碼實現邏輯: 1.使用open函數打開文本,之后用變量lines存儲文本的所有行,使用for循環,讓變量te…

暑假學習計劃怎么做 用待辦計劃軟件安排更科學

暑期來臨,無論是學生還是老師,做好暑期計劃都至關重要。記得去年暑假,我給自己定下了閱讀十本書的目標,卻因為缺乏明確的計劃,最后只草草讀完了兩本。而今年,我決定嘗試一種新的方式——使用待辦計劃軟件來…

大學生數學競賽教程(蒲和平)

大學生數學競賽教程(蒲和平) https://pan.baidu.com/s/1ytcIbVcZpof9WM1xa2dDfA 提取碼: kf2r 源文件來自于:大學生數學競賽教程【蒲和平】

谷粒商城實戰筆記-24-分布式組件-SpringCloud Alibaba-Nacos配置中心-命名空間與配置分組

文章目錄 一,命名空間1,簡介1.1,命名空間的主要功能和特點1.2,使用場景1.3,如何指定命名空間 2,命名空間實戰2.1,環境隔離2.2,服務隔離 二,配置集三,配置集ID…

【數據基礎】— 基于Go1.19的站點模板爬蟲的實現

目錄 1. 定義目標站點 2. 使用Go的庫 3. 發送HTTP請求 4. 解析HTML并提取數據 5. 存儲數據 6. 并發處理 示例代碼 基于Go 1.19的站點模板爬蟲實現通常涉及幾個關鍵步驟:定義目標站點、解析HTML頁面、提取所需數據、存儲數據以及可能的并發處理。下面我將詳細…

js原型和類---prototype,__proto__,new,class

原型和原型鏈 在js中,所有的變量都有原型,原型也可以有原型,原型最終都指向Object 什么是原型 在js中,一個變量被創建出來,它就會被綁定一個原型;比如說,任何一個變量都可以使用console.log打…

PostgreSQL 中如何實現數據的增量更新和全量更新的平衡?

文章目錄 一、增量更新與全量更新的概念增量更新全量更新 二、考慮的因素1. 數據量2. 數據更改的頻率和規模3. 數據一致性要求4. 系統性能和資源利用5. 業務邏輯和流程 三、解決方案(一)混合使用增量更新和全量更新(二)使用臨時表…

暑期旅游季必備,用這款客服神器應對爆棚的客流咨詢

解決暑期旅游客流高峰問題 暑期是旅游高峰季節,客流量劇增,客戶咨詢紛至沓來。在這個時候,如何高效處理客戶的咨詢成為每家旅游機構和景點不可忽視的挑戰。 聊天寶快捷回復助手是一款強大的工具,可幫助企業在客流高峰期快速回復客…

QDataStream的尷尬

最近在編寫一個網絡功能,需要將一個文件內容傳遞到客戶端并將改內容以文件形式保存下來。由于文件內容是個加密文件且采用了二進制形式于是客戶端就采用了QDataStream這個對象來保存文件。粗略的測試下來沒有什么問題,可是在獲取寫入的文件是否發現寫入的…

MemFire Cloud: 一種全新定義后端即服務的解決方案

在這個快節奏的互聯網時代,開發者們最希望的就是能夠省時省力地完成項目,快速上線。然而,搭建服務、開發接口API、處理各種后端問題,往往讓人頭疼不已。別擔心,現在有了MemFire Cloud,一款為懶人開發者量身…

計算機性能-系統架構師(二十七)

1、計算機評價主要性能指標有 時鐘頻率、()、運算精度和內存容量等。 A丟包率 B端口吞吐量 C可移植性 D數據處理速率 解析: 計算機評價主要指標:時鐘頻率,運算速率,運算精度,內存的存儲容量…

制作電子名片的小程序系統源碼 快速生成電子名片

在當今數字化時代,傳統的紙質名片已逐漸被智能電子名片所取代。電子名片小程序作為一種基于微信生態的創新名片交換方式,憑借其便捷性、高效性和環保性,成為了眾多商務人士的首選。小編分享一個制作電子名片的小程序系統源碼,無憂…

malloc實現原理【Liunx】

malloc實現原理 malloc是什么?malloc,calloc, realloc的區別malloc的實現原理malloc的兩種實現方式為什么使用brk?為什么使用mmap? malloc怎么定界的malloc分配的是虛擬內存上的空間嗎? malloc是什么? 通過malloc&…

LinK3D: Linear Keypoints Representation for 3D LiDAR Point Cloud【翻譯與解讀】

LinK3D: Linear Keypoints Representation for 3D LiDAR Point Cloud 摘要 特征提取和匹配是許多機器人視覺任務的基本組成部分,如 2D 或 3D 目標檢測、識別和配準。2D 特征提取和匹配已取得巨大成功。然而,在 3D 領域,當前方法由于描述性差…

MySQL零散拾遺

mysql中大小寫敏感嗎? MySQL數據庫默認情況下是不區分大小寫的,這意味著在查詢時,字段名和值的大小寫不會影響結果。然而,這種默認行為可能會根據操作系統和配置的不同而有所變化。 在某些操作系統上,比如Linux&…