核心數學知識點
- 1、引言
- 2、數據科學必會數學知識
- 2.1 線性代數
- 2.2 微積分
- 2.3 概率論
- 2.4 數理統計
- 2.5 隨機過程
- 2.6 數據分布
- 2.7 貝葉斯統計
- 2.8 線性回歸
- 2.9 邏輯回歸
- 2.10 矩陣分解
- 2.11 主成分分析(PCA)
- 2.12 奇異值分解(SVD)
- 3、總結
1、引言
小屌絲:魚哥,能不能講一講數學知識點啊。
小魚:這,跟著每一章內容學習就好了
小屌絲:覺得麻煩,你就給總結一下唄。
小魚:.額… 這真是不拿我當外人啊。
小屌絲:自家人,何必見外。
小魚:…
2、數據科學必會數學知識
2.1 線性代數
- 定義:研究向量、矩陣及其操作的數學分支。
- 核心原理:向量與矩陣乘法、線性變換、特征值和特征向量等。
- 用法:數據表示、矩陣分解、降維。
- 算法公式:矩陣-向量乘法 A x = b A \mathbf{x} = \mathbf{b} Ax=b
- 代碼示例:
import numpy as np
A = np.array([[1, 2], [3, 4]])
x = np.array([1, 2])
b = np.dot(A, x)
2.2 微積分
- 定義:研究變化率(微分)和累積量(積分)的數學分支。
- 核心原理:導數、積分、梯度、鏈式法則。
- 用法:優化算法(如梯度下降)、曲線擬合。
- 算法公式:梯度 ? f ( x ) \nabla f(x) ?f(x)
- 代碼示例:
import sympy as sp
x = sp.Symbol('x')
f = x**2
f_prime = sp.diff(f, x)
2.3 概率論
- 定義:研究隨機事件發生概率及其分布規律的數學分支。
- 核心原理:概率空間、條件概率、貝葉斯定理。
- 用法:機器學習模型中的概率估計、潛在變量模型。
- 算法公式:貝葉斯公式 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)?
- 代碼示例:
from scipy.stats import normp = norm.pdf(0) # 標準正態分布在0點處的概率密度值
2.4 數理統計
- 定義:利用概率分布對數據進行推斷和驗證的數學分支。
- 核心原理:假設檢驗、置信區間、最大似然估計(MLE)。
- 用法:統計模型的參數估計、驗證模型。
- 算法公式:t-檢驗公式 t = x ˉ ? μ 0 s / n t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} t=s/n?xˉ?μ0??
- 代碼示例:
from scipy import stats
t_stat, p_value = stats.ttest_1samp([1, 2, 3, 4, 5], 3)
2.5 隨機過程
- 定義:研究隨時間或空間隨機變量變化的數學模型。
- 核心原理:馬爾可夫鏈、泊松過程、隨機游走。
- 用法:時間序列分析、金融建模。
- 算法公式:馬爾可夫鏈狀態轉移概率 P ( X n + 1 = j ∣ X n = i ) P(X_{n+1}=j|X_n=i) P(Xn+1?=j∣Xn?=i)
- 代碼示例:
import numpy as np
# 簡單的馬爾可夫鏈模擬
transition_matrix = np.array([[0.5, 0.5], [0.2, 0.8]])
initial_state = np.array([0.8, 0.2])
next_state = np.dot(initial_state, transition_matrix)
2.6 數據分布
- 定義:研究數據如何在數值范圍內分布的數學特征。
- 核心原理:正態分布、泊松分布、指數分布等。
- 用法:數據建模、異常檢測。
- 算法公式: 正態分布概率密度函數 f ( x ) = 1 2 π σ e ? ( x ? μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π?σ1?e?2σ2(x?μ)2?
- 代碼示例:
import numpy as np
import matplotlib.pyplot as plt
mean, std_dev = 0, 1
samples = np.random.normal(mean, std_dev, 1000)
plt.hist(samples, bins=30, density=True)
plt.show()
2.7 貝葉斯統計
- 定義:一種基于貝葉斯定理的統計推斷方法。
- 核心原理:先驗分布、后驗分布、貝葉斯更新。
- 用法:貝葉斯網絡、貝葉斯優化。
- 算法公式:后驗概率 P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)} P(θ∣X)=P(X)P(X∣θ)P(θ)?
- 代碼示例:
import pymc3 as pm
# 使用PyMC3進行貝葉斯推斷
with pm.Model() as model:theta = pm.Uniform('theta', lower=0, upper=1)y = pm.Bernoulli('y', p=theta, observed=[1, 0, 0, 1, 1])trace = pm.sample(1000, step=pm.Metropolis())
pm.traceplot(trace)
2.8 線性回歸
-
定義:用線性模型描述自變量和因變量關系的統計方法。
-
核心原理:最小二乘法、回歸系數估計。
-
用法:趨勢預測、關系探索。
-
算法公式: y = β 0 + β 1 x + ε y = \beta_0 + \beta_1 x + \varepsilon y=β0?+β1?x+ε
-
代碼示例:
from sklearn.linear_model import LinearRegressionX = [[1], [2], [3], [4]]
y = [2, 3, 5, 7]
model = LinearRegression().fit(X, y)
2.9 邏輯回歸
- 定義:用于分類問題的回歸模型。
- 核心原理:邏輯函數映射概率、最大似然估計。
- 用法:二元分類、多分類。
- 算法公式: P ( y = 1 ∣ x ) = 1 1 + e ? ( β 0 + β 1 x ) P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}} P(y=1∣x)=1+e?(β0?+β1?x)1?
- 代碼示例:
from sklearn.linear_model import LogisticRegressionX = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
model = LogisticRegression().fit(X, y)
2.10 矩陣分解
- 定義:將矩陣分解成多個矩陣乘積的技術。
- 核心原理:特征分解、奇異值分解(SVD)。
- 用法:降維、推薦系統。
- 算法公式: A = U Σ V T A = U \Sigma V^T A=UΣVT
- 代碼示例:
import numpy as npA = np.array([[3, 1], [1, 3]])
U, Sigma, Vt = np.linalg.svd(A)
2.11 主成分分析(PCA)
- 定義:一種降維技術,通過線性變換將數據投影到較低維度空間。
- 核心原理:協方差矩陣、特征值和特征向量。
- 用法:降維、數據壓縮。
- 算法公式: Z = X W \mathbf{Z} = \mathbf{XW} Z=XW
- 代碼示例:
from sklearn.decomposition import PCAX = [[1, 2], [3, 4], [5, 6]]
pca = PCA(n_components=1)
principal_components = pca.fit_transform(X)
2.12 奇異值分解(SVD)
- 定義:一種矩陣分解方法,將矩陣分解為三個子矩陣的乘積。
- 核心原理:特征分解、秩、范數。
- 用法:降維、信號處理。
- 算法公式: A = U Σ V T A = U \Sigma V^T A=UΣVT
- 代碼示例:
import numpy as npA = np.array([[3, 1], [1, 3]])
U, Sigma, Vt = np.linalg.svd(A)
3、總結
由于臨時任務,今天的內容就先寫到這里了。
關于另一部分數學知識點,小魚會在這篇體現哦
-
《【機器學習】必會數學知識:一文掌握數據科學核心數學知識點(上),收藏~》
-
《【機器學習】必會數學知識:一文掌握數據科學核心數學知識點(下),收藏~》
我是小魚: -
CSDN 博客專家;
-
阿里云 專家博主;
-
51CTO博客專家;
-
企業認證金牌面試官;
-
多個名企認證&特邀講師等;
-
名企簽約職場面試培訓、職場規劃師;
-
多個國內主流技術社區的認證專家博主;
-
多款主流產品(阿里云等)評測一等獎獲得者;
關注小魚,學習【機器學習】&【深度學習】領域的知識。