一, 機器學習
????????機器學習定義: 計算機能夠在沒有明確的編程情況下學習
? ? ? ??特征:?特征是描述樣本的屬性或變量,是模型用來學習和預測的基礎。如: 房屋面積, 地理位置
????????標簽:?監督學習中需要預測的目標變量,是模型的輸出目標。如:?房屋價格
????????樣本: 如:?{面積=100㎡, 臥室=3, 位置=市中心, 價格=500萬},?數據集中的一個獨立實例,?包含一組特征及對應的標簽。
樣本向量形式:
獨熱編碼舉例:
1.1 機器學習的分類
????????1) 監督學習:?根據帶標簽的數據訓練模型,預測新樣本的標簽。如回歸, 分類。
回歸應用: 房價預測
分類算法: 根據年齡和腫瘤大小判斷腫瘤良/惡性
????????2) 無監督學習:?從未標注數據中發現潛在結構或模式。如聚類,?異常檢測,?降維(大數據集壓縮成更小的數據集, 并可能少地丟失信息)
聚類: 谷歌新聞示例
? ? ? ? 3) ?半監督學習:?結合少量標注數據和大量未標注數據進行訓練。如醫學圖像分析
? ? ? ? 4)??強化學習:?通過與環境交互學習策略,最大化累積獎勵。如游戲AI, 自動駕駛
1.2 監督學習算法
1.2.1 線性回歸?
第i個數據特征:
????????損失函數(Loss Function)?:衡量單個樣本的預測值與真實值的差異。
????????成本函數(Cost Function)?:衡量整個訓練集的平均損失。
平方誤差損失:
平方誤差成本函數: 一定是凸函數,確保只有一個全局最小值
模型(y=wx)與成本函數示例 (左圖w=-0.5、0、0.5、1時的情況):
模型(y=wx+b)下的成本函數:
模型與J(w,b)的平面等高線:
????????學習率(α)?:控制模型參數更新步長的超參數。?
?學習率的取值的兩種情況:
? ? ? ? 1) 學習率過大:參數更新步長過大,可能導致損失值震蕩甚至發散。
? ? ? ? 2) 學習率過小:收斂速度極慢,可能陷入局部極小值。
示例:
梯度下降公式:
推導過程:
梯度算法演示:
兩個特征的多元線性回歸舉例:
特征縮放:? 加速模型收斂。有如下方法:
標準化(Z-Score標準化):
標準差:
歸一化(Min-Max縮放):
標準化與歸一化的區別:?
舉例 (標準化前后的數據集) :
? ??
1.2.2 邏輯回歸
????????通過線性組合特征與參數,結合Sigmoid函數將輸出映射到概率區間(0-1),用于解決分類問題?(尤其是二分類)。
Sigmoid函數模型:?
圖形:
對數損失函數(交叉熵損失):
對應圖形:??
????????為什么不使用均方誤差(MSE)作為損失函數:?當預測值接近 0 或 1 時, 梯度接近于0,?權重幾乎無法更新。?
? ?
對應成本函數:
為什么選擇對數損失函數:
????????1) 概率視角:最大似然估計(MLE)
????????2) 優化視角:凸性
梯度下降算法:
與線性回歸梯度算法的區別: 模型定義不同:
線性回歸與邏輯回歸區別:?
1.2.3 正則化??
解決過擬合情況:
????????1) 收集更多數據
????????2) 僅用特征的一個子集
????????3) 正則化
欠擬合(高偏差), 適中, 過擬合(高方差)
正則化項:??
添加正則化項后的梯度算法:
????????原理: 通過在損失函數中添加與模型參數相關的懲罰項,限制參數的復雜度,從而提升模型的泛化能力。 (使得W盡可能小以此使得函數趨于平滑)
? ? ? ? λ過大:?參數被過度壓縮,模型過于簡單,無法捕捉數據中的有效規律。
? ? ? ? λ過小:?正則化作用微弱,模型過度依賴訓練數據中的噪聲或局部特征。
? ? ? ? 備注: 只要正則化得當, 更大的神經網絡總是更好的。
例圖:
根據交叉驗證誤差找到適合的λ:
λ取值與交叉驗證誤差及訓練集誤差的關系:
1.2.4 決策樹?
????????一種樹形結構的監督學習模型,通過遞歸劃分特征空間,對樣本進行分類或回歸。
遞歸分裂過程:?
- 從根節點開始,計算所有特征的分裂指標(如信息增益)。
- 選擇最優特征作為當前節點的分裂特征。
- 根據特征的取值將數據集劃分為子集,生成子節點。
- 對每個子節點遞歸執行步驟1-3,直到滿足停止條件。
停止條件:?
- 節點樣本數小于預設閾值。
- 所有樣本屬于同一類別。
- 特征已用完或分裂后純度提升不顯著。
?????????預剪枝:?在樹生長過程中提前終止分裂。如設置最大深度
?信息熵:度量數據集的混亂程度。值越小分類越明確。圖為二分類情況
?示例圖:
推廣多分類:
信息增益:特征分裂后熵的減少量。值越大特征越重要。圖為二分類舉例:
多分類推廣:?
符號含義:
二分類分裂決策舉例:?
??決策樹處理處理連續值特征:
? ? ? ? 1)??特征排序: 從小到大排序
? ? ? ? 2)?候選分割點生成:相鄰值的中間點作為候選分割點。
????????3)??計算分裂指標:?計算分裂后的信息增益(分類)或均方誤差(回歸)。
? ? ? ? 4)?選擇最優分割點
? ? ? ? 5)?遞歸分裂
示例圖: 選擇分裂點(分類)
示例圖: 選擇分類點(回歸, 預測值為葉子結點的平均值)
隨機森林
?????????通過構建多棵決策樹,結合投票(分類)或平均(回歸)實現預測。
?訓練步驟:
? ? ? ? 1) Bootstrap抽樣:從D中有放回地抽取N個樣本,形成子集?。
? ? ? ? 2) 構建決策樹:在上訓練一棵CART(分類與回歸樹)樹,每次分裂時僅考慮m個隨機選擇的特征。m=math.sqrt(總特征數)? ? ?
? ? ? ? 3) 保存模型:將訓練好的樹ht?加入森林。
? ? ? ??4)?預測:?
? ? ? ? ? ? ? ?· 多數投票法(分類):每棵樹對樣本預測一個類別,最終選擇得票最多的類別。
? ? ? ? ? ? ? ?· 平均值(回歸):所有樹的預測結果取平均。
????????放回抽樣:?每次從總體中隨機抽取一個樣本后,?將該樣本放回總體,確保它在后續抽取中仍有可能被再次選中。
基尼系數公式:
符號含義:
????????作用:衡量數據集的不純度。基尼系數越小,數據越“純凈”(同一類樣本占比越高)。
基尼指數公式:
符號含義:
????????作用:衡量按特征?A?分裂后的整體不純度。決策樹選擇基尼指數最小的特征進行分裂。
????????XGBoost思想: 在每一輪迭代中,通過擬合前序模型的預測殘差(負梯度方向),并自動調整對預測不準樣本的關注度,同時結合正則化防止過擬合。
1.3 非監督學習算法
1.3.1 聚類算法
? ? ? ? 將未標記的數據劃分為若干組(簇),?組內相似性高,?組間差異性大。
????????K-means算法:?隨機初始化K個中心點 → 分配數據點到最近中心 → 更新中心點 → 迭代至收斂。?
??K-means算法流程:
?k-means工作示例:
質心:
?符號含義:
不同初始化時的可能情況:?
肘部算法: 選取合適的K值
1.3.2 異常檢測
????????密度評估:? 當P(x)小于某個值時, 為可疑異常, 相比較監督算法, 更容易發現從未出現過的異常
正態分布(高斯分布)的概率密度函數
?
推廣(向量):
非高斯特征轉化 :
協調過濾:
回歸成本函數:
梯度算法:
均值歸一化作用: 若無評分數據,使用全局均值?μglobal??作為初始預測值。
預測值:
基于內容的過濾算法:
????????PCA算法: 無監督的線性降維方法,通過正交變換將高維數據投影到低維空間,保留數據中的最大方差。以期用更少的特征(主成分)解釋原始數據中的大部分變異性。
與線性回歸的區別:
1.3.3 強化學習?
貝爾曼方程:
- Agent(智能體):決策主體,執行動作(Action)。
- State(狀態?s):環境在某一時刻的描述。
- Action(動作?a):Agent的行為選擇。
- Reward(獎勵 R(s)):環境對Agent動作的即時反饋。
- Value Function(價值函數):衡量狀態或動作的長期價值(Q(s,a))。
- 其中γ∈[0,1]為折扣因子
小批量處理實現流程:
- 數據分塊:將訓練集隨機劃分為多個小批量。
- 前向傳播:對當前小批量計算模型輸出。
- 損失計算:根據預測值和真實標簽計算損失(如交叉熵、均方誤差)。
- 反向傳播:計算損失對參數的梯度。
- 參數更新:使用優化算法(如SGD、Adam)更新模型參數。
- 重復:遍歷所有小批量完成一個訓練周期(Epoch)。
????????優勢:?避免一次性加載全部數據,?更新更頻繁,加快收斂。
軟更新
二、深度學習
2.1 基本概念
? ? ? ? 輸入層: x向量表示原始數據
? ? ? ??隱藏層: 如下圖?layer1 到 layer3輸出激活值(向量)。通過權重和激活函數提取抽象特征。
? ? ? ? 輸出層: layer4,?生成最終預測結果(如分類概率)。
? ? ? ? 神經元(節點)?:每層的圓圈代表一個神經元,負責接收輸入信號并計算輸出。
? ? ?? ?激活函數: 引入非線性,使網絡能夠擬合復雜函數。
前向傳播示例圖:
三種激活函數:
????????備注: 梯度下降時sigmoid兩端導函數為0, 二ReLu只有一端。
????????為什么模型需要激活函數: 使得模型非線性。神經都是線性回歸則神經網絡只是一個線性回歸。
反向傳播:?通過鏈式法則,依次計算每一層的梯度
舉例:
?梯度下降:?利用反向傳播計算的梯度,梯度下降通過以下公式更新參數
2.3?多分類與多標簽分類
????????多分類:?將樣本分配到唯一一個類別中, 如數字識別
????????多標簽分類:?為樣本分配多個相關標簽, 如圖像標注(包含“山”“湖”“樹”)
多分類舉例:?輸出每個類別的概率,選擇最大概率對應的類別。
損失函數:
?
網絡層
????????密集層
????????卷積層
2.4 模型評估
?數據集劃分:
? ? ? ??1) 訓練集?(Training Set):用于模型訓練(通常占60-80%)。
????????2) 驗證集:?用于調參, 學習數據中的潛在規律。
? ? ? ? 3) 測試集?(Test Set):模擬“未知數據”,用于最終評估。
? ? ? ? 意義: 若模型僅在訓練集上表現好,但在測試集上差,說明模型過擬合(過度記憶訓練數據細節),泛化能力弱。
? ? ? ? 備注: 避免測試集調參, 若根據測試集結果反復調整模型,導致模型間接擬合測試集。
2.4.1 偏差與方差
????????偏差(Bias)?:指模型預測值的期望與真實值之間的差距,反映了模型對數據的擬合能力。高偏差意味著模型過于簡單,無法捕捉數據中的潛在關系,導致欠擬合?(Underfitting)。
????????方差(Variance)?:指模型對訓練數據中微小變化的敏感程度,反映了模型的穩定性。高方差意味著模型過于復雜,過度擬合訓練數據中的噪聲,導致過擬合?(Overfitting)。
?高偏差(左), 高方差(右)?
2.4.2 診斷偏差與方差
高偏差(欠擬合)?:訓練集和驗證集誤差均高。
解決方案:
? ? ? ? 1) 可增加模型復雜度(如使用更高階多項式、深層神經網絡)
? ? ? ? 2) 添加更多特征或改進特征工程
? ? ? ? 3) 減少正則化強度(如降低λ值)
高方差(過擬合)?:訓練誤差低,驗證誤差高且差距大。表現: J(驗證集)>>J(訓練集)
解決方案:
? ? ? ?1) 可降低模型復雜度(如減少神經網絡層數、剪枝決策樹)。
? ? ? ? 2) 增加訓練數據量或使用數據增強。
? ? ? ? 3) 增強正則化
?多項式階數(x軸) 與 交叉驗證誤差 及 訓練集誤差 的關系:
學習曲線:?
高偏差學習曲線情況(紅線, 較人類水平相比):?
高方差學習曲線情況(前半段):?
訓練神經網絡的一般步驟:?
數據增強: 在現有的訓練樣本上修改生成另一個訓練樣本
?遷移學習: 預訓練
兩者區別:
?維度? | ?數據增強? | ?遷移學習? |
---|---|---|
?核心目標? | 增加數據多樣性,提升模型泛化能力 | 復用已有知識,降低目標領域訓練成本 |
?依賴條件? | 需要少量原始數據 | 需要源領域模型或相關數據 |
?適用階段? | 數據準備階段 | 模型訓練階段 |
?技術范疇? | 數據預處理/正則化 | 模型優化/跨任務學習 |
?典型應用領域? | 圖像、文本、語音等所有數據驅動的任務 | 深度學習、跨領域任務(如醫療、金融) |
2.4.3 精確度與召喚率
????????混淆矩陣:TP(真正例)、TN(真負例)、FP(假正例)、FN(假負例)。
? ? ? ? 1) 真正例(TP, True Positive)?:實際為正類,預測也為正類。
?????????2)?假正例(FP, False Positive)?:實際為負類,預測為正類(誤報)。
?????????3)?真負例(TN, True Negative)?:實際為負類,預測也為負類。
?????????4)?假負例(FN, False Negative)?:實際為正類,預測為負類(漏報)。
????????精確率(Precision)?:(預測為正的樣本中實際為正的比例)。關注預測的準確性
????????召回率(Recall)?:?(實際為正的樣本中被正確預測的比例)。關注正類的覆蓋率
例子:癌癥檢測
????????設測試集有 ?100 名患者,其中 ?10 人患癌(正類) ,?90 人健康(負類)?。模型預測結果如下
- 正確預測:
- 癌癥患者:8 人(TP = 8)。
- 健康患者:83 人(TN = 83)。
- ?錯誤預測:
- 將 7 名健康人誤診為癌癥(FP = 7)。
- 漏診 2 名癌癥患者(FN = 2)。
混淆矩陣:
預測患癌 | 預測健康 | |
---|---|---|
?實際患癌? | TP = 8 | FN = 2 |
?實際健康? | FP = 7 | TN = 83 |