深層神經網絡簡介
????????深層神經網絡是機器學習中一種重要的模型,它通過增加網絡的“深度”(即隱藏層的數量)來提升模型對復雜數據的表示和學習能力。同淺層類似,也分為三個部分:
輸入層:接收原始數據(如圖像像素、文本向量等)。
隱藏層:由多層組成,每一層包含若干神經元(節點),通過權重和激活函數處理數據。
輸出層:生成最終預測結果(如分類概率、回歸值等)。
深層神經網絡正向傳播
深層神經網絡反向傳播
? ? ? ? 原理比較容易理解,與淺層神經網絡類似,可以分為多個邏輯回歸,進行反向傳播
參數和超參數
參數(Parameters)
定義
????????模型內部學習得到的變量,通過訓練數據自動優化,無需人工設定。
????????示例:
????????神經網絡中的權重(Weights)和偏置(Bias)。
????????線性回歸中的系數(θ0,θ1θ0?,θ1?)。
特點
????????數據驅動:通過反向傳播(如梯度下降)從數據中學習。
????????數量龐大:深層網絡的參數量可達數百萬甚至數十億(如GPT-3有1750億參數)。
????????存儲于模型中:訓練完成后,參數被保存用于預測。
優化目標
????????最小化損失函數(如交叉熵、均方誤差)。
2. 超參數(Hyperparameters)
定義
????????訓練前人為設定的配置,控制模型的學習過程或結構。
????????示例:
????????學習率(Learning Rate):梯度下降的步長。
????????批量大小(Batch Size):每次迭代使用的樣本數。
????????網絡結構:層數、每層神經元數量。
????????正則化參數:L2懲罰系數(λλ)、Dropout率。
????????優化器選擇:Adam、SGD等。
特點
????????人工依賴:無法直接從數據中學習,需通過經驗或調優確定。
????????影響全局:超參數的選擇直接影響模型收斂速度、泛化能力和最終性能。
????????需實驗驗證:通常通過網格搜索、隨機搜索或貝葉斯優化確定。