深度學習：基礎與概念（第1章：深度學習革命）

第1章：深度學習革命

1.1深度學習的影響

1.1.1醫療診斷

1.1.2蛋白質結構預測

1.1.3圖像合成

1.1.4大語言模型

1.2一個教學示例

1.2.1合成數據

1.2.2線性模型

1.2.3誤差函數

1.2.4模型復雜度

1.2.5正則化

1.2.6模型選擇

1.3機器學習簡史

1.3.1單層網絡

1.3.2反向傳播

1.3.3深度網絡

《深度學習：基礎與概念》作者：Christopher M. Bishop（PRML之父）& Hugh Bishop，這是一本 Bishop 父子二人耗時 16 年打磨 的深度學習教材，被譽為“PRML 的時代續作”。

“不是一本快餐式 AI 入門書，而是一本幫你建立系統AI認知的現代教材。”這不是教你怎么調包，而是教你怎么理解深度學習為什么這樣設計，哪些公式來自哪種假設，哪些結構解決了什么問題。不僅系統講解神經網絡、激活函數、概率圖模型，還深入講解了LLM 的底層架構和建模思路。

本系列將帶大家重溫這部“AI新圣經”，相關學習資源鏈接：深度學習基礎與概念。

第1章：深度學習革命

機器學習作為重要且發展迅速的技術領域，其基于數據學習的解決方案正逐步替代傳統手工設計算法，帶來性能提升與新能力開發。深度學習是機器學習分支，以神經網絡為理論基礎，而人工智能領域致力于重現人腦能力，如今 “機器學習” 和 “人工智能” 常被混用，當前很多人工智能系統實則是機器學習的特定應用，與人類大腦能力有差距，為此引入通用人工智能概念。經過長期發展，機器學習進入快速發展階段，近期大語言模型這類深度學習系統展現出卓越能力，被視為通用人工智能的初步跡象。

機器學習的重要性與發展趨勢：機器學習是當下極為重要且發展迅猛的技術領域。它在各個領域廣泛應用，基于數據學習的方案逐步取代傳統手工設計算法，不僅提升現有技術性能，還為全新能力開發創造可能。若新算法完全依賴人工設計，許多能力將難以實現。
深度學習的概念與基礎：深度學習作為機器學習的分支，是強大且通用的數據學習框架。其理論基礎是神經網絡計算模型，該模型受人類大腦學習和信息處理機制啟發而產生。
人工智能與機器學習的關系及現狀：人工智能領域旨在讓機器重現人腦強大能力，現在 “機器學習” 和 “人工智能” 常被交替使用。當前多數人工智能系統是機器學習在特定領域的應用，雖實用但與人類大腦能力差距大。
通用人工智能概念與機器學習發展：為構建更具靈活性的智能系統，引入 “通用人工智能” 概念。機器學習經過幾十年穩步發展進入快速發展階段，近期大語言模型這類龐大深度學習系統展現卓越能力，被視為通用人工智能初步跡象。

1.1深度學習的影響

1.1.1醫療診斷

黑色素瘤危險但早發現可治愈，區分惡性黑色素瘤與良性痣的圖片極具挑戰，人工編寫算法難以實現準確分類。深度學習成功解決此問題，通過構建含大量標注病變圖像的訓練集，確定深度神經網絡約 2500 萬個權重參數，完成學習或訓練，使神經網絡能預測病變性質，這是監督學習與分類問題的典型案例。由于可用標注訓練圖像少，研究人員先在含 128 萬幅日常物體圖像的數據集預訓練神經網絡，再在皮膚病變圖像數據集微調，即遷移學習，最終深度學習對皮膚病變圖像分類準確率超專業皮膚科醫生。

上面的一行圖像是危險的惡性黑色素瘤，下面的一行圖像是良性痣。未經專業訓練的人很難區分這兩類皮膚病變類型。

1.1.2蛋白質結構預測

蛋白質作為生物體的基石，由氨基酸長鏈組成，其特性取決于氨基酸序列，合成后會折疊成復雜三維結構，該結構決定其行為與相互作用。如何依據氨基酸序列推導蛋白質三維結構是生物學界長期難題，深度學習帶來突破。雖可通過 X 射線晶體學等實驗技術測定蛋白質三維結構，但過程耗時，對某些蛋白質測定有挑戰。而確定氨基酸序列成本低、產出高，所以從氨基酸序列預測蛋白質三維結構備受關注，可借助深度學習模型以氨基酸序列為輸入、蛋白質三維結構為輸出進行訓練，這屬于監督學習，訓練后的系統能預測新氨基酸序列對應的三維結構。

一種名為 T1044/6VR4 的蛋白質的三維形狀。綠色結構展示了通過 X 射線晶體學確定的真實三維結構，而疊加在上面的藍色結構展示了深度學習模型 AlphaFold 預測的三維結構。

1.1.3圖像合成

無監督學習的圖像生成：訓練數據為無標注的樣本圖像，神經網絡通過訓練學會生成類似的新圖像，這種訓練方式屬于無監督學習。例如在攝影棚單色背景下人臉圖像集訓練的深度神經網絡，生成的合成圖像質量極高，難以與真人照片區分。這與之前有標注數據的監督學習應用不同，開啟了神經網絡在圖像生成領域的新探索。

生成式模型：因該模型能生成與訓練數據不同但具備類似統計特性的結果，故而得名。它突破了傳統模型對已有數據的簡單擬合，能夠創造出具有相似特征的新數據。如通過對人臉圖像的學習，生成新的、不同的人臉圖像。這種生成能力為諸多領域帶來了新的可能性，像是藝術創作、虛擬內容生成等。

生成式 AI 的概念：生成式 AI 包含了各種能生成圖像、視頻、音頻、文本、候選藥物分子或其他形態信息的深度學習模型。其中生成式模型的一個變體能夠依據輸入的文本字符串（提示詞）生成反映文本語義的圖像，這一特性使得文本與圖像之間建立了新的聯系，在圖像設計、廣告制作等方面有巨大應用潛力。

1.1.4大語言模型

LLM 利用深度學習構建內部表征捕捉語言語義，其中自回歸語言模型屬于生成式 AI，能以詞序列為輸入生成下一個詞，通過不斷重復該過程產生長文本，還能輸出 “停止” 詞結束文本生成，用戶可在末尾添加自定義詞序列重輸入模型繼續生成，實現與神經網絡對話。這類模型通過在大型文本數據集提取訓練對進行自監督學習，無需人工標注，可利用大量文本訓練超大規模神經網絡。部分專家視展現非凡能力的大語言模型為通用人工智能雛形。

基于 GPT - 4 的語言生成示例，GPT - 4 能針對特定提示以特定風格展開爭論來證明素數有無窮多個。

1.2一個教學示例

1.2.1合成數據

輸入變量用? $x^{_{}}$ ?表示，目標變量用? $t$ ?表示，二者在實數軸連續取值，給定訓練包集含N個? $x^{_{}}$ ?觀測值? $x_n$ ?及相應 $t^{}$ 觀測值? $t_n$ ?，機器學習關鍵目標是對未見過輸入準確預測，即泛化能力。接著以從正弦函數采樣生成的合成數據集為例，N個數據點的訓練集， $x^{_{}}$ ?在區間[0,1]均勻采樣， $t_n$ ? 由? $\sin (2\pi x)$ ?加隨機噪聲得到，這種方式模擬現實數據集有潛在規律但被噪聲干擾的特性。

機器學習預測目標：在機器學習場景中，以? $x^{_{}}$ ?表示輸入變量，? $t$ ?表示目標變量，二者于實數軸連續取值。給定訓練集有N個? $x^{_{}}$ ?的觀測值? $x_n$ ?與對應的 $t$ 觀測值? $t_n$ ??。其核心目標是依據 $x^{_{}}$ 的新值預測相應? $t$ ?的值，且對未曾見過的輸入具備準確預測能力，此即泛化能力。比如在實際的圖像識別中，模型通過對大量已標注圖像的學習，當面對新的未見過的圖像時，能準確判斷出圖像中的物體類別，這就是泛化能力的體現。
合成數據集示例：為說明機器學習概念，采用從正弦函數采樣生成的合成數據集。訓練集由N個數據點組成，輸入值? $x^{_{}}$ ?在[0,1]區間均勻采樣，對應的目標值? $t_n$ ??是先計算? $\sin (2\pi x)$ ?的值，再添加由高斯分布控制的少量隨機噪聲。就像在模擬一個物理實驗，假設物理量? $t$ ?與? $x^{_{}}$ ?理論上符合正弦函數關系，但實際測量時會受到各種隨機因素干擾，類似現實世界中許多數據集存在潛在規律卻被噪聲干擾的情況。
數據生成過程的意義：在該示例中，雖事先知曉數據由正弦函數生成，但在機器學習實際應用里，通常是不知曉數據生成過程的。不過，了解數據生成過程對闡明機器學習重要概念很有幫助。例如理解模型如何從噪聲數據中提取真實規律，以及怎樣通過調整模型去適應不同噪聲環境，更好地擬合數據和進行預測。

一個由N=10個數據點組成的訓練集，以藍色圓點顯示，其中每個數據點包含了輸入變量? $x^{_{}}$ ?及其對應的目標變量? $t$ ?的觀測值。綠色曲線顯示了用來生成數據的函數? $\sin (2\pi x)$ ?。我們的目標是在不知道綠色曲線的情況下，預測新的輸入變量? $x^{_{}}$ ?所對應的目標變量? $t$ ?的值。

1.2.2線性模型

目標是利用訓練集預測輸入變量新值對應的目標變量值，此過程需發現潛在函數? $\sin (2\pi x)$ ?，但因要從有限數據集推廣到整個函數，且觀測數據受噪聲干擾，導致給定輸入變量時目標變量取值存在不確定性。概率論提供表達這種不確定性的框架，決策論可利用概率表示做出最優預測，從數據中學習概率是機器學習核心。

基于曲線擬合的簡單方法，即使用多項式函數擬合數據，多項式函數形式：

其中多項式雖對自變量? $x^{_{}}$ ?是非線性，但對系數? $w$ ?是線性，這種關于未知參數呈線性的函數被稱為線性模型。

1.2.3誤差函數

多項式系數的確定方法，即通過擬合訓練數據來確定，具體是通過最小化誤差函數實現。一種廣泛使用的簡單誤差函數 —— 平方和誤差函數，它是預測值與目標值差的平方和的二分之一，從概率論可推導此誤差函數，且其具有非負性，函數值為零意味著多項式函數正好通過每個訓練數據點。

多項式系數的確定方式：多項式系數的值要通過擬合訓練數據來確定，實現的途徑是最小化誤差函數。誤差函數用于度量對于給定的? $w$ ?，函數? $y(x,y)$ ?與訓練集中數據點之間的擬合誤差。這一過程旨在找到最合適的系數，使得構建的多項式函數能夠最佳地匹配訓練數據。例如，在一個簡單的數據集上進行多項式擬合，就需要通過這種方式來確定多項式各項的系數。
平方和誤差函數：這是一種廣泛使用的簡單誤差函數，它是每個數據點的預測值與相應目標值之間差的平方和的二分之一。引入系數?? $\frac{1}{2}$ ? 是為了后續計算方便。此誤差函數具有非負性，只有當函數? $y(x,w)$ ?正好通過每個訓練數據點時，其值才等于零。比如在對一組房價數據進行預測時，預測值與實際房價的差值通過平方和誤差函數來衡量擬合的好壞。
曲線擬合問題的解決：通過選擇能使? $E(w)$ ?盡可能小的? $w$ ?值來解決曲線擬合問題。因為平方和誤差函數是系數? $w$ ?的二次函數，對系數的導數是系數? $w$ ?的線性函數，所以該誤差函數的最小化有唯一解? $w^*$ ?，并且可通過解析形式求得封閉解（解析解）。最終得到的多項式由函數? $y(x,w^*)$ ?給出。例如在對散點數據進行曲線擬合時，就能利用這個方法找到最佳的擬合曲線。

平方和誤差函數的幾何解釋(該誤差函數對應來自函數? $y(x,w)$ ? 的每個數據點的位移（如垂直的綠色箭頭所示）平方和的一半)。

1.2.4模型復雜度

面臨選擇多項式的階數 M 的問題，這將引出模型比較（model comparison）或模型選擇（model selection）這一重要概念。

分別使用階數 M = 0,1,3,9 的多項式來擬合1.2.1的數據集。

常數（M = 0）和一階（M = 1）多項式對數據擬合差，對函數? $\sin (2\pi x)$ ?表示差。三階（M = 3）多項式對該函數擬合最佳。高階（M = 9）多項式對訓練數據完美擬合，誤差? $E(w^*)=0$ ?，但曲線波動劇烈，不能反映函數真實形態，此現象為過擬合（over-fitting）。?

我們目標是讓模型有良好泛化能力，能對新數據準確預測。為定量探究泛化性能與模型復雜度? $M$ ?的依賴關系，引入含100個數據點的獨立測試集，其生成方式與訓練集相同。對每個? $M$ ?值，可算出模型在訓練集和測試集上的殘差? $E(w^*)$ ? 。與評估誤差函數? $E(w)$ ?相比，有時用均方根誤差更方便，其定義如下：?

公式設計目的：公式中?1/N?與求平方根的意義。在相關公式里，使用? $1/N$ ?，是為了使不同規模大小的數據集，都能夠在統一的基準條件下進行相互比較。而對誤差求平方根這一操作，其關鍵目的在于確保均方根誤差（如?ER?、?ERMS??）與目標變量? $t$ ?處于相同的度量尺度，也就是具有相同的單位，這樣才能保證誤差測量的準確性和有效性，使得不同數據集的誤差衡量具有可比性。
不同?M?值下模型表現：從 RMS 誤差圖看模型特性。通過上圖展示不同?M?值的訓練集和測試集的 RMS 誤差，測試集誤差反映對新數據的預測能力。當?M?值較小時，多項式模型靈活性欠佳，無法捕捉如? $\sin (2\pi x)$ ?函數中的振蕩，導致測試集誤差較大；當?M?取值在?[3,8]?這個區間時，測試集誤差較小，模型能較好地表示數據生成函數? $\sin (2\pi x)$ ?；當?M=9?時，訓練集誤差降為零，因其 10 個自由度可精確適配 10 個訓練數據點，但測試集誤差卻變得極大，函數出現劇烈振蕩。
模型過擬合原因分析：從系數變化看模型過擬合。觀察上表中不同階數多項式擬合得到的系數? $w^*$ ，隨著?M?值增加，系數幅度急劇增大。以?M=9?為例，為使多項式曲線精準穿過每個數據點，系數被調整到很大的正值或負值，然而在數據點之間，尤其在數據范圍兩端附近，曲線出現大幅度擺動，這表明當多項式模型?M?值較大變得更靈活時，易受目標值隨機噪聲影響，從而過度擬合噪聲。
數據集大小與模型關系：數據量對模型學習效果的影響。隨著數據集大小變化，模型學習效果會相應改變。當模型復雜度固定時，數據集越大，過擬合現象就越不明顯，意味著數據量越大，就可以采用更復雜（更靈活）的模型去擬合數據。經典統計學認為訓練數據點數量應至少是模型可學習參數數量的若干倍（如 5 倍或 10 倍），但深度學習中即使模型參數數量遠超訓練數據點數量，也可能獲得出色結果。
使用 M = 9 的多項式最小化平方和誤差函數所獲得的解決方案（左圖為擬合 N=15 個數據點所獲得的解，右圖為擬合 N=100 個數據點所獲得的解。可以看到，大的數據集可以減少過擬合）。

1.2.5正則化

依據可用訓練集大小限制模型參數數量效果欠佳，按問題復雜性選擇模型復雜性更合理。作為限制參數數量替代方案，正則化技術常被用于控制過擬合。其通過向誤差函數添加懲罰項抑制系數過大，最簡單懲罰項是所有系數平方和，誤差函數改變：

系數控制正則化項與平方和誤差項的相對重要性，正則化項通常不含系數 $w_0$ ?，否則結果受目標變量原點影響，當然也可包含但需單獨配置正則化系數。此方法在統計學文獻中稱收縮方法，神經網絡領域叫權重衰減。通過對 9 階多項式擬合實驗展示正則化效果，合適的正則化參數可抑制過擬合，過大則欠擬合，表格也顯示正則化減小了系數幅度。

繪制訓練集和測試集的 RMS 誤差與正則化參數關系，能看出正則化對泛化誤差的影響。

1.2.6模型選擇

超參數如 $\lambda$ 、多項式階數 M 不能單純通過最小化誤差函數確定，否則易致過擬合。將數據集劃分為訓練集、驗證集和測試集是一種思路，訓練集確定模型系數 $w$ ，選驗證集誤差最小模型，測試集評估最終模型性能。但實際數據有限，驗證集規模小會使評估偏差大，交叉驗證技術可解決此問題，它能充分利用數據訓練并評估模型，極端情況是留一法。不過交叉驗證訓練次數增加，對于復雜超參數組合探索成本高。現代機器學習因模型和數據集大，超參數設置依賴經驗和啟發式方法。

超參數確定問題：在確定模型參數 $w$ ?過程中，超參數 $\lambda$ ?值不變。不能同時對 $w$ ?和 $\lambda$ ?最小化誤差函數確定 $\lambda$ ，否則 $\lambda$ ?趨近 0 導致過擬合，多項式階數 M 同理。簡單優化訓練集誤差關于 M 取值會使 M 過大引發過擬合，所以需有效方法確定超參數合理取值。
數據集劃分思路：把已有數據集劃分為訓練集、驗證集（也稱保留集或開發集）和測試集。訓練集確定模型系數 $w$ ，選擇在驗證集上誤差最小的模型，測試集評估最終選定模型性能。但有限規模數據集多次迭代模型設計可能對驗證集過擬合。
交叉驗證技術：在實際數據有限時，驗證集規模小會使模型預測性能評估偏差大，交叉驗證技術可解決。它允許用大部分數據訓練模型，同時利用全部數據評估性能，極端情況為留一法。但缺點是訓練次數增加 S 倍，對于復雜超參數組合探索成本高。
現代機器學習挑戰：現代機器學習模型和訓練數據集大，超參數設置探索空間有限，依賴小模型經驗和啟發式方法。實際應用比示例復雜，數據量和輸入變量大幅增加，神經網絡模型參數海量，誤差函數需迭代優化，對計算機硬件要求高且計算成本大。

1.3機器學習簡史

神經網絡受人類及哺乳動物大腦信息處理機制啟發，大腦中神經元通過突觸連接形成復雜網絡，神經元間的刺激、抑制及突觸連接強度變化是大腦存儲信息和學習的關鍵。

這些特性被抽象為人工神經網絡（ANN）這一簡單數學模型，成為計算學習方法基礎。

?神經網絡的生物學啟發：神經網絡模型最初靈感源于人類和其他哺乳動物大腦的信息處理機制。大腦中處理信息的基本單元是神經元，當神經元放電，會沿軸突發送電脈沖至突觸，突觸釋放神經遞質刺激或抑制后續神經元放電。人腦約有900億個神經元，每個平均與數千個神經元通過突觸相連，形成含約100萬億個突觸連接的復雜網絡。神經元能否引發另一神經元放電取決于突觸連接強度，而突觸連接強度的動態變化是大腦存儲信息與經驗學習的關鍵所在。
人工神經網絡的數學模型：神經元的屬性被抽象為人工神經網絡（ANN）這一數學模型。諸多此類模型通過對其他神經元輸出的線性組合描述單個神經元特性，再用非線性函數轉換。其數學表達式為? $y = f(\sum_{i = 1}^{M} w_{i}x_{i} + b)$ ?，其中 $x_{i}$ 是與向該神經元發送連接的其他神經元活動對應的輸入，? $w_{i}$ ?是權重表示突觸強度，? $a=\sum_{i = 1}^{M} w_{i}x_{i} + b$ ?稱為預激活，非線性函數? $f(·)$ ?是激活函數，輸出? $y$ ?為激活。

1.3.1單層網絡

人工神經網絡的歷史依復雜程度可分三個階段，以處理 “層數” 衡量。簡單神經網絡模型具單層處理能力。感知機模型在神經計算歷史中地位重要，其激活函數為階躍函數：

可視為簡化神經元放電模型，由 Rosenblatt 首創并開發了特定訓練算法，若存在完美分類訓練數據的權重值，算法能在有限步收斂。感知機雖有多層，但僅一層可從數據學習，被視為 “單層” 神經網絡。它曾讓人驚嘆能像大腦一樣學習，不過 Minsky 和 Papert 分析并證明其能力局限，還推測多層神經網絡也有此局限，雖然后來證明該猜想錯誤，但當時極大打擊了人們對神經網絡模型的熱情，導致 20 世紀 70 年代和 80 年代初神經網絡領域缺乏關注與資金投入。因缺乏有效訓練算法，研究受限，感知機僅適用于單層模型，雖已在實際應用中消失，但術語流傳，現代神經網絡有時稱多層感知機。

1.3.2反向傳播

本文圍繞訓練多層可學習參數神經網絡展開，闡述了相關改進、訓練方法及發展歷程中的起伏。通過應用微分學和基于梯度的優化方法，用連續可微激活函數替代階躍函數，引入可微誤差函數，得到能計算關于每個參數偏導數的誤差函數，由此構建前饋神經網絡：

訓練時先隨機初始化參數，利用誤差反向傳播計算偏導數，借助基于梯度的優化技術迭代更新，隨機梯度下降是常用方法。該突破引發研究熱潮，研究重心向構建嚴謹理論基礎發展，認識到概率論、統計學及先驗知識的重要性。但多層神經網絡存在問題，僅最后兩層權重參數能學到有效信息，常需人工特征提取預處理，2000 年神經網絡發展受限，研究人員開始探索替代方法。

神經網絡的改進：為解決訓練多層可學習參數神經網絡問題，一是用具有非零梯度的連續可微激活函數替換原有的階躍函數，二是引入可微誤差函數，它能量化評估模型在給定參數配置下對訓練集中目標變量的預測效果，如平方和誤差函數用于多項式擬合就是此類誤差函數的示例。這些改進使誤差函數能計算關于網絡模型每個參數的偏導數，為構建多層網絡結構奠定基礎。
前饋神經網絡及訓練：得到改進后的誤差函數后，可考慮多層參數網絡結構，如包含兩層參數的簡單網絡模型，中間層節點為隱藏單元，其值不出現在訓練數據中。隱藏單元和輸出單元按特定函數計算值，對于給定輸入，通過迭代應用相關式子進行前向計算，信息沿箭頭方向逐層向前傳遞，這類模型稱為前饋神經網絡。訓練時先利用隨機數生成器初始化參數，再通過誤差反向傳播計算誤差函數偏導數，運用基于梯度的優化技術迭代更新，隨機梯度下降是常用的優化算法。
神經網絡發展的轉折：能訓練多層權重神經網絡是重大突破，自 20 世紀 80 年代中期引發研究熱潮，研究重心向構建嚴謹理論基礎發展，意識到概率論、統計學核心思想及先驗知識在該領域的重要性，先驗知識可顯式融入模型設計或隱式蘊含在模型數學形式與訓練方法中。然而，多層神經網絡存在局限，通常僅最后兩層權重參數能學到有效信息，除卷積神經網絡外，多層網絡模型應用效果不佳，常需人工特征提取預處理。到 2000 年，神經網絡發展受限，研究人員開始探索核方法、支持向量機等替代方法。

1.3.3深度網絡

21 世紀第二個十年開啟此階段，一系列突破讓多層權重的神經網絡能有效訓練。深度學習發展中，神經網絡模型規模顯著擴張，參數數量從 20 世紀 80 年代的數百數千增長到如今前沿模型的一萬億量級。大規模模型需海量數據集訓練，這對計算能力提出挑戰。GPU 因架構適配神經網絡訓練需求，大規模模型訓練常需數千塊 GPU 的集群。

上圖展示訓練先進神經網絡模型計算量演變，有兩個顯著增長階段，2012 年前計算需求翻倍周期約 2 年，與摩爾定律相符，2012 年深度學習時代后，翻倍周期銳減至 3.4 個月，計算能力每年增長 10 倍。

深度學習的開端：神經網絡發展的當前階段始于 21 世紀的第二個十年，一系列突破使得具有多層權重的神經網絡能夠被有效訓練，消除了此前的能力限制。這種具有多層權重的網絡被稱為深度神經網絡，專注于這類網絡的機器學習子領域就是深度學習。深度學習的出現，開啟了神經網絡發展的新篇章，為后續諸多技術突破和應用拓展奠定了基礎。
神經網絡模型規模的擴張：深度學習發展歷程的關鍵主題是神經網絡模型規模顯著擴張，突出表現為模型參數數量爆炸式增長。20 世紀 80 年代常見數百或數千參數的模型，之后穩步攀升至數百萬乃至數十億，目前最前沿模型參數達一萬億量級。模型規模的不斷擴大，提升了模型的表達能力和處理復雜任務的能力，但也帶來了新的挑戰。
訓練需求與計算能力的挑戰：擁有海量參數的神經網絡模型需要龐大的數據集來訓練以有效賦值參數，這種大模型與海量數據的結合，對模型訓練的計算能力提出前所未有的挑戰。例如，當前最大規模模型的訓練需在含數千塊 GPU 的大規模計算集群上完成，這凸顯了計算能力對于深度學習發展的重要支撐作用。
GPU 的適配與應用：GPU 最初為滿足視頻游戲等高速圖形渲染需求開發，后發現其架構能很好適配神經網絡訓練。神經網絡中某一層單元運算可高度并行，與 GPU 大規模并行計算架構契合。如今大規模模型訓練多依賴含數千塊 GPU 的集群，通過專用高速網絡通信，大大提高了訓練效率。
計算量演變趨勢：上圖描繪了訓練先進神經網絡模型計算量的演變，呈現兩個特征顯著的增長階段。2012 年前計算需求翻倍周期約 2 年，與摩爾定律預測的計算性能增長趨勢相符；2012 年進入深度學習時代后，翻倍周期銳減至 3.4 個月，計算能力每年增長 10 倍，反映出深度學習對計算量需求的急劇增長。
擴大訓練數據量的影響：在深度學習中，通過架構創新或復雜歸納偏置實現的性能改進，往往易被簡單擴大訓練數據量所替代，與此同時，模型規模和訓練所需計算能力也會相應擴展。大語言模型就是很好的體現，它憑借單個網絡展現出非凡能力廣度，甚至超越為特定問題設計的專業網絡，能在特定任務中表現優異，還能用同一訓練好的神經網絡解決更廣泛范圍的問題。
神經網絡深度與表示學習：網絡深度對神經網絡實現卓越性能十分關鍵。從表示學習角度理解，神經網絡能將原始輸入數據轉化為富含語義信息的新表示形式，降低后續網絡層處理問題的難度。學習到的內部表示可通過遷移學習應用于其他相關問題，例如在皮膚病變分類任務中。并且，處理圖像的神經網絡模型學習到的內部表示，與哺乳動物視覺皮層的神經表征極為相似。
基礎模型：能夠針對一系列下游任務進行適配或微調的大規模神經網絡模型被稱作基礎模型。這類模型可充分利用海量且多樣化的數據集，進而構建出具有廣泛適用性的通用模型。它能有效發揮大規模數據的優勢，為解決不同領域的問題提供有力支持。
深度學習的其他關鍵進展：除了規模化，深度學習成功還有其他重要因素。比如殘差連接技術，解決了傳統簡單神經網絡中訓練信號在深度網絡中逐層反向傳播時逐漸衰減的問題，大大提高了數百層深度網絡的訓練效率。自動微分方法可基于網絡前向傳播代碼，自動生成用于反向傳播計算誤差函數梯度的代碼，方便研究人員快速探索不同神經網絡架構。機器學習領域基于開源模式開展大量研究工作，借助他人成果進一步加快了領域創新步伐。