機器學習圣經PRML作者Bishop20年后新書《深度學習:基礎與概念》出版。作者克里斯托弗·M. 畢曉普(Christopher M. Bishop)微軟公司技術研究員、微軟研究 院 科學智 能 中 心(Microsoft Research AI4Science)負責人。劍橋達爾文學院院士、英國皇家工程院院士、愛丁堡皇家學會院士和倫敦皇家學會院士。曾出版經典著作《模式識別與機器學習》(Pattern Recognition and Machine Learning)。
本書全面且深入地呈現了深度學習領域的知識體系,系統梳理了該領域的核心知識,闡述了深度學習的關鍵概念、基礎理論及核心思想,剖析了當代深度學習架構與技術。
《深度學習:基礎與概念》由三位圖靈獎得主:2024 年諾貝爾物理學獎得主杰弗里·辛頓(Geoffrey Hinton)、2018 年圖靈獎得主楊立昆(Yann LeCun)、2018 年圖靈獎得主約書亞·本吉奧 (Yoshua Bengio)作序推薦。共同推薦。
本書全面且深入地呈現了深度學習領域的知識體系,系統梳理了該領域的核心知識,闡述了深度學習的關鍵概念、基礎理論及核心思想,剖析了當代深度學習架構與 技術。
全書共 20 章。本書首先介紹深度學習的發展歷程、基本概念及其在諸多領域(如 醫療診斷、圖像合成等)產生的深遠影響;繼而深入探討支撐深度學習的數學原理, 包括概率、標準分布等;在網絡模型方面,從單層網絡逐步深入到多層網絡、深度神 經網絡,詳細講解其結構、功能、優化方法及其在分類、回歸等任務中的應用,同時 涵蓋卷積網絡、Transformer 等前沿架構及其在計算機視覺、自然語言處理等領域的獨 特作用。本書還對正則化、采樣、潛變量、生成對抗網絡、自編碼器、擴散模型等關 鍵技術展開深入分析,闡釋其原理、算法流程及實際應用場景。
對于機器學習領域的新手,本書是全面且系統的入門教材,可引領其踏入深度學 習的知識殿堂;對于機器學習領域的從業者,本書是深化專業知識、緊跟技術前沿的 有力工具;對于相關專業的學生,本書是學習深度學習課程、開展學術研究的優質參 考資料。無論是理論學習、實踐應用還是學術研究,本書都是讀者在深度學習領域探 索與前行的重要指引。
本書目標
機器學習的影響力不斷擴大,相關出版物數量和涵蓋范圍呈爆炸式增長,創新的 步伐仍在持續加快。對于這一領域的新人來說,僅是掌握核心思想就已經足夠艱巨, 更不用說趕上研究前沿了。在這樣的背景下,本書將幫助機器學習的新手及有經驗的 從業者全面理解支撐深度學習的基礎理論,以及現代深度學習架構和技術的關鍵概念, 為讀者未來在專業領域的深造打下堅實的基礎。鑒于深度學習領域知識的廣泛性和變 化速度,我們有意避免寫一本涵蓋最新研究的全面綜述。相反,我們在本書中展現了 對深度學習關鍵思想、基礎和概念的提煉,這些基礎和概念在該領域過去和將來的快 速發展中歷久彌新。例如,在撰寫本書時,大語言模型正在迅速演進,然而其底層的 Transformer 架構和注意力機制在過去 5 年基本保持不變,并且機器學習的許多核心原 則已被人們熟知數十年。
負責任地使用技術
深度學習是一項功能強大、適用范圍廣泛的技術,具有為世界創造巨大價值和應 對社會最緊迫挑戰的潛力。這些特點也意味著有人可能蓄意濫用深度學習技術,引發 意外傷害。我們選擇不討論深度學習使用中的倫理或社會層面問題,因為這些話題非 常復雜,超出了本書作為計算機教材的討論范疇。不過,我們仍然希望讀者通過本書 加深對底層技術及其工作原理的理解,并希望本書為上述問題的討論做出有價值的貢 獻。我們強烈建議讀者關注技術工作更廣泛的影響,并在學習技術本身的同時,了解 如何負責任地使用深度學習和人工智能。
本書的內容結構
本書分為 20 章,每一章均探討一個具體的主題。我們以線性結構組織本書內 容,即每章的內容僅依賴于前面章節中的材料。本書非常適合用來教授兩個學期的本科或研究生機器學習課程,同樣也適合那些正在積極研究或自學深度學習的讀者 參考。
要清晰地理解機器學習,必然需要具備一定程度的高等數學知識。具體來說,機器學習的核心由三個數學領域構成:概率論、線性代數和多元微積分(也稱多變量微 積分)。本書提供了對所需概率論概念的完備介紹,還通過附錄 A 概括了線性代數的 一些有用結論。盡管附錄 B 和附錄 C 分別提供了關于變分法和拉格朗日乘子的介紹, 但我們假定讀者已經熟悉多變量微積分的基本概念。本書的重點是傳達清晰的概念理 解,強調的是那些在現實世界中具有實用價值的技術,而不是抽象的理論。我們盡可 能從多個互補的視角(例如文本描述、圖表和數學公式)呈現復雜的概念。此外,我 們使用獨立的板塊總結了許多關鍵算法,這些總結雖然沒有提高算法的計算效率,但 是補充了文中的數學說明。因此,我們希望不同背景的讀者都能理解本書中的內容。
從概念上講,本書或許自然而然會被視為 Networks for Pattern Recognition(Bishop, 1995b)的后續作品,后者首次從統計學角度全面介紹了神經網絡。本書可以看作 Pattern Recognition and Machine Learning(Bishop, 2006)的“姊妹篇”,雖然后者 出版于深度學習革命之前,但是其中涵蓋了機器學習領域更廣泛的議題。本書采用 了 Pattern Recognition and Machine Learning 中的一部分相關內容并進行了改寫,以 更專注于深入學習所需的基礎概念,確保內容能自成一體。但這也意味著 Pattern Recognition and Machine Learning 中的很多有趣且歷久彌新的機器學習議題并沒有出 現在這本新書中。例如,Pattern Recognition and Machine Learning 深入討論了貝葉斯 方法,而本書幾乎不講貝葉斯方法。
本書實拍
第一章樣章試讀: