當代人工智能三教父——深度學習三巨頭

文章目錄

引言

人物介紹

突出貢獻?

專業名詞解釋

引言

今天下午閑來無事翻閱了一下csdn首頁的頭條文章——《27 歲天才創始人?Joel Hellermark?分享了自己和“AI 教父”?Geoffery Hinton?的最新采訪》

感覺挺有意思，就從頭到尾的看了一遍，里面有很多自己以前從未涉及到的知識，就淺顯的整理了一下：

人物介紹

楊立昆（Yann LeCun）、杰弗里·欣頓（Geoffrey Hinton）和約書亞·本希奧（Yoshua Bengio）

被業內稱為“當代人工智能三教父”

?楊立昆（Yann LeCun），在法國皮埃爾和瑪麗·居里大學獲得計算機科學博士學位。現任紐約大學柯朗數學科學研究所Silver冠名教授、Facebook公司人工智能首席科學家、副總裁。他獲得了包括美國工程院院士、IEEE神經網絡先鋒獎（IEEE Neural Network Pioneer Award）等一系列榮譽。他還是紐約大學數據科學中心的創始人，與約書亞·本希奧一起擔任加拿大先進研究院機器與大腦學習項目的主管。

杰弗里·欣頓（Geoffery Hinton），在愛丁堡大學獲得人工智能博士學位。現任谷歌公司副總裁、工程研究員，多倫多人工智能矢量研究所首席科學顧問、多倫多大學名譽教授。他是加拿大先進研究院神經計算和自適應項目（Neural Computation and Adaptive Perception Program）的創始人，還獲得了加拿大最高榮譽勛章（Companion of the Order of Canada）、英國皇家學會成員、美國工程院外籍院士、人工智能國際聯合會（IJCAI）杰出研究獎等一系列榮譽。2017年被彭博社（Bloomberg）評為改變全球商業格局的50人之一。

約書亞·本希奧（Yoshua Bengio），在加拿大麥吉爾大學取得計算機博士學位。現為加拿大蒙特利爾大學教授、加拿大數據定價中心主任（IVADO）、蒙特利爾學習算法研究中心（Mila）科學主任、加拿大先進研究院主任。他還與楊立昆一起擔任加拿大先進研究院機器與大腦學習項目的主管。他創建了目前世界上最大的深度學習研究中心——蒙特利爾學習算法研究中心，使蒙特利爾成為世界上人工智能研究最為活躍的地區之一，引來大批公司和研究室入駐。

突出貢獻?

三位科學家發明了深度學習的基本概念，在實驗中發現了驚人的結果，也在工程領域做出了重要突破，幫助深度神經網絡獲得實際應用。

Hinton 最重要的貢獻來自他1986年發明反向傳播的論文 “Learning Internal Representations by Error Propagation”；1983年發明的玻爾茲曼機（Boltzmann Machines），以及2012年對卷積神經網絡的改進。

Hinton 和他的學生 Alex Krizhevsky 以及 Ilya Sutskever 通過 Rectified Linear Neurons 和 Dropout Regularization 改進了卷積神經網絡，并在著名的 ImageNet 評測中取得了很好的成績，在計算機視覺領域掀起一場革命。

Bengio 的貢獻主要在1990年代發明的 Probabilistic models of sequences。他把神經網絡和概率模型（例如隱馬爾可夫模型）結合在一起，并和 AT&T 公司合作，用新技術識別手寫的支票。現代深度學習技術中的語音識別也是這些概念的擴展。

此外 Bengio 還于2000年還發表了劃時代的論文“A Neural Probabilistic Language Model”，使用高維詞向量來表征自然語言。他的團隊還引入了注意力機制，讓機器翻譯獲得突破，也成為了讓深度學習處理序列的重要技術。

Yann LeCun 的代表貢獻之一是卷積神經網絡。1980年代，LeCun 發明了卷積神經網絡，現在已經成為了機器學習領域的基礎技術之一，也讓深度學習效率更高。1980年代末期，Yan LeCun 在多倫多大學和貝爾實驗室工作期間，首次將卷積神經網絡用于手寫數字識別。

今天，卷積神經網絡已經成為了業界標準技術，廣泛用于計算機視覺、語音識別、語音合成、圖片合成，以及自然語言處理等學術方向，以及自動駕駛、醫學圖片識別、語音助手、信息過濾等工業應用方向。

LeCun 的第二個重要貢獻是改進了反向傳播算法。他提出了一個早期的反向傳播算法 backprop，也根據變分原理給出了一個簡潔的推導。他的工作讓反向傳播算法更快，比如描述了兩個簡單的方法可以減少學習時間。

LeCun 第三個貢獻是拓展了神經網絡的應用范圍。他把神經網絡變成了一個可以完成大量不同任務的計算模型。他早期引進的一些工作現在已經成為了人工智能的基礎概念。

例如，在圖片識別領域，他研究了如何讓神經網絡學習層次特征，這一方法現在已經用于很多日常的識別任務。他們還提出了可以操作結構數據的深度學習架構。

Geoffrey Hinton

反向傳播：在 1986 年與 David Rumelhart 和 Ronald Williams 共同撰寫的 “Learning Internal Representations by Error Propagation” 一文中，Hinton 證明了反向傳播算法允許神經網絡發現自己的數據內部表示，這使得使用神經網絡成為可能網絡解決以前被認為超出其范圍的問題。如今，反向傳播算法是大多數神經網絡的標準。

玻爾茲曼機（Boltzmann Machines）：1983 年，Hinton 與 Terrence Sejnowski 一起發明了玻爾茲曼機，這是第一個能夠學習不屬于輸入或輸出的神經元內部表示的神經網絡之一。

卷積神經網絡的改進：2012 年，Hinton 和他的學生 Alex Krizhevsky 以及 Ilya Sutskever 通過 Rectified Linear Neurons 和 Dropout Regularization 改進了卷積神經網絡，并在著名的 ImageNet 評測中將對象識別的錯誤率減半，在計算機視覺領域掀起一場革命。

Yoshua Bengio

序列的概率模型：在 20 世紀 90 年代，Bengio 將神經網絡與序列的概率模型相結合，例如隱馬爾可夫模型。這些想法被納入 AT＆T / NCR 用于閱讀手寫支票中，被認為是 20 世紀 90 年代神經網絡研究的巔峰之作。現代深度學習語音識別系統也是這些概念的擴展。

高維詞匯嵌入和關注：2000 年，Bengio 撰寫了具有里程碑意義的論文“A Neural Probabilistic Language Model”，它引入了高維詞向量作為詞義的表示。Bengio 的見解對自然語言處理任務產生了巨大而持久的影響，包括語言翻譯、問答和視覺問答。他的團隊還引入了注意力機制，這種機制促使了機器翻譯的突破，并構成了深度學習的序列處理的關鍵組成部分。

生成性對抗網絡：自 2010 年以來，Bengio 關于生成性深度學習的論文，特別是與 Ian Goodfellow 共同開發的生成性對抗網絡（GAN），引發了計算機視覺和計算機圖形學的革命。

Yann LeCun

卷積神經網絡：在 20 世紀 80 年代，LeCun 研發了卷積神經網絡，現已成為該領域的基本理論基礎。其讓深度學習更有效。在 20 世紀 80 年代后期，多倫多大學和貝爾實驗室工作期間，LeCun 是第一個在手寫數字圖像上訓練卷積神經網絡系統的人。如今，卷積神經網絡是計算機視覺以及語音識別、語音合成、圖像合成和自然語言處理的行業標準。它們用于各種應用，包括自動駕駛、醫學圖像分析、語音激活助手和信息過濾。

改進反向傳播算法：LeCun 提出了一個早期的反向傳播算法 backprop，并根據變分原理對其進行了簡潔的推導。他的工作讓加快了反向傳播算，包括描述兩種加速學習時間的簡單方法。

拓寬神經網絡的視野：LeCun 還將神經網絡作為可以完成更為廣泛任務的計算模型，其早期工作現已成為 AI 的基礎概念。例如，在圖像識別領域，他研究了如何在神經網絡中學習分層特征表示，這個理念現在通常用于許多識別任務中。與 LéonBottou 一起，他還提出了學習系統可以構建為復雜的模塊網絡，其中通過自動區分來執行反向傳播，目前在每個現代深度學習軟件中得到使用。他們還提出了可以操作結構化數據的深度學習架構，例如圖形。

專業名詞解釋

人工智能 (AI) 是一組技術，使計算機能夠執行各種高級功能，包括查看、理解和翻譯口語和書面語言、分析數據、提出建議等各種能力。

卷積神經網絡（Convolutional Neural Network, CNN）是一種深度學習模型，通常用于圖像、視頻、語音等信號數據的分類和識別任務。

計算機視覺（Computer Vision）是一種利用計算機和數學方法對圖像和視頻進行分析和處理的技術。

機器翻譯（Tencent Machine Translation，TMT）結合了神經機器翻譯和統計機器翻譯的優點，從大規模雙語語料庫自動學習翻譯知識，實現從源語言文本到目標語言文本的自動翻譯，目前可支持十余種語言的互譯。

機器學習是一種人工智能的分支，它是指讓計算機通過學習數據和模式，從而自動改進和優化算法的能力。簡單來說，機器學習是一種讓計算機從數據中學習的方法，而不是通過手動編程來實現特定的任務。

自動駕駛是指通過計算機視覺、傳感器、機器學習等技術，使汽車、無人機等車輛實現自主駕駛、導航和避障等功能，不需要人類駕駛員進行干預或者只需要有限的干預。

語音合成（Text To Speech，TTS）滿足將文本轉化成擬人化語音的需求，打通人機交互閉環。提供多場景、多語言的音色選擇，支持 SSML 標記語言，支持自定義音量、語速等參數，讓發音更專業、更符合場景需求。語音合成廣泛適用于智能客服、有聲閱讀、新聞播報、人機交互等業務場景。

語音助手是一種基于人工智能技術的智能語音交互系統，能夠通過語音和人類用戶進行溝通，幫助用戶完成各種操作或提供各種服務。

結構化數據是指具有固定格式和規則的數據，通常以表格、樹狀結構或關系模型的形式呈現。結構化數據通常具有明確的數據類型和字段，可以進行數據建模和數據分析等操作。結構化數據的常見形式包括關系型數據庫中的表格、XML文檔、CSV文件、JSON數據等。

蒙特卡洛樹搜索（Monte Carlo Tree Search, MCTS）是一種基于統計學習的啟發式搜索算法，用于解決決策問題或增強學習問題。它是以蒙特卡洛方法為基礎，通過模擬大量的隨機游戲來評估每個節點的價值，從而選擇最優的決策路徑。

MCTS主要分為四個步驟：選擇（Selection）、擴展（Expansion）、模擬（Simulation）和回溯（Backpropagation）。在每一步中，算法會根據當前節點的信息，通過模擬多次隨機游戲來評估不同決策路徑的優劣，并選擇一個最具有潛在價值的節點進行擴展和模擬，最終通過回溯來更新每個節點的價值估計，以輔助做出最佳決策。

蒙特卡洛樹搜索在圍棋、象棋等棋類游戲中取得了很好的效果，并在人工智能領域得到廣泛應用。它的優勢在于可以應對狀態空間龐大、不確定性高的決策問題，并且可以在搜索的過程中動態調整策略，以適應不同情況下的決策需求。

反向傳播（Backpropagation）是一種在神經網絡中用于計算梯度并更新模型參數的算法。在訓練一個神經網絡時，我們需要通過最小化損失函數來調整網絡參數，以使得模型能夠更好地擬合訓練數據。而反向傳播就是一種通過計算損失函數關于每個參數的梯度，然后根據這些梯度來更新參數的方法。

通常包含以下步驟：

前向傳播：通過輸入數據以及當前的參數設定，計算得到模型的預測輸出。
計算損失：將模型的輸出與真實標簽進行比較，計算出模型的損失函數值。
反向傳播梯度計算：從輸出層開始，通過鏈式法則計算損失函數對于每個參數的偏導數，即梯度。這一過程將梯度從輸出層傳播回到輸入層。
參數更新：利用梯度下降等優化算法，根據計算得到的梯度信息更新神經網絡中的參數。這一步驟會使得損失函數的值逐漸減小，使得模型表現得更好。

通過反向傳播算法，神經網絡可以在訓練過程中不斷調整參數，以使得模型表現更好地擬合訓練數據，提高其泛化能力。反向傳播算法是深度學習中非常重要的一部分，它使得訓練深層神經網絡變得可能，并且被廣泛應用于各種神經網絡結構中。

大語言模型（Large Language Model）是指具有大量參數和大規模數據訓練得到的語言模型。語言模型是一種用來估計自然語言文本序列概率的模型，可以用來預測下一個單詞或者生成連續的文本。

大語言模型通常基于神經網絡架構，例如循環神經網絡（RNN）或者變換器（Transformer）等。這些模型在訓練時需要大規模的文本數據集，以及大量的計算資源和時間。通過在大規模數據集上進行訓練，大語言模型可以學習到更復雜的語言結構和規律，從而在生成文本、翻譯、文本分類等自然語言處理任務中表現更好。

一些著名的大語言模型包括GPT-3（Generative Pre-trained Transformer-3）和BERT（Bidirectional Encoder Representations from Transformers）。這些模型在各種自然語言處理任務中取得了令人矚目的成績，使得自然語言處理領域取得了重大的進展和突破。

多模態輸入指的是包含多種不同類型數據的輸入，例如文本、圖像、音頻、視頻等多種形式的數據。在自然語言處理和計算機視覺領域，多模態輸入成為了一個研究熱點，因為實際應用場景中往往需要同時處理多種類型的數據來完成任務。

例如，在圖像描述生成任務中，輸入包含圖像和文本描述，模型需要通過處理圖像和文本數據來生成描述圖片內容的文本。在視頻理解任務中，輸入可能包含視頻、音頻和文本，模型需要結合這些不同類型的數據來理解視頻內容。在智能對話系統中，輸入可能包含文本和聲音等多種形式的數據，模型需要綜合考慮多種數據類型來進行回答和交互。

多模態輸入的處理通常需要結合多種不同類型數據的特征表示和融合方法，以便模型可以有效地利用不同數據類型之間的相關性和信息。

知識蒸餾（Knowledge Distillation）是一種模型壓縮技術，旨在通過在一個較大復雜模型（教師模型）和一個較小簡單模型（學生模型）之間進行知識遷移，從而提高小模型的性能。知識蒸餾的基本思想是利用教師模型的知識（soft labels、logits和attention weights等）來指導學生模型，以便學生模型學習到更深層次、更豐富的特征表示，從而達到提升性能的目的。

在知識蒸餾中，教師模型通常是一個較大的深度神經網絡，擁有較高的性能和表達能力，而學生模型則是一個簡化版本的模型，通常具有更少的參數和計算量。通過知識蒸餾，學生模型可以利用教師模型的復雜知識和經驗，更有效地學習到數據的特征表示，從而在保持模型精度的同時減少計算和內存消耗。

MATLAB代碼是使用MATLAB編程語言編寫的程序或腳本。MATLAB是一種高級的數學軟件，廣泛用于科學和工程領域。MATLAB代碼可以用來執行各種數學計算、數據分析、圖形繪制等任務。MATLAB代碼通常采用矩陣表示數據和進行計算，具有強大的數學計算能力和豐富的功能庫。