神經網絡是如何工作的?這是一個讓新手和專家都感到困惑的問題。麻省理工學院計算機科學和人工智能實驗室(CSAIL)的一個團隊表示,理解這些表示,以及它們如何為神經網絡從數據中學習的方式提供信息,對于提高深度學習模型的可解釋性、效率和普遍性至關重要。
有了這個想法,CSAIL研究人員開發了一個新的框架來理解神經網絡中的表征是如何形成的。他們的規范表征假設(CRH)假設,在訓練期間,神經網絡固有地對齊每一層內的潛在表征、權重和神經元梯度。這種對齊意味著神經網絡根據偏離CRH的程度和模式自然地學習緊湊的表征。資深作者托馬索·波焦說,通過理解和利用這種對齊,工程師可以潛在地設計出更高效、更容易理解的網絡。
該團隊相應的多項式對齊假設(PAH)假設,當CRH被破壞時。不同的階段出現,其中表示、梯度和權重成為彼此的多項式函數。Poggio說,CRH和PAH為神經崩潰和神經特征ansatz(NFA)等關鍵深度學習現象提供了一個潛在的統一理論。
關于該項目的一篇新的CSAIL論文提供了各種設置的實驗結果,以支持CRH和PAH在包括圖像分類和自監督學習在內的任務上。CRH建議手動將噪聲注入神經元梯度以設計模型表示中的特定結構的可能性。Poggio說,未來的一個關鍵方向是了解導致每個階段的條件,以及這些階段如何影響模型的行為和性能。
“這篇論文為理解通過CRH和PAH形成神經網絡中的表征提供了一個新的視角,”波吉奧說。"這為統一現有觀察和指導深度學習的未來研究提供了一個框架.
CSAIL博士后、合著者劉子銀表示,CRH可以解釋神經科學中的某些現象,因為它暗示神經網絡傾向于學習正交化表示,這在最近的大腦研究中已經觀察到。它還可能具有算法含義:如果表示與梯度一致,就有可能手動將噪聲注入神經元梯度,以設計模型表示中的特定結構。
紫音和波焦與艾薩克·莊教授和前博士后托默·加蘭蒂共同撰寫了這篇論文,托默·加蘭蒂現在是德克薩斯A&M大學的計算機科學助理教授。他們將于本月晚些時候在新加坡舉行的國際學習表示會議(ICLR)上發表這篇論文。