ChatGPT 開發商 OpenAI 構建人工智能的方法本周遭到了前員工的抨擊,他們指責該公司利用可能有害的技術冒不必要的風險。今天,OpenAI 發布了一篇新的研究論文,目的顯然是為了表明它在通過提高模型的可解釋性來應對人工智能風險方面的認真態度。
在論文中,該公司的研究人員提出了一種窺探為 ChatGPT 提供動力的人工智能模型內部的方法。他們設計了一種方法來識別模型如何存儲某些概念–包括那些可能導致人工智能系統行為失常的概念。
雖然這項研究使 OpenAI 在控制人工智能方面的工作更加引人注目,但也凸顯了該公司最近的動蕩。新研究由 OpenAI最近解散的"超對齊"團隊完成,該團隊致力于研究技術的長期風險。
前小組的共同負責人伊利亞-蘇茨克沃(Ilya Sutskever)和揚-萊克(Jan Leike)均已離開OpenAI,并被列為共同作者。蘇茨克沃是OpenAI的創始人之一,曾任首席科學家,去年11月,董事會成員投票解雇了首席執行官山姆-奧特曼(Sam Altman),引發了幾天的混亂,最終奧特曼重返領導崗位。
ChatGPT 由一個名為 GPT 的大型語言模型系列提供支持,該模型基于一種被稱為人工神經網絡的機器學習方法。這些數學網絡通過分析示例數據顯示出了學習有用任務的強大能力,但它們的工作原理無法像傳統計算機程序那樣被輕易檢查。人工神經網絡中各層"神經元"之間復雜的相互作用,使得逆向分析 ChatGPT 這樣的系統為何會得出特定的反應極具挑戰性。
這項工作背后的研究人員在一篇隨附的博文中寫道:“與大多數人類創造物不同,我們并不真正了解神經網絡的內部運作。一些著名的人工智能研究人員認為,包括 ChatGPT 在內的最強大的人工智能模型或許可以用來設計生化武器和協調網絡攻擊。一個更長期的擔憂是,人工智能模型可能會選擇隱藏信息或以有害的方式行事,以實現它們的目標。”
OpenAI 的這篇新論文概述了一種技術,該技術借助額外的機器學習模型,識別代表機器學習系統內部特定概念的模式,從而稍稍降低了神秘感。創新的關鍵在于通過識別概念來完善用于窺探系統內部的網絡,從而提高效率。
OpenAI 通過在其最大的人工智能模型之一 GPT-4 中識別代表概念的模式證明了這種方法。該公司發布了與可解釋性工作相關的代碼,以及一個可視化工具,用于查看不同句子中的單詞如何激活 GPT-4 和另一個模型中的概念,包括褻瀆和色情內容。了解一個模型是如何表現某些概念的,這將有助于減少與不受歡迎的行為相關的概念,使人工智能系統保持正常運行。它還可以調整人工智能系統,使其偏向于某些主題或想法。
盡管 LLM 無法被輕易解讀,但越來越多的研究表明,它們可以被穿透,從而揭示出有用的信息。由亞馬遜和Google支持的 OpenAI 競爭對手 Anthropic 上個月也發表了類似的人工智能可解釋性研究成果。為了演示如何調整人工智能系統的行為,該公司的研究人員創造了一個癡迷于舊金山金門大橋的聊天機器人。有時,只需讓人工只能機器人解釋其推理過程,就能獲得深刻的見解。
東北大學從事人工智能可解釋性研究的教授大衛-鮑(David Bau)在談到 OpenAI 的新研究時說:"這是令人興奮的進展。“作為一個領域,我們需要學習如何更好地理解和審視這些大型模型。”
鮑說,OpenAI 團隊的主要創新在于展示了一種配置小型神經網絡的更有效方法,該網絡可用于理解大型神經網絡的組成部分。但他也指出,這項技術還需要改進,以使其更加可靠。要利用這些方法創造出完全可以理解的解釋,還有很多工作要做。"
鮑是美國政府資助的一項名為"國家深度推理結構"(National Deep Inference Fabric)的工作的一部分,這項工作將向學術研究人員提供云計算資源,以便他們也能探索特別強大的人工智能模型。他說:“我們需要想辦法讓科學家即使不在這些大公司工作,也能從事這項工作。”
OpenAI 的研究人員在論文中承認,要改進他們的方法還需要進一步的工作,但他們也表示,希望這種方法能帶來控制人工智能模型的實用方法。他們寫道:“我們希望有一天,可解釋性能為我們提供推理模型安全性和魯棒性的新方法,并通過為強大的人工智能模型的行為提供強有力的保證,大大增加我們對它們的信任。”
閱讀論文全文:
https://cdn.openai.com/papers/sparse-autoencoders.pdf