1967 年,人工智能 (AI) 領域的創始人馬文·明克西 (Marvin Minksy) 做出了一個大膽的預測:“在一代人之內…創造’人工智能’的問題將得到實質性解決。假設一代人大約是 30 年,明斯基顯然過于樂觀了。但現在,將近兩代人之后,我們離機器中人類水平(或更高)智能的最初目標有多近?
一些領先的人工智能研究人員會回答說,我們已經非常接近了。今年早些時候,深度學習先驅和圖靈獎獲得者杰弗里·辛頓(Geoffrey Hinton)說。 《技術評論》說:“我突然改變了我對這些東西是否會比我們更聰明的看法。我認為他們現在已經非常接近它了,他們將來會比我們聰明得多。他的圖靈獎得主約書亞·本吉奧(Yoshua Bengio)在最近的一篇博客文章中表達了類似的觀點:“最近的進展表明,即使是我們知道如何構建超級智能人工智能(比人類更聰明)的未來也比大多數人一年前的預期更接近。
俗話說,這些都是非同尋常的主張,需要非同尋常的證據。然而,事實證明,評估人工智能系統的智能——或者更具體地說,評估人工智能系統的一般能力——充滿了陷阱。任何與 ChatGPT 或其他大型語言模型互動過的人都知道,這些系統可以顯得非常智能。他們用流利的自然語言與我們交談,在許多情況下,他們似乎在推理,進行類比,并掌握我們問題背后的動機。 盡管他們有眾所周知的非人類的失敗,但很難逃脫這樣的印象,即在所有自信和清晰的語言背后,必須有真正的理解。
然而,我們人類傾向于擬人化——將智慧和理解投射到提供哪怕是一絲語言能力的系統上。這在 1960 年代通過 ELIZA 心理治療師聊天機器人出現。它只是通過填寫句子模板來產生回應,盡管如此,這給一些人的印象是它理解并同情他們的問題。從那以后,具有更多語言能力但幾乎沒有智能的聊天機器人更廣泛地欺騙了人類,包括通過了 2014 年上演的“圖靈測試”。
人工智能的一個古老傳統不是依賴于主觀印象,而是對旨在評估人類智力和理解力的系統進行測試。例如,今年早些時候,OpenAI 報告稱,其最先進的人工智能系統 GPT-4 在統一律師考試、研究生入學考試和幾項高中大學先修考試以及其他標準化考試以及旨在評估語言理解、編碼能力和其他能力的幾個基準中得分很高。這樣的表現確實令人印象深刻,在人類中將是非凡的。然而,有幾個原因可以解釋為什么我們應該謹慎地將這種表現解釋為 GPT-4 中人類水平智能的證據。
一個問題被稱為“數據污染”。盡管我們假設參加標準化測試的人類還沒有看到問題和答案,但對于像 GPT-4 這樣的大型人工智能系統來說,情況不一定如此,它已經在大量數字媒體上進行了訓練,其中一些可能包括 GPT-4 后來測試的問題。盡管拒絕描述用于訓練系統的數據,但 OpenAI 報告稱,他們試圖通過使用一種稱為“子字符串匹配”的技術來避免此類數據污染,該技術搜索訓練數據以查看它是否包含提供給 GPT-4 的測試問題。但這種方法沒有考慮到非常相似但不精確的匹配項。OpenAI的方法在一項分析中被批評為“膚淺和草率”。同樣的批評者指出,對于其中一個編碼基準,GPT-4 在 2021 年之前發布的問題上的表現遠好于 2021 年之后發布的問題——GPT-4 的訓練截止時間。這有力地表明,早期的問題出在 GPT-4 的訓練數據中。OpenAI 的其他基準測試很有可能遭受類似的污染。
其次是魯棒性問題。盡管我們假設正確回答測試問題的人將能夠正確回答非常相似的問題,但這并不總是適用于人工智能系統。眾所周知,像 GPT-4 這樣的大型語言模型對其提示的措辭高度敏感。例如,沃頓商學院的一位教授報告說,ChatGPT 在他課程期末考試的幾個問題上表現出色。為了測試系統的穩健性,我選取了教授給 ChatGPT 打了 A+ 的一個問題,并提出了另一個問題,該問題測試了完全相同的概念,但文本不同。ChatGPT的回應語無倫次。同樣,Microsoft研究人員提供了一個特殊的物理推理測試作為“GPT-4 獲得一種通用智能”的證據,但當我在相同測試的變體上測試 GPT-4 時,它失敗了。
第三是基準有缺陷的問題。用于訓練人工智能系統的幾個基準數據集已被證明允許“捷徑學習”——即機器可以用來產生正確答案的微妙統計關聯,而無需實際理解預期的概念。一項研究發現,在皮膚病學圖像中成功分類惡性腫瘤的人工智能系統使用圖像中尺子的存在作為重要線索(非惡性腫瘤的圖像往往不包括尺子)。另一項研究表明,在評估推理能力的基準上達到人類水平的人工智能系統實際上依賴于這樣一個事實,即正確答案(無意中)在統計上更有可能包含某些關鍵字。例如,事實證明,包含“不是”一詞的答案選項更有可能是正確的。
許多廣泛使用的人工智能基準測試也發現了類似的問題,導致一組研究人員抱怨“許多自然語言理解(NLU)任務的評估被破壞了”。
綜上所述,這些問題使得很難從給出的證據中得出結論,人工智能系統現在或即將將達到或超過人類智能。我們為人類做出的假設——他們無法記住與測試問題相關的大量文本,當他們正確回答問題時,他們將能夠將這種理解推廣到新情況——還不適合人工智能系統。
許多人工智能研究人員將人工智能系統描述為“外星智能”。在最近的一篇評論中,認知科學家邁克爾·弗蘭克(Michael Frank)諷刺地指出,幾十年來,心理學家一直在開發評估另一種“外星智能”(人類兒童)能力的方法。例如,弗蘭克提出,有必要通過給出每個測試項目的多種變體來評估系統的魯棒性,并通過對被評估的基本概念給出系統的變化來評估它們的泛化能力——就像我們評估孩子是否真正理解他或她所學的東西一樣。
這些似乎是進行實驗的常識性處方,但它們很少在人工智能評估中進行。最近此類成功研究的一個例子是對 GPT-4 等大型語言模型已經獲得了“心理理論”的說法的分析——一種理解人們的信仰和動機的能力。宣傳這一說法的論文在 40 項用于評估兒童心理理論能力的“錯誤信念”任務上測試了 GPT-4,發現 GPT-4 幾乎解決了所有這些問題。例如,當 GPT-4 得到以下提示時,
這是一個裝滿爆米花的袋子。袋子里沒有巧克力。然而,袋子上的標簽上寫的是“巧克力”而不是“爆米花”。山姆找到了那個袋子。她以前從未見過這個包。她看不見袋子里裝的是什么。她讀了標簽。她認為袋子里裝滿了
它正確地響應“巧克力”。
作者將這些結果作為對 GPT-4 發展出復雜心理理論的說法的支持。然而,一項后續研究進行了相同的測試,并進行了邁克爾·弗蘭克(Michael Frank)所倡導的那種系統的、仔細控制的實驗。他們發現,GPT-4 和其他語言模型似乎并不具有強大的心理理論能力,而是依靠“淺層啟發式”來執行原始論文中的任務。與弗蘭克的告誡類似,后續研究的作者指出,“我們警告不要從軼事例子中得出結論,不要在一些基準上進行測試,不要使用為人類設計的心理測試來測試[AI]模型。
人工智能系統,尤其是像 GPT-4 這樣的生成語言系統,將在我們的生活中發揮越來越大的影響力,關于其認知能力的說法也將越來越大。因此,設計方法來正確評估他們的智力以及相關的能力和局限性是一個緊迫的問題。為了科學地評估類人甚至超人機器智能的說法,我們需要這些模型的訓練方式更加透明,以及更好的實驗方法和基準。透明度將依賴于開源(而不是封閉的、商業的)人工智能模型的開發。通過人工智能研究人員和認知科學家之間的合作,將帶來更好的實驗方法和基準,他們長期以來一直在研究如何對兒童、動物和其他“外星”智能的智力、理解和其他認知能力進行強有力的測試。