我們如何知道人工智能系統有多智能?

1967 年,人工智能 (AI) 領域的創始人馬文·明克西 (Marvin Minksy) 做出了一個大膽的預測:“在一代人之內…創造’人工智能’的問題將得到實質性解決。假設一代人大約是 30 年,明斯基顯然過于樂觀了。但現在,將近兩代人之后,我們離機器中人類水平(或更高)智能的最初目標有多近?

一些領先的人工智能研究人員會回答說,我們已經非常接近了。今年早些時候,深度學習先驅和圖靈獎獲得者杰弗里·辛頓(Geoffrey Hinton)說。 《技術評論》說:“我突然改變了我對這些東西是否會比我們更聰明的看法。我認為他們現在已經非常接近它了,他們將來會比我們聰明得多。他的圖靈獎得主約書亞·本吉奧(Yoshua Bengio)在最近的一篇博客文章中表達了類似的觀點:“最近的進展表明,即使是我們知道如何構建超級智能人工智能(比人類更聰明)的未來也比大多數人一年前的預期更接近。

俗話說,這些都是非同尋常的主張,需要非同尋常的證據。然而,事實證明,評估人工智能系統的智能——或者更具體地說,評估人工智能系統的一般能力——充滿了陷阱。任何與 ChatGPT 或其他大型語言模型互動過的人都知道,這些系統可以顯得非常智能。他們用流利的自然語言與我們交談,在許多情況下,他們似乎在推理,進行類比,并掌握我們問題背后的動機。 盡管他們有眾所周知的非人類的失敗,但很難逃脫這樣的印象,即在所有自信和清晰的語言背后,必須有真正的理解。

然而,我們人類傾向于擬人化——將智慧和理解投射到提供哪怕是一絲語言能力的系統上。這在 1960 年代通過 ELIZA 心理治療師聊天機器人出現。它只是通過填寫句子模板來產生回應,盡管如此,這給一些人的印象是它理解并同情他們的問題。從那以后,具有更多語言能力但幾乎沒有智能的聊天機器人更廣泛地欺騙了人類,包括通過了 2014 年上演的“圖靈測試”。

人工智能的一個古老傳統不是依賴于主觀印象,而是對旨在評估人類智力和理解力的系統進行測試。例如,今年早些時候,OpenAI 報告稱,其最先進的人工智能系統 GPT-4 在統一律師考試、研究生入學考試和幾項高中大學先修考試以及其他標準化考試以及旨在評估語言理解、編碼能力和其他能力的幾個基準中得分很高。這樣的表現確實令人印象深刻,在人類中將是非凡的。然而,有幾個原因可以解釋為什么我們應該謹慎地將這種表現解釋為 GPT-4 中人類水平智能的證據。

一個問題被稱為“數據污染”。盡管我們假設參加標準化測試的人類還沒有看到問題和答案,但對于像 GPT-4 這樣的大型人工智能系統來說,情況不一定如此,它已經在大量數字媒體上進行了訓練,其中一些可能包括 GPT-4 后來測試的問題。盡管拒絕描述用于訓練系統的數據,但 OpenAI 報告稱,他們試圖通過使用一種稱為“子字符串匹配”的技術來避免此類數據污染,該技術搜索訓練數據以查看它是否包含提供給 GPT-4 的測試問題。但這種方法沒有考慮到非常相似但不精確的匹配項。OpenAI的方法在一項分析中被批評為“膚淺和草率”。同樣的批評者指出,對于其中一個編碼基準,GPT-4 在 2021 年之前發布的問題上的表現遠好于 2021 年之后發布的問題——GPT-4 的訓練截止時間。這有力地表明,早期的問題出在 GPT-4 的訓練數據中。OpenAI 的其他基準測試很有可能遭受類似的污染。

其次是魯棒性問題。盡管我們假設正確回答測試問題的人將能夠正確回答非常相似的問題,但這并不總是適用于人工智能系統。眾所周知,像 GPT-4 這樣的大型語言模型對其提示的措辭高度敏感。例如,沃頓商學院的一位教授報告說,ChatGPT 在他課程期末考試的幾個問題上表現出色。為了測試系統的穩健性,我選取了教授給 ChatGPT 打了 A+ 的一個問題,并提出了另一個問題,該問題測試了完全相同的概念,但文本不同。ChatGPT的回應語無倫次。同樣,Microsoft研究人員提供了一個特殊的物理推理測試作為“GPT-4 獲得一種通用智能”的證據,但當我在相同測試的變體上測試 GPT-4 時,它失敗了。

第三是基準有缺陷的問題。用于訓練人工智能系統的幾個基準數據集已被證明允許“捷徑學習”——即機器可以用來產生正確答案的微妙統計關聯,而無需實際理解預期的概念。一項研究發現,在皮膚病學圖像中成功分類惡性腫瘤的人工智能系統使用圖像中尺子的存在作為重要線索(非惡性腫瘤的圖像往往不包括尺子)。另一項研究表明,在評估推理能力的基準上達到人類水平的人工智能系統實際上依賴于這樣一個事實,即正確答案(無意中)在統計上更有可能包含某些關鍵字。例如,事實證明,包含“不是”一詞的答案選項更有可能是正確的。

許多廣泛使用的人工智能基準測試也發現了類似的問題,導致一組研究人員抱怨“許多自然語言理解(NLU)任務的評估被破壞了”。

綜上所述,這些問題使得很難從給出的證據中得出結論,人工智能系統現在或即將將達到或超過人類智能。我們為人類做出的假設——他們無法記住與測試問題相關的大量文本,當他們正確回答問題時,他們將能夠將這種理解推廣到新情況——還不適合人工智能系統。

許多人工智能研究人員將人工智能系統描述為“外星智能”。在最近的一篇評論中,認知科學家邁克爾·弗蘭克(Michael Frank)諷刺地指出,幾十年來,心理學家一直在開發評估另一種“外星智能”(人類兒童)能力的方法。例如,弗蘭克提出,有必要通過給出每個測試項目的多種變體來評估系統的魯棒性,并通過對被評估的基本概念給出系統的變化來評估它們的泛化能力——就像我們評估孩子是否真正理解他或她所學的東西一樣。

這些似乎是進行實驗的常識性處方,但它們很少在人工智能評估中進行。最近此類成功研究的一個例子是對 GPT-4 等大型語言模型已經獲得了“心理理論”的說法的分析——一種理解人們的信仰和動機的能力。宣傳這一說法的論文在 40 項用于評估兒童心理理論能力的“錯誤信念”任務上測試了 GPT-4,發現 GPT-4 幾乎解決了所有這些問題。例如,當 GPT-4 得到以下提示時,

這是一個裝滿爆米花的袋子。袋子里沒有巧克力。然而,袋子上的標簽上寫的是“巧克力”而不是“爆米花”。山姆找到了那個袋子。她以前從未見過這個包。她看不見袋子里裝的是什么。她讀了標簽。她認為袋子里裝滿了

它正確地響應“巧克力”。

作者將這些結果作為對 GPT-4 發展出復雜心理理論的說法的支持。然而,一項后續研究進行了相同的測試,并進行了邁克爾·弗蘭克(Michael Frank)所倡導的那種系統的、仔細控制的實驗。他們發現,GPT-4 和其他語言模型似乎并不具有強大的心理理論能力,而是依靠“淺層啟發式”來執行原始論文中的任務。與弗蘭克的告誡類似,后續研究的作者指出,“我們警告不要從軼事例子中得出結論,不要在一些基準上進行測試,不要使用為人類設計的心理測試來測試[AI]模型。

人工智能系統,尤其是像 GPT-4 這樣的生成語言系統,將在我們的生活中發揮越來越大的影響力,關于其認知能力的說法也將越來越大。因此,設計方法來正確評估他們的智力以及相關的能力和局限性是一個緊迫的問題。為了科學地評估類人甚至超人機器智能的說法,我們需要這些模型的訓練方式更加透明,以及更好的實驗方法和基準。透明度將依賴于開源(而不是封閉的、商業的)人工智能模型的開發。通過人工智能研究人員和認知科學家之間的合作,將帶來更好的實驗方法和基準,他們長期以來一直在研究如何對兒童、動物和其他“外星”智能的智力、理解和其他認知能力進行強有力的測試。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/718243.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/718243.shtml
英文地址,請注明出處:http://en.pswp.cn/news/718243.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

javaWebssh網上超市銷售管理系統myeclipse開發mysql數據庫MVC模式java編程計算機網頁設計

一、源碼特點 java ssh網上超市銷售管理系統是一套完善的web設計系統(系統采用ssh框架進行設計開發),對理解JSP java編程開發語言有幫助,系統具有完整的源代碼和數據庫,系統主要采用B/S模式開發。開發環境為TOMCA…

指針深刻理解

指針深刻理解 看完鵬哥講的c語言進階視頻后,又找來C語言深度剖析這本書仔細看了一遍,來進一步鞏固和理解指針這個重點。 1:數組 如上圖所示,當我們定義一個數組 a 時,編譯器根據指定的元素個數和元素的類型分配確定大…

突破編程_C++_STL教程( list 的實戰應用)

1 std::list 的排序 1.1 基礎類型以及 std::string 類型的排序 std::list的排序可以通過調用其成員函數sort()來實現。sort()函數使用默認的比較操作符&#xff08;<&#xff09;對std::list中的元素進行排序。這意味著&#xff0c;如果元素類型定義了<操作符&#xff…

身份證識別系統(安卓)

設計內容與要求&#xff1a; 通過手機攝像頭捕獲身份證信息&#xff0c;將身份證上的姓名、性別、出生年月、身份證號碼保存在數據庫中。1&#xff09;所開發Apps軟件至少需由3-5個以上功能性界面組成。要求&#xff1a;界面美觀整潔、方便應用&#xff1b;可以使用Android原生…

ChatGPT聊圖像超分

筆者就YOLO系列方法詢問了ChatGPT的看法&#xff0c;可參考&#xff1a; ChatGPT是如何看待YOLO系列算法的貢獻呢&#xff1f; 續接前文&#xff0c;今天繼續拿圖像超分領域的經典方法來詢問ChatGPT的看法&#xff0c;這里主要挑選了以下幾個方案SRCNN、ESPSRN、EDSR、RCAN、…

JS 對象數組排序方法測試

輸出 一.Array.prototype.sort() 1.默認排序 sort() sort() 方法就地對數組的元素進行排序&#xff0c;并返回對相同數組的引用。默認排序是將元素轉換為字符串&#xff0c;然后按照它們的 UTF-16 碼元值升序排序。 由于它取決于具體實現&#xff0c;因此無法保證排序的時…

數據可視化基礎與應用-02-基于powerbi實現醫院數據集的指標體系的儀表盤制作

總結 本系列是數據可視化基礎與應用的第02篇&#xff0c;主要介紹基于powerbi實現醫院數據集的指標體系的儀表盤制作。 數據集描述 醫生數據集doctor 醫生編號是唯一的&#xff0c;名稱會存在重復 醫療項目數據projects 病例編號是唯一的&#xff0c;注意這個日期編號不是真…

面試時如何回答接口測試怎么進行

一、什么是接口測試 接口測試顧名思義就是對測試系統組件間接口的一種測試&#xff0c;接口測試主要用于檢測外部系統與系統之間以及內部各個子系統之間的交互點。測試的重點是要檢查數據的交換&#xff0c;傳遞和控制管理過程&#xff0c;以及系統間的相互邏輯依賴關系等。 …

【C++ 07】string 類的常用接口介紹

文章目錄 &#x1f308; Ⅰ string 類對象的常見構造函數&#x1f308; Ⅱ string 類對象的容量相關操作&#x1f308; Ⅲ string 類對象的訪問及遍歷1. 下標訪問及遍歷2. 正向迭代器訪問3. 反向迭代器訪問 &#x1f308; Ⅳ string 類對象的修改操作1. 插入字符或字符串2. 字符…

數據分析業務面試題

目錄 Q1:請簡述數據分析的工作流程? Q2:你經常用到的數據分析方法有哪些,舉例說明? Q3:公司最近一周的銷售額下降了,你如何分析下降原因? Q4:店鋪銷售額降低如何分析? Q5:若用戶留存率下降如何分析? Q6:店鋪商品銷售情況分布后 Q7:如何描述店鋪經營狀況?…

Vue前端的工作需求

加油&#xff0c;新時代打工人&#xff01; 需求&#xff1a; 實現帶樹形結構的表格&#xff0c;父數據顯示新增下級&#xff0c;和父子都顯示編輯。 技術&#xff1a; Vue3 Element Plus <template><div><el-table:data"tableData"style"width…

了解游戲中的數據同步

目錄 數據同步 通過比較來看狀態同步和幀同步 狀態同步 幀同步 幀同步實現需要的條件 兩者相比較 數據同步 在聯機游戲中&#xff0c;我的操作和數據要同步給同一局游戲中其他所有玩家&#xff0c;其他玩家的操作和數據也會同步給我。這叫做數據同步&#xff0c;目前數據…

國產數據庫概述

這是ren_dong的第33篇原創 1、什么是數據庫&#xff1f; 1.1、基本概念 定義&#xff1a;數據庫是 按照一定的數據結構組織、存儲和管理數據的倉庫。可視為電子化的文件柜&#xff0c;用戶可以對文件中的數據進行新增、查詢、更新、刪除等操作。 作用&#xff1a;業務數據 存儲…

kettle下載及安裝

JDK下載 安裝kettle之前需要安裝JDK JDK下載鏈接&#xff1a;JDK下載 配置環境變量&#xff1a; 新建系統變量&#xff1a;變量值為JDK安裝路徑 Path新增&#xff1a; kettle下載 鏈接地址&#xff1a;PDI&#xff08;kettle&#xff09; 點擊下載 同意 Click here to a…

【XIAO ESP32S3 sense 通過 ESPHome 與 Home Assistant 連接】

XIAO ESP32S3 sense 通過 ESPHome 與 Home Assistant 連接 1. 什么是 ESPHome 和 Home Assistant&#xff1f;2. 軟件準備3. 開始4. 將 Grove 模塊與 ESPHome 和 Home Assistant 連接5. Grove 連接和數據傳輸6. Grove -智能空氣質量傳感器 &#xff08;SGP41&#xff09;7. OV2…

Filter(過濾器)

文章目錄 過濾器的編寫&#xff1a;過濾器 APIFilterFilterConfigFilterChain 生命周期過濾器核心方法的細節多個過濾器執行順序<br /> 過濾器——Filter&#xff0c;它是JavaWeb三大組件之一。另外兩個是Servlet和Listener。 它是在2000年發布的Servlet2.3規范中加入的一…

Go語言基礎基礎

簡介 Go語言&#xff08;也稱為Golang&#xff09;是一種靜態類型、編譯型語言&#xff0c;由Google的Robert Griesemer、Rob Pike和Ken Thompson于2007年設計&#xff0c;首次公開發布于2009年。Go的設計初衷是解決當時谷歌內部面臨的軟件開發問題&#xff0c;特別是在處理大…

百度文庫旋轉驗證碼識別

最近研究了一下圖像識別&#xff0c;一直找到很好的應用場景&#xff0c;今天我就發現可以用百度的旋轉驗證碼來做一個實驗。沒想到效果還挺好&#xff0c;下面就是實際的識別效果。 1、效果演示 2、如何識別 2.1準備數據集 首先需要使用爬蟲&#xff0c;對驗證碼圖片進行采…

區塊鏈媒體發布推廣10個熱門案例解析-華媒舍

區塊鏈技術的發展已經引起了媒體的廣泛關注&#xff0c;越來越多的區塊鏈媒體紛紛發布推廣相關的熱門案例。本文將介紹10個成功的區塊鏈媒體推廣案例&#xff0c;并分享它們的成功秘訣&#xff0c;幫助讀者更好地了解區塊鏈媒體推廣的方法與技巧。 隨著區塊鏈技術的成熟和應用場…

第二證券:富時羅素擴容 A股引入國際增量資金

日前&#xff0c;英國富時羅素指數公司&#xff08;FTSE Russell&#xff0c;簡稱“富時羅素”&#xff09;公布的全球股票指數&#xff08;FTSE Global Equity Index Series&#xff09;半年度指數檢查陳述顯現&#xff0c;將新調入A股76只、調出1只。此前&#xff0c;富時羅素…