人工智能正在學習自我提升的方式

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

上周,馬克·扎克伯格宣布,Meta的目標是實現“比人類更聰明的人工智能”。他似乎已經有了實現這一目標的“配方”,而第一種關鍵原料就是人類人才。據報道,扎克伯格曾試圖以九位數的薪酬吸引頂尖研究人員加入Meta超級智能實驗室。第二種原料則是人工智能本身。扎克伯格在一次財報電話會議上表示,Meta超級智能實驗室將專注于打造能夠自我提升的AI系統——這些系統可以自我引導,不斷提升性能。

自我改進的可能性讓人工智能區別于其他革命性技術。比如,CRISPR基因編輯無法自己提升DNA序列靶向能力,核聚變反應堆也不能自行找到商業化的突破口。但大型語言模型(LLM)卻能優化運行所依賴的計算芯片、廉價高效地訓練其他LLM,甚至可能提出全新的AI研究思路。在這些領域,AI已經取得了不小的進展。

扎克伯格認為,AI的自我提升可能會帶來一個人類擺脫日常瑣事、在超高效智能伙伴的支持下追求更高目標的世界。然而,非營利AI研究機構METR的政策主管克里斯·佩因特(Chris Painter)警告說,自我改進也伴隨著根本性風險。如果AI能夠加速自身能力發展,它可能會迅速提升黑客攻擊、武器設計和操縱人類的能力。一些研究人員甚至推測,這種正反饋循環可能導致所謂的“智能爆炸”,即AI在短時間內將自身能力提升到遠超人類的水平。

即便不是最悲觀的預測者,也不得不認真對待自我改進AI的潛在影響。OpenAI、Anthropic和谷歌在各自的AI安全框架中,都提到了自動化AI研究這一概念,與化學武器、網絡安全等熟悉的風險類別并列。英屬哥倫比亞大學計算機科學教授、谷歌DeepMind高級研究顧問杰夫·克魯恩(Jeff Clune)指出:“我認為這是通往強大AI的最快路徑,可能是我們最應該關注的事情。”

克魯恩同時表示,自動化AI研發也可能帶來巨大好處。單憑人類,可能無法想到那些能讓AI有朝一日解決癌癥、氣候變化等巨大難題的創新與改進。

目前,人類的創造力仍然是AI進步的主要引擎,否則Meta也不會用如此高昂的待遇去吸引研究人員進入其超級智能實驗室。但AI已經開始參與自身的研發過程,而且在未來幾年中,這種參與度有望進一步增加。以下是AI正在“讓自己變得更好”的五種方式。

1. 提升生產力
目前,LLM對AI研發最重要的貢獻或許也是最平凡的:編程輔助。“最大作用就是編程幫助。”AI研究機構Forethought的高級研究員湯姆·戴維森(Tom Davidson)表示。像Claude Code和Cursor這樣的工具能幫助工程師更快地編寫代碼,已在AI行業廣受歡迎。谷歌CEO桑達爾·皮查伊(Sundar Pichai)在2024年10月透露,公司四分之一的新代碼由AI生成。Anthropic也記錄了其員工使用Claude Code的多種方式。如果工程師因此提高了生產效率,就能更快設計、測試和部署新的AI系統。

然而,這些工具的生產力優勢仍有待驗證。如果工程師花大量時間糾正AI的錯誤,那么即使手動寫代碼的時間減少,整體效率也未必提高。METR最近的一項研究發現,經驗極其豐富的開發人員在使用AI編程助手時,完成任務的時間反而延長了約20%。不過,研究聯合負責人內特·拉什(Nate Rush)強調,該研究針對的是在大型代碼庫上工作的資深開發者,結論未必適用于那些只是寫簡短腳本來跑實驗的AI研究人員。

在前沿實驗室中開展類似研究,可能更清楚地揭示編程助手是否真的能提升頂尖AI研究人員的生產效率。但目前,這樣的研究尚未開展。同時,僅憑軟件工程師的主觀感受并不可靠——METR的研究對象雖然覺得AI編程工具讓自己更高效,實際卻被顯著拖慢了速度。

2. 優化基礎設施
如果運行代碼需要等待數小時、數天甚至數周,再快的編寫速度也無濟于事。LLM訓練尤其緩慢,而最先進的推理模型生成一次響應就可能需要幾分鐘。這些延遲是AI研發的重大瓶頸。斯坦福大學計算機科學助理教授、谷歌DeepMind高級科學家阿扎利婭·米爾霍賽尼(Azalia Mirhoseini)表示:“如果我們能讓AI運行得更快,我們就能更快創新。”

早在2021年,米爾霍賽尼和谷歌的同事就構建了一個非LLM AI系統,用來優化芯片組件布局,從而提升效率。盡管有研究者未能復現其結果,米爾霍賽尼表示,《自然》雜志已對論文進行調查并確認其有效性,而且谷歌確實在多代自研AI芯片設計中采用了該系統的成果。

最近,她將LLM應用于芯片內核(kernel)編寫——這些低層函數決定了矩陣乘法等操作的執行方式。結果顯示,即便是通用LLM,有時也能寫出比人類版本更快的內核。

谷歌的另一支團隊開發了名為AlphaEvolve的系統,用Gemini LLM生成解決問題的算法,對算法進行評估,并反復迭代改進。AlphaEvolve設計了一種新的數據中心運行方法,為谷歌節省了0.7%的計算資源,還改進了定制芯片設計,并開發出一個讓Gemini訓練速度提升1%的新內核。

雖然1%的提升看似微小,但在谷歌這樣的大公司,這意味著巨大的時間、資金和能源節約。AlphaEvolve項目負責人馬泰·巴洛格(Matej Balog)指出,該系統目前只優化了Gemini訓練流程的一個小環節,若更廣泛應用,節省空間會更大。

3. 自動化訓練
LLM以數據“胃口大”著稱,訓練成本高昂。在某些領域(如冷門編程語言),現實世界數據稀缺,難以有效訓練LLM。人類反饋強化學習(RLHF)是訓練LLM符合人類標準的關鍵技術,但獲取人類反饋既慢又貴。

如今,LLM正被用于填補這一空白。只要提供足夠示例,LLM就能在未訓練過的領域生成可信的合成數據,用于模型訓練。在“LLM評判者”(LLM as a judge)方法中,由LLM而非人類來評估模型輸出,這也是Anthropic在2022年提出的“憲法AI”框架的核心。

數據稀缺對AI智能體尤其是難題,因為高效的智能體必須能執行多步計劃,而這種完整成功案例在網上極少。為此,米爾霍賽尼團隊嘗試讓一個LLM智能體生成任務分步方案,由另一個LLM評判每步有效性,再用這些步驟訓練新的智能體。“數據不再是限制,因為模型可以無限生成新的經驗。”她表示。

4. 完善智能體設計
在LLM自身架構設計方面,AI貢獻尚不顯著。如今的LLM都基于2017年人類提出的Transformer結構,后續改進也由人類完成。但LLM智能體的興起開辟了新的設計空間,尤其是與外部世界交互的工具和使用指令的優化。

克魯恩與Sakana AI研究人員共同開發了“達爾文-哥德爾機”(Darwin G?del Machine)——一種能迭代修改自身提示詞、工具及代碼以提升任務表現的LLM智能體。它不僅通過自我修改獲得更高分,還能發現原始版本無法找到的新改進,實現了真正的自我改進循環。

5. 推動科研
盡管LLM加快了研發流程的諸多環節,人類或許仍將在相當長時間內主導AI科研。許多專家認為,科研“品味”——即挑選有前景研究方向的能力——是AI面臨的重大挑戰。

但克魯恩認為,這一挑戰未必如想象般大。他與Sakana AI正在研發名為“AI科學家”的端到端科研系統,能自主在文獻中尋找研究問題、運行實驗并撰寫論文。今年早些時候,該系統提出并測試了一種新的訓練策略,旨在讓神經網絡更好地組合訓練數據中的示例,論文匿名提交至國際機器學習大會(ICML)某研討會,并獲得足夠高的評分進入錄取范圍(盡管研討會的錄取標準低于主會)。另一次,該系統的科研想法后來被一位人類研究者獨立提出,并在社交平臺上引發關注。

克魯恩表示:“我們正處在AI科學家的GPT-1時刻。幾年后,它將撰寫能被頂級期刊和會議接收的論文,甚至作出全新的科學發現。”

超級智能會很快到來嗎?
隨著對AI自我提升的熱情不斷高漲,未來數月乃至數年,AI在自身發展中的作用可能會越來越大。扎克伯格認為,這意味著超越人類能力的超級智能模型或許就在眼前。然而,現實中自我提升AI的影響尚不確定。

例如,AlphaEvolve確實讓核心LLM系統Gemini的訓練速度提升了1%,但這未必會顯著加快谷歌的AI進展。巴洛格指出:“這是一個非常緩慢的反饋循環。Gemini的訓練周期很長,所以目前只是看到這種良性循環的開端。”

如果每一代Gemini都能在訓練速度上再加1%,這種加速效應會復利增長。而且隨著能力提升,每一代都可能帶來更大的速度提升及其他自我優化方法。在這種情況下,超級智能支持者認為“智能爆炸”似乎不可避免。

然而,這種推論忽略了一個關鍵事實:創新會隨著時間變得更加困難。任何科學領域的早期階段,發現往往來得又快又容易;而隨著深度學習科學的成熟,額外改進可能需要投入更多人力和AI協作。等到AI達到人類水平的科研能力時,可能“容易摘的果子”已經被人類和弱AI摘光。

因此,準確評估AI自我提升的實際影響非常困難。更棘手的是,最關鍵的AI系統——那些在前沿公司內部使用的——往往比公開發布的版本更先進,外部研究者難以直接判斷內部情況。

即便如此,外部研究者仍在努力,例如通過監測AI完成任務的速度來推測發展趨勢。METR的研究顯示,自2019年GPT-2發布以來,AI能獨立完成的任務長度大約每7個月翻一倍;自2024年以來,這一倍增周期縮短為4個月,表明AI發展確實在加速。這一加速可能源于充足的投資,也可能部分得益于AI的自我提升。

戴維森表示,METR的研究暗示,目前低垂果效尚未顯著拖慢人類研究速度,或者說投資增長抵消了減速。如果AI顯著提升人類研究人員的生產力,甚至直接接手部分研究工作,那么研究加速的天平將進一步傾向于AI一方。“完全可以預期會有一段時間,AI進展會加快,”戴維森說,“關鍵問題是,這段加速會持續多久。”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/95030.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/95030.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/95030.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Numpy基礎(廣播機制)

廣播機制 Numpy的Universal functions中要求輸入的數組shape是一致的,當數組的shape不相等 時,則會使用廣播機制。不過,調整數組使得shape一樣,需要滿足一定的規則,否則將 出錯。這些規則可歸納為以下4條。 1&#xff…

reuse: for booting my spring project with mvn in Windows command line

boot.bat echo off setlocal enabledelayedexpansion:: 定義幫助信息 set HELP_MSG使用方法: %0 [選項,可選-m,-j,-h] [參數...]:: 默認啟動方式為 mvn set MODEmvn set ARGS:: 解析命令行參數 :parse_args if "%~1""" goto end_parseif "%~1"&q…

NodeJs學習日志(4):路由合并_環境配置_常用文件目錄

路由合并_環境配置_常用文件目錄 路由合并 // routes/routes.js const express require(express); const router express.Router();// 合并子路由 var indexRouter require(../routes/index); var usersRouter require(../routes/users);router.use(/, indexRouter); route…

?TRAE SOLO + Holopix AI | 輕松實現 “虛假廣告“-轉[特殊字符]割草小游戲

引言 😶 兩周前 (7.21) Trae-國際版 正式發布「SOLO」模式,需要 Pro 賬戶,邀請碼一度 “難求”,海鮮市場還有人掛出 500塊的 “天價”,這都能炒?我是無法理解的🤷?♀?,目前一個月…

redis集群-本地環境

* Linux 本地集群:3主3從yum install -y gccyum install -y wgetyum install -y vimwget http://download.redis.io/releases/redis-7.2.5.tar.gztar -zxvf redis-7.2.5.tar.gzcd redis-7.2.5/makemake PREFIX/usr/local/redis install# 配置系統環境變量vim /etc/p…

海關 瑞數 失信企業 逆向 分析 后綴 rs

聲明: 本文章中所有內容僅供學習交流使用,不用于其他任何目的,抓包內容、敏感網址、數據接口等均已做脫敏處理,嚴禁用于商業用途和非法用途,否則由此產生的一切后果均與作者無關!部分python代碼headers {Accept: appl…

用 Postman 的 Tests 腳本,這行代碼斷言接口返回,自動化測試省一半事

本文聚焦 Postman 的 Tests 腳本在接口自動化測試中的核心作用,闡述如何通過編寫 Tests 腳本實現接口返回的自動斷言,從而大幅提升測試效率。文中詳細介紹了 Tests 腳本的基礎語法、常用斷言方法、實戰案例及優化技巧,涵蓋從簡單響應狀態碼校…

7、西門子PLC基礎術語:數據單位、存儲區域、尋址方式、字節序

一、數據單位(數據長度類型)術語名稱位數所占字節說明Bit位1 bit1/8 Byte最小數據單位(0或1)BByte 字節8 bit1 Byte字節單位WWord 字16 bit2 Byte通常用于整數、狀態字等DWDouble Word 雙字32 bit4 Byte常用于浮點、雙整數 1雙字 …

大型動作模型LAM:讓企業重復任務實現80%效率提升的AI技術架構與實現方案

現代企業運營中,重復性任務的自動化處理已成為提升組織效率的核心需求。從基礎數據錄入到復雜工作流管理,企業持續尋求技術創新來降低人工成本、減少操作錯誤,并將人力資源重新配置到更具價值的戰略性工作中。大型動作模型(Large …

部署Web UI自動化測試平臺:SeleniumFlaskTester

1. Python環境準備 推薦Python3.11,可從https://www.python.org/downloads/release/python-3119/ 下載,見下圖: 安裝后,cmd命令行查看版本:python --version 2. 下載源碼包 從 https://gitee.com/ligaopan/SeleniumFlaskTester…

計算機網絡:到底什么是可變長子網掩碼VLSM?

VLSM 是可變長子網掩碼,對應的是 FLSM(固定長子網掩碼) FLSM 中,子網掩碼是固定的,比如一個 C 類地址用 255.255.255.128(/25)劃分,每個子網只能有 126 臺主機,但如果實際需要的主機數不同,比如有的子網需要 20 臺,有的需要 50 臺,FLSM 會導致地址浪費。所以 VLSM …

太極行業觀察:從傳統技藝到數字化轉型的演變|創客匠人

太極拳作為中華傳統文化的重要組成部分,在全球范圍內具有廣泛影響力。目前全球太極習練者已超過一億人,僅中國大陸就有約千萬固定練習者。每年與太極相關的賽事、培訓、教學、養生旅游等活動,形成了數百億元的市場規模。盡管如此,…

Kafka服務端NIO操作原理解析(二)

Kafka系列文章 基于Kafka2.1解讀Producer原理 基于Kafka2.1解讀Consumer原理 Kafka服務端NIO操作原理解析(一) 文章目錄Kafka系列文章前言一、基本認知二、Acceptor的主體流程2.1 run方法源碼2.2 acceptNewConnections方法源碼2.3 主體邏輯流程示意圖三…

當服務器負載過高時該怎么辦?

當服務器出現負載過高時,要對內存、網絡等硬件設備進行查看,其中CPU是重中之重,對CPU使用率進行查看和了解,確定哪些進程占用了大量CPU資源,如果是某個應用程序進程導致CPU高負載,需分析該程序是否存在算法…

跨境電商增長突圍:多維變局下的戰略重構與技術賦能

在全球化商業浪潮與數字技術迭代的雙重驅動下,跨境電商行業正經歷前所未有的變革。平臺規則的動態調整、市場需求的非線性波動、技術工具的持續革新,共同構成了復雜多變的競爭格局。對于賣家而言,如何在不確定性中錨定增長路徑,已…

軟件運行時 ffmpeg.dll 丟失怎么辦?從原因排查到完美修復的完整方案

在計算機的軟件生態系統中,ffmpeg.dll 扮演著一個至關重要卻又常被普通用戶忽視的角色。這個看似普通的文件,實際上是眾多多媒體相關軟件能夠正常運行的基石之一。當你的視頻剪輯軟件突然無法導入特定格式的視頻,或者心愛的游戲在啟動時彈出令…

Axure 11

下載 Axure RP - UX Prototypes, Specifications, and Diagrams in One Tool 激活 Axure RP11 2025-8-7日親測有效: 49bb9513c40444b9bcc3ce49a7a022f9 漢化 Axure Rp 11 安裝、漢化、授權_axure11漢化包-CSDN博客 中文社區 https://www.axure.com.cn/

論文閱讀:User Behavior Simulation with Large Language Model-based Agents

https://dl.acm.org/doi/pdf/10.1145/3708985 https://www.doubao.com/chat/15495707526837250 Advances and Challenges in Foundation Agents–Memory調研 論文翻譯 基于大型語言模型代理的用戶行為模擬 摘要 在推薦系統、社交網絡等以人為中心的應用中,高質…

基于ECharts的智慧社區數據可視化

引言數據可視化是現代Web應用的重要組成部分,它能將復雜的數據以直觀的圖形方式呈現,幫助用戶快速理解數據背后的信息。本文將介紹如何使用ECharts庫實現智慧社區住戶數據的可視化展示,包括柱狀圖和餅圖兩種常見圖表類型的實現與優化。技術棧…

Qt 綜述:從基礎到一般應用

摘要: Qt,作為久經考驗的跨平臺C開發框架,以其強大的功能、豐富的類庫和靈活的機制,在桌面應用、嵌入式系統、網絡編程等領域占據重要地位。本文將深入解析Qt的核心技術體系,涵蓋基礎架構、核心機制、UI開發、外觀定制…