我自己的原文哦~? ??https://blog.51cto.com/whaosoft/12897659
#D(R,O) Grasp
重塑跨智能體靈巧手抓取,NUS邵林團隊提出全新交互式表征,斬獲CoRL Workshop最佳機器人論文獎
本文的作者均來自新加坡國立大學 LinS Lab。本文的共同第一作者為上海交通大學實習生衛振宇和新加坡國立大學博士生徐志軒,主要研究方向為機器人學習和靈巧操縱,其余作者分別為實習生郭京翔,博士生侯懿文、高崇凱,以及碩士生蔡哲豪、羅嘉宇。本文的通訊作者為新加坡國立大學助理教授邵林。
想象一下,市面上有數十種形態各異的靈巧手,每一款都被設計得精巧而獨特。然而,是否有可能存在一種通用的抓取策略,無需為每款靈巧手單獨優化,卻能夠適應各種機器人手型和多樣物體形狀?這一看似遙不可及的夢想,正在逐步成為現實。
靈巧抓取是機器人操作領域的一項核心挑戰,它要求機器人手能夠與物體實現精確且穩定的交互接觸。然而,如何有效建模這種高自由度且復雜的交互關系,并生成精準、多樣且高效的抓取策略,一直是該領域亟待解決的難題。
近期,新加坡國立大學計算機學院的邵林團隊提出了 D(R,O) Grasp:一種面向跨智能體靈巧抓取的機器人與物體交互統一表示。該方法通過創新性地建模機器人手與物體在抓取姿態下的交互關系,成功實現了對多種機器人手型與物體幾何形狀的高度泛化能力,為靈巧抓取技術的未來開辟了全新的方向。該論文在 CoRL 2024 MAPoDeL Workshop 中獲得了 Best Robotics Paper Award。
- 論文標題:D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
- 項目主頁:https://nus-lins-lab.github.io/drograspweb/
- 論文鏈接:https://arxiv.org/abs/2410.01702
- 代碼鏈接:https://github.com/zhenyuwei2003/DRO-Grasp
一、引言
靈巧抓取是機器人完成復雜操作任務的關鍵,但由于靈巧手的高自由度及穩定抓取所需的復雜交互,任務挑戰巨大。目前基于深度學習的方法主要分為機器人中心 (robot-centric) 和物體中心 (object-centric) 兩類。
機器人中心方法(如手腕姿態或關節角度表示)直接將觀測映射為控制命令,推理速度快,但樣本效率低,且因映射依賴特定機器人結構,難以泛化到不同手型。
物體中心方法(如接觸點和接觸熱力圖表示)通過描述物體幾何與接觸信息,泛化能力強,適應不同物體和手型。然而,需額外優化步驟(如指尖逆運動學求解)將預測結果轉化為運動學可行的抓取姿態,計算復雜且耗時。
為克服這些局限,我們提出交互中心 (interaction-centric) 的統一表示 D(R,O)。該方法捕捉機器手運動學與物體幾何的交互關系,彌補機器人中心方法的泛化不足,同時提升物體中心方法的推理效率,實現跨機器人手型與物體形狀的泛化,為靈巧抓取提供高效且魯棒的解決方案。
圖 1 靈巧手抓取方法比較
二、方法
圖 2?D(R,O) Grasp 整體框架
給定物體點云和機器人手的 URDF 文件,模型的目標是生成靈巧且多樣化的抓取姿態,能夠在不同的物體和機器人手型之間實現廣泛的泛化。D(R,O) Grasp 整體框架如圖 2 所示,主要有以下三個部分組成:
1. 基于對比學習的配置不變預訓練
2. D(R,O)表征預測
3. 基于 D(R,O) 表征的抓取姿態生成
2.1 基于對比學習的配置不變預訓練
學習靈巧抓取需要理解機器手與物體的空間關系,目標是將機器手的特定配置與物體匹配。然而,由于不同配置下機器手整體姿態變化顯著,模型難以捕捉局部幾何特征的一致性。為此,我們提出一種配置不變的預訓練方法,通過訓練神經網絡對齊不同配置下的幾何特征,促進匹配并提升多姿態適應能力。
我們首先采樣并存儲機器手各 link 的點云數據。基于前向運動學模型,可為任意配置計算對應點云,確保不同配置下點云的一致性。在預訓練中,規范配置(如張開手姿態)和抓取配置的點云分別輸入機器人編碼器網絡提取逐點特征。我們通過點間歐氏距離加權正負點對關系,進行逐點對比學習,并計算如下損失函數:
該方法通過對齊不同配置下編碼器的幾何特征,簡化機器手與物體匹配難度,提高模型的泛化能力。
2.2 D(R,O) 表征預測
我們預測的 D(R,O) 表征是一個機器手點云和物體點云之間相對距離矩陣(Distances of Robot and Object)。首先,我們使用兩個相同結構的編碼器分別提取機器手點云和物體點云的幾何特征:
在此過程中,機器手的編碼器使用預訓練網絡并在訓練中保持凍結。為建立兩組特征的對應關系,我們引入兩個 Transformer 模型嵌入點間對應信息,并使用殘差連接:
為實現跨智能體抓取的多樣性,我們采用條件變分自編碼器(CVAE)網絡捕捉機器手、物體與抓取姿態的多種組合變化。具體而言,將機器手與物體在抓取姿態下的點云拼接后輸入 CVAE 編碼器,利用點云特征作為條件生成隱變量。隨后,將隱變量與每個點特征拼接,得到機器手和物體的綜合特征。
對于機器手某點與物體某點的綜合特征,我們采用結合 MLP 網絡和 softplus 函數的核函數計算相對距離,確保結果具有對稱性和非負性:
通過對所有點對進行上述計算,我們最終得到完整的 D(R,O) 表征如下:
2.3 基于 D(R,O) 表征的抓取姿態生成
給定預測的 D(R,O) 表征,我們獲得了機器人手點云與物體點云之間的相對距離關系。由于物體點云已知,我們可利用這些距離關系通過多點定位(Multilateration)技術計算出隱式描述的機器人手點云。本質上,這是一個最小二乘優化問題:
該問題已證明具有閉式解,可快速計算機器人手點云。在三維空間中,確定一個點的位置僅需四個相對距離,而 D(R,O) 表征提供了上百個距離。相比直接預測點云,這種表征對神經網絡預測誤差更加魯棒。
得到機器人手點云后,為求解相應關節值,我們將逆運動學分為兩步:首先,使用 SVD 分解從點云計算出每個 link 的 6D 姿態;然后,以這些 6D 姿態為優化目標,利用雅克比矩陣迭代更新初始關節值,最終得到期望抓取姿態的關節值。
這一優化過程約束簡單,即便是 ShadowHand 等高自由度靈巧手,也可在不到 1 秒內完成優化,大幅提升抓取生成速度。
三、實驗結果
圖 3 與 baseline 的實驗結果對比
在實驗中,我們評估了抓取成功率、姿態多樣性及生成效率三個指標。抓取結果在 10 個全新物體上進行了測試,使用 Barrett、Allegro 和 ShadowHand 三款靈巧手進行比較。圖 3 表顯示,我們的方法在所有靈巧手上都顯著超越了現有方法的成功率,驗證了方法的有效性。此外,生成速度亦大幅優于其他方法,這對靈巧操控任務至關重要。
圖 4 生成抓取與 baseline 失敗抓取可視化
與基準方法相比,我們的方法生成的抓取姿態更自然且魯棒,而基準方法易產生不自然、穿透嚴重且穩定性差的抓取。
圖 5 不同條件下實驗結果對比
從圖 5 表前兩行可見,跨智能體訓練較單一機器人訓練在成功率上略有提升,證明了跨智能體的良好泛化能力。即便輸入部分點云,我們的方法也能取得優異表現,展示了其廣泛適用性。
圖 6 多樣化的抓取姿態生成
由于訓練數據中輸入和抓取旋轉已對齊,模型能隱式映射這些旋轉,從而根據輸入方向生成適宜抓取姿態。如圖 6 所示,六個不同方向下模型均生成可行抓取,體現方法的可控性。同時,通過從正態分布中采樣隱變量,模型在相同方向上生成多個抓取姿態,展現多樣性。
圖 7 預訓練點云匹配可視化
圖 7 展示了預訓練模型捕捉到的不同配置下幾何特征的對齊關系,不同機器人手間的強匹配性突顯了特征的遷移能力。正如圖 3 表所示,去除預訓練參數直接訓練編碼器會導致性能顯著下降,進一步證明預訓練的重要性。
圖 8 真機實驗效果
在真實機器人實驗中,算法部署到 XArm 和 LeapHand 上,并在 10 個全新物體實驗中達成 89% 成功率,展現了方法在靈巧抓取中的有效性和良好泛化能力。更多實驗視頻請見項目主頁。
四、總結
在本論文中,我們提出了一種基于相對距離矩陣 D(R,O) 的新穎表征方法,用于捕捉機器人手與物體之間的交互信息,從而提升靈巧手的抓取性能。與現有方法過于依賴特定物體或機器手表示的局限性不同,我們的方法通過引入統一框架彌合了這種差距,并在不同機器人和物體幾何形狀之間實現了良好的泛化能力。此外,我們設計的預訓練方法有效增強了模型適應不同手部配置的能力,從而支持廣泛的機器人系統應用。實驗結果表明,我們的方法在抓取成功率、姿態多樣性以及計算效率方面均取得了顯著提升,為靈巧抓取任務提供了新的解決方案。
#DeepMind研究表明還能提升推理能力
人會逆向思維,LLM也可以?
人能逆向思維,LLM 也可以嗎?北卡羅來納大學教堂山分校與谷歌最近的一項研究表明,LLM 確實可以,并且逆向思維還能幫助提升 LLM 的正向推理能力!
論文一作 Justin Chih-Yao Chen 的推文
簡單來說,正向思維就是從問題開始,一步步地得出答案;而逆向思維則是先從一個預測答案開始,逆推到原始問題。
組合使用正向和逆向思維可讓我們驗證解答的正確性并找到可能的錯誤。
舉個簡單例子,如果小明有 2 個蘋果,小紅有 3 個蘋果,那么他們一共有多少個蘋果?
使用正向推理,我們可以得出 2 + 3 = 5。再使用逆向推理,我們可以從共有 5 個蘋果的結論開始,然后根據小明有 2 個來逆向得知小紅有 3 個。這些數值與原始問題相符,故此可以驗證 5 這個答案的正確性。如果正向推理出錯了,比如答案是 6 個,那么逆向推理時就會得到與原始問題不一樣的數值:小紅有 4 個蘋果。這種矛盾可讓我們重新檢視自己的推理過程哪里有誤。
大型語言模型(LLM)的數學能力也能通過正向 - 逆向推理得到提升,原因有二:
- 數學本身是高度結構化的,因此正向和逆向推理之間存在明確的逆反關系;
- 只需替換名稱或數值等變量,就可以創建出新的數學問題。
那么問題來了:逆向思維能否應用于更廣泛、結構性較差的領域?
此外,這些方法通常是測試時使用,目的是驗證:給定一個解,讓 LLM 逆向思考并查看正向推理是否正確。雖然它們比其它測試時方法(例如自我一致性)的表現稍微好一點,但還是存在未解的疑問:我們能否訓練一個本身就能逆向思維的模型,從而提升其正向推理效果,而不是在測試時使用逆向推理進行驗證?
近日,北卡羅來納大學教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一個聯合團隊為上面兩個問題提供了解答。他們發布的論文表明,逆向思維可以顯著 LLM 的推理能力,并且不限于數學任務。他們還提出了一個名叫 RevThink 的框架,可將逆向思維「灌輸」給語言模型。
- 論文標題:Reverse Thinking Makes LLMs Stronger Reasoners
- 論文地址:https://arxiv.org/pdf/2411.19865
論文發布后,吸引來不少稱贊之聲。
方法
RevThink 主要包含兩個階段:數據增強和全新的學習目標。
數據增強
首先,對于推理數據集,該團隊使用了一個更大、能力更強的教師模型來對其進行增強。
我們知道,一般來說,推理基準數據由一個問題和一個答案構成。那么該如何增強它呢?該團隊的方法是通過對教師模式使用少樣本提示來(few-shot prompting)生成三種新數據:正向推理、逆向問題、逆向推理。其中正向和逆向推理都會使用思維鏈。
只有當數據點的正向推理準確(與 ground truth 相符)且逆向推理與原始問題一致(通過提示教師模型進行驗證)時,該數據點才會被保留下來。
學習目標
完成數據集增強之后,該團隊還提出了三個用于訓練更小的學生模型的關鍵目標。
具體來說,學生模型需要學會:
- 基于問題生成正確的正向推理;
- 基于原始問題生成逆向問題;
- 基于逆向問題生成逆向推理。
之所以要設置這三個目標,該團隊說明了三點原因:
- 基于問題生成正確的正向推理是知識蒸餾的標準方法;
- 生成逆向問題會促使學生模型「思考」如何逆向一個問題并確定要問的正確問題;
- 最后,解決這個逆向問題可以增強學生模型逆向推理的能力。
在測試時,首先會使用問題來詢問該學生模型,而它只會生成前向推理 —— 類似于標準的零樣本推理。
本質上講,這個流程是在訓練過程中內化了逆向推理的能力,同時還能保證測試時間計算與零樣本方法一樣高效。
如圖 1 傳統的監督式微調側重于從問題到答案的單向推理。相比之下,RevThink 基于新提出的數據增強方法和目標,通過學習兩個方向的推理而引入了雙向思維。這能為模型帶來更大的提升。
實驗和評估
該團隊通過實驗驗證了 RevThink 的有效性。具體來說,他們使用的教師模型是 Gemini-1.5-Pro-001,學生模型是 Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct。訓練中,他們使用了 LoRA 微調,秩設為 32。所有比較方法都使用了 vllm 和貪婪解碼。
他們也選擇了多種任務進行評估,包括常識推理(StrategyQA、CommonsenseQA、ARCchallenge),數學推理(MATH、GSM8K),表格數據推理(TabMWP)、自然語言推理(ANLI),邏輯推理(Date Understanding)。
參與比較的方法大致可分為三類:零樣本方法、知識蒸餾(包含符號知識蒸餾和逐步蒸餾)和數據增強(包含問題重新表述、問題增強、答案增強)。更多實驗設置請參閱原論文。
主要結果
表 1 給出了主要結果。
首先,RevThink 的平均性能表現很好,在不同數據集和模型上都優于基線。與學生模型的零樣本性能相比,RevThink 使用 Mistral 時實現了 12.68% 的平均提升,使用 Gemma 時實現了 14.37% 的平均提升。
此外,相比于符號知識蒸餾(SKD)和逐步蒸餾(Distill Step-by-Step)—— 依賴于使用來自教師模型的正確推理鏈來執行監督式微調,RevThink 有 6.44% 至 7.15% 的顯著提升。
與基于數據增強的基線方法相比,RevThink 帶來的增益也更為顯著,特別是在常識推理、表格推理和日期理解方面。雖然其中一些增強方法(例如答案增強 (AnsAug))對于數學推理很有效,但它們為其它領域帶來的改進較少。這表明數學是一個更結構化的領域,會隨著數據的增加而更好地擴展。
相比之下,RevThink 在各種推理任務上都能帶來穩定的提升。并且表 3 表明,在留存數據集上進行評估時,RevThink 在領域外數學數據集上也能帶來更大的增益,表現出了更好的泛化能力。
下面還列出了 RevThink 的更多優勢,相關詳情請訪問原論文:
- RevThink 表現出了很好的樣本效率。
- 逆向問題生成可提高性能,但充分利用新的數據集可獲得最佳性能。
- RevThink 的目標比使用指令調整的單獨實例更有效。
- 只需稍多一點 token,RevThink 就能獲得更大提升。
- RevThink 與模型大小呈正相關。
- RevThink 可泛化至 OOD 數據集。
- RevThink 可作為現有方法的補充。
- RevThink 在可逆問題和中等難度問題上表現出了更大的提升。
#Primes of the form p2 + nq2
兩位數學家發現素數計數新方法,原來「p2+nq2」形式的素數真有無限多個
一項新的證明,讓數學家們離理解「算術原子」素數的隱藏順序更近了一步。
素數,即「只能被它們自己和 1 整除的數」,可以說是數學中最基本的組成部分。
素數的神秘之處在于:乍一看,它們似乎隨意散布在數軸上,但實際上并不是隨機的,而是完全確定的。仔細觀察它們,就會發現各種奇怪的模式。
數學家們花了幾個世紀的時間試圖解開這些模式。如果能更好地理解素數是如何分布的,就能照亮數學宇宙的廣闊天地。
雖然數學家們可以憑借一些公式大致了解素數的位置,卻還是無法準確地找到它們,因此不得不采取更間接的方法。
公元前 300 年左右,歐幾里得證明了素數的數量是無限的。此后,數學家們以歐幾里得的定理為基礎,為符合其他標準的素數證明了同樣的說法。
舉個簡單的例子:是否有無數個不包含數字 7 的素數?
隨著時間的推移,數學家們把這些標準變得越來越嚴格。通過證明仍然有無限多的素數滿足這種越來越嚴格的限制,他們逐漸深入地了解素數的存在環境。但問題是,這類定理很難證明。
近日,來自牛津大學的 Ben Green 和哥倫比亞大學的 Mehtaab Sawhney 證明了一個特別具有挑戰性的素數類型的定理 —— 是否存在無窮多個形式為 p2 + 4q2 的素數,其中 p 和 q 也必須是素數?
Ben Green(左)和 Mehtaab Sawhney(右)。
這兩位數學家的證明在今年 10 月份以預印本的形式發布,不僅加深了數學家對素數的理解,還利用了數學中不同領域的一套工具,表明這些工具遠比數學家們想象的要強大得多,并有可能成熟地應用于其他領域。
- 論文標題:Primes of the form p2 + nq2
- 論文鏈接:https://arxiv.org/pdf/2410.04189
長期以來的嘗試
數學家總是傾向于研究那些復雜到足以引起興趣,但又簡單到足以取得進展的素數族。例如,他們可能試圖證明有無限多個相距 500 個單位的素數。或者,我們可以通過把其他數的平方相加,來建立無限多的素數。
最后一個約束特別有用,它引導了幾個世紀的數學進步。1640 年,費馬(Pierre de Fermat)猜想有無限多的素數可以通過兩個整數的平方和相加來表示。例如,素數 13 可以寫成 22 + 32。歐拉(Leonhard Euler)后來證明了這一猜想。
但是,只要對問題稍作調整:比如堅持要求其中一個平方數是奇數,或者是完全平方數,問題就會變得更難。
Ben Green 表示:「對一個集合的約束越多,找到其中的素數就越難。」
在 19 世紀,對這類定理的研究促進了現代數論的發展。在 20 世紀,它激發了迄今為止最雄心勃勃的數學工程之一:朗蘭茲計劃。而在 21 世紀,對這類素數的研究不斷產生新的技術和見解。
2018 年,羅格斯大學的 Friedlander 和 Henryk Iwaniec 提出了一個問題:是否存在無窮多個形式為 p2 + 4q2 的素數,其中 p 和 q 也必須是素數?(例如 41 = 52 + 4 × 22.)
結果發現,處理這一約束條件特別具有挑戰性。但如果數學家們能解決這個問題,他們就能成功地對素數進行新一層次的控制,而這正是他們一直希望做到的。
一次有價值的訪問
Green 和 Sawhney 以前都沒有玩過這種素數游戲,但他們都有研究素數產生的奇特規律的經驗。
今年 7 月,兩位數學家在愛丁堡的一次會議上相遇了。剛從研究生院畢業的 Sawhney 一直很崇拜 Green。
Green 20 年前證明的一個開創性結果是將他帶入這個學科的原因之一。Sawhney 表示:「我當時就想天啊,你怎么能做到這一點?」
同時,格林也對這位年輕的數學家印象深刻:「Mehtaab 是一位杰出的數學家,他無所不知。」
兩人決定合作。他們只需要找到合適的問題。經過一番討論,他們最終確定了 Friedlander 和 Iwaniec 的猜想。
Green 邀請 Sawhney 到牛津大學訪問一周。他們知道,要證明類似的猜想,數學家們通常要依靠一套特定的計數技術。但由于他們問題中的素數定義過于嚴格,二人無法找出讓這套傳統工具發揮作用的方法。
相反,他們希望用一種更迂回的方式來證明這一猜想 —— 走一步數學棋。但首先,他們必須證明他們是可以走這步棋的。
在 Sawhney 訪問結束時,他和 Green 已經知道了如何做到這一點,從而證明了這個猜想。為此,他們與數學的另一個領域建立了驚人的聯系。
嘗試另一個集合
在 Green 和 Sawhney 看來,根本不可能通過計算兩個素數的平方并將其相加來直接計算素數的數量。但是,如果他們稍微放松一下限制,結果會怎樣?他們意識到他們可以解決一個稍微弱一些的版本 —— 其中被平方的數只需「大致粗略」是素數。
相比于素數,粗略素數(rough prime)更容易找到。假設你要統計 1 到 200 之間有多少個粗略素數。
首先,先看看最小的素數有哪些 ——2、3、5、7。然后列出所有無法被這些素數整除的數。這些數就是粗略素數。在這種情況下,你最終會得到 50 個粗略素數:其中 46 個真是素數,而另外四個不是素數(121、143、169 和 187)。由于粗略素數的分布的隨機性遠低于素數的分布,因此它們更容易處理。Sawhney 說:「粗略素數是我們遠遠更加了解的集合。」
Tamar?Ziegler?在素數方面的開創性工作使研究人員能夠將一種名為 Gowers 范數的數學技術移植到一個新領域。
Green 和 Sawhney 已經證明,通過對兩個粗略素數求平方并將它們相加可以得到無窮多個素數。現在他們只需證明這個陳述暗示了他們實際想要解決的問題:存在無窮多個素數可以寫成真實素數的平方和。
但這無法顯而易見地推導出來。他們必須為該問題的每個版本都分析一個特殊的函數集 —— 稱為 I 型與 II 型和(Type I and Type II sums),然后證明:不管使用何種約束條件,這些和都是等價的。只有這樣,Green 和 Sawhney 才能知道他們可以將粗略素數代入他們的證明中,同時不丟失任何信息。
他們很快意識到:他們可以使用一個工具來證明這些和是等價的,并且他們各自之前都在自己的研究工作中使用過這個工具。這個工具被稱為 Gowers 范數,是數學家 Timothy Gowers 幾十年前開發的,原本是用于度量一個函數或數集的隨機或結構化程度。從表面上看,Gowers 范數似乎屬于完全不同的數學領域。Sawhney 說:「不了解它的人幾乎無法看出這些東西存在關聯。」
但使用數學家陶哲軒和 Tamar Ziegler 在 2018 年證明的里程碑結果,Green 和 Sawhney 發現了一種方法來建立 Gowers 范數與 I 型與 II 型和之間的聯系。本質上,他們需要使用 Gowers 范數來證明他們的兩組素數足夠相似,即使用粗略素數構建的集合和使用實素數構建的集合。
事實證明,Sawhney 知道該怎么做。今年早些時候,為了解決一個與之無關的問題,他開發了一種使用 Gowers 范數比較集合的技術。他沒想到的是,該技術足以證明這兩個集合具有相同的 I 型和 II 型和。
技術在手,Green 和 Sawhney 證明了 Friedlander 和 Iwaniec 的猜想:可以寫成 p2 + 4q2 形式的素數有無窮多個。最后,他們還成功擴展了他們的結果,證明了:其它素數族的素數也有無窮多個。對于這類進展通常很罕見的問題而言,這著實是一個重大突破。
更重要的是,這項工作表明 Gowers 范數可以作為一個新領域的強大工具。Friedlander 說:「因為它是如此新穎,至少在數論的這個部分,它有可能做到很多其他的事情。」數學家們現在希望進一步擴大 Gowers 范數的范圍 —— 嘗試用它來解決數論中素數計數問題之外的其他問題。
「看到我以前想到的東西有了意想不到的新應用,我感到很有趣。」Ziegler 說,「這就像為人父母,當你放開孩子,他們長大后會做出神秘而意想不到的事情。」
原文鏈接:https://www.quantamagazine.org/mathematicians-uncover-a-new-way-to-count-prime-numbers-20241211/
#o3是AGI
是時候停止炒作「o3是AGI」了!背后15人安全對齊團隊大盤點
我們或許可以稱o3是「更高級的推理AI」,而遠不是AGI。
昨天凌晨,OpenAI 連續 12 天發布會終于落下了帷幕,并甩出了最強大的推理模型 o3 系列!
當然,用戶現在想要體驗 o3 或者 o3-mini,需要申請并等待數周。從目前 OpenAI 官方給出的一些紙面數據來看,o3 的能力遠超以往任何推理模型,并在 ARC-AGI 基準上達到了優良水平,成為首個突破該基準的 AI 模型。其中,o3 系列模型最低可達到 75.7%,最高可達到 87.5%。
o3 系列模型如此強大的能力,激起了大家對 AGI 的熱烈談論,很多人都興奮地宣布:這就是 AGI、AGI 已經實現、AGI 比你想象的更加接近。
圖源:X@MatthewBerman
圖源:X@treky_x
圖源:X@WesRothMoney
圖源:X@FinanceLancelot
面對關于 o3 愈演愈烈、愈加失控的炒作,知名博主、AI 研究者「elvis」認為,o3 系列不是 AGI、不是奇點,人們甚至無法訪問這些模型。連 OpenAI 都明確表示還有很多需要改進的地方。雖然進展的確令人興奮,但網絡上誤導信息太多,基準測試結果也并沒有多大意義。
圖源:X@omarsar0
有人表示,每次發布新的 OpenAI 模型(這次是 o3),都會有人宣稱「AGI 來了」、「不再需要程序員了」等言論。雖然 o3 看起來令人印象深刻,但它遠沒有在現實世界中得到檢驗。AGI 仍然遙遙無期。
圖源:X@drjohnflackett
還有人說到,為什么我們要在一個還無法體驗的演示版 AI 模型上宣布「AGI」呢?雖然 o3 系列模型看起來很棒,但并不是一個正式發布版本,也無法驗證。
圖源:X@mcguinnessfortx
持有這種觀點的人不在少數,有人覺得,o3 系列在編碼和數學領域的確很強,但 AGI 是要勝任人類能做的所有事情。我們要的是全能型人才,而非專業人才。另外,一次基準測試表現很好不能說明全部的情況,并不意味著能夠迎接其他不可預測的挑戰。最后,真正的 AGI 應該是適應性很強的,即使資源緊張也能運行。但 o3 的運行成本高得離譜,這顯然不是 AGI 的意義所在。
圖源:X@marthinusstryd1
顯然 o3 離跟 AGI 畫上等號還有很長的路要走,但無疑是一次巨大的進步。尤其是推理速度提升、成本降低且兼顧性能的 o3-mini,它更加經濟高效,并使用全新的安全評估方法審議式對齊(deliberative alignment)。
這是一種直接教模型安全規范的新范式,訓練模型在回答之前明確回憶規范并準確執行推理。OpenAI 使用這種方法來對齊包括 o3-mini 在內的 o 系列模型 ,實現對 OpenAI 安全政策的高度精確遵守,并且這個過程無需人工編寫的思路或答案。
下圖 1 為包括 o3-mini 在內的 o 系列模型與 GPT-4o 在關鍵政策領域的比較結果,比如不允許的內容、遵守響應風格指南、越獄和過度拒絕等。
接下來,對該范式相關論文的作者進行了完整的盤點。
論文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf
o3-mini 對齊范式作者盤點
Melody Y. Guan
Melody Y. Guan 本碩均就讀于哈佛大學,目前是斯坦福大學計算機科學系的博士研究生。
在加入斯坦福大學之前,Melody Y. Guan 曾在谷歌擔任研究員。她與 OpenAI 的關系主要體現在她的研究工作上,她與 OpenAI 的研究人員合作發表了多篇論文。
Melody Y. Guan 的研究興趣主要集中在強化學習和神經架構搜索等領域。她與 Google Brain 團隊合作,提出了著名的神經架構搜索方法 ENAS(Efficient Neural Architecture Search via Parameter Sharing)。此外,她還發表了多篇關于機器學習和人工智能的學術論文。
Manas Joglekar?
Manas Joglekar 本科畢業于印度理工學院孟買分校,后于斯坦福大學讀博士。
博士期間,他曾先后在微軟、谷歌和 Facebook 進行實習,2016 年正式進入谷歌擔任高級軟件工程師,2019 年他擔任 Snorkel AI 創始工程師,負責領導機器學習基礎工作,2023 年 10 月加入 OpenAI。
Manas Joglekar 發表過多篇論文,主要研究方向包括計算機科學和機器學習。
Eric Wallace?
Eric Wallace 是 OpenAI 的研究員,致力于使下一代大型語言模型(LLMs)更加安全、可靠和注重隱私。
他本科畢業于馬里蘭大學帕克分校計算機科學系,目前還在加州大學伯克利分校攻讀博士學位,研究方向是增強機器學習的安全性、隱私性和魯棒性。
在加入 OpenAI 之前,Eric Wallace 曾在 DeepMind 和 Meta 實習。
他在 OpenAI 的工作主要集中在提升大模型的安全性和隱私性,曾參與了 GPT-4o mini、o1、o1-mini 等安全和能力方面的研究。
Saachi Jain?
Saachi Jain 是 OpenAI 的研究人員,她本碩畢業于斯坦福大學,目前在麻省理工學院(MIT)攻讀博士學位。
她的研究主要集中在構建更魯棒和可靠的機器學習模型,特別是理解模型如何進行泛化。
在加入 OpenAI 之前,Saachi Jain 曾在特斯拉擔任計算機視覺科學家,參與自動駕駛技術的視覺模型設計和訓練。她還在 Facebook 和 Google 等公司進行過實習。
在 OpenAI,她曾是 o1 項目的安全技術負責人之一,該項目旨在提高模型的推理能力和安全性。
Boaz Barak?
Boaz Barak 是哈佛大學計算機科學教授。他是一位理論計算機科學家,研究領域包括計算復雜性、算法、密碼學、量子計算以及機器學習的基礎。Boaz Barak 曾參與了 OpenAI o1 項目的安全研究工作。
Alec Heylar?
他本科畢業于弗吉尼亞理工學院暨州立大學,曾在微軟度過 5 年職業生涯,2024 年 5 月進入 OpenAI 擔任研究員。
Alec Heyla 的專業技能涵蓋了人工智能、大語言模型等多個領域。
Rachel Dias?
Rachel Dias 本科畢業于美國芝加哥大學的政治學專業,曾在 Meta 擔任產品策略與運營,后來加入 TikTok 擔任政策實施經理。
2024 年 1 月進入 OpenAI, 是 OpenAI o1 模型的「準備評估」團隊成員之一。
Andrea Vallone?
她在加州大學圣巴巴拉分校獲得了英語(B.A. English)和心理學(B.A. Psychology)的雙學士學位。
后來加入 Facebook 擔任產品和政策傳播經理、產品政策經理。2022 年 8 月加入 OpenAI 從事模型安全工作。
Hongyu Ren?
Hongyu Ren 在去年 7 月加入,現在是 OpenAI 的一名研究科學家,他還是 GPT-4o 、GPT-4o mini 的核心貢獻者,并致力于 GPT-Next 的研究。Hongyu Ren 本科畢業于北京大學、博士畢業于斯坦福大學。此前,他在蘋果、谷歌、英偉達、微軟等工作過。
Jason Wei?
AI 圈的人大概都很熟悉 Jason Wei,他本科畢業就加入谷歌(2020 到 2023 年在 Google Brain 擔任研究科學家),以一作身份寫出了「思維鏈」(CoT)的開山之作。2023 年 2 月加入 OpenAI,擔任 AI 研究人員。2024 年,他參與了 OpenAI o1 模型的研發。他的工作推廣了 CoT 提示、指令調整和智能涌現等領域。
擴展閱讀:
- 本科畢業加入谷歌,還寫了「思維鏈」開山之作,這位 OpenAI 新秀正為本科生答疑解惑
- CoT 提出者 Jason Wei:大模型評估基準的「七宗罪」
Hyung Won Chung?
Hyung Won Chung 現在是 OpenAI 的一名研究科學家。研究重點是大型語言模型。在那之前,他在谷歌大腦工作,并在 MIT 攻讀博士學位。他也是 OpenAI o1 的核心貢獻者之一。
他曾參與過一些重要項目的研究工作,比如 5400 億參數的大型語言模型 PaLM 和 1760 億參數的開放式多語言語言模型 BLOOM。也曾介紹過他為一作的論文《Scaling Instruction-Finetuned Language Models》。
擴展閱讀:
OpenAI科學家最新大語言模型演講火了,洞見LLM成功的關鍵
Sam Toyer?
Sam Toyer 本科畢業于澳大利亞國立大學,博士生就讀于加州大學伯克利分校。研究領域包括計算機視覺、規劃、模仿學習和獎勵學習。近期,我的研究重點是如何使大規模語言模型更加安全和魯棒,這些特性對于在高風險場景中的應用至關重要。以下是他的工作經歷:
Johannes Heidecke?
Johannes Heidecke 是巴塞羅那的一名人工智能碩士研究生,目前專注于探索強化學習和生成模型。
他對機器學習和人工智能的研究充滿熱情,并參與了許多 OpenAI 的相關工作。
他相信人工智能對人類未來具有巨大的潛力,但要讓先進的人工智能系統與我們的價值觀和目標保持一致,還需要大量有針對性的工作和研究。
為此,他正在探索將機器學習應用于價值學習問題的方法:通過觀察人類行為,推斷他們的動機是什么。?
Alex Beutel?
Alex Beutel 在卡內基梅隆大學獲得計算機科學博士學位,此前在杜克大學主修計算機科學和物理學。
他目前是 OpenAI 安全研究團隊的技術負責人。他曾在 Google Research 擔任高級員工研究科學家、技術負責人和經理,聯合領導了一個負責機器學習責任研究的團隊(Responsible ML team),并推動了涵蓋推薦系統、公平性、魯棒性、強化學習以及數據庫機器學習的研究工作。
Amelia Glaese
Amelia Glaese 本科就讀于慕尼黑工業大學,攻讀航天工程。在慕尼黑工業大學與佐治亞理工學院分別攻讀了機械工程以及計算機科學與工程碩士。曾任谷歌軟件工程師,后來加入 DeepMind 團隊,工作了四年多。在此期間,她參與了 Gemini 相關論文的發布。今年 3 月,Amelia Glaese 正式加入 OpenAI。
#o1 pro
自緣身在最高層?OpenAI o1 pro競賽級評測結果新鮮出爐
近期,OpenAI 號稱最強推理模型的推出,引發了社區的熱議,無論是性能還是價格,都產生了不少話題。最近,我們對 o1 新發布的 o1 滿血版、o1 pro mode 模型進行了高難度數學測試,旨在深入探究其在數學推理方面的能力表現。同時以上海人工智能實驗室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作為對比,「o1 pro」是否真的「自緣身在最高層?」
AGI-Eval 最新的高難度數學評測集 Math Pro Bench,試題來源包括全國高中數學聯合競賽、美國數學邀請賽、全國碩士研究生招生考試等。從題型分布上看,各模型考研數學題正確率高于高中數學競賽題 10%,提示考研數學題目難度相對簡單。這一現象表明考研數學題目相對高中數學競賽題而言,在知識運用的綜合性與邏輯性方面可能更符合模型的訓練模式與擅長領域。例如,在高中數學競賽題中,可能涉及更多獨特的解題技巧、創新性的思維方式以及對數學概念的深度挖掘,而模型在處理這些復雜且靈活的問題時可能面臨更大的挑戰。
話不多說,直接上評測結果 ——
整體來看,o1 pro mode 在總計正確率上以 0.774(65/84)占據榜首,o1 以 0.750(63/84)緊隨其后。這表明 o1 系模型在整體數學推理能力上具有較高的水平,能夠較為有效地應對高難度數學問題。DeepSeek-R1-Lite 的總計正確率為 0.667(56/84),o1 - preview 的總計正確率為 0.643(54/84),其他模型的總計正確率相對較低,反映出它們在數學推理的全面性和準確性方面仍有提升空間。
其中在高中數學競賽題方面,o1 pro mode 和 o1 均以 0.722(39/54)的正確率位居前列,展現出了較強的數學思維能力與解題技巧應用能力。DeepSeek - R1 - Lite 的正確率為 0.611(33/54),o1 - preview 的正確率為 0.574(31/54),其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正確率則相對較低,分別為 0.519(28/54)、0.426(23/54)、0.315(17/54)。
在考研數學題上,o1 pro mode 以 0.867(26/30)的正確率脫穎而出,o1 的正確率為 0.800(24/30),QwQ-32B- Preview 和 o1- preview 的正確率均為 0.833(25/30)。DeepSeek - R1 - Lite 的考研數學題正確率為 0.767(23/30),而 K0 - math 和 InternThinker - Alpha 的正確率僅為 0.533(16/30)。
榜單鏈接:https://agi-eval.cn/evaluation/Math%20Pro%20Bench
除了推出評測榜單以外,AGI-Eval 也從模型的推理過程中,發現了一些有意思的現象和結論。
o1 pro 系列推理更快,思考更靈活
1. o1、o1 pro 總推理時間更短。在推理時間方面,o1 系模型展現出了顯著的優勢。o1 的總平均推理時間僅為 33.84s,o1 pro mode 更是縮短至 33.26s,而其他模型如 DeepSeek - R1 - Lite 等平均推理時間在 2min 以上。這一巨大的時間差距表明 o1 系模型在數學推理效率上遠超其他同類模型,能夠在更短的時間內完成復雜數學問題的推理與解答,這對于實際應用場景中對實時性要求較高的任務具有比較重要的意義。
prompt
Alice 和 Bob 玩以下游戲。面前有 n 個令牌堆放著。玩家輪流行動,Alice 先行動。在每一回合中,玩家從令牌堆中移除 1 個或 4 個令牌。移除最后一個令牌的玩家獲勝。求小于或等于 2024 的正整數 n 的個數,使得 Bob 無論 Alice 如何行動都能保證他獲勝。
o1 pro mode(用時 18 秒):
o1 (用時 26 秒):
2. o1、o1 pro 會根據題目難度調整推理時間。o1/o1 pro 的競賽題平均推理時間為 34-40s,而考研題平均推理時間為 18-20s,約是前者的約一半。
3. o1 pro 模型能答對其他模型暫無法答對的題。在測試過程中,存在一些題目,如 :
“設 p 是最小的滿足存在正整數 n 使得 n^4 + 1 可以被 2 整除的素數。求最小的正整數 m,使得 m^4 + 1 可以被 p^2 整除。”
這一題目僅有 o1 pro mode 答對,o1、Deepseek-R1-Lite 等其他模型均答錯。這表明 o1 pro mode 在處理某些具有特殊數學結構和邏輯要求的題目時,具備獨特的推理能力和解題思路,能夠深入挖掘題目背后的數學原理與規律,從而找到正確的答案。而其他模型在面對這類復雜且具有挑戰性的題目時,可能由于推理機制的局限性或知識儲備的不足,無法準確地把握解題的關鍵要點,導致最終回答錯誤。
方法論與創新性
o1-pro 在處理數學問題時表現出更強的創新性和靈活性,能夠結合多種數學理論和方法來解決問題,優于其他通用 AI 模型。o1 同樣具有歸納與創新的能力,但與前者相比不夠簡潔直接,其他模型在這方面的能力則稍顯不足。
prompt:
一只青蛙在正方形 A B C D 的四個頂點間跳躍,每次跳躍總是等可能地跳至與當前所在頂點相鄰的兩個頂點之一,且各次跳躍是獨立的。若青蛙第一次跳躍前位于頂點 A ,則它第 6 次跳躍后恰好仍位于頂點 A 的概率為
o1 pro mode(用時 12 秒):
直接利用了正方形的對稱性和跳躍的性質,避免了復雜的矩陣運算和特征值分析,更直觀容易理解,適合初學者。
o1(用時 17 秒):
它的回答雖然正確,但涉及了狀態轉移矩陣和特征值分析,計算過程相對復雜,且需要一定的線性代數和概率論知識,對初學者來說可能不太友好。
Deepseek-R1-Lite(用時 1min):
和 o1 同樣涉及了狀態轉移矩陣和特征值分析,但求解過程冗長復雜得多,閱讀理解起來相對困難。
長鏈路推理與細節處理
在涉及大量計算的長鏈路推理中,一個小小的計算失誤會模型思維鏈失敗,使模型陷入死循環狀態。o1 pro mode 和 o1 實現了對細節的精確控制,在進行長鏈路推理時能夠盡量保持高度的準確性和穩定性。
prompt
實對稱矩陣 A=\left (\begin {array}{ccc} 4 & -2 & 0 \\ -2 & 3 & -2 \\ 0 & -2 & 2\end {array}\right) 可通過正交相似變換化為對角陣__
o1 pro(用時 12 秒):
特征值與特征向量的求解涉及大量復雜的計算,每一步計算都是正確的,最后導向正確的結果
o1(用時 19 秒):
雖然得到了正確的答案,但過程不完全正確,例如第二步特征向量求解錯誤
Deepseek-R1-Lite:
在第一步計算特征值的過程中,就出現了計算錯誤,得到的特征多項式不正確,導致了后續求解特征方程的過程基于錯誤的多項式,從而無法找到正確的特征值。
此外,能看出推理模型也有明顯的能力缺陷部分。如 Deepseek-R1-Lite 推理部分會存在中英夾雜或渲染不全的情況
人機協作評測新模式探索及高質量評測社區建設
鑒于傳統評測方式難以充分反映模型的真實水平,AGI-Eval 創新性地提出了人機協作評測模式。在這種模式下,參與者可以與最新的大模型共同完成任務,既有助于提高任務完成度又便于建立更加直觀的區分度。基于前期的一些用戶實驗表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進一步提升用戶與大模型之間的互動體驗。未來,隨著更多類似平臺的出現和發展,相信人機協作將成為評測領域的一個重要發展方向。
,時長00:30
人機社區鏈接:https://agi-eval.cn/llmArena/home
AGI-Eval 平臺基于真實數據回流、能力項拆解等方式,自建萬量級私有數據,并經過多次質檢保證準確率。黑盒 100% 私有化數據,可保證評測數據不可 “穿越”。從數據建設到模型評測,實現全層級能力項目,一級能力涵蓋指令遵循、交互能力、認知能力(含推理、知識、其他認知能力等);完美實現自動與人工評測相結合。
對于 Chat 模型,平臺官方榜單結合主觀、客觀評測結果,中英文權重分布均衡。客觀評測基于模型打分,可處理具有一定自由度問題,準確率 95%+;主觀評測基于三人獨立標注,并記錄細分維度標簽結果,全面診斷模型問題。
總結 1:推理模型優勢探討
(一)高效的推理算法
o1 系模型之所以能夠在高難度數學測試中取得優異成績,其高效的推理算法功不可沒。通過對推理過程的優化與加速,模型能夠在短時間內對復雜的數學問題進行深入分析與推理,快速找到解題的思路與方法。這種高效的推理算法可能基于先進的神經網絡架構、智能的搜索策略以及對數學知識的有效組織與運用,使得模型在面對各種數學問題時能夠迅速做出反應并給出準確的答案。
(二)精準的題目理解與分析能力
在面對高難度數學題目時,準確理解題目要求與意圖是解題的關鍵第一步。o1 系模型展現出了強大的題目理解與分析能力,能夠精準地把握題目中的數學關系、條件限制以及求解目標。通過對自然語言描述的數學問題進行有效的語義解析和邏輯轉換,模型將其轉化為內部可處理的數學模型與推理任務,從而為后續的解題過程奠定堅實的基礎。這種精準的題目理解與分析能力使得模型在處理各種復雜數學表述和邏輯結構時能夠游刃有余,避免因誤解題目而導致的錯誤推理。
(三)靈活的推理策略調整
如前文所述,o1 和 o1 pro mode 能夠根據題目難度靈活調整推理時間和推理策略。在面對簡單題目時,模型采用快速高效的推理方式,迅速得出答案;而在處理復雜難題時,模型則能夠自動切換到深度推理模式,增加推理步驟和時間投入,對問題進行全面細致的分析與求解。這種靈活的推理策略調整能力使得模型在不同難度層次的數學問題上均能保持較高的解題效率和準確性,體現了其在推理過程中的智能化與自適應特性。
總結 2:推理模型局限性分析
(一)知識覆蓋的局限性
雖然 o1 系模型在本次測試的高中數學競賽題和考研數學題上取得了較好的成績,但數學領域知識浩瀚無垠,仍可能存在一些特定的數學分支、理論或特殊題型,模型的知識儲備不足或尚未深入學習掌握。例如,在某些高等數學的前沿研究領域、小眾的數學應用場景或具有特殊歷史文化背景的數學問題上,模型可能會因為缺乏相關知識而無法給出準確的答案或有效的推理。這表明模型在知識覆蓋的廣度和深度上仍有進一步拓展和完善的空間,需要不斷地學習和吸收更多的數學知識,以應對日益復雜多樣的實際應用需求。
(二)復雜邏輯推理的挑戰
在一些極其復雜的邏輯推理場景中,o1 系模型可能會遇到困難。盡管模型在常規的數學推理任務中表現出了較高的水平,但當面對涉及多層嵌套邏輯、模糊邏輯或高度抽象邏輯的問題時,模型的推理能力可能會受到限制。例如,在一些數學證明題中,需要運用復雜的邏輯推導和反證法等推理技巧,模型可能無法像人類數學家那樣進行深入細致的邏輯思考和創造性的推理過程,導致無法成功完成證明或給出完整準確的推理步驟。這反映出模型在處理復雜邏輯關系時的局限性,需要進一步優化其推理機制和邏輯處理能力,以提升在復雜邏輯推理任務中的表現。
(三)可解釋性問題
隨著人工智能模型在各個領域的廣泛應用,其可解釋性成為了一個重要的關注點。o1 系模型作為一種基于深度學習的大模型,其推理過程往往具有高度的復雜性和黑箱特性,難以直觀地理解和解釋模型是如何得出某個答案或推理結果的。這對于一些對可解釋性要求較高的應用場景,如數學教育、科學研究中的關鍵決策等,可能會帶來一定的困擾。缺乏可解釋性使得用戶難以信任模型的輸出結果,也不利于模型的進一步優化和改進。因此,如何提高 o1 系模型的可解釋性,使其推理過程更加透明、可理解,是未來模型發展需要解決的一個重要問題。
未來展望
通過本次對 o1 系模型的高難度數學測試,我們全面深入地了解了其在數學推理能力方面的表現。o1 系模型在正確率、推理時間以及特殊題目處理等方面展現出了顯著的優勢,其高效的推理算法、精準的題目理解與分析能力以及靈活的推理策略調整能力使其在眾多模型中脫穎而出。然而,模型也存在知識覆蓋局限性、復雜邏輯推理挑戰以及可解釋性問題等不足之處。
展望未來,隨著技術的不斷發展和研究的深入,我們期待 o1 系模型能夠在以下幾個方面取得進一步的突破和改進。首先,通過不斷學習和更新知識,擴大其知識覆蓋范圍,提高對各種數學領域和特殊題型的處理能力。其次,優化推理機制,提升復雜邏輯推理能力,使其能夠更好地應對具有高度復雜性和抽象性的數學問題。最后,加強對模型可解釋性的研究,探索有效的方法和技術,使模型的推理過程更加透明、可理解,增強用戶對模型的信任和應用的可靠性。
#ODDN
開放世界的深偽檢測,北交大團隊:解決好無配對數據挑戰很重要
現有的深偽檢測方法大多依賴于配對數據,即一張壓縮圖像和其對應的原始圖像來訓練模型,這在許多實際的開放環境中并不適用。尤其是在社交媒體等開放網絡環境(OSN)中,圖像通常經過多種壓縮處理,導致圖像質量受到影響,深偽識別也因此變得異常困難。
現有方法雖然在特定條件下取得了一些進展,但在面對開放世界中大量無配對數據的挑戰時,往往難以提供理想的檢測效果。
近日,AAAI 2025 接收結果公布,收錄了一篇北京交通大學趙耀、陶仁帥團隊聯合蘇黎世聯邦理工學院的研究工作,論文題目為《ODDN:Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks》。
該工作提出了一個創新的深偽檢測任務——非配對數據下的開放世界深偽檢測。該任務針對真實社交媒體檢測場景下配對數據在實際獲取中數量較少的窘境。
論文地址:https://arxiv.org/pdf/2410.18687
此外,該工作還提出了針對新任務下的新方法,即使用多任務學習、梯度取反、梯度矯正等方式,提出 Backbone 提取特征中與壓縮相關的信息,令模型關注生成模型產生的偽造特征,為處理真實社交媒體下的壓縮 Deepfake 圖像提供了新的思考。
圖 1:任務總覽圖
方法概覽
新提出的方法 ODDN 包含兩個核心組件:開放世界數據聚合(ODA)和壓縮丟失梯度校正(CGC),有效降低了配對數據稀缺和壓縮影響帶來的性能損失。
圖 2:ODDN 模型結構圖
研究者設計了兩個下游任務:一個是基礎的二分類任務,該分支優化 backbone 提取偽造相關的特征;另一個是判別圖片是否被壓縮的二分類任務,該分支通過梯度取反操作,使得該分支梯度在 backbone 的優化方向與設定分類目標相反,backbone 提取與壓縮不相關的特征。
同時,將 Unpaired Data 以壓縮有無、真假將數據分為四類,然后計算四個簇的聚類中心。
之后再計算分別計算壓縮與未壓縮的真假簇聚類中心距離,對應公式如下。
對于 Paired Data 因為其稀少性,繼續采用之前工作使用的高效方法,即使用 HSIC 度量 Paired Data 數據分布的相似性。
雖然兩個下游任務設定的優化是合理的,但是實際訓練過程中,兩個任務中產生的 Loss 在回傳時,可能會出現優化方向的沖突。如何確定最合適的方向呢?研究者采用 PCGrad,將沖突的梯度投影到另一個梯度的法向量上,確保非沖突梯度之間的互補,對齊和促進不同梯度之間的交互,確保優化過程 backbone 的梯度始終處于對主線偽造檢測任務產生積極影響的方向。
網絡訓練的損失函數和總體模型結構圖可表示如下:
實驗設置
實驗使用 ForenSynths 的訓練集來訓練檢測器,包括 20 個不同的類別,每個類別都包含 18000 張使用 ProGAN 生成的合成圖像,以及來自 LSUN 數據集的相同數量的真實圖像。
為了進行評估,研究者還使用了 17 個常用數據集。其中,前 8 個數據集來自 ForenSynths,包括由 8 個不同的生成模型生成的圖像;其余 9 個數據集來自 GANGen-Detection,由另外 9 個不同生成模型生成的圖像組成。
圖 3:壓縮情況已知的實驗
圖 4:壓縮情況未知的實驗
圖 5:消融實驗
總結
該工作提出了開放世界深度偽造檢測網絡,旨在解決開放世界,尤其是在未配對數據普遍存在的在線社交網絡下的偽造檢測。該方法能夠有效處理與不同數據質量和壓縮方法相關的復雜性。
研究人員在各種測試設置下,以及在 17 個流行的數據集上進行的綜合實驗表明:所提方法能夠取得不錯的性能,并在實際應用中實現了穩健性和適應性。這項工作不僅推動了深度偽造檢測領域,而且為未來旨在打擊在線社交平臺上偽造信息的研究提供基準。
主要作者介紹
陶仁帥,北京交通大學副教授,工學博士,碩士生導師。入選 “北京交通大學青年英才培育計劃”、“中國圖象圖形學學會高等教育教學成果激勵計劃”,曾任華為諾亞方舟實驗室高級研究員。
李滿毅,北京交通大學在讀本科生,人工智能專業,師從陶仁帥副教授。已推免至中國科學院自動化研究所攻讀博士學位,師從李兵研究員和劉雨帆助理研究員。
趙耀,北京交通大學教授,博士生導師。教育部長江學者特聘教授、國家杰出青年科學基金獲得者、萬人計劃科技創新領軍人才、IEEE Fellow。
#2024年度AI2050人選
由谷歌前CEO斯密特家族出資的慈善基金「Schmidt Sciences」近日公布了2024年度AI2050人選,25名人選將共享1200萬美元,用于AI的跨學科研究。繼李飛飛入選高級研究員之后,華人多受青睞,此次共有6名華人當選早期職業Fellow。
AI2050 Fellow名單正式公布了!
每年AI2050皆會提名5位高級Fellow,以及15位早期職業Fellow。特殊情況下,可以增加名額。
今年,一共評選了25人,其中,5位高級Fellow,還有20位早期職業Fellow。
他們將獲得高達1200萬美元的研究資助。
高級Fellow根據現有貢獻選拔,采用封閉式提名,無需申請。早期職業Fellow需要擔任博士后或預聘研究職位。
值得一提的是,今年上榜名單中,一共有6位華人學者當選。他們有的專攻AI安全,有的開發人機高效協作的AI,還有的專注于AI材料的發現等。
或許很多人對這個名單有些陌生,AI2050是由前谷歌CEO埃里克·施密特在2022年最先發起的一個基金項目。
AI2050項目提供了一個獨特的視角,邀請人們去暢想2050年的世界。
該項目為資深研究人員和早期職業學者,將提供兩年的資助,以應對AI領域的各種全球性挑戰。
接下來,我們一起看看今年入選Fellow的所有名單。
5位高級Fellow?
David Autor
重大難題:解決了AI及其相關技術帶來的經濟挑戰與機遇。
David Autor是麻省理工學院經濟學系的Daniel(1972)和Gail Rubinfeld教授,同時擔任NBER勞動研究項目和麻省理工學院「塑造未來工作」計劃的聯合主任。
因學術貢獻和教學成就,他獲得了眾多獎項,包括國家科學基金會CAREER獎、Alfred P. Sloan獎、Sherwin Rosen勞動經濟學領域杰出貢獻獎、2019 年Andrew Carnegie獎、2021 年進步社會獎章、麻省理工學院 MacVicar 教員獎等。
2023年,他當選為NOMIS杰出科學家,這一榮譽在所有科學領域中僅有兩位研究者獲得。
AI2050項目:
這項研究將基于人類專業知識經濟學,系統化一套新穎的見解,闡明新工具如何與人類能力相互作用,從而塑造就業和收入。這項工作將對企業家、技術專家和政策制定者具有可訪問性和實用性,幫助他們預見并塑造機器能力與人類專業知識的共同演進。?
Yejin Choi
重大難題:解決了隨著AI及AGI能力的不斷增強所帶來的安全性和可控性、與人類價值觀的對齊以及兼容性方面的挑戰。
Yejin Choi即將在斯坦福大學擔任教授和高級研究員,同時也是麥克阿瑟獎學金獲得者。此前,曾任華盛頓大學Paul G. Allen計算機科學與工程學院的Wissner-Slivka教授。
她在康奈爾大學獲得計算機科學博士學位,并在韓國首爾大學獲得計算機科學與工程學士學位。
她的研究涵蓋NLP和AI領域的多個課題,包括常識知識與推理、神經語言生成與反生成、基于視覺和經驗的語言落地,以及面向社會公益的AI。
學術成就方面,她在ACL 2021和CVPR 2021上共同獲得了兩項時間檢驗獎,并在ACL、EMNLP、NAACL、ICML、NeurIPS和AAAI等頂會上獲得了8項最佳論文獎或杰出論文獎。
她還于2018年榮獲Borg早期職業獎(BECA),于2017年贏得首屆Alexa Prize Challenge冠軍,并在2016年入選IEEE AI’s 10 to Watch。
AI2050項目:
項目提出了一項雄心勃勃的研究計劃,旨在通過五個協同研究方向來解決AI系統的根本性局限:(1)多元化的理論框架,(2)多元化的基準和評測指標,(3)多元化的對齊方法,(4)ValueGenome 作為一個多樣化人類價值觀的目錄,(5)可解釋的反思過程。?
Carla Gomes
重大難題:通過讓AI解決人類面臨的一個或多個重大挑戰和機遇,做出了具有顛覆性意義的貢獻。
Carla Gomes是康奈爾大學計算與信息科學的Ron和Antonia Nielsen教授,同時擔任計算可持續性研究所所長,并共同領導科學AI研究所。
她在愛丁堡大學獲得AI博士學位,目前是AAAI、ACM和AAAs的Fellow。
她的研究主要集中在大規模知識表征、推理、機器學習、決策制定和優化等AI領域的議題。
她是新興領域「計算可持續性」的開創者之一——利用AI和計算方法應對環境、經濟和社會的關鍵挑戰,引領我們邁向可持續的未來。
2021年,因對AI的高影響力貢獻,包括在約束推理、優化,以及將推理與學習相結合等方面的創新,以及創立計算可持續性領域,而獲得了AAAI Feigenbaum獎。
2022年,因在跨學科研究方面的貢獻,將計算機科學與其他領域相結合,而獲得了AAAI Allen Newell獎。
AI2050項目:
項目聚焦于可持續性挑戰,例如聯合國提出的「30×30生物多樣性保護目標」、在分子層面對生化多樣性進行表征,以及在滿足能源需求的同時重新思考全球水電擴張方式,從而盡可能降低對人類與自然的不利影響。
她的研究通過結合數據驅動與知識驅動的AI方法,突破了當前AI/ML在科學探索和決策制定中的局限性,將基于第一性原理的推理與深度學習及帕累托優化協同運用于高維度推理與決策過程。借由這些創新的AI方法,她為可持續性的實踐方式帶來了深遠的變革。?
Roger Grosse
重大難題:解決了AI所面臨的安全性和可靠性、魯棒性、性能和輸出等挑戰,以及其他可能對公眾造成傷害或削弱信任的缺陷,尤其是在社會風險和潛在危害較高的應用和場景中。
Roger Grosse是多倫多大學計算機科學副教授,Schwartz-Reisman技術與社會講席教授,Vector Institute的創始成員,以及Anthropic對齊科學團隊的技術成員。
他的研究重點是,基于對深度學習的理解來提升AI系統的安全和對齊。
他曾獲得Sloan研究獎、加拿大CIFAR AI講席和加拿大研究講席。
AI2050項目:
項目將重點攻克建立安全論證所需的兩大算法挑戰:首先,確定模型在某一訓練階段后,都有哪些屬性發生了變化;其次,找到或估計出模型發生罕見行為(如實施惡意計劃)的概率。?
Michael Wooldridge
重大難題:解決了當前AI在科學和技術上的局限性以及關鍵難題,這些問題對于實現AI的進一步突破至關重要,進而開發出更強大、更有用的AI,能夠實現包括AGI在內令人期待和有益的可能性。
Michael Wooldridge是牛津大學計算機科學教授,已發表超過450篇科學文章,并出版了9本書(已被翻譯成7種語言)。
他是ACM、AAAI和EurAI的Fellow,同時也是歐洲科學院的成員。
他于2014年至2016年,擔任EurAI主席;2015年至2017年,擔任IJCAI主席;目前是《Artificial Intelligence》期刊的聯合主編。
他曾獲得英國計算機學會的Lovelace獎章(2020年)、AAAI的Patrick Henry Winston杰出教育家獎(2021 年),以及EurAI的杰出服務獎(2023年)。
AI2050項目:
項目將把LLM技術引入智能體,使其功能更為強大,應用前景更加廣泛。
20位早期職業Fellow
接下來,在20位早期職業Fellow中,我們主要介紹6位獲選的華人學者,并將所有名單列出。?
Simon Shaolei Du(杜少雷)
重大難題:解決了在AI不斷強大并最終抵達AGI的過程中,安全與控制、人類對齊以及兼容性等方面的挑戰。
Simon S. Du是華盛頓大學Paul G. Allen計算機科學與工程學院的助理教授。
他在卡內基梅隆大學獲得機器學習博士學位,師從Aarti Singh和Barnabás Póczos。并曾在普林斯頓高等研究院擔任博士后研究員,師從Sanjeev Arora。
目前,他的研究重點是多智能體強化學習,以及基礎模型的數據選擇算法。
他的研究獲得了諸多認可,包括Sloan研究獎、三星年度AI研究員獎、英特爾新星教師獎、NSF CAREER獎、英偉達先鋒獎,以及卡內基梅隆大學杰出論文獎提名等。
他在學術上的貢獻包括:首次證明了梯度下降法在優化深度神經網絡中的全局收斂性;解決了強化學習中的樣本復雜度問題;以及明確了在大狀態空間進行強化學習所需的充要條件。
AI2050項目:
項目致力于研發能與人類高效協作的AI系統。隨著AI日漸融入我們的日常生活,這一點已成為了關鍵的挑戰。其研究重點在于構建理論基礎并設計全新算法,從而使AI能夠在多種情境下與人類無縫協作。并最終打造出能在實際應用場景中與人類深度協同的AI系統,為未來更具實用價值的AI技術奠定基礎。?
Pang Wei Koh
重大難題:解決了AI所面臨的安全性和可靠性、魯棒性、性能和輸出等挑戰,以及其他可能對公眾造成傷害或削弱信任的缺陷,尤其是在社會風險和潛在危害較高的應用和場景中。
Pang Wei Koh是華盛頓大學Allen計算機科學與工程學院的助理教授,同時也AI2的客座研究科學家,以及新加坡AI客座教授。
他在斯坦福大學獲得了計算機科學博士和學士學位。在攻讀博士之前,他是Coursera的創始團隊成員之一,并擔任合作伙伴關系總監。
目前,他的研究興趣是可靠機器學習系統的理論與實踐研究。
他的研究成果不僅獲得了ICML和KDD的最佳論文獎,而且還發表在了Nature和Cell等頂級期刊上。
此外,他還榮獲了MIT科技評論「亞太區35歲以下創新者」獎。
AI2050項目:
項目將通過減少模型對難以理解的參數內部運作的依賴,開發出更值得信賴的模型,從而讓模型能直接獲取并利用相關數據源進行推理
他將開發新的方法來構建模型:當需要回答例如醫學方面的問題時,模型會首先檢索權威期刊中經過同行評審的醫學論文,整合這些信息,然后給出帶有清晰引用來源的答案。?
Yuanyuan Shi
重大難題:通過讓AI解決人類面臨的一個或多個重大挑戰和機遇,做出了具有顛覆性意義的貢獻。
Yuanyuan Shi是加州大學圣地亞哥分校電氣與計算機工程系的助理教授。
她于2020年獲得華盛頓大學電氣與計算機工程(ECE)博士學位以及ECE和統計學碩士學位。2020年至2021年,在加州理工學院計算與數學科學系從事博士后研究。
她的研究興趣包括機器學習、動態系統和控制,以及在可持續能源系統的應用。
她曾獲得多項榮譽,包括麻省理工學院的EECS新星獎、2020年華盛頓大學清潔能源研究所的科學成就獎、2023年的Hellman獎學金,以及PSCC的最佳論文獎和ACM e-Energy會議的最佳論文入圍獎。
AI2050項目:
項目的目標是研究神經算子學習在大規模偏微分方程(PDE)系統控制中的基礎,并確保其安全性和穩定性。她將驗證所提出的基于AI的PDE控制框架,在實際辦公建筑中進行室內氣候建模和控制,以平衡病原體暴露、居住舒適度和碳排放。?
Bijun Tang
重大難題:通過讓AI解決人類面臨的一個或多個重大挑戰和機遇,做出了具有顛覆性意義的貢獻。
Bijun Tang博士目前是新加坡南洋理工大學材料科學與工程學院(MSE)的校長博士后研究員。
她分別于2017年和2021年在南洋理工大學材料科學與工程學院獲得一等榮譽學士學位和博士學位。2023年,她作為訪問科學家加入萊斯大學,與Pulickel Ajayan教授合作。
她的研究興趣主要在于新型二維材料的合成與工程,以及利用機器學習進行智能材料開發。
她在頂級期刊上發表了30多篇經同行評審的論文,包括Nature、Nat. Mater. Electron.、Nat. Nat. Commu.、Adv. Mater.、Mater. Today等,H指數為18,總引用次數超過了1400。
她獲得的榮譽包括南洋理工大學新銳科學家獎(2024年)、福布斯亞洲30位30歲以下精英獎(2023年)、南洋理工大學校長博士后獎學金(2022年)、南洋理工大學研究生院跨學科研究獎(2021年),以及工程、科學和技術領域女性發展基金(2021年)。
此外,她還是《International Journal of AI for Materials and Design》期刊的青年編委。
AI2050項目:
2DMatAgent項目旨在開發一個由AI驅動的平臺,以加速二維材料的發現和開發,這對推動納米電子學、能源存儲和醫療保健的發展至關重要。
傳統的材料開發方法既緩慢又耗費資源,通常需要數十年時間。而2DMatAgent可自主設計、驗證和優化二維材料,將這一時間大幅縮短至數天。
通過整合大規模多模態模型、推理和工具自動化等先進AI技術,該項目將增強各領域和各行業研究人員的能力,推動科學進步,并在可持續能源、電子技術及其他關鍵領域實現突破性進展。?
Eric Wong
重大難題:解決了AI所面臨的安全性和可靠性、魯棒性、性能和輸出等挑戰,以及其他可能對公眾造成傷害或削弱信任的缺陷,尤其是在社會風險和潛在危害較高的應用和場景中。
Eric Wong是賓夕法尼亞大學計算機與信息科學系的助理教授。
他在卡內基梅隆大學獲得了機器學習博士學位,并曾在麻省理工學院從事博士后研究。
他的研究聚焦于可靠機器學習系統的基礎:理解、調試并確保數據驅動模型的行為。在實踐中,他的研究幫助科學家和醫生利用AI模型進行學習并推動新發現。
他曾榮獲Siebel獎學金、SCS論文獎(榮譽提名)和亞馬遜研究獎,并獲得了JCNLP-AACL的領域主席獎和NeurIPS ML與安全研討會的最佳答辯獎。
AI2050項目:
研究致力于開發魯棒的機器學習方法,確保生成式AI安全且能保護隱私,從而防止這些模型被濫用,并確保生成式AI遵守相關法律法規。?
Chaowei Xiao
重大難題:解決了AI所面臨的安全性和可靠性、魯棒性、性能和輸出等挑戰,以及其他可能對公眾造成傷害或削弱信任的缺陷,尤其是在社會風險和潛在危害較高的應用和場景中。
Chaowei Xiao是威斯康星大學麥迪遜分校的助理教授(自2023年8月起任職)。
在此之前,他在英偉達擔任了兩年全職研究科學家,并在亞利桑那州立大學呆過一段時間。
他的研究主要集中在機器學習和安全的交叉領域,目標是構建安全可靠的機器學習系統。
他曾獲得ACM戈登貝爾特別獎,并在USENIX Security、MobiCOM和ESWN等會議上多次獲得最佳論文獎。
Chaowei Xiao對大模型的安全性與保障非常感興趣,并研究LLM在不同應用領域中的潛在應用。
他本科畢業于清華大學,并在密歇根大學安娜堡分校獲得博士學位。
AI2050項目:
項目旨在推進我們對現代人工智能模型和系統的安全挑戰的理解。該項目側重于開發前沿的紅隊工具,以自動發現和評估人工智能系統中的漏洞,并評估現代人工智能技術帶來的有害后果。此外,他還將探索增強人工智能系統安全性的原則性方法,確保這些系統更加安全、穩健,并符合社會價值觀。
其他Fellow還有:
- Sara Beery, 麻省理工學院助理教授
- Sarah Dean,康奈爾大學助理教授
- Tim Dettmers,卡內基梅隆大學助理教授
- Gabriele Farina,麻省理工學院助理教授
- Anjalie Field,約翰霍普金斯大學助理教授
- Marzyeh Ghassemi,麻省理工學院助理教授
- Yoon Kim,麻省理工學院助理教授
- Aviral Kumar,卡內基梅隆大學助理教授
- Rapha?l Millière,麥考瑞大學助理教授
- Antonio Orvieto,馬克斯·普朗克智能系統研究所ELLIS研究組組長
- Parthe Pandit,印度理工學院孟買分校助理教授
- David Rolnick,Mila-魁北克AI研究所助理教授
- Florian Shkurti,多倫多大學助理教授
- Ellen Vitercik,斯坦福大學助理教授
前谷歌CEO發起,暢想2050年的世界
2022年,前谷歌CEO埃里克·施密特宣布正式成立AI2025,首批砸下1.25億美元,專為AI研究提供支持。
他在當時表示,這是為了確保AI能夠真正造福社會的一種方式。
根據官網信息, 施密特科學基金會致力于為所有人創造一個健康、有韌性和安全的世界。
優先資助在五個重點領域開展研究,以期產生革命性的影響:
- AI與先進計算
- 天體物理學和太空
- 生物科學
- 氣候
- 科學系統
官網中,列出了所有「問題清單」。隨著社會對AI應用的不斷發展,這份清單將經常更新。
目前更新截止到2023年6月。
其中,有一些與開發AI安全系統、以及推進AGI等現實目標。
從2022年開始,到現在一共評選了三屆。
前兩屆的名單中,一些享有盛譽的研究者紛紛當選,比如AI教母李飛飛、開創AI液態神經網,并創立初創Liquid AI的Daniela Rus等等。
他們的研究涉及范圍之廣,有利用AI破解粒子物理學奧秘,有利用 AI 改變非洲的藥物發現、降低孕產婦死亡率......
第三屆AI2050評選上的25位Fellow將加入由71名研究人員組成的AI2050社區。
參考資料:
??https://www.schmidtsciences.org/schmidt-sciences-to-award-12-million-to-advance-research-on-beneficial-ai/??
??https://ai2050.schmidtsciences.org/fellows/??
??https://ai2050.schmidtsciences.org/hard-problems/??
#豆包說要「普惠」,于是大模型處理圖片按「厘」計價了
這段時間,OpenAI 宣告連續 12 輪轟炸,讓 2024 年底的大模型領域熱鬧起來了。
但堅持每個凌晨看直播的話會發現,越到后面的發布越平淡,內心的波動也越少了。
今年的大模型就卷到這里了嗎?并沒有,國產大模型又卷起來了,還給 OpenAI 來了一記「重拳」。
就在前幾天,2024 冬季火山引擎 FORCE 原動力大會上,字節跳動的豆包大模型家族,來了一場爆發式上新。
最受關注的是豆包大模型家族的新成員 ——?豆包?視覺理解模型。顧名思義,它讓豆包有了「看懂」世界的能力。更重要的是,這款新模型一千個 token 的輸入價格僅 3 厘錢,也就是說花一塊錢就能處理 284 張 720P 的圖片,比行業價格便宜了 85%。
價格官宣的那一刻,或許眾多企業用戶在心里默念了一句:太好了,是豆包,我們有救了。
至于這款模型的理解能力有多強,請看 VCR:
火山引擎
,贊4044
與此同時,三位成員豆包通用模型 Pro、豆包?音樂生成模型、豆包?文生圖模型宣布升級,一起發布的還有豆包?3D 模型。
回想年中的時候,豆包還是國產大模型中的「新秀」。短短半年多,竟然已經紅透了半邊天,成為了眾多用戶首選的生產力工具。
七個月的時間,能發生什么?對于 OpenAI 來說,可能只是一項新功能從「期貨」到「全量上線」的準備時長。
但對于豆包大模型,這段時間已經足以拿下日均 tokens 使用量超 4 萬億的優秀成績,比最初發布的那天增長了 33 倍。
經過此次升級后,豆包大模型家族的實力又壯大了一波。
據智源研究院?12?月?19?日發布的國內外100余個開源和商業閉源的大模型綜合及專項評測結果,「大語言模型評測能力榜單」中,豆包通用模型 pro 在重點考察中文能力的主觀評測中排名第一,「多模態模型評測榜單」中,豆包·視覺理解模型在視覺語言模型中排名第二,僅次于 GPT-4o,是得分最高的國產大模型。「FlagEval 大模型角斗場榜單」中,豆包通用模型 pro 在大語言模型榜單中位居第一梯隊,評分排名第二,僅次于 OpenAI 的 o1-mini,是得分最高的國產大模型。
不得不說,國產 AI 進化的速度是真的驚人。
會讀論文、看梗圖
豆包的「秒懂」能力強得可怕
回望 2024 年的大模型技術發展,除了文本能力的繼續提升外,從單模態過渡到多模態也是基礎模型的演進趨勢之一。
一個關鍵方向是,增加對視覺模態輸入的支持。這就像是給 LLM 裝上了「眼睛」和「大腦」,使其能夠理解圖像并進行相應的自然語言生成。
在不斷進化的豆包大模型中,我們也看到了驚人的「秒懂」能力。
具體來說,豆包?視覺理解模型具備精準的指令理解能力,能夠精準提取圖像文本信息,因此可應用于更復雜、更廣泛的視覺問答任務,比如描述圖片中的內容以及對圖片中包含的內容進行提問。另一方面,該模型可完成深度的圖片理解與推理,在表格圖像、數學問題、代碼圖像等復雜推理場景下都能發揮所長。
豆包?視覺理解模型接入豆包 App 和 PC 端產品已經有段時間了,也測試了一番,實際體驗很不錯。
在此之前,人們公認體驗比較好的是 GPT-4o 模型,但這次測試下來,豆包?視覺理解模型毫不遜色。
首先能感受到,豆包的內容識別能力很強,比如對于視覺內容中的知識、文化背景、狀態、數量、文字等信息都識別得很準確,特別是能理解中國傳統文化知識。
比如問一個生活化的問題。站在超市貨架前,每個人都有過難以抉擇的時刻。但顯然,大模型比我們更懂傳統食物:
當然,它不只是擅長識別現實中的物品,即使圖片只有光影、輪廓、位置這些特征,也能一眼辨別:
其次,豆包對于視覺內容信息的推理能力也很強,包括數學、邏輯、代碼等。
就拿難懂的論文架構圖來說吧,在沒有給出任何論文背景信息的前提下,豆包不僅能看懂、講透,特別是針對整體流程的解讀,將階段 1 和階段 2 的因果邏輯表達得非常清楚,還能如數列出背景知識:
假如同事交接給你一些代碼,別焦慮,叫上豆包一起看能效率加倍:
再說到視覺描述能力,它也非常擅長「看圖說話」,完全可以用來編寫社交媒體文案,或者任何你需要啟發靈感的創作任務:
還有一個很巧妙的用途 —— 幫助 2G 沖浪的「老年人」看懂新梗:
多模態能力的突破,讓今年的大模型應用給用戶帶來了諸多驚喜。此次視覺理解能力的增強,也將是豆包大模型打開更多落地場景的關鍵一步。當模型能夠將圖像和文字信息相結合,我們就能夠獲得更自然、直觀的交互體驗。例如,在產品推薦、教育輔助或虛擬助手場景中,用戶可以通過圖片與模型互動,獲得更豐富的反饋。此外,結合視覺和文本信息,模型對輸入的洞察水準也會更上一層樓。例如,在新聞分析或知識圖譜構建中,模型能夠關聯文字和圖片,提供更完整的背景和見解。
加上以「厘」為單位的定價,這些應用場景的解鎖速度會比想象中更快。秉承「讓每家企業都用得起好模型」的原則,豆包一發力,實實在在是把視覺理解模型的應用成本打下來了,將以更低成本推動 AI 技術普惠和應用發展。
三大主力模型升級
視頻模型下月上線
在新成員誕生的同時,豆包大模型家族的三位重要成員也迎來了本年度的最后一次重大升級。
首先是大語言模型 ——?豆包通用模型 Pro。對比今年 5 月最初公開發布的版本,這款模型在綜合能力上已經提升了 32%,與 GPT-4o 持平,但價格僅是其八分之一。
此外,豆包通用模型 Pro?在指令遵循、代碼、專業知識、數學層面全面對齊了 GPT-4o 水平。其中指令遵循能力提升 9%,代碼能力提升 58%,GPQA 專業知識方面能力提升 54%,數學能力提升 43%,推理能力提升 13%。
然后是語音,豆包?音樂模型的生成水平已經從「高光片段」躍升到「完整樂章」。
現在,用戶只需要簡單描述或上傳一張圖片,就能生成一首長達 3 分鐘的包含旋律、歌詞和演唱的高質量音樂作品,包括前奏、主歌、副歌、間奏、過渡段等復雜結構。并且,豆包?音樂模型提供了局部修改功能,在針對部分歌詞修改后仍能在原有旋律的節奏框架內適配。
火山引擎
,贊392
體驗地址:https://www.haimian.com/create (APP 端:海綿音樂)
從原來的 1 分鐘,升級為現在的 3 分鐘,豆包?音樂模型克服了挑戰,在較長的時間跨度內容保持了音樂元素的連貫性。
最后,在視覺層面,豆包?文生圖模型本次也迎來了新一波升級,在通用性、可控性、高質量三方面取得了新突破。具體來說,豆包?文生圖模型 2.1?新增了「一鍵海報」和「一鍵 P 圖」能力,目前已接入即夢 AI 和豆包 App。
一鍵海報的關鍵點在于「寫字」。在實際體驗中,我們可以感受到,豆包?文生圖模型對文字細節的指令遵循能力很強,特別是非常擅長「寫漢字」:
Prompt:生成一張卡通土撥鼠的圖片 衣服上的文字圖案是
背后的技術源自豆包?文生圖模型原生的文字渲染能力,豆包大模型團隊通過打通 LLM 和 DiT 架構和構建高質量文字渲染數據,大幅提升了模型在文字生成方面的準確率,尤其是結構復雜、字符數量較多的漢字場景。
一鍵 P 圖功能的實現,則基于豆包大模型團隊近期在圖像編輯技術上取得的重大突破:SeedEdit。
近年來,基于擴散模型的圖像生成技術進展飛速,然而,圖像編輯技術還難以滿足人們對于生成內容可控性的需求,關鍵挑戰在于實現「維持原始圖像」和「生成新圖像」之間的最優平衡。
SeedEdit 框架在不引入新參數的前提下,將圖像生成擴散模型轉為圖像編輯模型,也是國內首個產品化的通用圖像編輯模型。無需描邊涂抹,用戶只需要給出簡單的自然語言指示,就能換背景、轉風格,或者在指定區域進行元素的增刪和替換。
Prompt:驢打滾變成拿破侖
相比于傳統涂抹選中的方法,這種編輯方式更加精準,不會誤傷無關區域。還有一點好處是,這種編輯技術能夠一次性完成多項編輯任務,效率大大提升。
關于最近非常火熱的 3D 賽道,豆包家族也添加了一位新成員:豆包?3D 生成模型。將這款模型與火山引擎數字孿生平臺 veOmniverse 結合使用,可以高效完成智能訓練、數據合成和數字資產制作,成為一套支持 AIGC 創作的物理世界仿真模擬器。
如視頻所示,通過疊加一句一句的文字 Prompt,就能搭建起一個工廠車間場景:
,時長01:01
后來居上,一飛沖天
「豆包」憑借的是什么?
自 2024 年 5 月發布至今,只用了七個月,豆包大模型就成為了國產大模型中當之無愧的頂流。
后來者如何居上?在豆包家族做大做強的道路上,為其提供底層支撐的火山引擎云服務平臺的價值不可忽視。
一直以來,字節跳動的豆包大模型都通過火山引擎對外提供服務,「更強模型、更低價格、更易落地」,這三個關鍵詞成為了其別于眾多大模型服務平臺的特質。
除了不斷升級的模型能力之外,火山引擎還解決了「成本太高」和「落地太難」兩項大模型應用挑戰。目前,這個平臺提供從云計算、技術引擎、智能應用到行業解決方案的全棧服務。
模型層面,豆包大模型家族已經有十幾位成員,覆蓋了常見應用場景。
特別地,火山引擎為大模型落地提供了一系列覆蓋全流程的工具,包括一站式大模型服務平臺火山方舟、大模型應用開發平臺扣子、企業專屬 AI 應用創新平臺 HiAgent。這些工具,在本次大會上也都同步升級。
火山引擎這次一口氣推出了?Prompt 優解、大模型記憶應用等產品,持續保障企業級 AI 應用的落地。Prompt 優解是全新一代提示詞工具,通過自動 + 互動的方式,解決了人工編寫 Prompt 難度高、耗時寫、重新適配的問題。大模型記憶應用基于知識庫 RAG 技術和上下文緩存技術,能夠幫助企業用戶打造靈活的大模型記憶方案,并推出 prefix cache 和 session cache API,降低延遲和成本。
扣子也在這次大會上升級到了 1.5 版本,還公布了開發者生態方面的亮眼成績:目前平臺已有超過 100 萬的活躍開發者,共發布過 200 萬個智能體。包括最新發布的豆包多模態模型們,用戶們都能第一時間在扣子平臺通過插件的方式體驗。
在最新發布的?HiAgent 1.5 版本中,火山引擎提供了 100 多個行業應用模板,提供給企業用戶一鍵復制,實現低代碼構建智能體。同步發布的 GraphRAG 則通過連接知識圖譜為大模型提供知識及關系信息,以此增強回答質量、支持多跳問題回答。再通過 Reranker,進一步提升回答的準確性和完整性。如此一來,企業就能構建專家級別的 AI 應用。
在云服務層面,基于當前企業使用大模型推理對計算效率的新要求,火山引擎已經完成了從 Cloud Native 到 AI Cloud Native 的轉型,打造以 AI 負載為中心的基礎架構新范式。
GPU 在并行處理能力和高吞吐量方面更適合大規模推理使用,然而,傳統 GPU 加 CPU 的異構計算中,GPU 從存儲加載數據進行處理都必須由 CPU 控制。近年來的一個趨勢是計算從 CPU 轉移到 GPU,GPU 計算在整個系統的比例越來越大,因此過去的 I/O 流程成為巨大的效率瓶頸,某種程度上造成了 GPU 資源的浪費。
基于 AI 云原生的理念,火山引擎這次推出了新一代計算、網絡、存儲和和安全產品。在計算層面,新一代的火山引擎 GPU 實例,通過 vRDMA 網絡,支持大規模并行計算和 P/D 分離推理架構,顯著提升訓練和推理效率,降低成本。存儲上,新推出的 EIC 彈性極速緩存,能夠實現 GPU 直連,使大模型推理時延降低至 1/50;成本降低 20%。安全層面,火山將推出 PCC 私密云服務,構建大模型的可信應用體系。基于 PCC,企業能夠實現用戶數據在云上推理的端到端加密,而且性能很好,推理時延比明文模式的差異在 5% 以內。
「今年是大模型高速發展的一年。當你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。通過 AI 云原生和豆包大模型家族,火山引擎希望幫助企業做好 AI 創新,駛向更美好的未來。」火山引擎總裁譚待表示。
面向 2025,我們期待什么?
這一年,從技術研發的角度,豆包大模型團隊在研究者和從業者圈子中影響力的增長是有目共睹的。2024 年,團隊發布了一系列「出圈」成果,包括近期的圖像編輯模型 SeedEdit、代碼評估數據集 FullStack Bench、新型神經網絡架構 FAN 等。在突破前沿命題之外,這些成果也對豆包大模型產品層面的進化起到了關鍵的推動作用。
正是基于技術驅動下的產品迅速迭代,讓豆包坐穩了國產大模型頂流的寶座。大模型技術爆發兩年后,不管是個人用戶還是企業用戶都能感知到,豆包大模型在應用層的優勢已經非常明顯。
根據大會 One More Thing 環節的透露,本文開頭 VCR 中所展示的端到端實時語音功能,以及具備更長視頻生成能力的豆包?視頻生成模型 1.5 也會在不久后上線。
站在 2024 年的末尾,無論是相關從業者還是大眾都會好奇:2025 年的大模型會變成什么樣?
我們看到、聽到了很多關于大模型前進方向的預判,比如 Scaling Law 即將撞墻,預訓練已經走到盡頭等等。
但這些并不意味著大模型的能力已經到達天花板,推理 Scaling Law 來了,AI 的智能水平可能會在短時間內躍升到一個新的高度。同時在圖像生成、視頻生成等多模態任務上,大模型仍有相當充足的發展空間。在未來的 12 個月,大模型進化的曲線可能會非常陡峭。
新的一年,豆包大模型還有哪些驚喜?值得每一個人期待。
#Thinking in Space:
李飛飛、謝賽寧等探索MLLM「視覺空間智能」,網友:2025有盼頭了
希望 2025 年 AI 領域能帶來推理之外的突破。
在購買家具時,我們會嘗試回憶起我們的客廳,以想象一個心儀的櫥柜是否合適。雖然估計距離是困難的,但即使只是看過一次,人類也能在腦海里重建空間,回憶起房間里的物體、它們的位置和大小。
我們生活在一個感官豐富的 3D 世界中,視覺信號圍繞著我們,讓我們能夠感知、理解和與之互動。
這是因為人類擁有視覺空間智能(visual-spatial intelligence),能夠通過連續的視覺觀察記住空間。然而,在百萬級視頻數據集上訓練的多模態大語言模型 (MLLM) 是否也能通過視頻在空間中思考,即空間思維(Thinking in Space)?
為了在視覺空間領域推進這種智能,來自紐約大學、耶魯大學、斯坦福大學的研究者引入了 VSI-Bench,這是一個基于視頻的基準測試,涵蓋了近 290 個真實室內場景視頻,包含超過 5000 個問答對。
其中,視頻數據是通過捕捉連續的、時間性的輸入來完成的,不僅與我們觀察世界的方式相似,而且比靜態圖像更能豐富空間理解和推理。在 VSI-Bench 上評估開源和閉源模型顯示,盡管模型與人類之間存在較大的性能差距,盡管 MLLM 面臨視頻理解、文本理解和空間推理的挑戰,但其仍展現出了新興的視覺空間智能。
為了對模型行為展開研究,本文受到雙重編碼理論的啟發(該理論認為語言處理和視覺處理既有區別又相互補充),他們提出了用于自我解釋(語言)和認知圖(視覺)的選擇模型(selected models)。
- 論文地址:https://arxiv.org/pdf/2412.14171v1
- 論文主頁:https://vision-x-nyu.github.io/thinking-in-space.github.io/
- 論文標題:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
這篇論文作者有我們熟悉的斯坦福大學教授李飛飛,她提倡的「空間智能」最近正在引領 AI 發展方向,還有紐約大學計算機科學助理教授謝賽寧等。
謝賽寧表示,「視頻理解是下一個研究前沿,但并非所有視頻都是一樣的。模型現在可以通過 youtube 片段和故事片進行推理,但是我們未來的 AI 助手在日常空間中導航和經驗如何呢?空間思維正是為這一問題誕生的,我們的最新研究 VSI-Bench,可以探索多模態 LLM 如何看待、記憶和回憶空間。」
「在視覺處理方面,我們通常處理空間問題,但很少進行推理;而多模態大語言模型(LLM)雖然能夠思考,但通常忽略了邏輯空間。然而,作為人類 —— 無論是做心理旋轉測試還是為新家定制家具 —— 我們依賴于空間和視覺思維 。而這些思維并不總能很好地轉化為語言。」
「我們通過研究涵蓋各種視覺空間智能任務(關系和度量)的新基準來探索這一點。」
李飛飛也對這項研究進行了宣傳,她表示這項名為「Thinking in Space」的研究,是對 LLM(大部分都失敗了)在空間推理方面表現的評估,而空間推理對人類智能至關重要。2025 年還有更多值得期待的事情,以突破空間智能的界限!
在李飛飛的這條推文下,網友已經開始期待即將到來的 2025 年。
在論文主頁給出的 Demo 中,作者提供了谷歌 Gemini 模型在視覺空間智能上的一些表現。(以下視頻均以 2 倍速播放。)
1:估計相對距離
,時長01:16
問:如果我站在冰箱旁邊,面對著洗衣機,爐子是在我的左邊、右邊還是后面……
2:讓大模型數物體
,時長02:02
問:房間里有幾把椅子?Gemini-1.5 Pro 給出了 2。
3:根據視頻猜測物體出現的順序
,時長03:01
問:以下類別在視頻中第一次出現的順序是:毯子、垃圾桶、微波爐、植物?Gemini 給出 B 選項,正確答案是 C。
4:估計房間大小
,時長01:45
問:這個房間有多大(平方米)?如果展示了多個房間,估計一下組合空間的大小。
?VSI-Bench 介紹
VSI-Bench 是一個用于定量評估從第一視角視頻出發的 MLLM 視覺空間智能的工具。VSI-Bench 包含了超過 5000 個問答對,這些問答對來源于 288 個真實視頻。這些視頻包括居住空間、專業場所(例如,辦公室、實驗室)和工業場所(例如,工廠)—— 以及多個地理區域。VSI-Bench 的質量很高,經過迭代審查以最小化問題的歧義,并移除了從源數據集中傳播的錯誤注釋。
VSI-Bench 包括八項任務,如圖 3 所示,包括:物體計數、相對距離、出現的順序、相對方向、物體大小、絕對距離、房間面積、路徑規劃。
VSI-Bench 的任務演示。注意:為清晰簡潔起見,上述問題略作簡化。
數據集統計見圖 5。
此外,本文還開發了一個復雜的基準構建流程,以有效地大規模生成高質量問答(QA)對,如圖 4 所示。
評估
評估設置:本文對 15 個支持視頻的 MLLM 進行了基準測試。專有模型包括 Gemini-1.5 和 GPT-4o。開源模型包括 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 。
主要結果:通過 5000 多個問答對,作者發現 MLLM 表現出了有競爭性的視覺空間智能(盡管仍然低于人類)。Gemini Pro 表現最佳,但與人類的表現仍有差距。
具體而言,人類評估者的平均準確率達到 79%,比最佳模型高出 33%,在配置和時空任務上的表現接近完美(94%-100%)。
然而,在需要精確估計的測量任務上,差距縮小了,MLLM 在定量任務中表現出相對優勢。
在專有模型中,Gemini-1.5 Pro 脫穎而出,盡管只在 2D 數字數據上進行訓練,但它大大超過了機會基線,并在絕對距離和房間大小估計等任務中接近人類表現。
表現最佳的開源模型,如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B,取得了有競爭力的結果,僅落后 Gemini-1.5 Pro 4%-5%。然而,大多數開源模型(7/12)都低于機會基線,暴露出視覺空間智能的明顯缺陷。
為了更好地理解模型成功或失敗的時間和原因,并闡明它們所擁有的視覺空間智能的各個方面,本文研究了 MLLM 如何在空間語言中思考。
當被要求解釋自己時,LLM 表示空間推理(而不是物體識別或語言能力)是主要瓶頸。
在成功示例中,該模型展示了高級視頻理解能力,具有準確的時間戳描述和正確的逐步推理過程。全局坐標系的使用表明 MLLM 可以通過整合空間背景和推理來構建隱式世界模型。
錯誤分析:對 VSI-Bench(tiny)上表現最佳的 MLLM 的錯誤進行分析,發現主要有四種錯誤類型:視覺感知、語言智能、關系推理和第一視角 - 他人視角轉換。圖 6 顯示,71% 的錯誤源于空間推理,特別是在理解距離、大小和方向方面。這表明空間推理仍然是提高 VSI-Bench 上 MLLM 性能的關鍵瓶頸。
此外,本文還有一些其他發現。
- 發現 1:空間推理是影響 MLLM 在 VSI-Bench 上的主要瓶頸。
- 發現 2:語言提示技術雖然在語言推理和一般視覺任務中有效,但對空間推理有害。
- 發現 3:在記憶空間時,MLLM 會根據給定的視頻在模型中形成一系列局部世界模型,而不是統一的全局模型。
語言提示技術在這種情況下是無效的 —— 像 CoT 或多數投票這樣的方法實際上對本文任務是非常有害的。
了解更多內容,請參考原論文。
#2024亞馬遜研究獎獲獎名單
張崇杰、魏華等人入選
上周五,亞馬遜研究獎(Amazon Research Awards,ARA)公布了最新一期來自 10 所大學的 10 名獲獎者。
亞馬遜研究獎于 2015 年設立,旨在為多學科研究主題的研究人員提供資助獎勵。獲獎者可以訪問 300 多個亞馬遜公共數據集,并可以通過促銷積分使用 AWS AI/ML 服務和工具。除此以外,獲獎者還將與亞馬遜專家建立聯系,以獲得咨詢和建議,還可以參加亞馬遜舉辦的活動、培訓課程等。
在本周期,ARA 收到了許多優秀的研究提案。本次公告包含在 2024 年冬季和 2024 年春季周期的三個提案方向(信息安全 AI、基礎模型開發和可持續性)征集下資助的獎項。提案的審查依據是其科學內容的質量以及對研究界和社會產生影響的潛力。此外,亞馬遜也鼓勵公開發表、開源的研究成果。
在這一期的獲獎名單中,出現了很多華人學者的身影。
信息安全 AI
Kaize Ding
- 機構:西北大學
- 研究方向:信息安全中的高效異常檢測:自動化識別和解釋圖數據中的異常行為
Kaize Ding 是美國西北大學統計與數據科學的助理教授,領導 REAL 實驗室。他在亞利桑那州立大學獲得了計算機科學博士學位,師從劉歡(Huan Liu)教授。
他的研究興趣主要是數據挖掘、機器學習和大型基礎模型,研究重點集中于為自主決策構建可靠、高效的人工智能系統。同時,他熱衷于開發知識引導的人工智能算法,尤其是基于 GNN 和 LLM 的算法,推動 AI 賦能醫療保健、生物醫藥、城市、環境計算等不同領域的應用。
個人主頁:https://kaize0409.github.io/
Sijia Liu
- 機構:密歇根州立大學
- 研究方向:機器「遺忘」的機制,促進可信的生成式人工智能
Sijia Liu 于美國紐約的雪城大學獲得了電氣與計算機工程博士學位。此后,他在密歇根州立大學擔任博士后研究員、又于 MIT-IBM Watson 人工智能實驗室擔任研究員。
他的研究興趣主要聚焦于為可信的人工智能開發學習算法和理論,其研究目標是使 AI 系統更加安全且具可擴展性。他曾摘得 ICASSP’16 的最佳學生論文獎,以及 UAI’22 的最佳論文亞軍獎,已在 NeurIPS、ICML、ICLR、CVPR、ICCV 等頂級會議上發表了 70 多篇論文。
個人主頁:https://engineering.msu.edu/faculty/Sijia-Liu
張崇杰(Chongjie Zhang)
- 機構:圣路易斯華盛頓大學
- 研究方向:基于偏好的離線強化學習在信息安全中的實際應用
張崇杰是圣路易斯華盛頓大學計算機科學與工程系的教授,領導機器智能研究組。在此之前,他曾是清華大學交叉信息科學研究院的助理教授,并在 MIT CSAIL 擔任博士后研究員。
他的研究究主要集中在深度強化學習、多智能體系統和人機交互領域。目前,他致力于探索智能體應如何學習決策,并與其他智能體或人類有效協作,以超越單個智能體的能力。
個人主頁:https://engineering.washu.edu/faculty/Chongjie-Zhang.html
Yue Zhao
- 機構:南加州大學
- 研究方向:信息安全中的高效異常檢測:自動化識別和解釋圖數據中的異常行為
Yue Zhao 是南加州大學計算機科學助理教授。他的研究主要集中在構建穩健、可信且可擴展的人工智能系統,涉及三個層次:原則層、知識與生成層以及系統層。通過這些層次,他將可靠的檢測方法、基于圖的結構化知識、生成建模和開源工具結合起來,推動 AI 在科學、醫療、金融和政治科學等領域的應用。
在原則層,Yue Zhao 致力于確保 AI 系統能夠檢測異常、離群值和分布外數據,提供跨領域的可信度、公平性和透明度。知識層方面,他利用圖學習和生成 AI 方法,解決藥物發現、合成臨床試驗和政治預測等科學挑戰。系統層面,他開發了高效的工具和框架,用于自動模型選擇、超參數優化和大規模異常檢測。他還領導了多個開源項目,如 PyOD(被 NASA、特斯拉等使用),推動了 AI 技術的普惠和應用。
個人主頁:
??https://viterbi-web.usc.edu/~yzhao010/??
可持續性
尤峰崎(Fengqi You)
- 機構:康奈爾大學
- 研究方向:透明可信的生命周期評估(LCA)大語言模型助手
尤峰崎是康奈爾大學能源系統工程領域的教授,同時在多個學科領域有跨界合作,包括化學工程、計算機科學、電氣與計算機工程、系統工程、機械工程、土木與環境工程以及應用數學等。
在康奈爾大學,他擔任系統工程博士學位項目主席、康奈爾大學 AI for Science 研究所(CUAISci)聯合主任、康奈爾數字農業研究所(CIDA)聯合主任,以及康奈爾可持續性 AI 倡議(CAISI)主任。
在加入康奈爾之前,尤峰崎曾在阿貢國家實驗室數學與計算機科學部門工作,并在西北大學執教。他的研究聚焦于系統工程的基礎理論與方法,廣泛應用于材料信息學、智能制造、數字農業、能源系統和可持續性領域。尤峰崎已在《自然》、《科學》等期刊上發表了 300 多篇學術論文。
個人主頁:https://www.engineering.cornell.edu/faculty-directory/fengqi-you
基礎模型開發
程璐(Lu Cheng)
- 機構:芝加哥伊利諾伊大學
- 研究方向:通過不確定性量化實現可靠的大語言模型對齊
程璐是芝加哥伊利諾伊大學計算機科學系的助理教授,領導著負責任與可靠人工智能實驗室(R^2 Lab)。她在亞利桑那州立大學獲得了計算機科學博士學位,分別在華中科技大學和倫斯勒理工學院獲得了了本科與碩士學位。
程璐的研究興趣廣泛,主要集中在社會責任人工智能(如公平性、可解釋性 / 可解釋性、隱私)和可靠人工智能(如魯棒性與不確定性量化)、因果機器學習以及數據挖掘等領域。
個人主頁:https://lcheng.org/
魏華(Hua Wei)
- 機構:亞利桑那州立大學
- 研究方向:通過不確定性量化實現可靠的大語言模型對齊
魏華是亞利桑那州立大學的助理教授。他曾在新澤西理工學院擔任助理教授,并在騰訊 AI 實驗室擔任研究員。他在北航獲得計算機科學的本科和研究生學位,并在賓夕法尼亞州立大學獲得博士學位,其博士導師為 Zhenhui (Jessie) Li。他的課題組的論文多次發表在人工智能、機器學習、數據挖掘的頂級會議上,并獲得了 ECML-PKDD 2020 最佳論文獎。
魏華的研究興趣包括強化學習、數據挖掘、城市計算和人機協同計算等領域。
參考內容:??https://www.amazon.science/research-awards/program-updates/10-amazon-research-awards-recipients-announced??
#圖學習新突破
一個統一框架連接空域和頻域
陳枳扦博士:現任密西西比州立大學計算機系助理教授,專注于圖機器學習及應用領域,在譜域視角與不確定性研究方面著力頗深。其研究成果見諸于 AAAI、IJCAI、ACM、ICDM、EMNLP、Computing Surveys、Nature Communication 等。他的科研工作承蒙美國國家科學基金會(NSF)及美國農業部(USDA)多個項目的資助,且榮獲豐田研究院杰出貢獻獎與 ACM SIGPSATIAL 2020 最佳論文獎。
張磊博士:于 2024 年畢業于弗吉尼亞理工后,以助理教授身份加盟北伊利諾伊大學。他的研究興趣廣泛覆蓋機器學習和數據挖掘范疇,尤其聚焦于圖神經網絡、圖結構學習、雙層優化、神經架構搜索以及社交網絡挖掘等方面。在 AAAI、ICDM 等頂級會議上發表多篇論文,并于 2023 年夏季斬獲弗吉尼亞理工大學的 Cunningham Fellowship。
趙亮博士:身為埃默里大學計算機系副教授,他的研究領域橫跨數據挖掘、人工智能等多學科,在圖學習領域成果斐然。在 KDD、NeurIPS、AAAI、IJCAI、WWW 等眾多頂級會議及期刊上發表超百篇論文,屢獲殊榮,如 NSF CAREER 獎、Meta Research 獎、Amazon Research 獎等,還榮獲 ICDM 2022 最佳論文獎、ACM SIGPSATIAL 2022 最佳論文獎以及 WWW 2023 最佳論文提名等。
圖數據學習在過去幾年中取得了顯著的進展,圖神經網絡(GNN)在此過程中起到了核心作用。然而,不同的 GNN 方法在概念和實現上的差異,對理解和應用圖學習算法構成了挑戰。
針對這一問題,來自密西西比州立大學,北伊利諾伊大學和埃默里大學的學者通過一系列教程對此問題展開了討論,這些教程展示在 CVPR 2024、CIKM 2024、SIAM Math and Data Science 2024,以及發表在 Computing Surveys 的一篇論文: 《Bridging the Gap between Spatial and Spectral Domains: A Unified Framework for Graph Neural Networks》。
論文地址:https://dl.acm.org/doi/10.1145/3627816
問題:統一框架的突破意義何在?
盡管圖神經網絡已經在多個領域展示出了卓越的性能,從化學分子識別到社交網絡分析,從交通網絡到輸電網絡,再到大腦網絡。GNN 也在不同的場景下,用不同的理論和機制來設計新的圖神經網絡,例如 Heat diffusion, page rank, random walk, attention model, ARMA, low-pass filtering。雖然展現了 GNN 和很多不同理論工具的連接性,但這也加劇了 GNN 領域的分裂。這些方法因為急于不同理論,無法進行理論上直接的比較。
Part 1: 圖學習理論框架的現狀
目前,圖神經網絡(GNN)涵蓋了多種模型和層的類型,但總體可以分為空域(spatial)圖模型和頻域(spectral)圖模型。針對這些模型,不少研究者嘗試提出通用框架,以便在同一框架下對不同模型進行分析和比較。然而,這些框架主要集中于空域圖模型。值得注意的是,有一類研究從統一的出發點 —— 即模型的表達能力(Expressive Power)—— 對空域和頻域圖模型進行了分析。盡管如此,空域和頻域圖模型在表達能力的定義上存在差異,其分析結論和設計建議既有共通之處,也各有不同,同時兩者均存在一定的局限性。
Part 2: 圖卷積
圖卷積可以通過譜圖理論(Spectral Graph Theory)中的圖傅里葉變換(Graph Fourier Transform)和卷積定理(Convolution Theorem)來理解。
圖傅立葉變換:圖的結構通過圖拉普拉斯矩陣(Graph Laplacian)來表示。拉普拉斯矩陣 L 可以進行特征值分解:
,其中 U 是特征向量矩陣,∧ 是特征值的對角矩陣。圖傅里葉變換就是將圖信號
轉換到頻域:
。其逆變換為
。通過這種變換,研究者可以在頻域中處理和分析圖信號。
卷積定理:在傳統信號處理中,時域的卷積等價于頻域的逐點相乘。對于圖信號,同樣成立:設兩個圖信號 X(輸入特征)和 g(濾波器),它們的圖卷積定義為:
。其中,⊙ 表示頻域的逐點相乘,g 表示頻域濾波器。這表明圖卷積可以通過頻域操作實現。為了在圖神經網絡中實現卷積,濾波器 g 被參數化為
,它是特征值 ∧ 的函數:
,其中 θ 是可訓練的參數向量。卷積操作可以寫為:
。
圖卷積網絡(GCN)在頻域和空域的解釋:在頻域圖模型中,GCN 使用的是
的一階近似,其中
。這種操作本質上是一種固定的卷積操作,沒有可學習參數。由于歸一化之后的拉普拉斯矩陣的特征值范圍為 0 到 2 之間,2-θ 的濾波器實際上是一個低通濾波器:放大低頻平滑信號,減弱高頻信號。在空域圖模型中, GCN 的操作可以理解為對每個節點的鄰居節點的特征值進行求和,然后取平均值。這是一種基于鄰居特征聚合的方式。GCN 的頻域和空域視角是等價的,但各有側重。頻域解釋更偏向理論上的信號處理本質,而空域解釋更貼近工程實現和直觀理解。對于研究者而言,這兩種視角是相輔相成的,結合使用可以更全面地理解和改進 GCN。
Part 3: 新的統一框架:連接空域和頻域
教程中提出的框架基于一個核心假設:空間域和頻譜域的圖表示學習可以通過一個共同的數學語言進行描述。研究人員引入了一種新的圖嵌入方法,該方法結合了圖的空間連接性和節點特征,能夠更加精準地捕捉和表示圖數據的復雜性。
其他領域里頻域和空域的研究
在已存在的研究里,這種空域和頻域相互連接視角并不少見。研究者用兩個例子來說明:
(1)譜聚類:從譜域的視角看譜聚類是使用譜分解 (spectral decomposition) 或則說特征分解(eigen-decomposition),然后使用分解結果中特征值響亮的低頻信號來作為新的表達,然后使用較為簡單快速的 Kmeans 得到聚類結果。而另外一個新的實現,SpectralNet,設計了一個特別 loss,使用神經網絡來得到幾乎一樣的結果。單神經網絡是一種以降低 loss 為導向的迭代算法,所以可以視為一種近似譜聚類的算法。
(2)另外一個例子是著名的 Word2Vec 算法。以 Skip-gram 為例,每個單詞都要相似于它的上下文的環境里其他單詞。所以 Word2Vec 是一個迭代算法。在后來的研究中,Levy 提出了一些分析,發現使用 Word2Vec 的結果里的矩陣,能夠幾乎完整的還原單詞的共現矩陣(PPMI)。也就是說 Word2Vec 可以看作是矩陣分解算法的一種近似算法。
在這兩個例子中,研究者發現這種比較中,有類似于該研究提出的譜域和空域方法區別。即,一種方法側重矩陣分解,而另外一種側重于迭代近似。
Part 4: 未來方向展望
這項研究開辟了圖結構學習領域的新方向,未來的研究可以基于此框架進一步探索:
- 計算效率:如何進一步優化統一框架以處理大規模圖數據,在譜論表達下,圖的信息量依然巨大,對計算仍然是一個挑戰。
- 統一的譜論:目前譜論主要應用于靜態圖結構,而且是簡單圖(即無向,邊只連接兩個節點)。然后圖論中仍然有大量的不同類型的圖,缺少譜論的表達,例如有向圖,超圖,或則動態圖。
- 應用擴展:將統一框架應用到更多實際問題中,如生物信息學和社會網絡分析,如何解釋譜論視角下真實應用的規律,是一個值得探索的領域。