51c大模型~合集10

我自己的原文哦~? ??https://blog.51cto.com/whaosoft/11547799

#Llama 3.1

美國太平洋時間 7 月 23 日，Meta 公司發布了其最新的 AI 模型 Llama 3.1，這是一個里程碑時刻。Llama 3.1 的發布讓我們看到了開源 LLM 有與閉源 LLM 一較高下的能力。

Meta 表示，“到目前為止，開源 LLM 在功能和性能方面大多落后于閉源模型。現在，我們正迎來一個由開源引領的新時代。”

Meta 稱 Llama 3.1 是目前最強的生成式 AI 產品。4 月份，Meta 已經發布了 Llama 3，被稱為是 “我們最先進的開源 LLM 的下一代產品”。

此次 Llama 3.1 發布的產品有 8B、70B 和 405B 三個尺寸。

其中最受關注的是 Llama 3.1 405B。Meta 表示?Llama 3.1 405B 是目前全球最大、功能最強的公共基礎模型，可與 OpenAI 和 Google 開發的頂級模型一爭高下。

Meta 在官方博客中表示：“Llama 3.1 405B 是首個公開可用的模型，在通用常識、可引導性、數學、工具使用和多語言翻譯方面可與頂級 AI 模型相媲美。405B 模型的發布將帶來前所未有的創新和探索機會。”

Meta 稱他們在超過 150 個基準數據集上進行了性能評估，并將 Llama 3.1 與競品進行了比較，結果顯示 Llama 3.1 405B 在各項任務中都有能力與當前最先進的閉源模型一較高下。

8B 和 70B 在與同級別的小參數模型對比中也表現優異。

Llama 3 的推出以及 Meta 向生成式 AI 的全面轉型，使得這一產品被廣泛應用于 Meta 的大多數產品線，包括 Instagram、Messenger 和 WhatsApp。

此外，Meta CEO 扎克伯格表示，將 AI 作為開源工具向所有人開放也非常重要。

扎克伯格在一篇文章中寫道：“開源將確保世界上更多的人能享受到 AI 帶來的紅利和機會。這種權利不應該集中在少數公司手中，而且這項技術可以更均衡、更安全地部署到整個社會。”

Meta 開發開源 AI 模型的努力也促使其他 AI 開發者，包括去中心化 AI 公司 Venice AI、Brave 瀏覽器開發者 Brave 和 Perplexity AI，將 Llama 3 添加到他們的平臺上。

Venice AI 創始人 Erik Voorhees 在 5 月的一次 Twitter Space 中表示：“Meta 值得高度贊揚，因為他們花費了數億美元來訓練一個最先進的模型，并免費向全世界開放。”

Meta 表示，在提供更多功能的過程中，開發 Llama 3.1 405B 面臨的最大挑戰是模型規模的整體增長，支持更大的 12800,0-token 上下文窗口，并提供多語言支持。根據該公司表示，其 Meta AI 現在可以用法語、德語、印地語、意大利語、葡萄牙語和西班牙語進行響應。

關于 AI 安全性方面，扎克伯格強調 AI 應避免所有類型的傷害。

扎克伯格表示：“非故意傷害是指即使操作人員無意，AI 系統也可能造成傷害。故意傷害是指不法分子使用 AI 模型故意造成傷害。”

在故意濫用的情況下，主要的 AI 開發者 —— 包括 Meta、Anthropic、OpenAI、Google 和 Microsoft—— 對與選舉相關的提示施加了限制，以遏制使用其模型傳播錯誤信息。

扎克伯格指出，非故意傷害涵蓋了人們對 AI 的大部分擔憂，并表示開源軟件的透明性也有助于緩解這些擔憂。Llama 3 的發布還包括 Llama Guard 3，一款旨在監控和執行模型道德使用的工具。

扎克伯格表示：“從歷史角度看，開源軟件因此更加安全。同樣，使用 Llama 及其安全系統如 Llama Guard 可能比閉源模型更安全。”

扎克伯格接著表示，他相信 Llama 3.1 的發布將成為 AI 行業的一個拐點。

扎克伯格說：“歸根結底，開源 AI 代表了世界上最好的一次利用這項技術創造最大經濟機會和安全性的機會。”

#Llama成大模型頂流

扎克伯格掀論戰：玩開源，時代變了

開源與閉源的紛爭已久，現在或許已經達到了一個新的高潮。

說到開源大模型，Llama 系列自誕生以來就是典型代表，其優秀的性能與開源特點讓人工智能技術的應用性和可訪問性大大提升。任何研究人員和開發者都能夠從中獲益，讓研究和應用變得更加廣泛。

現在，Meta Llama 3.1 405B 正式發布。在官方博客中，Meta 表示：「直到今天，開源大語言模型在功能和性能方面大多落后于封閉模型。現在，我們正在迎來一個開源引領的新時代。」

與此同時，Meta 創始人、CEO 扎克伯格親自撰寫長文闡述開源對所有開發者、對 Meta、對世界的意義。他表示，開源是 AI 積極發展的必要條件。以 Unix 和 Linux 的發展為例，開源 AI 將更有利于創新、數據保護和成本效益。

他還認為，開源 Llama 模型能夠建立一個完整的生態系統，確保技術進步，并且不會因為競爭而失去優勢。Meta 有著成功的開源歷史，通過開源 AI 模型，扎克伯格希望促進全球技術的平等和安全應用。?

原文鏈接：https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

以下是原文內容：

扎克伯克為 Meta 注入開源基因

在高性能計算的早期，各大主流科技公司都投入大量資金開發各自的閉源 Unix 版本。當時很難想象會有其他方法能開發出如此先進的軟件。

然而，開源的 Linux 逐漸流行起來：最初是因為它允許開發人員自由修改代碼且價格更實惠，而后來它變得更先進、更安全，并且擁有比任何閉源 Unix 更廣泛的生態系統，支持更多的功能。今天，Linux 已成為云計算和運行大多數移動設備的操作系統的行業標準基礎，大家都因其卓越的產品受益。?

我相信人工智能的發展也與其發展軌跡類似。今天，一些科技公司正在開發領先的閉源模型，但開源正在迅速縮小差距。

去年，Llama 2 僅能與一代舊型號相媲美。而在今年，Llama 3 在某些領域已經可以與行業中領先的模型競爭甚至領先。明年開始，我們預計未來的 Llama 模型將成為行業中最先進的大模型。在此之前，Llama 也已經在開放性、可修改性和成本效益方面領先。

今天，我們正邁出下一步 —— 使開源 AI 成為行業標準。我們發布了首個前沿級開源 AI 模型 Llama 3.1 405B，以及改進版的 Llama 3.1 70B 和 8B 模型。較于閉源模型，這些開源模型在成本效益上顯著提升，特別是 405B 模型的開源特性，使其成為微調和蒸餾小型模型的最佳選擇。?

除了發布這些模型，我們還與多家公司合作，拓展更廣泛的生態系統。亞馬遜、Databricks 和英偉達正在推出全套服務，支持開發者微調和蒸餾他們自己的模型。像 Groq 這樣的創新者已經為所有新模型構建了低延遲、低成本的推理服務。

這些模型將在包括 AWS、Azure、Google、Oracle 等所有主要云平臺上可用。Scale.AI、戴爾、德勤等公司已經準備好幫助企業采用 Llama 并使用他們自己的數據訓練定制模型。隨著社區的成長和更多公司開發新服務，我們可以共同使 Llama 成為行業標準，并將 AI 的益處帶給每個人。

Meta 致力于開源 AI，以下是我認為開源是最佳開發平臺的原因，為什么開源 Llama 對 Meta 有利，以及為什么開源 AI 對世界有益，并由此將長期存在。

開源 AI 之于開發者

當我與全球的開發者、CEO 和政府官員交談時，通常聽到幾個主題：

我們需要訓練、微調和蒸餾自己的模型。每個組織都有不同的需求，這些需求最好通過使用不同規模并使用特定數據訓練或微調的模型來滿足。設備上的任務和分類任務需要小型模型，而更復雜的任務則需要大型模型。現在，你可以使用最先進的 Llama 模型，繼續用自己的數據訓練它們，然后將它們蒸餾成最適合你需求的模型規模 —— 無需我們或任何其他人看到你的數據。
我們需要掌控自己的命運，而不是被閉源供應商「鎖死」。許多組織不希望依賴他們無法自己運行和控制的模型。他們不希望閉源模型供應商能夠更改模型、改變使用條款，甚至完全停止服務。他們也不希望被鎖定在擁有模型專有權的單一云平臺上。開源使得兼容工具鏈的廣泛生態系統成為可能，你可以輕松地在這些工具之間切換。
我們需要保護我們的數據。許多組織處理需要保護的敏感數據，無法通過云 API 發送到閉源模型。一些組織則根本不信任閉源模型供應商對其數據的處理。開源解決了這些問題，因為它使你可以在任何你想要的地方運行模型。眾所周知，開源軟件會因為開發過程更加透明，而更安全。
我們需要一個高效且經濟的模型。開發者可以在自己的基礎設施上運行 Llama 3.1 405B，進行推理，成本大約是使用閉源模型（如 GPT-4）的 50%，適用于用戶端和離線推理任務。
我們希望投資于將成為長期標準的生態系統。許多人看到開源的發展速度快于封閉模型，他們希望在能夠長期提供最大優勢的架構上構建自己的系統。

開源 AI 之于 Meta

Meta 的商業模式是為人們構建最佳體驗和服務。為了實現這一目標，我們必須確保始終能夠獲取最佳技術，而不是被鎖定在競爭對手的封閉生態系統中，這樣他們就不能限制我們所開發的內容。?

我想分享一個重要經歷：雖然蘋果公司允許我們在其平臺上構建內容，但是當我們構建服務時仍受到了限制。無論是他們對開發者的稅收、他們施加的任意規則，還是他們阻止的所有產品創新，顯而易見，如果我們能夠構建產品的最佳版本，并且競爭對手無法限制我們構建的內容，Meta 和許多其他公司將能夠為人們提供更好的服務。從哲學層面上講，這也是我如此堅信在 AI 和 AR/VR 領域為下一代計算機建立開放生態系統的一個重要原因。

人們常常問我是否擔心因為開源 Llama 而失去技術優勢，但我認為這忽略了大局，原因有以下幾點：

首先，為了確保我們能夠長期保持技術領先，并且不被鎖定在閉源生態系統中，Llama 需要發展成一個完整的生態系統，包括工具、效率改進、硬件優化和其他集成。如果只有我們公司使用 Llama，這個生態系統將不會發展，我們的境況也不會比 Unix 的閉源變種好多少。

其次，我預計 AI 開發將繼續保持高度競爭，這意味著在任何給定時刻，開源某個模型不會使我們在與下一個最佳模型的競爭中失去巨大優勢。Llama 成為行業標準的途徑是通過一代又一代地保持競爭力、高效性和開放性。?

第三，Meta 與閉源模型提供商的一個關鍵區別在于，銷售 AI 模型的訪問權限并不是我們的商業模式。這意味著公開發布 Llama 不會削弱我們的收入、可持續性或投資研究的能力，而閉源提供商則會受到影響。（這也是為什么一些閉源提供商一直在游說公共管理者反對開源的原因之一。）

最后，Meta 在開源項目上有著豐富的成功經驗。通過與開放計算項目分享我們的服務器、網絡和數據中心設計，并使供應鏈標準化，我們節省了數十億美元。通過開源 PyTorch、React 等領先工具，我們從生態系統的創新中受益匪淺。這種方法長期以來一直極具效果。

開源 AI 之于世界

我相信開源對于 AI 的未來是有必要的。AI 比任何其他現代技術都更有潛力提高人類的生產力、創造力和生活質量，并且能夠在加速經濟增長的同時推動醫學和科學研究的進步。開源將確保全球更多的人能夠從 AI 的發展中獲得利益和機會，權力不會集中在少數幾家公司手中，并且技術能夠更均勻和安全地在社會中部署。

關于開源 AI 模型的安全性，存在著持續的爭論。我的觀點是，開源 AI 將比替代方案更安全。我認為各國政府最終會得出支持開源的結論，因為這將使世界更加繁榮和安全。

在我理解的安全性框架中，我們需要防范兩類危害：無意和故意。

?無意的危害是指 AI 系統可能在運行時非故意地造成傷害。例如，現代 AI 模型可能在無意中給出錯誤的健康建議。或者，在未來場景中，有人擔心模型可能會無意中自我復制或過度優化目標，從而對人類造成損害。
?故意的危害是指不良行為者使用 AI 模型以造成傷害為目的。

值得注意的是，無意的危害涵蓋了人們對 AI 的多數擔憂 —— 從 AI 系統對數十億用戶的影響到大多數真正災難性的科幻場景。在這方面，開源所帶來的安全性更加顯著，因為系統更透明，可以被廣泛審查。

歷史上，開源軟件由于這一原因一直更安全。同樣，使用 Llama 及其安全系統如 Llama Guard，可能會比閉源模型更安全和更可靠。因此，大多數關于開源 AI 安全性的討論集中在故意的危害上。

我們的安全流程包括嚴格的測試和紅隊評估，以檢驗我們的模型是否有可能造成實質性傷害，此目標是在發布前減輕風險。由于這些模型是開源的，任何人都可以自行進行測試。我們必須牢記，這些模型是通過互聯網上已有的信息訓練的，所以在考慮危害時，起點應該是模型是否能比從 Google 或其他搜索結果快速獲取的信息造成更多的危害。

通過區分個體或小規模行為者與擁有大量資源的大規模行為者（如國家）所能做的事情，將會有益于推理故意傷害。

在未來的某個時候，個別惡意行為者可能會利用 AI 模型的智能，從互聯網上現有的信息中制造出新型危害。在這一點上，力量的均衡對 AI 安全至關重要。

我認為生活在一個 AI 廣泛部署的世界中會更好，因為這樣可以使大型行為者制衡小型惡意行為者。這也是我們在社交網絡上管理安全的方式，憑借更強大的 AI 系統識別并阻止那些經常使用小規模 AI 系統的不太復雜的行為者。

更廣泛地說，大型機構在大規模部署 AI 時將促進社會的安全和穩定。只要每個人都能訪問類似代際的模型，那么擁有更多算力資源的政府和機構將能夠制衡擁有較少計算資源的惡意行為者。

在考慮未來的機遇時，請記住，今天的大多數領先科技公司和科學研究都是建立在開源軟件之上的。如果我們共同投資于開源 AI，下一代公司和研究就會獲得使用的機會。這包括剛剛起步的初創企業，以及那些可能沒有資源從頭開發 SOTA AI 的大學和國家的人們。

總而言之，開源 AI 代表了在全球范圍內我們可以利用這項技術為所有人創造最大的經濟機會和安全保障。

合作行穩，開源致遠

在過去的 Llama 模型中，Meta 為自身開發發布了這些模型，但并未重點關注建立更廣泛的生態系統。這次發布，我們采取了不同的方式。我們正在內部組建團隊，使盡可能多的開發者和合作伙伴能夠使用 Llama，并且積極建立合作伙伴關系，以便生態系統中的更多公司能夠為他們的客戶提供獨特的功能。

我相信 Llama 3.1 的發布將成為行業的一個轉折點，大多數開發者將開始使用開源技術，我預計這種方式將會以我們的開源為起點。

我希望我們可以共同努力將 AI 的益處帶給全世界。

你現在可以在 llama.meta.com 上訪問這些模型。

馬克·扎克伯格?

#擊敗GPT-4o的開源模型如何煉成

經歷了提前兩天的「意外泄露」之后，Llama 3.1 終于在昨夜由官方正式發布了。

Llama 3.1 將上下文長度擴展到了 128K，擁有 8B、70B 和 405B 三個版本，再次以一已之力抬高了大模型賽道的競爭標準。

對 AI 社區來說，Llama 3.1 405B 最重要的意義是刷新了開源基礎模型的能力上限，Meta 官方稱，在一系列任務中，其性能可與最好的閉源模型相媲美。

下表展示了當前 Llama 3 系列模型在關鍵基準測試上的性能。可以看出，405B 模型的性能與 GPT-4o 十分接近。

與此同時，Meta 公布了《The Llama 3 Herd of Models》論文，揭示了 Llama 3 系列模型迄今為止的研究細節。

?論文地址：??https://ai.meta.com/research/publications/the-llama-3-herd-of-models/??

接下來，讓我們看一下論文內容。

Llama3 論文亮點

1、在使用 8K 上下文長度進行預訓練后，Llama 3.1 405B 使用 128K 上下文長度進行連續訓練，且支持多語言和工具使用。

2、與以前的 Llama 模型相比，Meta 加強了預處理和預訓練數據的 Curation pipelines，以及后訓練數據的質量保證和過濾方法。

Meta 認為，高質量基礎模型的開發有三個關鍵杠桿：數據、規模和復雜性管理。

首先，與 Llama 的早期版本相比，Meta 在數量和質量兩方面改進了用于預訓練和后訓練的數據。Meta 在大約 15 萬億的多語言 Token 語料庫上對 Llama 3 進行了預訓練，相比之下，Llama 2 只使用了 1.8 萬億 Token。

此次訓練的模型規模遠大于以前的 Llama 模型：旗艦語言模型使用了 3.8 × 102? 次浮點運算（FLOPs）進行預訓練，超過 Llama 2 的最大版本近 50 倍。

基于 Scaling law，在 Meta 的訓練預算下，當前的旗艦模型已是近似計算最優的規模，但 Meta 對較小模型進行的訓練時間已經遠超計算最優的時長。結果表明，這些較小模型在相同推理預算下的表現優于計算最優模型。在后訓練階段，Meta 使用了 405B 的旗艦模型進一步提高了 70B 和 8B 模型這些較小模型的質量。

3、為了支持 405B 模型的大規模生產推理，Meta 將 16 位 (BF16) 量化為 8 位 (FP8)，從而降低了計算要求，并使模型能夠在單個服務器節點上運行。

4、在 15.6T token（3.8x102?? FLOPs）上預訓練 405B 是一項重大挑戰，Meta 優化了整個訓練堆棧，并使用了超過 16K H100 GPU。

正如 PyTorch 創始人、Meta 杰出工程師 Soumith Chintala 所說，Llama3 論文揭示了許多很酷的細節，其中之一就是基礎設施的構建。

5、在后訓練中，Meta 通過多輪對齊來完善 Chat 模型，其中包括監督微調（SFT）、拒絕采樣和直接偏好優化。大多數 SFT 樣本由合成數據生成。

研究者在設計中做出了一些選擇，以最大化模型開發過程的可擴展性。例如，選擇標準的密集 Transformer 模型架構，只進行了少量調整，而不是采用專家混合模型，以最大限度地提高訓練的穩定性。同樣，采用相對簡單的后訓練程序，基于監督微調（SFT）、拒絕采樣（RS）和直接偏好優化（DPO），而不是更復雜的強化學習算法，因為后者往往穩定性較差且更難擴展。

6、作為 Llama 3 開發過程的一部分，Meta 團隊還開發了模型的多模態擴展，使其具備圖像識別、視頻識別和語音理解的能力。這些模型仍在積極開發中，尚未準備好發布，但論文展示了對這些多模態模型進行初步實驗的結果。

7、Meta 更新了許可證，允許開發者使用 Llama 模型的輸出結果來增強其他模型。

在這篇論文的最后，我們還看到了長長的貢獻者名單：

這一系列因素，最終造就了今天的 Llama 3 系列。

當然，對于普通開發者來說，如何利用 405B 規模的模型是一項挑戰，需要大量的計算資源和專業知識。

發布之后，Llama 3.1 的生態系統已準備就緒，超過 25 個合作伙伴提供了可與最新模型搭配使用的服務，包括亞馬遜云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake 等。

#數學大統一理論里程碑進展

幾何朗蘭茲猜想獲證明

歷經三十年的努力，數學家已經成功證明了一個名為「朗蘭茲綱領（Langlands program）」的宏大數學愿景的主要部分。

一個由 9 位數學家組成的團隊成功證明了幾何朗蘭茲猜想（Geometric Langlands Conjecture），這是現代數學領域涉及范圍最廣的范式之一。

馬克斯?普朗克數學研究所的著名數學家 Peter Scholze（他并未參與此證明）說：這項證明是三十年辛苦研究所到達的頂點。「看到它得到解決真是太好了。」

朗蘭茲綱領是由羅伯特?朗蘭茲（Robert Langlands）在 1960 年代提出的。其是對傅里葉分析的廣泛泛化，而傅里葉分析是一個影響深遠的框架，可將復雜的波表示成多個平滑震蕩的正弦波。朗蘭茲綱領在三個不同的數學領域都有重要地位：數論、幾何和所謂的函數域（function field）。這三個領域通過一個類比網絡連接在了一起，而這個網絡也被稱為數學的「羅塞塔石碑（Rosetta stone）」。

現在，一系列論文證明了這個羅塞塔石碑的幾何欄位的朗蘭茲猜想：??https://people.mpim-bonn.mpg.de/gaitsgde/GLC/??

德克薩斯州大學奧斯汀分校的 David Ben-Zvi 說：「其它領域還沒有得到過如此全面和有力的證明。」

朗蘭茲綱領的幾何版本的主要先驅之一 Alexander Beilinson 說：「這是美麗的數學，最美的那一類。」

該證明包含 5 篇論文，加起來超過 800 頁。它們來自 Dennis Gaitsgory（馬克斯?普朗克研究所）和 Sam Raskin（耶魯大學）領導的一個團隊。

Gaitsgory 過去 30 年來一直致力于證明幾何朗蘭茲猜想。這幾十年來，他及其合作者獲得了大量研究成果，并在這些基礎上完成了這項證明。格勒諾布爾 - 阿爾卑斯大學的 Vincent Lafforgue 將這些進步比作是「不斷升高的海」；他說這就像是 20 世紀杰出數學家亞歷山大?格羅滕迪克（Alexander Grothendieck）的研究精神 —— 通過創造一個不斷升高的思想之海來解決困難問題。

Dennis Gaitsgory（左圖）和 Sam Raskin（右圖），他們領導的一個九人團隊證明了幾何朗蘭茲猜想。

要驗證他們的新證明成果還需要些時日，但很多數學家都表示相信其核心思想是正確的。Lafforgue 說：「該理論的內部一致性很好，所以很難相信它錯了。」

在證明之前的幾年里，該研究團隊創建了不止一條通往問題核心的路徑。「他們得到的理解是如此的豐富和廣泛，以至于他們從所有方向包圍了這個問題。」他說，「它已無路可逃。」

大統一理論

1967 年，時年 30 歲的普林斯頓大學教授羅伯特?朗蘭茲在他手寫給安德烈?韋伊（André Weil，這個羅塞塔石碑的創立者）的一份 17 頁信件中闡述了他的愿景。朗蘭茲寫到，在這個羅塞塔石碑的數論和函數域欄位上，有可能創造出一種廣義版的傅里葉分析，并且其將具有驚人的范圍和力量。

在經典的傅里葉分析中，對于兩種不同的思考波圖（比如聲波）的方式，會使用一種名為傅立葉變換的過程來創造的它們之間的對應關系。在這對應關系的一側是這些波本身。（我們稱之為波側 /wave side）。這包括簡單的正弦波（在聲學中就是純音）以及由多個正弦波組成的復雜波。在這對應關系的另一側是余弦波的頻譜 —— 聲學中的音高。（數學家稱之為譜側 /spectral side）。

傅立葉變換就是在這兩側之間來回。在一個方向上，其可將波分解成一組頻率；在另一個方向上，則可根據其組成頻率重建出波。這種雙向變換的能力造就了數不清的應用 —— 沒有它，我們就不會擁有現代電信、信號處理、磁共振成像或現代生活的許多其它必需品。

朗蘭茲提出，羅塞塔石碑的數論和函數域欄位也有類似的變換，只是這里的波和頻率都更加復雜。

在下面的視頻中，羅格斯大學的數學家 Alex Kontorovich 將帶我們穿過這片數學大陸，了解朗蘭茲綱領核心的令人驚嘆的對稱性。

視頻來源：https://www.youtube.com/watch?v=_bJeKUosqoY

在這些欄位中的每一個，都有一個由一組特殊函數組成的波側，這些特殊函數類似于重復的波。這些特殊函數中最純粹的被稱為特征函數（eigenfunction），其作用就類似于正弦波。每個特征函數都有一個特征頻率。不過，雖然正弦波的頻率是一個數值，但特征函數的頻率則是一個無限的數值列表。

還有譜側。這由數論中的對象組成；朗蘭茲認為這些對象標記了特征函數的頻譜。他提出，存在一種類似于傅立葉變換的處理機制可將這里的波側與譜側連接起來。「這件事有點神奇。」Ben-Zvi 說，「這不是我們沒有任何理由時就能事先預計的東西。」

波與其頻率標簽來自大不相同的數據領域，因此如果能證明它們之間的對應關系，必定能帶來豐厚的回報。舉個例子，在 1990 年代時，一個相對較小的函數集的數論朗蘭茲對應的證明就讓 Andrew Wiles 和 Richard Taylor 證明了費馬大定理 —— 這個問題曾是數學領域最著名的待證明問題之一，數學界已經為此努力了三個世紀。

加州大學伯克利分校的 Edward Frenkel 表示：朗蘭茲綱領被視為「數學的大統一理論」。然而，即便數學家已經努力證明了朗蘭茲愿景中越來越大的部分，但他們也很清楚這個愿景并不完備。在這塊羅塞塔石碑的幾何學欄位，波與頻率標簽的關系似乎無法體現出來。

一粒沙

正是從朗蘭茲的研究工作開始，數學家對幾何朗蘭茲對應（geometric Langlands correspondence）的譜側的樣子有了一個想法。韋伊設定的羅塞塔石碑的第三個欄位（幾何）涉及緊黎曼曲面（compact Riemann surface），包括球面、甜甜圈形曲面以及多孔甜甜圈形曲面。一個給定的黎曼曲面都有一個對應的對象，稱為基本群（fundamental group），其跟蹤的是環繞曲面的環線的不同形式。

數學家猜想，幾何朗蘭茲對應的譜側應當由基本群的特定蒸餾形式構成，這些特定的蒸餾形式也被稱為基本群的表征（representation）。

如果要在羅塞塔石碑的幾何欄位體現出朗蘭茲對應，那么黎曼曲面基本群的每個表征都應該是一個頻率標簽 —— 但是什么的頻率標簽呢？

對于頻率似乎標記了基本群表征的特征函數，數學家找不到任何集合。然后到了 1980 年代，如今就職于芝加哥大學的 Vladimir Drinfeld 意識到：通過將特征函數替換成名為特征層（eigensheaf）的更復雜對象，有可能創建起幾何朗蘭茲對應 —— 不過那時候，他只知道少數特征疊層的構建方式。

層（sheaf）比函數深奧很多，因此數論學家那時候不知道該如何理解這個朗蘭茲對應的幾何表親。但幾何朗蘭茲綱領（盡管其波側玄奧難懂）相較于數論版本的朗蘭茲綱領有著一個大優勢。在幾何朗蘭茲中，特征層的頻率由黎曼曲面上的點控制，球體或甜甜圈上的每個點在近距離看起來非常相似。但在數論朗蘭茲中，頻率由素數控制，并且每個素數都有其特有的性質。倫敦帝國學院的數論學家 Ana Caraiani 說：數學家不知道「如何以一種很好的方式從一個素數到另一個素數。」

黎曼曲面在物理學領域具有重要作用，尤其是在共形場論中，其控制著亞原子粒子在某些力場中行為。在 1990 年代早期，Beilinson 和 Drinfeld 展示了可以如何使用共形場論來構建某些特別好的特征層。

與共形場論這種連接關系讓 Beilinson 和 Drinfeld 開始思考如何為層（sheaf）構建一種傅里葉分析。Ben-Zvi 說：「這就像是引發結晶的一粒沙子。」

Beilinson 和 Drinfeld 提出了一個豐富的愿景，闡述了幾何朗蘭茲對應理應的工作方式。這不僅是基本群的每個表征都應該標記一個特征層的頻率。他們認為，這種對應關系也應當尊重兩側的重要關系，Beilinson 和 Drinfeld 稱這種展望是「最好的希望」。

1990 年代中期，Beilinson 在特拉維夫大學通過一系列講座介紹了這一發展中的研究圖景。Gaitsgory 那時在此讀研究生，努力吸收其中每句話。他回憶說：「我就像一只剛孵化的小鴨子，獲得了一種印隨行為。」

此后的 30 年里，幾何朗蘭茲猜想一直是 Gaitsgory 數學生涯的主要驅動力。他說：「這些年都在不停地工作，離目標越來越近，開發不同的工具。」

上升之海

Beilinson 和 Drinfeld 只是松散地陳述了他們的猜想，事實證明他們有點過于簡化「最好的希望」中的關系理應的工作方式了。2012 年時，Gaitsgory 與威斯康星大學麥迪遜分校的 Dima Arinkin 搞清楚了如何將這「最好的希望」變成一個精確的猜想。

之后一年，Gaitsgory 寫了一份大綱，闡述了證明幾何朗蘭茲猜想的可能方式。該大綱依賴大量中間陳述，其中很多當時都尚未得到證明。Gaitsgory 及其合作者開始著手證明它們。

接下來的幾年時間里，Gaitsgory 和多倫多大學的 Nick Rozenblyum 寫了兩本關于層的書，加起來接近 1000 頁。在這套兩卷本中，幾何朗蘭茲綱領只被提及了一次。Gaitsgory 說：「但其目的是奠定基礎，后來我們也大量使用到了這些基礎。」

2020 年，Gaitsgory 突然發現他沒什么日程安排了。他說：「我花了三個月時間躺在床上，只是思考。」這些思考最終促成了一篇論文（有 6 位作者）。雖然這篇論文專注于朗蘭茲綱領的函數域欄位，但其中也包含「一粒種子」—— 這粒種子后來變成了證明幾何朗蘭茲猜想的關鍵組件：一種用于理解特征層如何促進所謂的「白噪聲」的方法。

其他七位研究者的照片。左起順時針方向：Dario Beraldo、Lin Chen（陳麟）、Kevin Lin、Nick Rozenblyum、Joakim F?rgeman、Justin Campbell 和 Dima Arinkin。

在經典的信號處理領域，可由正弦波構建聲波，其頻率對應于聲音中的音高。僅僅知道聲音包含哪些音高是不夠的 —— 還需要知道每個音高的響度有多大。這些信息讓你可將聲音寫成正弦波的組合形式：只需從幅度為 1 的正弦波開始，然后讓正弦波乘以適當的響度因子，再將這些正弦波加在一起。所有不同的幅度為 1 的正弦波之和就是我們常說的「白噪聲」。

在幾何朗蘭茲綱領的世界里，特征層的作用就類似于正弦波。Gaitsgory 及其合作者識別出了一種名為龐加萊層（Poincaré sheaf）的東西，其作用似乎就類似于白噪聲。但這些研究者并不清楚能否將每個特征層都表示在龐加萊層中，更不用說它們是否都具有相同的幅度了。

2022 年春，Raskin 與他的研究生 Joakim F?rgeman 展示了如何使用那篇六作者論文中的思想來證明每個特征層都確實可表示在龐加萊層中。Gaitsgory 在談到對幾何朗蘭茲猜想的證明時說：「在 Sam 的和 Joakim 的論文之后，我很確信我們能在短時間內做到。」

研究者需要證明，所有特征層對龐加萊層都有同等的貢獻，并且基本群表征標記了這些特征層的頻率。他們認識到，最難的部分是處理這種基本群的表征：不可約表征。

這些不可約表征的解決方案出現之時，Raskin 的個人生活正一片混亂。在他與 F?rgeman 在網上發布了他們的論文幾周后的某天，Raskin 不得不匆忙地將他懷孕的妻子送往醫院，然后再回家送兒子第一次去幼兒園。Raskin 的妻子在醫院住了六周，直到他們的第二個孩子降生。在這段時間里，Raskin 的生活一直在輪軸轉 —— 為了保證兒子的正常生活，他無休止地在家、兒子的學校和醫院之間來回奔忙。他說：「我那時的全部生活就是車和照顧人。」

他在駕駛途中與 Gaitsgory 打電話探討數學。在那幾周的第一周快結束時，Raskin 意識到他可以將這個不可約表征問題簡化成證明三個當時已經觸手可及的事實。「對我來說，那段時間很神奇。」他說，他的個人生活「充滿了對未來的焦慮和恐懼。對我來說，數學是一種需要根植（grounding）和冥想的東西，可以讓我擺脫那種焦慮。」

到 2023 年初，Gaitsgory 和 Raskin 以及 Arinkin、Rozenblyum、F?rgeman 和其他四名研究人員一起，對 Beilinson 和 Drinfeld 的「最好的希望」進行了完整的證明，并由 Gaitsgory 和 Arinkin 進行了修訂。（其他研究者為倫敦大學學院的 Dario Beraldo、清華大學的 Lin Chen（陳麟）、芝加哥大學的 Justin Campbell 和 Kevin Lin。）該團隊又用了一年時間將該證明寫下來。他們在今年二月份在網上發布了該證明。盡管這些論文遵循 Gaitsgory 在 2013 年制定的大綱，但其中簡化了 Gaitsgory 的方法并在很多方面做出了改進。Lafforgue 說：「對于這個無與倫比的成就，很多聰明人為此貢獻了很多新想法。」

「他們不僅僅是證明了它，」Ben-Zvi 說，「他們圍繞它開發了整個世界。」

更遠的海岸

對 Gaitsgory 來說，這個數十年夢想的實現遠非故事的結束。還有許多進一步的難題有待數學家解決 —— 更深入地探索其與量子物理學的聯系、將該結果擴展到帶穿孔的黎曼曲面、搞清楚其對羅塞塔石碑的其它欄位的影響。Gaitsgory 在一封電子郵件中寫到：「這感覺（至少對我來說）更像是鑿下了一塊大石頭，但我們離核心依然還很遠。」

研究其它兩個欄位的研究者現在急切地想要將這個證明轉譯過去。Ben-Zvi 說：「其中一個主要碎片得到解決這一事實應該會對朗蘭茲對應的整體研究產生重大影響。」

但并非所有東西都能帶過去 —— 舉個例子，在數論和函數域設置中，并沒有與共形場論思想相對應的東西，而共形場論能讓研究者在幾何設置中構建起特殊的特征層。在將該證明中的很多東西用于其它欄位之前，還需要一些費力的調整。伯克利的 Tony Feng 說：我們還不清楚是否能「將這些思想轉移到一個原本沒想過能使用它們的不同環境中。」

但很多研究者都樂觀地相信這個上升的思想之海最終會漫延到其它領域。Ben-Zvi 說：「它將滲透穿過學科之間的所有障礙。」

過去十年中，研究者已經開始發現幾何欄位與另外兩個欄位之間的聯系。「如果（幾何朗蘭茲猜想）在 10 年前就被成功證明，那么結果會大不相同。」Feng 說，「人們就不會認識到它的影響可能會拓展到（幾何朗蘭茲）社區之外。」

在將幾何朗蘭茲證明轉譯到函數域欄位方面，Gaitsgory、Raskin 及其合作者已經取得了一些進展。（Raskin 暗示說，Gaitsgory 和 Raskin 在后者的長期駕駛途中得到的一些發現「還有待揭示」。）如果轉譯成功，則可能得到一個比數學家之前知道或甚至猜測的還要遠遠更加精準的函數域朗蘭茲版本。

而從幾何欄位到數論欄位的大多數轉譯都會經過函數域。但在 2021 年，巴黎 Jussieu 數學研究所的 Laurent Fargues 和 Scholze 設計了一個所謂的蟲洞（wormhole），可將幾何欄位的思想直接帶到數論朗蘭茲綱領的某一部分。

Scholze 說：「我肯定是一個想要轉譯這些幾何朗蘭茲證明的人。」考慮到這片上升之海包含上千頁文本，這絕非易事。「我目前落后幾篇論文，」Scholze 說，「正在努力研讀他們在 2010 年左右的成果。」

現在，幾何朗蘭茲研究者終于將他們的長篇論證述諸論文，Caraiani 希望他們能有更多時間與數論方向的研究者討論。她說：「人們有著非常不同的思考問題的方式。如果他們能夠放慢腳步，彼此交談，了解對方的觀點，那總會有好處的。」她預測說這項新成果的思路必定會傳播到數論領域，這只是個時間問題。

正如 Ben-Zvi 說得那樣：「這些結果是如此的穩健，以至于你一旦開始，就很難再停下來。」

原文鏈接：https://www.quantamagazine.org/monumental-proof-settles-geometric-langlands-conjecture-20240719/

#讓機器人擁有人一樣「潛意識」

英偉達1.5M小模型就能實現通用控制了

當機器人也有潛意識。

大模型固然性能強大，但限制也頗多。如果想在端側塞進 405B 這種級別的大模型，那真是小廟供不起大菩薩。近段時間，小模型正在逐漸贏得人們更多關注。這一趨勢不僅出現在語言模型領域，也出現在了機器人領域。

昨天晚上，朱玉可和 Jim Fan 團隊（英偉達 GEAR 團隊）新鮮發布了他們的最新研究成果 HOVER。這是一個僅有 1.5M 參數的神經網絡，但它足以控制人形機器人執行多種機體運動。

先來看看效果，將 HOVER 在不同模式下控制的機器人放到一起組成陣列，其中每一臺機器人都有自己的控制模式。還挺壯觀的！這也佐證了 HOVER 的通用性。你能看出它們的不同之處嗎？

無論是 H2O 模式、OmniH2O Mode 模式、還是 ExBody 模式、HumanPlus 模式，左手和右手的慢動作都直接被 HOVER 大一統了。

實際上，HOVER 就是一個通用型的人形機器人控制器。

HOVER 一作 Tairan He（何泰然）的推文，他是 CMU 機器人研究所的二年級博士生，還是個有 38 萬多粉絲的 B 站 up 主（WhynotTV）

據介紹，HOVER 的設計靈感來自人類的潛意識。人類在行走、保持平衡和調整四肢位置時都需要大量潛意識的計算，HOVER 將這種「潛意識」能力融合進了機器人。這個單一模型可以學習協調人形機器人的電機，從而實現運動和操控。

Jim Fan 的推文

論文標題：HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots
論文地址：https://arxiv.org/pdf/2410.21229
項目地址：https://hover-versatile-humanoid.github.io/

HOVER 的訓練使用了 NVIDIA Isaac，這是一個由 GPU 驅動的模擬套件，可將物理加速到實時的 1 萬倍。按 Jim Fan 的比喻就是說，只需在一張 GPU 卡上運算大概 50 分鐘，機器人就像是在虛擬「道場」中經歷了一整年的密集訓練。

然后，無需微調，就可以將這個神經網絡以零樣本方式遷移到真實世界。

HOVER 可以接收多種高級運動指令，即所謂的「控制模式（control mode）」，比如：

頭部和手部姿勢，可通過 Apple Vision Pro 等增強現實設備捕捉；
全身姿勢，可通過 MoCap 或 RGB 相機；
全身關節角度：外骨骼；
根速度命令：操縱桿。

這項研究的貢獻包括：

一個統一的界面，可讓控制者使用任何方便的輸入設備來控制機器人；
一種更簡單的全身遠程操作數據收集方法；
一個上游的視覺 - 語言 - 動作模型，可用于提供運動指令，之后 HOVER 會將其轉換為高頻的低級運動信號。

HOVER 是如何煉成的？

用于人形機器人的基于目標的強化學習

該團隊將所研究的問題表述成了一個基于目標的強化學習任務，其中策略 π 的訓練目標是跟蹤實時的人類運動。其狀態 s_t 包含智能體的本體感受 s^p 和目標狀態 s^g。其中目標狀態 s^g 會為目標運動提供一個統一的表征。基于此，可將策略優化的獎勵定義成

。

動作?

表示目標關節位置，這些位置會被輸入到 PD 控制器中以驅動機器人，他們使用了近端策略優化 (PPO) 算法來最大化累積折扣獎勵

該設置被表述為一個命令跟蹤任務，其中人形機器人會學習在每個時間步驟遵從目標命令。

用戶人形機器人控制的命令空間設計

對于腿部運動，根速度或位置跟蹤是常用的命令空間。然而，僅僅關注根跟蹤會限制人形機器人的全部能力，尤其是對于涉及全身運動的任務。

該團隊研究了之前的工作，發現它們提出了一些各不一樣的控制模式，并且每種模式通常都是針對某些特定的任務，因此缺乏通用人形機器人控制所需的靈活性。

而該團隊的目標是設計一個全面的控制框架，以適應多種多樣的場景和各種不同的人形機器人任務。為此，在構建命令空間時，必須滿足以下關鍵標準：

通用性：命令空間應包含大多數現有配置，允許通用控制器替換針對特定任務的控制器，同時還不會犧牲性能或多功能性。并且該空間應具有足夠的表現力，以便與現實世界的控制設備交互，包括操縱桿、鍵盤、動作捕捉系統、外骨骼和虛擬現實 (VR) 頭設，如圖 1 所示。
原子性：命令空間應由獨立的維度組成，從而能夠任意組合控制選項以支持各種模式。

基于這些標準，該團隊定義了一個用于人形機器人全身控制的統一命令空間。該空間由兩個主要控制區域組成 —— 上身和下身控制 —— 并包含三種不同的控制模式：

運動位置跟蹤：機器人上關鍵剛體點的目標 3D 位置；
局部關節角度跟蹤：每個機器人電機的目標關節角度；
根跟蹤：目標根速度、高度和方向，由滾動、俯仰和偏航角指定。

在如圖 1 所示的框架中，該團隊引入了一個 one-hot 掩碼向量來指定激活命令空間的哪些組件，以便后面跟蹤。

如表 1 所示，可以將其它基于學習的人形全身控制的最新研究看作是新提出的統一命令空間的子集，其中每項研究都代表特定的配置。

運動重定向

近期有研究表明，如果學習的運動數據集很大，學習到的人形機器人全身運動控制策略就會更加穩健。

為了獲得大型數據集，可將人類運動數據集重定向成人形機器人運動數據集，這個過程分為三步：

1. 使用正向運動學（forward kinematics）計算人形機器人的關鍵點位置，將其關節配置映射成工作空間坐標。

2. 擬合 SMPL 模型以匹配人形機器人的運動學，做法是優化 SMPL 參數以與正向運動學計算得到的關鍵點對齊。

3. 使用梯度下降來匹配已經擬合的 SMPL 模型和人形機器人之間的對應關鍵點，重定向 AMASS 數據集。

狀態空間設計

他們訓練了一個 oracle 運動模擬器?

其中 p_t 是人形機器人剛體位置、θ_t 是方向、p_t 是線速度、 ω_t ?是角速度、a_{t?1} 是前一個動作。本體感覺定義為

目標狀態的定義是?

其中包含參考姿態以及人形機器人所有剛體的參考狀態與當前狀態之間的一幀差異。他們使用的策略網絡結構為層尺寸為 [512, 256, 128] 的三層 MLP。

獎勵設計和域隨機化

這里，獎勵 r_t 是三個分量之和：1) 懲罰、2) 正則化和 3) 任務獎勵，詳見表 2。域隨機化是將模擬環境和人形機器人的物理參數隨機化，以實現模擬到現實成功遷移。

通過蒸餾實現多模式多功能控制器

本體感受

對于從 oracle 教師 π^oracle 中蒸餾得到的學生策略 π^student，本體感受定義為

其中 q 是關節位置，?

是關節速度，ω^base 是基準角速度，g 是重力向量，a 是動作歷史。

他們將最新的 25 個步驟的這些項堆疊起來作為學生的本體感受輸入。

命令掩碼

如圖 2 所示，學生策略的任務命令輸入是使用基于模式和基于稀疏性的掩碼定義的。具體來說，學生的任務命令輸入是這樣表示的

模式掩碼 M_mode 會為上半身和下半身分別選擇特定的任務命令模式。例如，上半身可以跟蹤運動位置，而下半身則專注于關節角度和根部跟蹤，如圖 2 所示。在模式特定的掩碼之后，應用稀疏掩碼 M_sparsity。

例如，在某些情況下，上半身可能只跟蹤手的運動位置，而下半身只跟蹤軀干的關節角度。模式和稀疏二元掩碼的每一比特都來自伯努利分布 𝔅(0.5)。模式和稀疏掩碼在事件情節（episode）開始時是隨機的，并保持固定，直到該情節結束。

策略蒸餾

該團隊執行策略蒸餾的框架是 DAgger。對于每個事件情節，都先在模擬中 roll out 學生策略

，從而得到

的軌跡。

另外在每個時間步驟還會計算相應的 oracle 狀態

使用這些 oracle 狀態，可以查詢 oracle 教師策略

以獲得參考動作

然后通過最小化損失函數

來更新學生策略 π^student。

實驗

研究團隊針對以下問題，在 IsaacGym 和 Unitree H1 機器人上開展了廣泛的實驗：

Q1: HOVER 這個通用策略能比那些只針對特定指令訓練的策略表現得更好嗎？
Q2: HOVER 能比其他訓練方法更有效地訓練多模態仿人機器人控制器嗎？
Q3: HOVER 能否在真實世界的硬件上實現多功能多模態控制？

與專家策略的對比

該團隊在不同控制模式下比較了 HOVER 和相應專家策略的表現。以 ExBody 模式為例，研究團隊加入了固定的掩碼，讓 HOVER 和整個數據集 Q 中的 ExBody 模式可比。

如表 III 和圖 3 所示，HOVER 展現出了優越的泛化能力。在每一種指令模式中，HOVER 在至少 7 個指標上超越了之前的專家控制器（表 III 中用粗體值突出顯示）。同時，這也意味著即使只關注單一控制模式，從專家策略中提取的策略也比通過強化學習訓練出的專家更強。

與通用訓練方法的對比

研究團隊在八種不同的模式下測量了 HOVER 在跟蹤局部和全身位置方面的表現。他們用最大誤差（Emax）減去當前誤差（E (.)），再除以最大誤差（Emax）和最小誤差（Emin）之間的差值來計算誤差。雷達網圖更大，代表模型的跟蹤性能更好。實驗結果顯示，HOVER 在所有 32 個指標和模式中的誤差都很低。

在真實世界中的測評

為了測試 HOVER 策略在真實世界中的表現，研究團隊設計了定量的跟蹤實驗和定性的多模態控制實驗。

站立時的動作評估

該團隊通過跟蹤 20 種不同的站立動作來評估 HOVER 的性能，表 V 中的定量指標顯示，HOVER 在 12 個指標中的 11 個上超越了專家策略。HOVER 成功跟蹤了關節俯仰運動與全身運動，特別是高度動態的跑步動作也能搞定。

機器人的關節可以在 - 0.5 到 0.5 的俯仰角度之間變化

多模態評估

該團隊還模擬了真實的生活場景，測試了在突然切換命令時 HOVER 對運動的泛化能力。HOVER 成功地讓機器人從 ExBody 模式切換到 H2O 模式，同時在向前行走。

從 ExBody 切換到 H2O 模式

從 HumanPlus 模式切換到 OmniH2O 模式，機器人也能同時執行轉彎和向后行走。

從 HumanPlus 切換到 OmniH2O 模式

此外，他們還使用 Vision Pro 隨機掩蓋頭部和手部的位置，進行了遠程操作演示，可以看出，機器人的動作非常地絲滑流暢。

有時，它也會出錯，比如只追蹤了測試者的頭部位置，忽略了揮手的動作。

結果表明，HOVER 能夠平滑地在不同模式之間追蹤動作，展示了其在真實世界場景中的魯棒性。

#MimicTalk

3D大模型助力，15分鐘即可訓練高質量、個性化的數字人模型，代碼已開放

本文的作者主要來自于浙江大學和字節跳動。第一作者是浙江大學計算機學院的博士生葉振輝，導師為趙洲教授，主要研究方向是說話人視頻合成，并在 NeurIPS、ICLR、ACL 等會議發表相關論文。共一作者是來自浙江大學計算機學院的碩士生鐘添蕓。

個性化精品數字人（Personalized Talking Face Generation）強調合成的數字人視頻在感官上與真人具有極高的相似性（不管是說話人的外表還是神態）。目前業界主流的個性化精品數字人通常屬于在單個目標人數據上從頭訓練的小模型，雖然這種小模型能夠有效地學到說話人的外表和說話風格，這種做法存在低訓練效率、低樣本效率、低魯棒性的問題。相比之下，近年來許多工作專注于單圖驅動的通用數字人大模型，這些模型僅需單張圖片輸入即可完成數字人制作，但仍存在外表相似度較低、無法模仿目標人說話風格等問題。

為了連接個性化數字人小模型和單圖驅動通用數字人大模型兩個領域之間的空白，浙江大學與字節跳動提出了 MimicTalk 算法。通過（1）將單圖驅動的通用 3D 數字人大模型 Real3D-Portrait (ICLR 2024) 適應到目標數字人的高效微調策略和（2）具有上下文學習能力的人臉動作生成模型，MimicTalk 可以生成相比原有方法更高質量、更具表現力的數字人視頻。此外，單個數字人模型的訓練時間可以被壓縮到 15 分鐘以內，相比現有最高效的同類方法快了 47 倍。

MimicTalk 算法被人工智能頂級會議 NeurIPS 2024 錄用，目前已開放源代碼和預訓練權重。

論文標題：MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
論文鏈接：https://arxiv.org/pdf/2410.06734
項目主頁：https://mimictalk.github.io/
代碼鏈接：https://github.com/yerfor/MimicTalk

話不多說直接看效果，以下視頻中的數字人模型都通過從 3D 數字人大模型進行 1000 步微調（5 分鐘訓練時間）得到。

，時長00:24

模型技術原理

深悉 MimicTalk 模型的內在原理，還要回到開頭提到的個性化數字人兩個核心目標：（1）外表上與真人相似；（2）說話風格上與真人相似。

MimicTalk 分別使用（1）基于通用 3D 數字人大模型微調的高質量人臉渲染器和（2）一個具有上下文學習能力的人臉動作生成模型來實現它們。

圖 2. MimicTalk 包含一個高質量人臉渲染器（紫色）和一個能夠模仿說話風格的動作生成器（藍色）

對于第一個問題，傳統方法通常從頭訓練一個小規模的 NeRF 模型來記憶目標人的外表特征，但這種做法通常導致較長的訓練時間（數個小時）、較高的數據量要求（數分鐘）、較低的魯棒性（對極端條件無法輸出正確的結果）。針對這一問題，團隊首次提出采用一個單圖驅動的通用 3D 數字人大模型作為基礎模型，并提出了一個「動靜結合」的高效率微調方案。

他們發現通用大模型的輸出通常存在牙齒、頭發等靜態細節不足，且肌肉運動等動態細節不真實的問題。因此針對靜態細節和動態細節的特性設計了動靜結合的微調方案。

具體來說，研究者發現現有的 3D 數字人通用模型通常會將 3D 人臉的靜態細節儲存在一個 3D 人臉表征（tri-plane）中作為模型的輸入，而 3D 人臉的動態細節，則通過模型內部的參數進行儲存。因此，MimicTalk 在個性化數字人渲染器的訓練過程中，不僅會更新儲存靜態細節的 3D 人臉表征，還通過 LoRA 技術對通用模型的參數進行了可拆卸的高效微調。

圖 2. 將通用 3D 數字人大模型適應到單個目標人，動靜結合的高效微調方案

在實現圖像上與真人的高度相似后，下一個問題是如何生成與真人說話風格相似的面部動作。傳統方法通常會額外訓練一個說話風格編碼器，但是由于模型內部信息瓶頸的存在通常會性能損失。與之相比，受啟發大語言模型、語音合成等領域的啟發，MimicTalk 首次提出從上下文中學習目標人說話風格的訓練范式。在訓練階段，Flow Matching 模型通過語音軌道和部分未被遮擋的人臉動作軌道的信息，對被遮擋的人臉動作進行去噪。在推理階段，給定任意音頻 - 視頻對作為說話人風格提示，模型都能生成模仿該說話風格的人臉動作。

圖 3. 能在上下文中學習目標人說話風格的人臉動作生成模型

模型的應用前景

總體來看，MimicTalk 模型首次實現了高效率的個性化精品數字人視頻合成。可以預見的是，隨著技術的不斷迭代、普及，在智能助手、虛擬現實、視頻會議等多個應用場景中都將會出現虛擬人的身影。而借助 MimicTalk 算法，個性化高質量數字人的訓練成本被「打了下去」，人們將會享受到更真實、更舒適的交互體驗。隨著各個領域的大模型技術的興起，擁抱大模型的超強能力并與垂直領域中的特殊場景、需求相結合，已經成為了技術演進的大勢所趨。而 MimicTalk 模型為后續基于數字人通用模型的個性化數字人算法研究工作提供了參考。但現階段 MimicTalk 也并不是完美無缺的，由于依賴通用大模型的結果作為初始化，對基礎模型的質量有較高的要求，此外從推理效率上看與現有小模型還存在一定差距。

總而言之，過去幾年，隨著個性化數字人技術的不斷進步，口型精度、圖像質量已然不斷提高；而 MimicTalk 模型的提出，進一步解決了制約個性化數字人的訓練成本問題。讓我們一同期待虛擬人技術的加速發展，用戶也將獲得更加極致的視覺體驗和生活便利。

#Moirai-MoE

新視角設計下一代時序基礎模型，Salesforce推出Moirai-MoE

本文由 Salesforce、新加坡國立大學、香港科技大學（廣州）共同完成。其中，第一作者柳旭是 Salesforce 亞洲研究院實習生、新加坡國立大學計算機學院四年級博士生。通訊作者劉成昊是 Salesforce 亞洲研究院高級科學家。該工作的短文版本已被 NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收。

時間序列預測是人類理解物理世界變化的重要一環。自去年底以來，時序預測領域正在經歷重大轉型，從傳統的「單一數據集訓練單一模型」的模式逐步轉向「通用預測基礎模型」。目前雖然有不少基礎模型已經提出，但如何有效地在高度多樣化的時序數據上訓練基礎模型仍是一個開放問題。

近期，來自 Salesforce、新加坡國立大學、香港科技大學（廣州）的研究者以模型專家化這一全新視角作為抓手，設計并提出了下一代時序預測基礎模型 Moirai-MoE。該模型將模型專業化設計在 token 這一細粒度運行，并且以完全自動的數據驅動模式對其賦能。模型性能方面，不同于僅在少量數據集上進行評估的已有時序基礎模型，Moirai-MoE 在一共 39 個數據集上進行了廣泛評估，充分驗證了其優越性。

論文標題：Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts
論文地址：https://arxiv.org/abs/2410.10469
代碼倉庫：https://github.com/SalesforceAIResearch/uni2ts

研究動機

訓練通用基礎模型的一大挑戰在于適應時間序列數據的高度異質性，這種時序數據的獨特特性凸顯了設計專業化模塊的必要性。現有的解決方案主要分為兩種。第一種是通過基于語言的提示來識別數據源，從而實現非常粗粒度的數據集級別模型專業化。第二種方案利用了時序數據的頻率這一元特征實現了更細粒度的專業化：該方法為特定頻率設計單獨的輸入 / 輸出投影層，從而實現特定頻率的模型專業化。

作者認為，這種人為強加的頻率級專業化缺乏普適性，并引入了一些局限性。（1）頻率并不總是一個可靠的指標，無法有效地捕捉時序數據的真實結構。如下圖所示，具有不同頻率的時間序列可以表現出相似的模式，而具有相同頻率的時間序列可能顯示出多樣且不相關的模式。這種人為強加的頻率和模式之間的不匹配削弱了模型專業化的有效性，從而導致性能下降。（2）現實世界的時間序列本質上是非平穩的，即使在單個時間序列的短窗口內也會顯示出不同的分布。顯然，頻率級專業化的粒度無法捕捉這種程度的多樣性，這凸顯了對更細粒度的建模方法的需求。

為了解決上述問題，作者提出了全新的時間序列統一訓練解決方案 Moirai-MoE，其核心思想是利用單個輸入 / 輸出投影層，同時將各種時間序列模式的建模委托給 Transformer 層中的稀疏混合專家。通過這些設計，Moirai-MoE 的專業化以數據驅動的方式實現，并在 token 級別運行。

基于稀疏混合專家的時序基礎模型

Moirai-MoE 構建在它的前序工作 Moirai 之上。雖然 Moirai-MoE 繼承了 Moirai 的許多優點，但其主要改進在于：Moirai-MoE 不使用多個啟發式定義的輸入 / 輸出投影層來對具有不同頻率的時間序列進行建模，而是使用單個輸入 / 輸出投影層，同時將捕獲不同時間序列模式的任務委托給 Transformer 中的稀疏混合專家。此外，Moirai-MoE 提出了一種新型的利用預訓練模型中知識的門控函數，并采用自回歸的訓練目標來提高訓練效率。下面簡要介紹 Moirai-MoE 的模塊。

1. 時序 Token 構造

Moirai-MoE 采用切塊（patching）技術將時間序列輸入切成沒有重疊的小塊，而后對小塊進行標準化來緩解分布遷移的問題。為了在自回歸模型中獲取準確、魯棒的標準化統計值，作者引入掩蔽率 r 作為超參數，它指定整個序列中專門用于正則化器計算的部分，不對這些 patch 計算預測損失。最后，一個輸入投影層來負責把 patch 投影到和 Transformer 一樣的維度，生成時序 token。

2. 稀疏混合專家 Transformer

通過用 MoE 層替換 Transformer 的每個 FFN 來建立專家混合層。該 MoE 層由 M 個專家網絡和一個門控函數 G 組成。每個 token 只激活一個專家子集，從而允許專家專注于不同模式的時間序列數據并確保計算效率。在 Moirai-MoE 中，作者探索了不同的門控函數。首先使用的是最流行的線性投影門控函數，它通過一個線性層來生成專家子集的分配結果。此外，作者提出了一種新的門控機制，利用從預訓練模型的 token 表示中得出的聚類中心來指導專家分配。這一方法的動機是，與隨機初始化的線性投影層相比，預訓練 token 表示的聚類更接近數據的真實分布，可以更有效地實現模型專業化。

3. 訓練目標

為了同時支持點預測和概率預測兩種預測模式，Moirai-MoE 的訓練目標設定為優化未來混合分布的對數似然函數。

實驗效果

作者在 39 個數據集上的進行了廣泛測試評估來驗證 Moirai-MoE 的有效性。

上圖展示了在 Monash 基準中 29 個數據集上進行的分布內預測評估。結果表明，Moirai-MoE 擊敗了所有競爭對手。相比前序工作 Moirai，Moirai-MoE 的提升幅度達到了 19%。與 Moirai 無法超越的基礎模型 Chronos 相比，Moirai-MoE 成功彌補了差距，并相比它少 65 倍激活參數，這帶來了巨大的推理速度的優勢。

上表展示了在零樣本預測設定時，Moirai-MoE 在 10 個數據集上的點預測和概率預測的表現。Moirai-MoE-Base 取得了最佳的零樣本性能，甚至超越了 Google 的 TimesFM 和 Amazon 的 Chronos（他們在預訓練語料庫中已包含了部分評估數據，因此存在數據泄露）。與所有規模的 Moirai 相比，Moirai-MoE-Small 在 CRPS 方面提高了 3%-14%，在 MASE 方面提高了 8%-16%。考慮到 Moirai-MoE-Small 只有 11M 激活參數（比 Moirai-Large 少 28 倍），這些進步是非常顯著的。

在這篇研究中，作者還對時序 MoE 基礎模型的內部工作機制進行了首次探索。上圖是對 Moirai-MoE 的專家分配分布進行的可視化。基于此，作者總結了以下觀點：

1. 在淺層中，不同頻率的數據在專家選擇的分布上呈現多樣化。隨著層數的加深，模型將重點轉移到更通用的時間依賴性，例如更廣泛的趨勢和長期模式，這些依賴性可以在不同頻率之間共享。到最后一層（第 6 層），專家分配在所有頻率上變得幾乎相同，表明模型已將時間序列抽象為與頻率基本無關的高級表示。這一證據表明 Moirai-MoE 學習到了頻率不變的隱層表示，這對于模型泛化至關重要。

2. 隨著層數增加專家選擇逐漸收斂的行為與 Large Language Models 中觀察到的模式完全相反。這種分歧可能源于時間序列 token 的動態和噪聲特性，它們是由小時間窗口生成的，不像從固定詞匯表中派生的語言 token。研究結果表明，隨著層數增加，模型實際上是在進行逐步去噪過程。這一觀察結果與 GPT4TS 的結論一致：隨著層深度增加，token 會被投影到輸入的低維頂部特征向量空間中。

更多實驗結果，可參考原論文。

#ChatGPT正式成為AI搜索

免費可用

時代變了，最強 AI 加持搜索引擎問世，沒有廣告。

終于等來這一天。

自今天起，ChatGPT 正式成為一款 AI 搜索引擎了！

北京時間 11 月 1 日凌晨，在 ChatGPT 兩歲生日之際，OpenAI 宣布為 ChatGPT 推出了最新的人工智能搜索體驗。

ChatGPT search 的推出正式宣告 ChatGPT 消除了即時信息這一最后短板。現在，人們與全球最先進 AI 大模型聊天時，也可以通過網絡資源鏈接快速、及時地獲取答案了。

即日起，付費訂閱者（以及 SearchGPT 候補名單上的用戶）將獲得可聯網的實時對話信息能力，免費用戶、企業用戶和教育用戶也將在未來幾周內陸續獲得訪問權限。

該功能覆蓋 ChatGPT 的網頁版，以及手機、桌面應用。在正常的對話時，ChatGPT 可以根據具體需求決定何時利用網絡中的搜索結果，當然用戶也可以主動觸發網絡搜索。

顯然，新功能已經測試已久，上線是一瞬間的，很多人已經用起來了。可以看到，ChatGPT 搜索的天氣、股市、地圖等小組件齊全，是個完整版搜索引擎的樣子：

當然，搜索結果中引用的網絡鏈接也一個都不會少：

你也可以根據 AI 搜索結果里的一堆鏈接，直接讓 ChatGPT 直接生成一份詳細的摘要。或是順著搜索結果繼續追問，總而言之，ChatGPT 和搜索功能是完全一體化的。

看起來很美好的樣子，網友們一致表示歡迎，同時為谷歌和 Perplexity 擔憂一秒鐘。

在 HackerNews 上有人則表示，傳統搜索引擎如今的問題在于輸出很多不相關結果（大量垃圾信息 + SEO 操縱的標題黨內容），大模型也面臨著幻覺問題。

但如果用大模型的智力來嘗試過濾網絡中的無用信息，或許搜索引擎的體驗就會變得煥然一新。

為給出更好的答案而設計

從 OpenAI 對 ChatGPT 搜索的介紹中，我們看到了 AI 技術朝著這個方向努力的一點端倪。

在網上找到有用的答案并非易事。往往需要多次搜索并沿著鏈接挖掘以找到高質量信息源和正確信息。

現在，聊天就能得到更好的答案：用更自然的對話式方式提問，ChatGPT 可以選擇使用網絡上的信息進行回復。如果更深入地追問，則 ChatGPT 還能根據聊天的完整上下文來提供更好的答案。

為了補充最新的信息，OpenAI 表示已經與一些新聞和數據提供商達成了合作關系，并且還會為天氣、股票、體育運動、新聞和地圖等不同類別使用新的視覺設計。

Vox Media 總裁 Pam Wasserstein 表示：「ChatGPT 搜索有望更好地突顯和歸因來自可靠新聞來源的信息，使用戶受益，同時擴大像我們這樣的優質新聞發行商的影響力。」

ChatGPT 的聊天現在包含新聞文章和博客文章等來源的鏈接，方便用戶了解更多信息。單擊搜索答案下方的「來源」按鈕可打開包含參考文獻的側邊欄。

OpenAI 表示，ChatGPT 搜索讓網絡上原創、高質量的內容成為與人類對話的一部分。通過將搜索與聊天界面集成，用戶可以以新的方式接觸信息，而內容所有者則獲得了接觸更廣泛受眾的新機會。

從人們初步的使用效果看來，確實是相當的方便，比如搜個最近的 AI 新聞，結果會是這樣的：

為什么我要用 ChatGPT 代替谷歌、Bing？一個重要的理由可能是：沒有廣告。OpenAI 明確表示目前沒有計劃在 ChatGPT 中投放廣告。

奧特曼說了：你一用就回不去了。

不過，人工智能搜索的運營成本比傳統搜索顯然更高，目前還不清楚 OpenAI 將如何在巨量的免費搜索上實現收支平衡。可以確定的是，免費用戶「使用最新搜索模型的頻率將受到一些限制」。

如何運作

搜索能力更新之前，ChatGPT 擁有的知識局限于大模型的訓練數據，僅限于 2021 年至 2023 年之間。

OpenAI 表示，該搜索模型是 GPT-4o 的微調版本，使用新穎的合成數據生成技術進行后訓練，包括從 o1-preview 中提取輸出。ChatGPT 搜索利用第三方搜索提供商以及 OpenAI 的合作伙伴直接提供的內容來提供用戶正在尋找的信息。

據外媒報道，為了構建 AI 搜索引擎，OpenAI 還在積極挖走谷歌員工加入自己的搜索團隊。

得益于 SearchGPT 原型的反饋，OpenAI 將 SearchGPT 的最佳體驗引入 ChatGPT。OpenAI 表示還將不斷改進搜索，特別是在購物和旅行等領域，并利用 OpenAI o1 系列的推理能力進行更深入的研究。OpenAI 還計劃在未來將新的搜索體驗引入高級語音和 canvas。

OpenAI 發言人 Niko Felix 表示，即使實時搜索已經大幅提升了使用體驗，但公司仍將繼續更新大模型的數據，以「確保用戶始終能夠獲得最新的進展」，但這又與模型的訓練「不同」。

OpenAI AMA 精選

在宣布發布 ChatGPT 搜索后不久，OpenAI 還在 Reddit 上進行了 AMA 問答，下面是我們精選的一些問答，可幫助讀者了解官方公告中沒有的細節。

問：ChatGPT-5 或其等價 AI 何時發布？

Sam Altman（OpenAI CEO）：今年晚些時候我們會發布一些非常好的產品！不過，我們不會稱之為 gpt-5。

問：你們何時發布新的文生圖模型？Dalle 3 有點過時了。

Sam Altman：下一次更新值得等待！但我們還沒有發布計劃。

問：你會使用 ChatGPT 回答這些問題嗎？

Sam Altman：有時候會，你能分辨嗎？

問：AGI 是否可用已知的硬件實現，還是需要一些完全不同的東西？

Sam Altman：我們相信使用當前的硬件就能實現。

問：近年來，OpenAI 從更加開源的方式轉向了更加封閉的模式。你能詳細解釋一下這種變化背后的原因嗎？你如何權衡開放性與廣泛使用的先進 AI 技術帶來的潛在風險之間的利弊？從長遠來看，強大的模型最終落入壞人之手是不可避免的嗎？

Sam Altman：我認為開源在生態系統中發揮著重要作用，世界上有很多很棒的開源模型。我們還認為，強大且易于使用的 API 和服務也在世界上發揮著重要作用，并且考慮到我們的優勢，我們發現了一種更簡單的方法來達到我們想要達到的安全閾值。我們非常自豪人們能從我們的服務中獲得價值。我希望我們將來能開源更多的東西。

問：o1 完整版何時發布？

Kevin Weil（OpenAI CPO / 首席產品官）：

問：ChatGPT 最終能獨立執行任務嗎？比如先給你發消息？

Kevin Weil：我覺得，這將是 2025 年的熱門主題。

問：我的問題是 SearchGPT 與流行搜索引擎相比的價值。SearchGPT 有哪些獨特優勢或關鍵差異化因素值得普通搜索引擎用戶選擇？

Sam Altman：對于許多查詢，我發現，為了獲取我正在尋找的信息，它是一種更快 / 更容易的方式。我認為我們會看到這一點，特別是對于需要更復雜研究的查詢。我也期待未來搜索查詢可以在響應中動態地呈現自定義網頁！

問：對那些有志為 AI 革命做出貢獻的年輕人，你們有什么建議嗎？

Kevin Weil：首先，每天開始使用 AI。用它來學習東西，學習你想學的任何東西 —— 編程、寫作、產品、設計，任何東西。如果你能比別人學得更快，那么你就能做任何事情。

Srinivas Narayanan（OpenAI 工程開發副總裁）：使用 AI 工具來提高你日常工作的生產力 —— 這將帶來有趣的想法。然后構建一些有趣的東西并與他人分享。

問：Sora 推遲的原因是推理所需的計算量 / 時間還是安全原因？

Kevin Weil：需要完善模型，需要正確處理安全性 / 假冒他人問題 / 其他事項，也需要擴大計算規模！

問：什么時候發布 AVM（高級語音模式）的視覺版？為什么 GPT-5 花了這么長時間？完整的 o1 如何了？

Sam Altman：我們正在優先考慮推出 o1 及其后續產品。所有這些模型都變得相當復雜，我們無法像我們希望的那樣同時推出那么多產品。（關于將計算分配給哪些好想法，我們還面臨許多限制和艱難的決定。）尚未確定 AVM 視覺版的日期。

問：你們是否計劃降低高級語音的 API 成本？

Kevin Weil：兩年來，我們一直在降低 API 成本 —— 我認為 GPT 4o-mini 的成本大約只有原始 GPT-3 的 2%。預計語音和其他功能將繼續保持這種趨勢！

問：你們的模型名字能起好一點嗎？

Kevin Weil：no

問：你們將何時為 ChatGPT 發布相機模式？

Srinivas Narayanan：正在研究。目前沒有確切日期。

問：o1 何時支持圖片輸入？

Kevin Weil：我們關注的重心是先向世界發布，而不是等待其功能齊全。o1 將會支持圖像輸入，總體而言，o 系列模型將在未來幾個月內獲得諸如多模態、工具使用等功能。

問：為了實現思維鏈或多層思維樹，OpenAI 認為降低推理成本的速度有多快？

Srinivas Narayanan：我們預計推理成本將繼續下降。如果你看看去年的趨勢，就會發現它下降了大約 10 倍。

問：到目前為止，你見過的 ChatGPT 的最佳用例是什么？你認為它和它的未來版本（未來幾年）可能特別適用于哪些領域？

Sam Altman：有很多好用例，但有一個用例很棒：人們找出使人衰弱的疾病的病因，然后完全治愈了它。適用的領域也有很多，但 AI 作為一名真正優秀的軟件工程師的能力仍然被人低估。更普遍地說，幫助科學家更快地發現新知識的能力將會非常棒。

問：會支持 NSFW 內容嗎？

Sam Altman：我們完全相信要像對待成年人一樣對待成年用戶。但要做到這一點需要做大量的工作，而且現在我們有更緊迫的任務。希望有一天能做到這一點！

問：給 Sam Altman 的問題：你是草莓人嗎？

Sam Altman：🍓

問：GPT 產品線的下一個突破是什么？有預期時間線嗎？

Sam Altman：我們將會擁有越來越好的模型，但我認為下一個巨大突破將會是智能體。

問：相比于 o1-preview，完整版 o1 有明顯提升嗎？

Srinivas Narayanan：yes

問：對 2025 年有什么大膽預測？

Sam Altman：填滿所有基準。

谷歌五分鐘就反擊了

OpenAI 推出 AI 搜索業務顯然觸及到了搜索巨頭谷歌的核心利益。

不知是否是出于巧合，幾乎就在 OpenAI 宣布推出 ChatGPT 搜索的同時，谷歌也宣布了自家的 AI 搜索功能。

谷歌搜索新推出的 Grounding 功能已向 Gemini API 和 Google AI Studio 用戶提供，讓他們可以在使用 Gemini 時從谷歌搜索獲取實時、新鮮、最新的信息。

這場 AI 搜索大戰才剛剛開始。

參考內容：?

??https://openai.com/index/introducing-chatgpt-search/??

??https://www.theverge.com/2024/10/31/24283906/openai-chatgpt-live-web-search-searchgpt??

??https://www.reddit.com/r/ChatGPT/comments/1ggixzy/ama_with_openais_sam_altman_kevin_weil_srinivas/??

??https://news.ycombinator.com/item?id=42008569??

??https://x.com/OfficialLoganK/status/1852032947714510860???

#新研究揭示LLM特征的驚人幾何結構

AI自己「長出」了類似大腦的「腦葉」？

大型語言模型在學習概念時竟然會形成令人驚訝的幾何結構，比如代碼和數學特征會形成一個「葉（lobe）」，類似于我們在做磁共振功能成像時看到的大腦功能性腦葉。這說明什么呢？

論文通訊作者、MIT 物理學教授 Max Tegmark 的推文。值得注意的是，Max Tegmark 也是著名的 KAN 論文的作者之一，是 KAN 論文一作 ZimingLiu 的導師。

在過去的一年，學術界在理解大型語言模型如何工作方面取得了突破性進展：稀疏自編碼器（SAE）在其激活空間中發現了大量可解釋為概念的點（「特征」）。最近，此類 SAE 點云已公開發布，因此研究其在不同尺度上的結構正當其時。

最近，來自 MIT 的一個團隊公布了他們的研究成果。

論文標題：The Geometry of Concepts: Sparse Autoencoder Feature Structure
論文鏈接：https://arxiv.org/pdf/2410.19750

具體來說，他們發現 SAE 特征的概念宇宙在三個層面上具有有趣的結構：

第一個是「原子」小尺度層面。在這個層面上，作者發現 SAE 特征的概念宇宙包含「晶體」結構，這些晶體的面是平行四邊形或梯形，這泛化了眾所周知的例子，如 (man:woman::king:queen)。他們還發現，當排除全局干擾方向，如單詞長度時，這類平行四邊形和相關功能向量的質量大大提高，這可以通過線性判別分析有效地完成。

第二個是「大腦」中等尺度層面。在這個層面，作者發現 SAE 特征的概念宇宙具有顯著的空間模塊性。例如，數學和代碼特征會形成一個「葉（lobe）」，類似于我們在做神經磁共振功能成像時看到的大腦功能性葉（如聽覺皮層）。作者用多個度量來量化這些葉的空間局部性，并發現在足夠粗略的尺度上，共現特征（co-occurring feature）的聚類在空間上也聚集在一起，遠遠超過了特征幾何是隨機的情況下的預期。

第三個是「星系」大尺度層面。在這個層面上，作者發現 SAE 特征點云的結構不是各向同性的，而是呈現出一種特征值的冪律分布，并且在中間層的斜率最陡。此外，他們還量化了聚類熵如何隨層數的變化而變化。

這項研究吸引了不少研究者的注意。有人評論說，AI 系統在處理信息時自然地發展出幾何和分形結構，而這些結構與生物大腦中的結構相似。這一現象表明，數學上的組織模式可能是自然界的基本特性，而不僅僅是人類的認知構造。

也有人提出了一些不同觀點，認為這種結構可能更多是源于 AI 模型從人類數據中學習的結果，而不是一種完全獨立的自然特性。反駁者認為，由于人類也是一種生物神經網絡，當大規模 AI 系統基于小規模神經網絡的輸入數據進行訓練時，它們自然而然地會接近這種結構模式，因此 AI 模型的結構并非完全出乎意料。反駁者還提出了一個有趣的設想：如果 AI 模型在完全不包含人類數據的「外星」數據集上進行訓練，那么模型的組織結構可能會有很大的不同 —— 盡管模型仍然可能會產生聚類和分組的結構以有效處理復雜信息，但實際的概念和結構可能會和人類的完全不同。

論文作者表示，他們希望這些發現有助于大家深入理解 SAE 特征和大型語言模型的工作原理。他們也會在未來繼續研究，以了解為什么其中一些結構會出現。

以下是論文的詳細信息。

「原子」尺度：晶體結構

在這一部分中，作者尋找他們所說的 SAE 特征點云中的晶體結構。這里的結構指的是反映概念之間語義關系的幾何結構，它泛化了（a, b, c, d）=（man,woman,king,queen）形成近似平行四邊形的經典例子，其中 b ? a ≈ d ? c。這可以用兩個功能向量 b ? a 和 c ? a 來解釋，分別將男性實體轉為女性，將普通人轉為皇室成員。他們還尋找只有一對平行邊 b - a ∝ d - c 的梯形（只對應一個功能向量）；圖 1（右）展示了這樣一個例子，其中（a, b, c, d）=（Austria, Vienna, Switzerland, Bern），這里的功能向量可以被解釋為將國家映射到它們的首都。

作者通過計算所有成對差分向量并對其進行聚類來尋找晶體，這應該會產生一個對應于每個功能向量的聚類。一個聚類中的任意一對差分向量應該形成一個梯形或平行四邊形，這取決于差分向量在聚類前是否被歸一化（或者是否通過歐氏距離或余弦相似性來量化兩個差分向量之間的相似性）。

作者最初搜索 SAE 晶體時發現的大多是噪聲。為了探究原因，他們將注意力集中在第 0 層（token 嵌入）和第 1 層，那里許多 SAE 特征對應于單個詞匯。然后他們研究了 Gemma2-2b 殘差流激活，這些激活是針對之前報告的來自 Todd 等人 (Todd et al., 2023) 數據集中的 word->word 功能向量，這澄清了問題。圖 1 說明了候選晶體四元組通常遠非平行四邊形或梯形。這與多篇論文指出的（man, woman, king, queen）也不是一個準確的平行四邊形是一致的。

作者發現，導致這一問題的原因是存在他們所說的干擾特征。例如，他們發現圖 1（右）中的水平軸主要對應于單詞長度（圖 10），這在語義上是不相關的，并且對梯形（左）造成了破壞，因為「Switzerland」比其他單詞長得多。

為了消除這些語義上不相關的干擾向量，他們希望將數據投影到一個與它們正交的低維子空間上。對于 (Todd et al., 2023) 數據集，他們使用線性判別分析（LDA）來實現這一點，它將數據投影到信號 - 噪聲的特征模式上，其中「信號」和「噪聲」分別定義為聚類間變化和聚類內變化的協方差矩陣。圖 1 顯示，這極大地提高了聚類和梯形圖 / 平行四邊形的質量，突出表明干擾特征可能會隱藏現有的晶體。

「大腦」尺度：中尺度模塊性結構

現在放大視野，尋找更大規模的結構。具體來說，作者研究了功能相似的 SAE 特征組（傾向于一起激活）是否在幾何上也是相似的，從而在激活空間中形成「葉」。

在動物大腦中，這些功能組是眾所周知的神經元所在 3D 空間中的聚類。例如，布洛卡區參與語言產生，聽覺皮層處理聲音，而杏仁體主要與情緒處理相關。作者好奇是否能在 SAE 特征空間中找到類似的功能模塊性。

作者測試了多種自動發現此類功能「葉」以及量化它們是否具有空間模塊性的方法。他們將葉分區定義為將點云分割為 k 個子集（「葉」），這些子集的計算不依賴于位置信息。相反，他們識別這些葉的依據是它們在功能上的相關性，具體來說，就是在一個文檔中趨向于共同激活。

為了自動識別功能葉，作者首先計算 SAE 特征共現的直方圖。他們使用 gemma-2-2b，并將 The Pile Gao et al. (2020) 中的文檔傳遞給它。在這一部分，他們將報告第 12 層殘差流 SAE 的結果，該層有 16k 個特征，平均 L0 為 41。

對于這個 SAE，他們記錄了激活的特征（如果其隱藏激活 > 1，他們認為一個特征被激活）。如果兩個特征在 256 個 token 組成的同一個塊內被激活，則它們就被視為共現 —— 這個長度提供了一個粗略的「時間分辨率」，使他們能夠找到在同一文檔中傾向于一起激活的 token。他們使用 1024 的最大上下文長度，并且每個文檔只使用一個這樣的上下文，因此每篇 The Pile 文檔最多只能有 4 個塊（和直方圖更新）。他們計算了 50k 個文檔的直方圖。給定這個直方圖，他們基于它們的共現統計計算每對 SAE 特征之間的親和度（affinity），并對得到的親和度矩陣進行譜聚類。

作者嘗試了以下基于共現的親和概念：簡單匹配系數、Jaccard 相似性、Dice 系數、重疊系數和 Phi 系數，所有這些都可以僅從共現直方圖計算得出。

作者的 null 假設是，功能相似的點（通常共現的 SAE 特征）在激活空間中均勻分布，沒有空間模塊性。相反，圖 2 顯示了看起來相當空間局部化的葉。為了量化這一點在統計上的重要性，作者使用兩種方法來排除 null 假設。

1、雖然我們可以根據它們是否共現來聚類特征，但也可以根據 SAE 特征解碼向量之間的余弦相似度執行譜聚類。給定一個使用余弦相似度的 SAE 特征聚類和一個使用共現的聚類，計算這兩組標簽之間的互信息。從某種意義上說，這直接衡量了人們從了解功能結構中獲得的幾何結構的信息量。

2、另一個概念上簡單的方法是訓練模型，從其幾何形狀預測一個特征所在的功能葉。為此，作者從基于共現的聚類中獲取一組給定的葉標簽，并訓練一個 logistic 回歸模型，直接從點位置預測這些標簽，采用 80-20 的訓練 - 測試比例，并報告該分類器的平衡測試準確率。

圖 3 顯示，在這兩種測量方法中，Phi 系數勝出，在功能葉和特征幾何之間實現了最佳對應。為了證明這一點具有統計學意義，作者從基于余弦相似性的聚類中隨機排列聚類標簽，并測量調整后的互信息。他們還從隨機高斯中隨機重新初始化 SAE 特征解碼器方向并歸一化，然后訓練 logistic 回歸模型，從這些特征方向預測功能葉。圖 3（下）顯示，這兩個測試都以高顯著性排除了 null 假設，標準差分別為 954 和 74，這清楚地表明作者看到的葉是真實的，而不是統計上的偶然。

為了評估每個葉專門做什么，作者通過 gemma-2-2b 運行來自 The Pile 的 10k 個文檔，并再次記錄第 12 層的哪些 SAE 特征在 256 個 token 組成的塊內激活。對于每個 token 塊，他們記錄哪個葉有最高比例的特征激活。

作者在圖 4 中展示了三個葉的結果，這些結果是使用 Phi 系數作為共現度量的，這構成了圖 2 中葉標記的基礎。

圖 5 比較了五種不同的共現度量的效果。盡管作者發現 Phi 是最好的，但所有五種都發現了「代碼 / 數學葉」。

「星系」尺度：大規模點云結構

在本節中，作者進一步放大視野，研究點云的「星系」尺度結構，主要是其整體形狀和聚類，類似于天文學家研究星系形狀和亞結構的方式。

作者試圖排除的簡單 null 假設是，點云僅僅是從一個各向同性的多元高斯分布中抽取的。圖 6 從視覺上直觀地表明點云的形狀并不僅僅是圓形，即使在其前三個主成分中，一些主軸也比其他的略寬，類似于人腦。

形狀分析

圖 7（左）通過展示點云協方差矩陣的特征值遞減來量化這一點，揭示它們并不恒定，而是似乎按照冪律下降。為了測試這種令人驚訝的冪律是否顯著，該圖將其與從各向同性高斯分布中抽取的點云的相應特征值譜進行比較，后者看起來更為平坦，與分析預測一致：多元高斯分布的 N 個隨機向量的協方差矩陣遵循 Wishart 分布，這在隨機矩陣理論中得到了很好的研究。由于最小特征值的突然下降是由數據有限引起的，并在 N → ∞的極限中消失，作者將點云降維到其 100 個最大的主成分進行后續的所有分析。換句話說，點云的形狀像是一個「分形黃瓜」，在連續的維度中寬度按照冪律下降。作者發現這種冪律縮放對于激活來說明顯不如對于 SAE 特征那么突出；進一步研究其起源將很有趣。

圖 7（右）顯示了上述冪律斜率如何取決于 LLM 層，計算方法是對 100 個最大特征值進行線性回歸。可以看到一個明顯的模式，即中間層具有最陡峭的冪律斜率：（第 12 層的斜率為 - 0.47，而前面和后面的層（如第 0 層和第 24 層）的斜率較淺（分別為 - 0.24 和 - 0.25）。這可能暗示了中間層起到了瓶頸的作用，將信息壓縮為較少的主成分，或許是為了更有效地表示高層次抽象概念而進行的優化。圖 7（右）還顯示了有效云體積（協方差矩陣的行列式）如何依賴于層（在對數尺度上。

聚類分析

星系或微觀粒子的聚類通常以功率譜或相關函數來量化。對于論文中的高維數據來說，這種方法比較復雜，因為基本密度隨半徑變化，對于高維高斯分布來說，基本密度主要集中在一個相對較薄的球殼周圍。因此，作者通過估算點云采樣分布的熵來量化聚類。他們使用 k-NN 方法從 SAE 特征點云估計熵 H，計算如下，

對于具有相同協方差矩陣的高斯分布，熵計算為：

圖 8 顯示了不同層的估計聚類熵。作者發現 SAE 點云特別在中間層有很強的聚類。

這項研究的結果非常有趣，如果你有關于這篇論文的見解，歡迎在評論區留言。

#RIFLEx

一行代碼、無需訓練突破視頻生成時長「魔咒」，清華朱軍團隊開源全新解決方案RIFLEx

自 OpenAI 發布 Sora 以來，視頻生成領域迎來爆發式增長，AI 賦能內容創作的時代已然來臨。

去年 4 月，生數科技聯合清華大學基于團隊提出的首個擴散 Transformer 融合架構 U-ViT，發布了首個國產全自研視頻大模型 Vidu，打破國外技術壟斷，支持一鍵生成 16 秒高清視頻，展現出中國科技企業的創新實力。Vidu 自去年 7 月上線以來，已服務數千萬用戶，極大促進了視頻內容的智能創作。近期，騰訊混元、阿里通義萬相等開源視頻生成模型相繼亮相，可生成 5-6 秒視頻，進一步降低了視頻創作門檻。

盡管如此，海內外社區仍有不少用戶抱怨現有開源模型受限于生成 5-6 秒的短視頻，時長不夠用。

今天，Vidu 團隊帶來了一個簡潔優雅的解決方案 ——RIFLEx。新方案僅需一行代碼、無需額外訓練即可突破視頻生成模型現有長度限制，打破「短視頻魔咒」。目前該項目已經開源，體現了團隊對開源社區的積極回饋和貢獻。

項目地址：https://riflex-video.github.io/
代碼地址: https://github.com/thu-ml/RIFLEx

RIFLEx適用于基于RoPE的各類Video Diffusion Trasnsformer，例如CogvideoX、混元（鏈接到之前推送）以及最新發布的通義萬相（鏈接到之前的推送）。

下列為開源模型無需任何訓練直接時長外推兩倍至10s效果：

大幅度運動：

，時長00:10

prompt: 一只棕白相間的動畫豪豬好奇地審視著緞帶裝飾的綠色盒子，靈動的眼神與細膩的3D動畫風格營造出溫馨而精致的視覺體驗。

多人物復雜場景：

，時長00:10

prompt: 荒涼空地上的簡易營地散布著無人機與物資，軍人與平民共處，一名男子絕望抱頭，女子憂慮注視，沉重氛圍暗示剛經歷重大事件，鏡頭穩定細膩，突出緊張與不安感。

自然動態流暢：

，時長00:10

sora的經典長毛猛犸象prompt

在短視頻微調幾千步可進一步提升性能。

多轉場時序一致性保持：

，時長00:10

prompt: 蓬亂頭發、穿棕色夾克系紅色領巾的男子在馬車內嚴肅端詳硬幣，與女子交談，廣角與中近景結合展現歷史劇風格與戲劇氛圍。

3D動畫風格：

，時長00:10

prompt: 動畫中的兔子和老鼠，身穿探險裝備正處于險境之中。它們急速墜入一個黑暗而未知的空間，緊接著便漂浮并游動在寧靜的水下世界里。緊張而堅定的表情通過中景與特寫展現，高質量3D動畫風格增強電影感與沉浸感。

真實人物特寫：

，時長00:10

prompt: 留著胡須、穿格子襯衫的男子坐著彈奏原聲吉他，沉浸于激情演唱。他所在的室內環境簡潔，背景是一面純灰色墻壁，左側放置著一個吉他音箱和麥克風架，右側擺放著一疊書籍。

除此之外，RIFLEx 不僅支持視頻的時間維度外推（如基于已有幀生成未來幀或延長視頻時序長度），還可擴展至空間維度外推（如通過局部畫面超分辨率重建、修復缺失區域或擴展視頻邊界內容），以及可同時進行的時空外推（如生成未來高分辨率視頻序列或動態擴展視頻的時空內容，兼顧時間連續性與空間一致性）。

圖像寬度外推兩倍：

左圖為訓練尺寸，右圖為外推結果? ? ?

圖像高度外推兩倍：

左圖為訓練尺寸，右圖為外推結果

圖像高寬同時外推兩倍：

左圖為訓練尺寸，右圖為外推結果

視頻時空同時外推兩倍：

，時長00:06

訓練尺寸：480*720*49

，時長00:12

外推結果：960*1440*97

該研究成果一經發布，獲得了廣泛關注。

知名博主 Ak 第一時間轉發，海外科技公司和博主稱贊其為「視頻擴散模型領域的突破性創新」。

Diffusers 核心貢獻者 sayakpaul 和 a-r-r-o-w 也收藏了代碼并留言點贊：

目前 RIFLEx 已被社區用戶集成到各類知名視頻生成倉庫：

揭秘 RIFLEx：化繁為簡，直擊本質

長度外推問題在大型語言模型中早有研究，但這些方法在視頻生成中卻屢屢碰壁，導致時序內容重復或慢動作效果。

，時長00:10

直接外推導致視頻內容重復，紅色框表示開始和視頻開頭重復

，時長00:10

同時結合外推和內插的Yarn導致慢動作效果

為破解這一難題，Vidu 團隊深入挖掘 RoPE 的頻率成分，揭示了其每個頻率成分在視頻生成的作用：

1. 時間依賴距離：不同頻率成分只能捕捉特定周期長度的幀間依賴關系。當幀數超過周期長度時，周期的性質導致位置編碼重復，從而使視頻內容也會出現重復。

2. 運動速度：不同頻率成分捕捉不同的運動速度，由該頻率的位置編碼變化率決定。高頻成分捕捉快速運動，低頻成分捕捉慢速運動。

當所有頻率成分結合時，存在一個「內在頻率」，即周期距離首次觀測重復幀最近的成分，它決定了視頻外推時的重復模式。

基于此，團隊提出?RIFLEx：通過降低內在頻率，確保外推后的視頻長度在一個周期內，從而避免內容重復。該方法僅需在經典 RoPE 編碼中加入一行代碼即可實現。

這一方案為視頻生成領域提供了新的思路，有望推動長視頻生成技術的進一步發展。

團隊介紹

論文第一作者趙敏為清華大學TSAIL 團隊博后研究員，研究方向為基于擴散模型的視覺內容生成。趙敏是生數科技視頻生成大模型Vidu的核心開發者之一，此前以第一作者發表在NeurIPS、ICLR、ECCV等頂級會議和期刊發表論文數篇，并入選2024年清華大學“水木學者”。個人主頁：https://gracezhao1997.github.io/。

清華大學 TSAIL 團隊長期致力于擴散模型的研究，代表性工作包括Analytic-DPM（ICLR 2022 杰出論文獎）、U-ViT、DPM-solver、ProlificDreamer等，并研制了首個對標Sora的高動態、長時長的視頻生成大模型Vidu。論文其他作者均為TSAIL 課題組學生，其中何冠德和朱泓舟也參與了Vidu的開發，陳亦逍為清華大學計算機系大三本科生，李崇軒已經畢業，現任中國人民大學高瓴人工智能學院副教授。

#揭示顯式CoT訓練機制

思維鏈如何增強推理泛化能力

基于逐步生成解決方案的大語言模型（LLMs）訓練范式在人工智能領域獲得了廣泛關注，并已發展成為行業內的主流方法之一。

例如，OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了針對 O1 模型的強化微調（Reinforcement Fine-Tuning，RFT），進一步推動了 AI 定制化的發展[1]。RFT/ReFT[2] 的一個關鍵組成部分是使用思維鏈（Chain-of-Thought，CoT）注釋[3] 進行監督微調（Supervised Fine-Tuning，SFT）。在 DeepSeek-R1 模型[4] 中，引入了少量長 CoT 冷啟動數據，以調整模型作為初始強化學習的代理。

然而，為了全面理解采用 CoT 訓練的策略，需要解決兩個關鍵問題：

Q1：與無 CoT 訓練相比，采用 CoT 訓練有哪些優勢？
Q2：如果存在優勢，顯式 CoT 訓練的潛在機制是什么？

由于實際訓練過程中涉及眾多因素，分析顯式 CoT 訓練的優勢及其潛在機制面臨顯著挑戰。為此，我們利用清晰且可控的數據分布進行了詳細分析，并揭示了以下有趣現象：

CoT 訓練的優勢

（i）與無 CoT 訓練相比，CoT 訓練顯著增強了推理泛化能力，將其從僅適用于分布內（in-distribution, ID）場景擴展到 ID 和分布外（out-of-distribution, OOD）場景（表明系統性泛化），同時加速了收斂速度（圖 1）。

圖表 1: 模型在優化過程中對訓練和測試兩跳推理事實的準確率。

（ii）即使 CoT 訓練中包含一定范圍的錯誤推理步驟，它仍能使模型學習推理模式，從而實現系統性泛化（圖 4 和圖 5）。這表明數據質量比方法本身更為重要。訓練的主要瓶頸在于收集復雜的長 CoT 解決方案，而推理步驟中存在少量的錯誤是可以接受的。

CoT 訓練的內部機制

（i）數據分布的關鍵因素（如比例 λ 和模式 pattern）在形成模型的系統性泛化中起著決定性作用。換句話說，在 CoT 訓練中僅接觸過兩跳數據的模型無法直接泛化到三跳情況，它需要接觸過相關模式。

（ii）通過 logit lens 和 causal tracing 實驗，我們發現 CoT 訓練（基于兩跳事實）將推理步驟內化到模型中，形成一個兩階段的泛化電路。推理電路的階段數量與訓練過程中顯式推理步驟的數量相匹配。

我們進一步將分析擴展到推理過程中存在錯誤的訓練數據分布，并驗證了這些見解在現實數據上對更復雜架構仍然有效。

據我們所知，我們的研究首次在可控制的實驗中探索了 CoT 訓練的優勢，并提供了基于電路的 CoT 訓練機制解釋。這些發現為 CoT 以及 LLMs 實現穩健泛化的調優策略提供了寶貴的見解。

論文標題：Unveiling the Mechanisms of Explicit CoT Training: How Chain-of-Thought Enhances Reasoning Generalization
論文鏈接：https://arxiv.org/abs/2502.04667

一、預備知識與定義

本部分介紹研究使用的符號定義，具體如下：

原子與多跳事實：研究使用三元組

來表示原子（一跳）事實，并基于原子事實和連接規則來表示兩跳事實以及多跳事實。

訓練數據：研究使用的訓練數據包括所有的原子（一跳）事實（即

），以及分布內（ID）的兩跳事實（即

）。其中記 | 兩跳事實 |：| 原子事實 |= λ。

訓練方式：對于原子（一跳）事實，模型的訓練和評估通過預測最終尾實體來完成。對于兩跳事實，考慮是否使用 CoT 注釋進行訓練。

(1) Training without CoT：模型輸入

?，預測目標只有最終尾實體

?；

(2) Training with CoT：模型輸入

?，預測橋接實體

和最終尾實體

。

評估：為更好地評估模型的泛化能力，我們從分布內（ID）和分布外（OOD）兩個維度進行性能評估。

（1）分布內泛化旨在通過評估模型完成未見過的兩跳事實

的能力，判斷模型是否正確學習了潛在模式。

（2）分布外泛化則用于評估模型獲得的系統性能力，即模型將學習到的模式應用于不同分布知識的能力，這是通過在

事實上測試模型來實現的。若模型在分布內數據上表現良好，可能僅表明其記憶或學習了訓練數據中的模式。然而，在分布外數據上的優異表現則表明模型確實掌握了潛在模式，因為訓練集僅包含原子事實

，而不包含

。

二、系統性組合泛化

本研究聚焦于模型的組合能力，即模型需要將不同事實片段「串聯」起來的能力。盡管顯式的推理步驟表述（如思維鏈推理）能夠提升任務表現 [4-8]，但這些方法在大規模（預）訓練階段并不可行，而該階段正是模型核心能力形成的關鍵時期 [9-10]。已有研究對基于 Transformer 的語言模型是否能夠執行隱式組合進行了廣泛探討，但均得出了否定結論 [11-12]。

具體而言，存在顯著的「組合性鴻溝」[11]，即模型雖然掌握了所有基礎事實卻無法進行有效組合的情況，這種現象在不同大語言模型中普遍存在，且不會隨模型規模擴大而減弱。

更準確地說，Wang 等人 [13] 的研究表明，Transformer 模型能夠在同分布泛化中學習隱式推理，但在跨分布泛化中則表現欠佳（如圖 1 左所示）。

這自然引出一個問題：如果在訓練過程中使用顯式推理步驟，模型的泛化能力將受到何種影響？（即回答 Q1：與無思維鏈訓練相比，基于思維鏈的訓練具有哪些優勢？）

思維鏈訓練顯著提升推理泛化能力

如圖 1 所示，我們展示了模型在訓練和測試兩跳事實上的準確率隨優化過程的變化，其中 λ = 7.2。

（1）Training without CoT（圖 1 左）。我們觀察到了與 Wang 等人 [13] 相同的現象（稱為頓悟現象 [14]），即模型能夠較好地泛化到分布內測試樣本

，但高性能只有在經過大量訓練后才能實現，遠超過過擬合點。此外，即使經過數百萬次優化步驟的訓練，仍未觀察到分布外泛化（

）的跡象，這表明這是一種缺乏系統性的延遲泛化現象。模型可能只是記憶或學習了訓練數據中的模式。

（2）Training with CoT（圖 1 右）。使用思維鏈標注后，模型在訓練集上的收斂速度加快，且在訓練過程中更早地實現了較高的測試性能，特別是在分布內測試樣本上。模型在大約 4,000 次優化步驟后，在同分布測試集

上的準確率就達到了接近完美的水平，表明與無思維鏈訓練相比，泛化能力得到了顯著提升。分布外泛化（

）也顯示出明顯改善，這突出表明思維鏈提示訓練不僅在分布內泛化方面，而且在分布外泛化方面都發揮著關鍵作用，盡管效果程度有所不同。

關鍵影響因素探究

研究進一步開展了消融實驗，以評估不同因素在思維鏈訓練中的影響。

圖表 2: 分布外測試集上的推理泛化速度。

適當的 λ 值能夠加速模型收斂。圖 2（左）展示了不同 λ 值下的分布外測試準確率。可以看出，λ 值與泛化速度存在強相關性。更有趣的是，較小的 λ 值能夠加速由思維鏈訓練帶來的分布外泛化能力提升，從而減少對長時間訓練的需求。然而，λ 值并非越小越好，因為過小的 λ 值可能導致模型無法學習相關規則。

不同模型規模 / 層數和訓練集大小的影響。我們在模型層數∈{2,4,8} 和 λ∈{3.6,7.2,12.6} 的條件下進行實驗。總體而言，可以觀察到擴大模型規模并不會從根本上改變其泛化行為，主要趨勢是較大的模型能夠在更少的優化步驟中收斂。關于訓練集大小（|E|）的影響，我們的結果與 [13] 一致：當固定 λ 值時，訓練集大小不會對模型的泛化能力產生本質影響。

兩跳到多跳分析

在本部分中，研究將重點轉向多跳場景：在思維鏈訓練階段僅接觸過兩跳事實的模型，能否泛化到三跳事實？

在思維鏈訓練中，我們僅使用單跳 / 兩跳事實，并測試模型是否能夠泛化到三跳事實的推理（這里研究使用

來表示三跳事實）。

結果：在思維鏈訓練中僅接觸過兩跳數據的模型無法直接泛化到三跳場景。然而，當訓練集中加入一定量的三跳數據后，模型能夠快速實現泛化（前提是模型需要接觸過相關模式）。另一方面，當我們人為地將一個三跳事實拆分為兩個兩跳事實進行測試時，模型也能夠有效泛化。換句話說，我們分別測試

?預測

和

預測

，當兩者都正確時，我們認為

預測

是正確的。這些發現與 [15] 結果一致：思維鏈與重現訓練集中出現的推理模式有關。

總結：至此，我們已經證明在受控實驗中引入顯式思維鏈訓練能夠顯著提升推理泛化能力，使其從僅限分布內泛化擴展到同時涵蓋分布內和分布外泛化。數據分布的關鍵因素（如比例和模式）在形成模型的系統性泛化能力中起著重要作用。然而，驅動這些改進的內部機制仍不明確，我們將進一步探討（回答 Q2：如果存在優勢，顯式思維鏈訓練的潛在機制是什么？）。

圖表 3: 兩跳事實訓練對應的兩階段泛化電路（模型層數：8）。

三、兩階段泛化電路

研究通過兩種主流方法分析模型在泛化過程中的內部工作機制：logit lens [16] 和 causal tracing [17]，本部分研究使用

表示兩跳推理。

圖 3 展示了發現的泛化電路，該電路代表了 8 層模型在實現兩跳分布外（OOD）泛化后的因果計算路徑。具體而言，我們識別出一個高度可解釋的因果圖，該圖由第 0 層、第 l 層和第 8 層的狀態組成，其中弱節點和連接已被剪枝（If perturbing a node does not alter the target state (top-1 token through the logit lens), we prune the node）。

（1）在第一跳階段，第 l 層將電路分為上下兩部分：下部從輸入

中檢索第一跳事實，并將橋接實體

存儲在狀態

中；上部通過殘差連接將的信息傳遞到輸出狀態（其中

表示對應位置的激活）。由于數據分布可控，l 層可以精確定位（對于 ID 為第 3 層，對于 OOD 為第 5 層）。

（2）在第二跳階段，自回歸模型使用第一跳階段生成的

。該階段省略了

，并從輸入

處理第二跳，將尾實體

存儲到輸出狀態

中。

系統性泛化解釋

（1）兩階段泛化電路表明，使用思維鏈訓練可以將推理步驟內化到模型中。這也解釋了為什么模型在思維鏈訓練下能夠在跨分布測試數據上表現出良好的泛化能力。

（2）該電路由兩個階段組成，與訓練期間模型中的顯式推理步驟相一致。因此，模型在思維鏈訓練期間僅接觸兩跳數據時無法在測試階段直接泛化到三跳場景。

四、更普適的分析

總體而言，我們目前的研究為通過受控數據分布上的思維鏈訓練來深入理解和增強 Transformer 的泛化能力鋪平了道路。然而，現實世界中的訓練數據分布往往更為復雜。在本部分中，我們將分析擴展到推理過程中存在錯誤的分布，并展示思維鏈訓練能提高模型的泛化能力的結論在更復雜的場景中仍然成立。

數據分布帶噪

方法：我們旨在分析通過思維鏈訓練獲得的系統性泛化能力在噪聲訓練數據下的魯棒性。我們通過隨機選擇一個有效實體向

引入噪聲（真實訓練目標為

）：

（1）僅第二跳有噪聲，即

；

（2）兩跳均有噪聲，即

。

需要注意的是，噪聲比例用 ξ 表示，我們將探討不同 ξ 值的影響。

圖表 4: 僅第二跳噪聲對分布內和分布外的影響。

圖表 5: 模型在不同噪聲比例（兩跳均有噪聲）下對訓練和測試兩跳推理事實的準確率。

結果：我們針對兩種情況分析了不同的 ξ（噪聲比例）候選集：僅第二跳有噪聲時為 {0.05, 0.2, 0.4, 0.6, 0.8}，兩跳均有噪聲時為 {0.05, 0.1, 0.2, 0.4}。比較結果如下：

（1）圖 4 清晰地展示了僅第二跳噪聲對分布內和分布外泛化的影響。總體而言，在思維鏈訓練條件下，模型仍能夠從噪聲訓練數據中實現系統性泛化，但其泛化能力隨著噪聲比例的增加而降低。

更具體地說，隨著訓練的進行，分布外泛化最初保持不變，然后增加，而分布內泛化先增加后減少。分布內泛化的減少與分布外泛化的增加相對應。

然而，隨著噪聲比例的增加，分布內和分布外泛化的最終性能都會下降。特別是當噪聲比例（ξ < 0.2）相對較小時，模型幾乎不受影響，這展示了思維鏈訓練的魯棒性。

此外，我們同樣檢查了泛化電路。由于我們僅在第二跳添加噪聲，第一跳階段的電路學習得相對較好，而第二跳階段的電路受噪聲影響更大。

（2）圖 5 展示了在兩跳噪聲 ξ 值為 0.05、0.1、0.2 和 0.4 時的結果比較。與僅在第二跳添加噪聲相比，在兩跳都添加噪聲對模型泛化的抑制效果要強得多。大于 0.2 的噪聲比例足以幾乎消除分布內和分布外泛化能力。

總而言之，即使在訓練數據存在噪聲的情況下，當噪聲在一定范圍內時，思維鏈訓練仍能使模型實現系統性泛化。特別是當噪聲比例較小時，這些噪聲數據仍能幫助模型學習泛化電路。

五、討論

總結

本文通過在受控和可解釋的環境中展示系統性組合泛化如何通過顯式思維鏈（CoT）訓練在 Transformer 中產生，揭示了思維鏈訓練的核心機制。具體而言：

（1）與無思維鏈訓練相比，思維鏈訓練顯著增強了推理泛化能力，使其從僅限分布內（ID）泛化擴展到同時涵蓋分布內和分布外（OOD）場景。

（2）通過 logit lens 和 causal tracing 實驗，我們發現思維鏈訓練（使用兩跳事實）將推理步驟內化到 Transformer 中，形成了一個兩階段泛化電路。然而，模型的推理能力受訓練數據復雜性的限制，因為它難以從兩跳情況泛化到三跳情況。這表明思維鏈推理主要是重現了訓練集中存在的推理模式。

（3）我們進一步將分析擴展到推理過程中存在錯誤的訓練數據分布，證明當噪聲保持在一定范圍內時，思維鏈訓練仍能使模型實現系統性泛化，此類噪聲數據的結構或許有助于泛化電路的形成。

有趣的是，我們的工作還突出了思維鏈訓練的瓶頸：訓練數據分布（比例 λ 和模式）在引導模型實現泛化電路方面起著關鍵作用。模型需要在訓練過程中接觸過相關模式（特別是思維鏈步驟的數量）。

這可能解釋了為什么 DeepSeek-R1 [4] 在冷啟動階段構建和收集少量長思維鏈數據來微調模型。我們的發現為調整大語言模型（LLMs）以實現穩健泛化的策略提供了關鍵見解。

不足與未來展望

（1）盡管我們的自下而上的研究為實際應用提供了寶貴的見解，但我們工作的一個關鍵局限是實驗和分析基于合成數據，這可能無法完全捕捉現實世界數據集和任務的復雜性。雖然我們的一些結論也在 Llama2-7B [18] 等模型中得到了驗證，但有必要在更廣泛的模型上進行進一步驗證，以彌合我們的理論理解與實際應用之間的差距。

（2）我們的分析目前僅限于使用自然語言。未來，我們旨在探索大型語言模型在無限制潛在空間中的推理潛力，特別是通過訓練大型語言模型在連續潛在空間中進行推理 [19] 等方法。

（3）最近的一種方法，「backward lens」[20]，將語言模型的梯度投影到詞匯空間，以捕捉反向信息流。這為我們完善思維鏈訓練的潛在機制分析提供了一個新的視角。

作者介紹

劉勇，中國人民大學，長聘副教授，博士生導師，國家級高層次青年人才。長期從事機器學習基礎理論研究，共發表論文 100 余篇，其中以第一作者 / 通訊作者發表頂級期刊和會議論文近 50 篇，涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。獲中國人民大學「杰出學者」、中國科學院「青年創新促進會」成員、中國科學院信息工程研究所「引進優青」等稱號。主持國家自然科學面上 / 基金青年、北京市面上項目、中科院基礎前沿科學研究計劃、騰訊犀牛鳥基金、CCF - 華為胡楊林基金等項目。

姚鑫浩，中國人民大學高瓴人工智能學院博士研究生，本科畢業于中國人民大學高瓴人工智能學院。當前主要研究方向包括大模型推理與機器學習理論。

參考文獻

[1] OpenAI. 12 days of openai. https://openai.com/ 12-days/, 2024a.

[2] Trung, L., Zhang, X., Jie, Z., Sun, P., Jin, X., and Li, H. ReFT: Reasoning with reinforced fine-tuning. In Ku, L.-W., Martins, A., and Srikumar, V. (eds.), Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.7601–7614, 2024.

[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., brian ichter, Xia, F., Chi, E. H., Le, Q. V., and Zhou, D. Chain of thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing Systems, 2022.

[4] DeepSeek-AI, Guo, D., Yang, D., Zhang, H., et al.?Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025. URL https://arxiv.org/abs/2501.12948.

[5] Lake, B. and Baroni, M. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In Proceedings of the International Conference on Machine Learning, pp. 2873–2882, 2018a.

[6] Wang, B., Deng, X., and Sun, H. Iteratively prompt pretrained language models for chain of thought. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 2714–2730, 2022.

[7] Zelikman, E., Wu, Y., Mu, J., and Goodman, N. STar: Bootstrapping reasoning with reasoning. In Advances in Neural Information Processing Systems, 2022.

[8] Liu, J., Pasunuru, R., Hajishirzi, H., Choi, Y., and Celikyilmaz, A. Crystal: Introspective reasoners reinforced with self-feedback. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 11557–11572, 2023.

[9] Li, Z., Wallace, E., Shen, S., Lin, K., Keutzer, K., Klein, D., and Gonzalez, J. Train big, then compress: Rethinking model size for efficient training and inference of transformers. In Proceedings of the 37th International Conference on Machine Learning, pp. 5958–5968, 2020.

[10] Zhou, C., Liu, P., Xu, P., Iyer, S., Sun, J., Mao, Y., Ma, X., Efrat, A., Yu, P., YU, L., Zhang, S., Ghosh, G., Lewis, M., Zettlemoyer, L., and Levy, O. Lima: Less is more for alignment. In Advances in Neural Information Processing Systems, 2023a.

[11] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N., and Lewis, M. Measuring and narrowing the compositionality gap in language models. In Findings of the Association for Computational Linguistics: EMNLP 2023, pp. 5687– 5711, 2023.

[12] Yang, S., Gribovskaya, E., Kassner, N., Geva, M., and Riedel, S. Do large language models latently perform multi-hop reasoning?, 2024. URL https://arxiv. org/abs/2402.16837.

[13] Wang, B., Yue, X., Su, Y., and Sun, H. Grokking of implicit reasoning in transformers: A mechanistic journey to the edge of generalization. In Advances in Neural Information Processing Systems, 2024a.

[14] Power, A., Burda, Y., Edwards, H., Babuschkin, I., and Misra, V. Grokking: Generalization beyond overfitting on small algorithmic datasets, 2022. URL https:// arxiv.org/abs/2201.02177.

[15] Cabannes, V., Arnal, C., Bouaziz, W., Yang, X. A., Charton, F., and Kempe, J. Iteration head: A mechanistic study of chain-of-thought. In Advances in Neural Information Processing Systems, 2024.

[16] Nostalgebraist. Interpreting gpt: The logit lens, 2020.

[17] Pearl, J. Causality: Models, Reasoning, and Inference. Cambridge University Press, Cambridge, 2009. ISBN 9780521426085.

[18] Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Roziere, B., Goyal, N., Hambro, E., ` Azhar, F., et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[19] Hao, S., Sukhbaatar, S., Su, D., Li, X., Hu, Z., Weston, J., and Tian, Y. Training large language models to reason in a continuous latent space, 2024b. URL https:// arxiv.org/abs/2412.06769.

[20] Katz, S., Belinkov, Y., Geva, M., and Wolf, L. Backward lens: Projecting language model gradients into the vocabulary space. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 2390–2422, 2024.

#OpenAI突然發布智能體API

支持網絡和文件搜索以及computer use

「Agent/智能體」可說是當今 AI 領域最炙手可熱的話題。今天凌晨，OpenAI 發布了一系列可讓開發者通過 API 構建智能體的新工具，其中最大的看點便是?Responses API?，這是對之前的 Chat Completions API 的一輪大升級，使其獲得了 Assistants API 般使用工具的能力，從而可以幫助開發者構建智能體。目前，Responses API? 已經內置了網絡搜索、文件搜索和計算機使用（computer use）能力。

OpenAI CEO Sam Altman 表示 Chat Completions API 是有史以來設計最完善、最實用的 API 之一。

熟悉大模型應用開發的人都知道，當今不少大模型提供商的服務都兼容 OpenAI 之前提出的 Chat Completions API，其對行業標準化做出了非常大的貢獻。而今發布的 Responses API? 或許也將成為智能體響應標準化的重要組成部分。

Chat Completions API 的一個簡單示例

除此之外，OpenAI 還發布了用于編排單智能體和多智能體工作流的 Agents SDK 以及用于跟蹤和檢查智能體工作流程執行情況的 observability tools。

OpenAI 表示：「這些新工具簡化了核心智能體邏輯、編排和交互，使開發者能夠更輕松地開始構建智能體。在接下來的幾周和幾個月內，我們計劃發布更多工具和功能，以進一步簡化和加速在我們的平臺上構建智能體應用的過程。」

相關文檔鏈接如下：

Responses API?：https://platform.openai.com/docs/quickstart?api-mode=responses
網絡搜索：https://platform.openai.com/docs/guides/tools-web-search
文件搜索：https://platform.openai.com/docs/guides/tools-file-search
computer use：https://platform.openai.com/docs/guides/tools-computer-use
Agents SDK：https://platform.openai.com/docs/guides/agents
observability tools：https://platform.openai.com/docs/guides/agents#orchestration

另外，OpenAI 還準備了 PlayGround 供開發者嘗試：https://platform.openai.com/playground/prompts?preset=ks7kayjX55ehTBR9oyUviuJe

下面來具體看看 OpenAI 今天發布的東西。

Responses API 是什么？

簡單來說，Responses API 是一種 API 新原語，其作用是使用 OpenAI 內置工具來構建智能體。OpenAI 表示它將 Chat Completions 的簡單性與 Assistants API 的工具使用功能結合到了一起。「隨著模型功能的不斷進化，我們相信 Responses API 將為開發者構建智能體應用提供更靈活的基礎。只需一次 Responses API 調用，開發者就能夠使用多個工具和模型輪次來解決越來越復雜的任務。」

首先，Responses API 將支持新的內置工具，如網絡搜索、文件搜索和 computer use。這些工具可以協同工作，將模型連接到現實世界，從而讓模型可以完成更加有用的任務。Responses API 還包含一些可用性改進，包括統一的基于事項（item）的設計、更簡單的多態性、直觀的流式事件和 SDK 助手（如可幫助輕松獲取模型的文本輸出的 response.output_text）。

對于希望輕松將 OpenAI 模型和內置工具結合到其應用中的開發者，Responses API 可提供一個統一的接口，而無需集成多個 API 或外部供應商。

該 API 還使在 OpenAI 上存儲數據變得更加容易，因此開發者可以使用跟蹤和評估等功能來評估智能體性能。OpenAI 還特別指出：「即使數據存儲在 OpenAI 上，我們也不會默認使用業務數據來訓練我們的模型。」

Responses API 即日可用，并且不會單獨收費 ——token 和工具按照 OpenAI 定價頁面上指定的標準費率計費。

現有的 API 呢？

Chat Completions API：OpenAI 表示，Chat Completions 仍然是他們最廣泛采用的 API，他們也會讓新模型和新功能支持它。無需內置工具的開發者可以放心地繼續使用 Chat Completions。只要 Chat Completions 的功能不依賴于內置工具或調用多個模型，OpenAI 表示就會繼續發布支持 Chat Completions 的新模型。而 Responses API 是 Chat Completions 的超集?，具有同樣出色的性能，因此對于新的集成，OpenAI 建議從 Responses API 開始。

Assistants API?：根據開發者對 Assistants API beta 的反饋，OpenAI 在 Responses API 中加入了一些關鍵改進，使其更加靈活、更快、更易于使用。OpenAI 表示正在努力實現 Assistants 和 Responses API 之間的完全功能對等，包括對類似 Assistant 和類似 Thread 的對象以及代碼解釋器工具的支持。OpenAI 表示，完成這個過程后，就會正式宣布棄用 Assistants API，目標截止日期為 2026 年中期。棄用后，OpenAI 將提供從 Assistants API 到 Responses API 的遷移指南，使開發者能夠保留所有數據并遷移其應用。而在正式宣布棄用之前，OpenAI 將繼續讓新模型支持 Assistants API。

OpenAI 表示：「Responses API 代表了在 OpenAI 上構建智能體的未來方向。」

Responses API 的內置工具

網絡搜索

開發者現在可以從網絡上獲得快速、最新的答案，同時還帶有清晰且相關的引文。在 Responses API 中，使用 gpt-4o 和 gpt-4o-mini 時，網絡搜索可用作工具使用，并且可以與其他工具或函數調用搭配使用。

Responses API 中的網絡搜索使用了 ChatGPT 搜索一樣的模型。OpenAI 也發布了基準測試結果：在 SimpleQA 評估 LLM 回答簡短事實問題的準確性的基準）上，GPT-4o search preview 和 GPT-4o mini search preview 分別得分 90% 和 88%。

使用該 API 中的網絡搜索生成的響應會包含指向新聞文章和博客文章等來源的鏈接，為用戶提供了一種了解更多信息的方式。

任何網站或發布者都可以選擇是否在該 API 中的網絡搜索中顯示。

目前，網絡搜索工具已在 Responses API 中以預覽版形式提供給所有開發者。OpenAI 還支持開發者通過 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 直接訪問 Chat Completions API 中經過微調的搜索模型。GPT?4o search 和 4o-mini search 的定價分別為每千次查詢 30 美元和 25 美元。

文件搜索

開發者現在可以使用經過改進的文件搜索工具輕松地從大量文檔中檢索相關信息。其支持多種文件類型、查詢優化、元數據過濾和自定義重新排名，并能提供快速、準確的搜索結果。同樣，使用 Responses API，只需幾行代碼即可完成集成。

文件搜索工具可用于各種實際用例，包括使客服智能體輕松訪問常見問題解答、幫助法律助理快速參考合格專業人員的過去案例以及協助編程智能體查詢技術文檔。

此工具在 Responses API 中可供所有開發者使用。使用價格為每千次查詢 2.50 美元，文件存儲價格為 0.10 美元/GB /天，首 GB 免費。

該工具也將繼續在 Assistants API 中提供。最后，OpenAI 表示還向 Vector Store API 對象添加了一個新的搜索端點，開發者可直接將其用于查詢自己的數據，然后用于其他應用和 API。

Computer Use

為了構建能夠在計算機上完成任務的智能體，開發者現在可以使用 Responses API 中的 Computer Use 工具，該工具使用了 Computer-Using Agent（CUA）模型 —— 與 Operator 一樣。

而此研究預覽版（research preview）模型創下了新的 SOTA 記錄：在 OSWorld? 的全 Computer Use 任務上實現了 38.1% 的成功率，在 WebArena? 上實現 58.1% 的成功率，在 WebVoyager? 的基于 Web 的交互任務上實現 87% 的成功率。

內置的 Computer Use 工具可捕獲模型生成的鼠標和鍵盤操作，使開發者能夠通過將這些操作直接轉換為其環境中的可執行命令來自動執行 Computer Use 任務。

開發者可以使用 Computer Use 工具來自動化基于瀏覽器的工作流程，例如在 Web 應用上執行質量驗證任務或跨舊系統執行數據輸入任務。

OpenAI 表示，在去年推出支持 Operator 的 CUA 之前，他們進行了廣泛的安全測試和紅隊測試，解決了三個關鍵風險領域：誤用、模型錯誤和前沿風險。

而通過 API 中的 CUA 將 Operator 的功能擴展到本地操作系統也會引入新的風險，為此 OpenAI 進行了額外的安全評估和紅隊測試。

OpenAI 還為開發者添加了緩解措施，包括防止提示詞注入的安全檢查、敏感任務的確認提示、幫助開發者隔離其環境的工具以及增強對潛在政策違規行為的檢測。雖然這些緩解措施有助于降低風險，但該模型仍然容易受到無意錯誤的影響，尤其是在非瀏覽器環境中。

例如，CUA 在 OSWorld（旨在衡量 AI 智能體在實際任務中的表現的基準）上的表現目前為 38.1%，這表明該模型對于在操作系統上自動執行任務還不夠可靠。在這些情況下，OpenAI 建議進行人工監督。

更多詳情可訪問已更新的系統卡：https://openai.com/index/operator-system-card/

從今天開始，Computer Use 工具將作為研究預覽版在 Responses API 中提供給使用等級為 3-5 的選定開發者。

使用價格為 3 美元/100 萬輸入 token 和 12 美元/100 萬輸出 token。

Agents SDK

除了構建智能體的核心邏輯并讓它們能夠訪問有用的工具之外，開發者還需要編排智能體工作流。

OpenAI 開源發布的 Agents SDK 可簡化多智能體工作流的編排，并且相比于 Swarm? 有了顯著的改進。Swarm 是 OpenAI 去年發布的實驗性 SDK 并已被開發者社區廣泛采用，可參閱報道《OpenAI 今天 Open 了一下：開源多智能體框架 Swarm》。

智能體：易于配置的 LLM，具有清晰的說明和內置工具。
交接：在智能體之間智能地轉移控制權。
護欄：可配置的安全檢查，用于輸入和輸出驗證。
跟蹤和可觀察性：可視化智能體執行跟蹤以調試和優化性能。

智能體 SDK 適用于各種實際應用，包括客戶支持自動化、多步驟研究、內容生成、代碼審查和銷售潛在客戶挖掘。

Agents SDK 可與 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 樣式的 API 端點，該 SDK 還可以與其他提供商的模型配合使用。

開發者可以立即將其集成到他們的 Python 代碼庫中，Node.js 支持也即將推出。

OpenAI 還提到未來可能會開源 Agents SDK：「在設計 Agents SDK 時，我們的團隊受到了社區中其他人的出色工作的啟發，包括 Pydantic、Griffe 和 MkDocs。我們致力于繼續將 Agents SDK 構建為開源框架，以便社區中的其他人可以擴展我們的方法。」

最后，OpenAI 稱：「我們相信智能體很快就會成為勞動力不可或缺的一部分，從而顯著提高各行業的生產力。隨著公司越來越多地尋求利用 AI 來完成復雜的任務，我們致力于為開發者和企業提供構建模塊，使他們能夠有效地創建可產生實際影響的自動系統。」

Responses API??背后的故事

Responses API? 背后的設計者之一、OpenAI 的 Atty Eleti 還在 𝕏 上分享了 Responses API? 背后的故事。

他表示，Responses API? 是他設計 OpenAI API 2 年的經驗累積的成果。

兩年前，他們與 GPT-3.5 Turbo 團隊一起推出了 Chat Completions。而這個 API 是他與 Rachel Lim 在一個周末內完成的：周五設計，周二發布 GA。如今，Chat Completions 已成為事實上的行業標準，為數十萬個應用提供支持，并被每個主要模型提供商所采用。

當年晚些時候，他們發布了 Assistants API 的 beta 版，這是構建智能體原語的初稿。其運行在后臺進行，并能根據需要調用工具。

許多開發者喜歡它，因為它易于上手（只需使用 OpenAI 作為自己的數據庫！）并且通過「file_search」工具內置了強大的 RAG。

但從那時起，很多事情都發生了變化：今天的模型是多模態的（文本、圖像、音頻）、智能體形式的（調用一個或多個工具），并且在說話前會思考。

Chat Completions 不是為此設計的；它是無狀態的（會迫使你傳回大量圖像和音頻），不支持工具，并且存在許多可用性問題（特別是，流式傳輸很難正確實現。）

Assistants 支持工具，但它太抽象了。你需要了解六個概念才能開始使用，而且后臺處理意味著它默認很慢。

這些 API 的形式成為了開發者調用底層功能的障礙。

Responses API 則將上述兩種 API 的優勢整合到了一起。

只需 4 行代碼即可開始使用，只需一個參數即可包含文件搜索、網絡搜索、函數調用和結構化輸出等功能。

Responses 具有多種狀態。

默認情況下，所有 Responses 都會被存儲，用戶可以在儀表板中查看它們，以便以后進行調試。你可以使用「previous_response_id」繼續對話 —— 無需一次又一次地發送大載荷。

Responses 也是狀態機（state-machines），可以更好地模擬不完整、中斷和失敗的模型輸出。

Responses 的核心概念是事項（item）：表示用戶輸入或模型輸出的多態對象。事項可以表示消息、推理、函數調用、Web 搜索調用等。

Chat Completions 是消息來來回回的列表，而 Responses 則是事項來來回回的列表。

托管工具（Hosted tools）是 Responses 的殺手級功能。

只需一行代碼，你就可以在應用中獲得一流的網頁搜索、文件搜索以及即將推出的代碼解釋器。

至于 Responses 這個起名。Atty Eleti 指出「Responses 顯然與 HTTP Responses 沖突。」

「但我們堅信這個名字完美地平衡了優雅和描述性。我們在日常使用中都會問『模特的 Responses 是什么？』」

Eleti 表示他們還考慮過 Tasks、Generations、Messages、Interactions、Conversations 等名稱。

他也總結了 OpenAI 的 API 設計哲學：交付能力，而非抽象。（Ship capabilities, not abstractions.）

最后，順帶一提，OpenAI CEO Sam Altman 在 𝕏 表示他們已經訓練出了一個擅長創意寫作的模型，不過發布時間待定。他說：「這是我第一次真正被 AI 寫的東西所震撼；它恰到好處地傳達了元小說的氛圍。」

下面是他分享的提示詞和小說，感興趣的讀者可訪問這里自行評鑒：https://x.com/sama/status/1899535387435086115

你對 OpenAI 今天的發布怎么看？

參考鏈接

??https://openai.com/index/new-tools-for-building-agents/??

??https://x.com/btibor91/status/1899559543933452324??

??https://x.com/athyuttamre/status/1899541499261616339???

#Se?orita-2M

18項任務200萬視頻編輯對，云天勵飛聯合多高校打造出大規模編輯數據集

目前的視頻編輯算法主要分為兩種：一種是利用 DDIM-Inversion 完成視頻編輯，另一種是利用訓練好的編輯模型。然而，前者在視頻的一致性和文本對齊方面存在較大缺陷；后者由于缺乏高質量的視頻編輯對，難以獲得理想的編輯模型。

為了解決視頻編輯模型缺乏訓練數據的問題，本文作者（來自香港中文大學、香港理工大學、清華大學等高校和云天勵飛）提出了一個名為 Se?orita-2M 的數據集。該數據集包含 200 萬高質量的視頻編輯對，囊括了 18 種視頻編輯任務。

數據集中所有編輯視頻都是由經過訓練的專家模型生成，其中最關鍵的部分由作者提出的視頻編輯專家模型完成，其余部分則由一些計算機視覺模型標注，例如 Grounded-SAM2 和深度圖檢測模型等。

論文標題：Se?orita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists
論文地址:?https://arxiv.org/abs/2502.06734
項目地址: https://senorita-2m-dataset.github.io

數據分布見下圖。

，時長01:10

專家模型的開發和數據集的構造

除了常見的計算機視覺模型，作者提出的視頻編輯專家模型一共有 4 個，負責五種編輯任務。

第一個編輯專家模型稱為 Global Stylizer，負責對輸入視頻進行風格轉換，它基于現有的視頻生成基模型開發。

然而，作者發現視頻生成基模型在接受風格信息方面存在不足，因此無法利用 ControlNet 的思想進行風格轉換。

為了解決這一問題，作者首先利用圖像 ControlNet 對首幀進行處理，然后使用視頻 ControlNet 對剩余的幀進行處理，將首幀的風格信息推廣到剩余的視頻幀中。在訓練過程中，采用了兩階段策略，并通過凍結部分層以降低成本。在第一階段，模型在低分辨率視頻上訓練；在第二階段，微調模型以提高分辨率。

在生成數據階段，作者采用 Midjourney 和 Stable Diffusion 常用的 290 種風格 prompt，對視頻進行風格轉換，并使用 LLM 對風格 prompt 轉換成指令。

第二個編輯專家模型稱為 Local Stylizer，與 Global Stylizer 不同的是，它負責對某些物體進行風格方面的編輯。

由于對物體進行風格編輯，不需要接受復雜的風格指令，因此這個模型不使用首幀引導。除此之外，作者使用與 Global Stylizer 相同的 ControlNet 架構，并引入了 inpainting 的思想，保證只有物體本身被修改。

在生成數據階段，作者采用 LLM 對物體進行改寫并產生指令。在獲取新的信息后，使用作者的模型對物體進行重繪。

第三個專家模型是 Text-guided Video Inpainter，用來完成物體的替換。

在實踐中，作者發現直接開發一個視頻 inpainter 的效果會遠遠弱于基于首幀引導的視頻 inpainter。因此，作者使用 Flux-Fill 這一高效的圖像 inpainter 對首幀進行處理，并使用作者的 inpainter 對剩下的視頻進行補全。這樣做的好處是將作者的視頻 inpainter 只負責將首幀的視頻補全內容推廣到剩余的視頻幀，減少了編輯的難度。

為了進一步減小視頻標注過程中引入的數據噪聲，作者將編輯的視頻作為源視頻，將原始視頻作為目標視頻。這樣做的好處是避免基于數據集訓練的視頻編輯模型學到扭曲和抖動。作者利用 LLM 對源物體和目標物體進行組合并產生用于編輯的指令。

第四個專家模型是 Object Remover。作者用這個專家模型來完成物體去除和物體添加兩部分的數據構造。物體添加任務為物體去除任務的逆任務，只需要將標注視頻當作源視頻，原始視頻當作目標視頻即可完成數據對的構造。

對于這個專家模型的構造，作者提出了一種反轉訓練的策略，將訓練的 90% 數據的 mask 替換為與視頻內容無關的 mask，訓練視頻恢復的背景和 mask 形狀無關。這樣可以有效避免視頻 remover 根據 mask 形狀再次生成物體。

作者還將 10% 的數據設置為和視頻物體嚴格一致的 mask，這樣可以訓練 remover 產生物體，在推理時將這一條件設置為負 prompt 來避免去除區域內的物體的產生。作者使用 LLM 對使用的 prompt 轉換成用于物體去除和物體添加的指令。

除此之外，作者還使用了多種計算機視覺模型對視頻進行標注。例如，使用了 Grounded-SAM2 來標注經過 Grounding 的視頻，目的是用來訓練模型對物體的感知能力，幫助編輯模型對區域的編輯。作者還使用了其他多種專家模型，這些模型一共標注了 13 種視頻編輯任務。相似的，這些數據對應的指令也使用 LLM 進行增強。

數據集的清洗?

為了保證視頻對的可靠性，作者使用多種過濾算法對生成的視頻進行清洗。

具體來講，首先訓練了一個檢測器用來檢測編輯失敗的數據，去除那些有害的視頻。其次，使用 CLIP 對文本和視頻的匹配度進行檢測，丟棄匹配度過小的數據。最后，比對了原始視頻和編輯視頻的相似度，丟棄掉沒有明顯編輯變化的視頻。

基于 Se?orita-2M 數據集的編輯模型訓練

作者使用 CogVideoX-5B-I2V 作為基模型，利用首幀引導的方式，使用 Se?orita-2M 訓練了一個編輯模型。這個模型和之前方法的實驗比較結果表明，基于該數據集訓練的模型具有更強的一致性、文本視頻對齊，以及更好的用戶偏好度。

為了進一步證明數據的有效性，作者做了消融實驗，使用了相同數據量的 InsV2V 和 Se?orita-2M 視頻對 CogVideoX-5B-T2V 進行微調。結果發現，使用了 Se?orita-2M 的數據，可以大大增強文本匹配度。

另外，增加了訓練數據的數量后，這些指標會有明顯的改善。這些實驗證明了該數據集可以有效地訓練出高質量的視頻編輯器。更多實驗數據詳見表 1。

表 1. 基于 Se?orita-2M 訓練的模型和其他編輯方法的對比

另外，作者還探索了目前的一些編輯架構，采用和 instruct-pix2pix 以及 controlnet 相同的架構，并基于 CogVideoX-5B 來構建視頻編輯模型。另外，作者還采用 omni-edit 圖像編輯對這基于兩個架構的視頻編輯模型進行增強。結果發現，使用圖像數據增強的模型會有更好的文本匹配度以及用戶偏好度。

除此之外，作者還采用了首幀引導的方式進行編輯模型。實驗結果證明，在視頻編輯中，使用 ControlNet 相比于 Instruct-pix2pix 會有更好的編輯效果，基于首幀引導的編輯模型可以比非首幀引導的模型獲得更好的編輯效果。具體實驗結果詳見表 2。