51c大模型~合集182

我自己的原文哦~? ? ? ? ? ? ? ?https://blog.51cto.com/whaosoft/14174587 ?

#LaV-CoT

超越GPT-4o，螞蟻集團與南洋理工大學提出：首個語言感知的視覺思維鏈

隨著大型視覺語言模型（VLM）的飛速發展，它們在處理復雜的視覺問答任務時展現出驚人的能力。其中，思維鏈（Chain-of-Thought, CoT）技術通過模擬人類一步一步的思考過程，極大地增強了模型的推理能力和可解釋性。然而，當面臨真實世界中更復雜的多語言視覺問答（multilingual VQA, mVQA）場景時，現有的CoT方法開始捉襟見肘——它們大多是純文本的，并且以英語為中心，常常導致推理過程與視覺信息脫節，或在回答非英語問題時出現“語言錯亂”（例如用英語回答阿拉伯語問題）。

為了解決這一痛點，來自螞蟻集團和南洋理工大學的研究者們提出了一個名為?LaV-CoT?的全新框架。這是首個具備語言感知能力的視覺思維鏈（Language-aware Visual CoT），并引入了多維度獎勵優化機制。LaV-CoT不僅在多個公開基準測試中取得了SOTA性能，準確率相比同等規模的開源模型提升了約9.5%，甚至超越了GPT-4o、Gemini-2.5-flash等頂尖專有模型，其在真實世界在線A/B測試中的優異表現也證明了其巨大的工業應用潛力。

論文標題: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA
作者: Jing Huang, Zhiya Tan, Shutao Gong, Fanwei Zeng, Jianshu Li
機構: 螞蟻集團、南洋理工大學
論文地址: https://arxiv.org/abs/2509.10026
代碼地址: https://github.com/HJNVR/LaV-CoT

研究背景：當CoT遇上多語言VQA的挑戰

思維鏈（CoT）讓VLM在回答問題前，先生成一個詳細的推理步驟，這使得模型的決策過程更加透明，也更能處理復雜邏輯。但現有方法在多語言VQA場景下存在三大核心問題：

語言不一致：模型可能無法識別問題的語言，導致用一種語言提問，卻用另一種語言（通常是英語）回答。
視覺-文本未對齊：純文本的CoT推理過程可能忽略或錯誤地解讀了圖像中的關鍵視覺信息。
多語言推理能力有限：模型在非英語語境下的復雜推理能力顯著弱于英語。

從直接回答(a)，到普通CoT(b)，再到LaV-CoT(c)，模型的回答在語言一致性和準確性上逐步提升。

LaV-CoT正是為了系統性地解決這些問題而設計的，它旨在創建一個既“看得懂圖”又“說得對語言”的、結構化的推理框架。

LaV-CoT：數據、流程與訓練的“三位一體”創新

LaV-CoT的創新體現在三個層面：定義了全新的語言感知視覺CoT推理流程，設計了自動化的CoT數據生成管線，并采用了基于多維度獎勵的二階段訓練范式。

1. 語言感知的視覺CoT推理流程

這是LaV-CoT的核心。它將復雜的推理過程分解為四個可解釋、可驗證的階段：

帶邊界框的文本摘要 (Text Summary with BBox)?：首先，模型會檢測并識別圖像中的所有文本，并用邊界框（BBox）標出其位置，然后對文本內容進行摘要。
語言識別 (Language Identification)?：接著，模型會明確地識別出用戶問題的所屬語言，并打上標簽（如??\lang{Thai}??）。這是實現“語言感知”的關鍵一步。
空間對象級描述 (Spatial Object-level Captioning)?：模型會描述圖像中與問題相關的關鍵對象及其空間位置關系，并統計對象數量（如??\obj{5}??）。
步進式邏輯推理 (Step-by-step Logical Reasoning)?：最后，模型綜合以上所有信息，用目標語言進行一步一步的邏輯推理，最終得出答案。

2. 自動化的多語言CoT數據生成

高質量的CoT訓練數據是稀缺且昂貴的。LaV-CoT設計了一套自動化數據策劃方法來解決這個問題。它利用一個強大的VLM（如GPT-4o）作為“生成器”，遵循上述四階段流程生成初始的CoT標注。然后，再利用一個“評估器”對生成的每一步進行打分和校驗。對于不合格的步驟，系統會定位錯誤并調用生成器進行修正，如此迭代生成、糾錯、精煉，直至產出完全通過驗證的高質量多語言CoT數據，為后續的模型訓練提供了可擴展的數據基礎。

3. 基于多維度獎勵的二階段訓練

為了讓模型能完美地學習和執行LaV-CoT流程，研究者設計了獨特的兩階段訓練范式：

階段一：監督微調 (SFT)?：首先，在自動生成的CoT數據集上對基礎VLM進行SFT，讓模型學會LaV-CoT的四階段推理結構。
階段二：語言感知的分組相對策略優化 (GRPO)?：這是LaV-CoT性能起飛的關鍵。它是一種強化學習優化方法，模型會針對一個問題生成多個候選的CoT推理路徑。然后，一個多維度獎勵函數會從多個方面對這些路徑進行打分，包括：

語言一致性獎勵：推理和答案的語言是否與問題一致？
結構準確性獎勵：CoT是否嚴格遵循了四階段格式？文本和對象的計數是否正確？
語義對齊獎勵：最終答案是否正確？（通過與標準答案的編輯距離等計算）

這種精細化的獎勵機制，引導模型不僅僅是“答對問題”，更是要“以正確、一致、可解釋的方式答對問題”。

實驗結果：全面超越，效果驚人

LaV-CoT在MMMB、Multilingual MMBench、MTVQA等多個權威的多語言VQA基準上進行了廣泛評測。

性能大幅領先：基于Qwen2.5-VL-3B訓練的LaV-CoT模型，相比同等規模的開源基線，平均準確率提升了約9.5%。更驚人的是，它甚至比兩倍參數規模的Qwen2.5-VL-7B等模型還高出約2.6%。
超越頂尖專有模型：在多個語言（特別是阿拉伯語、土耳其語等）的任務上，LaV-CoT的表現超越了GPT-4o和Gemini-2.5-flash。

對于一個阿拉伯語問題，Qwen2.5-VL-7B雖然進行了推理，但語言錯亂且答案錯誤；而LaV-CoT則能全程使用阿拉伯語進行正確推理。

真實世界驗證：研究團隊還將LaV-CoT集成到企業級的智能文檔處理系統中進行了在線A/B測試。結果顯示，相比原有的生產管線，LaV-CoT使答案采納率提升了8.7%，用戶滿意度提升了12.4%，充分證明了其在工業界部署的巨大價值。

總結與價值

LaV-CoT的提出，為多語言、多模態人機交互領域樹立了新的標桿。其核心貢獻在于：

首創語言感知的視覺CoT框架：通過結構化的多階段推理流程，有效解決了VLM在多語言場景下的語言不一致和視覺-文本對齊問題。
可擴展的自動化數據方案：創新的“生成-驗證-修正”數據閉環，為訓練高質量的CoT模型提供了一種可規模化、低成本的解決方案。
精細化的多維度獎勵優化：設計的GRPO訓練范式和多方面獎勵函數，為模型學習復雜、結構化的推理能力提供了強有力的引導。
SOTA的性能與工業價值：無論是在學術基準還是真實的工業場景，LaV-CoT都展現了卓越的性能和巨大的應用潛力。

CV君認為，LaV-CoT不僅是一個強大的VQA模型，更重要的是它為如何構建更魯棒、更可信、更能適應全球化應用的多模態AI系統，提供了一套完整且極具啟發性的方法論。

#LayerLock

DeepMind與牛津大學提出：用漸進式層凍結實現高效、無崩潰的自監督視覺表征學習

在自監督學習領域，如何讓模型在沒有標簽的情況下學到有用的視覺表征，一直是核心挑戰。其中，掩碼自編碼（MAE）是一個明星方法，但它依賴于繁重的像素重建任務。另一條路是預測網絡自身的“潛在特征”，這更高效，卻極易陷入“表征崩潰”的陷阱——即模型學會了一個無用的、平凡的解。

本文介紹一篇來自?Google DeepMind?和?牛津大學?的最新研究，該研究已被?ICCV 2025?接收。論文提出了一種名為?LayerLock?的方法，它通過一個簡單而巧妙的“漸進式層凍結”策略，成功解決了潛在預測中的表征崩潰問題，同時提升了訓練效率。簡而言之，LayerLock就像一個聰明的課程表，引導模型從“學習像素”平滑過渡到“學習特征”，最終培養出更強大的視覺能力。該方法已成功擴展至?40億參數?的大模型。

論文標題: LayerLock: Non-collapsing Representation Learning with Progressive Freezing
作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi Sajjadi, Joao Carreira
機構: Google DeepMind, 牛津大學
論文地址: https://arxiv.org/abs/2509.10156
錄用信息: ICCV 2025

研究背景與動機

自監督學習旨在讓模型從無標簽數據中“自我教育”。其中，掩碼自編碼（Masked Auto-Encoding, MAE）?是一種主流范式，它隨機遮擋輸入（如視頻幀）的一部分，然后讓模型去重建被遮擋的內容。這種“完形填空”式的任務迫使模型學習到底層視覺規律。然而，直接重建像素計算成本高，且可能過于關注低級紋理細節。

一個更高效的替代方案是?潛在預測（Latent Prediction），即不預測原始像素，而是預測網絡自身在某個中間層產生的特征（潛在表征）。這種方法的挑戰在于極易發生?“表征崩潰”（Representation Collapse）。想象一下，如果模型的“學生”部分（解碼器）要預測“老師”部分（編碼器）的輸出，最簡單的“作弊”方法就是讓老師輸出一個常數，學生也跟著輸出一個常數，損失函數瞬間降為零，但模型什么有用的東西都沒學到。

為了防止這種“躺平”現象，現有方法通常需要引入復雜的機制，如非對稱架構、停止梯度、目標編碼器等。而LayerLock則提出，或許只需要一個更聰明的訓練流程。

LayerLock：從一個驚人發現到優雅解決方案

LayerLock的靈感來源是一個簡單而關鍵的觀察：在訓練基于ViT的視頻MAE模型時，網絡層的收斂存在明確的先后順序——淺層網絡總是比深層網絡更早收斂。

上圖清晰地展示了這一點：橫軸是凍結操作開始的訓練步數，縱軸是最終的損失。可以看到，淺層（如Layer 3）即使在訓練早期（如2000步）就被凍結，最終的性能也幾乎不受影響。而深層（如Layer 12）如果過早凍結，性能就會大打折扣。這說明淺層特征學習得非常快。

基于這一觀察，研究者提出了?LayerLock?策略，其核心思想是設計一個課程學習（Curriculum Learning）方案：

初始階段：預測像素。?訓練開始時，模型執行標準的MAE任務，即重建被遮擋的像素。這為模型提供了一個穩定且有意義的初始學習信號，使其學到基礎的視覺特征。
漸進凍結與目標切換。?根據一個預設的時間表（schedule），在訓練的特定階段，逐步凍結已經收斂的淺層網絡。關鍵操作是：每當凍結網絡的某一層（比如第k層）時，就將預測目標從原始像素切換為該層（第k層）的輸出特征。
持續推進。?隨著訓練的進行，凍結的層數越來越多，預測的目標也越來越“深入”網絡內部，從低級特征平滑過渡到高級、抽象的語義特征。

上圖直觀地展示了這個過程：

左圖：初始狀態，無凍結層，模型預測像素???x??。
中圖：凍結第一層后，模型轉而預測第一層的輸出???h1??。
右圖：繼續凍結前兩層，模型的目標變為預測第二層的輸出???h2??。

這個過程不斷持續，直到大部分編碼器層都被凍結。CV君認為，LayerLock的巧妙之處在于，它將“層收斂的先后順序”這一經驗觀察，轉化為了一個動態的、從易到難的學習課程。通過先讓模型穩定地學會預測淺層特征，再逐步增加難度去預測深層特征，自然而然地避免了“表征崩潰”的發生，因為模型在任何階段都有一個非平凡（non-trivial）的學習目標。

LayerLock前向傳播偽代碼

實驗結果與分析

研究者在高達10億視頻片段的數據集上，對最大?40億參數?的4DS模型家族應用了LayerLock，并在動作識別（SSv2, Kinetics-700）和深度估計（ScanNet）等任務上進行了評估。

1. LayerLock顯著提升性能

實驗結果（下表）表明，無論是在基于像素預測的MAE模型（4DS-G, 4DS-e）上，還是在基于潛在預測的V-JEPA模型上，應用LayerLock都帶來了顯著的性能提升，尤其是在需要高級語義理解的動作識別任務上。

2. 漸進式凍結是防止崩潰的關鍵

為了證明“漸進式凍結”的必要性，研究者進行了一項關鍵的消融實驗：在標準的MAE模型上，不使用凍結策略，而是直接添加潛在損失（即同時預測像素和中間層特征）。結果如下表所示，模型的性能急劇下降，出現了明顯的“表征崩潰”現象。這有力地證明了LayerLock中的漸進式凍結和目標切換機制是防止崩潰的核心所在。

3. 提升訓練效率，節省計算和內存

除了提升性能，LayerLock還帶來了實實在在的效率增益。由于網絡層被逐漸凍結，反向傳播需要計算的梯度越來越少。實驗表明，簡單的逐層凍結策略可以在性能幾乎無損的情況下，節省9%的總計算量（FLOPs）和16%的峰值內存占用。對于動輒需要數百上千卡時訓練的大模型而言，這是非常可觀的優化。

4. 其他消融研究

研究者還進行了詳盡的消融實驗，探討了凍結時間表、目標選擇、損失函數加溫等超參數的影響，為方法的有效性提供了堅實支撐。例如，實驗發現：

3D RoPE位置編碼：新穎的3D旋轉位置編碼能獨立地提升基線和LayerLock的性能。
單一預測目標足夠：在每個階段只預測最新凍結層的輸出，就足以達到良好性能，無需同時預測多個歷史目標。
凍結時間表：更平滑、漸進的凍結計劃通常比激進的計劃效果更好。

總結與貢獻

LayerLock?提出了一種簡單、通用且高效的自監督視覺表征學習方法。其核心貢獻在于：

揭示了ViT層序貫收斂的現象：首次明確指出并利用了視頻MAE訓練中“淺層先收斂，深層后收斂”的規律。
提出了漸進式凍結的學習框架：通過動態地將預測目標從像素平滑過渡到不同深度的潛在特征，有效解決了潛在預測中的“表征崩潰”問題，增強了訓練的穩定性。
提升了訓練效率：通過凍結部分網絡，減少了反向傳播的計算量和內存占用，為訓練更大、更深的視頻模型開辟了道路。
驗證了其通用性和可擴展性：該方法不僅適用于多種模型（MAE, V-JEPA），還在高達40億參數的大模型上取得了成功，并在多個下游任務上超越了基線性能。

總而言之，LayerLock為自監督學習社區提供了一個優雅而實用的新“配方”，有時候解決棘手的“表征崩潰”問題，并不需要復雜的模型設計，而可能只需要一個更懂模型學習動態的訓練策略。

#Ark

告別ROS的繁瑣, 易用易學的機器人學習系統: 華為諾亞面向機器人學習的開源Python框架

近年來，機器人技術在硬件領域取得了顯著突破 —— 無論是 DARPA 機器人挑戰賽，還是首屆人形機器人自由搏擊表演，都展示了令人矚目的進展。然而，機器人的自主能力仍明顯落后于機器學習的發展步伐。

造成這一差距的關鍵瓶頸在于軟件層面：現有的機器人技術棧學習門檻較高，仍大量依賴 C/C++ 進行底層開發，工具鏈分散且硬件集成復雜。相比之下，推動現代人工智能發展的生態系統以 Python 為核心，文檔完善、易于使用 —— 兩者形成了鮮明對比。

為應對這些挑戰，來自華為諾亞方舟實驗室，德國達姆施塔特工業大學，英國倫敦大學學院，帝國理工學院和牛津大學的研究者們聯合推出了?Ark —— 一個基于 Python 的機器人開發框架，支持快速原型構建，并可便捷地在仿真和真實機器人系統上部署新算法。

Ark 與主流機器學習工作流深度兼容，能夠從仿真環境或實際機器人中采集和預處理數據，并支持使用如 ACT、Diffusion Policy 等前沿模仿學習方法進行策略訓練。該框架采用類似 OpenAI Gym 風格的主接口設計，極大降低了機器學習研究者的上手門檻，便于集成與實驗。在架構層面，Ark 使用基于網絡的 Python 節點實現發布 / 訂閱通信機制，同時也提供 C/C++ 工具以兼容高性能需求場景。框架還內置了對 ROS 的原生支持，包含底層控制、數據工具、可視化、系統辨識、移動底盤導航等多個核心模塊，并配備完整的文檔與實用示例。

圖 1: Ark 的整體框架

論文鏈接：https://arxiv.org/pdf/2506.21628
代碼鏈接：https://github.com/Robotics-Ark
教程鏈接：https://arkrobotics.notion.site/Ark-Home-22be053d9c6f8096bcdbefd6276aba61

圖 2: Ark 目前的下載量

Ark 框架概述

為推進xx智能研究的發展，Ark 應運而生。該框架致力于與典型機器學習工作流深度整合，使用戶能夠快速構建原型并將其部署至物理機器人。其設計秉持三大理念：

（D1）兼容主流機器學習生態

Ark 提供與廣泛使用的機器學習庫一致的用戶接口，降低機器學習背景研究者參與機器人開發的門檻，彌補機器人學習系統在成熟度與標準化方面的不足。

（D2）支持仿真 - 實機無縫切換

Ark 著力打通模擬環境與真實系統之間的壁壘，既保障開發階段的安全性，也顯著降低從仿真遷移到實機過程中的復雜度和錯誤率。

（D3）以 Python 為中心，兼顧高性能需求

Ark 以 Python 作為核心開發語言，依托其豐富的生態系統支持快速迭代與實驗。同時，針對高頻任務（如底層運動控制），也提供了便捷的 C/C++ 接口擴展能力，確保關鍵模塊的執行效率。

下文將具體介紹 Ark 的核心功能與實現特點。

Ark 網絡

模塊化是機器人軟件系統設計的一項基本原則：通過將系統拆分為數據采集、狀態估計、任務規劃與控制等獨立模塊，可有效提升可維護性和擴展性。Ark 框架將每個模塊實現為獨立的 Python 進程（稱為 “節點”），節點之間通過異步消息通道進行通信，采用靈活的發布 / 訂閱機制實現數據交換。用戶可通過形如 NODE_NAME/CHANNEL_NAME 的命名方式定義通道，并動態創建發布端和訂閱端。我們遵循 LCM 類型規范語言定義消息類型，每個消息通道通過名稱和消息類型標識。Ark 提供名為 ark_types 的消息類型庫，包含多種機器常用類型（如 joint_state_t 或 transform_t）。

當前版本中，Ark 使用 LCM 作為底層通信后端，其輕量化架構和豐富的配套工具（如日志記錄、調試和內省支持）特別適用于機器人系統中的數據記錄與開發調試。同時，網絡層被設計為可插拔結構，便于未來擴展如分布式訓練與推理等復雜機器學習工作流。

使用 LCM 的另一優勢是易于集成 C/C++/Java 等底層語言。由于 Ark 節點通過 LCM 消息通道通信，其他語言編寫的腳本也可利用標準 LCM 接口進行網絡通信。這對于僅支持廠商提供的 C/C++/Java API 的硬件設備（如力反饋接口）非常有用。用戶可通過實現相應的 LCM 發布 / 訂閱接口將設備接入 Ark。然而，基于 Ark 在仿真與真實環境間協調的架構設計（后文討論），以 LCM 作為其他語言與 Python 之間的橋梁并非總是最佳選擇。為此，Ark 提供一系列工具和輔助函數 / 類，幫助用戶直接將 C/C++ 功能封裝到 Python。

Ark 還提供以下功能：

Services：為需明確請求 - 響應的操作（如機械臂標定觸發）提供支持，基于 LCM 類型系統定義請求與響應結構；
Registry：作為輕量級的網絡協調與服務發現樞紐，支持運行時可視化與故障隔離；
Launcher：允許用戶在單一 YAML 格式配置文件中定義整個網絡，通過一次終端執行自動啟動所有指定子進程。

觀測與動作通道

Ark 采用 Gymnasium（OpenAI Gym）風格的接口設計：reset () 方法返回初始觀測值和環境信息；step () 方法則返回下一步的觀測值、獎勵、終止 / 截斷標志以及信息字典。每個環境在初始化時通過一個字典結構分別定義其觀測空間與動作空間所依賴的消息通道：觀測空間通過訂閱多個消息通道獲取數據，動作空間則通過向指定通道發布指令來控制機器人。不同觀測通道可支持不同的采樣頻率，環境在每一步執行時自動返回各通道最新的一條消息。這種設計使研究者能夠快速原型化不同的策略輸入輸出組合，靈活適配多種算法與任務結構。

真實世界與物理仿真

Ark 的一大能力是通過單個配置開關在仿真與真實機器人之間切換（sim = True/False）。Ark 以分布式節點架構把機器人與傳感器（無論真實還是仿真）都實現為獨立節點；仿真端由一份 YAML 配置驅動，使仿真與真實系統接口的節點保持一致，從而可以在仿真模擬和現實部署中輕松切換。?

在仿真后端上，Ark 并不是綁定單一模擬器，而是提供后端抽象層以便按需對接。當前 Ark 已支持 PyBullet 與 MuJoCo，后續計劃集成 Isaac Sim 等；仿真 / 現實的切換和后端選擇全部通過 YAML 配置完成，Ark 自動初始化相應驅動，保證消息模式、通道命名與執行流程保持一致。

圖 2: Ark 使用統一配置文件來實例化反映真實世界部署的分布式模擬系統

機器人與傳感器驅動

Ark 雖然在用戶接口層面（如類 Gym 的交互方式）提供了標準化的設計，但整個框架在架構上保持了高度的可擴展性。自設計之初，我們就以廣泛的機器人及傳感器兼容性為目標，致力于支持多樣化的硬件生態。與近年出現的某些僅針對特定機型（如 LeRobot、PyRobot）的框架不同，Ark 旨在支持更多的硬件，并通過多種靈活的對接機制實現通用化集成。

Python 驅動接口：

Ark 提供了抽象基類 ComponentDriver，用于統一硬件組件與框架的集成方式。用戶在實現具體驅動時，只需繼承該類并重寫標準抽象方法，例如傳感器的 get_data 或機器人的 send_command。每個驅動均可與 Ark 的 “仿真 - 現實” 開關無縫集成，系統會根據全局配置自動將消息路由到真實硬件或對應的仿真節點。

C++ 驅動支持：

在很多實際場景中，仍然需要依賴 C/C++ 實現底層驅動，例如某些設備僅提供原生 C/C++ 接口，或需要高采樣率以滿足實時控制需求（如足式機器人的步行控制）。為此，Ark 提供基于 pybind11 的 C++ 封裝工具，使得僅具備 C++ 接口的硬件也能夠以與 Python 驅動一致的方式接入 Ark，在保持性能的同時實現系統一體化。

ROS–Ark?橋接：

目前 ROS 仍是機器人領域應用最廣泛的中間件體系，部分機器人（如 ViperX 機械臂）僅提供基于 ROS 的官方接口。為兼容此類系統，Ark 提供專用的 ROS–Ark 橋接驅動，可實現 ROS topic 與 Ark 消息通道之間的雙向通信。用戶可在不改動原有 ROS 代碼的前提下，實現 ROS 與 Ark 的混合運行，這也為從 ROS 逐步遷移至 Ark 提供了平滑過渡路徑。根據我們與多家機器人實驗室的實際使用反饋，目前橋接器主要支持 ROS 1；對 ROS 2 的支持將根據社區需求進一步評估和推進。

內省與調試工具

機器人系統通常由多個進程構成，模塊間耦合復雜，因此一套完善的可視化與調試工具對快速定位和解決問題至關重要。Ark 為此提供了以下核心工具：

Ark Graph：實時顯示系統中所有活躍節點、它們發布與訂閱的消息通道以及當前可用的服務，幫助用戶快速理解系統拓撲和通信關系。
Ark Plot：支持對任意數值型消息通道進行實時繪圖，可用于觀察變量隨時間的變化趨勢，例如整定控制參數或診斷傳感器數據行為。
Ark Viewer：實時可視化任意基于 LCM 傳輸的圖像消息通道，適用于相機標定、運行監控和圖像算法調試。

此外，Ark 選擇 LCM 作為通信中間件的另一個重要原因，在于其原生提供的調試與內省工具套件。例如 lcm-spy 能夠以圖形化方式查看網絡中流通的消息，提供類似于 Wireshark 或 tcpdump 的抓包分析體驗，用戶可以查看各通道的詳細統計信息，包括接收消息數量、消息頻率（Hz）、網絡抖動（ms）等關鍵指標，極大增強了系統的可觀測性與調試效率。

圖 3: Ark 可視化調試工具

用例

本節將通過一系列典型用例，展示如何使用 Ark 快速構建常見的機器人學習工作流。所有示例均提供完整代碼，以便讀者復現和實踐。

在仿真與現實之間切換

將訓練好的策略部署至真實機器人往往伴隨顯著的安全與工程化挑戰，而許多現有框架缺乏端到端的一體化流程，導致解決方案分散、難以系統化和泛化。Ark 通過一層高度可配置的抽象機制，基于統一的 Python/C++ 驅動架構，實現了從仿真到真實系統的無縫部署。用戶只需在完成環境（包括機器人、傳感器、物體等）的統一定義后，于配置文件中切換 sim=True/False，即可切換至目標運行環境。

我們在 ViperX 300s 固定基座機械臂上進行了抓取 - 放置任務的實例驗證。整個環境通過一份 YAML 配置文件統一指定，包括物體的初始位置、相機與機器人的位姿以及物理參數。觀測值為當前關節位置指令，動作為目標關節速度。仿真和真實環境均使用同一人工編寫的專家策略進行控制。在向真實機器人遷移時，僅需修改一個配置變量 sim，Ark 便在內部自動將消息通道從仿真驅動程序切換至物理硬件驅動，其余所有代碼及數據結構均無需變更。

圖 4: 基于統一配置的 Ark 分布式仿真系統架構，通過 YAML 文件定義機器人、傳感器及組網參數，實現與真實部署一致的多節點仿真，支持策略無縫遷移

模仿學習的數據采集

模仿學習通常需要大規模的高質量演示數據，目前常見的采集方式主要包括以下兩種：

徒手示教（Kinesthetic Teaching）：操作者直接通過物理引導機械臂完成動作任務。這種方式直觀自然，但存在設備安全與人員操作風險；
遙操作（Teleoperation）：通過 VR 頭顯與手柄、游戲手柄等設備，在安全距離外對機器人進行控制。該方法避免了直接接觸，但可能受限于視覺反饋質量和運動映射準確性，對操作者技能有一定要求。

得益于 Ark 高度模塊化的架構和強類型消息通道機制，用戶可以靈活接入不同類型的示教接口。我們利用 LCM 提供的 lcm-logger 工具實時記錄所有通道的數據至日志文件。Ark 內置從日志中提取數據并轉換為 CSV 格式的工具，并支持沿用環境中已定義的觀測與動作通道配置，從而確保數據格式在采集、訓練與最終部署階段完全一致。

徒手示教：

以 ViperX 300s 機械臂為例，操作者可直接牽引機械臂完成目標任務，LCM 同步記錄完整的關節軌跡與系統狀態。盡管在該示例中相機未參與控制回路，但仍可用于錄制視覺數據以供后續分析。演示結束后，記錄的數據既可用于策略訓練，也可通過 lcm-logplayer 進行逐幀回放，這對于處理包含人體影像（可能引入視覺偏置）或復雜物理交互的任務尤為有用。Ark 還提供了一鍵重置服務，例如將 “重置” 操作綁定至鍵盤按鍵，極大方便了連續多次示教與系統評估。

遙操作：

Ark 支持多種輸入設備，如 VR 控制器與游戲手柄（如 PS4 手柄）。在一種典型配置中，用戶通過 VR 控制器實時發送 6 自由度位姿指令，系統通過逆運動學（IK）節點將其轉化為關節速度目標；另一種配置則使用手柄直接控制機械臂末端位姿。整個數據采集流程由一系列可復用的 Ark 節點協同完成，包括手柄控制節點、環境轉換節點（將手柄信號轉為末端目標）、IK 解算節點（將位姿轉為關節指令），以及用于發布圖像和關節狀態的傳感器節點。憑借 LCM 強類型和通道隔離的特性，更換相機或控制器時無需修改其他模塊。采集完成后，用戶可使用相同的通道配置從日志中提取標準化數據，直接用于訓練。操作者還可通過手柄的 “X” 鍵快捷保存當前軌跡并觸發機械臂復位至中立姿態。

圖 5: lcm-logger 通過記錄來自多種控制接口的演示實現高效的數據采集

模仿學習

在本節中，我們展示了若干實現模仿學習的應用案例，重點介紹如何使用 Ark 進行數據采集、訓練和策略部署。我們將展示了兩種模仿學習方法：（i）Diffusion Policy，（ii）ACT，Ark 作為核心基礎設施，提供模塊化組件、標準化接口和實時通信機制，顯著簡化了從數據收集到策略部署的整個流程。

Diffusion Policy 實現與部署示例：

我們在 ViperX 300s 機械臂與 Intel RealSense RGB 相機上完成了推動任務（pushing）Diffusion Policy 實驗。該任務的觀測空間包括機器人關節位置及連續的 RGB 圖像流，動作空間為關節位置指令。在部署階段，系統完全復用了數據采集時的架構：僅將原本的 “手柄控制節點” 替換為 “策略節點”。該策略節點從觀測通道讀取圖像和關節狀態，并通過同一動作通道發布目標末端位姿。由于執行通路與采集階段保持一致，用戶無需修改任何底層基礎設施即可直接驗證學習到的策略。

圖 6: Viper X 300s 機械臂執行擴散策略的連續動作序列

ACT 實現與部署示例：

除擴散策略外，我們還基于 OpenPyro-A1 人形機器人平臺實現了 ACT 方法的示例。通過 VR 設備進行遙操作，收集了包括 “衣服整理” 與 “物體接力” 在內的多類任務數據。通過訓練得到的策略能夠生成精細且包含豐富接觸交互的操作行為，展現出較強的泛化與實物操作能力。

圖 7: OpenPyro 使用 ACT 策略執行衣服整理和物體接力任務

移動機器人

許多現實任務（如設備巡檢）要求機器人能夠在環境中自主移動至多個目標點。實現該能力需同時解決兩個問題：構建環境地圖（建圖）并在地圖中實時定位自身（定位），這一過程合稱為同步定位與建圖（SLAM）。當地圖構建完成且定位穩定可靠后，機器人即可通過路徑規劃算法實現導航。

我們在 Ark 中實現了一套完整的移動機器人導航流程：首先通過遙操作控制機器人運動，并利用機載 LiDAR 數據構建地圖；建圖完成后，使用 A* 算法進行全局路徑規劃，并結合距離變換技術確保與障礙物保持安全距離；最后通過 PD 控制器跟蹤路徑點，生成差速驅動所需的輪速指令。

建圖：

為實現建圖與定位，Ark 提供了一套 “遙操作輔助 SLAM” 流程，包含兩個核心節點：遙操作控制器與概率 SLAM 模塊，兩者通過消息通道通信。用戶通過遙操作節點發送線速度和角速度指令，這些指令經 Ark 動作通道發送至底層控制器，轉換為左右輪速。同時，LiDAR 數據與控制指令被實時發送至 SLAM 節點，用于融合估計機器人位姿并構建地圖。我們采用基于 Rao–Blackwellized 粒子濾波的 FastSLAM 方法：每個粒子同時維護位姿估計和一個占據柵格地圖，柵格概率取值從 0（空閑）到 1（占據）。系統結構如圖 8 所示。

圖 8：Husky 機器人在 Ark 工具支持下于廚房環境實現 SLAM 建圖與導航

導航：

在已知地圖且能可靠定位的基礎上，機器人可進行運動規劃。我們集成 A* 算法作為全局規劃器。規劃器接收目標點位置和 SLAM 生成的占據柵格地圖。首先通過閾值將地圖二值化，再計算距離變換圖以獲取每個柵格到最近障礙物的距離，確保路徑滿足 “半車寬 + 安全裕量” 的避障要求。A* 輸出一條平滑的避障路徑，表示為一系列笛卡爾路標點 (x,y)，并按設定分辨率進行下采樣以提高執行效率。控制子系統根據實時位姿和路徑點序列逐點跟蹤：先調整機器人朝向，再沿直線移動至當前路標，進入容差范圍后自動切換下一目標。最終輸出線速度和角速度，并轉換為差速驅動的輪速指令。

xx智能

大語言模型（LLM）與視覺 - 語言模型（VLM）顯著提升了機器人的高層推理能力。Ark 憑借其模塊化設計與 Python 優先的架構，天然適合將 LLM/VLM 作為高層策略選擇器集成到機器人控制回路中。

我們在 Viper 機械臂上構建了一個基于 LLM 的智能體系統（圖 9），采用 DeepSeek-R1 作為底層模型，遵循 “代碼即策略（code-as-policy）” 范式：將 “抓取”“按位置放置”“移除物體” 等操作封裝為可參數化的策略函數。這些函數組成策略庫供 LLM 調用，模型根據任務上下文從庫中選擇合適技能并生成代碼執行。

Ark 將整個系統解耦為感知、語言推理與運動執行等多個獨立節點。DeepSeek 被封裝為一個服務節點，接收結構化提示詞（包含場景觀測、可用函數和任務描述）并返回推理結果。每一步決策中，感知節點將棋盤狀態、圖像等觀測數據發布到消息通道，經整理后通過服務調用發送至 LLM 節點，觸發一次策略生成。

圖 9：Ark 框架通過集成 DeepSeek 大模型賦予 Viper 機械臂國際象棋對弈能力

未來工作和總結

展望未來，Ark 計劃重點發展兩大方向：一是強化強化學習（RL）基礎設施，通過原生集成 Stable Baselines3 和 RLlib 等主流框架，支持并行環境執行，并提供統一的環境抽象接口，實現在仿真與真實機器人之間高效訓練、評估和部署 RL 策略；二是提升高保真仿真能力，在現有 PyBullet 和 MuJoCo 支持的基礎上，進一步引入域隨機化、可微物理等關鍵特性，增強策略的魯棒性和仿真到現實的遷移效果，同時與高性能仿真后端深度集成，構建更精確、可擴展且功能豐富的模擬環境。

Ark 以現代化、模塊化和用戶友好的架構，致力于在機器人學與機器學習之間建立高效橋梁：既大幅降低了真實機器人部署的技術門檻，又保持了面向前沿研究的靈活性與擴展性。隨著仿真性能的提升、RL 生態融合的深化以及工具鏈的持續完善，Ark 有望發展成為支撐xx智能研究的重要通用平臺，推動機器人學習社區不斷向前邁進。

表 1：Ark 與同類框架的功能對比，紅色圓圈表示該框架不支持該特性

....

#Optical generative models

用光學生成圖像，幾乎0耗電，浙大校友一作研究登Nature

見過省電的模型，但這么省電的，還是第一次見。

在《自然》雜志發表的一篇論文中，加州大學洛杉磯分校 Shiqi Chen 等人描述了一種幾乎不消耗電量的 AI 圖像生成器的開發。

該生成器是一種受擴散模型啟發的光學生成模型。其工作原理如下：首先通過數字編碼器（使用公開數據集訓練）生成最終構成圖像的靜態噪聲，這一過程僅需消耗極少能量。隨后，一種被稱為空間光調制器（SLM）的液晶屏幕會將這種噪聲模式刻印到激光束上。該激光束再通過第二臺解碼 SLM 裝置，將光束中的噪聲模式轉化為最終圖像。

與傳統 AI 依賴數百萬次計算機運算不同，該系統利用光完成所有核心工作，因此幾乎不消耗電能。論文第一作者 Shiqi Chen 表示：「我們的光學生成模型幾乎無需算力就能合成海量圖像，為數字 AI 模型提供了可擴展且高能效的替代方案。」

研究人員采用多種 AI 訓練圖像對系統進行測試，包括名人肖像、蝴蝶圖像以及梵高風格的全彩畫作。結果顯示，光學系統生成的圖像效果與傳統圖像生成器相當，但能耗顯著降低。

該技術還具有廣泛的應用前景。憑借其超高速和超低能耗特性，該系統可用于生成 VR、AR 顯示的圖像視頻，也適用于智能手機、AI 眼鏡等可穿戴電子設備的小型化終端。

論文標題：Optical generative models
論文地址：https://www.nature.com/articles/s41586-025-09446-5#MOESM1

不過，該模型目前仍處于物理實驗階段，離實用還有一段距離。

方法概覽

本文提出的光學生成模型，能夠根據目標數據分布合成單色或彩色圖像 —— 即通過光學方法生成特定數據分布中前所未見的新圖像。受擴散模型啟發，該方案采用淺層數字編碼器將隨機二維高斯噪聲模式快速轉換為代表光學生成種子的二維相位結構。這種光學種子的產生是一次性的，它涉及一個作用于隨機二維噪聲模式的淺而快速的相位空間編碼器。

根據目標分布即時生成圖像或輸出數據的過程，可通過隨機調用這些預先計算好的光學生成種子按需實現。這一廣義概念可通過不同光學硬件實現，集成光子學或基于自由空間的實現。

即時圖像生成

圖 1 展示了作者研發的單色圖像即時生成模型的原理示意圖。如圖 1a 所示，遵循正態分布的隨機二維輸入首先通過數字編碼器轉換為二維相位模式，該編碼器可快速提取潛在特征并將其編碼至相位通道以供后續模擬處理。這些由隨機噪聲生成的相位編碼輸入作為光學生成種子，被加載到 SLM 中，為衍射光學生成模型提供信息輸入。在相干光照下，攜帶編碼相位模式的光場繼續傳播并通過為特定目標數據分布優化的衍射解碼器進行處理。最終，生成的圖像由圖像傳感器捕獲，這些圖像符合目標數據分布特征。

圖 1b 展示了訓練流程：作者首先基于去噪擴散概率模型（DDPM）訓練教師數字生成模型以學習目標數據分布。完成訓練后，凍結該 DDPM 模型并持續生成用于訓練即時光學生成模型的噪聲 - 圖像數據對。淺層數字相位編碼器與光學生成模型通過聯合訓練，使模型能夠以簡潔可重構的架構高效學習目標分布。

圖 1c 呈現了盲推理過程：由數字編碼器從隨機噪聲模式產生的編碼相位模式（即光學種子）是預先計算的，光學生成模型則使用固定的靜態解碼器在自由空間中對這些生成相位種子進行解碼。為實現從隨機高斯噪聲快速合成光學生成相位種子，數字編碼器包含三個全連接層，其中前兩層采用非線性激活函數（詳見方法部分）。可重構衍射解碼器通過 400?×?400 個可調相位特征（每個特征覆蓋 0-2π 范圍）進行優化，完成優化后針對每個目標數據分布保持靜態。

圖 1

迭代式光學生成模型

作者還設計了一種迭代式光學通用模型，可從高斯噪聲中遞歸重建目標數據分布。如圖 2a 所示，該迭代光學生成模型同樣工作在三個照明波長下，通過淺層數字相位編碼器編碼的多通道相位圖案被順序加載到同一 SLM 上。

為展示這種迭代光學模型的生成能力，作者采用 L?=5 個聯合優化并固定的解碼層來處理目標數據分布。與前述即時光學生成模型的不同之處在于：當圖像傳感器平面記錄初始強度圖像后，測量結果會按設計方差添加高斯噪聲，該噪聲擾動結果將作為下一時間步的迭代光學輸入。

圖 2b 展示了這種迭代光學生成模型的訓練過程：采樣一批時間步并相應地向原始數據添加噪聲，獲得噪聲樣本。這些噪聲樣本經過淺層數字編碼器和迭代光學生成模型處理，得到連續輸出。與標準 DDPM 實現不同，該迭代光學生成模型直接預測去噪樣本，其損失函數根據原始數據計算。

圖 2c 概述了迭代式光學生成模型的盲推理過程：已訓練的光學模型對從最終時間步到初始時間步的擾動樣本遞歸執行去噪操作，最終生成的圖像在傳感器平面捕獲（詳見方法部分）。

圖 2

實驗及結果

在初步實驗中，研究者分別基于 MNIST 和 Fashion-MNIST 數據集訓練了兩個不同的模型，用于生成手寫數字和時尚商品圖像。

圖 3c 為兩個模型的結果，生成的圖片在 MNIST 和 Fashion-MNIST 數據集上分別達到了 131.08 和 180.57 的 FID 實驗評分。這表明生成的圖片符合這兩個數據集的目標分布，充分體現了所設計系統的多樣性，進一步驗證了快照式光學生成模型的可行性。

，時長00:30

生成手寫數字

，時長00:30

生成時尚商品

研究者進一步將實驗結果拓展至更高分辨率的梵高風格藝術作品生成。

圖 4 與圖 5 分別展示了使用 5.8 億參數數字編碼器實現的高分辨率單色及彩色（RGB）圖像生成實驗結果。其中梵高風格單色圖像采用 520 納米波長照明生成，而彩色圖像則依次使用 {450, 520, 638} 納米波長分別對應藍、綠、紅三通道。

在多色梵高風格藝術圖像生成實驗中，研究者為每個波長通道生成了相應的相位編碼生成種子圖案，并依次加載到空間光調制器（SLM）上。在對應波長的照明下，利用固定或靜態的衍射解碼器生成多彩圖像，并通過數字方式進行融合。換言之，在所有波長照明下的圖像生成過程中，系統共享同一個解碼器狀態。

圖 5 展示了多色梵高風格藝術作品的生成結果，其中既包含與教師數字擴散模型輸出高度吻合的案例，也包含具有差異性輸出的示例（該教師模型需使用 10.7 億可訓練參數并通過 1000 次迭代步驟生成單幅圖像）。盡管觀察到輕微的色差現象，生成的高分辨率彩色圖像仍保持了優異的質量。

作者介紹

Shiqi Chen，加州大學洛杉磯分校（UCLA）博士后研究員，導師為 Aydogan Ozcan 教授。此前，他在浙江大學獲得博士學位，師從馮華君教授和徐之海教授。

Shiqi Chen 在博士期間主要研究重點是應用光學和計算機視覺，以實現更清晰的計算成像，其中部分研究成果已應用于最新的移動終端設備。

個人主頁：https://tangeego.github.io/

...

#OpenVision 2

大道至簡的生成式預訓練視覺編碼器

本文來自加州大學圣克魯茲分校（UCSC）、蘋果公司（Apple）與加州大學伯克利分校（UCB）的合作研究。第一作者劉彥青，本科畢業于浙江大學，現為UCSC博士生，研究方向包括多模態理解、視覺-語言預訓練與視覺基礎模型。其余作者包括李先航（UCSC）、張樂天（USCS）、王子瑞（Apple）、鄭澤宇（UCB）、周郁音（UCSC）。通訊作者為UCSC的謝慈航教授。

在多模態大模型快速演進的浪潮中，視覺模塊一直是支撐整個體系的關鍵基石。長期以來，CLIP 式的圖文對比學習幾乎成為視覺預訓練的默認思路。從 OpenAI 的 CLIP 到 Google 的 SigLIP，再到一系列開源復現，業界普遍認為：想要獲得強大的視覺編碼器，就必須依賴對比學習。

近日，來自加州大學圣克魯茲分校、蘋果公司、加州大學伯克利的研究者提出了 OpenVision 2，一種極簡的生成式視覺預訓練新方向。這項工作在保持最優性能的同時，大幅提升了訓練效率，并在生成式框架下實現了 10 億參數規模的可擴展訓練。

?🏻?論文標題：OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

📄?論文地址：arXiv:2509.01644?

🌐?項目主頁：https://ucsc-vlaa.github.io/OpenVision2

💻?代碼與模型：GitHub · UCSC-VLAA/OpenVision?

🤗?Hugging Face 模型庫：OpenVision 2 on HuggingFace

從 OpenVision 到 OpenVision 2

今年早些時候，研究團隊在 ICCV 發布了?OpenVision，這是一個完全基于公開數據和開源代碼訓練的視覺編碼器家族，旨在為社區提供真正開放、透明、可復現的視覺骨干。

該項目一次性開源了超過 25 個預訓練模型，參數量從?590 萬到 6 億+，覆蓋多種 patch size 與分辨率設置，成為學術界和產業界構建多模態模型時的重要替代方案。

實驗顯示，OpenVision 在多個多模態基準任務上已經可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP，為社區提供了可靠的開源替代。

然而，OpenVision 的訓練管線仍然偏復雜。為了充分利用高質量的合成描述，它在 CLIP 的基礎上引入了兩方面額外設計：

雙重對比目標：每張圖像既要和 web caption 對齊，又要和部分合成 caption 對齊，導致文本編碼器的計算量幾乎翻倍，訓練成本也隨之顯著增加。
生成式 caption 預測：模型還需要在圖像和原始 alt-text 的條件下，生成完整的合成描述，這進一步增加了解碼器的計算開銷。

這些設計確實提升了表征質量，但也讓訓練過程變得更重，計算成本更高，擴展到更大規模時受到明顯限制。

極簡思路：生成式的 OpenVision 2

在 OpenVision 2 中，研究者們做出了大膽簡化：直接移除文本編碼器與對比學習，只保留「圖像 → 描述」的生成目標。由此形成的框架僅包含兩個模塊：圖像編碼器 + 文本解碼器。

沒有對比學習的雙塔結構
沒有額外的文本塔開銷
依賴高質量合成描述作為唯一監督信號

除此之外，OpenVision 2 還引入了一個關鍵技巧：在預訓練階段隨機丟棄約 2/3 的視覺 token，僅用剩下的 1/3 token 來生成完整描述。

一方面，這大幅減少了文本解碼器的計算負擔，顯著提升了訓練效率；
另一方面，這種「稀疏提示」迫使模型在有限條件下仍要還原出完整的 caption，從而提升了表征的抽象能力。

這種「以少勝多」的思路，使得 OpenVision 2 在保持性能的同時實現了更高的效率，也印證了「少即是多」的理念。

實驗表明，這一簡化設計不僅沒有削弱模型能力，反而在效率與擴展性上表現突出：

性能：在 TextVQA、ChartQA、OCR、MME 等主流多模態基準上，OpenVision 2 與 OpenVision 幾乎持平，甚至在部分細粒度任務上表現更佳。同時，相較于 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流對比學習模型，OpenVision 系列在同等規模下整體表現更強，特別是在 OCR 與文本相關任務上優勢明顯。

效率：訓練時間縮短?1.5——2 倍，顯存占用減少近一半，單卡批大小從 2k 擴展到 8k；例如，在 ViT-L/14 上從約 83 小時縮短到 57 小時，在 SoViT-400M 上從約 241 小時縮短到 121 小時。這些改進使得模型在生成式框架下成功擴展到?10 億參數規模，并保持高效訓練，也為進一步探索更大規模的生成式視覺預訓練奠定了基礎。

為什么有效？

研究者總結了 OpenVision 2 作為生成式視覺編碼器能夠成功的三點關鍵原因：

生成式監督更貼近下游：生成任務與多模態大模型（如 LLaVA）的推理方式一致，減少了預訓練與下游任務間的「目標錯位」。
高質量合成描述：在 Recap-DataComp-1B v2 中，caption 的生成同時結合了圖像和原始文本，使得描述更細致、更貼合語義，為預訓練提供了更可靠的監督信號。
視覺 token 隨機掩碼（少即是多）：僅保留部分視覺 token 進行生成，既降低算力開銷，又讓模型在「信息不完整」的條件下學會抽取核心特征，從而提升泛化與魯棒性。

對社區的意義

OpenVision 2 展示了一個重要事實：對比學習并非不可或缺。通過生成式的簡潔框架，同樣能夠訓練出強大的視覺編碼器，并在效率和可擴展性上具備顯著優勢。

這項研究不僅挑戰了長期以來的對比學習主導范式，也為未來多模態基礎模型的發展提供了新的方向。正如作者們所強調的，「大道至簡」的設計理念，展示了生成式視覺預訓練在未來發展的潛力。

從 OpenVision 到 OpenVision 2，研究團隊已經開源了超過 25 個不同規模和配置的模型，并完整公開了訓練代碼與數據管線，為學術界和產業界提供了可復現、可擴展的資源基礎，加速社區在生成式視覺預訓練方向上的探索。研究團隊長期歡迎學界和業界的同學和朋友聯系、交流、合作。

#gPass

數字生活的原生入口：螞蟻集團發布AI眼鏡全新技術框架

日前，在 2025 Inclusion?外灘大會上，螞蟻集團發布了全球首個智能眼鏡可信連接技術框架 ——gPass。該技術具備「安全、交互、連接」三大核心能力，致力于實現 AI 眼鏡與智能體之間安全、可信、即時信息交互，為用戶打造自然無感的服務體驗，同時構建起面向眼鏡廠商和開發者的安全 AI 數字服務生態。

AI 眼鏡的核心價值，在于它將成為「AI 原生入口」，徹底重構數字生活服務模式。這種重構體現在三個維度：

第一，服務形態從「平面感知」走向「空間認知」—— 依托空間計算技術，數字信息與物理環境深度融合，讓服務不再局限于屏幕，而是融入現實場景；比如：高德地圖與 AI 眼鏡合作的導航讓路線指引直接疊加在真實街道上，數字信息與物理環境深度融合；

第二，交互方式從「線性指令」走向「感官交互」—— 基于多模態交互與理解，讓人與設備的溝通更自然、更高效；比如：螞蟻發布的 "看一下支付" 功能，通過目光與語音即可完成交易，真正實現 "所見即所得"；

第三，體驗模式從「垂直場景」走向「生活服務」—— 通過環境感知，在博物館參觀時自動推送展品講解，在商場購物時實時顯示商品評價，設備能提供個性化、主動式服務，讓每一位用戶都能獲得專屬的智能體驗。

但 AI 眼鏡的生態目前仍存在「缺角」—— 要通向成熟的數字服務生態，還缺少關鍵的「基石」與「橋梁」。

具體來說，行業面臨三大難題：

一是端到端軟硬件能力碎片化，基礎設施薄弱，整體軟硬件架構尚未形成統一標準；軟硬件研發難度大成本高。

二是用戶需求日益多元化，但針對 AI 眼鏡的原生應用卻嚴重缺乏，難以滿足場景化需求；

三是移動互聯網服務向智能化服務升級難度大，延緩了技術普及速度。

為此，螞蟻集團推出 AI 眼鏡可信連接技術框架 gPass，正是為解決這些生態痛點而生。gPass 的核心目標，是為 AI 眼鏡產業鏈的各個合作伙伴 —— 包括智能體開發者、ODM/OEM 廠商、芯片廠商、品牌廠商、AI 服務廠商 —— 提供「安全可信的服務連接」。

該技術具備「安全、交互、連接」三大核心能力，致力于實現 AI 眼鏡與智能體之間安全、可信、即時信息交互，為用戶打造自然無感的服務體驗，同時構建起 AI 眼鏡上的可信的 AI 數字服務生態。

從「安全」維度來看，gPass 實現了基于生物核身的可信身份流轉，在用戶使用 AI 眼鏡調用各項服務時，設備與用戶身份都具有唯一的、可信的綁定關系，如此一來，設備更了解用戶，從而提升用戶體驗。

此外，gPass 還構建了基于硬件可信根的端到端安全通信連接，打造全鏈路跨多端的軟硬結合可信終端方案，根據不同設備的軟硬件環境，gPass 在手機端和眼鏡端都構建了一套可信隱私沙盒體系，在用戶通過 gPass 使用各類數字服務時，首先會在用戶的眼鏡和手機之間建立一條數據傳輸的安全通道，相關的數據傳輸（包括用戶賬戶信息、用戶聲紋等）都由這條安全通道保障數據傳輸的機密性和完整性，同時眼鏡端和手機端的用戶賬戶信息、付款碼信息都通過可信隱私沙盒進行安全存儲，防止數據泄露。

從 "交互" 維度來看，gPass 提供視頻圖像聲音多模態理解技術，聲紋作為核心驗證因子，首次實現智能眼鏡端支付功能，通過持續語音交互完成無感核驗；虹膜技術憑借眼鏡天然搭載優勢，實現非接觸式無感核身，在未來的數字生活服務場景中，具有十分廣闊的應用空間；指紋驗證作為底層基礎能力，已積累十億級數據模型。

除此之外，gPass 還研發了跨 Android 與 RTOS 的渲染解決方案，彌補當前基礎設施層面的不足，確保不同設備間的交互流暢自然，gPass 還與諸多科研團隊和行業伙伴，共同探索面向未來的手勢識別等技術，成熟一個就會集成一個，通過 gPass 技術架構面向行業開放。比如未來在遠程會議場景中，AI 眼鏡能同時處理語音指令、手勢操作和屏幕內容，讓溝通效率倍增。跨端精準同步的消息推送則解決了多設備信息不同步的痛點，重要通知總能在最合適的終端及時呈現。

最后，也是對于 AI 眼鏡生態來說最重要的，就是「連接」，既包含了以 AI 眼鏡為核心的多端互聯，也包含了 AI 眼鏡上未來最有可能的服務載體 ——Agent 之間的連接。

gPass 能實現多端互聯，通過 AI 完成對用戶需求識別后，順暢連接手機、智能汽車、智能家居，智能可穿戴設備，保障服務與身份在多終端下可信、絲滑流轉；支持多模態大模型的原生交互，讓 AI 能力無縫融入；更關鍵的是，它能接入螞蟻生態下的海量智能體，涵蓋支付、出行、文旅、金融、醫療等多個高頻生活場景，為 AI 眼鏡補足服務生態短板。

通過 gPass 的跨端同步、消息優化及多模態提醒等功能，AI 眼鏡能夠快速的幫助用戶完成一個復雜任務的閉環，帶來更高效自然的體驗。

目前，gPass 已率先應用于 rokid、小米、夸克、雷鳥等眼鏡品牌，實現「看一下支付」，未來還將在文旅、出行、醫療等場景中釋放更多技術潛能。比如在醫療健康場景，通過 gPass，用戶可通過 AI 眼鏡便捷地使用健康咨詢、AI 問診、就診提醒、藥品解讀等服務，在保障隱私的前提下，實現無感、伴隨式的健康陪伴新體驗。

螞蟻集團表示，希望 gPass 能成為 AI 眼鏡行業的「加速器」—— 通過與全產業鏈伙伴深度協作，一起把成熟、易用的 AI 眼鏡快速帶給每一位大眾消費者。最終，我們將與整個行業攜手，為用戶提供更便捷、更自然、更安全的數字生活服務，推動 AI 眼鏡完成從「單一工具」到「完整生態」的質變，讓這項技術真正能夠給用戶帶來如絲般順滑的數字生活服務新體驗。

#Kling-Avatar?

從「對口型」到「會表演」，剛進化的可靈AI數字人，技術公開了

讓數字人的口型隨著聲音一開一合早已不是新鮮事。更令人期待的，是當明快的旋律響起，它會自然揚起嘴角，眼神含笑；當進入說唱段落，它會隨著鼓點起伏，肩膀與手臂有節奏地帶動氣氛。觀眾看到的不再只是嘴在動，而是整個人在表演。這種表現不僅限于幾個片段，而是能夠穩定地延續到分鐘級長視頻中，在整段時間里保持動作自然、鏡頭流暢。

近日，快手可靈團隊把這一構想帶到了現實。全新數字人功能已在可靈平臺開啟公測，目前逐步放量中。技術報告 Kling-Avatar 與項目主頁也已同步發布。報告系統解析了可靈數字人背后的技術路徑，闡明如何讓一個只能跟著聲音對口型的模型，進化為能夠按照用戶意圖進行生動表達的解決方案。

null

可靈數字人產品界面。網址：https://app.klingai.com/cn/ai-human/image/new

null

論文地址：https://arxiv.org/abs/2509.09595
項目主頁：https://klingavatar.github.io/

首先看一些效果：

，時長00:19

，時長00:32

，時長00:05

實現這些驚艷效果的背后，是快手可靈團隊精心設計的一套多模態大語言模型賦能的兩階段生成框架。

多模態理解，讓指令變成可執行的故事線

借助多模態大語言模型在生成與理解一體化上的能力，Kling-Avatar 設計了一個多模態導演模塊（MLLM Director），把三類輸入組織成一條清晰的故事線：從音頻中提取語音內容與情感軌跡；從圖像中識別人像特征與場景元素；將用戶的文字提示融入動作方式、鏡頭語言、情緒變化等要素。導演模塊產出的結構化劇情描述，通過文本跨注意力層注入到視頻擴散模型中，生成一段全局一致的藍圖視頻，明確整段內容的節奏、風格與關鍵表達節點。

null

Kling-Avatar 方案框架。由多模態大語言模型 (MLLMs) 賦能的 MLLM Director 首先將多模態指令解釋為全局語義和連貫的故事線，基于該全局規劃生成一個藍圖視頻，然后從藍圖視頻中提取首尾幀作為條件控制，并行生成子段視頻。

兩階段級聯生成的長視頻生成框架

藍圖視頻生成后，系統在視頻流中根據身份一致性、動作多樣性、避免遮擋、表情清晰等條件，自動挑選若干高質量關鍵幀。每相鄰兩幀作為首尾幀條件，用于生成一個子段落。所有子段落根據各自的首尾幀并行合成，最后拼接得到完整視頻。為避免首尾幀處畫面與實際音頻節拍的錯位，方法還引入音頻對齊插幀策略，保證口型與聲學節奏的幀級同步。

此外，團隊還精心設計了一系列訓練和推理策略，保證視頻生成過程中音頻與口型的對齊和身份一致性：

口型對齊：將音頻切分成與幀片段對齊的子段，通過滑窗方式注入音頻特征；自動檢測嘴部區域加權去噪損失；通過對視頻幀做手動擴展，增強畫面中人臉占比較小情況下的對齊效果，進一步提升口型對齊任務在遠景場景下的適應能力。
文本可控性：凍結文本跨注意力層參數，避免基座視頻生成模型在專門數據上過擬合而弱化文本控制。
身份一致性：在推理階段對參考圖像構造 “退化負樣本”，作為負向 CFG，抑制紋理拉花、飽和度漂移等身份漂移模式。

訓練與測評數據管線

為了獲得多樣高質量的訓練數據，團隊從演講、對話、歌唱等高質量語料庫中收集數千小時視頻，并訓練多種專家模型用于從嘴部清晰度、鏡頭切換、音畫同步與美學質量等多個維度檢測數據的可靠性。對專家模型篩選出的視頻，再進行一遍人工復核，得到數百小時高質量訓練數據集。

為了驗證方法的有效性，團隊制作了一個包含?375?個 “參考圖–音頻–文本提示” 的測評基準，該測評基準包含了豐富的輸入樣例，圖片涵蓋真人 / AI 生成圖像、不同人種、以及開放情境中的非真人數據；音頻涵蓋中 / 英 / 日 / 韓等多種語言，包含不同語速和情感的臺詞；文本提示包含多種多樣的鏡頭、人物動作、表達情緒控制。該測評基準為現有方法提供了極具挑戰性的測試場景，能夠充分評估數字人像視頻生成方法在多模態指令跟隨方面的能力，將在未來開源。

實驗結果對比

在定量驗證方面，團隊精心設計了一套基于用戶偏好的?GSB（Good/Same/Bad）測評體系。對每個樣本，由三名評測者將 Kling-Avatar 與對比方法逐一比較，給出 “更好”（G)，“一樣”(S)，“更差”(B) 的判斷。最終匯報 (G+S)/(B+S) 作為指標，用以衡量 “更好或不差” 的占比。同時在四個維度給出分項結果：總體效果、口型同步、畫面質量、指令響應、身份一致。對比方法選擇最先進的 OmniHuman-1、HeyGen 等產品。

null

在構建的測評基準上與 OmniHuman-1 和 HeyGen 的 GSB 可視化對比。Kling-Avatar 在絕大多數維度上取得領先。

null

在全部 Benchmark 和各個子測評集的 GSB 指標對比。Kling-Avatar 全面超過 OmniHuman-1，并在絕大部分指標上超過 HeyGen。

在多種場景的對比測試中，Kling-Avatar 所生成的唇形不僅在時序和形態上與音頻高度一致，面部表情也隨著語音的起伏變化而更顯自然。即使在發音難度較高的音節（如 “truth”，其標準發音為 [tru?θ]，[u:] 要求雙唇前突、口型小而緊）或高頻語音中的短暫靜音段落，Kling-Avatar 均能夠準確還原相應的口型狀態。

null

在 “情緒、動作、鏡頭” 三類控制上，Kling-Avatar 能夠更準確地體現文本提示中的意圖，在歌唱、演講等復雜場景下的動作與鏡頭調度更加貼合語義。下圖展示了 Kling-Avatar 生成的一些視頻示例，其中包含了人物的情緒控制如 “興奮”，鏡頭控制如 “鏡頭緩慢上移”，生成結果均有良好的響應。

null

Kling-Avatar 的另一大優勢是長時視頻生成。因為采用兩階段生成 + 級聯并行生成的框架，因此在首先獲得藍圖視頻后，可以從藍圖視頻中選擇任意多數量的首尾幀，并行生成每個子段視頻，最后再完整拼接在一起，總生成時間理論上與一段生成時間相當，因此可以快速穩定的生成長視頻。下圖展示了 1 分鐘長視頻生成的例子，生成結果在動態性，身份一致性保持，口型等各方面都獲得了令人滿意的結果。

null

總結

從 “對口型” 邁向 “會表演”，快手可靈團隊探索出一條全新的數字人生成范式，實現了在分鐘級長視頻中生動細膩、情緒飽滿、身份一致的影視級演繹。Kling-Avatar 現已集成到可靈平臺，歡迎移步可靈平臺體驗新版數字人應用，看看你的聲音和想法如何被一鏡到底地演繹出來。

近年來，快手可靈團隊持續深耕多模態指令控制與理解的數字人視頻生成解決方案。除了 Kling-Avatar，團隊前不久還提出實時多模態交互控制的數字人生成框架 MIDAS，二者分別在 “表達深度” 與 “響應速度” 上實現了重要突破。未來，團隊將持續推進高分辨率、精細動作控制、復雜多輪指令理解等方向的前沿探索，致力于讓數字人的每一次表達，都擁有真實而動人的靈魂。

...