LidaRefer-v2論文速讀

研究背景

研究背景

3D視覺定位(3D Visual Grounding, VG)是一項旨在根據自然語言描述,在三維場景中精確定位出相應物體或區域的任務 。這項技術在人機交互領域至關重要,尤其是在自動駕駛、機器人技術和AR/VR等應用中,它能讓機器理解人類的指令并與物理世界進行交互 。

研究現狀

目前,3D視覺定位的研究主要集中在室內場景,并已取得顯著進展 。然而,面向自動駕駛等應用的室外大規模激光雷達(LiDAR)場景的3D視覺定位研究,盡管非常重要,卻仍未得到充分探索 。現有的少數室外3D VG方法,或是在處理大規模場景時能力有限 ,或是依賴于粗粒度的特征對齊,難以理解復雜的語言描述 ,或是未能充分利用場景中的上下文信息來解決歧義 。

提出的問題與挑戰

論文作者指出,將現有的3D VG技術直接應用于室外場景面臨兩大核心挑戰:

  1. 室外場景的數據特性問題:與室內場景不同,室外大規模LiDAR場景的點云數據絕大部分由背景點(如道路、建筑)構成,前景物體(如車輛、行人)信息稀疏且分布廣泛 。這種極端的數據分布不僅給模型帶來了巨大的計算和內存開銷,還干擾了模型對關鍵物體特征的學習,使得跨模態(語言與視覺)的對齊和上下文理解變得異常困難 。
  2. 室外數據集的標注局限性:大多數室外數據集(如nuScenes)僅為需要定位的“目標物體”提供精確的3D邊界框標注 。然而,語言描述中通常會包含起參照作用的“上下文物體”(例如,“停在黃色卡車旁邊的灰色車”中的“黃色卡車”)。由于缺少對這些上下文物體的空間標注,模型無法直接學習它們與目標物體之間的空間關系,這極大地限制了模型在存在多個相似物體(歧義物體)時準確識別目標的能力 。

動機

核心研究動機

核心動機在于解決室外大規模場景下3D視覺定位的實用性問題。自動駕駛汽車需要準確理解人類的指令(如“超過前面那輛藍色卡車”),這要求模型不僅能識別物體,還要能深刻理解物體間的空間關系。現有技術在處理室外場景的復雜性和數據標注的局限性方面存在明顯不足,因此需要一個更魯棒、更具上下文感知能力的框架。

核心研究目標

本文的核心目標是開發一個名為LidaRefer的上下文感知3D視覺定位框架,專門用于大規模室外場景,以實現更準確、更可靠的物體定位 。

待解決問題與難點
  1. 如何高效處理大規模、高噪聲的室外點云數據? 難點在于如何從海量背景點中有效過濾并提取出與任務相關的物體特征,同時降低計算負擔 。
  2. 如何在缺少“上下文物體”標注的情況下,讓模型學會理解空間關系? 難點在于如何讓模型在只有目標物體標注的情況下,依然能夠學習到描述中提到的“A在B旁邊”這類相對空間關系,從而在多個相似物體中消除歧義 。
實際意義

這項研究具有重大的實際意義。一個能夠準確理解自然語言指令并在復雜3D環境中定位物體的系統,是實現高級別自動駕駛、智能機器人助手以及沉浸式AR體驗的關鍵技術。LidaRefer的落地能夠顯著提升這些應用的人機交互能力和智能化水平 。

核心研究內容

論文提出了兩大核心研究內容來應對上述挑戰,分別是面向對象的特征選擇(OFS)判別性-支持性協同定位(DiSCo)

研究內容一:面向對象的特征選擇 (Object-centric Feature Selection, OFS)
  • 研究動機:為了解決室外LiDAR場景中背景點占主導地位,導致Transformer等模型計算開銷大且學習不穩定的問題 。
  • 核心內容:一種特征篩選策略,旨在從高維、嘈雜的原始視覺特征中,只提取與潛在物體相關的、語義上重要的特征,從而過濾掉無關的背景信息 。
  • 技術路線
    1. 首先,模型將LiDAR點云轉換成鳥瞰圖(BEV)特征圖 FBEVF_{BEV}FBEV?
    2. 然后,一個基于中心的**熱力圖頭(Heatmap Head)**作用于該特征圖,預測場景中所有物體可能出現的位置,生成一張類別熱力圖 FHMF_{HM}FHM?
    3. 最后,模型從熱力圖中選取分數最高的V個位置,并提取這些位置對應的BEV特征,形成一個緊湊且與對象高度相關的特征集 FνF_{\nu}Fν?
  • 創新點:將目標檢測領域的思想引入3D VG任務,通過一個輕量級的熱力圖頭高效地過濾了大規模室外場景中的海量背景噪聲。這不僅極大地降低了后續Transformer架構的計算復雜度,還通過提純視覺輸入,讓模型能更專注于語義相關的區域,從而提升了跨模態對齊和上下文理解的穩定性和效果
研究內容二:判別性-支持性協同定位 (Discriminative-Supportive Collaborative localization, DiSCo)
  • 研究動機:當場景中存在多個與目標物體外觀相似的“歧義物體”時,僅靠外觀不足以定位。此時,必須理解語言描述中的空間關系(即“參照性上下文”)。然而,室外數據集普遍缺乏對這些參照物體的標注,阻礙了模型的上下文學習 。
  • 核心內容:一種新穎的監督學習策略,它通過對目標、上下文物體和歧義物體進行協同定位,來顯式地學習和建模參照性上下文 。
  • 技術路線
    1. 關系建模:DiSCo關注兩種關鍵的空間關系:
      • 支持性關系 (Supportive):目標物體與上下文物體之間的空間關系,這與描述中的直接線索一致(如“車在卡車旁邊”) 。
      • 判別性關系 (Discriminative):歧義物體與上下文物體之間的空間關系,這揭示了為什么歧義物體不是正確目標(如“另一輛車不在卡車旁邊”) 。
    2. 協同監督:在訓練期間,DiSCo不僅監督模型定位目標物體,還同時監督其定位與參照相關的非目標物體(上下文物體和歧義物體) 。這使得模型內的注意力機制能夠學習到這些關鍵物體間的相對空間布局 。
    3. 自動偽標簽策略:為了解決非目標物體無標簽的問題,論文提出了一種高效的偽標簽生成方法。該方法利用模型自身生成的查詢(queries)與場景中所有物體的3D檢測框(可從現成的檢測器或數據集中輕松獲取)進行匹配。如果一個查詢與某個物體的中心距離足夠近,該物體就會被自動標記為參照性非目標物體,用于DiSCo的監督訓練 。
  • 創新點
    1. 提出了DiSCo這一全新的監督范式,它將上下文理解從隱式學習提升為顯式建模,通過同時關注“支持”和“判別”兩種關系,極大地增強了模型在復雜場景下的歧義消除能力。
    2. 設計了輕量級且無需人工成本的偽標簽策略,巧妙地解決了室外數據集標注不足的核心痛點,使得復雜的上下文關系學習成為可能,具有很強的實用性和可擴展性 。

實驗

實驗設置 (Setting)
  • 數據集:在Talk2Car-3D數據集上進行評估。該數據集是基于Talk2Car和nuScenes構建的,適用于自動駕駛場景的3D視覺定位任務 。
  • 模型配置:實現了兩種輸入模式的LidaRefer:僅LiDAR(LidaRefer-L)多模態(LidaRefer-M,結合LiDAR和RGB圖像) 。同時,還測試了使用或不使用在nuScenes檢測任務上預訓練的視覺編碼器的版本(表示為“-P”) 。
  • 評價指標:使用Acc@IoUthrIoU_{thr}IoUthr?(在特定交并比閾值下的定位準確率)作為主要指標,主要報告了IoUIoUIoU閾值為0.25和0.5的結果 。Acc@0.5更強調定位的精準度,而Acc@0.25則更側重于識別的正確性 。
  • 基線模型 (Baseline):與當時最先進的室外3D VG模型進行比較,包括MSSGBEVGrounding(及其變體) 。
實驗驗證
  • 對比實驗

    • 在Table 1中,LidaRefer在所有配置下(無論是僅LiDAR還是多模態,是否預訓練)的性能均顯著優于所有基線模型 。這證明了LidaRefer整體框架的先進性和有效性。
    • 例如,未預訓練的LidaRefer-L在Acc@0.25指標上甚至超過了經過預訓練的MSSG-LP,展示了其強大的基礎架構和學習能力 。
  • 消融實驗

    • 驗證OFS和DiSCo的有效性:在Table 2中,論文對LidaRefer-L模型進行了消融研究。結果顯示,移除OFS或DiSCo都會導致性能下降,而同時移除兩者則性能下降最為嚴重 。這有力地證明了OFS和DiSCo都是模型成功的關鍵組成部分,并且它們之間存在互補作用。同時,實驗表明DiSCo對性能的貢獻比OFS更大 。
    • 驗證模塊的通用性:在Table 3中,作者將OFS和DiSCo模塊“即插即用”地集成到基線模型MSSG中。結果顯示,集成后MSSG的性能得到了穩定提升 。這證明了OFS和DiSCo作為獨立模塊的有效性和良好的泛化能力,可以賦能其他模型。

總結

核心總結

該論文提出了一個名為LidaRefer的上下文感知3D視覺定位框架,專為解決自動駕駛等大規模室外場景中的挑戰而設計。

  • 核心技術:它利用面向對象的特征選擇(OFS)技術來應對室外LiDAR數據中背景點泛濫和計算量大的問題;同時,通過一種創新的判別性-支持性協同定位(DiSCo)監督策略,并輔以一種自動偽標簽方法,解決了因數據集標注不足而難以學習復雜空間上下文的難題。
  • 解決的問題:成功地解決了室外3D VG中的兩個核心痛點:一是如何高效處理稀疏、嘈雜的視覺輸入;二是如何在缺少標注的情況下深刻理解語言中的參照性上下文以消除歧義。
  • 主要貢獻
    1. 提出了一個在室外3D VG任務上達到SOTA(State-of-the-art)性能的完整框架LidaRefer 。
    2. 引入了DiSCo,一種新穎的、能顯式建模空間關系的監督方法,并設計了實用的偽標簽策略,使其能夠應用于現有數據集 。
    3. 通過充分的實驗驗證了所提方法在室外大規模場景下的有效性和優越性 。

這是一篇非常扎實且具有很高應用價值的論文。

  • 優點

    1. 問題定位精準:論文清晰地指出了室外3D VG與室內場景的核心差異,并針對性地提出了解決方案,邏輯鏈條非常完整。
    2. 創新實用:OFS和DiSCo的設計都非常巧妙。特別是DiSCo的偽標簽策略,它沒有選擇“造一個新數據集”這種昂貴的方式,而是通過“借力”現有檢測標簽,用算法和策略解決了數據層面的瓶頸,這在工程實踐中是非常有價值的思路。
    3. 實驗嚴謹:詳盡的對比實驗和消融研究充分驗證了每個模塊的有效性和整個框架的優越性。將自創模塊移植到基線模型上進行測試,也進一步增強了結論的說服力。
  • 潛在局限與展望

    1. 對檢測器的依賴:OFS中的熱力圖頭和DiSCo中的偽標簽生成,都不同程度地依賴于一個預先訓練好或可以獲取標簽的3D物體檢測器。檢測器的性能上限可能會成為LidaRefer的瓶頸。如果檢測器漏檢或錯檢,可能會影響后續的定位精度。
    2. 復雜場景的泛化性:盡管nuScenes數據集規模很大,但對于更極端的天氣條件(如大雪、濃霧)或非常規的物體交互場景,模型的魯棒性仍有待進一步驗證。

總而言之,LidaRefer通過創新的特征選擇和上下文學習機制,為解決復雜、大規模室外場景下的3D視覺定位問題提供了一個非常有效且實用的框架,對推動自動駕駛和機器人領域的人機交互技術發展具有重要意義。

nuScenes數據集本身對場景中的大部分物體都提供了3D邊界框標注。

問題的關鍵不在于nuScenes數據集中有沒有這些標注,而在于Talk2Car這個中間數據集是如何構建和定義的,以及Talk2Car-3D如何繼承了這個設定

具體解釋如下:

  1. Talk2Car的原始設計:原始的Talk2Car是一個2D視覺定位數據集 。它的任務是:給定一句自然語言指令,在2D圖像上找到那個唯一對應的目標物體。因此,它的標注格式是“一句話”關聯“一個目標物體的2D框”。在創建這個數據集時,標注者只關注了最終的目標,并沒有為指令中提到的其他起輔助作用的“上下文物體”(比如參照物)去建立一個明確的標注鏈接。

  2. Talk2Car-3D的繼承問題:Talk2Car-3D是將這個2D任務擴展到了3D空間 。它基本上繼承了Talk2Car“一句話 -> 一個目標”的核心任務設定。所以,在標準的Talk2Car-3D數據集中,每個指令依然只正式關聯到那一個目標物體的3D標注。盡管底層的nuScenes數據源里有其他物體的3D框,但在Talk2Car-3D這個具體的“視覺定位任務”的數據結構中,這些上下文物體的標注鏈接是“缺失”的。

  3. LidaRefer論文中的做法:這正是LidaRefer這篇論文展現其創新性的地方。作者們敏銳地發現了這個局限性。

    • 他們在論文中明確提到,為了訓練他們提出的OFS(對象中心特征選擇)和DiSCo(協同定位)模塊,他們需要那些在原始Talk2Car數據集中未提供的額外標注
    • 這些額外標注具體包括:用于OFS的所有非目標物體的類別和中心點,以及用于DiSCo的所有非目標物體的3D邊界框 。
    • 因此,他們自己動手,返回到底層的nuScenes數據集中,將這些非目標物體的3D檢測標簽給“檢索”了出來,并整合到他們自己的訓練流程中 。
  • nuScenes (底層數據源):擁有場景中幾乎所有物體的3D框,數據是完備的。
  • Talk2Car-3D (任務數據集):在任務定義上,只將指令與單個目標物體的標注進行關聯。因此從“任務本身”來看,它缺少對上下文物體的標注。
  • LidaRefer (本文方法)重新利用了nuScenes的完備數據。通過自行檢索非目標物體的3D框,彌補了Talk2Car-3D任務數據集在上下文信息上的不足,從而讓模型能夠學習更復雜的空間關系,實現了更好的性能。

偽標簽所使用的3D框信息確實來源于底層的nuScenes數據集。但是,它 本質上不等于“數據集自帶的標注”,這里的關鍵區別在于 “對應關系” 的缺失和重建。

  1. 數據集中“自帶的標注”是什么?
    在Talk2Car-3D這個任務中,一個“自帶的標注”不僅僅是一個3D框,而是一個完整的對應關系,即:
    {某句指令 -> 該指令指向的"目標物體" -> 該目標物體的3D框}
    這個鏈接是數據集預先定義好的、人工確認的“標準答案”。

  2. 數據集中“缺失”的是什么?
    數據集中缺失的是針對“上下文物體”的對應關系。例如,對于指令“停在黃色卡車旁邊的灰色汽車后面”,數據集中不存在下面這個鏈接:
    {“...黃色卡車旁邊...” 這部分描述 -> 場景中的"黃色卡車" -> 該黃色卡車的3D框}
    nuScenes數據池里雖然有黃色卡車的3D框,但Talk2Car-3D任務本身沒有建立這個從語言描述到具體物體的鏈接。

  3. 算法的“匹配”到底做了什么?
    算法的“匹配”工作,其核心正是要在沒有引導的情況下,去推斷并建立上述缺失的鏈接

    • 模型首先通過學習,使其內部的查詢(query)能夠編碼語言中提到的物體信息(比如“黃色卡車”)。
    • 然后,算法用這個查詢去和場景中所有可用的3D框(來自nuScenes數據池)進行匹配。
    • 這個匹配過程,實際上是模型在做一個假設:“我認為這個查詢代表的是‘黃色卡車’,而場景中這個3D框最符合我的判斷,因此我將它們關聯起來。”

所以,“偽標簽”的本質不是那個3D框本身,而是算法自己創建的 {某個上下文物體, 某個3D框} 這個對應關系。

一個形象的比喻:
  • nuScenes數據集:好比一個裝滿了各種工具(各種物體的3D框)的大倉庫。
  • Talk2Car-3D任務:給你的任務是“用一把紅色的錘子敲釘子”。數據集只告訴你最終要用的那把紅色錘子(目標物體)放在哪個貨架上。
  • 指令中的上下文:指令里還提到“錘子在一把藍色的扳手旁邊”。
  • 標注缺失:任務清單里沒有告訴你那把藍色扳手(上下文物體)在哪里。
  • LidaRefer的算法:它就像一個聰明的工人,雖然不知道藍色扳手在哪,但他根據“扳手”這個概念,在倉庫里(nuScenes數據池)自己找到了最像的那一把藍色扳手。
  • 偽標簽:工人決定“就用這把藍色扳手作為參照物”的這個決策本身,就是偽標簽。他使用的扳手確實是倉庫里本來就有的,但他將其與當前任務關聯起來的行為,是基于他自己的推斷,而不是任務清單的直接指示。

因此,盡管偽標簽使用的3D框數據來源于nuScenes,但由于最關鍵的“從語言到物體的對應關系”是由算法在沒有監督的情況下自行推斷和建立的,所以它依然是算法的產物,而不是數據集自帶的標注。算法的作用遠不止是“匹配”,更是一種 “無監督的語義鏈接”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/919488.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/919488.shtml
英文地址,請注明出處:http://en.pswp.cn/news/919488.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

邏輯移位與算術移位

根本的區別在于:它們如何對待符號位(最高位)。 一、邏輯移位 (Logical Shift) 無論左移、右移,空出的位永遠用 0 填充。主要針對無符號整數、快速乘除2的冪。 二、算術移位 (Arithmetic Shift) 左移用 0 填充、右移用符號位填充。…

內存對齊的使用和禁用

在 C 語言和 C 中,__attribute__((packed)) 是一種用于數據結構體的編譯器擴展屬性,這個屬性主要用于修改結構體的內存對齊行為。背景知識:結構體內存對齊在許多計算機架構中,編譯器會自動對數據進行對齊(alignment&am…

SpringBoot3后端項目介紹:mybig-event

mybig-event 項目簡介 mybig-event 是一個基于 Spring Boot 的事件管理系統,提供用戶管理、文章發布、分類管理、文件上傳等功能,采用現代化的 Java 技術棧構建,支持高效開發和部署。 倉庫鏈接:https://github.com/foorgange/mybi…

week3-[分支嵌套]方陣

week3-[分支嵌套]方陣 題目描述 有 nmn\times mnm 個人站成 nnn 行 mmm 列的方陣。我們想知道第 xxx 行 yyy 列的人的某個方向有沒有人。 輸入格式 輸入共 222 行。 第 111 行輸入 444 個正整數 n,m,x,yn,m,x,yn,m,x,y。 第 222 行輸入 111 個字符為 U、D、L、R 其中之一&#…

深入理解C++ std::shared_ptr:現代C++內存管理的藝術與實踐

在C++的發展歷程中,內存管理始終是開發者面臨的核心挑戰。從C語言繼承而來的手動內存管理方式,雖然提供了極大的靈活性,卻也成為無數程序錯誤的根源。內存泄漏、懸空指針、雙重釋放等問題長期困擾著C++開發者,直到智能指針的出現改變了這一局面。作為C++11標準引入的重要特…

一個 WPF 文檔和工具窗口布局容器

一個 WPF 文檔和工具窗口布局容器、用于排列文檔 和工具窗口的方式與許多知名 IDE 類似,例如 Eclipse、Visual Studio、 PhotoShop 等等 AvalonDock 是一個 WPF 文檔和工具窗口布局容器,用于排列文檔 和工具窗口的方式與許多知名 IDE 類似,例…

【qml-5】qml與c++交互(類型單例)

背景: 【qml-1】qml與c交互第一次嘗試(實例注入) 【qml-2】嘗試一個有模式的qml彈窗 【qml-3】qml與c交互第二次嘗試(類型注冊) 【qml-4】qml與c交互(類型多例) 【qml-5】qml與c交互&#…

循環神經網絡(RNN)、LSTM 與 GRU (一)

循環神經網絡(RNN)、LSTM 與 GRU (一) 文章目錄循環神經網絡(RNN)、LSTM 與 GRU (一)循環神經網絡(RNN)、LSTM 與 GRU一、RNN(Recurrent Neural N…

【AAOS】Android Automotive 16模擬器源碼下載及編譯

源碼下載repo init -u https://android.googlesource.com/platform/manifest -b android-16.0.0_r2 repo sync -c --no-tags --no-clone-bundle源碼編譯source build/envsetup.sh lunch sdk_car_x86_64-bp2a-eng make -j8運行效果emualtorHomeAll appsSettingsHAVCNotification…

jvm三色標記

好的,咱們把專業概念和生活例子結合起來,一步一步說清楚三色標記法:一、核心概念:用“顏色”給對象貼“狀態標簽”就像給家里的物品貼標簽,每種顏色代表它在“垃圾回收(大掃除)”中的狀態&#…

生成式AI的能力邊界與職業重構:從“百科實習生“到人機協作增強器

根據微軟最新研究,基于20萬條Copilot使用數據及用戶反饋,研究者揭示了生成式AI在實際應用中的能力邊界與職業影響。數據顯示,用戶使用AI助手最頻繁的任務是信息獲取(占比近40%),其次是公眾溝通類工作&#…

java17學習筆記

Java17是一個重要的特性發布,也是比較常用的一個版本,根據 2024Java生態統計,Java 17、11 和 8 的用戶比例分別為 35%、33% 和 29%。它遵循了自Java10以來引入的Java發布步調,并于2021年 9 月 14 日發布,在Java16發布后…

【AI應用】修改向量數據庫Milvus默認密碼

說明: 1)部署向量數據庫milvus運行一段時間后,想開啟密碼認證登錄attu頁面 2)開啟密碼認證登錄,提示用戶和密碼不正確,因為默認密碼已存儲在物理機 3)通過attu管理頁面修改向量數據庫milvus默認…

分布式系統消息隊列:可靠投遞與延時消息實戰

在分布式系統架構中,消息隊列(MQ)作為解耦服務、削峰填谷、異步通信的核心組件,其消息投遞的可靠性與延時消息的精準性直接影響業務系統的穩定性。本文結合實際業務場景,詳細解析消息投遞的全流程設計與延時消息的通用…

Java 學習筆記(基礎篇6)

面向對象基礎1. 類和對象(1) 示例:public class Student {String name "張三";int age 23;public void study() {System.out.println("學習 Java");}public void eat() {System.out.println("吃飯");} }public class Test {public …

光學件加工廠倚光科技:陪跑光學未來力量

在光學創新的漫漫長路上,總有一些看似 “不劃算” 的堅持,卻在悄然改寫行業的未來。倚光科技的故事,就始于這樣一種選擇 —— 明知光學打樣利潤微薄,明知上百個項目中能走到量產的寥寥無幾,仍愿意投入全球頂尖的設備與…

RabbitMQ:生產者可靠性(生產者重連、生產者確認)

目錄一、生產者重連二、生產者確認一、生產者重連 當網絡不穩定的時候,利用重試機制可以有效提高消息發送的成功率。不過SpringAMQP提供的重試機制是阻塞式的重試,也就是說多次重試過程中,當前線程是被阻塞的,會影響業務性能。 …

【深度學習新浪潮】空天地數據融合技術在城市三維重建中的應用

空天地數據融合技術在城市三維重建中的應用已取得顯著進展,尤其在提升精度以滿足具身智能機器人仿真訓練需求方面,研究和產品均呈現多樣化發展。以下是關鍵研究進展、產品方案及精度要求的詳細分析: 一、研究進展與技術路徑 1. 多源數據融合的技術突破 時空基準統一:通過…

Selenium自動化測試入門:cookie處理

🍅 點擊文末小卡片,免費獲取軟件測試全套資料,資料在手,漲薪更快driver.get_cookies() # 獲得cookie 信息driver.get_cookies(name) # 獲得對應name的cookie信息add_cookie(cookie_dict) # 向cookie 添加會話信息delete_cookie(na…

快解析如何讓遠程訪問更安全?

一、勒索病毒攻擊服務器的途徑很多用戶服務器對外開放,實現外網訪問,擔心服務器被勒索病毒攻擊!勒索病毒攻擊服務器的途徑之一是通過路由器開放的端口進行掃描攻擊,所以盡量不要在服務器的路由器和防火墻中開放端口二、快解析如何…