標題:From Semi-supervised to Omni-supervised Room Layout Estimation Using Point Cloud
作者:Huan-ang Gao, Beiwen Tian, Pengfei Li, Xiaoxue Chen, Hao Zhao, Guyue Zhou , Yurong Chen and Hongbin Zha
來源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)
這是佳佳怪分享的第6篇文章
摘要
房間布局估計是一項存在已久的機器人視覺任務,對環境感知和運動規劃都有好處。然而,由于標注困難,使用點云(PC)進行布局估計仍存在數據稀缺的問題。因此,我們基于模型指數移動平均的理念,解決了這一任務的半監督設置問題。但要將這一方案調整為基于 PC 的布局估計的最先進(SOTA)解決方案并非易事。為此,我們定義了一種四元組匹配策略,并根據為布局四元組量身定制的指標定義了幾種一致性損失。此外,我們還提出了一種新的在線偽標簽采集算法,該算法將四邊形和 PC 之間的混合距離度量分布分解為兩個部分。該技術無需手動選擇閾值,可直觀地鼓勵四邊形與可靠的布局點對齊。令人驚訝的是,這一框架也適用于完全監督設置,在 ScanNet 基準測試中取得了新的 SOTA。最后但并非最不重要的一點是,我們還將半監督設置推向了現實的全監督設置,在新注釋的 ARKitScenes 測試集上展示了顯著提升的性能。我們的代碼、數據和模型都是公開的。
圖 1. (a) 輸入是三維點云,其顏色僅用于可視化。(b) 我們僅使用 ScanNet 訓練集中 20% 的標注數據訓練前 SOTA 方法 PQ-Transformer,并將其作為基線。? 我們在整個 ScanNet 訓練集上采用我們的方法,只使用 20% 的標注數據,結果布局預測更加準確。
?圖 2. 方法概述。在每次訓練迭代中,我們從有標簽數據集和無標簽數據集中分別抽取樣本,形成一個批次。首先對輸入批次進行隨機變換,然后將其輸入學生模型,生成預測結果。與此同時,輸入批次也被送入教師模型,然后經過變換得出預測結果。在采用的兩種轉換中,FPS 采樣使用不同的種子,而旋轉、翻轉和縮放則完全相同。我們總共施加了三種損失:(1) 轉化標簽與學生模型預測之間的監督損失。(2) 一致性損失,即最小化學生預測與教師預測之間的差異。(3) 鼓勵四邊形與可靠布局點對齊的偽標簽損失。學生參數根據三種損失之和通過梯度下降法更新,而教師參數則通過學生參數的指數移動平均(EMA)法更新。
圖 3. 師生對齊圖解。(a) 對于每一個教師預測的四邊形,我們都會找到最近的學生預測的四邊形。盡管教師的預測是有噪聲的,但四邊形度得分卻能說明預測的準確性。預測的準確性。(b) 這三個圖說明了兩個四邊形之間定義距離的三個組成部分。定義的兩個四邊形之間的距離。
圖4。關于Gamma混合濾波的插圖。我們在(b)中計算了所提出的點和四邊形之間的混合度量,其中較暖的顏色表示較短的距離。然后,我們將度量的分布分解為兩個分量,分別對應于屬于四邊形和不屬于四邊形的點。我們使用混合分布模型(如(c)所示)過濾掉冗余點,并以更高的精度重新估計四邊形,供學生模型學習。
圖 5. ScanNet 的定性結果。比例代表使用中的注釋數據比例。
圖 6. ARKitScenes 的定性結果。地面真實布局由crowd-sorcing注釋。
表I 掃描網的布局估計F1-SCORES
表 II 場景布局估計 F1 分數
表III 數據轉換策略的消融
表IV 四均值教師消融
表 V 伽馬混合濾波的消融情況
結論
我們的研究邁出了僅使用點云進行全監督布局估計的第一步,這在機器人領域具有很好的應用前景。我們的訓練框架結合了四均值教師和伽瑪混合濾波,以更好地利用未標記的數據。實驗結果證明了我們的方法在半監督、全監督和全監督環境中的有效性。盡管我們的方法有效,但局限性仍然存在。在不完整的場景中,我們的方法的預測是不令人滿意的,在這些場景中,不足的點無法形成布局墻。未來,由于PQ Transformer[29]實現帶來的準實時速度,我們將考慮可能的糾正措施,包括整合在線推理結果。