在機器人領域,讓機器人在開放環境中與日常物品交互一直是個難題,其中開門任務極具挑戰性。門的設計、機械結構和推拉方式多種多樣,現有方法存在諸多局限。基于運動學的方法依賴已知門模型,面對未知門時難以發揮作用;幾何方法提取3D位姿信息生成軌跡,但在不同形狀和環境下泛化能力差;基于關鍵點的方法受限于RGB-D數據采集。端到端模仿學習和強化學習在實際應用中也面臨從模擬到現實的遷移問題。雖然大語言模型和視覺語言模型被用于高層規劃,但仍依賴視覺數據和預定義模型,難以適應非視覺屬性的變化,比如門的內部機制、意外阻力等情況。然而,人類憑借觸覺反饋,采用探索-適應策略,能輕松完成開門任務,成功率近乎100%。受此啟發,UIUC原文禎教授團隊提出了一種觸覺感知閉環控制框架來解決這些問題。
https://github.com/TX-Leo/DoorBot/blob/master/DoorBot_ICRA2025.pdf
背景:機器人開門任務的挑戰在非結構化環境中實現自主門開啟是機器人領域的重要挑戰,其核心難點在于門類多樣性(如推/拉類型、把手形態、機械結構)與動態環境的不確定性。現有方法存在三大局限性:1、感知依賴單一模態:傳統視覺或幾何模型難以應對光照變化、遮擋及非視覺屬性(如門鎖阻力、把手旋轉方向)。2、開環控制的脆弱性:基于預定義模型或軌跡的方法無法實時適應意外事件(如門鎖卡滯、碰撞),導致成功率驟降。3、泛化能力不足:端到端學習方法需要大量領域數據,而大語言模型在低層動作規劃中存在可靠性缺陷。
現有方法在實驗室環境成功率較高,但在真實復雜場景中表現顯著下降,且無法處理側向視角抓取或非常規旋轉方向。核心創新:觸覺反饋驅動的閉環分層控制框架1、分層控制架構設計我們設計了包含6個運動基元(Approach, Grasp, Unlock-lever, Unlock-knob, Open, Traverse)的分層控制架構,通過有限狀態機動態調整任務序列。與學習型策略相比,我們的方法將數據效率提升3倍,并支持顯式錯誤處理,如碰撞后回退至Approach階段。2、視覺-觸覺多模態感知我們提出基于Detic目標檢測與SAM分割的視覺抓取點修正模型(GUM),利用ResNet-18預測抓取點偏移(dx, dy)與旋轉參數R。我們僅使用1,303張網絡圖像訓練該模型,即可在20種未見把手中實現95%抓取成功率。此外,我們創新性地通過關節電流變化特征實現推拉門分類,準確率達98%。3、低成本觸覺反饋實現在硬件受限的條件下,我們驗證了關節電流信號的可靠性。例如,當機器人嘗試旋轉已到極限的門把手時,肘關節電流會顯著上升,系統通過實時監測這一閾值終止錯誤動作,并嘗試反向旋轉。實驗驗證:從實驗室到真實場景
1、野外環境門開啟測試我們在8棟校園建筑的20種未見門(含5種特殊機械鎖)上進行了420次測試,實現了90%的總體成功率,較Gemini+VLM基線(50%)提升40%。在30%的初始抓取失敗案例中,我們通過3次重試將累計成功率提升至97%。2、消融實驗分析我們關閉閉環反饋機制后,成功率降至58%,尤其在旋轉方向誤判與推拉類型錯誤場景表現顯著下降。此外,我們嘗試僅依賴VLM視覺分類時,推拉類型誤判率達41%,導致整體成功率降低至64%。3、跨物體泛化能力驗證我們進一步測試了12個抽屜/柜門場景,HCL-Door保持88%成功率,驗證了框架對廣義鉸接物體的適應性。我們特別針對非線性軌道抽屜實現了83%成功率,較基線提升37%。結論提出的觸覺反饋閉環控制框架HCL-Door,在20種真實門測試中實現90%成功率,較現有方法提升40%。其核心價值在于通過低成本觸覺信號實現動態策略調整,突破純視覺方法的物理交互瓶頸;我們設計的分層狀態機架構兼顧任務規劃魯棒性與數據效率,為長周期操作任務提供新范式。未來,我們計劃擴展至多機器人協作開門、非剛性門(如布簾)操作等場景,并探索觸覺反饋與強化學習的深度融合,進一步提升開放世界的適應性。