摘要:在機器人視觸覺傳感領域,如何兼顧成本與性能始終是一大挑戰。耶魯大學在《Science Robotics》上發表最新研究,提出了一種“Forces for Free”(F3)新范式。該研究通過觀測一個經過特殊優化的開源柔性手(F3 Gripper)的形變,僅利用標準RGB攝像頭,便能精準估算接觸力,為機器人賦予了幾乎零額外硬件成本的力感知能力。借助這樣的感知能力,能完成小孔插銷、擦拭曲面,甚至寫書法這樣需要精細力控的任務。
圖:使用該3F柔性手進行寫書法實驗及其力反饋各項指標圖在機器人與物理世界進行交互時,力的感知至關重要。它不僅是完成插拔、打磨等接觸式任務(contact-rich tasks)的基礎,也是高級人機交互與物理推理的關鍵。然而,傳統的高精度力/扭矩(F/T)傳感器價格昂貴、笨重且易因撞擊損壞,而集成式的指尖觸覺傳感器則面臨著布線復雜、易磨損和僅能提供局部信息等問題。近年來,視觸覺傳感技術為解決這一難題提供了新思路,即利用視覺信號來推斷觸覺信息。但許多方案依賴于在傳感器內部嵌入標記點(如GelSight),或需要定制化的傳感皮膚。有沒有一種更簡潔、更低成本的實現路徑?耶魯大學的研究團隊給出了一個極具吸引力的答案:Forces for Free。其核心思想是,對于一個已經配備了柔性手爪和腕部攝像頭的機器人系統,對于外界力的感知能力可以通過軟件算法“免費”獲得,無需增加任何額外傳感硬件。
圖:該系統的核心在于利用已有的攝像頭和柔性手爪,通過算法解鎖力感知能力,無需額外添置昂貴的F/T傳感器(如圖中箭頭所示,F/T傳感器僅用于訓練和驗證)。這也是“3F”中“Free”的核心。——物理媒介:為“被看見”而優化的F3柔性手——實現視覺力感知的先決條件,是擁有一個在受力時能產生穩定、可觀測形變的物理媒介。為此,研究團隊并沒有隨意選擇一款柔性手,而是在耶魯大學經典的開源T42手爪基礎上,進行了深度優化,設計出F3 (Forces-for-Free) Gripper。優化目標也非常明確:提升基于視覺的力估算信噪比,可以從兩個角度來實現:1.最大化運動學可操縱性 (Kinematic Manipulability):傳統柔性手在某些姿態下可能接近“奇異構型”(singular configuration),此時即便利度發生很大變化,其外觀形態也幾乎不變,導致力無法被識別。研究團隊通過優化手指的連桿長度比和靜止角度,使其在工作區間內遠離奇異點,確保任何方向的力都能引起足夠大的視覺形變。這項優化基于對運動學矩陣的分析,旨在最大化這一可操縱性度量。2.最小化摩擦與遲滯 (Friction and Hysteresis):纜繩驅動的柔性手普遍存在摩擦和遲滯效應,這是導致“部分可觀察性”(partial observability,即相同的手指形態可能對應不同力值)的根本原因。F3手爪將所有纜繩路徑上的金屬銷釘替換為微型滾珠軸承,并優化布線以減少接觸角,從而顯著降低了內部摩擦力(從約4.0N降至0.6N),為更精確的力估算奠定了物理基礎。
圖:F3手爪的設計優化。(左)相較于T42原型,F3采用了等長連桿和滾珠軸承以提升可操縱性并降低摩擦。 (右)運動學可操縱性分析表明,連桿等長且關節角為90°時(黑色連桿所示位置),形變響應最佳。——計算核心:具備時序記憶與視覺焦點的估算器——有了高質量的物理媒介,接下來的挑戰便是如何從圖像序列中解碼出精確的力信息。耶魯大學的研究團隊為此構建了一個精巧的深度學習估算器。為了應對“部分可觀察性”,該團隊的解決方案是:引入時間記憶。為了解決由殘余摩擦和遲滯效應帶來的模糊性,該模型不處理單幀圖像,而是輸入一段包含近期運動歷史的圖像序列(如20幀,采樣頻率1Hz)。模型采用CNN-Transformer架構,其中CNN負責提取每幀圖像的空間特征,而Transformer則捕捉這些特征在時間維度上的內在關聯。這種對時空信息的綜合處理,讓模型能夠根據歷史運動趨勢來推斷當前最可能的力狀態,有效緩解了“同形不同力”的問題。消融實驗證明,20幀的記憶長度能達到最佳性能。為了應對視覺干擾,該團隊采用視覺基礎模型加持的方案:真實場景下的背景和被抓物會嚴重干擾識別。研究團隊利用了視覺基礎模型SAM (Segment Anything Model),僅通過少量標注數據進行微調,便能穩健地將手爪從復雜的視覺環境中分割出來。這相當于為估算器戴上了一副“濾鏡”,使其能完全專注于手爪本身的形變,實現了對背景和物體變化的魯棒性。此外,通過在訓練中引入隨機遮擋的數據增強,模型還能抵抗真實世界中常見的部分遮擋情況。
圖:估算器神經網絡架構概覽。圖像序列首先由SAM進行分割以消除視覺干擾,隨后由共享的CNN提取特征,最后通過Transformer網絡處理時序信息,輸出最終的力預測值。——實驗驗證:從0.2N的精度到閉環動態控制——該系統的有效性在一系列嚴苛的實驗中得到了驗證:
在對新物體的靜態力預測任務中,估算誤差在0.2N至0.4N之間。這一預測精度遠高于先前相關工作報告的約1.6N的誤差,展示了其卓越的性能。對于動態閉環控制的實驗設計,該估算器被成功置于控制環路中,完成了三項復雜的動態任務:1.孔中插銷:通過感知接觸力,引導機器人完成探測、對準和插入的系列動作。
2.曲面擦拭:維持恒定的法向力(1N),在不平整的表面上進行擦拭。3.書法寫作:通過實時調整下壓力,控制毛筆筆畫的粗細,完成漢字書寫。
圖:估算器在閉環動態任務中的出色表現。無論是精密的裝配(上)、力控的表面操作(中),還是需要細膩力度變化的書法(下),系統均能提供準確的力反饋。在這些任務中,系統均表現出高精度和魯棒性,平均力誤差甚至低至0.15N左右。這是一個非常驚人的數字,這表明該系統在沒有額外傳感器的輔助下,已經能幾乎實現完成這些需要精細力控的任務。耶魯大學的這項研究,為低成本機器人力感知提供了一個優雅且實用的解決方案。它不僅是一個巧妙的工程實現,更提出了一種富有潛力的“Forces for Free”新范式,證明了在不增加額外硬件的前提下,僅通過算法和對現有組件(柔性手)的優化,即可解鎖高質量的力感知能力,重新定義了視觸覺傳感的成本效益邊界。
這也是“Free”的核心所在;此外在系統完整性方面,提供了從硬件優化(F3手爪)到算法設計(時序模型與SAM)再到實驗驗證的一整套完整、開源的解決方案,極大地降低了其他研究者的使用門檻。盡管目前該系統主要處理二維力,且響應速度(10Hz)尚不及商業F/T傳感器,不適用于碰撞檢測等高速場景,但它為大量接觸式操作任務提供了足夠精確、魯棒且幾乎“免費”的力反饋。未來,該范式有望擴展至三維力/力矩估算、多指靈巧手,并通過多視角相機來解決更復雜的遮擋問題。這項工作無疑將推動先進力控技術在更廣泛的機器人平臺(尤其是低成本平臺)上的普及與應用。資料鏈論文原文:https://www.science.org/doi/10.1126/scirobotics.adq5046
開源硬件、代碼與數據: 詳見論文末尾“Data and materials availability”部分