據該公司的開發者介紹:“我們已經研發了一款新算法——單次模仿學法算法。” 人們先在VR中完成一次操作,隨后機器人通過觀看視頻來模仿人類的行為。為了證明該算法,設計者進行了堆疊彩色方塊實驗。
人類在VR環境中按順序移動方塊。機器人首先通過其攝像頭來感知環境,然后指導它的手臂以特定的方式來移動方塊。桌子上有6個顏色不同的方塊,雖然擺放位置不同,但是機器人最終都會以相同的順序,堆疊成與人類操作相同的樣子。
據研發團隊介紹,該機器人中含有兩個神經網絡:視覺網絡和模仿網絡。視覺網絡通過成千上萬張模擬圖像進行訓練;模仿網絡處理演示過程,分析動作背后的含義,并從另一個角度來完成任務。模仿網絡從幾十個不同的任務中得到訓練,而每個任務中又包含了上千次的演示。
該公司的技術人員喬什?托賓(Josh Tobin)說:“模仿可以讓人類快速學習新的行為,我們希望OpenAI研制的機器人也可以掌握這種方法。”該系統目前只是一個初樣,未來開發者將繼續對此進行研究。