world models and Human–Object Interaction (HOI)

Author: Chatgpt
Here are several key research papers that explore the intersection of world models and Human–Object Interaction (HOI)—especially ones that build structured, object-centric representations from videos or use world-model-based learning to plan object-rich interactions.


🧠 1. FOCUS: Object?Centric World Models for Robotic Manipulation (Jul 2023)

Proposes a model-based RL agent, FOCUS, that builds a structured world model by encoding objects into separate latent vectors. It guides exploration toward object interaction and enables efficient task learning across environments like ManiSkill2 or Robosuite, even on real Franka robot hardware. Object-centric focus improves exploration and sample efficiency in sparse?reward manipulation tasks. (arXiv, Frontiers)


🔧 2. Structured World Models from Human Videos (RSS’23)

Also known as SWIM (or SWIM/SWIMROC), this approach pre-trains world models using human video data. The affordance-based, human-centric structured action space lets robots learn diverse manipulation skills in just ~30 minutes of real robot experience. This model enables generalization beyond robot-specific embodiment. (Medium)


🎛? 3. Structured World Models from Human Videos (Paper: Structured World Models from Human Videos)

Same as above, centered on leveraging human video to learn affordance-grounded world models that encode object interactions, enabling goal-based planning and policy execution even with limited robot experience.


🖐? 4. Human?Object Interaction with Vision?Language Model Guided Relative Movement Dynamics (RMD?HOI) — Mar 2025

Introduces a framework where vision-language models translate free-form instructions into Relative Movement Dynamics (RMD) guiding language?conditioned reinforcement learning. The model allows long?horizon, multi-round HOI planning—even with dynamic and articulated objects. It couples semantic instruction, perception, and motion planning. (arXiv)


🌍 5. OpenHOI: Open?World HOI Synthesis with Multimodal LLM — May 2025

OpenHOI brings together affordance grounding, language decomposition, and an affordance-driven diffusion model with physics-based refinement. It enables generation of long-horizon hand-object interactions from language commands over novel objects. This is essentially world-model-informed HOI synthesis grounded in affordance and physics. (arXiv)


🔄 6. Vision-Based Manipulation from Single Human Video (ORION)

Learn manipulation policies from a single RGB-D human demonstration using Open-world Object Graphs (OOGs)—structured, object- and hand-centric representations. ORION constructs manipulation plans that generalize across spatial layouts, backgrounds, and unseen object instances. (arXiv)


📚 7. World Model Foundations

  • Ha & Schmidhuber (2018) original definition: VAE for perception, RNN for dynamics, policy head for control.
  • LeCun (2022): world models as neural “mental simulation” for commonsense reasoning, often incorporated in embodied agents. (維基百科)

📊 Summary Table

Paper / ModelDomainWorld-Model StructureHOI Aspect
FOCUSRL / roboticsObject-centric latent dynamicsFocused exploration, object manipulation
SWIM (Structured WM)Pre?training RLAffordance action world modelFrom human videos → robot affordance plans
RMD?HOIHOI / RLLanguage-guided dynamics modelVision-language → sequential HOI planning
OpenHOIMultimodal HOIAffordance+diffusion + world modelOpen-world HOI synthesis with physics
ORIONImitation from videoObject-graph world plan extractionSingle-demo generalizable HOI policies

💡 Why These Matter

  • Object-centric representations in world models (like FOCUS, SWIM, ORION) enable models to capture and reason about interactions more efficiently and generalize better.
  • Affordance-guided structures bridge perception and action, enabling tasks to be grounded even from limited data.
  • Language-guided dynamics planning (RMD?HOI, OpenHOI) allows long-horizon sequential HOI planning from natural instructions.
  • These methods enable zero-/few-shot generalization to new objects, instructions, or environments.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/89438.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/89438.shtml
英文地址,請注明出處:http://en.pswp.cn/web/89438.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

無人值守共享自習室物聯系統安全防線:從設備到數據的全面防護策略!

在“全民學習”浪潮的推動下,無人值守共享自習室憑借24小時開放、靈活預約和沉浸式體驗,已成為城市學習空間的新形態。而當人力值守被物聯網設備替代后,安全風險卻從物理世界延伸到了數字世界。一套完整的自習室物聯網系統包含門禁、傳感器、…

【27】MFC入門到精通——MFC 修改用戶界面登錄IP IP Address Control

界面搭建 將【IP Address Control】控件,【Edit Control】控件和兩個【button】控件分別拖入主界面 將ID分別修改為:IDC_IP_ADDRESS IDC_IPADDRESS_EDIT IDC_GET_BUTTON IDC_CLEAN_BUTTON添加變量 為【IP Address Control】控件添加變量【m_IPaddress】&…

MacOS安裝linux虛擬機

在學習docker時用的云環境本身就是一個容器,啟動docker總是各種問題,所以直接在本機上裝一個虛擬機。 當前系統環境: 安裝虛擬機軟件 安裝UTM 下載官網:https://mac.getutm.app/ uname -m查看一下指令架構,下載…

TimSort:論Java Arrays.sort的穩定性

TimSort 是一種混合的、穩定的排序算法,結合了歸并排序(Merge Sort)和二分插入排序(Binary Insertion Sort)的優點,尤其適用于部分有序的數據。在 Java 中,Arrays.sort() 對對象數組排序時內部使…

企業數據生命周期安全架構設計

數據是企業的生命線,而安全則是這條生命線的保護神。今天我們就來聊聊如何為企業數據的一生一世構建一套堅不可摧的安全防護體系。 📚 文章目錄 為什么需要數據生命周期安全架構數據生命周期全景圖安全架構設計的核心原則各階段安全防護策略整體安全架構…

【Java】字符串常量池

文章目錄一.字符串常量池(StringTable)1.1 定義1.2 演示示例1.3 intern方法一.字符串常量池(StringTable) 1.1 定義 字符串常量詞本質是一個固定大小的HashTable。當用一個字符串構造String對象時,首先會去StringTable中查看是否存在在字符串,如果存在…

數據通信與計算機網絡——模擬傳輸

主要內容數字到模擬轉換幅移鍵控ASK頻移鍵控FSK相移鍵控PSK正交振幅調制QAM模擬信號調制調幅AM調頻FM調相PM一、數字到模擬轉換數字信號需要低通通道,如果現實應用中只有帶通通道,只能選擇模擬信號進行傳輸。將數字數據轉換為帶通模擬信號,傳…

如何用Python并發下載?深入解析concurrent.futures 與期物機制

concurrent.futures模塊的核心價值 Python的concurrent.futures模塊提供了線程池(ThreadPoolExecutor)和進程池(ProcessPoolExecutor)兩種并發模型,通過高層接口簡化并發編程。其核心優勢在于: 自動管理資源…

MMKV 存儲json list數據(kotlin)

1、添加依賴與初始化 首先在 build.gradle 中添加 MMKV 依賴: implementationcom.tencent:mmkv:1.2.12 在 Application 類中初始化 MMKV: import android.app.Application import com.tencent.mmkv.MMKVclass MyApp : Application() { override fun onCreate() { super.o…

C++ -- STL-- stack and queue

////// 歡迎來到 aramae 的博客,愿 Bug 遠離,好運常伴! ////// 博主的Gitee地址:阿拉美 (aramae) - Gitee.com 時代不會辜負長期主義者,愿每一個努力的人都能達到理想的彼岸。1. stack的介紹和使用 2. queue的介紹…

信息論至AI實踐:交叉熵的原理全景與應用深度解析

1 定義與數學原理:從信息論到分布差異度量 交叉熵(Cross Entropy)是信息論中用于量化兩個概率分布差異的核心概念,由Claude Shannon的信息論發展而來。它測量了在相同事件集合上,使用估計的概率分布q對服從真實概率分…

WAF 能防御哪些攻擊?

WAF(Web 應用防火墻)是網站和Web應用的安全守門人,但很多用戶對其具體防御范圍一知半解。實際上,WAF 能針對性攔截多種網絡攻擊,從常見的注入攻擊到復雜的惡意爬蟲,覆蓋Web安全的核心威脅。本文詳解WAF的防…

閑庭信步使用圖像驗證平臺加速FPGA的開發:第二十二課——圖像直方圖統計的FPGA實現

(本系列只需要modelsim即可完成數字圖像的處理,每個工程都搭建了全自動化的仿真環境,只需要雙擊top_tb.bat文件就可以完成整個的仿真,大大降低了初學者的門檻!!!!如需要該系列的工程…

群暉中相冊管理 immich大模型的使用

相對于其他的相冊管理軟件,Immich的智能搜索和人臉識別功能是其優勢,通過應用機器學習模型,其智能搜索和人臉識別功能更為先進。 一、大模型的下載與安裝 網上有大佬提供了相關大模型的下載:https://url22.ctfile.com/d/58003522…

在 Windows 上使用 Docker 運行 Elastic Open Crawler

作者:來自 Elastic Matt Nowzari 了解如何使用 Docker 在 Windows 環境中運行 Open Crawler。 了解將數據攝取到 Elasticsearch 的不同方式,并深入實踐示例,嘗試一些新方法。 Elasticsearch 擁有大量新功能,助你為特定場景構建最…

iOS高級開發工程師面試——RunTime

iOS高級開發工程師面試——RunTime 一、簡介 二、介紹下 RunTime 的內存模型(isa、對象、類、metaclass、結構體的存儲信息等) 對象 類 三、為什么要設計 metaclass ? 四、class_copyIvarList & class_copyPropertyList區別? 五、class_rw_t 和 class_ro_t 的區別? 六…

實現分頁查詢

分頁查詢分頁查詢語句項目中添加分頁功能按鈕設置前后端代碼功能實現分頁查詢語句 限制查詢的 sql 語句: select * from student limit 0,4sql 查詢結果如下: 分頁查詢的每一頁都對應一行 sql 語句,若每一行都寫單獨對應的 sql 語句不僅重復…

[QOI] qoi_desc | qoi_encode | qoi_decode

鏈接:https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression (看代碼設計的時候,真的大為震撼,偉大的algorithm T.T) docs:QOI圖像格式 qoi項目提出了Quite OK Image(QOI&am…

智慧城軌可視化:一屏智管全城

圖撲智慧城軌可視化系統,把地鐵線路、車站、列車都搬進三維畫面。列車晚點預警、站臺擁擠提示、設備故障定位…… 這些關鍵信息一屏聚合,調度員能快速調整發車頻次,疏導高峰客流。遇上突發情況,系統聯動應急方案,同步顯…

包新的Git安裝與使用教程(2024九月更新)

目錄 一、安裝git 1.下載git 2.git安裝 3.環境變量配置與測試 二、使用教程 1.創建版本庫 2.版本回退 3.刪除和恢復文件 一、安裝git 1.下載git 官方下載地址:https://git-scm.com/download 然后進入以下頁面,點擊下載鏈接即可(windows一般都是…