Awesome Robotics Manipulation · full_paper

VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

作者：Hanqing Wang, Mingyu Liu, Xiaoyu Chen, Chengwei Ma, Yiming Zhong, Wenti Yin, Yuhao Liu, Zhiqing Cui, Jiahao Yuan, Lu Dai, Zhiyuan Ma, Hui Xiong · 单位：HKUST-GZ · 会议/期刊：arXiv · 日期：2026-02-10 · 来源：README / 📊 Awesome Simulators, Benchmarks and Dataset / Embodied QA and Affordance Datasets

可供性三维表征视频规划人机交互语言条件数据集/基准

VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model figure — AlphaXiv 中文论文页面（可滚动查看）