RSS2024 Paper 052

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi · Google DeepMind Robotics；Carnegie Mellon University；University of Toronto

操作模仿学习数据机器人学习感知基础模型

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers figure — AlphaXiv 中文概览（可滚动查看）