RSS2024 Paper 079

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang · CFCS, School of Computer Science, Peking University；University of Adelaide；Australian National University

机器人学习视觉语言模型导航感知数据仿真到现实

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation figure — AlphaXiv 中文概览（可滚动查看）