主页 ← RSS2025 Index

RSS2025 Paper 013

Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks

Jiazhao Zhang, Kunyu Wang, Shaoan Wang, Minghan Li, Haoran Liu, Songlin Wei, Zhongyuan Wang, Zhizheng Zhang, He Wang

机器人学习导航视觉语言模型感知数据

Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks figure — AlphaXiv 中文概览（可滚动查看）