SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation

作者：Ruisen Tu, Arth Shukla, Sohyun Yoo, Xuanlin Li, Junxi Li, Jianwen Xie, Hao Su, Zhuowen Tu UC San Diego · 会议/期刊：arXiv · 日期：2026-03-24 · 来源：Manipulation Tasks | Mobile Manipulation / Mobile Manipulation / VLA | VLA

移动操作视觉语言动作操作

SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation figure — AlphaXiv 中文论文页面（可滚动查看）

论文对话

模型：读取中