Awesome Robotics Manipulation · full_paper

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

作者：Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang · 单位：Beihang University, Shanghai Artificial Intelligence Laboratory, University of Science and Technology of China, The Chinese University of Hong Kong · 会议/期刊：arXiv · 日期：2026-03-11 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Latent Learning

视觉语言动作潜变量学习机器人学习

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model figure — AlphaXiv 中文论文页面（可滚动查看）