Awesome Robotics Manipulation · full_paper

JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

作者：Shangchen Miao, Ningya Feng, Jialong Wu, Ye Lin, Xu He, Dong Li, Mingsheng Long · 单位：Tsinghua University Huawei Noah’s Ark Lab. Correspon · 会议/期刊：arXiv · 日期：2026-02-12 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Latent Learning

视频规划视觉语言动作潜变量学习机器人学习

JEPA-VLA: Video Predictive Embedding is Needed for VLA Models figure — AlphaXiv 中文论文页面（可滚动查看）