Awesome Robotics Manipulation · full_paper

VIPA-VLA: Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

作者：Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu · 单位：Peking University, Renmin University of China · 会议/期刊：CVPR 2026 · 日期：2025-12-15 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 3D Vision Language Action Models

三维表征视频规划视觉语言动作基础模型感知机器人学习

VIPA-VLA: Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos figure — AlphaXiv 中文论文页面（可滚动查看）