Awesome Robotics Manipulation · full_paper

VITRA: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos

作者：Qixiu Li, Yu Deng, Yaobo Liang, Lin Luo, Lei Zhou, Chengtang Yao, Lingqi Zeng, Zhiyuan Feng, Huizhi Liang, Sicheng Xu, Yizhong Zhang, Xi Chen, Hao Chen, Lily Sun, Dong Chen, Jiaolong Yang, Baining Guo · 单位：Tsinghua University, Microsoft Research Asia · 会议/期刊：arXiv · 日期：2025-10-24 · 来源：Manipulation Tasks / Dexterous Manipulation / VLA

灵巧操作视频规划视觉语言动作基础模型操作

VITRA: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos figure — AlphaXiv 中文论文页面（可滚动查看）