Awesome Robotics Manipulation · full_paper

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

作者：Zixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Bei Yu, Jiaya Jia · 单位：HKUST1 · 会议/期刊：arXiv · 日期：2026-03-23 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Auxiliary Tasks - Text Goal Extraction

辅助任务视觉语言动作感知机器人学习

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models figure — AlphaXiv 中文论文页面（可滚动查看）