Awesome Robotics Manipulation · full_paper

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

作者：Chaoyang Wang, Wenrui Bao, Sicheng Gao, Bingxin Xu, Yu Tian, Yogesh S Rawat, Yunhao Ge, Yuzhang Shang · 单位：University of Central Florida, University of Würzburg, University of Southern California, NVIDIA Research · 会议/期刊：arXiv · 日期：2026-03-15 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Auxiliary Tasks - Text Goal Extraction

辅助任务视觉语言动作机器人学习

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning figure — AlphaXiv 中文论文页面（可滚动查看）