Awesome Robotics Manipulation · full_paper

DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models

作者：Cheng Yin, Yankai Lin, Wang Xu, Sikyuen Tam, Xiangrui Zeng, Zhiyuan Liu, Zhouping Yin · 单位：Department of Computer Science and Technology, Tsinghua University, China, Gaoling School of Artificial Intelligence, Renmin University of China, China, Beijing Zhongguancun Academy, China · 会议/期刊：arXiv · 日期：2025-11-31 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Auxiliary Tasks - Text Goal Extraction

辅助任务视觉语言动作机器人学习

DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models figure — AlphaXiv 中文论文页面（可滚动查看）