Awesome Robotics Manipulation · full_paper

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models

作者：Yichi Zhang, Weihao Yuan, Yizhuo Zhang, Xidong Zhang, Jia Wan · 单位：Harbin Institute of Technology, Shenzhen, China, Nanjing University, Nanjing, China, Renmin University of China, Beijing, China · 会议/期刊：arXiv · 日期：2026-03-30 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Efficiency / PEFT

视觉语言动作感知机器人学习

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models figure — AlphaXiv 中文论文页面（可滚动查看）