Awesome Robotics Manipulation · full_paper

Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline

作者：Wenxuan Song, Jiayi Chen, Xiaoquan Sun, Huashuo Lei, Yikai Qin, Wei Zhao, Pengxiang Ding, Han Zhao, Tongxin Wang, Pengxu Hou, Zhide Zhong, Haodong Yan, Donglin Wang, Jun Ma, Haoang Li · 单位：The Hong Kong University of Science and Technology (Guangzhou), Huazhong University of Science and Technology, Wuhan, China, Westlake University, Hangzhou, China, Zhejiang University, Hangzhou, China · 会议/期刊：ICRA 2026 · 日期：2026-02-26 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Efficiency / Small Model

视觉语言动作机器人学习数据集/基准

Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline figure — AlphaXiv 中文论文页面（可滚动查看）