Awesome Robotics Manipulation · full_paper

Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching

作者：Yujie Wei, Jiahan Fan, Jiyu Guo, Ruichen Zhen, Rui Shao, Xiu Su, Zeke Xie, Shuo Yang B · 单位：Harbin Institute of Technology, Shenzhen, Meituan Academy of Robotics Shenzhen, Meituan, Central South University, HKUST(GZ) · 会议/期刊：arXiv · 日期：2026-01-31 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Efficiency / Token Pruning

视觉语言动作感知机器人学习

Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching figure — AlphaXiv 中文论文页面（可滚动查看）