Awesome Robotics Manipulation · full_paper

VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models

作者：Yiye Chen Yanan Jian Xiaoyi Dong, Shuxin Cao, Jing Wu Patricio Vela, Benjamin E. Lundell Dongdong Chen · 单位：Georgia Tech Nvidia Microsoft · 会议/期刊：arXiv · 日期：2026-02-04 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Auxiliary Tasks - Visual Goal Extraction

辅助任务视觉语言动作感知机器人学习

VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models figure — AlphaXiv 中文论文页面（可滚动查看）