Awesome Robotics Manipulation · full_paper

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

作者：Senyu Fei, Siyin Wang, Li Ji, Ao Li, Shiduo Zhang, Liming Liu, Jinlong Hou, Jingjing Gong, Xianzhong Zhao, Xipeng Qiu, feisenyu@outlook.com, siyinwang @fudan.edu.cn · 单位：Fudan University Tongji University Shanghai Innovation Institute · 会议/期刊：arXiv · 日期：2025-11-19 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with RL

视觉语言动作机器人学习

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models figure — AlphaXiv 中文论文页面（可滚动查看）