Awesome Robotics Manipulation · full_paper

MM-ACT: Learn from Multimodal Parallel Generation to Act

作者：Haotian Liang, Xinyi Chen, Bin Wang, Mingkang Chen, Yitian Liu, Yuhao Zhang, Zanxin Chen, Tianshuo Yang, Yilun Chen, Jiangmiao Pang, Dong Liu, Xiaokang Yang, Yao Mu, Wenqi Shao, Ping Luo · 单位：Shanghai AI Laboratory, Shanghai Jiao Tong University, The University of Hong Kong, University of Science and Technology of China, Fudan University, Zhejiang University · 会议/期刊：CVPR 2026 · 日期：2025-11-30 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Auxiliary Tasks - Text Goal Extraction

辅助任务视觉语言动作机器人学习

MM-ACT: Learn from Multimodal Parallel Generation to Act figure — AlphaXiv 中文论文页面（可滚动查看）