Awesome Robotics Manipulation · full_paper

CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion

作者：Liudi Yang, Yang Bai, George Eskandar, Fengyi Shen, Mohammad Altillawi, Dong Chen, Ziyuan Liu, Abhinav Valada · 单位：University of Freiburg, Ludwig Maximilian University of Munich, Munich Center for Machine Learning (MCML), Technical University of Munich, Huawei Heisenberg Research Center (Munich) · 会议/期刊：arXiv · 日期：2025-12-17 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Auxiliary Tasks - World Model & Visual Prediction / World Model

视频规划辅助任务视觉语言动作扩散策略世界模型感知机器人学习操作

CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion figure — AlphaXiv 中文论文页面（可滚动查看）