Awesome Robotics Manipulation · full_paper

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

作者：Teli Ma, Jia Zheng, Zifan Wang, Chunli Jiang, Andy Cui, Junwei Liang, Shuo Yang · 单位：HKUST(GZ) · 会议/期刊：arXiv · 日期：2026-03-11 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D Vision Language Action Models with Auxiliary Tasks - World Model & Visual Prediction / Visual/State Prediction/Generation

视频规划辅助任务视觉语言动作泛化世界模型感知机器人学习

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control figure — AlphaXiv 中文论文页面（可滚动查看）