Awesome Robotics Manipulation · full_paper

MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training

作者：Zhenhan Yin, Xuanhan Wang, Jiahao Jiang, Kaiyuan Deng, Pengqi Chen, Shuangle Li, Chong Liu, Xing Xu, Jingkuan Song, Lianli Gao, Heng Tao Shen · 单位：Tongji University, University of Electronic Science and Technology of China · 会议/期刊：arXiv · 日期：2025-12-17 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 2D LLM-based Vision Language Action Models

模仿学习视觉语言动作泛化人机交互基础模型语言条件机器人学习

MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training figure — AlphaXiv 中文论文页面（可滚动查看）