Awesome Robotics Manipulation · full_paper

3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models

作者：Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Haishan Liu, Changti Wu, Hang Yuan, Bailing Wang, Cong Huang, Kai Chen, HIT ZGCA ZGCI HUST · 单位：HKUST(GZ) · 会议/期刊：arXiv · 日期：2026-03-25 · 来源：Low-Level Learning-Based Action Modelling / Input Modelling / 3D Vision Language Action Models

三维表征视觉语言动作机器人学习

3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models figure — AlphaXiv 中文论文页面（可滚动查看）