ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations
论文关注机器人操作策略对相机视角变化极其敏感、固定机位训练后难以真实部署的问题。作者提出 ManiVID-3D,用点云构建解耦的3D表征,并以无需外参标定的 ViewNet 将任意视角观测对齐到统一坐标系,再配合高速批量渲染支撑大规模RL训练。10个仿真和5个真实任务中,其在视角扰动下成功率较现有方法提升40.6%,参数量减少80%,且表现出较强 sim-to-real 泛化。