VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model figure
ICML2026arxiv_html

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

World Models

VLA世界模型策略学习感知

现有视觉-语言-动作(VLA)策略的在线后训练受限于真实世界rollout数据采集成本高昂,而现有世界模型因仅在演示数据上训练、缺乏对失败案例和接触丰富交互的覆盖,物理保真度不足,难以生成有效的合成数据。本文提出VLAW框架,利用少量真实在线rollout迭代微调世界模型以提升其对成功与失败轨迹的建模能力,进而生成大规模高保真合成数据,并结合视觉-语言奖励模型自动标注,通过稳定的监督学习目标优化VLA策略。实验表明,该方法在真实机器人接触丰富操作任务上使基础策略绝对成功率提升39.2%,其中合成数据贡献11.6%的增益。

RoboFlow4D: A Lightweight Flow World Model Toward Real-Time Flow-Guided Robotic Manipulation figure
ICML2026arxiv_html

RoboFlow4D: A Lightweight Flow World Model Toward Real-Time Flow-Guided Robotic Manipulation

World Models

世界模型

现有基于流的机器人操作方案多依赖堆叠多个专家子模型的模块化管道,计算开销大、延迟高,且2D像素流缺乏三维空间感知,易生成物理不可行轨迹。为此,本文提出端到端轻量级流世界模型RoboFlow4D,直接从RGB图像与文本指令预测多帧三维时空流,以目标导向的自适应规划替代固定时域预测,并通过低频规划与高频控制协作的闭环机制实现即插即用的实时引导。在LIBERO与ManiSkill3仿真中,该方法将操作成功率提升6.2%及11.0%,真实世界任务提升5–20%,相较模块化管道推理加速120倍,模型体量缩减24%,规划延迟约1秒。

Learning Task-Sufficient World Models by Synergizing Agentic Exploration and Structured Modeling figure
ICML2026temporary_pdf

Learning Task-Sufficient World Models by Synergizing Agentic Exploration and Structured Modeling

World Models

世界模型

现有世界模型的潜表示常混杂与控制无关的感知信息,导致策略脆弱且难以泛化。本文提出MIST-WM框架,通过智能体端主动干预——利用自监督技能探测环境以暴露任务相关潜因子——与环境端自适应课程——依据学习进度动态调整任务顺序和场景参数——的协同设计,端到端地学习最小且充分的任务特定潜表示。在连续控制和机器人操作基准上,该方法实现了样本高效的策略学习,并在技能组合、对象属性变化及未见过任务上展现出强泛化能力。

From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation figure
ICML2026arxiv_html

From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation

World Models

世界模型

现有基于视频生成的机器人操作往往直接将预测未来帧输入策略或解码为动作,导致视觉真实感与控制相关性错配。本文提出MoLA,通过预训练的模态感知逆动力学模型(语义、深度、光流)将生成视频中的状态转移转换为混合潜在动作,从而在动作空间而非图像空间中对未来想象进行推理。该方法在LIBERO、CALVIN及真实世界任务中均提升了成功率、时序一致性与泛化能力。

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model figure
ICML2026arxiv_html

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

World Models

VLA世界模型策略学习感知

现有视觉-语言-动作模型缺乏对环境物理动态的显式建模,而直接联合预测未来视觉与动作时,两者在维度与结构上的模态差异导致统一表征难以兼顾保真。本文提出DUST,以双流扩散架构独立维护动作与视觉令牌流,通过共享交叉注意力实现双向知识交换,并引入解耦流匹配损失与异步联合采样策略,在避免统一隐空间假设的同时支持推理时扩展。实验表明,DUST在RoboCasa与GR-1仿真环境中较基线提升最高6%,真实Franka任务上成功率提升13%,且异步采样可额外带来2–5%的增益。

DreamDojo: A Real-Time Robot World Model from Large-Scale Human Videos figure
ICML2026arxiv_html

DreamDojo: A Real-Time Robot World Model from Large-Scale Human Videos

World Models

世界模型视频

现有视频世界模型在机器人灵巧操作中常因数据覆盖有限与动作标注稀缺而难以泛化。DreamDojo提出利用44k小时大规模第一人称人类视频进行预训练,并通过连续潜在动作作为统一代理动作来关联视觉与动作因果性;经少量目标机器人数据后训练与蒸馏,模型达到10.81 FPS实时推理,在未见物体与环境的OOD基准上展现出零样本泛化能力,并支持实时遥操作与基于模型的规划。

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models figure
ICML2026arxiv_html

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

World Models

世界模型加速/部署

现有密集视觉世界模型(如DINO-WM)将计算资源均匀分配给静态背景与动态区域,导致推理缓慢,难以满足实时模型预测控制需求。本文提出DDP-WM,基于物理动态内在稀疏性的观察,将场景演化解耦为稀疏的“主要动态”与低秩的“背景更新”,并通过动态定位网络与低秩修正模块分别高效处理二者。实验表明,该方法在导航与操作等任务上同时提升了精度与速度,在Push-T任务中将MPC成功率从90%提升至98%,并实现了约9倍的推理加速。

SC2-WM: A Self-Correcting World Model with Closed-Loop Feedback for Vision-and-Language Navigation in Continuous Environments figure
ICML2026temporary_pdf

SC2-WM: A Self-Correcting World Model with Closed-Loop Feedback for Vision-and-Language Navigation in Continuous Environments

Vision-Language-Navigation Models

VLN世界模型导航感知

针对视觉语言导航中人类高视角指令与四足机器人低高度视角之间的信息不匹配问题,本文提出地面视角导航方法GVNav,利用加权历史观测构建时空上下文以缓解特征碰撞,并迁移HM3D与Gibson数据集的连通性图增强空间先验,从而提升低视角路点预测的泛化能力,在模拟环境与真实四足机器人部署中均显著改善导航性能。

MapDream: Task-Driven Map Learning for Vision-Language Navigation figure
ICML2026arxiv_html

MapDream: Task-Driven Map Learning for Vision-Language Navigation

Vision-Language-Navigation Models

VLN导航感知

现有视觉语言导航方法多依赖与决策过程解耦的手工地图,导致空间表征与导航需求错配。本文提出MapDream框架,核心洞察是地图应在决策循环内由导航目标直接塑造,而非追求详尽重建。该方法将地图构建视为自回归鸟瞰图图像合成,通过监督预训练建立映射接口,再经强化微调实现地图生成与策略的端到端联合优化,蒸馏出仅保留导航关键信息的紧凑三通道BEV表征。在R2R-CE和RxR-CE单目设置上取得同期最优性能。

Instruction Decomposition and Action Alignment for Vision-Language Navigation figure
ICML2026temporary_pdf

Instruction Decomposition and Action Alignment for Vision-Language Navigation

Vision-Language-Navigation Models

VLN导航感知

现有视觉语言导航方法通常一次性输入整条指令,导致视觉观察与指令子目标之间的对齐隐式且模糊。本文提出即插即用的Sub-Aligner模块,通过显式预测当前视觉观察最相关的子指令索引,实现细粒度对齐;并设计双阶段场景描述模块,利用VLM从方向与全景视角生成结构化语义描述以弥合语义鸿沟。在R2R和R4R基准上,该方法对微调型智能体DUET和零样本智能体MapGPT均带来一致的性能提升。

AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation figure
ICML2026arxiv_html

AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation

Vision-Language-Navigation Models

VLN规划/推理导航感知

针对视觉语言导航中固定步数推理造成的计算冗余与过度思考问题,本文提出AdaNav框架,以动作熵作为不确定性指标,通过轻量级UAR模块动态决策何时推理,并采用启发式到RL的渐进训练策略克服具身数据稀缺难题。仅用6K样本,该方法便在R2R、RxR-CE及真实世界场景中分别取得20%、11.7%与11.4%的成功率提升,且平均每条轨迹仅需2.5次推理。

XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations figure
ICML2026arxiv_html

XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations

Vision-Language-Action Models

VLA感知

针对现有VLA模型难以从高维观测生成精确低层动作、且难以利用异构数据(多本体机器人与人类视频)的问题,本文提出XR-1框架,其核心为通过双分支VQ-VAE学习统一视觉-运动码(UVMC),将视觉动态与机器人运动联合编码至共享离散潜在空间,并以对齐损失抑制无关视觉噪声。XR-1采用三阶段训练:自监督UVMC学习、UVMC引导的跨本体通用预训练及任务后训练。在六种本体、超120项任务的逾1.4万次真实世界推出中,XR-1在双手协作、灵巧操作与接触丰富场景下优于RDT、UniVLA与GR00T-N1.5等基线,并对新物体、背景与光照变化展现出强泛化能力。

Vision-Language-Action Pretraining from Large-Scale Human Videos figure
ICML2026temporary_pdf

Vision-Language-Action Pretraining from Large-Scale Human Videos

Vision-Language-Action Models

VLA视频感知数据

针对现有VLA因依赖小规模遥操作或合成数据而难以实现灵巧操作的问题,本文提出以人手作为“操作模板”,利用网络规模人类视频进行显式运动建模。其核心创新是物理指令微调范式:通过透视空间对齐统一异构数据,采用部件级运动分词器将连续手部运动离散化至毫米级精度,再经后训练适配机器人本体。基于此构建的UniHand数据集与Being-H模型表明,该方法在手部运动生成与指令跟随上表现优异且具备良好扩展性,并能有效提升真实机器人的灵巧操作能力。

VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model figure
ICML2026arxiv_html

VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model

Vision-Language-Action Models

VLA感知

现有VLA模型依赖快速直觉推理,在复杂场景中易失败。本文提出VLA-ATTC,通过基于不确定性的"认知离合器"自适应触发测试时计算,并引入相对动作评论家(RAC)以成对比较替代绝对打分来筛选候选动作,配合高效采样与自动化偏好数据降低开销。在LIBERO-LONG上,该方法将PI0.5的失败率降低逾50%,在真实任务中成功率提升17.3%,并保持20.8 Hz的实时控制频率。

Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action figure
ICML2026arxiv_html

Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action

Vision-Language-Action Models

VLA3D 视觉感知

针对现有视觉-语言-动作模型隐含假设目标始终可见、导致视野外操作失败的局限,本文提出SOMA框架,通过可移动头部相机扫描构建持久化的空间语义记忆,并动态精炼与指令感知的上下文检索,使机器人能在目标移出视野时仍基于记忆进行全局推理与操作。真实世界多步及双臂OOV任务实验表明,该方法不仅显著提升成功率,还实现了更快定位、更少探索和接近一次抓取的行为改进,并在RoboCasa与SimplerEnv的标准环境中验证了记忆机制的有效性。

Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery figure
ICML2026arxiv_html

Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery

Vision-Language-Action Models

VLA规划/推理感知

现有VLA模型存在推理僵化、缺乏状态感知与错误恢复能力不足的痛点。本文提出Sentinel-VLA,通过内置主动状态监控模块实现按需动态推理与错误自恢复,仅在异常或规划时触发深度思考,兼顾决策鲁棒性与推理效率。研究还设计了EC-Gen自动数据生成管线(覆盖44个任务、260万余 transitions)与SECL持续学习框架,配合OC-Adapter防止灾难性遗忘。实验表明,该方法在RLBench未见任务和真实场景中分别较SOTA提升逾22%与30%。

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models figure
ICML2026temporary_pdf

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

现有VLA测试时缩放方法依赖额外训练、验证器与多轮前向传播,且仅干预动作解码而固定视觉表征,难以应对感知歧义。本文提出SCALE,一种无需额外训练与验证器的单次前向推理策略:通过度量模型输出介于完全确定与完全模糊之间的自不确定性,自适应地联合调节视觉注意力温度与动作采样温度——高不确定性时拓宽感知与探索,低不确定性时聚焦执行。在多项模拟与真实机器人基准上,SCALE不仅提升了当前最优VLA的性能,还超越了需要多轮推理的现有测试时缩放方法。

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models figure
ICML2026arxiv_html

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models

Vision-Language-Action Models

VLA规划/推理感知

针对现有VLA模型中显式思维链推理导致推理开销大、且离散表示与连续感知控制不匹配的问题,本文提出LaRA-VLA框架,将文本与视觉CoT统一内化为连续潜在表示,在潜在空间中完成推理与预测,避免推理时生成显式CoT。该框架采用三阶段课程训练,逐步从显式多模态CoT监督过渡到潜在推理,再适配动作生成。实验表明,该方法在仿真与真实长程机器人操作任务上持续优于现有SOTA方法,同时将推理延迟降低多达90%,验证了潜在推理用于实时具身控制的有效性与高效性。

LaST0: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model figure
ICML2026arxiv_html

LaST0: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

Vision-Language-Action Models

VLA感知

针对现有VLA显式思维链推理延迟高、受限于语言空间而难以刻画细粒度物理动态的问题,本文提出LaST0,以紧凑的潜在时空思维链实现行动前高效推理。该方法自回归建模未来视觉、三维几何与本体状态,并基于Mixture-of-Transformers构建双系统架构,由低频慢推理专家捕获时空依赖,高频快动作专家实时生成动作。实验表明,其在仿真及真实场景的桌面、移动与灵巧手操作中均显著优于先前SOTA,推理速度较显式CoT提升约14倍。

No Figure
ICML2026temporary_pdf

HiMe: Hierarchical Embodied Memory for Long-Horizon Vision-Language-Action Control

Vision-Language-Action Models

VLA感知

针对现有LLM导航方法将全局记忆转为语言导致几何信息丢失、以及VLM方法仅依赖第一人称视角造成部分可观测的问题,本文提出一种视觉语言模型导航框架,通过自适应地从全局记忆模块检索任务相关线索并与自我中心视觉观测动态对齐,实现全局上下文与局部感知的融合。实验表明,该方法在ObjectNav任务上超越现有SOTA,且经微调的Llama3.2-11B模型优于GPT-4o。

HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning figure
ICML2026arxiv_html

HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning

Vision-Language-Action Models

VLA规划/推理感知

现有视觉-语言-动作模型在长程或分布外任务中常因缺乏显式多模态推理与环境演变预判而失效。HALO提出“具身多模态思维链”,将文本任务推理、视觉子目标预测与动作生成统一于单一框架,并以Mixture-of-Transformers架构将语义推理、视觉前瞻和动作预测解耦为可协作的专门专家。配合自动化的EM-CoT数据合成管线与分阶段训练策略,HALO在RoboTwin基准上较基线提升34.1%,并在模拟与真实环境中展现出强泛化能力。

From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges figure
ICML2026arxiv_html

From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

Vision-Language-Action Models

VLA感知

现有生成式VLA策略从纯粹噪声中生成动作,忽视了高层语义与底层物理控制在时空尺度上的本质错配,导致表示冗余和优化中的条件对齐崩溃。ResVLA提出“从意图精炼”范式,利用频谱分析将控制解耦为确定性的低频意图锚点与随机的高频残差,仅在锚定路径上通过残差扩散桥补全局部动力学。实验表明,该方法在长程语义任务和接触丰富操作中具有更强的鲁棒性,训练收敛与推理效率均显著优于标准扩散基线,并在真实机器人平台上得到有效验证。

From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model figure
ICML2026temporary_pdf

From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model

Vision-Language-Action Models

VLA感知

针对VLA模型中预训练VLM表征对机器人本体感知与控制信号不敏感的问题,本文提出Robot State-aware Contrastive Loss(RS-CL),利用本体感知状态的相对距离作为软监督进行对比学习,将表征与机器人物理状态显式对齐,并辅以view cutoff表征增强。该方法轻量且兼容现有训练流程,在RoboCasa-Kitchen的pick-and-place任务上将SOTA从30.8%提升至41.5%,并在真实机器人挑战任务上将成功率从45.0%提升至58.3%。

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies figure
ICML2026arxiv_html

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

Vision-Language-Action Models

VLA策略学习感知

现有视觉-语言-动作策略多依赖自回归或外挂MLP与连续扩散头,造成信息通路碎片化与训练不统一。本文提出Discrete Diffusion VLA,将动作维度离散化为token块,在单一Transformer内通过离散扩散实现渐进式动作解码,并引入自适应解码顺序与二次重掩码机制,以并行方式逐步确认高置信度token并修正低置信度预测,从而打破自回归瓶颈并保留预训练VLM先验。实验表明,该方法在LIBERO上平均成功率达96.3%,在SimplerEnv-Fractal与Bridge上总体表现分别为64.1%与54.2%,且推理所需的函数评估次数低于自回归基线。

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting figure
ICML2026arxiv_html

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Vision-Language-Action Models

VLA感知

通用视觉-语言-动作模型擅长处理类别级语义指令,却难以区分“我的杯子”这类具体实例,常在同类别干扰物中定位失败。本文提出Visual Attentive Prompting(VAP),一种无需额外训练的输入端感知适配器:它将少量参考图像作为非参数视觉记忆,通过开放词汇检测与嵌入匹配在场景中定位用户特定物品,再以高亮掩码与重写指令的形式将实例信息直接注入冻结的VLA。作者在仿真环境及真实桌面机器人上建立个性化操作基准,实验表明VAP在实例识别准确率与操作成功率上均显著优于通用策略和token学习基线。

No Figure
ICML2026temporary_pdf

A Generalist Pair-wise Progress Critic Model for Vision-Language-Action Robots

Vision-Language-Action Models

VLA感知

现有 VLA 模型在动态开放环境中缺乏可靠的任务进度反馈与自主改进机制。为此,本文提出 VLAC,将动作生成与进度评估统一于单一自回归架构。其核心在于成对图像观测间的相对进度变化建模:通过预测同一条轨迹中任意两帧的任务进度差,模型可在无动作标注的人类视频、带动作标签的机器人数据及通用视觉语言数据上联合训练,获得细粒度且可泛化的密集奖励估计。实验显示,该方法在八个数据集上具备跨任务与跨实体的泛化能力,能有效区分成功与失败轨迹;在真实机器人操作中,动作生成表现出强扰动鲁棒性,并支持基于内在奖励的强化学习,在约 200 个 episode 内将成功率从约 30% 提升至 90%。

STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction figure
ICML2026arxiv_html

STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction

Policy

策略学习

针对扩散策略迭代去噪的高延迟瓶颈,本文提出 STEP 框架,以轻量级时空一致性预测生成贴近目标分布且时序连贯的热启动动作,将去噪压缩至 2 步并保留原始策略的生成能力;同时设计速度感知扰动注入机制,依据动作时序变化自适应激发执行,避免真实场景中的动作停滞。理论证明该预测可诱导局部收缩映射,保证扩散细化中动作误差收敛。在 RoboMimic 及真实机器人任务上的实验表明,STEP 仅用 2 步去噪即取得比 BRIDGER 高 21.6%、比 DDIM 高 27.5% 的平均成功率,显著改善了延迟与成功率的权衡。

GeoMoLa: Geometry-Aware Motion Latents for Learning Robust Manipulation Policies figure
ICML2026temporary_pdf

GeoMoLa: Geometry-Aware Motion Latents for Learning Robust Manipulation Policies

Policy

3D 视觉策略学习

现有机器人操作的运动潜变量多从二维视觉序列提取,忽略了决定操作成败的三维时空几何。本文提出GeoMoLa,核心洞察是有效的运动潜变量应编码三维空间随时间的几何变换而非静态场景或视觉运动;该方法通过自监督预测操作中点云的演变来学习离散潜变量,迫使表征捕获动作与空间效应的因果关系。实验表明,仅凭单视角RGB-D输入即可在多个基准上达到SOTA,消融验证了几何预测是驱动性能的关键,且在真实杂乱环境中仅需少量示教即可实现鲁棒操作。

FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy figure
ICML2026arxiv_html

FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy

Policy

策略学习

针对动作分块策略中块间不连续导致长程轨迹不连贯的问题,本文提出FocalPolicy。其核心是通过Foresight Composite Objective在时域精调近端动作的同时,以频域正则化约束未来多块的跨块连贯性;并设计Locally Anchored Sampling将一致性流匹配的采样锚定于终端时刻附近,提升目标信号传播效率与训练稳定性。实验表明该方法在仿真与真实机器人任务中优于现有基线,且模块具有良好的泛化性。

Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation figure
ICML2026arxiv_html

Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation

Policy

策略学习

针对视觉-语言-动作模型在真实机器人上适应时演示数据昂贵的难题,本文指出在低预算下盲目追求演示多样性反而会因单条件样本稀疏导致估计方差激增,陷入“多样性陷阱”。作者形式化提出“覆盖-密度权衡”,并设计锚点中心适应框架:先在核心锚点重复采样以构建稳定的策略骨架,再通过教师强制偏差挖掘高风险边界,并以参数高效的残差路径约束更新。真实机器人实验表明,该框架在同等数据预算下显著优于标准多样化采样策略,有效提升了任务成功率与可靠性。

Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models figure
ICML2026arxiv_html

Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models

Policy

VLA策略学习感知

针对VLA策略在分布偏移下易失效、现有注意力机制常关注背景等无关区域的问题,该研究将视觉-动作归因转化为干预估计问题,提出Interventional Significance Score (ISS)以量化视觉区域对动作决策的因果影响,并引入Nuisance Mass Ratio (NMR)衡量策略对任务无关特征的依赖程度。理论分析证明了ISS的无偏估计特性,实验表明NMR可有效预测模型的分布外泛化表现,且ISS相比现有方法能提供更忠实的解释。

Demystifying Action Space Design for Robotic Manipulation Policies figure
ICML2026arxiv_html

Demystifying Action Space Design for Robotic Manipulation Policies

Policy

策略学习

针对机器人模仿学习中动作空间设计长期依赖启发式与遗留配置、缺乏系统共识的问题,本文沿时间与空间两个正交维度建立动作抽象分类体系,并在双臂机器人上开展大规模实证研究,涵盖13,000余次真实世界rollout与500余个训练模型。结果发现,策略预测delta动作较绝对表示能稳定带来性能提升,而关节空间与任务空间参数化分别有利于控制稳定性与跨场景泛化,且实现细节的差异对最终性能具有决定性影响。

LAGEA: Language Guided Embodied Agents for Robotic Manipulation figure
ICML2026arxiv_html

LAGEA: Language Guided Embodied Agents for Robotic Manipulation

Planning and Reasoning

规划/推理

现有机器人操作虽能借助基础模型理解目标,却缺乏从失败中系统学习的能力,且直接将VLM输出作为奖励易受噪声与幻觉干扰。本文提出LaGEA,通过让VLM生成结构化、带关键帧定位的语言反馈,并将其与视觉状态对齐,转化为基于势函数的步级奖励塑形信号,以自适应系数调节早期探索与后期稳定。实验表明,该方法在Meta-World MT10和Fetch任务上较SOTA平均成功率分别提升最多9.0%与17%,并显著加快收敛。

Drift is a Sampling Error: SNR-Aware Power Distributions for Long-Horizon Robotic Planning figure
ICML2026arxiv_html

Drift is a Sampling Error: SNR-Aware Power Distributions for Long-Horizon Robotic Planning

Planning and Reasoning

规划/推理

该论文指出VLA模型在长程机器人任务中的指令漂移本质上是系统性采样误差,局部贪婪采样易陷入不可逆的“负关键窗口”而切断全局成功路径。为此提出无需训练的CAPS框架,通过幂分布锐化全局轨迹概率,并基于SNR的元认知机制在漂移风险时自适应触发MCMC搜索,实现“必要才搜索”的推理时计算。在RoboTwin、Simpler-WindowX和Libero-long基准上,CAPS在不更新参数的情况下显著优于OpenVLA与TACO。

Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation figure
ICML2026arxiv_html

Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation

Planning and Reasoning

规划/推理

现有跨任务上下文学习方法仅提供低级连续动作序列,导致大语言模型退化为轨迹模式匹配而非技能推理。本文提出"Decompose and Recompose"框架,将已有演示分解为原子技能-动作对作为可组合中间表示,并通过动态演示库与覆盖感知静态库的双库检索机制,分别提供任务自适应示例与补充缺失技能模式,显式激发模型对技能组合与执行顺序的组合推理能力。在AGNOSTOS基准和真实环境中的实验验证了该方法的零样本跨任务泛化能力。

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments figure
ICML2026arxiv_html

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Navigation

VLA导航感知

现有VLA模型默认视觉语言推理与实时控制时间对齐,但后者需连续高频运行,前者常因计算受限产生数秒延迟,导致策略基于过期的语义状态做决策。本文提出TIC-VLA,通过延迟语义-控制接口将延迟的VLM特征连同显式延迟与自运动元数据注入动作策略,并在模仿学习与在线强化学习中注入推理延迟进行对齐训练。在自研的DynaNav仿真及真实机器人实验中,该方法在多秒延迟下仍优于先前VLA模型并保持鲁棒实时控制。

SafeDec: Constrained Decoding for Safe Autoregressive Generalist Robot Navigation Policies figure
ICML2026temporary_pdf

SafeDec: Constrained Decoding for Safe Autoregressive Generalist Robot Navigation Policies

Navigation

导航

针对现有端到端通用机器人策略缺乏形式化安全保证且重训练成本高昂的问题,本文提出SafeDec框架,将任务安全规则以信号时序逻辑(STL)公式表达,在推理时通过约束解码直接干预自回归动作生成过程,使其满足规范而非仅事后过滤。该方法无需重训练且与底层策略无关,在CHORES benchmark上对SPOC、Flare、PoliFormer等模型的评估表明,其显著提升了安全规范满足率并保持了较高的任务成功率。

Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation figure
ICML2026arxiv_html

Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation

Navigation

导航

针对具身导航中视觉-语言模型缺乏对齐的开放世界感知控制数据且Sim2Real迁移困难的问题,本文提出SAGE框架,核心洞察是模仿人类在简化物理抽象中进行心智模拟。该方法在Genesis阶段于物理约束的语义沙盒中自主合成多样化任务轨迹并提取经验,经Evolution阶段通过非对称自适应裁剪的强化学习机制稳定内化先验,再由Navigation阶段将高层语义策略转化为几何规划器可执行的子目标节点。实验显示,该方法在A-EQA上达到53.21%的LLM-Match成功率,较基线提升9.7%,并成功实现向真实室内机器人的策略迁移。

Hydra-Nav: Object Navigation via Adaptive Dual-Process Reasoning figure
ICML2026arxiv_html

Hydra-Nav: Object Navigation via Adaptive Dual-Process Reasoning

Navigation

规划/推理导航

针对视觉语言模型在物体导航中时空推理薄弱、频繁推理又带来过高计算开销的问题,本文提出Hydra-Nav,通过统一架构自适应切换审慎的“慢系统”与反应式的“快系统”。该工作设计了三阶段课程训练:先进行空间动作对齐,再整合记忆与长程时空推理,最后通过迭代拒绝微调让模型学会在关键决策点选择性启用推理。在HM3D、MP3D和OVON基准上,该方法均取得最优性能,较次优方法分别提升11.1%、17.4%和21.2%,并引入SOT指标验证了自适应推理在成功率与操作效率上的双重优势。

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion figure
ICML2026arxiv_html

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion

Humanoid

人形机器人

针对现有人形机器人全身控制需逐机训练、跨平台迁移成本高的问题,本文提出XHugWBC框架,通过物理一致性的形态随机化生成多样且合理的异构机器人实例,并建立语义对齐的通用状态-动作表示与图结构策略网络,使单一策略在训练中内嵌广泛的运动先验。实验首次在7款真实异构人形机器人上实现零样本全身控制,在12款仿真机器人上达到专家策略约85%的性能;以该通用策略初始化微调后,表现可超越专家10%,验证了方法的可扩展跨具身泛化能力。

DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation figure
ICML2026arxiv_html

DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation

Dexterous Manipulation

灵巧操作

本文研究从人手演示中学习灵巧双手操作策略的功能重定向问题。针对长程双手关节物体任务中高维空间、复杂接触及人机具身差异导致的探索困难,作者提出课程化强化学习算法DexMachina,其核心在于利用强度衰减的虚拟物体控制器自动牵引目标物体,并辅以运动与接触奖励,引导策略逐步接管操作。实验表明,该方法在涵盖6种灵巧手与5种关节物体的基准上显著优于基线,并支持对不同硬件设计进行功能性评估。

DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter figure
ICML2026arxiv_html

DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter

Dexterous Manipulation

策略学习灵巧操作触觉

现有双手灵巧操作策略通常以耦合方式融合视觉、本体与触觉,难以发挥各模态的差异化作用。为此,本文提出解耦多模态扩散Transformer DECO,通过独立条件路径分别注入各模态信息,并设计即插即用的轻量触觉适配器,以不到10%的参数将触觉高效接入预训练策略。在自建的DECO-50数据集上训练后,真实机器人实验显示DECO平均成功率达72.25%,较基线提升21%;该适配器在接触密集任务上额外带来20%的增益。

SafeLab: An Interactive High-Fidelity Benchmark for Embodied Safety in Scientific Robotics figure
ICML2026temporary_pdf

SafeLab: An Interactive High-Fidelity Benchmark for Embodied Safety in Scientific Robotics

Benchmark and Dataset

Benchmark/数据集

针对实验室场景对机器人操作具有零容错要求(如化学试剂泄漏或仪器损坏不可逆),而现有基准多为高容错可逆任务、VLA模型仅靠静态模仿学习易产生复合误差的问题,本文提出SafeLab基准。其基于高保真化学实验室,集成LLM程序任务合成、自动专家演示生成与安全感知RL交互环境,以支持在不可逆失败模式下进行动态纠错学习。实验释放6000余条轨迹,表明当前VLA模型在安全约束下失败显著,而经RL后训练的成功率提升37%。

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation figure
ICML2026arxiv_html

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Benchmark and Dataset

灵巧操作Benchmark/数据集数据

针对双臂操作缺乏可扩展高质量合成数据的瓶颈,本文提出RoboTwin 2.0仿真框架,利用多模态大语言模型与仿真内循环反馈自动生成专家级任务代码,并在杂乱、光照、背景、台面高度与语言指令五维实施结构化域随机化,同时引入具身感知抓取适配兼容异构双臂平台。依托含731个物体的RoboTwin-OD资产库,框架覆盖50项任务与五种具身。实验显示代码生成成功率提升10.9%,纯合成数据训练的零样本策略在真实环境相对基线提升228%,叠加10条真实演示后增益达367%,显著强化了跨环境鲁棒性与sim-to-real迁移能力。

OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning figure
ICML2026arxiv_html

OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning

Benchmark and Dataset

策略学习Benchmark/数据集数据

针对OXE数据集因高度不平衡(前四种机器人占比超85%)而易导致策略对特定机器人-场景过拟合的问题,本文提出AugE-Toolkit可扩展增强流程,将原始OXE中16个数据集扩展为包含9种新具身的OXE-AugE开源数据集,轨迹量逾440万,约为原始三倍。系统研究表明,规模化增加多样化臂与夹爪的增强数据,不仅提升增强本体及原始本体在视觉扰动下的鲁棒性,还改善对未见过具身的泛化。真实实验中,OpenVLA与π0等通用策略经该数据集微调后,在未见过的机器人-夹爪配置上成功率提升24%至45%。

No Figure
ICML2026temporary_pdf

ManiSoft: Towards Vision-Language Manipulation for Soft Robotics

Benchmark and Dataset

Benchmark/数据集感知

针对视觉-语言-动作(VLA)模型因规模庞大而难以部署在资源受限边缘设备的问题,本文提出首个1-bit VLA模型BitVLA,将语言模型参数量化为三值(-1, 0, 1),并设计蒸馏感知训练策略,在教师模型指导下将视觉编码器权重压缩至1.58位以进一步减小显存占用。尽管未进行大规模机器人预训练,BitVLA在LIBERO基准上取得了与4-bit量化的OpenVLA-OFT相当的操控成功率,而内存占用仅为其29.8%,为边缘端机器人操控提供了兼顾性能与效率的解决方案。

FlatLab: A Unified Methodology Framework and Simulation-Based Benchmark for Robotic Manipulation of Flat Objects figure
ICML2026temporary_pdf

FlatLab: A Unified Methodology Framework and Simulation-Based Benchmark for Robotic Manipulation of Flat Objects

Benchmark and Dataset

世界模型Benchmark/数据集

现有平面可变形物体操作的benchmark普遍存在任务单一、仿真失真及sim-to-real差距大等局限。为此,本文构建了一套统一仿真环境,基于Isaac Sim支持PBD与FEM等多物理仿真,配备丰富的服装、执行器及场景资产,设计了涵盖服装与刚体、流体、人体交互的20项任务,并提出多种sim-to-real算法与真实世界benchmark。实验表明,当前视觉、强化学习及模仿学习方法在展开、折叠等任务中仍面临显著挑战,泛化与长程规划能力不足,而所提sim-to-real策略在真实机器人上获得验证。

DLO-Lab: Benchmarking Deformable Linear Object Manipulations with Differentiable Physics figure
ICML2026temporary_pdf

DLO-Lab: Benchmarking Deformable Linear Object Manipulations with Differentiable Physics

Benchmark and Dataset

Benchmark/数据集

现有DLO操作研究多局限于特定任务且依赖真实数据,缺乏支持多样材料行为的仿真环境。为此,本文提出可微分物理仿真引擎DLO-Lab,支持可伸展与不可伸展、弹性、弯曲塑性等丰富材料属性,并实现DLO与刚体、可变形体等的多物理场耦合。基于该仿真器,作者构建了一套DLO操作基准任务,系统比较了强化学习、采样式与梯度式轨迹优化:梯度法样本效率最高,采样法通用但低效,强化学习数据需求极大;同时通过真实机器人实验验证了仿真的sim-to-real迁移能力。

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation figure
ICML2026arxiv_html

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

Benchmark and Dataset

VLABenchmark/数据集感知

现有VLA研究多聚焦于地面移动机械臂,难以直接适用于具有浮动基座动力学与机臂强耦合特性的空中作业系统。针对该领域数据与评测基准缺失的问题,本文提出首个面向空中操作的VLA基准AIR-VLA,构建了基于物理的仿真环境并发布3000条高质量多模态遥操作数据,同时设计了覆盖无人机定位、机械臂效能及长程规划的多维评测指标。实验表明,主流VLA模型虽可迁移至空中平台,但在三维全向移动、浮动基座下的精细操作及高阶任务规划上仍存在明显能力边界。

Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds figure
ICML2026arxiv_html

Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds

3D Vision

VLA3D 视觉感知

现有视觉-语言-动作模型多依赖2D输入,空间理解受限且3D训练数据稀缺、跨环境域差距大。本文提出Any3D-VLA,通过将视觉输入显式提升为点云,并统一仿真器、传感器与模型估计的多元点云来源进行混合训练,学习域无关的3D表示,再与2D特征融合。实验表明,该方法在真实世界零样本任务中最高准确率达62.5%,较最佳基线提升29.2%,微调后可达93.3%,在LIBERO和CALVIN基准上也展现出良好的泛化性与鲁棒性。

WoW!: World Models in a Closed-Loop World figure
ICLR2026temporary_pdf

WoW!: World Models in a Closed-Loop World

World Models

世界模型

现有世界模型评测多孤立关注视觉质量,忽视其对具身决策的实际效用。本文提出首个闭环评测平台World-In-World,通过统一在线规划策略与标准化动作API,将异构世界模型接入真实交互回路,在感知、导航与操作等任务中检验其闭环任务成功率。研究发现:视觉逼真度与任务成功无必然联系,可控性更为关键;基于动作-观测数据的后训练比升级预训练模型更有效;增加推理时计算能显著提升闭环表现。文中还首次报告了具身场景下世界模型的数据缩放规律。

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models figure
ICLR2026arxiv_html

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

World Models

VLA世界模型策略学习感知

现有视觉-语言-动作模型依赖模仿学习,难以从失败恢复,且真实机器人强化学习样本效率极低。WMPO提出基于像素空间视频世界模型的策略优化框架,在“想象”中生成与VLA预训练视觉特征对齐的完整轨迹,实现无需真实环境交互的在线策略强化学习。该框架通过策略行为对齐微调世界模型,并采用基于结果的奖励模型避免复杂塑形。实验表明,WMPO在仿真与真实场景中显著提升了样本效率,策略涌现出自我纠正等未见行为,并具备较强的泛化与终身学习能力。

Vid2World: Crafting Video Diffusion Models to Interactive World Models figure
ICLR2026arxiv_html

Vid2World: Crafting Video Diffusion Models to Interactive World Models

World Models

世界模型策略学习视频

现有世界模型常受限于域内动作标注数据不足与预测保真度低的问题。本文提出 Vid2World,通过将互联网规模无动作视频上预训练的视频扩散模型进行“因果化”改造——重塑时序注意力、卷积结构与训练目标以支持自回归生成,并引入因果动作引导机制注入帧级动作信号——将其转化为交互式世界模型。在机器人操作、3D游戏模拟和开放世界导航上的实验表明,该方法能在有限交互数据下实现高保真、动作可控的未来预测,为复用预训练视频扩散模型构建世界模型提供了有效路径。

Unified 3D Scene Understanding Through Physical World Modeling figure
ICLR2026temporary_pdf

Unified 3D Scene Understanding Through Physical World Modeling

World Models

世界模型3D 视觉感知

现有3D视觉方法通常将深度估计、新视角合成与物体操作割裂处理,导致各任务难以共享表征与迁移知识。本文提出3WM,将RGB、光流与相机位姿统一建模为概率图节点,并以自回归next token预测实现该图模型,使不同任务仅通过不同的提示路径即可零样本涌现。该框架在真实场景的NVS与3D物体操作上达到最优性能,并支持组合式几何推理,如移动物体同时导航、遮挡物移除后的非模态补全等复杂交互。

Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments figure
ICLR2026arxiv_html

Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments

World Models

世界模型

现有基于大模型的具身智能体在动态环境中适应性不足,传统MoE的路由函数部署后固定,难以应对未见领域。为此,本文提出TMoW框架,在测试时动态更新世界模型的混合路由:通过多粒度原型路由匹配对象至场景层级的相似性,并在推理时在线细化原型以对齐新域特征,同时支持以少样本蒸馏现有专家知识来增量构建新模型。实验涵盖VirtualHome、ALFWorld、RLBench及真实场景,在零样本适应和少样本扩展上分别较最优基线提升27.21%和25.66%,验证了该框架对动态环境的持续适应能力。

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy figure
ICLR2026arxiv_html

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

World Models

世界模型规划/推理策略学习

现有具身智能体常将推理与世界模型解耦,导致学习效率与泛化受限。本文提出端到端通才策略RIG,在单一Transformer中协同训练文本推理、低级动作与视觉想象,并通过渐进式数据流水线——先为轨迹注入推理、再基于失败轨迹构建“想象-回顾”数据——显式建模动作逻辑与环境动态关联。在Minecraft开放世界任务中,RIG仅用111小时视频(远低于此前约2000小时需求)即在多项基准达到领先性能,并可通过推理时的前瞻步数进行测试时扩展以持续提升鲁棒性。

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning figure
ICLR2026arxiv_html

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

World Models

世界模型策略学习触觉加速/部署

针对像素级基于模型的强化学习因重建损失被背景主导而忽略关键小对象、导致样本效率低下的问题,本文提出OC-STORM框架,利用预训练分割网络从极少帧标注中提取对象表征,融入世界模型以显式建模对象动态与交互。实验表明,该方法在Atari 100k上显著优于STORM基线,并在视觉复杂的Hollow Knight Boss战中达到了当前最优的样本效率,且无需大量标注或环境内部状态。

NeMo-map: Neural Implicit Flow Fields for Spatio-Temporal Motion Mapping figure
ICLR2026temporary_pdf

NeMo-map: Neural Implicit Flow Fields for Spatio-Temporal Motion Mapping

World Models

世界模型

现有动态地图依赖离散网格表示,导致信息损失且离线构建成本高昂。本文提出NeMo-map,利用隐式神经函数将时空坐标直接映射到半包裹高斯混合模型参数,实现连续时空查询下的多模态运动建模,无需离散化即可在空间与时间维度平滑泛化。在真实行人追踪数据上的实验表明,该方法在运动表示精度、稀疏区域速度分布平滑性及计算效率上均优于现有基线,并有效提升了轨迹预测性能。

Learning Massively Multitask World Models for Continuous Control figure
ICLR2026arxiv_html

Learning Massively Multitask World Models for Continuous Control

World Models

世界模型

现有通才策略多依赖专家轨迹的监督学习,受限于数据规模与演示质量,连续控制领域亦普遍认为在线强化学习难以扩展。本文挑战该假设,提出首个大规模多任务基准MMBench(含200个跨域任务)与世界模型Newt:先在演示上预训练获取任务感知表征与动作先验,再跨任务在线交互联合优化,并辅以架构改进与额外动作监督。实验表明,单一策略通过在线RL同时训练数百个连续控制任务是可行的,Newt在状态输入下优于强基线,可快速迁移至未见任务与具身,并具备长时程开环控制能力。

FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction figure
ICLR2026arxiv_html

FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction

World Models

世界模型3D 视觉视频

当前视频生成模型虽具强大想象先验,却缺乏显式三维约束,难以保证空间一致性并支撑下游三维推理。FantasyWorld冻结视频基础模型主干,嫁接可训练几何分支,通过预处理与集成重建生成模块,在单次前向传播中联合建模视频潜变量与隐式三维场,并以跨分支监督使几何与视频相互正则化。实验表明,该方法无需逐场景优化即可输出几何一致的视频,并为新视角合成与导航等任务提供可直接复用的三维特征,在多视图与风格一致性上优于现有基线,消融亦证实统一主干与跨分支信息交换的关键作用。

ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning figure
ICLR2026arxiv_html

ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning

World Models

世界模型规划/推理

现有抽象世界模型多假设环境仅因智能体瞬时动作而变,难以处理烧水、多米诺倒塌等外生动态过程。本文提出ExoPredicator框架,联合学习符号状态抽象与涵盖内生动作和外生机制的因果过程模型,将逐帧世界动态抽象为因果事件间的离散跳跃,并通过变分贝叶斯推断与LLM引导从有限数据中学习模型参数与结构。在五个模拟桌面机器人任务中,所学模型支持快速规划,并泛化到物体更多、目标更复杂的测试场景,性能优于多个基线方法。

Empowering Multi-Robot Cooperation via Sequential World Models figure
ICLR2026arxiv_html

Empowering Multi-Robot Cooperation via Sequential World Models

World Models

世界模型

针对多机器人协作中联合动力学复杂导致基于模型的强化学习难以落地的问题,本文提出SeqWM框架,将顺序决策范式融入多机器人世界模型与规划。每个机器人维护独立的世界模型,按顺序基于前驱的预测轨迹自回归地预测自身动态并规划动作,既降低建模复杂度,又通过显式意图共享催生预测适应、时间对齐与角色分工等高级协作行为。在Bi-DexHands与Multi-Quadruped任务中,SeqWM在性能与样本效率上均超越现有基线,并成功部署于真实四足机器人平台。

Efficient Reinforcement Learning by Guiding World Models with Non-Curated Data figure
ICLR2026temporary_pdf

Efficient Reinforcement Learning by Guiding World Models with Non-Curated Data

World Models

世界模型策略学习触觉数据加速/部署

现有离线到在线强化学习多依赖带奖励标签的精选数据,标注成本高。本文提出利用无奖励、质量混杂且跨具身的非策划离线数据提升样本效率。作者发现直接微调世界模型会因离线与在线数据分布偏移而失效,于是提出经验回放与执行引导,在微调阶段复用离线轨迹以弥合分布差距并引导探索。在72项视觉运动任务上,有限样本预算下该方法取得接近从头训练两倍的总分,显著优于既有方法。

Ctrl-World: A Controllable Generative World Model for Robot Manipulation figure
ICLR2026arxiv_html

Ctrl-World: A Controllable Generative World Model for Robot Manipulation

World Models

世界模型

针对通用机器人策略在开放世界评估与改进依赖大量真实交互、成本高昂且难以扩展的问题,现有世界模型因仅支持单视角预测、缺乏细粒度动作控制及长程一致性,无法与现代VLA策略在环交互。本文提出Ctrl-World,通过联合多视角(含腕部视角)预测、帧级动作条件及位姿条件记忆检索,构建了可控的生成式世界模型,实现策略在环的长程想象推演。基于DROID数据集训练,该模型可泛化至新场景与相机位姿并维持20秒以上时空一致性;无需真实机器人交互即可准确排序策略表现,并可通过在想象中合成成功轨迹进行监督微调,使策略成功率提升44.7%。

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning figure
ICLR2026arxiv_html

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

World Models

世界模型规划/推理策略学习视频

针对现有视频模型适配机器人策略时往往需要多阶段训练或新增架构组件的复杂性问题,本文提出 Cosmos Policy,通过单阶段后训练将预训练视频模型直接转化为机器人策略。其核心洞察是将动作、未来状态和价值均编码为潜在帧,在无需修改原始扩散架构的前提下实现联合建模,并支持基于世界模型的 test-time 规划。该方法在 LIBERO、RoboCasa 及真实双臂操作任务上均取得最优性能,其中模型规划在挑战性任务中较直接执行平均提升 12.5% 的成功率。

Context and Diversity Matter: The Emergence of In-Context Learning in World Models figure
ICLR2026arxiv_html

Context and Diversity Matter: The Emergence of In-Context Learning in World Models

World Models

世界模型

现有静态世界模型在面对罕见或新环境时难以自适应,而本文转向研究世界模型的上下文学习能力及其渐近极限。作者将世界模型的上下文学习形式化为环境识别与环境学习两种机制,并推导其误差上界以揭示长上下文与环境多样性对机制涌现的决定性作用;在此基础上提出线性注意力的长上下文世界模型L2World,在随机倒立摆与视觉导航任务中验证了理论预测,并在跨环境长序列观测预测上取得优于扩散骨干方法的表现。

Building spatial world models from sparse transitional episodic memories figure
ICLR2026arxiv_html

Building spatial world models from sparse transitional episodic memories

World Models

世界模型3D 视觉

现有空间世界模型多依赖连续长轨迹,难以处理稀疏、跨时段的观测及环境变化。受内侧颞叶整合情景记忆与空间表征的神经机制启发,本文提出Episodic Spatial World Model(ESWM),通过元学习从稀疏且可独立更新的情景记忆库中推断环境结构。实验表明,ESWM的隐空间可自发涌现与环境几何对齐的空间地图,支持重叠记忆整合;在未见环境中,无需额外训练即可实现近最优的探索与导航,并能通过局部修改记忆快速适应环境变化,且可扩展至高维连续场景。

Astra: General Interactive World Model with Autoregressive Denoising figure
ICLR2026arxiv_html

Astra: General Interactive World Model with Autoregressive Denoising

World Models

世界模型

现有视频生成模型虽能合成高质量短片段,却难以在长程预测中同时保持历史一致性与对外部动作的灵敏响应,亦缺乏对异构动作模态的通用支持。Astra 提出自回归去噪世界模型,以时间因果注意力聚合历史观测,并引入噪声增强记忆来缓解视觉惯性、提升动作敏感性;同时通过动作感知适配器与动作专家混合(MoAE)统一注入相机、机器人等异构控制信号。在自动驾驶、机器人操作等多场景实验中,Astra 在长程预测的保真度、时序连贯性与动作对齐上均优于现有世界模型。

Uncertainty-Aware Gaussian Map for Vision-Language Navigation figure
ICLR2026temporary_pdf

Uncertainty-Aware Gaussian Map for Vision-Language Navigation

Vision-Language-Navigation Models

VLN导航3D 视觉感知

针对视觉语言导航中现有智能体忽略感知不确定性的局限,本文提出显式建模几何、语义与外观三类感知不确定性的方法。智能体基于全景观测构建语义高斯地图,通过变分推断和Fisher Information分别度量结构可靠性、语义歧义性与外观敏感度,并将不确定性整合为统一的3D Value Map以约束和辅助决策。在R2R、RxR和REVERIE基准上的实验表明,该方法在成功率和路径效率等指标上均取得提升。

Towards Physically Executable 3D Gaussian for Embodied Navigation figure
ICLR2026arxiv_html

Towards Physically Executable 3D Gaussian for Embodied Navigation

Vision-Language-Navigation Models

VLN导航3D 视觉感知

针对3D Gaussian Splatting虽具备真实感实时渲染能力却缺乏物体级语义与物理可执行性的问题,本文提出SAGE-3D范式,通过物体级语义锚定与3DGS-Mesh混合物理接口将3DGS升级为可执行的导航环境,并发布含1K场景的InteriorGS数据集及200万条数据的SAGE-Bench基准,设计了分层指令与导航自然连续性评估指标。实验发现3DGS数据收敛更慢,但在VLN-CE Unseen任务上较基线提升31%成功率,且新指标有效暴露了传统评估忽略的持续碰撞与运动不平滑问题。

OpenFly: A COMPREHENSIVE PLATFORM FOR AERIAL VISION-LANGUAGE NAVIGATION figure
ICLR2026arxiv_html

OpenFly: A COMPREHENSIVE PLATFORM FOR AERIAL VISION-LANGUAGE NAVIGATION

Vision-Language-Navigation Models

VLN导航感知

针对现有空中视觉-语言导航数据集规模小、多样性不足且人工采集成本高昂的问题,本文提出OpenFly综合平台。该平台整合Unreal Engine、GTA V、Google Earth与3D Gaussian Splatting四种渲染引擎,构建了高度自动化的数据生成工具链,并据此建立了覆盖18个场景、10万条轨迹的大规模数据集;同时提出关键帧感知的OpenFly-Agent模型,通过聚焦关键观测提升导航性能并降低计算开销。实验表明,该方法在已见与未见场景上的成功率分别较现有方法提升14.0%与7.9%,且在真实世界环境中验证了有效性。

OmniNav: A Unified Framework for Prospective Exploration and Visual-Language Navigation figure
ICLR2026arxiv_html

OmniNav: A Unified Framework for Prospective Exploration and Visual-Language Navigation

Vision-Language-Navigation Models

VLN导航感知

针对现有具身导航模型在异构任务中难以统一、且因指令与物体理解不足导致泛化受限的问题,本文提出OmniNav框架,以快慢双系统架构统一处理指令、物体、点目标及前沿探索任务:快系统通过轻量级流匹配策略生成连续空间航点,实现5Hz低延迟控制;慢系统利用长程观测与前沿线索进行高层子目标规划,二者经中央记忆模块协同。研究进一步将通用视觉语言数据纳入联合训练,显著提升了跨任务泛化能力。实验表明该方法在多个基准达到SOTA,并已验证真实部署。

M3E: Continual Vision-and-Language Navigation via Mixture of Macro and Micro Experts figure
ICLR2026temporary_pdf

M3E: Continual Vision-and-Language Navigation via Mixture of Macro and Micro Experts

Vision-Language-Navigation Models

VLN导航感知

现有视觉语言导航智能体持续适应新环境时易遭遇灾难性遗忘,而传统回放缓冲区存在存储与隐私瓶颈。本文提出的M3E框架将全局场景推理与局部感知对齐解耦:宏观路由器依据环境拓扑选择策略专家,微观路由器基于指令-视觉对齐激活感知专家,并辅以动态动量更新机制选择性更新参数,无需回放数据即可持续学习。在R2R与REVERIE的域增量测试中,该方法在导航成功率与知识保留上均优于标准微调及现有持续学习基线。

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation figure
ICLR2026arxiv_html

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

Vision-Language-Navigation Models

VLN导航3D 视觉感知

现有视觉语言导航方法依赖显式语义记忆,存在空间信息丢失、计算冗余与记忆膨胀问题,且视觉编码器缺乏3D几何理解能力。本文提出JanusVLN,受人类左右脑分工启发,将空间几何与视觉语义解耦为固定大小的双隐式神经记忆,通过缓存并增量更新3D几何与语义编码器的历史KV特征,在仅使用RGB输入时注入3D空间先验,避免历史帧重复计算与记忆膨胀。在VLN-CE基准上,该方法取得SOTA性能,成功率较对比方法提升3.6%至35.5%,为具身智能体的空间感知研究提供了新范式。

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-Language Navigation figure
ICLR2026arxiv_html

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-Language Navigation

Vision-Language-Navigation Models

VLN导航感知

现有视觉语言导航的端到端方法直接映射离散短程动作,易造成运动碎片化、高延迟且缺乏动态避障能力。本文提出双系统基础模型DualVLN,将高层推理与低层执行解耦:System 2以低频VLM生成像素路标与隐式潜态目标,System 1则以高频轻量扩散Transformer策略将其转化为连续平滑轨迹。异步双系统兼顾VLM泛化性与实时敏捷控制。该模型在VLN-CE与VLN-PE基准达到最优,并在真实跨具身实验中实现了鲁棒长程规划与动态避障。

CompassNav: Steering From Path Imitation to Decision Understanding In Navigation figure
ICLR2026arxiv_html

CompassNav: Steering From Path Imitation to Decision Understanding In Navigation

Vision-Language-Navigation Models

VLN导航策略学习感知

当前视觉语言导航模型多依赖单条专家轨迹模仿,限制了动态环境中的泛化与探索能力。本文提出“决策理解”新范式,通过构建Compass-Data-22k数据集(利用A*测地距离稠密标注所有可行动作)和间隙感知混合奖励函数(依据决策确定性动态平衡果断信号与探索引导),使7B智能体不再死记路径,而是建立评估各动作相对优劣的内在“指南针”。该模型在目标导航基准上取得SOTA,并成功部署于真实机器人。

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild figure
ICLR2026arxiv_html

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

Vision-Language-Navigation Models

VLAVLN导航感知

现有无人机视觉语言导航研究通常依赖详细指令预设航线,难以适应真实户外未知环境。本文提出端到端 VLA 模型 AutoFly,利用伪深度编码器从 RGB 图像中提取深度感知特征以增强空间推理,并通过渐进式两阶段训练对齐视觉、深度与语言表征和动作策略;此外构建了侧重自主避障、连续规划及真实世界轨迹的导航数据集。实验表明,AutoFly 在成功率上较主流 VLA 基线提升 3.9%,且在仿真与真实环境中均保持一致的导航性能。

All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation figure
ICLR2026arxiv_html

All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation

Vision-Language-Navigation Models

VLN导航感知

针对视觉语言导航智能体在多场景、全天候环境中持续部署时面临的灾难性遗忘问题,本文提出Tucker Adaptation(TuKA)。该方法利用Tucker分解将多层次导航知识表示为高阶张量,解耦为跨场景共享的子空间与场景特定的专家,并配合解耦知识增量学习策略实现终身学习。基于TuKA构建的AlldayWalker智能体在扩展的多环境仿真平台及真实部署中持续优于现有最优基线,实现了全天候多场景的持续导航能力。

villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models figure
ICLR2026arxiv_html

villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

针对现有VLA预训练中潜在动作仅依赖视觉信号、缺乏物理基础的问题,本文提出villa-X框架。该框架在潜在动作模型中引入本体感觉前向动力学模型,将潜在动作与机器人物理动态对齐;并在策略模块中通过联合扩散建模,使机器人动作生成以潜在动作为条件。实验表明,该方法在SIMPLER仿真及多种真实机器人平台(夹爪与灵巧手)上达到先进性能,且经规模化预训练的潜在动作专家具备零样本泛化能力。

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model figure
ICLR2026arxiv_html

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Vision-Language-Action Models

VLA感知

针对跨具身机器人数据中硬件配置、视觉域与任务分布等异质性导致的训练困难,本文提出Soft Prompt方法,为每个数据源引入少量可学习嵌入作为具身专属提示,以最小参数开销吸收异构差异。在此基础上构建基于流匹配的X-VLA架构,仅通过堆叠标准Transformer编码器实现可扩展的多模态融合与动作生成。实验表明,0.9B参数的X-VLA在6个仿真基准及3个真实机器人上取得SOTA性能,且仅需微调1%参数即可快速适配新具身,在LIBERO上达到93%成功率,并在真实场景中完成灵巧布料折叠任务。

WholeBodyVLA: Towards Unified Latent VLA for Whole-body Loco-manipulation Control figure
ICLR2026arxiv_html

WholeBodyVLA: Towards Unified Latent VLA for Whole-body Loco-manipulation Control

Vision-Language-Action Models

VLA人形机器人感知

针对人形机器人全身移动操作数据稀缺、现有方法缺乏操作感知移动能力的问题,本文提出WholeBodyVLA框架。其核心创新在于通过统一潜在学习将无动作的第一人称视频转化为离散潜在动作以预训练VLA,并设计面向移动操作的LMO强化学习策略实现精准稳定的下肢体控制。在AgiBot X2上的实验表明,该方法首次实现大空间端到端全身移动操作,性能较基线提升21.3%,并展现出良好的泛化与扩展能力。

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning figure
ICLR2026arxiv_html

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Vision-Language-Action Models

VLA规划/推理感知

现有工作多将VLM具身推理与VLA端到端控制割裂研究,两者间的迁移鸿沟尚缺乏系统探讨。为此,本文提出Vlaser——一个融合高级具身推理与低级动作控制的视觉-语言-动作基础模型,并配套构建了涵盖空间推理、grounding、任务规划等任务的Vlaser-6M数据集。其核心洞察在于:域外具身推理数据虽能提升上游VLM性能,却未必转化为下游VLA收益;真正显著加速VLA策略收敛与成功率的是域内机器人交互数据。基于该发现,Vlaser在多项具身推理基准及WidowX闭环控制任务上达到领先性能。

Vision-Language-Action Instruction Tuning: From Understanding to Manipulation figure
ICLR2026temporary_pdf

Vision-Language-Action Instruction Tuning: From Understanding to Manipulation

Vision-Language-Action Models

VLA感知

现有视觉-语言-动作(VLA)模型常在动作训练中遭遇灾难性遗忘,难以兼顾多模态推理与精准操作。为此,该研究提出InstructVLA,通过“视觉-语言-动作指令微调”(VLA-IT)范式,以混合专家(MoE)适配和解耦的动作预训练,在保留VLM通用能力的同时将操作视为指令跟随的一部分。在自建的80任务基准SimplerEnv-Instruct上,其性能较微调OpenVLA提升96%,较GPT-4o辅助的专家提升29%,并在SimplerEnv闭环任务上超越SpatialVLA达33%,同时展现出推理时的规模扩展能力。

Verifier-free Test-Time Sampling for Vision Language Action Models figure
ICLR2026arxiv_html

Verifier-free Test-Time Sampling for Vision Language Action Models

Vision-Language-Action Models

VLA感知

针对视觉语言动作模型在高精度操作中受限于单次推理、且现有测试时缩放依赖外部验证器导致训练开销与泛化瓶颈的问题,本文提出MG-Select框架。该方法无需额外训练或外部模块,利用原始输入与随机掩码状态及语言条件下的动作分布间KL散度作为置信度,从多候选动作中筛选最优解,并通过联合训练同时学习条件与无条件分布。实验表明,其在真实世界分布内与分布外任务中分别提升28%与35%,并在RoboCasa少样本pick-and-place任务中取得168%的相对增益。

VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models figure
ICLR2026arxiv_html

VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

本文重新审视VLA中VLM选型与能力如何影响下游策略这一根本问题,提出极简框架VLM4VLA,以不足1%新增参数公平转化通用VLM为VLA策略。在三个基准上对24个VLM的实验表明:VLM预训练虽优于从头训练,但其通用评测分数对下游控制性能预测力微弱;在具身问答等辅助任务上微调也未必提升下游表现;模态消融进一步发现视觉编码器(而非语言模块)才是主要瓶颈,向其中注入控制相关监督即使冻结也能持续增益,揭示了VLM预训练与具身动作规划间的视觉域差距。

Unifying Diffusion and Autoregression for Generalizable Vision-Language-Action Model figure
ICLR2026temporary_pdf

Unifying Diffusion and Autoregression for Generalizable Vision-Language-Action Model

Vision-Language-Action Models

VLA策略学习感知

现有自回归视觉-语言-动作模型将动作离散化导致控制不精确,而扩散模型虽能预测连续动作却未充分利用预训练大语言模型的迭代推理能力。本文提出 HybridVLA,在单一 LLM 骨干中通过协作训练将扩散去噪嵌入 next-token 预测过程,并设计自适应的动作融合机制,使两种范式互为补充。实验表明,该方法在仿真与真实任务上的平均成功率较此前最优方法分别提升 17% 与 19%,且对未见物体与场景具有良好泛化性。

Unified Vision-Language-Action Model figure
ICLR2026arxiv_html

Unified Vision-Language-Action Model

Vision-Language-Action Models

VLA感知

现有VLA模型多以语言为中心,将视觉压缩为语义特征后预测动作,难以建模感知-动作闭环的时序因果性。本文提出UniVLA,将视觉、语言与动作统一为离散token并在自回归框架内联合建模;通过post-training阶段引入世界模型从视频中学习因果动态,显著提升了下游策略学习的数据与训练效率。该方法在CALVIN、LIBERO和SimplerEnv-Bridge上取得最优性能,LIBERO成功率达95.5%,并在真实机器人与自动驾驶场景中验证了泛化能力。

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Diffusion Diffusion Process figure
ICLR2026arxiv_html

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Diffusion Diffusion Process

Vision-Language-Action Models

VLA策略学习感知

现有统一式VLA通常依赖外部专家或割裂地处理视觉生成与动作预测,限制了未来图像对动作规划的引导作用。本文提出Unified Diffusion VLA与联合离散去噪扩散过程JD3P,将多模态整合至单一同步去噪轨迹,使动作token在迭代中持续吸收未来视觉信息,实现理解、生成与执行的内在协同。基于统一token空间与混合注意力机制,配合两阶段训练及推理优化策略,该方法在CALVIN、LIBERO和SimplerEnv上达到SOTA,推理速度比自回归方法快4倍,并通过了真实场景验证。

TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models figure
ICLR2026arxiv_html

TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models

Vision-Language-Action Models

VLA灵巧操作感知数据加速/部署

针对公开双臂机器人数据稀缺、导致现有VLA难以低成本迁移到双臂操作的问题,本文提出TwinVLA:一种模块化框架,通过联合注意力机制将两个预训练的单臂VLA"孪生"组合,并借助MoE高效处理共享输入,无需大规模双臂预训练即可实现双臂协调。实验表明,该方法仅利用公开单臂数据和少量双臂微调数据,就在真实与仿真任务中超越同等规模的单体模型RDT-1B,并接近依赖大量私有数据与算力的SOTA模型,显著提升了数据与计算效率。

Spatially Guided Training for Vision-Language-Action Model figure
ICLR2026temporary_pdf

Spatially Guided Training for Vision-Language-Action Model

Vision-Language-Action Models

VLA3D 视觉感知

ST4VLA针对VLM直接微调为VLA时空间先验坍塌、联合训练存在梯度冲突的问题,提出双阶段空间引导训练框架:先通过大规模网络与机器人数据对VLM进行空间接地预训练以习得可迁移的点、框与轨迹先验;再以轻量级空间提示引导动作后训练,显式对齐感知与控制优化。该方法在SimplerEnv的Google与WidowX机器人任务上取得SOTA,并在真实长程操作中达到92%成功率,显著提升了未见物体与新指令的泛化能力。

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model figure
ICLR2026arxiv_html

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

Vision-Language-Action Models

VLA3D 视觉感知

现有视觉-语言-动作(VLA)模型多基于二维预训练视觉语言模型,缺乏三维空间感知,而显式引入深度或点云易受传感器噪声、硬件异构及数据缺失限制。本文提出Spatial Forcing,通过在VLA中间层视觉嵌入与预训练三维基础模型(VGGT)的几何表示进行隐式对齐,无需额外三维输入即可赋予模型空间理解能力。实验表明,该方法在仿真与真实机器人任务中达到当前最优性能,同时训练速度提升最高3.8倍并显著改善数据效率。

Self-Improving Vision-Language-Action Models with Data Generation via Residual RL figure
ICLR2026arxiv_html

Self-Improving Vision-Language-Action Models with Data Generation via Residual RL

Vision-Language-Action Models

VLA感知数据

现有VLA模型后训练依赖昂贵的人工遥操作数据,且采集过程与部署策略脱节,导致分布偏移和泛化受限。本文提出PLD框架,通过冻结VLA主干并训练轻量级残差RL策略探测失败区域,再以分布对齐的混合rollout自动收集恢复轨迹,最后蒸馏回通才模型。该方法在LIBERO上达到99%成功率,在SimplerEnv上提升超50%,并在真实机器人上实现长达一小时的无干预连续操作,表明RL生成的策略感知数据可超越纯人工示教。

Scaling up Memory for Robotic Control via Experience Retrieval figure
ICLR2026temporary_pdf

Scaling up Memory for Robotic Control via Experience Retrieval

Vision-Language-Action Models

VLA感知

现有端到端机器人策略因处理长观察历史而计算成本高昂,且在协变量偏移下性能脆弱,难以利用长期视觉记忆。本文提出MemER分层框架,高层策略从过往经验中选取任务相关的关键帧构建紧凑记忆,并结合最新观测生成语言子任务指令,由低层策略执行动作。该机制兼容现有VLA模型,仅需少量带标注的示教数据微调即可部署。在三个需要数分钟记忆的真实长程操作任务中,MemER能有效推理数百帧历史图像,显著优于此前方法。

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration figure
ICLR2026ar5iv_html

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration

Vision-Language-Action Models

VLA感知加速/部署

现有VLA加速多聚焦单步压缩,却忽略顺序决策中的时间冗余与视觉输入的空间冗余。本文提出SP-VLA框架,联合模型调度与token剪枝实现加速:受人类运动启发,将动作分为“深思熟虑型”与“直觉型”,在大型VLA与轻量生成器间动态切换以降低时序冗余;同时提出空间-语义双重感知的token剪枝,保留物体轮廓与相对位置并剔除视觉冗余。实验表明,该方法最高可提速1.5倍且准确率下降不足3%,无损场景下可达1.35倍加速。

RoboOmni: Proactive Robot Manipulation in Omni-modal Context figure
ICLR2026arxiv_html

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

Vision-Language-Action Models

VLA感知

现有机器人操作模型多依赖显式文本或语音指令,而真实人机协作中人类往往不会直接下达命令。本文提出“跨模态上下文指令”新场景,要求机器人从对话语音、环境音与视觉观察中主动推断用户意图。为此,作者提出端到端全模态框架RoboOmni,以Perceiver-Thinker-Talker-Executor架构统一意图识别、语音交互确认与动作执行,无需ASR即可直接处理语音并时空融合视听信号。针对主动意图识别数据稀缺问题,构建了包含14万条片段、超5000名说话人及丰富环境音的OmniAction数据集。仿真与真实世界实验表明,RoboOmni在成功率、推理速度和主动辅助能力上均显著优于文本与ASR基线。

PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model figure
ICLR2026arxiv_html

PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model

Vision-Language-Action Models

VLA感知

现有视觉-语言-动作模型通常仅具备图像级理解能力且依赖文本指令,难以实现细粒度空间感知与灵活的人机交互。PixelVLA首次在VLA中融合像素级推理与多模态提示,设计了多尺度像素感知编码器、视觉提示感知编码器及连续动作解码器,并基于两阶段自动标注构建Pixel-160K数据集进行视觉运动指令微调。实验显示其在零样本操作与新机器人 setup 迁移上优于OpenVLA,且预训练成本显著降低,但具体的成功率增益与成本比例在提供的文本中未显示。

OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning figure
ICLR2026arxiv_html

OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning

Vision-Language-Action Models

VLA规划/推理感知

现有双系统方法将高层推理与低层执行分离,导致系统间能力互不理解且存在延迟。OneTwoVLA提出单一统一的视觉-语言-动作模型,将推理与执行整合于同一模型,并自适应地在关键时刻触发显式推理、其余时刻直接生成动作。此外,通过可扩展的具身推理视觉-语言数据合成与机器人数据协同训练,显著增强泛化能力。实验表明,该模型在长程任务规划、错误检测恢复、人机交互及视觉grounding上均优于基线,可完成做火锅等高灵巧长程操作。

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations figure
ICLR2026arxiv_html

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Vision-Language-Action Models

VLA感知

现有VLA鲁棒性研究多局限于视觉扰动,本文评估了其在四模态共17种扰动下的表现,发现动作是最脆弱的模态,且现有视觉鲁棒方法难以迁移到其他模态。为此提出RobustVLA,基于flow matching目标优化最坏情况动作噪声以提升输出鲁棒性,并约束语义保留的输入扰动下动作一致,同时以多臂老虎机自适应选取最有害噪声训练。在LIBERO上,该方法在π0与OpenVLA主干分别带来12.6%和10.4%的绝对提升,推理速度比BYOVLA快50.6倍,在真实FR5机器人的多模态扰动中也显著优于基线。

MetaVLA: Unified Meta Co-Training for Efficient Embodied Adaptation figure
ICLR2026arxiv_html

MetaVLA: Unified Meta Co-Training for Efficient Embodied Adaptation

Vision-Language-Action Models

VLA感知加速/部署

针对视觉-语言-动作模型逐任务微调成本高且泛化性差的问题,本文指出简单多任务监督微调引入异构辅助任务时,会因特征与动作空间分布差异导致优化不稳定。为此提出 MetaVLA 框架,其上下文感知元协同训练机制基于 Attentive Neural Processes,以轻量级记忆增强的上下文库在统一阶段联合目标与多样辅助任务,实现高效知识迁移。在 LIBERO 上,单一模型即可跨任务泛化,训练步数从 240K 降至 75K,GPU 时间减少 76%,平均成功率较 OpenVLA 提升 4.4%,长程任务最高提升 8.0%。

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation figure
ICLR2026arxiv_html

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

Vision-Language-Action Models

VLA感知

针对主流VLA模型仅依赖当前观测、难以建模非马尔可夫长程时序依赖的局限,该研究受认知科学中人类工作记忆与情景记忆机制启发,提出MemoryVLA框架:以预训练VLM编码观测为感知与认知token形成工作记忆,并构建感知-认知记忆库存储与检索历史细节及语义,通过门控融合与冗余整合将时间相关的历史上下文自适应注入当前决策,再经由记忆条件化的扩散动作专家输出时序感知动作。在150余项仿真与真实任务中,该方法于SimplerEnv-Bridge、Fractal、LIBERO与Mikasa-Robo上分别达到71.9%、72.7%、96.5%与41.2%的成功率,较SOTA基线最高提升14.6个百分点,并在12项真实世界任务中取得84.0%分数,长程时序任务提升达26个百分点。

Interleave-VLA: Enhancing Robot Manipulation with Image-Text Interleaved Instructions figure
ICLR2026temporary_pdf

Interleave-VLA: Enhancing Robot Manipulation with Image-Text Interleaved Instructions

Vision-Language-Action Models

VLA感知

现有VLA多依赖纯文本指令,易因语言歧义与分布偏置产生注意力幻觉,导致未见场景泛化不足。本文提出Interleave-VLA,仅通过向分词器引入分隔符,便使现有模型无需改动架构即可处理图文交错指令;并基于Open X-Embodiment构建21万条片段的交错数据集。实验表明,该范式在仿真与真实任务中将分布外泛化成功率较纯文本基线提升约2倍,并零样本支持手绘草图、网络图片等输入。文中将纯文本VLA的失效归因于注意力偏差、扩散与泄漏三类幻觉,指出交错图文可缓解歧义并抑制偏置。

Hybrid Training for Vision-Language-Action Models figure
ICLR2026arxiv_html

Hybrid Training for Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

针对VLA模型借助思维链推理提升性能却显著增加推理延迟的问题,本文提出混合训练框架HyT。其核心洞察是:模型在训练时联合学习思维链与动作可习得更好的任务表征,推理时无需输出长序列思维即可直接生成动作,从而兼顾性能与速度。HyT引入模态变量支持灵活推理,包括直接执行、自主推理或遵循外部指令三种模式。在ClevrSkills、LIBERO及真实机器人上的实验表明,HyT可达到与ECoT相当的性能,同时保持标准VLA的快速推理。

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation figure
ICLR2026arxiv_html

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

Vision-Language-Action Models

VLA感知

现有机器人系统常将数据采集、训练与评估割裂,迭代低效。本文提出Genie Envisioner,将感知、策略学习与仿真统一于视频生成框架:GE-Base为大规模指令条件视频扩散模型,在百万级真实操作数据上学习时空语义动态;GE-Act以轻量流匹配解码器将隐层表征映射为低延迟动作;GE-Sim支持动作条件的闭环神经仿真。实验表明,该系统可在200毫秒内生成54步力矩轨迹,并仅凭1小时遥操作数据即泛化至Agilex Cobot Magic与Dual Franka等全新本体,完成可变形物体精细操控与记忆依赖型任务。

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors figure
ICLR2026arxiv_html

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Vision-Language-Action Models

VLA3D 视觉感知

现有视觉-语言-动作模型多基于2D编码器,在3D物理世界中存在空间推理鸿沟。本文提出FALCON,利用空间基础模型从RGB中提取丰富的3D空间token,并设计具身空间模型以灵活可选地融合深度或位姿信息;为避免破坏视觉-语言对齐,这些空间token不注入VLM主干,而是通过空间增强动作头直接参与动作预测。在多个仿真基准和真实任务中,FALCON达到SOTA性能,对杂乱场景、空间提示以及物体尺度与高度变化均表现出强鲁棒性。

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation figure
ICLR2026arxiv_html

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

Vision-Language-Action Models

VLA规划/推理感知

针对VLA模型因具身数据稀缺与异质性而零样本泛化受限的问题,本文提出FSD,利用空间关系聚焦的视觉思维链生成中间视觉表示(如空间 affordance 与轨迹)以桥接推理与决策,并引入弱到强数据构建及自一致性对齐机制。实验表明,FSD在SimplerEnv和真实机器人任务中分别实现40.6%与72%的零样本成功率,较最强基线提升30%。

FASTer: Toward Powerful and Efficient Autoregressive Vision–Language–Action Models with Learnable Action Tokenizer and Block-wise Decoding figure
ICLR2026temporary_pdf

FASTer: Toward Powerful and Efficient Autoregressive Vision–Language–Action Models with Learnable Action Tokenizer and Block-wise Decoding

Vision-Language-Action Models

VLA感知加速/部署

现有自回归VLA模型受困于动作tokenization在重建精度与推理效率间的矛盾,且推理速度显著慢于扩散模型。为此,FASTer提出可学习的动作分词器FASTerVQ,通过基于物理语义的非均匀分块与残差向量量化,将动作序列编码为具有高压缩比的离散token,并联合时域与频域重建以保证精度;在此基础上,FASTerVLA采用块级自回归解码与轻量动作专家,在8种真实与模拟本体上同时实现了推理加速与性能提升,多项任务达到SOTA。

Endowing GPT-4 with a Humanoid Body: Building the Bridge Between Off-the-Shelf VLMs and the Physical World figure
ICLR2026arxiv_html

Endowing GPT-4 with a Humanoid Body: Building the Bridge Between Off-the-Shelf VLMs and the Physical World

Vision-Language-Action Models

VLA人形机器人感知

针对人形机器人在开放环境中灵活交互需海量数据、成本高昂的问题,本文提出 BiBo 框架,探索直接利用 GPT-4 等现成视觉语言模型驱动人形智能体。其核心在于一个具身指令编译器,将高层自然语言指令结合环境感知编译为带参数的结构化低级命令;以及一个基于潜变量扩散模型的运动执行器,在生成未来轨迹的同时通过物理反馈在线修正,并经 VAE 联合解码保证运动连续性。实验表明,该系统在随机生成的开放物理环境中任务成功率达 90.2%,文本引导运动执行精度较此前方法提升 16.3%。

End-to-end Listen, Look, Speak and Act figure
ICLR2026arxiv_html

End-to-end Listen, Look, Speak and Act

Vision-Language-Action Models

VLA感知

现有AI要么是“会说不会动”的对话模型,要么是“会动不会说”的VLA模型,难以模拟人类全双工多模态交互。本文提出ELLSA,首个端到端全双工模型,通过SA-MoE架构将语音专家与动作专家纳入统一自注意力骨干,实现视听感知与语音、动作的并行生成。实验表明,ELLSA在语音问答与机器人操作任务上媲美专用基线,并首次支持边说边做、动作打断、对话与动作轮流等自然交互行为。

Embodied Navigation Foundation Model figure
ICLR2026arxiv_html

Embodied Navigation Foundation Model

Vision-Language-Action Models

VLA导航感知

现有视觉语言导航方法多局限于单一任务与特定机器人形态。本文提出跨任务、跨形态的导航基础模型NavFoM,通过引入时间-视角指示器(TVI)令牌统一编码不同相机配置与任务时间跨度,并设计预算感知时序采样(BATS)在有限token预算下动态压缩历史观测以兼顾性能与部署效率。该模型基于八百万条涵盖四足、无人机、轮式机器人及车辆的导航轨迹与开放世界QA数据进行联合训练,在七个公开基准上取得无需任务微调的SOTA或领先水平,并在多平台真实环境中验证了其强泛化能力。

Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining figure
ICLR2026arxiv_html

Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

Vision-Language-Action Models

VLA感知数据

现有视觉-语言-动作模型将视频预测与动作生成耦合训练,导致二维图像预测与三维动作推理目标冲突,且难以利用大规模无动作标注的网页视频。本文提出DeFI框架,将前向与逆向动力学解耦预训练:通用前向动力学模型通过视频生成学习视觉动态,通用逆向动力学模型则以自监督方式从视频状态转移中推断潜在动作编码,二者在下游任务中端到端耦合微调。该方法在CALVIN ABC-D基准上达到4.51的平均任务长度,在SimplerEnv-Fractal和真实环境分别取得51.2%与81.3%的成功率。

AutoQVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization figure
ICLR2026arxiv_html

AutoQVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

Vision-Language-Action Models

VLA感知加速/部署

现有LLM量化方法直接套用于VLA模型会忽视动作输出的闭环累积误差,导致长程任务失败。本文提出QVLA,首个以动作空间为中心的通道级量化框架,通过估计各通道对最终动作输出的敏感度实现逐通道最优比特分配,并将剪枝统一为0-bit量化。在LIBERO上,该方法将OpenVLA-OFT显存降至29.2%,保持98.9%性能,加速1.49倍,相较SmoothQuant提升22.6%。

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance figure
ICLR2026arxiv_html

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

Vision-Language-Action Models

VLA感知

针对VLA模型在跨本体或跨任务适配时因动作分布不匹配而导致数据与计算成本高昂的问题,本文提出Align-Then-stEer(ATE)框架。其核心洞察在于通过反向KL约束的变分自编码器将异构动作空间对齐到统一隐空间,使目标动作嵌入预训练分布的特定模态,并进一步以分类器引导机制在扩散或流式VLA的生成过程中显式修正输出分布。该方案无需改动原模型架构,在仿真中将多任务平均成功率提升9.8%,并在真实世界跨本体双机械臂操控中取得32%的显著增益。

Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting figure
ICLR2026arxiv_html

Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

Vision-Language-Action Models

VLA感知

现有VLA训练常因机器人数据与VLM预训练分布不匹配而导致灾难性遗忘,损害泛化与推理能力。本文提出VLM2VLA,将低级机器人动作重表示为自然语言,在数据层面弥合分布鸿沟,从而仅通过LoRA即可微调VLM为VLA,无需修改架构或昂贵的联合训练。在保留VQA能力(维持85%以上基线性能)的同时,经过800余次真实机器人实验验证,实现了对新物体、多语言指令及开放世界语义推理的强零样本泛化。

Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation figure
ICLR2026arxiv_html

Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation

Vision-Language-Action Models

VLA感知加速/部署

现有VLA模型因密集视觉token导致推理开销大,但现有方法忽视了机器人操作不同阶段视觉冗余的动态差异:粗操作阶段冗余高,精细阶段则需保留完整视觉。本文提出Action-aware Dynamic Pruning (ADP),通过文本驱动的token筛选与基于末端执行器轨迹窗口的门控机制,依据动作动态自适应决定是否剪枝。在LIBERO仿真与真实世界实验中,该方法显著降低FLOPs与推理延迟(如OpenVLA-OFT加速1.35倍),同时保持高成功率(如OpenVLA提升25.8%)。

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception figure
ICLR2026ar5iv_html

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Tactile

触觉感知

现有触觉数据集多聚焦静态属性,缺乏物理交互中的时序动态与力感知。本文提出触觉动态金字塔,并构建大规模分层数据集ToucHD,整合原子动作、真实操作及触力配对数据以填补高层级动态数据空白。进而提出AnyTouch 2通用表示框架,通过帧差重建、动作匹配与力变化预测统一物体级语义与细粒度动态感知。跨传感器实验表明,该方法在静态属性、动态物理预测及覆盖全层级的真实操作任务中均表现优异。

APPLE: Toward General Active Perception via Reinforcement Learning figure
ICLR2026arxiv_html

APPLE: Toward General Active Perception via Reinforcement Learning

Tactile

策略学习触觉感知

现有主动感知方法多局限于特定任务或依赖强假设,难以推广到不同问题。本文提出APPLE框架,将主动感知形式化为POMDP,通过强化学习与监督学习联合优化,在共享的Transformer主干上同时训练信息收集策略和感知预测模型,仅需可微损失即可适应不同任务。实验表明,基于SAC和CrossQ的两个变体在Tactile MNIST分类、体积估计及多个主动感知基准上均取得较高精度,展现了该方法在触觉等局部感知场景下的通用性。

Sim2Real VLA: Zero-Shot Generalization of Synthesized Skills to Realistic Manipulation figure
ICLR2026temporary_pdf

Sim2Real VLA: Zero-Shot Generalization of Synthesized Skills to Realistic Manipulation

Sim2real and Real2sim

VLASim2Real

现有VLA模型依赖合成数据时受限于Sim2Real域差距。本文提出Sim2Real-VLA,核心洞察是通过架构设计而非高保真仿真弥合差距:以高层规划器推断affordance链、低层执行器实时验证的双系统架构,利用affordance信号过滤操作无关特征并聚焦运动关键动态。模型仅凭合成数据与自动化技能生成即可免微调训练,在双手、灵巧及长程任务中较基线取得35%以上成功率提升,并展现可靠的零样本域迁移能力。

RobotArena \infty: Unlimited Robot Benchmarking via Real-to-Sim Translation figure
ICLR2026temporary_pdf

RobotArena \infty: Unlimited Robot Benchmarking via Real-to-Sim Translation

Sim2real and Real2sim

Benchmark/数据集Sim2Real

针对真实世界机器人策略评估难以扩展与复现的瓶颈,本文提出RobotArena ∞框架,利用视觉语言模型与生成式建模将真实视频自动译为大规模仿真环境,并引入纹理、物体位置等系统性扰动以检验鲁棒性。该框架结合VLM自动评分与众包人类偏好对比,在百余个环境上评估了六个国际实验室的VLA模型。结果表明,当前VLA对分布外场景高度敏感且抗扰动能力薄弱,尚非真正通才,但不同架构与数据设计带来的性能差异具有稳定的排序一致性。

Latent Adaptation of Foundation Policies for Sim-to-Real Transfer figure
ICLR2026temporary_pdf

Latent Adaptation of Foundation Policies for Sim-to-Real Transfer

Sim2real and Real2sim

Sim2Real

针对传统sim-to-real方法需对策略网络进行资源密集型重训练、难以灵活应对变化环境的问题,本文受人类无需重新学习行走即可调整步态适应新地面的启发,提出Found-adapt框架,将技能获取与环境适应解耦。该方法先在源模拟器上预训练基础策略以捕获多样化的可复用技能,部署时仅通过轻量级适配器在潜空间中对少量目标域数据进行参数高效对齐,无需重训练策略即可适应新系统动力学。实验表明,该方法在多个运动任务及动力学变化下显著缩小sim-to-real差距,并揭示了数据质量与适用场景的关键要求。

Exo-Plore: Exploring Exoskeleton Control Space through Human-aligned Simulation figure
ICLR2026arxiv_html

Exo-Plore: Exploring Exoskeleton Control Space through Human-aligned Simulation

Sim2real and Real2sim

世界模型Sim2Real

针对外骨骼控制器优化依赖长时间人体实验、而行动不便者难以参与这一悖论,本文提出Exo-plore框架,将神经力学模拟与深度强化学习结合,通过符合人类经验适应模式的奖励函数训练步态数据生成器,并借助代理网络构建平滑可微的代谢成本景观以稳定优化。该框架无需真实人体实验即可优化髋部外骨骼参数,复现了辅助与非辅助步态趋势及代谢降低率,发现健康步态的最优扭矩延迟随步行速度增加而减小,并在五种病理步态中的四种上观察到病理严重程度与最优辅助强度呈显著线性关系。

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping figure
ICLR2026arxiv_html

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Sim2real and Real2sim

灵巧操作Sim2Real抓取

D-REX针对从视觉观测中精确识别物理参数、构建高保真数字孪生的难题,将3D Gaussian Splatting与可微物理引擎结合,提出了端到端的物体质量辨识方法,并通过把人手握持演示迁移为机器人仿真演示,训练出力感知灵巧抓取策略。实验表明,该方法在多样物体上实现了准确的质量估计,并显著提升了真实场景中的抓取成功率,有效弥合了仿真到现实的动态差异。

Contact-guided Real2Sim from Monocular Video with Planar Scene Primitives figure
ICLR2026temporary_pdf

Contact-guided Real2Sim from Monocular Video with Planar Scene Primitives

Sim2real and Real2sim

Sim2Real视频感知

现有单目人体-场景重建常因噪声与非水密几何导致物理模拟失败。本文提出CRISP,通过将平面基元聚类拟合至点云构建紧凑凸几何,并结合人体-场景接触建模恢复被遮挡的交互表面(如椅面),再以强化学习确保物理合理性。在EMDB与PROX上,运动跟踪失败率从55.2%降至6.9%,RL仿真吞吐量提升43%,并可推广至野外及生成视频。

When would Vision-Proprioception Policies Fail in Robotic Manipulation? figure
ICLR2026ar5iv_html

When would Vision-Proprioception Policies Fail in Robotic Manipulation?

Policy

策略学习感知

现有视觉-本体感觉操作策略的泛化表现并不稳定,有时反而劣于纯视觉策略。本文通过时间受控实验揭示,在运动转换阶段(需重新目标定位时),策略会因追求更快的训练损失下降而过度依赖本体感觉,从而抑制视觉模态的学习。为此,作者提出梯度调整与相位引导算法GAP,利用本体感觉估计各时间步处于运动转换阶段的概率,并据此细粒度降低本体感觉的梯度权重,以实现双模态的动态协作。实验表明,GAP在仿真与真实环境、单臂与双臂设置以及传统策略和视觉-语言-动作模型上均能显著提升策略表现。

When a Robot is More Capable than a Human: Learning from Constrained Demonstrators figure
ICLR2026arxiv_html

When a Robot is More Capable than a Human: Learning from Constrained Demonstrators

Policy

策略学习

本文针对人类通过摇杆等受限接口示教机器人时,因动作空间受限导致示教轨迹次优的问题,提出“受限示教学习(LfCD)”框架LfCD-GRIP。其核心洞察是将奖励与专家受限动作解耦,仅基于状态推断目标接近度,并通过置信度估计与在线插值,将任务进度信号推广到示教未覆盖的新状态。实验表明,该方法在MiniGrid导航中发现捷径,并在真实WidowX机械臂上将任务完成时间从行为克隆的100秒缩短至12秒,显著优于传统模仿与逆强化学习基线。

ViPRA: Video Prediction for Robot Actions figure
ICLR2026ar5iv_html

ViPRA: Video Prediction for Robot Actions

Policy

策略学习视频

针对无动作标签的海量视频难以直接训练机器人策略的问题,ViPRA 提出将视频预测模型转化为机器人策略的预训练-微调框架:预训练阶段联合预测未来视觉观测和以运动为中心的隐式动作,通过光流一致性约束保证物理合理性;微调阶段仅用百余条遥操作演示,即可通过 flow matching 解码器输出高达 22Hz 的平滑连续动作。该方法在 SIMPLER 仿真基准和真实世界任务上分别取得 16% 和 13% 的性能提升,并支持跨本体迁移。

VITA: Vision-to-Action Flow Matching Policy figure
ICLR2026arxiv_html

VITA: Vision-to-Action Flow Matching Policy

Policy

策略学习感知

传统流匹配策略需在每步去噪中通过条件模块重复注入视觉信息,推理开销大。本文提出VITA,一种无噪声、无条件的视觉-动作流匹配框架,直接以视觉潜在表征为源流向潜在动作;通过动作自编码器对齐模态维度,并设计流潜在解码机制将动作重构损失反向传播经ODE求解,防止端到端训练中的潜在空间坍缩。在ALOHA与Robomimic的仿真及真实任务中,VITA内存占用降低18.6%-28.7%,推理速度显著提升,成功率达到或超过现有最优策略。

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing figure
ICLR2026arxiv_html

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Policy

策略学习感知

现有视觉基础模型各有所长但难以兼顾多样机器人任务需求,传统多模型蒸馏又易稀释特征且缺乏任务级灵活性。为此,VER基于混合专家架构构建视觉专家库,预训练阶段将异质VFM蒸馏为领域专家并冻结,下游仅微调占比不足0.4%参数的轻量路由网络,借助逐块专家路由与课程化Top-K退火动态激活任务相关专家。在17项机器人任务及多种策略头上,该方法取得最优性能,并有效抑制背景异常值、聚焦任务关键区域。

Uncovering Robot Vulnerabilities through Semantic Potential Fields figure
ICLR2026arxiv_html

Uncovering Robot Vulnerabilities through Semantic Potential Fields

Policy

策略学习

现有机器人操作策略在真实环境变化下存在脆弱性,但直接物理测试成本高昂且不安全,且难以预知应测试哪些变化。本文将故障诊断重构为在连续视觉-语言语义嵌入空间中的搜索问题,将该空间视为成功与失败的势场,训练深度强化学习策略主动探索脆弱区域,从而无需昂贵物理试验即可预测失败概率。在模拟与真实机械臂实验中,该方法比现有视觉-语言基线多发现23%的独特脆弱性,并可用于指导策略微调,以更少数据提升操作性能。

Translating Flow to Policy via Hindsight Online Imitation figure
ICLR2026arxiv_html

Translating Flow to Policy via Hindsight Online Imitation

Policy

策略学习

针对分层机器人系统中高层点流计划难以转化为可靠底层动作、且高质量机器人数据稀缺的问题,本文提出HinFlow框架,其核心洞察在于利用事后重标注将在线交互中实际达成的流目标重新标记为监督信号,以目标条件模仿学习迭代精炼底层策略。该方法在仿真与真实世界的多样操作任务上较基础策略取得显著提升,仅用约八万步在线交互即展现高样本效率,并支持从跨本体视频数据中获取策略,实现了对新物体和干扰物的零样本泛化。

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control figure
ICLR2026arxiv_html

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Policy

人形机器人策略学习数据加速/部署

针对人形机器人控制中on-policy方法样本效率低、难以安全适应新环境的问题,本文提出LIFT框架。核心发现是:通过大批量更新与高UTD比率,off-policy的SAC亦可支持大规模并行预训练,在单卡1小时内收敛至可零样本部署真实机器人的策略。进一步地,作者将随机探索约束在物理信息世界模型内,仅于新环境执行确定性策略,实现安全高效的微调。实验表明,该框架在预训练阶段具备与PPO相当的墙钟效率,在微调阶段则兼具样本效率与安全性,并完成了仿真到真实机器人的全流程验证。

Time Optimal Execution of Action Chunk Policies Beyond Demonstration Speed figure
ICLR2026temporary_pdf

Time Optimal Execution of Action Chunk Policies Beyond Demonstration Speed

Policy

策略学习

针对模仿学习策略受慢速遥操作示教和推理延迟限制而无法高速执行的问题,本文提出RACE方法,通过将模仿目标从动作指令转为期望状态、对状态块进行时间最优重参数化以逼近机器人物理极限,并在测试时搜索与当前状态最对齐的平滑轨迹,系统性地解决了加速导致的动力学失配与异步推理错位问题。实验表明,该方法在保持高成功率的同时,可在仿真中达到示教速度的2倍以上,在真实任务中实现原始策略4倍加速,并使预训练VLA模型的吞吐量翻倍。

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System figure
ICLR2026arxiv_html

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System

Policy

策略学习感知

现有机器人学习多聚焦静态或低速物体操作,而高速动态场景(如乒乓球)对毫秒级感知与精准控制提出严峻挑战。本文受双系统理论启发,提出SpikePingpong系统:以System 1实现基于传统相机的快速球体检测与物理轨迹预测,以System 2融合脉冲相机高频数据进行神经误差校正以精修可击打位置,并设计基于模仿学习的IMPACT模块完成策略击球。实验表明,该系统在30cm目标区域成功率达92%,20cm高精度区域达70%。

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning figure
ICLR2026arxiv_html

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

Policy

VLA策略学习触觉

针对VLA模型在监督微调中面临的数据稀缺与泛化不足问题,本文借鉴大推理模型的RL经验,提出面向VLA的高效在线强化学习框架SimpleVLA-RL。该方法基于veRL构建了VLA专属的交互式轨迹采样、多环境并行渲染与结果奖励机制,并引入探索增强策略。实验表明,该方法在LIBERO和RoboTwin上达到SoTA性能,仅需单条演示即可将LIBERO-Long成功率从17.1%提升至91.7%,并在空间、物体及任务泛化与真实场景迁移上显著优于SFT。此外,作者观察到RL训练中出现"pushcut"现象,即策略自发涌现出训练数据外的新行为模式。

Scalable Exploration for High-Dimensional Continuous Control via Value-Guided Flow figure
ICLR2026arxiv_html

Scalable Exploration for High-Dimensional Continuous Control via Value-Guided Flow

Policy

策略学习

高维连续控制中,传统无向探索(如高斯噪声)随动作维度增加而迅速失效,而降维又会损失系统灵活性。本文提出Q-guided Flow Exploration (Qflex),利用学习到的值函数诱导概率流,直接在原生高维动作空间中生成与任务梯度对齐的探索动作,避免各向同性噪声。该方法以actor-critic形式实现,在多个高维连续控制基准上显著优于高斯和扩散基线,并成功驱动具有700个执行器的全身人体肌肉骨骼模型完成复杂敏捷运动,展现了极高的可扩展性与样本效率。

Rodrigues Network for Learning Robot Actions figure
ICLR2026arxiv_html

Rodrigues Network for Learning Robot Actions

Policy

策略学习

针对通用架构缺乏铰接运动学归纳偏置的问题,本文将经典Rodrigues旋转公式转化为可学习的Neural Rodrigues Operator,并构建Rodrigues Network。该网络通过Rodrigues Layer与Joint Layer显式建模关节与连杆间的运动学传递,结合自注意力实现全局信息交互。实验表明,该方法在正运动学拟合、运动预测等合成任务以及机器人模仿学习和单目3D手部重建等真实应用中均显著优于标准骨干网络,证明将结构化运动学先验嵌入网络架构可有效提升动作学习性能。

Robust Fine-tuning of Vision-Language-Action Robot Policies via Parameter Merging figure
ICLR2026arxiv_html

Robust Fine-tuning of Vision-Language-Action Robot Policies via Parameter Merging

Policy

VLA策略学习感知

针对通用机器人策略在少量数据微调新任务时易过拟合、丧失预训练泛化能力的问题,本文提出RETAIN方法。其核心洞察是在权重空间中对预训练与微调后的模型进行插值合并,并辅以联合微调与模态特定合并策略。大量模拟与真实机器人实验表明,该方法能在保留通用能力的同时,显著提升目标任务在分布外场景(如新视角、物体、位置)的泛化表现,并支持在不遗忘旧技能的前提下持续学习新技能。

Remotely Detectable Robot Policy Watermarking figure
ICLR2026arxiv_html

Remotely Detectable Robot Policy Watermarking

Policy

策略学习

现有机器人策略水印方法多假设审计者能访问机器人内部状态,难以应对现实中仅能通过摄像头等外部信号远程观测的场景。本文针对该“物理观察鸿沟”,提出基于频域的 Colored Noise Coherency(CoNoCo)水印策略:利用策略固有随机性注入有色噪声水印,并通过谱相干检测——该指标对未知系统动力学滤波具有理论不变性,且能严格保持动作边缘分布。实验表明,在模拟与真实机器人上,仅凭动作捕捉或侧视/俯视视频等远程观测即可实现鲁棒检测,且对同步误差、丢帧及对抗性噪声均表现出强韧性。

Reference Guided Skill Discovery figure
ICLR2026temporary_pdf

Reference Guided Skill Discovery

Policy

策略学习

现有无监督技能发现难以扩展到高自由度智能体,因其探索空间指数膨胀而语义流形有限。本文提出RGSD,先利用参考运动通过对比学习在单位超球面构建语义潜空间,再在此空间内同时实现参考行为模仿与语义相关新行为发现。在69自由度SMPL人形机器人上,RGSD不仅能高精度复现走、跑、侧步、拳击等参考动作,还能发现其连贯变体,并在下游locomotion任务中优于纯模仿与纯发现基线。

Real-Time Robot Execution with Masked Action Chunking figure
ICLR2026arxiv_html

Real-Time Robot Execution with Masked Action Chunking

Policy

策略学习

本文针对机器人异步推理与动作分块结合时的执行失败问题,指出除块间不连续外,块内不一致(即执行动作与当前感知的局部失配)是此前被忽视的关键失效模式。为此提出REMAC,通过在预训练策略上引入掩码动作分块学习校正调整,并设计前缀保留采样强化块间连续性,在不增加推理延迟的前提下提升策略对执行失配的鲁棒性。在模拟与真实环境中,该方法实现了更高的任务成功率、更快的完成速度及对多变延迟的强鲁棒性。

RAVEN: End-to-end Equivariant Robot Learning with RGB Cameras figure
ICLR2026temporary_pdf

RAVEN: End-to-end Equivariant Robot Learning with RGB Cameras

Policy

策略学习

现有等变策略方法依赖点云或固定视角等结构化输入,难以适配低成本、多机位部署。本文提出RAVEN,首次实现仅基于RGB图像的端到端SE(3)等变策略学习;核心洞察是将图像表示为投影到三维空间的光线集合,使二维像素获得三维等变变换能力,并兼容任意数量与位置的相机。在MimicGen、DexMimicGen及真实任务中,该方法较最强基线分别提升12%、17%与35%,且训练速度比先前等变扩散方法快约1.6倍。

Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning figure
ICLR2026temporary_pdf

Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning

Policy

策略学习触觉加速/部署

针对偏好强化学习中查询与策略不对齐以及奖励估计器因初现偏差导致早期反馈过拟合的问题,本文提出PoLiCER方法。其核心在于以策略似然度而非时间近度选取查询(PLS),确保反馈始终贴合当前策略;同时利用critic输出动态重置奖励估计器与Q函数(CER),在抑制奖励高估的同时避免频繁重置的计算开销。实验表明,该方法在DMControl运动任务与Meta-World机器人操作任务上均显著优于现有方法,例如在Drawer Open任务上将成功率提升至近100%。

Policy Contrastive Decoding for Robotic Foundation Models figure
ICLR2026arxiv_html

Policy Contrastive Decoding for Robotic Foundation Models

Policy

策略学习

现有机器人策略易学习预训练数据中的虚假相关性,过度依赖背景纹理而非物体特征,导致视觉分布偏移时泛化性能显著下降。本文提出免训练即插即用的策略对比解码PCD,通过在推理阶段对比原始与物体掩码观测的动作概率分布,引导策略关注物体相关线索,并借助Track2Mask与KDE-PM兼容自回归和扩散策略。在三种开源策略与15项任务的实验中,PCD在模拟环境下将Octo、OpenVLA及另一SOTA策略分别提升29.7%、50.6%和8.9%,在真实世界任务中提升达108%。

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation figure
ICLR2026arxiv_html

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Policy

策略学习

现有流式生成策略虽能建模复杂动作分布,但依赖多步迭代采样,导致训练与推理开销大,限制了在线强化学习与实时控制的应用。为此,本文提出均值速度策略(MVP),通过直接建模平均速度场实现单步动作生成,并引入瞬时速度约束(IVC)作为边界条件,以解决平均速度ODE学习中的多解问题,从而兼顾效率与表达能力。实验表明,MVP在Robomimic和OGBench的机器人操作任务上取得了最先进的成功率,同时在训练和推理速度上显著优于现有流策略基线。

Master Skill Learning with Policy-Grounded Synergy of LLM-based Reward Shaping and Exploring figure
ICLR2026temporary_pdf

Master Skill Learning with Policy-Grounded Synergy of LLM-based Reward Shaping and Exploring

Policy

策略学习

现有基于大语言模型的奖励设计方法虽能减少人工,但生成的奖励往往过于目标导向而忽视状态探索,导致机器人在高维稀疏奖励任务中陷入局部最优,且传统探索奖励常与任务无关。为此,本文提出PoRSE框架,让LLM同时生成任务感知的目标奖励与抽象affordance状态空间,以驱动与任务强相关的结构化探索,并通过策略内优化过程动态筛选奖励-探索配置及其权衡比例,无需从零训练策略。在24项机器人操作与移动任务中,PoRSE不仅持续优于现有LLM奖励设计方法,更在多个此前未解决的复杂任务上首次取得突破。

Masked Generative Policy for Robotic Control figure
ICLR2026arxiv_html

Masked Generative Policy for Robotic Control

Policy

策略学习

现有扩散策略因多步去噪推理缓慢,自回归策略受限于逐token串行采样且难以处理非马尔可夫任务与观测缺失。本文提出Masked Generative Policy(MGP),将连续动作离散化为token,以条件Masked Transformer并行生成完整动作序列,并仅精炼低置信度token。针对马尔可夫任务提出MGP-Short实现短程快速闭环控制;针对长程交互提出MGP-Long,引入自适应token精炼与后验置信度估计,基于新观测动态修正未执行轨迹。在150项机器人操作任务中,MGP较SOTA扩散与自回归策略平均成功率提升9%,推理时间最高缩短35倍,并在动态与观测缺失环境下成功率提升60%,同时解决了其他方法失效的非马尔可夫长程任务。

ManipEvalAgent: Promptable and Efficient Evaluation Framework for Robotic Manipulation Policies figure
ICLR2026temporary_pdf

ManipEvalAgent: Promptable and Efficient Evaluation Framework for Robotic Manipulation Policies

Policy

策略学习Benchmark/数据集加速/部署

现有机器人操作策略的评估通常依赖大规模仿真采样与固定流程,时间开销高且难以响应用户开放式需求,最终往往仅给出单一成功率,缺乏诊断信息。本文提出ManipEvalAgent,一个模拟人类专家评估行为的智能体框架:它通过代码生成在仿真器中动态构建任务与评测函数,基于每轮中间观测自适应规划后续小批量测试,并结合视觉语言模型输出细粒度诊断。实验表明,该框架在显著压缩评估耗时的同时,仍能得出与大规模标准基准相当的结论。

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control figure
ICLR2026arxiv_html

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

Policy

策略学习视频

针对现有轨迹控制视频生成方法将机械臂与操作物体独立建模,导致交互区域特征纠缠、难以生成物理合理操作视频的问题,本文提出RoboMaster框架,将交互过程分解为交互前、交互中、交互后三个阶段,以单一协同轨迹统一刻画各阶段主导物体的运动,从而解耦重叠区域特征;同时引入耦合外观与形状嵌入以保持物体语义一致性。实验表明,该方法在Bridge、RLBench和SIMPLER基准上均取得当前最优性能,显著提升了机器人操作视频的真实感与下游动作规划可靠性。

Learning Part-Aware Dense 3D Feature Field For Generalizable Articulated Object Manipulation figure
ICLR2026arxiv_html

Learning Part-Aware Dense 3D Feature Field For Generalizable Articulated Object Manipulation

Policy

3D 视觉策略学习

现有2D基础特征升维到3D时面临推理慢、视图不一致和分辨率低等瓶颈,限制了关节物体操作的泛化。本文提出部件感知3D特征场PA3FF,直接以点云前馈预测密集连续的3D特征场,让特征距离反映功能部件邻近关系,并依托大规模3D部件标注进行对比学习训练。进一步构建部件感知扩散策略PADP。实验表明,该方法在PartInstruct及真实世界任务上均显著优于CLIP、DINOv2和Grounded-SAM,性能分别提升15%与16.5%,且能支撑对应点学习与分割等下游任务。

Hierarchical Value-Decomposed Offline Reinforcement Learning for Whole-Body Control figure
ICLR2026temporary_pdf

Hierarchical Value-Decomposed Offline Reinforcement Learning for Whole-Body Control

Policy

人形机器人策略学习触觉

针对高自由度全身机器人控制中专家演示稀缺的问题,该工作提出利用大量易获取的次优数据。为此,作者提出分层价值分解离线强化学习HVD:通过离线RL对次优数据进行价值导向筛选,同时沿机器人运动学结构分解Q函数以改善信用分配并降低学习复杂度。基于Transformer的架构支持多模态多任务学习。作者还发布了含自然不完美轨迹的50小时数据集WB-50。实验表明,HVD在复杂全身任务上的成功率显著优于基线,证明有效的全身控制策略可从结构化利用不完美数据中涌现。

HAMLET: Switch Your Vision-Language-Action Model into a History-Aware Policy figure
ICLR2026arxiv_html

HAMLET: Switch Your Vision-Language-Action Model into a History-Aware Policy

Policy

VLA策略学习感知

现有视觉-语言-动作模型(VLA)通常仅依据当前观测预测动作,难以处理机器人操作中固有的历史依赖问题(如遮挡、多步推理),而简单堆叠历史帧又会带来巨大的计算与内存开销。为此,本文提出即插即用的微调框架HAMLET,通过时间对比学习初始化“时刻令牌”(moment tokens)紧凑编码每帧关键信息,并借助轻量级记忆模块跨时间步聚合历史表征,无需从头预训练即可赋予VLA历史感知能力。实验表明,该方法在真实世界长程任务上将GR00T N1.5的基线成功率提升了47.2%(达76.4%),并在RoboCasa Kitchen和LIBERO等基准上持续刷新性能。

H3DP: Triply‑Hierarchical Diffusion Policy for Visuomotor Learning figure
ICLR2026arxiv_html

H3DP: Triply‑Hierarchical Diffusion Policy for Visuomotor Learning

Policy

3D 视觉策略学习

现有视觉运动策略常将感知与动作生成割裂优化,忽视二者耦合。本文提出H3DP框架,在输入、表示和动作生成三层引入层次化设计:输入端以深度感知分层将RGB-D按深度切层,抑制遮挡与干扰;表示端提取多尺度视觉特征;动作生成端则让扩散过程依视觉特征由粗到细逐步去噪,从低频结构到高频细节对齐视觉与动作。实验覆盖5个模拟基准的44项任务及4项真实世界双手长程操作任务,在仿真与真实场景中均较基线取得提升,但具体增益数值文中未充分说明。

Geometry-aware Policy Imitation figure
ICLR2026arxiv_html

Geometry-aware Policy Imitation

Policy

3D 视觉策略学习

现有模仿学习方法多将示教压缩为参数化模型,难以兼顾多模态、效率与可扩展性。本文提出几何感知策略模仿(GPI),将示教视为状态空间中的几何曲线,通过距离场导出“前进流”与“吸引流”两种互补原语,叠加为轻量非参数向量场以直接驱动机器人。该方法将度量学习与策略合成解耦,无需重训练即可组合新示教并自然支持多模态。实验表明,GPI在仿真与真实机器人任务中的成功率优于扩散策略,推理速度快20倍且内存占用更低,对扰动表现出良好鲁棒性。

Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints figure
ICLR2026temporary_pdf

Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints

Policy

3D 视觉策略学习

针对现有coarse-to-fine策略在新任务组合与环境变化下泛化不足的问题,本文提出CLAP框架,将高层VLM规划器扩展为先把任务分解为步骤级语言指令,再依次执行物体定位与3D关键点预测,同时在低层动作预测器中融合语言对齐的RGB特征与带3D位置编码的深度信息以构建3D感知表征。实验表明,该方法在GemBench上仅用五分之一数据即超越SOTA约12%平均成功率,并在真实场景中仅凭十次演示便泛化至未见指令与环境。

GRL-SNAM: Geometric Reinforcement Learning with Differential Hamiltonians for Navigation and Mapping in Unknown Environments figure
ICLR2026temporary_pdf

GRL-SNAM: Geometric Reinforcement Learning with Differential Hamiltonians for Navigation and Mapping in Unknown Environments

Policy

导航策略学习触觉

针对无地图未知环境中同步导航与建图任务,现有深度强化学习受限于样本效率低、长程漂移与泛化性差。该文提出GRL-SNAM,将导航刻画为受控哈密顿优化下的动态最短路径搜索,把局部感知转化为编码可达性与障碍屏障的能量景观,通过可微分哈密顿量更新在线演化感知、规划与形变策略,无需构建全局地图。在超弹性机器人挤缝穿行与室内迷宫点导航中,该方法以最少地图覆盖保持了路径间隙质量,并能泛化到未见过环境。

EquAct: An SE(3)-Equivariant Multi-Task Transformer for 3D Robotic Manipulation figure
ICLR2026arxiv_html

EquAct: An SE(3)-Equivariant Multi-Task Transformer for 3D Robotic Manipulation

Policy

3D 视觉策略学习

现有语言条件的多任务操作策略缺乏3D几何一致性保证,难以泛化到新场景,且已有等变方法多局限于平移等变或单任务拾取放置。本文提出EquAct,首次实现连续SE(3)等变的多任务关键帧策略学习:设计基于球傅里叶特征的等变点云Transformer U-net,并引入SE(3)不变的iFiLM层进行语言条件化,且严格证明了相关等变与不变性质。在18个RLBench任务(含SO(3)与SE(3)扰动)及4项物理实验中,EquAct均取得领先性能,且计算开销与基线相当。

Emergent Dexterity Via Diverse Resets and Large-Scale Reinforcement Learning figure
ICLR2026arxiv_html

Emergent Dexterity Via Diverse Resets and Large-Scale Reinforcement Learning

Policy

策略学习触觉Sim2Real

现有机器人强化学习需要大量任务专属工程,在长程接触丰富操作中难以随算力扩展。本文提出OmniReset框架,其核心洞察是通过程序化生成多样化的模拟器重置,系统性覆盖灵巧操作所需的各类机器人-物体交互,将额外计算直接转化为更广的行为覆盖与持续性能提升,无需课程、演示或精细奖励塑形。实验表明,该方法能扩展到现有方法难以企及的长程灵巧操作任务,学到具备动态恢复行为的鲁棒策略,并可蒸馏为视觉运动策略零样本迁移至真实世界,在更广泛的初始条件下完成复杂任务。

Difference-Aware Retrieval Polices for Imitation Learning figure
ICLR2026temporary_pdf

Difference-Aware Retrieval Polices for Imitation Learning

Policy

策略学习

针对行为克隆在分布外状态因误差累积导致方差过大与 rollout 不稳定的问题,本文提出 DARP:一种半参数检索式模仿学习方法。其核心洞察是将策略表示从全局状态-动作映射转向局部邻域结构,在推理时检索专家演示的 k 近邻,并基于邻居状态、对应动作及与查询状态的差值向量进行差异感知预测与聚合,从而隐式实现拉普拉斯平滑、抑制高频方差。在 MuJoCo、Robosuite、Robocasa 及高维视觉模仿任务上,DARP 在不引入额外数据或在线监督的条件下,将标准行为克隆性能提升 15%–46%。

Demystifying Robot Diffusion Policies: Action Memorization and a Simple Lookup Table Alternative figure
ICLR2026arxiv_html

Demystifying Robot Diffusion Policies: Action Memorization and a Simple Lookup Table Alternative

Policy

策略学习

针对Diffusion Policy在极少样本机器人操作中严重过拟合却仍能表现优异的谜团,本文揭示其成功并非源于动作泛化,而是隐式记忆了动作查找表:推理时仅在潜空间中寻找最近邻训练图像并召回对应动作序列。基于该洞察,作者提出Action Lookup Table (ALT),利用对比学习编码器显式建立索引,在小数据集上取得与扩散模型相当的性能,却仅需约三百分之一的推理时间和不足百分之一的内存,并可通过潜空间距离阈值实现即时的分布外检测。

DemoGrasp: Universal Dexterous Grasping from a Single Demonstration figure
ICLR2026arxiv_html

DemoGrasp: Universal Dexterous Grasping from a Single Demonstration

Policy

策略学习灵巧操作Sim2Real抓取

灵巧抓取的高维长时域探索使现有强化学习方法依赖复杂奖励与课程设计,跨物体泛化困难。DemoGrasp的核心洞察是,单次成功演示已蕴含可迁移的抓取模式,只需编辑其中手腕位姿与手部关节角度即可适配新物体与新姿态。作者将轨迹编辑建模为单步决策过程,以仅含二值成功与碰撞惩罚的极简奖励完成并行训练。该方法在DexGraspNet上达95%仿真成功率,并在真实世界迁移至110个未见物体,常规尺寸成功率95.3%,小薄物体71.1%,且可泛化至不同相机配置与杂乱场景。

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets figure
ICLR2026arxiv_html

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

Policy

策略学习触觉Benchmark/数据集

该研究旨在降低机器人策略预训练对高质量示范数据的依赖,将离线强化学习与跨具身学习相结合,利用包含次优轨迹的异构机器人数据学习通用控制策略。作者构建了覆盖16种机器人平台的运动数据集,系统分析了该范式的优势与局限,发现当次优数据比例和机器人类型增加时,跨形态梯度冲突会严重阻碍学习。为此,他们提出基于形态相似性的静态分组更新策略,有效缓解冲突并超越现有方法,在富含次优数据的预训练场景中表现优于纯行为克隆。

Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation figure
ICLR2026arxiv_html

Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation

Policy

策略学习

现有视图变换器通常独立处理各静态视角,导致跨视角3D空间推理不足且难以适应动态环境变化。受人类大脑视觉腹侧-背侧双通路启发,本文提出Cortical Policy:静态视图流借助预训练3D基础模型对齐几何一致关键点以增强空间理解,动态视图流则通过位置感知的自我中心注视估计预训练模拟背侧通路实现自适应轨迹调整。二者融合使策略同时具备坚实的几何基础与动态适应能力,在RLBench、COLOSSEUM及真实机器人任务上均显著优于现有基线,验证了该皮层启发式双流架构对视觉运动模仿学习的有效性。

Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations figure
ICLR2026arxiv_html

Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations

Policy

策略学习

扩散策略虽能捕捉多模态动作分布,但迭代采样中数值求解器与分数匹配误差的累积在连续控制中尤为致命。本文提出Contractive Diffusion Policies(CDPs),将微分方程的收缩理论引入反向扩散采样ODE,通过使相近采样流相互靠拢来抑制误差增长并降低动作方差。实现上仅需添加一个超参数与一项轻量收缩损失即可嵌入现有架构。在D4RL、Robomimic及真实机器人任务中,CDPs常优于标准扩散策略,且在数据稀缺场景下提升更显著。

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition figure
ICLR2026arxiv_html

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Policy

策略学习

扩散与流式机器人策略的性能常受限于数据收集成本与模型容量瓶颈。本文提出General Policy Composition(GPC),一种无需额外训练的测试时策略组合框架:通过凸组合多个异构预训练策略(如扩散/流匹配、VA/VLA)的分布分数,并以测试时搜索确定最优权重。理论分析表明,凸组合在单步功能目标上优于任一单个分数,且该优势可沿生成轨迹系统性地传播。在Robomimic、PushT、RoboTwin及真实机器人实验上,GPC持续优于所有单一父策略,并展现出跨架构与模态的通用性。

Capturing Visual Environment Structure Correlates with Control Performance figure
ICLR2026arxiv_html

Capturing Visual Environment Structure Correlates with Control Performance

Policy

策略学习

针对视觉表示评估成本高昂且现有代理指标泛化受限的问题,本文提出以预训练视觉编码器从图像解码环境完整状态(几何、物体结构及物理属性)的能力作为代理指标,利用仿真环境的 ground-truth 状态进行轻量级测量。实验表明,该精度与下游策略成功率在 MetaWorld、RoboCasa 等多种环境及不同学习设置下均呈强相关性,显著优于现有指标且计算成本更低。研究验证了仿真到真实任务的迁移可靠性,并指出编码环境潜在物理状态是提升机器人控制视觉表示的关键方向。

Autonomous Play with Correspondence-Driven Trajectory Warping figure
ICLR2026temporary_pdf

Autonomous Play with Correspondence-Driven Trajectory Warping

Policy

策略学习

现有机器人模仿学习受限于人工示教数据的线性扩展瓶颈。本文提出Tether系统,通过语义关键点对应将少量示教轨迹变形适配到新场景,构建了一种数据高效且空间语义鲁棒的开环策略;并在此基础上设计了由视觉语言模型引导的自主功能性玩耍循环,无需人工重置即可持续生成高质量训练数据。实验表明,该方法仅凭少量示教就能在真实环境中连续自主运行26小时,产出超过1000条专家级轨迹,并持续优化下游闭环模仿策略至接近人工示教训练的性能。

Accelerated co-design of robots through morphological pretraining figure
ICLR2026arxiv_html

Accelerated co-design of robots through morphological pretraining

Policy

策略学习数据加速/部署

针对机器人形态与控制协同设计长期受限于“每变一次形态就要重学一次策略”的低效循环,本文提出基于可微仿真的形态预训练框架,先在大规模多样化机器人身体上通过梯度优化训练出一个通用控制器,再将其用于进化过程中的零样本评估与快速微调。研究发现,若从头同时协同优化形态与控制器,种群会因“多样性崩溃”而趋于同质化;而采用预训练控制器的零样本进化不仅迅速得到高性能设计,辅以每代微调后还能进一步放大形态多样性,首次在复杂软体机器人上验证了有效的设计重组(crossover)。

Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies figure
ICLR2026arxiv_html

Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies

Policy

策略学习

现有扩散策略在多任务机器人操作中面临模型规模与推理成本急剧上升的难题。本文提出Skill Mixture-of-Experts Policy(SMP),在局部白化动作空间中学习状态自适应的正交技能基,并通过粘性路由与自适应专家激活机制,使每步仅调用少量相关专家生成动作。作者在仿真与真实双臂平台上验证了多任务学习与迁移学习效果,结果表明SMP在取得更高任务成功率的同时,推理延迟与激活参数量均显著低于大规模扩散基线,且学到的技能可在新任务中少量样本快速复用。

VLMgineer: Vision-Language Models as Robotic Toolsmiths figure
ICLR2026arxiv_html

VLMgineer: Vision-Language Models as Robotic Toolsmiths

Planning and Reasoning

规划/推理感知

现有机器人研究多聚焦于控制器优化,本文提出以发明更优工具将问题求解负担从控制策略转移至工具几何设计,视其为一种互补的物理智能。为此构建完全自主的VLMgineer框架,利用视觉语言模型的代码生成与进化搜索迭代共设计工具形态及操作动作,无需任务特定模板。在RoboToolBench的12项日常任务中,该框架较人工规格VLM设计和现有人工工具分别取得64.7%与24.3%的平均归一化提升,验证了基础模型在物理设计先验上的有效性。

Towards Improvisational TAMP: Learning Low-Level Shortcuts in Abstract Planning Graphs figure
ICLR2026temporary_pdf

Towards Improvisational TAMP: Learning Low-Level Shortcuts in Abstract Planning Graphs

Planning and Reasoning

规划/推理

现有任务与运动规划(TAMP)依赖人工预定义技能(如抓取、放置),限制了机器人在复杂物理交互中的即兴能力。本文提出SLAP方法,其核心洞察是利用现有抽象技能的结构,通过无模型强化学习在抽象规划图中自动发现低层捷径选项,无需额外输入即可突破预定义行为边界。在四个长程稀疏奖励的模拟机器人任务中,SLAP将规划长度缩短超过50%,成功率持续优于纯规划与分层RL基线,并能泛化到训练时未见的物体数量与动态物理属性。

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration? figure
ICLR2026arxiv_html

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Planning and Reasoning

规划/推理3D 视觉

针对现有基础模型多聚焦被动感知而缺乏对主动空间探索能力的系统评估,本文提出Theory of Space框架,将空间探索本身作为首要决策问题,通过文本与视觉环境基准测试,考察模型在部分可观测下自主构建、修正和利用空间信念的能力。其核心创新在于空间信念探测机制,通过提示模型输出每一步的认知地图,直接度量其内部空间表征的质量与不确定性。评估发现,主流模型存在显著的主动-被动差距,探索冗余低效;深层诊断表明,除感知瓶颈外,全局空间信念存在时序不稳定性,且视觉模型表现出严重的信念惯性,难以更新过时先验。

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning figure
ICLR2026arxiv_html

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Planning and Reasoning

规划/推理感知

现有机器人故障检测常限于预定义闭集,难以应对真实世界微妙组合的故障,且详细推理标注昂贵。本文提出ARMOR,将检测与推理建模为多轮自精炼的多任务过程,令视觉语言模型迭代联合优化检测结果与开放式自然语言推理。训练时融合大规模稀疏二元标签与小规模密集推理标注,以离线与在线模仿学习处理异质监督;推理时生成多条精炼轨迹并依自确定性选取最优。实验显示,故障检测率较前方法最高提升30%,推理评分最高提升100%,展现出对异质监督的鲁棒性与超越预定义模式的开放推理能力。

Self-Improving Loops for Visual Robotic Planning figure
ICLR2026arxiv_html

Self-Improving Loops for Visual Robotic Planning

Planning and Reasoning

规划/推理

现有基于专家演示训练的视觉规划模型难以泛化到未见过的新任务,且仅依赖静态离线数据。本文提出 SILVR,让领域内视频生成模型通过执行自身产出的视觉规划与环境交互,在线收集轨迹并利用稀疏奖励筛选后迭代微调,从而在初始未见的任务上持续自提升;必要时还可引入互联网规模的预训练视频先验。实验表明,该方法在 MetaWorld 和真实机械臂操作任务中均实现多轮性能增长,其中 MetaWorld 任务成功率在 10 次迭代内提升达 285%,且对非完美奖励信号和次优数据具有鲁棒性,最终还能蒸馏为轻量策略以兼顾推理速度。

SafeFlowMatcher: Safe and Fast Planning using Flow Matching with Control Barrier Functions figure
ICLR2026arxiv_html

SafeFlowMatcher: Safe and Fast Planning using Flow Matching with Control Barrier Functions

Planning and Reasoning

规划/推理策略学习

流匹配规划器虽快但无形式化安全保证,直接在采样中施加控制屏障函数又易因干预中间潜在状态导致分布漂移与局部陷阱。本文提出SafeFlowMatcher,以预测-校正积分器解耦路径生成与安全认证:先由流匹配生成候选路径,再通过基于CBF的二次规划在修正阶段补偿积分误差并施加安全约束,且仅对执行路径而非中间隐状态进行限制。理论证明了安全集的前向不变性与有限时间收敛。在迷宫导航、移动及机器人操作任务中,该方法相较基线实现了更快、更平滑且安全的路径。

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures figure
ICLR2026arxiv_html

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

Planning and Reasoning

规划/推理

针对视觉-语言-动作(VLA)智能体在长程任务中因单步误差引发级联失败的问题,本文提出ReCAPA框架,通过层次化预测修正在动作、子目标和轨迹三个层级进行跨层对齐与早期偏差纠正,并引入EPR和PAC指标量化错误传播与衰减。实验表明,该方法在VisualAgentBench、MineDojo和AI2-THOR上较强力基线分别提升成功率5.65%、9%和7%。

Planning with an Embodied Learnable Memory figure
ICLR2026temporary_pdf

Planning with an Embodied Learnable Memory

Planning and Reasoning

规划/推理

针对现有具身记忆难以应对动态环境中物体移动、计算开销大且依赖多模型启发式集成的问题,本文提出Embodied Perception Memory (EPM)。该记忆以单一VLM基于自我中心视觉维护可动态更新的文本化场景表示,使LLM规划器无需显式查询即可直接推理。训练上结合人类示教模仿与Dynamic Difficulty-Aware Fine-Tuning (DDAFT)在线强化学习。在PARTNR基准上,该方法较基线成功率提升达55%,即便基线使用真实感知仍表现更优。

One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration figure
ICLR2026arxiv_html

One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration

Planning and Reasoning

规划/推理

现有任务与运动规划(TAMP)长期受困于人工构建符号规划域的高成本与低扩展性。本文提出PDDLLM框架,仅凭单次演示轨迹,通过大语言模型推理与物理模拟推演自动生成PDDL规划域(含谓词与动作),并借助Logical Constraint Adapter自动对接低级运动规划器。在九个环境、超过一千二百项任务中,其成功率较六种LLM基线提升至少两成,token消耗更低,且已成功部署于Franka Panda等多款真实机器人。

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning figure
ICLR2026arxiv_html

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

Planning and Reasoning

规划/推理3D 视觉

现有基于多模态大语言模型的具身系统面临纯2D输入空间信息不足与硬编码3D注入损害2D泛化的矛盾,且常忽视物理约束导致计划不可执行。本文提出OmniEVA,通过任务自适应门控路由动态按需注入3D特征,并引入具身感知训练框架将物理约束与任务目标纳入推理过程。该模型在8个具身推理基准中的7个上达到SOTA,并在物体导航与移动操作等下游任务中展现出优异的规划与泛化能力。

Natural Language PDDL (NL-PDDL) for Open-world Goal-oriented Commonsense Regression Planning in Embodied AI figure
ICLR2026temporary_pdf

Natural Language PDDL (NL-PDDL) for Open-world Goal-oriented Commonsense Regression Planning in Embodied AI

Planning and Reasoning

规划/推理

针对开放世界具身智能体在部分可观测与知识不完整条件下的规划难题,本文指出纯LLM/VLM规划易出现幻觉且缺乏因果追踪,而经典PDDL则受限于完整模型假设与穷举实例化。为此,作者提出NL-PDDL,以自然语言灵活描述目标与动作,并将回归规划与LLM常识蕴涵推理结合,自动推断实现子目标所需的观测信息与动作affordance,同时通过lifted回归避免对象枚举,使复杂度与实例数量解耦。在Blocksworld及ALFWorld(文本/视觉)上的实验表明,该方法在长程复杂任务中显著优于基线,并具备跨模态泛化能力。

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Models for Embodied Task Planning figure
ICLR2026arxiv_html

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Models for Embodied Task Planning

Planning and Reasoning

规划/推理感知

针对家庭移动操作机器人需同时导航与操作的需求,现有场景图往往仅编码单一空间或功能关系、局限于静态快照且缺乏任务相关性。为此,本文提出MomaGraph,首次将空间-功能关系统一并引入部件级交互节点,构建动态且任务对齐的统一表示;并配套推出首个大规模任务驱动场景图数据集MomaGraph-Scenes及综合评估基准MomaGraph-Bench。进而以强化学习训练7B视觉语言模型MomaGraph-R1,采用Graph-then-Plan范式实现零样本任务规划,在基准上取得71.6%的准确率,较最优开源基线提升11.4%,并有效迁移至真实机器人实验。

Experience-based Knowledge Correction for Robust Planning in Minecraft figure
ICLR2026arxiv_html

Experience-based Knowledge Correction for Robust Planning in Minecraft

Planning and Reasoning

规划/推理

现有大语言模型在Minecraft长程规划中常携带错误的物品依赖与动作先验,且难以通过提示或反馈自我纠正。本文提出XENON,其不依赖LLM自省,而是基于成败经验算法化修正外部知识:通过Adaptive Dependency Graph利用成功记录修正依赖关系,并通过Failure-aware Action Memory利用失败记录修正动作知识并归因失败原因。实验表明,该方法在多项Minecraft基准中显著优于现有智能体,且仅用7B开源模型即可超越依赖更大专有模型的系统。

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation figure
ICLR2026arxiv_html

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

Planning and Reasoning

规划/推理触觉

针对机器人操作中数据稀缺与具身异构造成的“感知-动作鸿沟”,本文提出以“指向”作为统一且具身无关的中间表示,系统定义了四种核心具身指向能力。研究构建了Embodied-Points-200K数据集,并通过两阶段强化微调与多任务奖励设计,训练出3B参数的Embodied-R1模型。该模型在11项基准上取得SOTA,且在SIMPLEREnv仿真与真实XArm任务中实现零样本泛化,较基线提升62%,对视觉干扰亦具强鲁棒性。

EVLP: Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning figure
ICLR2026arxiv_html

EVLP: Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning

Planning and Reasoning

规划/推理触觉感知

针对复杂长程机器人操作中语言规划与视觉生成割裂、导致多模态规划不一致的问题,本文提出基于单一Transformer的EVLP框架,统一建模语言推理与视觉想象。其核心在于设计双塔视觉模块耦合语义与空间感知,通过双向动态预训练(逆/前向动力学任务)学习环境状态转移,并进一步提出强化监督微调(RSFT),以策略梯度显式对齐文本动作与生成图像的空间逻辑,克服传统最大似然训练对任务无关视觉细节的过度优化。在多个复杂操作基准上,EVLP在指令执行准确率与任务成功率方面均显著优于竞争基线。

Compositional Visual Planning via Inference-Time Diffusion Scaling figure
ICLR2026arxiv_html

Compositional Visual Planning via Inference-Time Diffusion Scaling

Planning and Reasoning

规划/推理策略学习

针对长程机器人视觉规划,现有方法在噪声空间拼接短程扩散模型片段时易因因子分解失效而产生不一致全局计划。本文核心洞察在于应在Tweedie估计的干净数据域而非噪声中间状态上强制边界一致,将长程规划建模为重叠视频块的链式因子图推断,并通过同步与异步消息传递在推理时传播约束。该无需额外训练的框架在组合规划基准和真实机器人实验上显著优于现有方法,并能泛化到未见的起始-目标组合。

BOLT: Decision‑Aligned Distillation and Budget-Aware Routing for Constrained Multimodal QA on Robots figure
ICLR2026temporary_pdf

BOLT: Decision‑Aligned Distillation and Budget-Aware Routing for Constrained Multimodal QA on Robots

Planning and Reasoning

规划/推理

针对机器人在延迟、内存与能耗严格受限下的多模态多选题决策难题,本文指出传统token级蒸馏与始终开启的测试时增强难以对齐决策表面且浪费资源。为此提出BOLT框架:训练时通过选项级决策蒸馏直接对齐师生在答案选项上的偏好分布;推理时利用置信度、熵等低成本信号进行预算感知路由,仅在预期收益为正时才触发高分辨率重判、检索增强或问题分解。在Robo2VLM-1上,2B学生模型准确率从28.66%提升至50.50%,超越13B教师(36.74%),同时将显存从约26.9GB压缩至3.8GB以内,并改善了校准、风险覆盖权衡与可解释性。

PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement figure
ICLR2026arxiv_html

PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement

Other

感知

现有工作多聚焦3D物体摆放,却忽视接触、支撑、平衡等物理关系,难以生成高密度、物理合理的复杂场景。本文提出PhyScensis,一个由物理引擎驱动的LLM智能体框架:LLM以空间和物理谓词迭代描述布局,物理求解器将其落地为3D场景,并通过多重反馈闭环优化。通过概率编程评估稳定性,该方法实现了对紧凑度与稳定性的细粒度控制。实验表明,其在场景复杂度、视觉质量与物理准确性上优于已有方法,可生成面向机器人操作的开放词汇复杂物理场景。

On the Generalization Capacities of MLLMs for Spatial Intelligence figure
ICLR2026arxiv_html

On the Generalization Capacities of MLLMs for Spatial Intelligence

Other

3D 视觉

现有RGB-only多模态大语言模型在空间推理中忽略相机内参,导致近小远大与焦距-深度等几何歧义无法消解,严重限制跨相机泛化。为此,本文提出Camera-Aware MLLM框架:通过相机射线嵌入将内参注入视觉token,设计相机感知的几何增强强制解耦场景与相机属性,并蒸馏3D视觉基础模型的几何先验。实验表明,该方法在跨相机空间任务中显著优于基线,尤其在分布外相机上保持鲁棒,验证了相机感知是实现可泛化空间智能的必要前提。

OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds figure
ICLR2026arxiv_html

OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds

Other

3D 视觉

现有智能体多专注GUI或具身单一领域,但复杂任务需交替交互2D与3D世界,直接混合训练会因动作差异导致数据冲突。作者发现两类数据在浅层具协同性、在深层存冲突,类似人脑大脑-小脑机制,据此提出Layer-heterogeneity MoE:浅层共享参数利用协同,深层分离参数消除冲突,并统一动作空间与大规模数据训练。OmniActor在GUI和具身任务上均超越单一领域训练模型及现有通才智能体,甚至优于专用SOTA模型。

Interaction-aware Representation Modeling With Co-Occurrence Consistency for Egocentric Hand-Object Parsing figure
ICLR2026arxiv_html

Interaction-aware Representation Modeling With Co-Occurrence Consistency for Egocentric Hand-Object Parsing

Other

灵巧操作

针对第一视角手-物体解析任务,现有Transformer方法因查询初始化僵化、语义特征引入交互无关噪声且易产生“交互错觉”而导致物理不一致预测。本文提出InterFormer,通过Dynamic Query Generator基于手-物体接触空间动态生成自适应交互查询,利用Dual-context Feature Selector融合交互边界与语义特征以抑制噪声,并引入Conditional Co-Occurrence损失约束手-物体共现关系。实验表明,该模型在EgoHOS及跨域mini-HOI4D数据集上均达到最优性能,具备强泛化能力。

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization figure
ICLR2026arxiv_html

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Other

其他

现有LLM具身智能体多聚焦于单次物体重排,难以利用历史交互中的个性化知识提供真正辅助。本文从记忆利用视角出发,构建Memento评估框架,从物品语义与用户行为模式两个维度系统考察智能体的个性化能力。研究发现,当前智能体虽能回忆简单物品语义,却难以将序列化的用户模式融入规划,且存在信息过载与多记忆协调失败两大瓶颈。为此,作者提出分层知识图谱用户画像记忆模块以独立管理个性化知识,在单记忆与联合记忆任务中均取得显著提升。

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations figure
ICLR2026arxiv_html

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Other

其他

现有外视到自视转换方法常受限于同步多视角、初始自视帧或2D手部布局等强假设,难以处理遮挡与视角差异。该工作提出EgoWorld,先利用估计的深度图与3D手部姿态构建并校准点云,再将其重投影到自视视角,最后通过扩散模型补全生成高保真自视图像,并以文本描述增强语义一致性。在H2O、TACO等四个数据集上达到最优性能,且对未见物体、动作、场景及真实环境具有强泛化能力。

Lifelong Embodied Navigation Learning figure
ICLR2026arxiv_html

Lifelong Embodied Navigation Learning

Navigation

导航

现有大语言模型驱动的具身导航智能体难以持续习得新技能且易遗忘旧知识。本文提出终身具身导航学习(LENL)任务与Uni-Walker框架,通过DE-LoRA将知识解耦为共享与特定成分,并设计知识继承、专家共激活、子空间正交约束及导航专用思维链机制,在持续学习多场景多指令风格任务时有效缓解灾难性遗忘,实验表明其在LENL设置下达到领先性能并具备跨任务泛化能力。

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning figure
ICLR2026arxiv_html

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

Navigation

导航策略学习触觉

当前导航基础模型仅靠离线视频预训练,缺乏对物理交互与动态环境的因果推理能力。本文提出S2E框架,通过锚点引导分布匹配稳定离线预训练,并设计残差注意力模块,在仿真中通过强化学习注入反应性行为而不覆盖预训练知识。此外构建NavBench-GS基准进行闭环评估。实验表明,RL后训练可突破纯离线数据扩展的收益递减瓶颈,并在轮式与四足机器人上实现真实场景的零样本泛化。

Emergence of Spatial Representation in an Actor-Critic Agent with Hippocampus-Inspired Sequence Generator figure
ICLR2026arxiv_html

Emergence of Spatial Representation in an Actor-Critic Agent with Hippocampus-Inspired Sequence Generator

Navigation

导航3D 视觉

该研究提出海马体位置细胞序列源于CA3内在递归回路的长时程传播,可在缺乏连续输入时充当时间记忆缓冲。作者据此构建受海马启发的Actor-Critic导航智能体,以齿状回稀疏化与硬编码CA3序列生成器处理稀疏自我中心视觉输入。实验表明,该架构能在无显式几何线索的连续迷宫中可靠求解,且仅在稀疏输入下优于同等规模LSTM;训练自发涌现局部位置野、输入正交化及任务依赖重映射,表明稀疏编码与序列生成动力学的协同既解释了海马体序列起源,也为稀疏感知下的强化学习导航提供了有效归纳偏置。

CE-Nav: Flow-Guided Reinforcement Refinement for Cross-Embodiment Local Navigation figure
ICLR2026arxiv_html

CE-Nav: Flow-Guided Reinforcement Refinement for Cross-Embodiment Local Navigation

Navigation

导航策略学习触觉

CE-Nav针对跨形态局部导航中数据成本高昂、规划控制耦合及多模态决策缺失等瓶颈,提出两阶段IL-then-RL框架:第一阶段利用条件归一化流模型VelFlow离线学习经典规划器的运动学多模态分布,构建无需真实数据的通用专家;第二阶段冻结该专家作为先验,通过课程引导的在线强化学习训练轻量优化器,以极少环境交互补偿特定机器人的动力学与控制器误差。实验表明,该方法在四足、双足及四旋翼平台上均达到SOTA性能,并已完成真实场景部署验证。

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models figure
ICLR2026arxiv_html

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

Humanoid

人形机器人

针对当前类人行为基础模型在复杂任务中难以平衡prompt精确性与动作鲁棒性的问题,本文提出Task Tokens:在完全冻结预训练BFM(如MaskedMimic)的前提下,仅训练轻量级任务编码器,通过强化学习生成任务专属token,将用户定义的高层目标先验与reward-driven优化无缝结合。该方法在大幅减少可训练参数并提升收敛速度的同时,实现了优异的任务适应与分布外泛化性能,且完整保留了原模型的多模态提示能力与zero-shot鲁棒性。

HWC-Loco: A Hierarchical Whole-Body Control Approach to Robust Humanoid Locomotion figure
ICLR2026arxiv_html

HWC-Loco: A Hierarchical Whole-Body Control Approach to Robust Humanoid Locomotion

Humanoid

人形机器人

针对人形机器人从仿真到真实部署时面临的环境动力学失配及安全关键场景,现有方法常因过度正则化或缺乏结构化危险模式建模而难以兼顾任务效率与安全性。本文提出HWC-Loco,一种分层全身控制框架,将策略学习重构为鲁棒优化问题,显式学习极端情形下的安全恢复策略,并通过高层规划器动态权衡目标跟踪与安全保障,结合ZMP动态约束避免过度保守。在多样化地形、强外部位移扰动及H1和G1等不同机型的仿真与真机实验中,该框架在任务完成率、抗扰鲁棒性、动作自然度及新任务可扩展性上均展现出优于现有方法的表现。

From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance figure
ICLR2026arxiv_html

From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance

Humanoid

人形机器人

现有语言驱动人形机器人运动的多级流程(生成人体动作、重定向、跟踪)存在误差累积、延迟高且语义与控制耦合弱的问题。本文提出RoboGhost框架,其核心洞察是将语言生成的运动潜变量作为一级条件直接驱动策略,通过混合因果Transformer-扩散架构获得长程一致且多样的运动隐表示,再由扩散策略从噪声中直接降噪出可执行动作,彻底绕过显式解码与重定向。实验表明,该方法将部署延迟从17.85秒降至5.84秒,成功率提升5%并降低跟踪误差,且在真实人形机器人上实现了语义对齐的敏捷运动。

BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning figure
ICLR2026arxiv_html

BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning

Humanoid

人形机器人策略学习触觉

针对现有人形全身控制方法多依赖on-policy强化学习与显式跟踪奖励、难以跨任务泛化且缺乏统一任务接口的问题,本文提出BFM-Zero,一种基于前向-后向表示的在线off-policy无监督强化学习算法。该算法利用动捕数据正则化策略学习,并引入域随机化与非对称历史依赖训练以弥合仿真到现实的差距,进而学习统一的任务潜空间与可提示策略,在仿真及真实Unitree G1机器人上实现了奖励优化、目标姿态到达与动作跟踪等任务的zero-shot执行,并支持通过少量交互快速适应新任务。

VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation figure
ICLR2026arxiv_html

VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation

Dexterous Manipulation

灵巧操作感知

现有双手操作要么依赖大规模示教数据与模型重训练,要么模块化系统在动态场景中缺乏灵活性。VLBiMan提出一种基于单次示教的视觉-语言锚定框架:先将任务感知分解为左右臂原语,再利用VLM提取物体锚点并在语义与几何约束下自适应调整,最后自主组合轨迹。实验表明,该方法在10项复杂双手任务中显著减少示教需求,实现了长程技能组合泛化、对新物体与外部干扰的鲁棒性,以及跨机器人平台的免重训练迁移。

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model figure
ICLR2026arxiv_html

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

Dexterous Manipulation

灵巧操作感知

现有灵巧手操作多局限于静态抓取,缺乏开放词汇语言引导且难以生成时序连贯的动态交互。UniHM提出首个统一的语言驱动灵巧手操作框架,通过将异构手形态映射至共享离散码本实现跨手型泛化,并仅利用人-物交互视频训练视觉语言模型,避免昂贵遥操作数据。其物理引导的动态细化模块在生成与时间先验下分段联合优化,确保操作序列平滑且物理可行。实验表明,该方法在已见与未见物体、轨迹及真实场景中均达领先性能,展现出强泛化与高物理可行性。

SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation figure
ICLR2026arxiv_html

SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

Dexterous Manipulation

灵巧操作

针对长程、接触丰富的机器人操作(如可变形物体折叠)中演示数据质量参差不齐且难以量化的问题,本文提出阶段感知奖励建模框架SARM。该框架利用自然语言子任务标注为变长演示生成稳定的进度标签,联合预测任务阶段与细粒度进展,避免帧索引标签的脆弱性。在此基础上,作者提出Reward-Aligned Behavior Cloning(RA-BC),依据奖励估计对演示进行过滤与重加权。真实世界T恤折叠实验表明,该方法将平整与揉皱起始状态的成功率分别从vanilla BC的8%和0%提升至83%和67%,显著优于基线。

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations figure
ICLR2026arxiv_html

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

Dexterous Manipulation

灵巧操作视频

针对机器人模仿学习依赖真实示教或大规模视频数据集带来的采集成本高、域差距大等问题,该研究提出RIGVid框架,探索仅通过模仿AI生成视频执行复杂操作任务的可能性。系统基于视频扩散模型生成候选演示,利用VLM自动过滤失败样本,并通过6D物体姿态跟踪提取轨迹后重定向至机器人。真实实验表明,过滤后的合成视频监督效果可与人类示教媲美,且生成视频作为监督信号优于VLM关键点预测等紧凑表示,6D姿态跟踪也显著优于点跟踪和光流等轨迹提取方法。

RFS: Reinforcement learning with Residual flow steering for dexterous manipulation figure
ICLR2026arxiv_html

RFS: Reinforcement learning with Residual flow steering for dexterous manipulation

Dexterous Manipulation

策略学习灵巧操作触觉

基于流匹配的生成式模仿学习策略虽能捕捉多模态行为,但预训练后泛化有限,现有微调方法也难以同时兼顾局部修正与全局调整。本文提出残差流引导(RFS),将残差动作学习与潜在噪声调制统一为策略调制框架,在冻结预训练流匹配策略参数的前提下,通过强化学习联合优化残差动作与潜变量分布,实现局部精细纠错与全局行为探索的互补。实验表明,RFS在仿真中实现了高效的多指抓取,并能通过少量真实数据离线微调,直接迁移到真实机器人并取得优于基线的表现。

Primary-Fine Decoupling for Action Generation in Robotic Imitation figure
ICLR2026arxiv_html

Primary-Fine Decoupling for Action Generation in Robotic Imitation

Dexterous Manipulation

策略学习灵巧操作

针对机器人模仿学习中动作序列多模态分布的挑战,现有离散化方法会损失细粒度变化,而单阶段连续生成策略则容易出现模态跳变与轨迹不连续。本文提出PF-DAG两阶段框架,首先利用VQ-VAE将动作块压缩为少量离散primary modes并由轻量策略稳定选择,随后通过MeanFlow策略在选定模态下生成高保真连续动作。理论分析证明该设计可获得严格低于单阶段生成策略的MSE下界,并在Adroit、DexArt、MetaWorld共56项仿真任务及真实世界触觉灵巧操作中验证了有效性与稳定性。

Learning to Grasp Anything By Playing with Random Toys figure
ICLR2026arxiv_html

Learning to Grasp Anything By Playing with Random Toys

Dexterous Manipulation

灵巧操作抓取

受儿童通过简单玩具习得抓取并泛化至复杂物体的认知科学启发,本文提出仅用球体、长方体、圆柱体和圆环随机组装的"Cézanne toys"训练抓取策略,并引入检测池化机制(DetPool)提取以物体为中心的视觉表征,实现从玩具到真实物体的强零样本泛化。仅用250个玩具与1500条演示训练,在YCB数据集64个真实物体上达到67%抓取成功率,优于依赖大量域内数据的最先进方法,并在Franka机器人与H1-2灵巧手上验证了跨本体鲁棒性。

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video figure
ICLR2026arxiv_html

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Dexterous Manipulation

灵巧操作视频

针对机器人模仿学习的数据稀缺与遥操作扩展瓶颈,该研究利用Apple Vision Pro采集EgoDex数据集,通过多相机与设备端SLAM原生记录829小时第一人称视频及手指关节级精确3D姿态,将人手作为通用本体以实现被动式规模扩展。该数据集涵盖9000万帧、33.8万条演示与194项桌面灵巧操作任务,并建立了手部轨迹预测基准与评估指标。

DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model figure
ICLR2026arxiv_html

DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

Dexterous Manipulation

灵巧操作

现有灵巧手内旋转方法多受限于简单物体与固定腕部姿态,sim-to-real 迁移中复杂接触动力学与高昂数据采集成本是核心瓶颈。本文提出 DexNDM,其关键洞察是将高维手-物交互动力学按关节分解,利用各关节本体感觉历史学习低维神经动力学模型,从而以极少真实数据矫正仿真策略;配合无需人工重置的自主负载随机化数据收集。实验表明,单一策略在真实世界中首次实现了对复杂形状、高长宽比(达 5.33)及多样腕部朝向的通用空中旋转,并验证了复杂遥操作任务的可行性。

DexMove: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands figure
ICLR2026temporary_pdf

DexMove: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands

Dexterous Manipulation

灵巧操作触觉

现有非抓握操作多依赖夹爪或推杆,灵巧多指手的潜力尚未被充分挖掘。本文提出DexMove框架,其核心洞察在于利用多指分布式接触提升操作稳定性与效率。该方法通过大规模仿真生成物理合理的腕-指轨迹,并结合基于视觉触觉传感器的可穿戴设备捕获人手演示的指间力分布,进而训练流式策略实现腕-指协同控制。真实实验中对六种不同物体操作成功率达77.8%,较消融基线提升36.6%且效率提高近300%,并能泛化至语言条件的长程整理任务。

Cross-Embodied Co-Design for Dexterous Hands figure
ICLR2026temporary_pdf

Cross-Embodied Co-Design for Dexterous Hands

Dexterous Manipulation

灵巧操作

现有灵巧手研究常将硬件设计与控制解耦,限制了灵巧性且难以跨越仿真到现实的鸿沟。本文提出House of Dextra框架,通过形态条件化的跨具身策略联合优化机械手形态与控制,并基于真实模块化组件的语法生成可制造的设计,实现24小时内完成从设计、训练到真实部署的端到端流程。实验表明,该框架生成的非拟人化手形在18个新物体的真实抓取旋转任务中可直接零样本迁移,且形态结构是影响操作性能的首要因素。

World2Minecraft: Occupancy-Driven simulated scenes Construction figure
ICLR2026arxiv_html

World2Minecraft: Occupancy-Driven simulated scenes Construction

Benchmark and Dataset

Benchmark/数据集感知

针对现有仿真环境不可编辑、真实扫描存在局限的问题,本文提出World2Minecraft框架,基于3D语义占用预测将真实场景重建为可编辑的Minecraft世界。其核心洞察在于体素化占用表示与Minecraft方块结构天然契合,无需复杂网格转换。作者进一步设计了低成本自动化数据生成管线,构建出包含156个场景、超10万张图像的MinecraftOcc数据集。实验表明,该数据集对现有SOTA方法构成显著挑战,作为辅助训练可有效提升真实世界基准性能,并在重建场景中成功验证了视觉语言导航任务。

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes figure
ICLR2026arxiv_html

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes

Benchmark and Dataset

规划/推理3D 视觉Benchmark/数据集感知

现有视觉语言模型评估多局限于单视角设置,难以反映机器人平台日益普及的多相机配置需求。为此,本文提出MV-RoboBench基准,通过1.7K人工精选的问答对系统评估模型在机器人操作场景中的多视角空间推理能力,涵盖空间理解与机器人执行两类任务。实验表明,当前最先进模型仍远逊于人类表现;空间智能与机器人任务执行能力在多视角场景下呈正相关,而单视角空间理解基准的优异表现无法可靠迁移至多视角机器人任务。

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation figure
ICLR2026arxiv_html

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation

Benchmark and Dataset

Benchmark/数据集

现有机器人操作数据集普遍存在规模有限、多样性不足且缺乏plan-then-execute范式所需中间表示监督的问题。为此,本文提出RoboInter套件,其核心贡献包括:半自动标注工具RoboInter-Tool;涵盖571个场景、23万余片段的RoboInter-Data,提供10余类逐帧对齐的中间表示密集标注;29类具身VQA基准RoboInter-VQA;以及基于中间监督连接高层规划与低层执行的RoboInter-VLA框架。实验表明,该套件在规模与标注质量上显著优于现有工作,并为跨平台的真实世界闭环操作提供了可行基础。

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots figure
ICLR2026arxiv_html

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

Benchmark and Dataset

世界模型Benchmark/数据集

针对现有仿真平台在任务覆盖、环境多样性与数据规模上的不足,以及真实世界评估难以系统复现的问题,作者基于RoboCasa推出RoboCasa365,构建了包含365个日常家庭移动操作任务、2500个多样化厨房场景的大规模仿真基准,并提供超600小时人类演示与1600小时合成数据,以支持多任务学习、基础模型训练与终身学习的系统评测。实验深入分析了任务多样性、数据规模及环境变化对策略泛化的影响,为通用机器人学习提供了关于关键驱动因素的经验洞察。

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning? figure
ICLR2026arxiv_html

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Benchmark and Dataset

规划/推理Benchmark/数据集

现有LLM任务规划器默认人类指令清晰无歧义,但现实中非专家用户(如老人、儿童)常用“它”“那个重的东西”等隐式指代表达,导致核心指称模糊。本文提出首个基于语用学系统建模此类模糊的基准REI-Bench,通过3级指称难度与3级对话上下文记忆构建9级模糊度评测。实验发现隐式指称可使规划成功率暴跌36.9%,且常规提示工程(CoT、ICL等)收效甚微;为此提出任务导向上下文认知(TOCC),将语言理解与规划解耦,显著缓解该问题并达到当前最优。

MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation figure
ICLR2026arxiv_html

MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation

Benchmark and Dataset

灵巧操作Benchmark/数据集

针对多步骤双手移动操作中人类遥操作数据收集成本高昂的问题,现有自动数据生成方法因未考虑移动底座带来的可达性与主动相机带来的可见性而难以适用。本文提出MoMaGen,将数据生成建模为同时满足硬约束(如可达性)与平衡软约束(如导航可见性)的约束优化问题,统一了现有X-Gen方法框架。实验表明,该方法可基于单条人类演示生成高度多样的数据集,并训练出有效的模仿学习策略,仅需40条真实数据微调即可实现真实机器人部署。

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning figure
ICLR2026arxiv_html

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Benchmark and Dataset

策略学习触觉Benchmark/数据集

当前强化学习领域缺乏对智能体记忆能力进行系统评估的通用基准,在涉及部分可观测的桌面机器人操作中尤为突出。本文提出MIKASA综合评测框架,建立了记忆密集型任务的分类体系,并推出MIKASA-Base统一基准与包含32个任务的MIKASA-Robo机器人操作套件,覆盖属性保持、序列回忆与动态追踪等典型记忆场景。研究同步开源了专家轨迹数据集,系统评估了在线RL、离线RL及VLA基线模型,为记忆增强型算法在真实世界机器人任务中的标准化评测与能力诊断提供了基础支撑。

MIMIC: Mask-Injected Manipulation Video Generation with Interaction Control figure
ICLR2026temporary_pdf

MIMIC: Mask-Injected Manipulation Video Generation with Interaction Control

Benchmark and Dataset

Benchmark/数据集视频

针对具身智能交互数据稀缺的瓶颈,本文提出面向操作场景的两阶段图像到视频扩散框架MIMIC。其核心洞察是利用参考视频驱动生成:先通过Interaction-Motion-Aware模块提取语义掩码轨迹以表征交互,再以Pair Prompt Control机制引入参考视频解耦物体与相机运动,从而生成物理合理且时序连贯的操作视频。实验表明,该方法在包含人手与夹爪的操作基准上显著优于现有方法,能有效保留操作意图与细粒度交互细节,并泛化至可变形物体。

LeRobot: An Open-Source Library for End-to-End Robot Learning figure
ICLR2026arxiv_html

LeRobot: An Open-Source Library for End-to-End Robot Learning

Benchmark and Dataset

Benchmark/数据集

机器人学习领域长期面临工具链碎片化与闭源壁垒,中间件和数据集格式互不兼容严重阻碍了研究复现。本文提出开源库LeRobot,将真实机器人底层电机控制、大规模多模态数据集的存储与流式传输、异步推理以及PyTorch版SOTA算法整合为统一的端到端栈,并原生支持低成本开源硬件。通过标准化的API与可扩展的隐式学习范式,LeRobot显著降低了真实世界机器人研究的入门门槛,为社区提供了可复现的开放基准。

Image Quality Assessment for Embodied AI figure
ICLR2026arxiv_html

Image Quality Assessment for Embodied AI

Benchmark and Dataset

Benchmark/数据集

现有图像质量评估多面向人类或通用机器,难以覆盖具身AI在认知、决策与执行各阶段对图像失真的敏感度差异。本文基于Mertonian系统构建“感知-认知-决策-执行”的具身IQA框架,建立了含3.6万余对参考/失真图像、超500万条VLM/VLA/真机标注的Embodied-IQA数据库。实验显示,15种主流IQA方法对具身任务图像可用性的预测能力不足;通过在真实世界执行1500余次任务,进一步验证了认知、决策与执行之间的内在关联,表明具身AI亟需更专门化的质量指标。

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction figure
ICLR2026arxiv_html

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Benchmark and Dataset

世界模型Benchmark/数据集

ENACT 探究以非具身方式训练的视觉语言模型是否具备具身认知能力。它将评估转化为以自我中心交互为核心的世界建模任务,设计前向与逆向序列重排两种 VQA 形式,迫使模型基于场景图变化推理动作与观测的时序关系。实验显示,前沿 VLM 在长程家庭活动中的准确率远低于人类,且随交互时长增加差距扩大;模型在逆向任务上表现更优,但存在显著的拟人化偏见,对右利手动作及偏离人眼特性的相机参数更为敏感。

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels figure
ICLR2026arxiv_html

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels

Benchmark and Dataset

策略学习Benchmark/数据集数据

针对通用机器人策略在特定任务上表现不足、需大量任务特定数据微调的问题,本文提出 DataMIL,将 datamodels 范式引入机器人模仿学习以进行端到端的数据筛选。不同于基于语义或视觉相似性的启发式方法,DataMIL 直接估计各数据点对策略性能的真实影响,并通过任务特定数据上的替代损失函数避免昂贵的环境 rollout。在 MetaWorld、LIBERO 及真实世界等 60 余项操作任务中,该方法成功从 Open X-Embodiment 等大规模数据集中筛选出提升性能的数据,相比基线实现约 10% 的成功率提升。

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI figure
ICLR2026arxiv_html

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Benchmark and Dataset

Benchmark/数据集感知数据

针对实体AI数据收集成本高昂的问题,本文提出D2E框架,利用桌面交互(特别是游戏)作为预训练基础。该工作构建了OWA工具包实现大规模同步录制与152倍数据压缩,并设计Generalist-IDM通过时间戳感知的下一事件预测实现跨游戏零样本泛化,从而对YouTube游戏视频进行伪标注扩展数据。基于1.3K+小时数据预训练的1B参数模型,在LIBERO操作和CANVAS导航任务上分别达到96.6%和83.3%的成功率,匹敌甚至超越3.3B至7B规模的专用模型,验证了桌面数据向实体任务迁移的有效性。

CoNavBench: Collaborative Long-Horizon Vision-Language Navigation Benchmark figure
ICLR2026temporary_pdf

CoNavBench: Collaborative Long-Horizon Vision-Language Navigation Benchmark

Benchmark and Dataset

导航Benchmark/数据集感知

现有视觉语言导航研究多聚焦单机器人逐步执行,忽视了真实场景中多机协作的并行效率与机器人间干扰。本文提出首个协作长时程视觉语言导航基准CoNavBench,涵盖4048段单/多机片段及图级注释,并构建自动化图驱动生成平台NavCraft,以两级分层智能体实现长程任务分解、角色分配与带验证的交接调度。基于Qwen2.5-VL-3B的协作策略在该基准上训练后,相较强单机器人基线显著缩短完成时间,步级成功率提升18.11%,表明协作机制可有效优化长时程导航性能。

CitySeeker: How Do VLMs Explore Embodied Urban Navigation with Implicit Human Needs? figure
ICLR2026arxiv_html

CitySeeker: How Do VLMs Explore Embodied Urban Navigation with Implicit Human Needs?

Benchmark and Dataset

导航Benchmark/数据集

现有视觉语言模型虽能遵循显式逐步导航指令,却难以应对城市中"我渴了"这类隐式人类需求。本文提出CitySeeker基准,涵盖8个城市共6440条轨迹与7种目标场景,评估模型在动态城市场景下的隐式需求推理与视觉定位能力。实验表明,即使顶尖模型任务完成率也仅21.1%,长程推理错误累积、空间认知匮乏与经验回忆不足是核心瓶颈。作者据此提出模仿人类认知地图的回溯、空间认知增强与记忆检索(BCR)策略,为提升VLM应对"最后一公里"导航挑战的空间智能提供了可行路径。

AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory figure
ICLR2026arxiv_html

AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory

Benchmark and Dataset

世界模型Benchmark/数据集

现有VLA基准多聚焦家庭场景,科学实验室等高精度专业环境亟待探索。为此,本文提出AutoBio仿真平台与基准测试,针对生物实验室需求,开发了仪器数字化管线、螺纹与棘爪等专用物理插件及支持透明材质与动态界面的PBR渲染栈,并构建了三档难度的真实实验任务。对π0和RDT等SOTA VLA模型的评测表明,当前模型在科学工作流的高精度操作、视觉推理与长程指令遵循上仍存在显著不足。

PD2GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting figure
ICLR2026arxiv_html

PD2GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

3D Vision

3D 视觉Sim2Real感知

现有自监督关节物体建模方法多对离散交互状态进行独立重建再跨状态匹配,易造成表示碎片化与运动漂移,且难以处理多部件连续变形。本文提出PD2GS,将任意交互状态视为共享规范高斯场的连续变形,通过潜码驱动可变形高斯泼溅,并设计基于变形轨迹聚类与SAM边界感知的粗到细分割策略,实现无监督部件级解耦与运动学建模。此外,作者发布真实到仿真数据集RS-Art,实验表明该方法在几何与运动学精度及连续控制一致性上优于既有方法。

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots figure
ICLR2026arxiv_html

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

3D Vision

世界模型3D 视觉Sim2Real感知

针对机器人操作依赖2D图像泛化不足、而真实深度相机噪声严重制约几何感知的问题,本文提出相机深度模型(CDMs)作为即插即用模块,通过建模真实深度相机的噪声模式,利用神经数据引擎在仿真中合成高质量配对数据,并借助引导滤波解决噪声尺度不匹配,将RGB与原始深度恢复为去噪的精确度量深度。实验表明,CDMs使真实深度精度逼近仿真水平,首次实现了仅基于原始仿真深度训练的策略在真实机器人上零样本迁移,在涉及关节、反光及细长物体的长程操作中无明显性能退化,从感知层面弥合了几何sim-to-real鸿沟。

Geometry-aware 4D Video Generation for Robot Manipulation figure
ICLR2026arxiv_html

Geometry-aware 4D Video Generation for Robot Manipulation

3D Vision

3D 视觉视频感知

现有视频生成模型往往难以兼顾时间连贯与跨视角3D几何一致,限制了机器人在复杂场景中的操作规划。本文提出几何感知的4D视频生成框架,利用跨视角点云图对齐的几何一致监督,在预训练视频扩散模型上学习共享3D场景表示,仅凭各视角单张RGB-D输入即可生成时空对齐的未来视频,无需相机位姿。实验表明,该方法在模拟与真实机器人任务中显著提升了多视角预测的稳定性和空间一致性,并能通过现成6DoF姿态跟踪器直接从生成视频中恢复机器人末端执行器轨迹,实现对新视角的泛化。

XL-VLA: Cross-Hand Latent Representation for Vision-Language-Action Models figure
CVPR2026arxiv_html

XL-VLA: Cross-Hand Latent Representation for Vision-Language-Action Models

Vision-Language-Action Models

VLA灵巧操作感知

现有VLA模型在灵巧操作中受限于不同机械手关节空间差异大、数据难以复用的问题。本文提出XL-VLA,通过无监督自编码器学习一个跨本体的统一潜在动作空间,使异构灵巧手能够共享该空间进行联合训练,并直接嵌入标准VLA架构。实验表明,该方法在四种真实灵巧手上的十个任务中持续优于原始关节空间的基线,并实现了对新本体的零样本泛化。

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos figure
CVPR2026arxiv_html

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

Vision-Language-Action Models

VLA灵巧操作Benchmark/数据集视频感知

针对灵巧手操作数据采集昂贵、机械手异构及控制维度高的难题,本文提出UniDex基础套件:通过人在环重定向与视觉对齐,将第一人称人类视频转化为覆盖8种机械手(6–24自由度)、逾50K轨迹的机器人中心数据集UniDex-Dataset;并设计功能-执行器对齐空间FAAS统一异构机械手的动作表征,进而训练3D VLA策略UniDex-VLA。此外,UniDex-Cap采集装置支持人机数据联合训练以降低示教成本。在真实工具使用任务中,UniDex-VLA取得81%平均任务进度,显著优于既往VLA基线,并展现出零样本跨手泛化能力。

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics figure
CVPR2026arxiv_html

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Vision-Language-Action Models

VLA感知

现有视觉-语言-动作模型多在固定视角下训练,难以统一语义驱动的主动感知与动态视角的鲁棒执行。SaPaVe解耦相机与机械臂动作空间,采用自底向上两阶段策略:先在ActiveViewPose-200K上学习语义相机控制,再联合优化主动操作,并引入3D几何感知模块提升动态视点下的执行稳定性。实验表明,该方法在仿真与真实环境中均显著优于GR00T-N1与π0等基线,在ActiveManip-Bench上取得75.2%成功率,真实任务成功率最高提升31.25个百分点。

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models figure
CVPR2026arxiv_html

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action Models

VLA策略学习感知

现有VLA模型的强化学习后训练受困于奖励稀疏,失败轨迹信息被浪费。本文提出SRPO,通过在当前批次内以模型自身成功轨迹作为自参考,为失败样本赋予基于世界模型隐空间表征的渐进奖励,从而摆脱对外部演示或手工奖励工程的依赖。在LIBERO基准上,该方法仅用200步RL便将成功率从48.9%提升至99.2%,并在LIBERO-Plus上取得167%的稳健性增益,同时验证了其真实世界有效性。

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models figure
CVPR2026arxiv_html

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Vision-Language-Action Models

VLA感知加速/部署

VLA模型在实际部署中面临计算与内存瓶颈,但现有加速方案多聚焦视觉前端,忽略了语言骨干与Diffusion Transformer动作头的量化敏感性。本文提出首个面向VLA系统的训练后量化框架QuantVLA,通过选择性量化布局、注意力温度匹配与输出头平衡三项尺度校准机制,在不修改架构且无需重训练的前提下,首次实现对DiT动作头的稳定低比特量化。在LIBERO仿真环境中,该框架不仅取得超过全精度基线的任务成功率,还为量化组件带来约70%的相对内存节省。

OptimusVLA: Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation figure
CVPR2026arxiv_html

OptimusVLA: Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Vision-Language-Action Models

VLA感知加速/部署

现有分层VLA模型的动作生成受限于高斯噪声先验与目标分布差距大导致的推理低效,以及仅依赖当前观测造成的时间鲁棒性不足。为此,本文提出OptimusVLA,通过全局先验记忆(GPM)以检索到的任务级先验替代标准噪声初始化生成过程,显著缩小先验-目标差距并降低函数评估次数;同时利用局部一致性记忆(LCM)动态建模历史动作序列以推断任务进度并注入一致性约束,保障时序连贯性。实验表明,该方法在LIBERO、CALVIN及RoboTwin 2.0仿真基准和真实世界长程/泛化任务中均显著优于基线,并带来2.9倍推理加速。

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models figure
CVPR2026arxiv_html

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

现有VLA模型多假设马尔可夫性质,仅依赖当前观测导致时间近视,堆叠历史帧又带来冗余。HiF-VLA将运动视为时间动态的紧凑表征,提出双向时间推理框架:编码过去运动获取后见先验,结合指令与观测进行预见推理,并通过后见调制的联合专家实现“边行动边思考”。该方法在LIBERO-Long和CALVIN ABC-D基准上取得领先性能且推理延迟增加甚微,在真实世界长程操作任务中亦有显著提升。

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning figure
CVPR2026arxiv_html

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Vision-Language-Action Models

VLA规划/推理感知加速/部署

现有推理型视觉-语言-动作模型依赖冗长显式思维链,推理延迟过高难以满足机器人实时控制需求。Fast-ThinkAct提出可言语化的隐式推理框架,通过奖励偏好引导的蒸馏与操作轨迹对齐,将语言和视觉规划能力压缩为紧凑连续隐式token,再以推理增强策略学习桥接隐式规划与动作执行。实验表明,该方法在保持长程规划、少样本适应和故障恢复能力的同时,推理延迟较现有最优推理VLA降低达89.3%。

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment figure
CVPR2026arxiv_html

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

Vision-Language-Action Models

VLA感知

现有视觉-语言-动作模型普遍存在参数量大、依赖大规模机器人数据预训练的问题,且端到端训练易损害视觉-语言骨干的语义表征。为此,本文提出仅0.77B参数的轻量级VLA模型Evo-1,采用原生多模态VLM骨干,引入跨模态调制扩散Transformer与优化集成模块,并通过两阶段训练逐步对齐动作与感知以保留语义空间。该模型无需机器人数据预训练,在Meta-World和RoboTwin上取得新SOTA,较此前最佳分别提升12.4%和6.9%,LIBERO达94.8%,真实世界任务成功率78%,且具备高推理频率与低显存占用。

CoWVLA: Chain of World: World Model Thinking in Latent Motion figure
CVPR2026arxiv_html

CoWVLA: Chain of World: World Model Thinking in Latent Motion

Vision-Language-Action Models

VLA世界模型感知

现有视觉-语言-动作模型缺乏对未来动态的预测能力,直接预测未来帧的范式会浪费大量计算在冗余背景重建上,而潜在动作方法又缺乏时间连续性与世界知识。该文提出CoWVLA,利用预训练视频VAE将视频解耦为结构与运动隐变量,在预训练阶段令模型根据指令和初始帧推断连续隐式运动链并预测段末帧,再通过共微调联合建模稀疏关键帧与动作序列以实现对齐。实验表明,该方法在机器人仿真基准上优于现有的世界模型与潜在动作方法,且保持适中的计算效率。

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models figure
CVPR2026arxiv_html

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

现有VLA模型在推理时普遍采用固定动作块长度,难以在多样任务中平衡响应速度与执行一致性。本文提出Adaptive Action Chunking (AAC),以动作熵为信号在推理时动态决定块大小:预测不确定性高时采用短块以提升反应性,不确定性低时采用长块以增强时序一致性与效率,且无需额外训练或修改架构。在模拟与真实机器人操作实验中,AAC显著提升了任务成功率与动作安全性。

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models figure
CVPR2026arxiv_html

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

现有VLA模型多通过语言子任务或视觉目标等间接推理指导动作生成,难以弥合高层语义与低层运动指令间的鸿沟。本文提出Action Chain-of-Thought范式,将推理过程直接置于动作空间:显式动作推理器合成粗粒度参考轨迹,隐式动作推理器提取潜在动作先验,二者协同构成动作链以指导策略学习。实验表明,ACoT-VLA在仿真与真实机器人任务中均取得了更优性能。

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation figure
CVPR2026arxiv_html

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

Robot Learning and Policy

人形机器人策略学习Sim2Real

现有人形机器人多聚焦盲行或静态操作,缺乏自主移动操作能力,且真实数据采集成本过高。VIRAL提出纯仿真训练的视觉sim-to-real框架:先以特权RL教师学习长程移动操作,再通过DAgger与行为克隆混合蒸馏为视觉学生策略。研究表明,将仿真规模扩展至数十块GPU是训练可靠的关键,并需配合大规模视觉域随机化与真机硬件对齐实现零样本迁移。在Unitree G1上的测试显示,该RGB策略无需真实世界微调即可连续完成最多54轮移动操作,泛化于多样空间与外观变化,性能逼近专家遥操水平。

GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer figure
CVPR2026arxiv_html

GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer

Robot Learning and Policy

3D 视觉策略学习Sim2Real

现有sim-to-real方法多孤立处理每次迁移,导致重复调优且浪费历史经验。本文提出GeCo-SRT,建立持续跨任务sim-to-real迁移范式,利用局部几何特征兼具域不变与任务不变的双重特性作为可复用知识媒介。方法通过几何感知混合专家模块动态激活专家以弥合观测差异,并辅以几何专家引导的优先经验回放防止持续学习中的灾难性遗忘。在四项机器人操作任务的实验中,该方法相比基线平均提升52%,且新任务仅需1/6数据即可达到同等成功率。

Contact-Aware Neural Dynamics figure
CVPR2026arxiv_html

Contact-Aware Neural Dynamics

Robot Learning and Policy

策略学习

针对接触丰富的灵巧操作任务中仿真到现实的巨大动力学鸿沟,现有显式系统辨识与忽视接触的隐式残差方法难以捕捉真实世界的高维、状态相关及非平滑接触动态。本文提出了一种基于触觉信号的隐式仿真到现实对齐框架:以现成仿真器为先验,先在大规模仿真数据上训练条件于接触信息的神经前向动力学模型,再通过少量真实交互与触觉数据进行微调,使模型隐式对齐仿真与真实状态。实验表明,该接触感知神经动力学模型显著提升了状态预测精度,并能有效评估与改进纯仿真训练的策略。

Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI figure
CVPR2026arxiv_html

Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航

开放世界具身AI的可复现闭环评估长期受限于高保真仿真环境。针对现有视频3DGS方法因纯RGB重建导致几何不准、尺度缺失及视角外推退化等问题,本文提出Wanderland框架,采用LiDAR与多传感器融合采集及LIV SLAM重建,构建530个室内外城市场景的数据集。工作系统揭示了纯视觉管线的扩展瓶颈,证明精确度量几何对视角合成与导航策略评估可靠性的关键影响,为开放世界具身导航建立了可信的仿真基准。

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL figure
CVPR2026arxiv_html

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航3D 视觉

Vision Language Models在精确空间推理上仍显不足。本文提出Double Interactive Reinforcement Learning(DIRL),采用“教学-探索”两阶段框架:先融合单工具交互RL专家的演示与多工具前沿模型轨迹进行监督学习,再在全工具集上执行交互式强化学习以精炼多工具协同;并设计Toolshed系统支持训练阶段的高吞吐工具调用。所得模型SpaceTools在RoboSpatial-Home、BLINK等多个空间推理基准上达到SOTA,在真实7自由度机器人操控任务中实现86%成功率,较纯SFT与RL基线均有显著提升。

GLMap: Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning figure
CVPR2026arxiv_html

GLMap: Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航3D 视觉

针对现有语义地图难以同时保留显式几何、多尺度语义并与大模型原生兼容的问题,本文提出多尺度高斯-语言地图GLMap。其核心在于构建基于2D网格索引的语义单元,每个单元联合存储自然语言描述与3D高斯表征,在实例与区域层面编码多尺度语义,从而无需额外投影即可零样本适配大模型。此外,提出的Gaussian Estimator可从稠密点云直接解析推导高斯参数,实现高效增量更新。在ObjectNav、InstNav和SQA任务上的实验表明,该方法有效提升了目标导航与情境推理性能。

Dexterous World Models figure
CVPR2026arxiv_html

Dexterous World Models

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航灵巧操作

现有数字孪生多局限于静态导航与视图合成,难以支持由灵巧手部操作驱动的具身交互。本文提出 Dexterous World Models(DWM),将沿相机轨迹渲染的静态场景视频与第一人称手部网格序列共同作为条件,基于视频修复扩散先验仅建模动作引起的残差动态,在保持未改变区域不变的同时合成物理合理且时序一致的交互视频。通过融合合成第一人称交互数据与固定摄像头真实视频进行训练,实验表明该方法在复杂抓取、开闭等操作中实现了良好的场景与相机一致性,并可作为视觉世界模型用于候选动作的视觉结果评估。

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models figure
CVPR2026arxiv_html

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

Benchmark and Dataset

VLABenchmark/数据集感知

现有视觉-语言-动作模型在标准机器人操作基准上的高分往往掩盖了其严重的鲁棒性缺陷。本文通过在物体布局、相机视角、机器人初始状态、语言指令、光照等七个维度引入系统性受控扰动,对多种主流VLA模型进行深度脆弱性分析。研究发现,模型对视觉与本体感知扰动极度敏感,性能可从95%骤降至30%以下,且往往完全忽略语言指令,暴露出虚假的多模态理解能力。论文进一步揭示了组合泛化差距,并开源了LIBERO-Plus基准,推动社区采用更能反映真实环境变化的评估方式。

You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations figure
RSS2025arxiv_html

You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations

General

灵巧操作视频

针对现有双臂操作依赖预定义分类或繁琐遥操作而难以扩展的局限,本文提出YOTO框架,仅需单次人类双手演示视频即可提取关键帧轨迹并注入双臂机器人,再通过真实世界自动回滚与点云几何变换快速增殖训练数据,进而基于物体级点云观察和关键帧预测训练专用的双臂扩散策略BiDP。实验表明,该方法在5项复杂长程双臂任务中实现了高精度模仿,并具备较强的视觉与空间泛化能力。

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets figure
RSS2025arxiv_html

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

General

世界模型策略学习Benchmark/数据集视频数据

现有模仿学习受限于高质量示教数据难以规模化,而海量无标注视频数据又因缺乏动作标签难以直接用于策略学习。本文提出Unified World Models(UWM),将动作扩散与视频扩散耦合于统一Transformer架构,通过独立控制各模态的扩散时间步,使单一模型可灵活充当策略、前向/逆动力学模型及视频生成器。实验表明,在大规模多任务机器人数据上进行联合预训练能显著提升策略的泛化性与鲁棒性,且无需动作标注的视频数据也可被有效利用以进一步优化策略性能。

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model figure
RSS2025arxiv_html

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

General

VLA3D 视觉

现有视觉-语言-动作模型多依赖2D输入,难以对齐异构机器人的3D观察空间与动作空间。本文提出SpatialVLA,以自我中心3D位置编码将3D空间上下文注入视觉特征,并设计自适应动作网格统一跨本体的连续动作表示,支持针对新机器人设置重新离散化以适应新分布。在110万条真实机器人数据上预训练后,该模型在零样本多任务控制和新本体迁移中均展现出较强的泛化与适应能力。

Sketch-to-Skill: Bootstrapping Robot Learning with Human Drawn Trajectory Sketches figure
RSS2025arxiv_html

Sketch-to-Skill: Bootstrapping Robot Learning with Human Drawn Trajectory Sketches

General

其他

针对机器人操作学习依赖高质量专家演示、采集成本高的瓶颈,本文提出Sketch-To-Skill框架,将人类手绘的二维轨迹草图转化为三维轨迹,既用于行为克隆预训练,又在强化学习中提供引导式探索,突破了此前草图仅用于模仿学习的局限。实验表明,仅依靠草图即可达到遥操作演示基线96%的性能,并较纯强化学习提升170%,在仿真与真实硬件任务中验证了其有效性。

STDArm: Transferring Visuomotor Policies From Static Data Training to Dynamic Robot Manipulation figure
RSS2025arxiv_html

STDArm: Transferring Visuomotor Policies From Static Data Training to Dynamic Robot Manipulation

General

数据

针对在动态平台(如四足机器人与无人机)上部署视觉运动策略时面临的训练数据采集困难、机体运动干扰及边缘设备推理延迟等挑战,该研究提出STDArm系统,通过动作管理器提升控制频率、轻量级稳定器网络实时补偿运动扰动,以及在线延迟估计模块校准系统参数,将静态数据训练的策略直接迁移至动态平台而无需修改策略本身。实验覆盖两种机械臂、四种移动平台及三项任务,结果显示该系统在平台运动期间保持了原有策略的操作能力,实现厘米级末端定位精度,在最困难的4厘米精度要求任务中仍达到与静态条件相当的成功率。

SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning figure
RSS2025arxiv_html

SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning

General

人形机器人

现有腿足机器人位置控制策略在未知环境中缺乏柔顺性与安全性,而直接力矩控制又因动作空间高维和非线性导致早期探索困难、难以收敛。本文提出SATA框架,引入简化的生物力学模型模拟肌肉特性以平滑输出,并设计生长式训练机制动态解锁力矩限制、控制频率与奖励项,显著改善训练稳定性与探索效率。该方法实现了零样本sim-to-real迁移,在湿滑、软地形、狭窄通道等未知环境中,以及面对推拉按压和单腿扰动时,均展现出优异的柔顺性与安全性。

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning figure
RSS2025arxiv_html

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

General

Benchmark/数据集

针对机器人领域数据扩展与标准化评测缺失的瓶颈,本文提出 RoboVerse 统一框架。其核心 MetaSim 基础设施通过通用配置与对齐 API 抽象 IsaacSim、MuJoCo、Genesis 等异构仿真器,支持跨仿真器混合与跨具身迁移;并构建包含千级任务、千万级片段的高保真合成数据集,配套覆盖模仿学习与强化学习的多级泛化基准。实验表明,该平台可提升策略学习性能并促进 sim-to-real 直接迁移。

RoboSplat: Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation figure
RSS2025arxiv_html

RoboSplat: Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation

General

3D 视觉

机器人模仿学习依赖大量真实演示,收集成本高且现有2D增强或Real-to-Sim-to-Real分别受限于空间信息缺失与几何重建误差。本文提出RoboSplat,基于3D高斯溅射重建真实场景并直接编辑3D表示,通过高斯替换、等变变换与视角合成等技术,从单条演示生成覆盖物体姿态、类型、光照、视角、外观与本体六类泛化的新颖数据。真实世界一次性学习实验表明,该方法在六种泛化设置下的平均成功率达87.8%,远高于基于数百条真实演示并辅以2D增强的57.2%。

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation figure
RSS2025arxiv_html

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation

General

策略学习触觉

现有视觉模仿学习在动作块执行时处于开环状态,无法对实时触觉反馈快速反应,且多数遥操作系统缺乏细粒度触觉反馈。本文提出TactAR遥操作系统,通过增强现实提供低成本实时触觉/力反馈;并设计Reactive Diffusion Policy,以慢速扩散策略低频预测高层动作块,再由快速非对称标记器基于高频触觉闭环微调。在三项复杂接触操作任务中,该方法显著优于视觉模仿学习基线,且可迁移至多种触觉传感器。

NaVILA: Legged Robot Vision-Language-Action Model for Navigation figure
RSS2025arxiv_html

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

General

VLA导航感知

针对腿式机器人在复杂地形执行视觉语言导航时难以直接将指令映射为底层关节控制的问题,本文提出NaVILA双层框架:高层VLA将视觉与语言指令推理为带空间信息的中层自然语言动作(如“前进75厘米”),再由低层视觉运动策略实时执行并转换为关节控制,同时利用人类游览视频增强泛化。该框架在经典VLN基准上成功率提升逾17%,在自建的VLN-CE-Isaac仿真基准中视觉策略较盲策略提升14%,并在Unitree Go2、H1及Booster T1等多款机器人上实现真实部署,在25条真实指令中达到88%成功率。

Flying Hand: End-Effector-Centric Framework for Versatile Aerial Manipulation Teleoperation and Policy Learning figure
RSS2025arxiv_html

Flying Hand: End-Effector-Centric Framework for Versatile Aerial Manipulation Teleoperation and Policy Learning

General

策略学习灵巧操作

现有空中操纵系统往往针对特定任务设计,缺乏跨任务通用性。本文提出一种末端执行器为中心的统一框架,通过解耦高层策略与低层控制,将桌面操纵中的遥操作与模仿学习范式引入空中平台。该框架基于全驱动六旋翼与四自由度机械臂,设计了末端执行器为中心的全身模型预测控制器及L1在线自适应模块,实现高精度鲁棒跟踪。真实实验验证了系统在书写、轴孔装配、拾取放置及换灯泡等多种任务中的通用性与有效性。

FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning figure
RSS2025arxiv_html

FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning

General

策略学习触觉

现有遥操作与模仿学习常忽视机械臂本体力反馈,使机器人难以胜任接触丰富的动态任务。本文首先设计低成本双边遥操作系统,将跟随臂外力实时回传主臂并补偿重力,显著改善示教体验;进而提出FACTR课程训练,通过在训练初期以高斯模糊等破坏视觉输入并逐步恢复清晰,防止策略过拟合视觉、引导其关注力模态。实验表明,该遥操作系统将任务完成率提升64.7%,FACTR则使策略对未见物体的泛化成功率平均提升40%。

Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models figure
RSS2025temporary_pdf

Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models

General

加速/部署

针对数据驱动自动驾驶难以覆盖罕见边缘案例及云端大模型隐私与延迟风险,本文提出一种车载本地部署大语言模型与底层模型预测控制结合的混合架构。系统通过DecisionxLLM模块基于自然语言指令评估驾驶行为符合度,再由MPCxLLM动态调整MPC成本与约束参数,在保障安全的同时提升控制适应性。研究还采用RAG、LoRA与量化技术实现边缘端高效推理,在缩比平台上实验表明,推理准确率最高提升10.45%,控制适应性提升52.2%,计算效率提升10.5倍。

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training figure
RSS2025arxiv_html

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training

General

策略学习加速/部署

扩散策略在机器人操作中性能强大,但过参数化带来高昂训练成本,导致在线交互式模仿学习难以实际应用。针对这一问题,本文提出DRIFT框架,利用奇异值分解在训练过程中动态调整可训练秩的数量:初期保持高秩以捕捉行为模式,后期通过秩调制与秩调度器逐步缩减可训练参数,从而平衡表示能力与计算效率。在此基础上实现的DRIFT-DAgger算法将离线自举与在线自适应无缝结合,仿真与真实世界实验表明,该方法能在几乎不牺牲性能的前提下显著提升样本效率并加快训练速度。

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning figure
RSS2025arxiv_html

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning

General

策略学习数据加速/部署

视觉运动策略因空间泛化能力差而需要大量人工示教。DemoGen提出完全合成的数据增强框架:仅利用单条人工示教,通过TAMP将轨迹分解为自由空间运动段与接触技能段并分别重规划与空间变换,同时以点云为视觉模态通过三维编辑合成新视角观察,无需真机执行验证。在模拟与真实环境中,该方法在单臂、双臂、灵巧手及可变形物体等多种任务上实现了单样本模仿学习,显著扩展空间泛化范围,并可通过简单扩展赋予策略抗干扰与避障能力。

DOGlove: Dexterous Manipulation with a Low-Cost Open-Source Haptic Force Feedback Glove figure
RSS2025arxiv_html

DOGlove: Dexterous Manipulation with a Low-Cost Open-Source Haptic Force Feedback Glove

General

灵巧操作触觉

现有灵巧手遥操作系统多依赖昂贵设备且缺乏多模态反馈,限制了复杂操作中的物体感知能力。本文提出低成本开源触觉力反馈手套DOGlove,成本不足600美元,支持21自由度运动捕捉与5自由度力/触觉反馈,并设计动作与力重定向框架实现沉浸式遥操作。实验表明,该系统在无视觉反馈的富含接触任务中仍能高效完成操作,且采集的数据可直接用于训练模仿学习策略。

CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World figure
RSS2025arxiv_html

CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World

General

策略学习灵巧操作

针对真实世界灵巧操作中单视角点云易受遮挡且缺乏接触与空间对应的问题,本文提出CordViP,通过融合鲁棒6D位姿估计与本体感知构建交互感知点云,并借助接触图与手臂-手部协调信息预训练编码器,以扩散策略实现视觉运动控制。该方法在六项真实任务中仅用少量示教即取得领先性能,且对新物体、视角及场景具有强泛化能力。

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy figure
RSS2025arxiv_html

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

General

VLA策略学习触觉

现有视觉-语言-动作(VLA)模型在真实机器人操作中的监督微调常受限于少量且不一致的演示数据,尤其在接触丰富的场景中难以获得鲁棒策略。为此,本文提出基于一致性策略的强化微调框架ConRFT,通过统一的训练目标分阶段优化:离线阶段结合行为克隆与Q学习以稳定提取初始策略和价值函数,在线阶段引入人在回路干预,在保障安全的前提下利用一致性策略进行高效探索。该方法在八个真实世界操作任务上仅需45至90分钟在线微调即达到96.3%的平均成功率,相较监督微调方法成功率提升144%,并将回合长度缩短1.9倍,展示了将强化学习直接用于VLA模型真实环境优化的可行性与高效性。

ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills figure
RSS2025arxiv_html

ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills

General

世界模型人形机器人

针对人形机器人全身敏捷运动受限于仿真与现实动力学不匹配的问题,本文提出ASAP两阶段框架:先利用人体视频重定向数据在仿真中预训练运动跟踪策略,再通过真实 rollout 数据训练 delta action 残差模型补偿动力学差异,并将其嵌入仿真器微调策略。在 IsaacGym 到 IsaacSim、Genesis 及真实 Unitree G1 的迁移中,该方法显著降低了运动跟踪误差,实现了以往难以完成的敏捷全身动作。

SAMPO: Scale-wise Autoregression with Motion Prompt for Generative World Models figure
NeuIPS2025arxiv_html

SAMPO: Scale-wise Autoregression with Motion Prompt for Generative World Models

World Model

世界模型

现有自回归世界模型因光栅扫描展平破坏空间结构、逐token解码效率低且运动建模不足,难以保证长程视觉连贯性。SAMPO将帧间时序因果生成与帧内多尺度空间自回归相结合,以非对称多尺度tokenizer在观察帧保留细节、在未来帧压缩动态表征,并引入轨迹感知运动提示注入机器人与物体轨迹先验,从而兼顾空间一致性与物理交互真实性。实验表明,该方法在动作条件视频预测和机器人控制中性能更优,推理速度提升4.4倍,并展现出良好的零样本泛化与规模扩展能力。

OSVI-WM: One-Shot Visual Imitation for Unseen Tasks using World-Model-Guided Trajectory Generation figure
NeuIPS2025arxiv_html

OSVI-WM: One-Shot Visual Imitation for Unseen Tasks using World-Model-Guided Trajectory Generation

World Model

世界模型策略学习

现有单次视觉模仿学习方法多局限于物体配置变化,难以泛化至语义或结构不同的未见任务,且缺乏环境动态模型导致无法有效推理未来状态。本文提出OSVI-WM,利用世界模型自专家示范与初始观测预测未来潜在状态与动作轨迹,并解码为物理路点指导执行,测试时支持基于当前状态重规划。该方法无需大规模预训练、仅依赖域内数据端到端训练,在两项模拟基准与三个真实机器人平台上均显著优于先前方法,部分场景成功率提升超过30%。

Learning 3D Persistent Embodied World Models figure
NeuIPS2025arxiv_html

Learning 3D Persistent Embodied World Models

World Model

世界模型3D 视觉

现有视频世界模型因缺乏对未观测区域的显式记忆,在长程生成中常出现场景不一致与内容矛盾。本文提出Persistent Embodied World Model,通过将视频扩散模型生成的RGB-D帧实时聚合为持久化的3D特征地图记忆,使模型在预测未来观测时能同时检索已见区域的几何与语义信息,从而保持长程空间一致性。实验表明,该方法显著提升了视频生成的视觉质量与3D一致性,并有效支撑了轨迹排序、模型预测控制及新环境策略学习等下游具身任务。

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models figure
NeuIPS2025arxiv_html

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

Vision-Language-Action Model

VLA规划/推理感知

针对现有VLA方法在规划范式、表示及训练数据上差异显著、难以公平比较的问题,本文提出统一架构系列VLA-OS,将ActionOnly、Integrated与Hierarchical三种主流范式纳入同一框架,并在刚性/可变形物体、2D/3D视觉、仿真/真实场景及多种末端执行器上开展控制实验。结果表明:视觉基础规划表示普遍优于语言表示;Hierarchical-VLA在任务性能、泛化、可扩展性与持续学习方面总体更优,但训练与推理成本更高。

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning figure
NeuIPS2025arxiv_html

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Vision-Language-Action Model

VLA规划/推理触觉感知

现有视觉-语言-动作模型多为端到端映射,缺乏显式推理,难以完成长程规划与复杂任务适应。本文提出ThinkAct双系统框架,通过动作对齐的视觉反馈(目标完成与轨迹一致性)强化多模态大模型的具身推理,并将推理规划压缩为视觉潜在变量以指导下游动作网络。实验表明,该方法在机器人操作与具身推理任务中实现了少样本适应、长程规划和自校正能力。

Self-Improving Embodied Foundation Models figure
NeuIPS2025arxiv_html

Self-Improving Embodied Foundation Models

Vision-Language-Action Model

VLA感知

针对当前机器人基础模型仍局限于行为克隆、缺乏类似大语言模型强化学习后训练阶段的现状,本文提出一种两阶段后训练框架。第一阶段通过行为克隆与剩余步数预测目标对预训练模型进行监督微调;第二阶段利用模型自预测的剩余步数自动构造具有良好塑形的奖励函数与成功检测器,使机器人可在极少人工监督下自主练习下游任务。实验表明,该框架在LanguageTable与Aloha等任务上的样本效率显著优于单纯扩展模仿数据,且能令机器人自主习得远超训练分布的新技能。

SAFE: Multitask Failure Detection for Vision-Language-Action Models figure
NeuIPS2025arxiv_html

SAFE: Multitask Failure Detection for Vision-Language-Action Models

Vision-Language-Action Model

VLA感知

现有视觉-语言-动作模型在未见任务上成功率低且失败模式多样,但传统故障检测器多为单任务设计,难以泛化到新指令与环境。本文提出多任务故障检测框架SAFE,其核心洞察是VLA内部潜空间中成功与失败轨迹存在跨任务一致的几何分离;基于此,SAFE直接利用VLA内部特征回归失败概率,并采用功能共形预测校准检测阈值。在OpenVLA、π0及π0-FAST的仿真与真实机器人实验中,SAFE在未见任务上取得了优于现有基线的检测准确率与检测时效的权衡。

Robo2VLM: Improving Visual Question Answering using Large-Scale Robot Manipulation Data figure
NeuIPS2025ar5iv_html

Robo2VLM: Improving Visual Question Answering using Large-Scale Robot Manipulation Data

Vision-Language-Action Model

VLA感知数据

现有视觉-语言模型缺乏细粒度空间与物理交互知识,而真实机器人遥操作轨迹蕴含丰富的本体感觉与运动学信息。本文提出Robo2VLM框架,从末端执行器位姿、夹爪状态及力觉等非视觉模态中提取真值,将轨迹分段并自动生成面向空间与交互推理的VQA数据。由此构建的Robo2VLM-1数据集涵盖68万余条真实场景问题,实验表明现有VLM在复杂空间关系推理上仍显著落后于人类,但基于该数据微调LLaVA可在状态推理与任务理解上实现最高50%的准确率提升。

Real-Time Execution of Action Chunking Flow Policies figure
NeuIPS2025arxiv_html

Real-Time Execution of Action Chunking Flow Policies

Vision-Language-Action Model

VLA感知

针对视觉-语言-动作模型推理延迟高、导致动作分块边界出现抖动与暂停的问题,本文提出实时分块(RTC)算法。该方法将异步动作分块视为推理时修复问题:在执行当前块的同时生成下一块,对确定执行的动作“冻结”并对其余部分“修复”,无需重训练即可直接应用于扩散或流式VLA。在Kinetix模拟器12项高动态任务及6项真实双臂操作任务中,RTC在超过300毫秒延迟下仍保持流畅与高精度(如划火柴),任务执行速度比同步推理快20%,且显著优于时间集成等基线方法。

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents figure
NeuIPS2025arxiv_html

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

Vision-Language-Action Model

VLA感知数据

现有基于目标到达的视觉-语言预训练方法假设动作视频从初帧到末帧逐步逼近指令目标,但第一人称人体动作视频常因粗粒度标注而包含提前终止或无关尾部等噪声,导致视觉-语言语义关联失真。为此,作者提出 Action Temporal Coherence Learning(AcTOL),在不依赖刚性目标约束的前提下,通过视觉-语言排序损失刻画帧间自然时序差异,并引入局部布朗桥约束保证中间表示平滑连续,且具备理论保证。在模拟与真实机器人上的语言条件模仿学习实验表明,该方法仅需少量示教即显著优于先前方法,可生成语言条件的视觉奖励,且对复杂语言扰动保持鲁棒。

PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning figure
NeuIPS2025arxiv_html

PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning

Vision-Language-Action Model

VLA3D 视觉策略学习感知

针对RGB图像缺乏几何感知、而现有下采样点云方法又损失细粒度空间细节的问题,本文提出PointMapPolicy,将点云结构化为与图像同维度的规则二维网格(point map),使其可直接适配标准视觉骨干网络,并借助xLSTM与RGB实现高效的多模态融合。在扩散模仿学习框架下,该方法在CALVIN基准的从头训练策略中达到最优,并在RoboCasa与真实机器人实验中优于RGB、深度图及传统点云基线,且训练和推理速度可提升一个数量级。

PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models figure
NeuIPS2025arxiv_html

PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models

Vision-Language-Action Model

VLA策略学习触觉感知

针对偏好强化学习依赖大量人工标注且面临早期查询模糊与信用分配困难的问题,本文提出PRIMT框架,利用基础模型生成多模态合成反馈与双向轨迹合成。其核心在于通过分层神经符号融合策略整合大语言模型的时序推理与视觉语言模型的空间感知优势,提升反馈可靠性;同时通过前瞻轨迹生成预热轨迹缓冲区以缓解早期查询模糊,并借助后见轨迹增强与因果辅助损失改善状态动作级的信用分配。该方法在多个模拟与真实机器人操作及运动任务上取得了优于现有基线的性能。

Learning Spatial-Aware Manipulation Ordering figure
NeuIPS2025arxiv_html

Learning Spatial-Aware Manipulation Ordering

Vision-Language-Action Model

VLA3D 视觉感知

针对杂乱场景中物体间空间依赖导致操作顺序决策困难、现有启发式方法泛化不足且大视觉语言模型推理过慢的问题,本文提出OrderMind统一框架,通过k-NN空间图编码局部几何与物体-机械手交互关系,并设计空间先验标注策略引导视觉语言模型自动生成训练监督,实现免人工标注的端到端空间感知排序学习。在包含超过十六万样本的排序基准及仿真与真实机器人实验中,该方法在有效性与推理效率上均优于已有方案,支持杂乱环境下的实时操作。

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better figure
NeuIPS2025arxiv_html

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Vision-Language-Action Model

VLA感知

当前VLA模型为支持机器人高频连续控制,常在预训练VLM上嫁接diffusion或flow matching动作专家,但此类模块从头训练产生的梯度回流会破坏VLM的预训练知识表示,导致训练变慢且语义迁移受损。本文提出知识隔离机制:VLM骨干仅通过离散动作token的next-token prediction微调,连续动作专家则独立以flow matching目标优化且梯度不回流骨干,从而在保留VLM语义知识的同时实现精确连续输出。该策略在复杂长程操作任务及DROID、LIBERO等基准上展现出更优的训练稳定性与泛化能力,但具体性能提升幅度在提供的片段中未充分说明。

HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data figure
NeuIPS2025arxiv_html

HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data

Vision-Language-Action Model

VLA感知数据

现有机器人策略在未见环境变化中泛化能力有限。本文提出HiMaCon,一种从无标注多模态演示中自监督学习层次化操作概念的框架。该方法通过跨模态关联网络捕捉感官模态间的不变交互模式,并借助多时间尺度预测器将表征组织为层次化子目标,进而嵌入多种模仿学习策略。实验表明,概念增强的策略在模拟与真实任务中对新颖物体、障碍及环境变化均显著提升了泛化性能,且所学概念与人类可理解的操作基元高度相似。

Fast-in-Slow: A Dual-System VLA Model Unifying Fast Manipulation within Slow Reasoning figure
NeuIPS2025arxiv_html

Fast-in-Slow: A Dual-System VLA Model Unifying Fast Manipulation within Slow Reasoning

Vision-Language-Action Model

VLA规划/推理感知

现有视觉-语言-动作模型常因大模型自回归生成而执行频率低下,且传统双系统架构将快速执行模块与慢速推理VLM分离,导致前者难以利用预训练知识。本文提出Fast-in-Slow(FiS-VLA),将System 1嵌入System 2的尾部Transformer块以实现统一模型内的参数共享,并针对两者设计异构模态输入与异步运行频率(1:4)。通过双感知协同训练(System 2保留自回归推理、System 1基于扩散模型生成动作),该方法在仿真和真实世界任务中较SOTA分别提升8%与11%的平均成功率,并于单卡4090上达到117.7 Hz的控制频率。

Exploring the Limits of Vision-Language-Action Manipulation in Cross-task Generalization figure
NeuIPS2025arxiv_html

Exploring the Limits of Vision-Language-Action Manipulation in Cross-task Generalization

Vision-Language-Action Model

VLA感知

现有视觉-语言-动作模型虽在已知任务上泛化良好,但缺乏针对零样本跨任务迁移的系统评估。该工作构建AGNOSTOS基准,含23个两级难度的未见操作任务,并揭示主流VLA模型在全新任务上普遍失效。为此提出X-ICM方法,通过跨任务动态引导的样本选择策略从已见任务中筛选相关示范供大语言模型作上下文,进而预测未见任务动作。实验表明,X-ICM在AGNOSTOS上较领先基线提升6.0%至7.9%,并在真实机器人实验中验证跨任务迁移有效性。

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation figure
NeuIPS2025arxiv_html

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Vision-Language-Action Model

VLA感知

现有工作将通用视频生成模型直接适配到机器人操控时,其表示空间与三维时序物理环境存在显著鸿沟。本文提出生成式基础模型EnerVerse,以块级自回归视频扩散迭代预测具身未来空间,并设计稀疏上下文记忆实现长程推理;通过多视角视频预训练注入三维空间先验,使单目相机部署亦可借助渲染视图获得3D感知。此外,EnerVerse-D结合4D高斯溅射构建数据飞轮以缩小sim-to-real差距,EnerVerse-A策略头将4D世界表征转化为物理动作。该框架在仿真与真实世界任务中均达到领先性能。

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge figure
NeuIPS2025arxiv_html

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Vision-Language-Action Model

VLA感知

现有视觉-语言-动作模型直接映射观测到动作,缺乏对未来世界知识的有效预测,且像素级预测存在冗余。DreamVLA提出预测紧凑的综合世界知识,包括动态区域、深度和高层语义特征,构建感知-预测-动作闭环;并通过块级结构化注意力解耦各类知识,以扩散Transformer建模动作分布。该方法在CALVIN ABC-D基准上取得4.44的平均任务长度,并在真实机器人任务上达到76.7%的成功率。

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections figure
NeuIPS2025arxiv_html

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections

Vision-Language-Action Model

VLA感知

针对真实世界接触丰富操作中DAgger面临的纠正数据收集与策略更新难题,本文提出Compliant Residual DAgger(CR-DAgger)。其核心是一个基于柔顺控制的干预接口,允许人类在不中断策略运行的情况下直接施力,以提供平滑的位置与力修正;同时提出融合力反馈的残差策略,学习人类修正并输出残差运动与目标力。在翻书、皮带装配等四项长程接触任务中,该系统以极少纠正数据将基线成功率提升64%,并显著优于重训练与微调方法。

CogVLA: Cognition-Aligned Vision-Language-Action Models via Instruction-Driven Routing & Sparsification figure
NeuIPS2025arxiv_html

CogVLA: Cognition-Aligned Vision-Language-Action Models via Instruction-Driven Routing & Sparsification

Vision-Language-Action Model

VLA感知

现有VLA模型后训练开销大,且现有稀疏化方法忽视跨模态语义耦合。本文受人类多模态协调机制启发,提出CogVLA框架,以指令驱动的三级渐进路由实现端到端稀疏化:先在视觉编码器通过EFA-Routing聚合压缩任务相关token,再在语言模型中通过LFP-Routing剪枝无关token,最后以V-L-A耦合注意力保障压缩输入仍能支撑准确连贯的动作生成。该框架在LIBERO与真实机器人任务上达到最优性能,同时相较OpenVLA训练成本降低2.5倍、推理延迟降低2.8倍。

ChatVLA-2: Vision-Language-Action Model with Open-World Reasoning figure
NeuIPS2025arxiv_html

ChatVLA-2: Vision-Language-Action Model with Open-World Reasoning

Vision-Language-Action Model

VLA规划/推理感知

现有VLA在机器人数据微调时常遗忘VLM预训练的开放世界知识,导致泛化能力受限。ChatVLA-2提出动态混合专家架构,显式解耦多模态理解与动作控制的特征空间并保留共享表示,同时引入推理增强模块与两阶段训练策略,使动作输出严格遵循模型内部推理。实验表明,该方法在数学解题与未见物体空间放置等分布外任务上显著优于OpenVLA与DexVLA,展现出强大的开放世界具身推理与泛化能力。

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation figure
NeuIPS2025arxiv_html

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

Vision-Language-Action Model

VLA感知

现有视觉-运动策略的前向预测范式因优化目标短视而积累严重复合误差。本文提出Chain-of-Action,以轨迹自回归建模为核心,从编码任务目标的关键帧出发反向生成完整动作序列,通过全局到局部的约束减少误差。该框架整合了连续动作表示、动态停止、反向时间集成与多token预测等关键设计,在60项RLBench任务及8项真实世界操作中取得领先性能,较ACT分别提升16%与15%。

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models figure
NeuIPS2025arxiv_html

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

Vision-Language-Action Model

VLA3D 视觉感知加速/部署

现有VLA模型多基于2D图像,数据效率低,而3D策略虽具空间结构优势却难与预训练VLM融合。BridgeVLA提出输入-输出对齐范式:将点云投影为多视角2D图像以匹配VLM预训练输入,并通过heatmap预训练使模型在统一2D空间内先预测热力图再生成3D动作。该方法在RLBench、COLOSSEUM和GemBench上均超越SOTA,在真实机器人实验中平均领先32%,且仅需3条轨迹/任务即在十余项任务上达到95.4%成功率,兼具高样本效率与强泛化能力。

Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames figure
NeuIPS2025arxiv_html

Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames

Vision-Language-Action Model

VLA视频感知

传统模仿学习假设专家掌握完整任务信息,但本文发现在多任务场景下,刻意遮蔽专家的部分观察反而能提升泛化。作者提出“眼罩”策略:通过限制任务信息迫使专家采取更具探索性的行为,且训练策略时仍使用完整观察。理论分析表明泛化误差随专家获取的任务信息量增加而上升。实验在Procgen游戏和真实机器人插孔任务中证实,遮蔽后的专家行为在少量示范下即可显著优于全信息专家。

BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization figure
NeuIPS2025arxiv_html

BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization

Vision-Language-Action Model

VLA感知

针对Vision-Language-Action模型在Training-as-a-Service范式中暴露的后门安全风险,本文首次系统研究并提出了专用攻击框架BadVLA。其核心为目标解耦的两阶段优化:第一阶段在感知模块注入微小触发器,在特征空间显式区隔正常与触发输入;第二阶段冻结感知模块并仅用干净数据微调动作头,以维持正常任务表现。多基准实验表明,BadVLA在保持干净任务精度几乎无损的同时,实现了近100%的攻击成功率,且对输入扰动、任务迁移及现有防御手段均表现出强鲁棒性。

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning figure
NeuIPS2025arxiv_html

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

Vision-Language-Action Model

VLA策略学习感知加速/部署

针对模仿学习中动作序列token化存在的训练开销大、序列长度不一及轨迹不平滑等问题,本文提出基于B样条编码的BEAST tokenizer。该方法无需单独训练tokenizer,即可将连续动作序列压缩为定长离散或连续token,天然保证轨迹平滑与段间连续,并支持并行解码加速。在166项模拟任务与8项真实机器人任务中,BEAST显著降低了训练与推理的计算成本,同时保持了与现有方法相当的任务成功率。

AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation figure
NeuIPS2025arxiv_html

AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation

Vision-Language-Action Model

VLA策略学习感知

现有移动操作方法通常未显式建模底座运动对机械臂的影响,且全程采用单一视觉模态,难以适配不同阶段的感知需求。本文提出AC-DiT,通过底座-本体条件机制将底座运动表征作为先验来指导全身动作预测,从而缓解误差累积;并设计感知自适应的多模态融合策略,动态调整2D图像与3D点云的权重,以匹配当前阶段对语义或几何信息的不同需求。在仿真与真实世界移动操作任务中的实验表明,该方法在协调性与动作生成上优于现有基线。

Universal Visuo-Tactile Video Understanding for Embodied Interaction figure
NeuIPS2025arxiv_html

Universal Visuo-Tactile Video Understanding for Embodied Interaction

Tactile

触觉视频

现有视觉语言模型难以感知触觉属性,限制了具身智能体对物体物理特性的推理能力。为此,本文提出首个面向通用视觉触觉视频理解的多模态大语言模型VTV-LLM,并构建跨三种触觉传感器、包含15万帧的VTV150K数据集,系统标注硬度、弹性等四项属性。通过光流引导掩码增强、跨模态对齐与文本微调的三阶段训练,该方法有效弥合了触觉感知与自然语言间的域鸿沟,在触觉视频理解与推理任务中取得更优表现。

Toward Artificial Palpation: Representation Learning of Touch on Soft Bodies figure
NeuIPS2025arxiv_html

Toward Artificial Palpation: Representation Learning of Touch on Soft Bodies

Tactile

触觉

本文针对人工触诊中仅依赖力映射图难以准确推断软体内部结构的问题,提出一种基于自监督学习的序列触觉表征方法。通过编码器-解码器框架预测不同位置的触觉读数,使模型从多步交互中捕捉超越刚度的机械结构信息。作者在仿真环境与真实乳腺模体(配准MRI真值)上验证,发现所学表征能够生成比力映射图更易解释的触觉图像,并在肿块变化检测任务上达到与人类相当的表现。

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper figure
NeuIPS2025arxiv_html

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper

Tactile

触觉

现有手持夹爪虽便于野外采集人类演示,却普遍缺少触觉反馈,难以捕捉接触丰富的精细操作策略,且野外视觉易受光照与遮挡影响。为此,本文设计了一款集成柔性压阻传感器的轻量便携式视触觉夹爪,支持室内外大规模同步采集;并基于掩码自编码与交叉注意力提出跨模态表征学习方法,在保留模态特异性的同时使表征自动聚焦于接触区域。基于逾260万对数据预训练后,所得策略在试管插入、移液管流体转移等精细任务上展现出更高的精度与抗干扰鲁棒性。

Taccel: Scaling Up Vision-based Tactile Robotics via High-performance GPU Simulation figure
NeuIPS2025arxiv_html

Taccel: Scaling Up Vision-based Tactile Robotics via High-performance GPU Simulation

Tactile

世界模型触觉感知

现有视觉触觉传感器仿真或因刚体近似而精度不足,或因软体动力学而速度受限,难以支撑大规模机器人学习。Taccel将增量潜在接触(IPC)与仿射体动力学(ABD)统一于高性能GPU仿真框架,在保证软体接触物理精度的同时实现数千并行环境的高速仿真,于单张H100上低分辨率任务可达4096环境18倍实时。平台支持多种机器人构型与多模态触觉信号输出,并在物体分类、灵巧抓取及关节物体操作中验证了仿真精度与sim-to-real迁移能力。

Enhancing Tactile-based Reinforcement Learning for Robotic Control figure
NeuIPS2025arxiv_html

Enhancing Tactile-based Reinforcement Learning for Robotic Control

Tactile

策略学习触觉

这篇工作针对机器人操作过度依赖理想化状态信息的问题,提出利用自监督学习从稀疏二进制触觉信号中学习有效表征,以替代视觉与特权信息。研究发现,在本体感受无法捕捉的解耦接触交互中,显式触觉反馈对灵巧操作至关重要;将SSL辅助记忆与策略记忆解耦能进一步提升性能。该方法的纯触觉策略在球弹跳和保定球旋转等复杂任务中实现了超人类灵巧度,并发布了RoTO基准以促进后续研究。

World-aware Planning Narratives Enhance Large Vision-Language Model Planner figure
NeuIPS2025arxiv_html

World-aware Planning Narratives Enhance Large Vision-Language Model Planner

Policy

规划/推理策略学习感知

现有大视觉语言模型的具身规划方法多采用与环境脱节的模仿学习,导致模型在复杂场景和长程交互中过度依赖辅助信号、缺乏视觉推理能力。本文提出WAP框架,通过视觉、空间、功能与句法四个维度的“世界感知叙事”增强数据,并采用课程学习训练,使模型仅依靠原始视觉观测和语言指令即可闭环决策。在EB-ALFRED上,Qwen2.5-VL成功率绝对提升60.7,长程规划提升70.0,且超过GPT-4o等闭源模型。

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning figure
NeuIPS2025arxiv_html

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Policy

策略学习触觉

针对机器人模仿学习面临的数据稀缺、质量不均及flow策略缺乏探索机制等瓶颈,ReinFlow首次实现了对flow matching策略的在线强化学习微调。其核心方法是向flow的确定性路径注入可学习噪声,将其转化为离散时间马尔可夫过程,从而获得精确似然、稳定训练并自动平衡探索与利用,支持在极少甚至单步去噪下稳定优化多种flow变体。实验显示,在腿部运动任务中Rectified Flow策略的episode reward平均净增135.36%,墙钟时间较DPPO节省82.63%;在状态和视觉操作任务中,Shortcut Model的成功率平均提升40.34%,在四步或一步去噪下即可媲美微调后的DDIM策略。

Quantization-Free Autoregressive Action Transformer figure
NeuIPS2025arxiv_html

Quantization-Free Autoregressive Action Transformer

Policy

策略学习加速/部署

针对现有自回归模仿学习需对连续动作进行离散量化、从而破坏动作空间几何结构并引入不可导操作的问题,本文提出Quantization-Free Autoregressive Action Transformer(Q-FAT)。该方法基于无限词表生成式Transformer,直接在decoder-only架构上将策略输出参数化为高斯混合模型,避免了动作量化步骤,同时支持自回归生成与显式似然估计;此外还设计了降低轨迹方差的采样策略。在多种基于本体感知与视觉输入的模拟机器人任务中,Q-FAT于条件与无条件策略生成均达到当前最优性能。

Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution figure
NeuIPS2025arxiv_html

Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution

Policy

策略学习

针对行为克隆中协变量偏移导致误差累积的问题,本文提出Latent Policy Barrier(LPB)。该方法受控制障碍函数启发,将专家演示的隐式嵌入视为区分安全分布内状态与OOD危险状态的屏障,并解耦精确模仿与偏离恢复:基础扩散策略仅学习高质量专家数据,动态模型则利用训练过程中自动采集的次优推出数据学习。推理时,通过预测未来隐状态并优化其贴近专家分布来纠偏。实验表明,该方法在模拟和真实机器人操作任务中显著提升了策略的鲁棒性与样本效率,且能即插即用地增强现成预训练策略。

Human-assisted Robotic Policy Refinement via Action Preference Optimization figure
NeuIPS2025arxiv_html

Human-assisted Robotic Policy Refinement via Action Preference Optimization

Policy

策略学习

针对VLA模型依赖离线专家演示、难以在部署后持续从失败中迭代优化的问题,本文提出Action Preference Optimization(APO)。该方法通过人机协作框架收集交互修正轨迹,并引入基于二值期望信号的自适应重加权偏好优化目标,缓解物理交互不可逆与动作token概率失配的挑战,使大规模VLA模型能从次优干预轨迹中稳定学习。实验表明,APO在模拟与真实场景的多种操作任务中均实现了快速适应与强鲁棒性,并支持跨模型泛化与终身学习。

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency figure
NeuIPS2025arxiv_html

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

Policy

策略学习加速/部署

现有基于生成模型的视觉运动策略因多步采样而推理延迟高,难以实时应用。FreqPolicy发现,与图像生成不同,机器人动作需要时序连续性,直接套用图像加速技术会忽略这一本质差异。因此,该方法首次在流匹配策略中引入频率一致性约束:在频域对齐不同时间步的动作特征,并设计自适应频率分量损失以捕捉操作中动静交替的结构化时序变化,进而实现高质量一步动作生成。实验表明,FreqPolicy在模拟和真实场景中均优于现有单步生成器,且能嵌入视觉-语言-动作模型实现无性能损失的加速。

Failure Prediction at Runtime for Generative Robot Policies figure
NeuIPS2025temporary_pdf

Failure Prediction at Runtime for Generative Robot Policies

Policy

策略学习

针对生成式模仿学习策略在运行时因分布偏移或动作误差累积而失效、且难以预先获取失败数据的问题,本文提出FIPER框架,通过联合监测策略嵌入空间中的OOD观测(RND-OE)与生成动作块的不确定性(ACE),并结合共形预测对少量成功轨迹进行校准,实现无需失败数据的早期失败预警。实验表明,该方法在多个仿真与真实环境中均比现有基线更早、更准确地预测失败,且能有效区分实际失败与良性OOD情形。

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy figure
NeuIPS2025arxiv_html

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy

Policy

策略学习

现有扩散与流匹配策略在机器人模仿学习中表现优异,但普遍采用固定推理预算,导致简单子任务计算冗余、困难子任务精度不足。本文提出难度感知随机插值策略DA-SIP,通过轻量CNN或少样本VLM实时判断当前观测的难度等级,在随机插值统一框架下动态调配求解器类型、积分步数及ODE/SDE模式,实现测试时计算资源的自适应分配。实验表明,该方法在保持与最大计算基线相当成功率的同时,可将总推理耗时降低2.6至4.4倍。

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance figure
NeuIPS2025arxiv_html

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

Policy

策略学习

现有策略引导方法通常需在训练时覆盖测试目标分布,难以灵活适配开放场景。本文提出DynaGuide,通过将潜在视觉动力学模型与基础扩散策略解耦,在动作去噪过程中注入动力学梯度实现主动引导。该方法无需微调即可对现成预训练策略进行多目标、正负兼顾的灵活引导,并对低质量目标保持鲁棒性。实验表明,DynaGuide在CALVIN仿真任务上平均引导成功率达70%,在低质量目标条件下较目标条件化方法提升5.4倍,且在真实机器人上成功引导现成策略并诱导出新行为。

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies figure
NeuIPS2025arxiv_html

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies

Policy

策略学习感知

现有模仿学习常将感知与动作解耦,忽略了二者在决策中的因果互惠。本文提出 Action-Guided Diffusion Policy(DP-AG),通过变分推断编码观测潜变量,并利用扩散策略噪声预测的向量–雅可比积作为结构化随机力,驱动潜变量随动作反馈动态演化;进一步以循环一致对比损失将感知更新与动作去噪耦合为双向闭环。理论分析与 UR5 真实机器人实验表明,该方法在任务成功率和动作平滑度上均显著优于主流扩散策略。

A Practical Guide for Incorporating Symmetry in Diffusion Policy figure
NeuIPS2025arxiv_html

A Practical Guide for Incorporating Symmetry in Diffusion Policy

Policy

策略学习

现有等变策略学习虽能提升样本效率与泛化,但专用架构实现复杂、难以兼容扩散策略等现代框架。本文提出实用方法,在不承担完整等变设计开销的前提下为扩散策略引入对称性:证明眼在手视觉配合相对轨迹动作可天然获得SE(3)不变性;并通过等变视觉编码器或基于Frame Averaging的预训练编码器对称特征提取强化策略。实验表明,不变表示结合等变特征提取显著优于基线,在MimicGen上取得与完全等变架构相当甚至更优的性能,且仅用单眼在手相机即可匹敌多相机3D体素输入方案。

UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Robot Task Planning figure
NeuIPS2025arxiv_html

UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Robot Task Planning

Planning and Reasoning

规划/推理数据

现有LLM与PDDL结合的方法多依赖手工或狭窄领域,难以在真实机器人交互中完成符号接地与长程规划。本文提出UniDomain框架,从12,393条真实操作演示中预训练统一PDDL领域,通过基于能量的关键帧提取与闭环验证生成原子领域,再针对目标任务检索并融合为紧凑的元领域,以支持组合泛化。在100个未见长程复杂任务上的实验表明,该方法可实现零样本规划,任务成功率较最优基线提升58%,规划最优性提升160%。

Towards Reliable LLM-based Robots Planning via Combined Uncertainty Estimation figure
NeuIPS2025arxiv_html

Towards Reliable LLM-based Robots Planning via Combined Uncertainty Estimation

Planning and Reasoning

规划/推理

现有大语言模型在机器人规划中易产生幻觉且过度自信,而既有工作未能有效区分认知不确定性与内在不确定性。本文提出CURE框架,将不确定性解耦为认知与内在两部分:前者进一步细分为任务清晰度与任务熟悉度,后者建模为预期成功率,分别通过MLP回归头与RND网络估计。在厨房移动操作与桌面重排任务上的实验表明,该方法的不确定性估计与实际执行结果的一致性显著优于现有基线。

Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning figure
NeuIPS2025temporary_pdf

Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning

Planning and Reasoning

规划/推理

现有大模型代码策略在动态或部分可观测环境中常因感知不足生成错误代码,导致任务失败。本文提出NESYRO神经符号框架,在代码生成中递归引入符号验证与交互式验证:先静态检查逻辑与前提条件,再通过探索性代码主动与环境交互、补全缺失观测并建立动作前提,类似回溯搜索构建有效执行路径。RLBench与真实场景实验表明,该方法较Code as Policies基线成功率提升46.2%,任务相关动作可执行性达86.8%以上。

RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks figure
NeuIPS2025arxiv_html

RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

Planning and Reasoning

规划/推理

现有分层VLA框架在微调高层规划器时,依赖人工或启发式规则分解演示,产生的子任务常与底层视觉运动策略训练数据不匹配,导致长程任务性能受损。本文提出基于检索的演示分解器RDD,通过将演示划分为与策略训练集视觉特征最相似的子任务区间,并建立最优划分目标以动态规划高效求解,实现无需训练的自动对齐。实验表明,RDD在仿真与真实机器人任务上均优于现有分解方法,且在不同设置下保持鲁棒。

Seeing through Uncertainty: Robust Task-Oriented Optimization in Visual Navigation figure
NeuIPS2025arxiv_html

Seeing through Uncertainty: Robust Task-Oriented Optimization in Visual Navigation

Navigation

导航

针对视觉导航中数据稀缺导致策略过拟合、复杂架构反而降低小样本泛化的问题,本文提出NeuRO框架,将深度感知网络与下游鲁棒优化紧耦合:利用部分输入凸神经网络和保形校准把含噪预测转化为凸不确定集以参数化约束,并将部分可观测规划重新建模为鲁棒优化问题。在无序与顺序多目标导航任务中,该方法在未见环境上显著优于现有方法,取得更优的泛化性能。

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval figure
NeuIPS2025arxiv_html

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

Navigation

导航加速/部署

针对大语言模型驱动的物体目标导航依赖云端、难以部署到本地设备的问题,本文提出EfficientNav。该系统面向内存受限的本地设备,通过语义感知记忆检索剪枝冗余地图信息以缓解小模型理解能力不足,并设计离散记忆缓存与基于注意力的记忆聚类机制对导航地图KV缓存进行分组管理与复用,在控制内存占用的同时降低重计算开销。实验表明,该系统在HM3D数据集上较GPT-4基线成功率提升11.1%,实时与端到端延迟分别降低6.7倍与4.7倍。

Distilling LLM Prior to Flow Model for Generalizable Agent’s Imagination in Object Goal Navigation figure
NeuIPS2025arxiv_html

Distilling LLM Prior to Flow Model for Generalizable Agent’s Imagination in Object Goal Navigation

Navigation

导航

针对ObjectNav中语义地图补全的固有不确定性与室内数据稀缺问题,本文提出GOAL框架,将LLM推断的空间上下文先验蒸馏为二维高斯场注入流模型训练,并通过数据依赖耦合直接条件化流匹配过程,同时以3D联合分割聚合多帧观测降低误差累积,在MP3D和Gibson取得最先进性能,且向HM3D迁移时展现出强泛化能力。

C-NAV: Towards Self-Evolving Continual Object Navigation in Open World figure
NeuIPS2025arxiv_html

C-NAV: Towards Self-Evolving Continual Object Navigation in Open World

Navigation

导航

现有物体导航方法通常假设训练数据固定且物体类别已知,难以在动态开放世界中持续学习新类别而不遗忘旧知识。为此,本文提出持续物体导航基准与C-Nav框架,其核心在于双路径抗遗忘机制:通过特征蒸馏维持多模态编码器的表征一致性,并借助特征回放保证动作解码器的策略稳定性;同时引入基于局部异常因子的自适应关键帧选择策略,在不存储原始轨迹的前提下降低冗余与隐私风险。实验表明,该框架在多种导航架构上均优于现有持续学习方法,甚至超过完整保留轨迹的基线,且显著降低了内存开销。

Active Test-time Vision-Language Navigation figure
NeuIPS2025arxiv_html

Active Test-time Vision-Language Navigation

Navigation

导航感知

针对视觉语言导航在陌生测试环境遭遇分布偏移、传统熵最小化易使智能体对错误动作过度自信的问题,本文提出ATENA框架,利用片段级成败反馈进行主动学习。其核心是混合熵优化,通过融合动作分布与伪专家分布来同时调控预测置信度和动作偏好,对成功轨迹增大确定性、对失败轨迹降低确定性;并辅以自主动学习策略,让智能体在高置信度时自行评估结果以减少人工依赖。在REVERIE、R2R和R2R-CE上的实验表明,该方法有效克服了测试时分布偏移,性能显著优于基线。

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills figure
NeuIPS2025arxiv_html

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

Humanoid

人形机器人

针对现有人形机器人模仿学习仅能跟踪平滑低速动作、且参考运动常与自身物理约束冲突的局限,本文提出基于物理的双阶段框架PBHC。该框架先通过多步运动处理管线从视频中提取动作,并基于物理指标过滤、接触修正与逆运动学重定向以保障可行性;随后在模仿阶段引入双层优化驱动的自适应跟踪机制,依据在线跟踪误差动态调整奖励容忍度,并结合非对称actor-critic架构训练策略。实验表明,该方法在仿真中能显著降低高难度动态动作的跟踪误差,并成功在Unitree G1真机上稳定部署功夫与舞蹈等复杂技能。

From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots figure
NeuIPS2025arxiv_html

From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots

Humanoid

人形机器人

现有人形机器人全身控制方法在单一技能上表现优异,但直接学习通用策略时,因跳跃、行走等不同动作对扭矩与平衡的冲突性需求导致数据分布不匹配和梯度冲突。本文提出BumbleBee专家-通才框架:利用自编码器结合腿部运动学特征与文本描述对动作聚类,在各簇内训练专家策略并通过迭代delta action模型补偿sim-to-real差异,最终蒸馏为统一通才策略。实验表明,该框架在仿真与真实机器人上均实现了长时间复杂动作序列的敏捷鲁棒跟踪。

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning figure
NeuIPS2025arxiv_html

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

Humanoid

人形机器人策略学习

现有方法常将人形机器人全身运动整体模仿,忽视上下半身功能差异,导致训练代价高且真机易失衡摔倒。本文提出对抗式运动与动作模仿框架ALMI,将下半身鲁棒 locomotion 与上半身精确 motion tracking 解耦为互相对抗的两个策略,通过迭代扰动训练达到协调平衡。该方法在仿真及 Unitree H1-2 真机上验证了稳定行走与精准动作跟踪。此外,作者发布含 8 万余条带语言标注的 ALMI-X 数据集,并初步探索了基于 Transformer 的全身控制基础模型。

Scaffolding Dexterous Manipulation with Vision-Language Models figure
NeuIPS2025ar5iv_html

Scaffolding Dexterous Manipulation with Vision-Language Models

Dexterous

灵巧操作感知

针对灵巧手训练中长期存在的示教数据稀缺与奖励函数手工设计难题,该研究提出利用视觉语言模型(VLM)的常识空间语义能力,直接根据语言指令和场景图像生成手-物关键点粗轨迹作为“脚手架”,再由低层残差强化学习策略在仿真中跟踪优化。实验表明,该方法无需人类示教或手工奖励即可在关节物体与语义理解等仿真任务中习得鲁棒策略,并成功迁移至真实灵巧手硬件。

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning figure
NeuIPS2025arxiv_html

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning

Dexterous

规划/推理人形机器人灵巧操作数据

针对现有人形机器人双臂灵巧操作缺乏仿真任务与高质量演示数据、且遥操作成本高昂的问题,本文提出HumanoidGen框架。该框架通过对资产与灵巧手进行基于原子操作的空间标注,使LLM规划器能够依据场景可供性生成可执行的空间约束链以驱动手臂运动,并引入MCTS变体显著增强长程任务与标注稀疏场景下的推理能力。实验构建的HGen-Bench涵盖20项任务,结果表明所生成数据可有效训练扩散策略且性能随数据量持续提升,同时MCTS显著改善了复杂任务的规划成功率。

Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges figure
NeuIPS2025arxiv_html

Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges

Dexterous

灵巧操作抓取感知

针对异构灵巧手抓取知识迁移难题,本文提出基于Schrödinger Bridge的视觉驱动灵巧抓取翻译方法。动机在于:不同机械手形态差异大,直接复制关节或姿态易产生物理无效抓取,且配对数据难以获取。为此,作者将跨手迁移建模为源手与目标手抓取分布间的随机传输,在视觉条件下通过隐空间score与flow matching学习映射,并设计了编码基座姿态、接触图、力旋空间及可操纵性的物理感知代价函数。实验表明,该方法在多样手-物组合上能生成稳定且功能等价的物理合理抓取,泛化性良好。

DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy figure
NeuIPS2025arxiv_html

DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy

Dexterous

策略学习灵巧操作

现有服装操作研究因缺乏逼真的灵巧手仿真环境与高效数据收集而受限。本文提出DexGarmentLab,首个面向灵巧手(尤其双手)服装操作的仿真平台,内含2500余件服装资产与15项任务,并针对服装建模优化物理模拟以缩小sim-to-real差距。基于服装结构对应关系,仅需单次专家演示即可自动生成多样化演示数据。进一步提出分层策略HALO,先识别可迁移的affordance点定位操作区域,再生成泛化轨迹。实验表明,HALO在形状与形变差异显著的未见实例上均优于基线方法,并成功实现真实世界部署。

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation figure
NeuIPS2025arxiv_html

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

Dexterous

灵巧操作数据

针对灵巧操作高质量数据稀缺且现有采集方式难以兼顾规模与多样性的问题,本文提出 DexFlyWheel 框架,核心洞察是将人类演示作为行为先验而非简单回放,通过模仿学习与残差强化学习构建自迭代的数据飞轮,在仿真中循环生成轨迹并持续增强数据多样性。实验表明,该框架仅需少量种子演示即可在四项任务中扩展出两千余条高质量数据,策略在挑战性测试集上平均成功率达 81.9%,并成功迁移至真实双臂机器人系统完成举升与交接任务。

Contact Map Transfer with Conditional Diffusion Model for Generalizable Dexterous Grasp Generation figure
NeuIPS2025arxiv_html

Contact Map Transfer with Conditional Diffusion Model for Generalizable Dexterous Grasp Generation

Dexterous

策略学习灵巧操作抓取

灵巧抓取中,分析类方法稳定但低效且难适应任务,生成类方法高效却受数据限制而难以泛化至未知物体与任务。本文提出基于条件扩散模型的抓取迁移框架,将模板的高质量抓取结合任务语义,以生成接触图的方式迁移至同类新物体;针对复杂形变,引入双映射机制显式建模模板与新物体的几何关联,并进一步利用部件图与方向图细化接触表征,再经级联条件扩散实现三者联合迁移与内部一致,最终结合鲁棒优化快速恢复抓取配置。实验表明,该方法在保持抓取质量的同时有效平衡了生成效率与跨任务泛化能力。

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model figure
NeuIPS2025arxiv_html

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model

Data

3D 视觉数据

URDF-Anything针对机器人模拟中铰接物体数字孪生构建繁琐的问题,提出了一种基于3D多模态大语言模型的端到端自动重建框架。该方法通过自回归方式联合优化几何部件分割与运动学参数预测,并设计了专门的token机制实现点云特征级别的细粒度分割与符号化运动学输出的深度耦合。在PartNet-Mobility及真实数据上,该方法在几何分割mIoU、关节参数预测误差和物理可执行性上均显著优于现有方法,并展现出良好的分布外泛化能力。

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skill figure
NeuIPS2025arxiv_html

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skill

Data

数据

现有机器人生成框架多忽略工具使用,且人类工具常不适配机械臂,而传统工具设计又受限于固定模板或通用3D生成。本文提出RobotSmith,将视觉语言模型的隐式物理先验与物理仿真结合,通过双智能体协作迭代设计工具几何、规划使用轨迹并联合优化。实验涵盖刚性、可变形及流体物体,平均成功率达50.0%,远超3D生成与工具检索基线;真实世界3D打印与机器人执行验证了设计的物理可行性。

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training figure
NeuIPS2025arxiv_html

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Data

策略学习数据

针对机器人操作中真实世界演示数据采集成本高、而仿真数据丰富但存在域差异的问题,本文提出一种统一的仿真-真实联合训练框架。其核心洞察是:对齐观测与动作的联合分布比仅对齐观测的边缘分布能提供更强的迁移信号。为此,该方法嵌入最优传输损失以学习域不变且保留动作信息的特征空间,并进一步提出非平衡最优传输及时间感知采样策略,以应对仿真与真实数据量严重不平衡的挑战。实验表明,该方法在真实世界操作任务中成功率提升可达30%,并能泛化到仅在仿真中见过的场景。

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data figure
NeuIPS2025arxiv_html

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

Data

策略学习数据

为降低机器人遥操作数据采集成本,本文利用可穿戴设备获取的第一人称人类行为数据扩展模仿学习。针对人机在视觉、传感器与运动学上的域差异,作者将跨本体学习形式化为域适应问题,提出EgoBridge框架:以动态时间规整度量运动相似性,基于最优传输在策略联合潜在空间中构建伪配对进行对齐,在域对齐的同时保留动作关键信息。在真实世界单臂与双手操作任务中,该方法绝对成功率较人类增强基线提升44%,并能泛化至仅在人类数据中见过的新物体、场景与任务。

SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing figure
NeuIPS2025arxiv_html

SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing

Benchmark and Dataset

Benchmark/数据集

现有端到端自主缝合在真实硬件上尚未实现,且公开数据稀缺、缺乏可复现基准。本文提出基于dVRK的SutureBot框架与基准,发布含1890条轨迹的高保真缝合数据集;并设计显式优化穿刺点精度的目标条件策略,将定位精度较纯任务基线提升59%–74%。此外,本文系统评测了多种SOTA VLA模型结合高层任务预测策略的端到端表现,为长程灵巧操作提供了可复现的评估基础。

SonoGym: High Performance Simulation for Challenging Surgical Tasks with Robotic Ultrasound figure
NeuIPS2025arxiv_html

SonoGym: High Performance Simulation for Challenging Surgical Tasks with Robotic Ultrasound

Benchmark and Dataset

世界模型Benchmark/数据集

现有机器人超声的深度强化学习与模仿学习研究多集中于导航,而解剖重建和手术引导等复杂骨科任务因缺乏高保真仿真环境难以开展。本文提出可扩展的SonoGym平台,基于真实患者CT数据实现物理与生成式超声模拟,支持数百环境并行;将三类手术任务形式化为带次模或安全约束的决策过程,并实现了强化学习与扩散策略等方法的训练与评测。实验表明策略可在不同患者模型及噪声条件下学习,但也揭示了现有方法在临床环境中的局限。

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation figure
NeuIPS2025arxiv_html

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

Benchmark and Dataset

Benchmark/数据集

现有机器人操作基准多聚焦短时程反应式任务,难以充分评估VLM的System 2慢思考能力(如长程规划与反思)。为此,本文提出RoboCerebra基准,通过LLM自上而下生成任务并由人工在仿真中执行,构建了轨迹长度约为现有基准6倍的长时程家庭操作数据集,支持细粒度子任务分解与动态场景变化。作者还设计了高层VLM规划器与低层VLA执行器协同的分层框架,并建立针对规划、反思与记忆的多维System 2评估协议。实验对GPT-4o等主流VLM进行了评测并分析了各认知维度表现,但具体得分的详细对比在提供的片段中未充分说明。

PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies? figure
NeuIPS2025arxiv_html

PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies?

Benchmark and Dataset

Benchmark/数据集

现有视觉-语言模型虽被广泛用于机器人操作,但学界对其细粒度物理前提理解缺乏系统验证。本文提出PAC Bench,首次从物体属性、可供性与物理约束三个可执行性维度,对基础模型进行细粒度诊断。该基准涵盖超过3万条标注的真实与模拟场景,涉及115类物体及多类操作前提。评估显示,当前主流VLM在基本物理概念上仍有显著短板,暴露了其在可靠操作中的关键瓶颈。

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents figure
NeuIPS2025arxiv_html

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

Benchmark and Dataset

世界模型Benchmark/数据集

现有具身模拟器多聚焦家庭场景,难以支持化学动力学建模与长程实验规划,制约了科学实验室自动化研究。为此,LabUtopia 构建了面向科学场景的高保真模拟与评测套件:LabSim 支持多物理场及化学反应仿真,LabScene 可程序化生成多样化实验室场景与 200 余个资产,LabBench 则建立从原子操作到长程移动操作的五级层次化基准,覆盖 30 项任务。实验表明,当前先进操作策略在仪器配置泛化与长程误差累积上仍存在明显瓶颈。

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching figure
NeuIPS2025arxiv_html

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

Accelerating and Deploying

VLA感知加速/部署

VLA-Cache针对机器人操作中视觉输入的时间冗余,提出一种无需训练的高效推理加速方法。其核心洞察在于:相邻帧中大量静态视觉token变化极小,却重复消耗计算资源;而任务相关的敏感区域仍需精准更新。为此,该方法通过跨帧KV缓存复用静态token,同时利用decoder注意力分数筛选环境敏感区域进行重计算,并依据各层注意力集中度动态调整复用比例。实验表明,该方法在仿真与真实机器人上均可实现最高1.7倍CUDA加速与15%控制频率提升,且几乎不损失任务成功率。

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models figure
NeuIPS2025arxiv_html

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

Accelerating and Deploying

VLA感知加速/部署

现有VLA加速多局限于单一模块,难以协同解决语言模型内存瓶颈、视觉token冗余与扩散动作头时序重复计算问题。本文提出无需训练的EfficientVLA框架,通过层间相似度剪除语言模型冗余层,按任务相关性与多样性精选视觉token,并在扩散动作头缓存中间特征复用时序连贯性。在CogACT上的实验表明,该方法将语言模块FLOPs降低78%、视觉token压缩至56个、去噪步数减至2步,整体推理延迟大幅缩短,在SIMPLER基准上仅造成极小的成功率损失。

Accelerating Visual-Policy Learning through Parallel Differentiable Simulation figure
NeuIPS2025arxiv_html

Accelerating Visual-Policy Learning through Parallel Differentiable Simulation

Accelerating and Deploying

世界模型策略学习加速/部署

针对视觉策略学习中可微渲染工程复杂、像素空间求导开销高且梯度不稳定的问题,本文提出D.Va方法,将渲染过程从计算图中解耦,从而避免像素雅可比计算并显著降低内存消耗,同时发现该解耦能归一化策略梯度以提升优化稳定性;理论分析进一步表明此解耦梯度等价于从开环轨迹优化中对策略进行蒸馏。实验在GPU并行加速仿真环境中表明,该方法不仅大幅缩短挂钟训练时间,还在最终回报上持续优于现有强化学习基线、特权仿真蒸馏及可微渲染的解析梯度方法,并可在单张GPU上四小时内从像素输入学会人形机器人跑步策略。

A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search figure
NeuIPS2025arxiv_html

A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search

Accelerating and Deploying

策略学习加速/部署

行为克隆仅在专家访问过的状态上提供密集监督,导致智能体一旦犯错脱离演示分布便难以自主恢复。本文提出 SAILOR,通过从演示与基策略数据中联合学习世界模型和奖励模型,使智能体在测试时能在线搜索并规划恢复路径,无需额外人工修正。在十余项视觉操作任务中,该方法在相同数据下持续优于扩散策略,即使将行为克隆的数据量扩大五至十倍仍存在性能差距,且能识别细微失败并对奖励作弊具有鲁棒性。

Building 3D Representations and Generating Motions From a Single Image via Video-Generation figure
NeuIPS2025temporary_pdf

Building 3D Representations and Generating Motions From a Single Image via Video-Generation

3D Vision

3D 视觉视频感知

针对单张 RGB 图像重建 3D 结构时单目深度估计常产生视锥形伪影、难以直接用于运动规划的问题,本文提出 VGER。该方法先以输入图像为条件驱动预训练视频生成模型合成相机运动视频,再经 3D 基础模型融合为多视角一致、无伪影的密集点云;进而通过多尺度噪声对比学习提取隐式无符号距离场,并将其编码为环境相关的黎曼度量场,实时调制名义动力系统生成光滑无碰撞轨迹。实验表明,VGER 在多样化室内外场景中均能准确恢复几何并产生符合场景结构的实时运动。

SpatialBot: Precise Spatial Understanding with Vision Language Models figure
ICRA2025arxiv_html

SpatialBot: Precise Spatial Understanding with Vision Language Models

General

3D 视觉感知

现有视觉语言模型仅基于RGB训练,缺乏精确深度感知,难以满足具身智能的空间理解需求。本文提出SpatialBot,通过融合RGB-D输入与可查询像素级深度的Depth API,并设计分层的SpatialQA通用数据集与面向机器人操作的SpatialQA-E数据集进行渐进式训练。实验表明,该方法在SpatialBench空间理解基准、通用VLM评测及真实机器人操作任务上均取得显著提升,实现了毫米级精度的空间推理与物理交互。

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning figure
ICRA2025arxiv_html

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

General

其他

当前端到端多模态大语言模型在四足机器人控制中推理延迟高,而常规的参数缩减方法虽能提速,却会严重损害模型在未见任务上的泛化能力。为此,本文提出QUART-Online,其核心是通过动作块离散化(ACD)将连续动作序列压缩为少量离散表征,并辅以动作块对齐与多步预测机制,在不削弱基础模型视觉-语言理解能力的前提下大幅提升推理效率。实验表明,该系统可与底层控制器同步实现50Hz实时推理,并在多种导航与全身操作任务上将平均成功率提高65%。

MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models figure
ICRA2025arxiv_html

MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models

General

VLA策略学习触觉感知

针对现有视觉-语言-动作(VLA)模型多直接微调多模态大语言模型(MLLM)且难以利用自动采集的混合质量数据的问题,本文提出面向四足机器人的MoRE模型。其核心是将多个LoRA模块作为专家嵌入密集MLLM,构建稀疏激活的混合专家架构,并设计基于强化学习的Q函数训练目标,使模型能从包含次优轨迹的混合数据中有效学习。实验表明,MoRE在六项仿真技能上均优于基线,具备出色的分布外泛化能力,并在真实场景中验证了实用性。

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent figure
ICML2025arxiv_html

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

Vision-Language-Action Models

VLA感知

现有视觉-语言-动作模型多基于视觉语言模型微调,但后者在视觉问答等任务上的预训练使其偏重高级语义而忽视距离、尺寸等低级空间细节,限制了机器人对物理动态的感知与精确控制。为此,本文提出UP-VLA,将多模态理解与未来视觉预测统一于单一自回归模型中联合训练,使表征同时兼容高层语义与低层视觉模式。实验表明,该方法在Calvin ABC-D基准上较此前最优方法提升33%,并在真实机器人操作中显著提高成功率,尤其在依赖精确空间信息的任务上优势明显。

ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning figure
ICML2025arxiv_html

ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning

Vision-Language-Action Models

VLA策略学习触觉感知

针对视觉-语言-动作模型因模仿学习难以区分并利用混合质量训练数据的问题,本文提出端到端模型 ReinboT,将离线强化学习最大化累积回报的思想融入通用机器人操控。其核心是通过自动轨迹分解设计面向操控任务特性的密集奖励,并将 ReturnToGo 作为新模态引入 GPT 风格架构,借助 expectile regression 预测最大回报以指导动作生成。实验表明,该方法在 CALVIN 混合质量数据集上达到最优,并在真实任务中展现出优异的小样本学习与分布外泛化能力。

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction figure
ICML2025arxiv_html

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Vision-Language-Action Models

VLA感知

现有视觉-语言-动作模型通常微调预训练视觉-语言模型,导致视觉与语言特征独立输入策略网络,破坏了预训练的语义对齐并在未见环境上泛化下降。OTTER提出文本感知的视觉特征提取机制,冻结CLIP等编码器,根据语言指令选择性提取语义对齐的任务相关视觉特征输入策略网络,从而保留预训练的丰富语义理解。仿真与真实机器人实验表明,该方法在未见物体和环境中显著优于现有模型,展现出更强的零样本泛化能力,且性能随编码器与数据规模扩大而提升。

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models figure
ICML2025arxiv_html

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

Vision-Language-Action Models

VLA感知

现有机器人指令跟随多局限于简单原子指令,难以处理复杂开放域提示与实时人类反馈。本文提出Hi Robot,一种分层视觉-语言-动作模型:高层VLM负责结合视觉观测与用户语言进行任务推理和反馈整合,输出原子指令;低层VLA执行具体动作,并通过逆向合成复杂交互数据来训练高层策略。在单臂、双臂及移动双臂平台上的实验表明,该系统在长程任务(如做三明治、清理桌面)中显著优于端到端基线,能有效利用执行中的人类修正完成未见任务。

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics figure
ICML2025ar5iv_html

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

Vision-Language-Action Models

VLA感知

现有基于大语言模型的奖励工程方法仅依赖文本描述,难以准确刻画复杂机器人任务中的隐性偏好,也无法妥善平衡各目标函数的权重。为此,本文提出ELEMENTAL框架,将视觉-语言模型与逆强化学习结合,通过视觉示教与自然语言共同理解用户意图,并以自反思迭代机制持续优化特征提取、奖励与策略学习。实验表明,该方法在IsaacGym标准基准上任务成功率较现有方法提升42.3%,并在分布外任务上实现41.3%的泛化增益。

A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks figure
ICML2025arxiv_html

A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

Vision-Language-Action Models

VLA感知

现有大型动作模型多基于Transformer,但其推理时二次复杂度导致延迟过高,难以满足机器人实时控制对100Hz–1000Hz采样率的需求。本文提出以xLSTM为核心的大型循环动作模型LRAM,在保持训练并行化的同时实现线性时间复杂度的快速推理,并具备序列长度外推能力。在包含6个领域432个任务、共8.94亿步 transitions 的多任务离线数据集上,LRAM在性能与推理速度上均优于Transformer,且在微调和上下文学习场景中表现良好。

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations figure
ICML2025arxiv_html

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

Policies

策略学习视频

现有视觉编码器多基于单图或双图预训练,易捕获静态信息却忽略动态演化。本文提出Video Prediction Policy (VPP),利用视频扩散模型内部同时编码当前状态与预测未来帧的“预测性视觉表征”,使下游策略在该表征上隐式学习逆动力学模型。实验表明,该模型在Calvin ABC-D泛化基准上相对此前最优方法提升18.6%,并在真实世界高维灵巧操作任务中将成功率提高31.6%。

STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented figure
ICML2025arxiv_html

STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented

Policies

其他

现有基于 VQ-VAE 的技能抽象方法存在码本坍缩与技能间因果依赖建模不足的问题。本文提出 STAR 框架,通过旋转增强残差技能量化(RaRSQ)将编码器输出的相对角度关系引入梯度流,避免嵌入坍缩并维持多样化技能表示;同时设计因果技能 Transformer(CST)以自回归方式显式建模技能层级依赖,实现连贯动作生成。在 LIBERO 仿真基准与真实机器人任务上的实验表明,该方法相比基线取得约 12% 的性能提升。

SAM2Act:Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation figure
ICML2025arxiv_html

SAM2Act:Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation

Policies

其他

针对现有机器人操作在复杂环境泛化和记忆依赖任务上的不足,本文提出SAM2Act,通过融合视觉基础模型的多分辨率上采样特征与多视角Transformer策略,在RLBench 18项任务中达到86.8%的SOTA成功率,并在The Colosseum环境扰动下仅损失4.3%性能。进一步地,SAM2Act+引入受SAM2启发的记忆库与注意力机制,并配套提出MemoryBench基准,在记忆任务上取得94.3%的成功率,显著超越基线。文中还包含真实机器人验证。

Pre-training Auto-regressive Robotic Models with 4D Representations figure
ICML2025arxiv_html

Pre-training Auto-regressive Robotic Models with 4D Representations

Policies

其他

现有机器人预训练受限于数据稀缺与表征不足。本文提出ARM4R,利用单目深度估计从人类视频中提取3D点轨迹构建4D表征,并基于自回归模型进行预训练。该表征与机器人状态仅差线性变换,可实现从人类视频到机器人控制的高效迁移。实验表明,仅预训练于人类视频即可在RLBench及真实Kinova任务上超越多种基线,并展现跨机器人泛化能力。

Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks figure
ICML2025arxiv_html

Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks

Policies

策略学习

针对多任务与元强化学习在任务高度多样化时泛化能力不足、易产生负迁移,且现有聚类方法缺乏理论保证与样本效率的问题,本文提出PACMAN框架,通过参数化任务表示在参数空间聚类,为每个簇学习专属策略以构建策略委员会;其核心洞察在于以高覆盖而非完全覆盖作为聚类目标,从而在低维任务下获得可证明的近似比与样本复杂度保证,并导出与状态/动作空间维度无关的少样本适应界。实验表明,该方法在MuJoCo和Meta-World上显著优于11个多任务、元强化及任务聚类基线,且能通过LLM嵌入有效处理非参数任务。

Flow-based Domain Randomization for Learning and Sequencing Robotic Skills figure
ICML2025arxiv_html

Flow-based Domain Randomization for Learning and Sequencing Robotic Skills

Policies

其他

现有域随机化方法依赖手工设计环境参数分布,难以兼顾策略收敛与真实世界泛化,且部分方法需要昂贵的真实环境交互。为此,本文提出GoFlow,利用归一化流构建神经采样分布,在训练过程中通过熵正则化奖励最大化自动探索当前策略可解的最广环境边界,无需真实数据即可学习鲁棒策略。实验表明,该方法在六个仿真域及真实接触操作任务中均优于现有基线,并实现更高的域覆盖。此外,作者将学习到的分布与特权值函数结合,用于分布外检测,以支持不确定性感知的多步操作规划。

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents figure
ICML2025arxiv_html

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Policies

Benchmark/数据集感知

针对多模态大语言模型(MLLM)驱动的具身智能体缺乏系统评测基准的问题,本文提出EmbodiedBench,在四个环境中构建了1,128个覆盖高层语义规划与低层原子动作(导航、操作)的测试任务,并设计了面向常识推理、空间感知、长期规划等六大能力的细粒度评测框架。实验评估了24个主流MLLM,发现模型在高层任务表现较好,但在低层操作任务上仍有显著瓶颈,且长期规划是最具挑战性的能力;此外,视觉信息对低层任务至关重要,移除后性能下降40%至70%,而对高层任务影响甚微。

Efficient Robotic Policy Learning via Latent Space Backward Planning figure
ICML2025arxiv_html

Efficient Robotic Policy Learning via Latent Space Backward Planning

Planning and Reasoning

规划/推理策略学习加速/部署

现有机器人规划方法在细粒度视频预测(成本高、误差累积)与粗粒度前向子目标规划(易偏离长期目标)之间难以平衡效率与准确性。本文提出潜在空间反向规划LBP,先将任务目标锚定为最终潜在状态,再反向递归生成趋近当前状态的中间子目标,使规划全程保持对任务完成的感知,抑制偏离目标的误差累积;策略通过可学习token自适应聚合子目标序列提取动作。在LIBERO-LONG仿真与真实机器人长程多阶段任务中,LBP在计算效率与成功率上均优于现有前向及细粒度方法,达到当前最优。

Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling figure
ICML2025arxiv_html

Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling

Planning and Reasoning

规划/推理

现有LLM智能体在长程机器人任务规划中受限于单向依赖、缺乏错误修正和固定推理过程。本文将自精炼过程建模为不动点问题,利用深度平衡模型与隐函数定理实现无需额外验证器的端到端监督训练,并设计嵌套平衡序列建模结构以高效融合环境反馈,实现闭环规划。在VirtualHome-Env上的实验表明,该方法相比基于树的方案具有更优的性能与推理计算扩展性。

WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving figure
ICML2025arxiv_html

WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving

Dataset

规划/推理Benchmark/数据集

针对现有驾驶语言数据集多局限于空间邻近交互、忽视交通规则引发的关键交互这一问题,本文构建了大规模多模态数据集WOMD-Reasoning,包含300万对真实场景Q&A,系统覆盖交通规则与人类意图驱动的交互推理。基于该数据集微调的Motion-LLaVA在交互预测、规则合规规划及驾驶问答等任务中表现优异,验证了对非邻近交互进行语言建模的必要性与有效性。

Unifying 2D and 3D Vision-Language Understanding figure
ICML2025arxiv_html

Unifying 2D and 3D Vision-Language Understanding

3D Vision

3D 视觉感知

针对3D视觉语言数据稀缺导致具身系统长期依赖2D模型的瓶颈,本文提出统一架构UniVLG,通过预训练2D权重初始化并联合2D与3D数据训练,引入跨模态共享的语言条件掩码解码器与2D-to-3D提升策略,在无需网格重建和真值提议的真实传感器设置下,于3D指代定位、问答等任务上取得SOTA,且联合训练不损害2D性能。

GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model figure
ICML2025arxiv_html

GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model

3D Vision

3D 视觉感知

现有参数高效微调方法直接迁移至3D点云时,因难以利用几何信息而性能受限。本文提出GAPrompt,通过可学习的Point Prompt显式引入点云几何细节,并设计Point Shift Prompter提取实例级全局形状特征对输入进行自适应调整,辅以Prompt Propagation将几何信息注入特征提取过程。实验表明,该方法仅用2.19%的可训练参数即可在多个基准上达到媲美全量微调的精度,并显著优于现有PEFT方法。

VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation figure
ICLR2025arxiv_html

VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation

Vision-Language-Action Models

VLA感知

现有视觉语言动作模型仅支持文本指令,忽略了更自然的语音交互模态,且级联语音识别系统会丢失声纹等个性化信息。为此,本文提出端到端模型VLAS,将语音识别直接集成到机器人策略中,通过三阶段训练实现图文语音与动作的多模态对齐,并设计语音检索增强生成机制处理个性化任务。实验表明,VLAS在CALVIN基准上性能与传统VLA相当,在定制化任务和真实UR5机械臂上均能有效利用语音指令完成操作。

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies figure
ICLR2025arxiv_html

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Vision-Language-Action Models

VLA3D 视觉感知

现有视觉-语言-动作(VLA)模型虽具通用性,却常因缺乏对历史运动的空间-时序感知而陷入被动反应。本文提出视觉轨迹提示,将机器人过去运动的多点轨迹直接叠加于输入图像,以显式编码时空关系。基于OpenVLA微调的TraceVLA(7B)及轻量版TraceVLA-Phi3(4B)在SimplerEnv仿真与真实WidowX机器人任务上取得领先性能,其中7B模型相对OpenVLA在仿真环境提升10%、真实任务提升3.5倍,4B模型则在推理效率显著优于7B基线的同时保持强劲表现。

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets figure
ICLR2025arxiv_html

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

Vision-Language-Action Models

VLABenchmark/数据集感知

针对既有研究多依赖野外人类视频预训练机器人视觉表征、却因人机体型差异和动态信息缺失导致性能受限的问题,本文系统评估了表征的“操作中心性”与下游策略表现之间的强关联,进而提出基于大规模机器人数据集DROID的MCR预训练框架。该框架通过将视觉观测与机器人本体状态-动作动态对齐,并辅以动作预测和时间对比学习,显著增强了操作中心性。实验表明,MCR在20项仿真操作任务上较最强基线提升14.8%,并在3项真实机器人任务中将成功率提高76.9%。

PIDM: Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation figure
ICLR2025arxiv_html

PIDM: Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation

Vision-Language-Action Models

VLA感知

现有机器人策略学习多割裂视觉与动作,或仅做行为克隆,或分阶段预训练视觉表示。本文提出端到端预测逆动力学模型PIDM,通过Transformer同时预测未来视觉状态与中间动作,在训练与推理中闭环融合视觉与动作。模型Seer经大规模机器人数据预训练后,在LIBERO-LONG、CALVIN ABC-D及真实世界任务上分别提升13%、21%与43%,其中CALVIN ABC-D达新SOTA,并在长程任务与强扰动下展现优异泛化性。

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy figure
ICLR2025arxiv_html

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

Vision-Language-Action Models

VLA策略学习感知数据

针对机器人示教数据稀缺导致预训练视觉语言模型难以直接适配机器人控制的问题,本文提出LLaRA框架,将机器人动作策略建模为视觉-文本对话,并设计自动化流水线将行为克隆数据转换为指令微调数据,使机器人动作与图像像素坐标对齐。进一步地,通过六项自监督辅助任务增强数据集,无需额外动作标注。实验表明,该框架在少量数据微调下即可在模拟与真实世界任务中取得先进性能,并有效保持了对未见任务的泛化能力。

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation figure
ICLR2025arxiv_html

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

Video

视频

针对现有视觉-语言-动作模型在真实部署中难以抵御光照变化、视频流噪声等外部扰动的问题,本文受经典内模控制原理启发,提出闭环框架GEVRM。其核心在于利用文本引导的视频扩散模型生成高表达力的未来视觉目标作为参考输入,并通过原型对比学习优化内部嵌入以模拟和区分外部扰动,从而驱动目标引导的扩散策略生成鲁棒动作。该方法在标准与受扰动的CALVIN基准及真实机器人任务中均取得了领先的性能。

ReGen: Generative Robot Simulation via Inverse Design figure
ICLR2025arxiv_html

ReGen: Generative Robot Simulation via Inverse Design

Sim2real and Real2sim

世界模型Sim2Real

现有机器人仿真构建依赖人工,且从文本生成低层控制的方式限制了场景多样性。ReGen提出逆设计思路,从给定的机器人行为与文本描述反向推断并生成可能引发该行为的仿真环境:通过大语言模型迭代扩展编码因果关系与实体属性的有向图,再将其转换为符号程序配置仿真器。在自动驾驶与操作中,该方法以高成功率生成了更多样、更复杂的场景,支持可控反事实与边角案例生成,并能推理智能体认知及多模态感知故障。

Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion figure
ICLR2025arxiv_html

Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

Policies

策略学习

针对视觉模仿学习因光照、纹理等外观变化导致泛化性不足的问题,本文提出 Stem-OB,利用预训练图像扩散模型的 inversion 过程将不同外观的观察映射为保留高层场景结构的收敛表示,从而抑制低级视觉差异。该方法可作为即插即用的预处理模块,无需额外训练,且部署时无需推理阶段 inversion。实验表明,其在真实世界机器人任务上的成功率较最佳基线平均提升 22.2%。

STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning figure
ICLR2025arxiv_html

STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning

Policies

策略学习

针对多任务机器人策略在单任务上因负迁移导致性能次优的问题,本文提出STRAP,在测试时利用少量域内轨迹,基于视觉基础模型特征与子序列动态时间规整,从大规模离线数据集中检索相似子轨迹而非整条轨迹以训练策略。其核心洞察在于不同任务间广泛共享底层行为,子轨迹粒度能更充分利用跨任务数据。实验表明,该方法在LIBERO模拟环境及真实机器人操作任务中均优于全轨迹检索与多任务学习方法,且仅需少量真实演示即可学习鲁棒策略。

SRSA: Skill Retrieval and Adaptation for Robotic Assembly Tasks figure
ICLR2025arxiv_html

SRSA: Skill Retrieval and Adaptation for Robotic Assembly Tasks

Policies

其他

针对机器人装配等接触密集型任务数据效率低的问题,本文提出SRSA框架,利用预存技能库解决新任务。核心假设是:在新任务上零样本成功率更高的源策略,经微调后收敛更快、效果更好。为此,作者联合学习几何、动力学与专家动作的特征,预测策略迁移成功率以检索最优技能,并引入自模仿学习稳定适应。实验表明,在密集奖励下成功率较基线提升19%、样本效率提高2.4倍,稀疏奖励下提升135%;且策略可零样本迁移至真实机器人,取得90%平均成功率。

ReViWo: Learning View-invariant World Models for Visual Robotic Manipulation figure
ICLR2025temporary_pdf

ReViWo: Learning View-invariant World Models for Visual Robotic Manipulation

Policies

世界模型

现有视觉操作策略在相机视角变化时性能显著下降,因其未能解耦视角不变的任务状态与视角相关的外观信息。本文提出ReViWo,通过双编码器将图像显式分解为视角不变表示(VIR)和视角相关表示,利用带标签的多视角数据及Open X-Embodiment数据联合训练。基于VIR构建世界模型并训练策略,使策略仅依赖跨视角稳定的状态表示。在Meta-world、PandaGym及真实ALOHA机器人上的实验表明,该方法在面对10至90度视角偏移和持续相机抖动时均保持鲁棒,显著优于基线。

HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation figure
ICLR2025arxiv_html

HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation

Policies

VLA

现有单体VLA模型直接微调VLM预测动作,既受限于昂贵的机器人数据,又难以兼顾灵巧操作与开放世界泛化。本文提出分层VLA架构HAMSTER,将高层VLM与低层3D策略解耦:VLM仅需从单目RGB和任务描述输出粗粒度2D末端执行器路径,低层策略据此完成精确操控。该设计使高层模型能利用无动作视频、仿真等廉价off-domain数据学习语义推理,低层模型则专注空间感知与高频控制。真实机器人实验表明,该方法在七个泛化维度上较OpenVLA平均提升20个百分点,相对增益达50%。

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation figure
ICLR2025arxiv_html

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

Policies

3D 视觉策略学习

现有模仿学习方法在3D操作任务中难以泛化到新任务,而基于基础模型的方法又缺乏对3D环境的精准理解。本文提出GravMAD,通过子目标连接两种范式:训练阶段从演示中自动发现关键子姿态,推理阶段利用基础模型提取子目标,并生成GravMaps空间价值图引导扩散策略,实现兼具精度与泛化性的语言条件3D操作。在RLBench上,GravMAD对新任务和训练任务的性能分别提升28.63%和13.36%,并在真实机器人任务中验证了跨任务泛化能力。

Data Scaling Laws in Imitation Learning for Robotic Manipulation figure
ICLR2025arxiv_html

Data Scaling Laws in Imitation Learning for Robotic Manipulation

Policies

策略学习数据

本文探究机器人模仿学习中的数据缩放规律,以期训练出可在新环境与新物体上零样本部署的单任务策略。基于逾四万条演示与一万五千余次真实机器人 rollout,作者发现策略泛化性能随训练环境及物体数量呈幂律增长,且环境与物体的多样性远比单一环境下的演示数量重要,超过阈值后收益甚微。据此提出的高效采集策略仅需四名采集者用一个下午,即可为新的操作任务收集到足以在未见环境与物体上实现约九成成功率的数据。

VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning figure
ICLR2025arxiv_html

VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning

Planning and Reasoning

世界模型规划/推理

针对传统符号模型难以适应新环境与纯神经网络缺乏逻辑推理的问题,本文提出神经-符号谓词(NSPs),将视觉-语言模型的感知能力与Python的可计算性结合,通过在线交互自动发明谓词并学习抽象世界模型与高层动作。在五个模拟机器人任务上的实验表明,该方法相比分层强化学习、VLM规划及符号基线具有更高的样本效率、更强的分布外泛化能力与可解释性。

Physics-informed Temporal Difference Metric Learning for Robot Motion Planning figure
ICLR2025arxiv_html

Physics-informed Temporal Difference Metric Learning for Robot Motion Planning

Planning and Reasoning

规划/推理

针对现有自监督运动规划方法在求解Eikonal方程时难以保持最优值函数与测地距离特性的问题,本文提出物理信息时序差分度量学习框架。该方法将时序差分损失引入物理信息神经网络以在有限区域内强制Bellman最优性、抑制虚假局部极小,并通过度量学习架构保证网络满足测地距离的非负性、对称性与三角不等式。推理时采用基于采样的模型预测控制最小化所学值函数。实验表明,该方法在2至12自由度的复杂及未见过环境中显著优于现有自监督方法。

Multi-Robot Motion Planning with Diffusion Models figure
ICLR2025arxiv_html

Multi-Robot Motion Planning with Diffusion Models

Planning and Reasoning

规划/推理策略学习

多机器人运动规划因维度灾难和交互数据稀缺,难以直接学习多机器人扩散模型。本文提出MMD框架,核心洞察是仅需单机器人扩散模型,通过借鉴MAPF的约束搜索机制,利用时空引导函数施加碰撞约束并协调多机,同时组合多个模型实现大范围长程规划。实验表明,该方法在物流场景的数十机器人模拟中,随机器人数量和环境规模均展现出良好的可扩展性,且优于基于学习代价地图的MAPF方法。

LASeR: Towards Diversified and Generalizable Robot Design with Large Language Models figure
ICLR2025temporary_pdf

LASeR: Towards Diversified and Generalizable Robot Design with Large Language Models

Planning and Reasoning

规划/推理

现有大语言模型辅助进化优化在探索与利用平衡及跨任务泛化上存在不足,限制了其在机器人设计自动化中的应用。本文提出LASeR框架,通过多样性反思机制DiRect引导LLM基于历史搜索轨迹进行知识化探索,同时显式注入任务背景信息以激发LLM的跨任务推理能力。在体素软体机器人上的实验表明,该方法在优化效率、解多样性及零样本新任务设计方面均显著优于基线。

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents figure
ICLR2025arxiv_html

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents

Planning and Reasoning

规划/推理

现有异构多机器人系统多依赖人工预设规则与角色,难以实现全自动化协作。本文提出EMOS框架,其核心洞察在于:机器人的能力应由物理构型而非人为角色定义。为此,系统通过解析URDF与运动学工具自发生成"机器人简历",实现基于具身感知推理的层级化任务规划、分配与执行。同时发布Habitat-MAS基准,涵盖感知、导航、操作及跨楼层物体重排任务,实验表明机器人简历与分层设计对异构多机协作至关重要。

DenseMatcher: Learning 3D Semantic Correspondence for Category-Level Manipulation from a Single Demo figure
ICLR2025arxiv_html

DenseMatcher: Learning 3D Semantic Correspondence for Category-Level Manipulation from a Single Demo

Planning and Reasoning

规划/推理3D 视觉

现有3D密集对应方法多依赖几何而忽略纹理,且类别单一,难以实现语义层面的跨类别泛化。为此,本文提出DenseMatcher,将多视角2D基础模型特征投影至网格后,经3D网络精炼,再通过改进的functional map建立密集对应,并发布了首个多类别彩色网格3D匹配数据集DenseCorr3D。实验表明,该方法在3D匹配任务上大幅优于已有基线,且仅通过单次演示即可实现真实场景中跨实例、跨类别的长程复杂机器人操作,并支持零样本颜色迁移。

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation figure
ICLR2025arxiv_html

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation

Planning and Reasoning

规划/推理感知

现有视觉语言模型在机器人操作中擅长执行任务,却难以识别和推理失败。本文提出开源VLM Aha,将失败检测重构为自由形式推理任务,并设计FailGen管道,通过对仿真中的成功演示进行程序性扰动,规模化生成失败轨迹数据。仅在合成数据上微调的Aha,能泛化至真实场景与未见任务,在失败推理上超越GPT-4o等模型;将其反馈集成到强化学习奖励生成、任务运动规划与零样本轨迹生成中,平均提升任务成功率21.4%。

SPA*: 3D Spatial-Awareness Enables Effective Embodied Representation figure
ICLR2025arxiv_html

SPA*: 3D Spatial-Awareness Enables Effective Embodied Representation

3D Vision

3D 视觉感知

现有具身AI视觉表征多沿用2D视觉范式,难以捕捉3D空间结构。本文提出SPA框架,通过可微分神经渲染在多视角图像上进行自监督预训练,使普通ViT获得内在3D空间感知能力。研究构建了涵盖8个模拟器268个任务的迄今最大规模具身表征评测基准,结果表明SPA在单任务与语言条件多任务场景中持续优于十余种SOTA方法,且仅需更少训练数据;真实世界实验进一步验证了其有效性,证实3D空间感知对具身表征至关重要。

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination figure
ICLR2025arxiv_html

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination

3D Vision

世界模型3D 视觉策略学习感知

现有世界模型难以直接复现机器人面前的真实环境,易产生幻觉且缺乏组合泛化能力。本文提出DreMa,将高斯溅射与物理引擎结合构建可学习的组合式数字孪生,使机器人能在想象中对物体进行物理可信的重新配置。基于该世界模型,作者对少量真实演示施加等变变换生成新数据,用于模仿学习。实验表明,该方法在仿真和真实Franka机器人上均实现one-shot策略学习,显著减少所需演示并提升泛化性。

Learning 4D Embodied World Models figure
ICCV2025temporary_pdf

Learning 4D Embodied World Models

World Model

世界模型

现有2D世界模型缺乏精确深度与几何信息,难以支持机器人操作所需的空间一致性与6-DoF姿态估计。本文提出TesserAct,通过微调视频生成模型联合预测RGB-DN(RGB、深度、法线)序列,以轻量中间表示学习4D具身世界模型;并设计算法将生成视频重建为时空一致的4D场景,引入新颖损失约束动态区域一致性。实验表明,该方法在真实与模拟机器人数据上均生成高保真4D场景,并显著提升下游操作策略性能,且能泛化至未见物体与跨域场景。

IRASim: A Fine-Grained World Model for Robot Manipulation figure
ICCV2025arxiv_html

IRASim: A Fine-Grained World Model for Robot Manipulation

World Model

世界模型

现有世界模型难以精确对齐机器人动作轨迹与视频帧,导致细粒度操作交互建模不足。为此,本文提出基于扩散Transformer的IRASim,创新性地在Transformer块内引入帧级动作条件模块,显式强化动作与生成帧的逐帧对齐,实现高保真轨迹到视频生成。实验表明,IRASim在多个真实机器人数据集上的视频质量均优于基线,且具备良好的规模扩展性;其策略评估结果与真实仿真器高度相关,并可通过测试时模型预测规划将Push-T任务的IoU从0.637提升至0.961。

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation figure
ICCV2025arxiv_html

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

World Model

世界模型3D 视觉

现有图像世界模型缺乏三维几何理解,对光照和视角变化敏感。本文提出基于3D高斯泼溅的Gaussian World Model (GWM),通过3D高斯VAE将场景压缩至潜空间,并以扩散Transformer预测动作条件下的未来高斯状态,实现细粒度场景重建。GWM既可增强模仿学习的视觉表征,也可作为神经模拟器支持基于模型的强化学习。在31项模拟与真实机器人任务中,GWM显著优于现有方法,展现了3D世界模型的数据扩展潜力。

DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation figure
ICCV2025arxiv_html

DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation

World Model

VLA世界模型

现有非抓取操作学习方法多依赖多视角相机与精确位姿跟踪,且难以泛化至不同物理条件。本文提出DyWA,通过历史轨迹自适应建模动态特性,并联合预测未来状态与机器人动作,在单视角点云的部分可观测条件下实现几何、物理与动作的统一学习。仿真中仅用单视角输入便将成功率提升31.5%,真实世界平均达68%,且对摩擦变化及半满水瓶等非均匀质量分布具有鲁棒性。

Diffusion-Based Imaginative Coordination for Bimanual Manipulation figure
ICCV2025ar5iv_html

Diffusion-Based Imaginative Coordination for Bimanual Manipulation

World Model

世界模型策略学习灵巧操作

受人类借助想象未来以协调双手的启发,本文提出一种基于扩散模型的统一框架,将视频预测作为隐式协调的共识载体,联合优化未来状态生成与动作预测。具体而言,多帧潜在预测在压缩空间中编码未来信息,单向注意力机制让视频预测以动作为条件而动作预测不依赖视频,从而在推理时跳过视频生成以提升效率。实验表明,该方法在ALOHA与RoboTwin模拟基准及真实世界任务中均显著优于基线,成功率分别提升24.9%、11.1%和32.5%。

monoVLN: Bridging the Observation Gap between Monocular and Panoramic Vision and Language Navigation figure
ICCV2025temporary_pdf

monoVLN: Bridging the Observation Gap between Monocular and Panoramic Vision and Language Navigation

Vision-Language-Navigation Model

VLN导航感知

现有视觉语言导航方法多假设全景观察,而实际机器人普遍配备单目RGB-D相机,导致观测信息固有缺失。本文提出基于3DGS的monoVLN框架,通过隐式部分补全模块推断缺失区域特征,并引入不确定性感知的主动感知策略,使智能体在决策不确定时主动选择方向采集视觉信息。该方法在R2R-CE上将单目方法的导航成功率提升8%,仅增加约9%的步数,并在真实机器人平台上验证了部署可行性。

SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts figure
ICCV2025arxiv_html

SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Vision-Language-Navigation Model

VLN导航感知

现有视觉导航任务多按语言粒度孤立研究,直接混合训练会因目标冲突导致性能波动。为此,本文提出状态自适应混合专家模型SAME,将导航统一为语言粒度连续谱下的通用问题:不同于任务级或token级MoE,其依据当前视觉-语言状态动态选择专家,并将MoE作用于视觉查询层。实验表明,单一SAME智能体在七个导航任务上同时取得与专用模型相当甚至更优的性能。

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities figure
ICCV2025arxiv_html

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

Vision-Language-Navigation Model

VLN导航感知

现有视觉语言导航研究多基于理想化仿真,忽视物理本体差异与真实部署挑战。本文提出物理真实平台VLN-PE,首次系统评估了多种以自我为中心视觉感知的导航方法在人形、四足及轮式机器人上的表现。实验发现,现有方法在物理环境中成功率相对下降34%,且对本体视角高度、光照变化敏感;而跨本体联合训练可提升整体适应性,RGB-D融合也更鲁棒。此外,仅在MP3D上训练的模型泛化不足,小规模新场景数据微调即可超越零样本SoTA,提示需重新思考物理与视觉差异对VLN的实际影响。

P3Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction figure
ICCV2025arxiv_html

P3Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction

Vision-Language-Navigation Model

VLN规划/推理导航感知

该工作针对现有导航模型缺乏可解释的规划推理且长期探索中历史观察冗余严重的问题,提出RoboTron-Nav框架:通过多任务协作联合训练导航与具身问答任务,显式整合感知、规划与预测能力;并设计自适应3D感知历史采样策略,依据空间相邻性与视角多样性压缩冗余观察。在SPOC基准的ObjectNav任务中,该方法达到81.1%的成功率,较先前方法绝对提升9%,创下新SOTA。

NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation figure
ICCV2025arxiv_html

NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation

Vision-Language-Navigation Model

VLN导航感知

针对目标导向视觉语言导航中现有方法仅依赖历史信息、忽视动作长期后果的问题,本文提出NavQ。其核心洞察是将Q-learning引入潜空间,通过大规模无标注轨迹自监督训练Q-model,使模型单步输出候选动作的累积未来表征(Q-feature),从而避免多步展开的耗时与失真;进而利用跨模态未来编码器融合Q-feature与导航指令,生成面向目标的启发式分数,并与基于历史观测的分数结合,执行类A*的前瞻性搜索。在主流目标导向VLN数据集上的实验验证了该方法的有效性。

NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments figure
ICCV2025arxiv_html

NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments

Vision-Language-Navigation Model

VLN世界模型导航感知

针对连续环境视觉语言导航中现有方法难以泛化到新环境且缺乏在线适应能力的问题,本文提出自演化世界模型框架NavMorph。该框架通过为VLN定制的循环状态空间模型显式建模连续潜在动作-状态转移,并引入上下文演化记忆机制,使智能体在在线交互中持续更新潜在表示、积累场景上下文以支持前瞻规划与动态决策。实验表明,NavMorph在主流VLN-CE基准上显著提升了多个领先模型的性能。

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation figure
ICCV2025arxiv_html

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

Vision-Language-Navigation Model

VLN导航3D 视觉感知加速/部署

现有3D视觉语言模型多依赖静态重建,缺乏主动探索能力,而强化学习方法又存在样本效率低和泛化差的问题。本文提出MTU3D框架,通过在线查询表示直接从RGB-D流构建空间记忆,避免显式3D重建,并将未探索区域建模为前沿查询,实现视觉grounding与探索的联合优化。此外,研究通过百万级模拟与真实轨迹进行视觉-语言-探索预训练。在多个具身导航与问答基准上,MTU3D将成功率较现有最优方法提升最高达23%,并在真实机器人上验证了有效性。

Harnessing Input-adaptive Inference for Efficient VLN figure
ICCV2025arxiv_html

Harnessing Input-adaptive Inference for Efficient VLN

Vision-Language-Navigation Model

VLN导航感知加速/部署

该研究针对视觉语言导航(VLN)模型计算成本高昂、难以部署于资源受限机器人的问题,提出了一种输入自适应推理方法。作者发现现有自适应机制在VLN中失效,因此从时空局部性出发,设计了选择性处理全景视图、基于重要性的自适应早期退出阈值,以及基于局部敏感哈希的视图缓存机制。在7个基准上对3种智能体的测试表明,该方法在标准场景下减少60%计算量且成功率平均仅降11.7%,在连续环境下更实现86%的计算节省与8%的性能下降,显著优于基线。

Embodied Navigation with Auxiliary Task of Action Description Prediction figure
ICCV2025arxiv_html

Embodied Navigation with Auxiliary Task of Action Description Prediction

Vision-Language-Navigation Model

VLN导航感知

针对室内多模态导航中决策系统日益黑箱化且可解释性与性能存在权衡的问题,本文提出DescRL框架,将动作描述预测作为强化学习的辅助任务。为克服RL缺乏动作描述真值的困难,作者利用预训练视觉语言模型通过知识蒸馏生成伪标签,监督策略网络同时学习导航决策与对自身过去或未来动作的自然语言描述。在物体目标导航、视觉语言导航及语义音视频导航等多种任务上的综合实验表明,该方法在提升可解释性的同时不损害导航性能,并在极具挑战性的语义音视频导航任务上取得当前最优表现。

3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation figure
ICCV2025temporary_pdf

3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation

Vision-Language-Navigation Model

VLN导航3D 视觉感知

针对视觉语言导航中现有场景表示常忽略复杂三维几何与开放语义、导致泛化受限的问题,本文提出三维高斯地图方法。该方法以稀疏伪激光雷达点云初始化可微三维高斯来在线构建局部场景地图,并通过开放集语义分组将高斯按实例或类别聚合,实现几何与语义的统一表征;进而基于多粒度动作预测融合场景布局、视角与实例级线索进行导航决策。在R2R、R4R和REVERIE的unseen验证集上,SR/SPL、SDTW及RGS/RGSPL等指标均获得2%–3%的提升。

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers figure
ICCV2025arxiv_html

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

Vision-Language-Action Model

VLA感知加速/部署

本文针对VLA模型中动作tokenizer数据规模受限的问题,提出基于卷积残差VQ-VAE的动作tokenizer,并采用渐进式策略先在真实数据上训练再融入仿真数据,将数据量扩大逾百倍。核心洞察是动作轨迹的仿真到真实域差距极小,因此合成数据可有效提升性能而不损害真实世界表现。实验表明,随着合成数据增加,下游任务成功率线性提升,在真实机器人长程任务中成功率提高达30%,同时显著加速推理并生成更平滑的动作输出。

Towards Long-Horizon Vision-Language-Action System: Reasoning, Acting and Memory figure
ICCV2025temporary_pdf

Towards Long-Horizon Vision-Language-Action System: Reasoning, Acting and Memory

Vision-Language-Action Model

VLA规划/推理感知

现有视觉-语言-动作模型多局限于短程单技能任务,难以应对真实场景中的长程多技能需求。为此,本文提出分层式具身智能系统MindExplore,其核心洞察在于通过迭代对齐任务规划与动作执行的知识域,将推理、动作与记忆机制统一为专家级分层架构:推理层利用任务特定的思维链分解长程指令,动作层基于混合策略专家与轻量多模态扩散策略融合RGB、深度及LiDAR信息自适应生成闭环动作序列,记忆机制则实现两层间的状态反馈与实时重规划。实验表明,该系统在30 FPS下于高度动态的非结构化沙地环境中成功率达到现有方法的3.01倍,并通过了24项复杂地形真实世界任务验证。

SD2Actor: Continuous State Decomposition via Diffusion Embeddings for Robotic Manipulation figure
ICCV2025temporary_pdf

SD2Actor: Continuous State Decomposition via Diffusion Embeddings for Robotic Manipulation

Vision-Language-Action Model

VLA策略学习感知

现有语言条件机器人操作多聚焦离散状态,难以处理连续状态(如“打开35%”)的精确映射与泛化。SD2Actor提出一种零样本状态分解框架:利用LLM将指令中的新状态分解为若干已学基础状态,并通过其嵌入的线性组合构造新状态特征,以正交化损失保障插值有效性,再作为条件引导扩散策略生成精确动作。该方法在ARNOLD基准上优于现有方法,并能在少量示教下泛化至真实世界连续操作任务。

PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation figure
ICCV2025arxiv_html

PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation

Vision-Language-Action Model

VLA感知

针对机器人操作中高层语义与低层几何特征割裂、现有方法依赖人工标注且自动检测缺乏验证的问题,本文提出闭环框架PASG。该框架融合视觉基础模型与几何拓扑分析自动提取关键点、方向及主轴等交互基元,通过VLM实现动态语义锚定与自校正闭环,将几何基元与功能可供性分层耦合。实验表明,PASG在多样操作任务中性能与人工标注相当,其微调的Qwen2.5VL-PA在Robocasa-PA基准上达77.8%准确率,绝对提升33.9%。

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos figure
ICCV2025arxiv_html

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

Vision-Language-Action Model

VLA视频感知

针对机器人动作标注昂贵而网络视频丰富的矛盾,本文提出将相邻帧间的视觉动态压缩为离散 Latent Motion Token,构建一种与硬件无关的“运动语言”,并通过 Moto-GPT 自回归预训练捕获通用运动先验。作者进一步设计联合微调策略,在运动 token 预测与低层动作输出间建立桥梁,实现视频知识到真实机器人控制的有效迁移。实验表明,该 token 具备可解释性与跨本体泛化能力,微调后的策略在 SIMPLER 和 CALVIN 基准上展现出优异的样本效率与操作性能,尤其在有限数据下优势显著。

FedVLA: Federated Vision-Language-Action Learning with Dual Gating Mixture-of-Experts for Robotic Manipulation figure
ICCV2025ar5iv_html

FedVLA: Federated Vision-Language-Action Learning with Dual Gating Mixture-of-Experts for Robotic Manipulation

Vision-Language-Action Model

VLA感知

针对VLA模型训练依赖用户私有数据带来的隐私泄露风险,本文提出首个联邦视觉-语言-动作学习框架FedVLA,通过面向指令的场景解析机制增强任务感知特征提取,并设计双重门控混合专家模块使token与专家双向自适应决定激活以提升计算效率,同时引入基于专家相似度的专家驱动聚合策略实现跨客户端语义对齐知识融合。实验表明,该框架在模拟与真实机器人环境中均能达到接近集中式训练的任务成功率,并有效保护数据隐私。

Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics figure
ICCV2025ar5iv_html

Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics

Vision-Language-Action Model

VLA感知

该研究针对视觉-语言-动作(VLA)模型在机器人系统中的安全性空白,系统评估了其对抗鲁棒性。研究指出,机器人动作的物理动力学约束与时间序列依赖性使传统攻击难以生效,据此提出了面向空间与功能特性的攻击目标:一种无目标的位置感知目标以破坏动作稳定性,以及一种有目标的轨迹操纵目标。通过设计可在摄像头视野内放置的对抗性彩色补丁,该方法在数字与物理环境中均能有效攻击。实验显示,模拟任务成功率最高可降至零,物理环境失败率也显著攀升,暴露了VLA架构在真实部署前的关键安全缺陷。

Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding figure
ICCV2025temporary_pdf

Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding

Vision-Language-Action Model

VLA视频感知

现有端到端多模态模型在融合长视频与具身传感信息时面临计算成本高、动态场景理解不足的问题。本文提出的Embodied VideoAgent通过整合第一人称视频与深度图、相机位姿构建持久化物体记忆,并设计基于VLM的自动更新机制以应对动作带来的状态变化。在Ego4D-VQ3D、OpenEQA和EnvQA上的实验表明,该方法分别取得4.9%、5.8%与11.7%的性能提升,并在机器人操作等具身任务中展现了应用潜力。

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy figure
ICCV2025arxiv_html

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Vision-Language-Action Model

VLA策略学习感知

现有通用视觉-语言-动作模型通常依赖紧凑动作头输出离散或连续动作,难以适配跨本体数据中异构的动作空间与多视角观测。Dita将扩散去噪直接融入Transformer,通过上下文条件机制让动作去噪与历史视觉token细粒度对齐,显式建模动作微差与环境变化。该轻量框架在多项仿真基准上达到领先或可比性能,并仅凭第三人称相机输入和10条真实样本微调即可部署复杂长程任务。

CoA-VLA: Improving Vision-Language-Action Models via Visual-Text Chain-of-Affordance figure
ICCV2025arxiv_html

CoA-VLA: Improving Vision-Language-Action Models via Visual-Text Chain-of-Affordance

Vision-Language-Action Model

VLA感知

现有视觉-语言-动作(VLA)模型往往依赖外部大模型进行高层规划,自身难以形成面向低层控制的隐式推理。本文提出CoA-VLA,受O1模型链式推理启发,将“思维链”思想落地为机器人可执行的affordance推理链,依次明确物体、抓取部位、放置空间与无碰撞运动路径四类affordance,并以视觉-文本双模态格式将其注入基于DiffusionVLA的策略网络。在LIBERO仿真与七项真实机器人长程任务上的实验表明,该方法的成功率优于OpenVLA与Octo等前沿模型,且对未见物体位姿、自由空间识别及动态避障具有显著泛化能力。

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation figure
ICCV2025arxiv_html

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

Vision-Language-Action Model

VLA感知

现有机器人操作方法在空间可供性推理上不足,难以完成擦白板、堆叠等需理解"何处接触、如何运动"的复杂任务。本文提出分层可供性感知扩散模型A0,将操控解耦为高层可供性理解与低层动作执行,并学习一种本体无关的以物体为中心的可供性表示,仅通过预测接触点与轨迹实现跨平台迁移。模型基于百万级接触点预训练,并引入位置偏移注意力与空间信息聚合层以增强运动感知。实验表明,A0在Franka和Kinova等平台上的平均成功率分别达62.50%与53.75%,在轨迹跟随类任务中优于现有基线。

iManip: Skill-Incremental Learning for Robotic Manipulation figure
ICCV2025arxiv_html

iManip: Skill-Incremental Learning for Robotic Manipulation

Policy

策略学习

现有机器人操作研究多聚焦单次任务性能,却鲜有探讨如何让机器人增量地习得新技能。本文发现,传统增量方法因忽视操作任务的时间连贯性与动作复杂性,存在严重灾难性遗忘。为此,作者提出iManip框架,通过时序关键帧回放维护旧技能完整性,并设计可扩展PerceiverIO,以新增动作提示与权重适应新动作基元且冻结已学参数。实验表明,该框架在基于RLBench的10技能增量环境中平均较基线提升9.4%,并在模拟与真实机器人实验中验证了有效性与轻量微调优势。

Wavelet Policy: Lifting Scheme for Policy Learning in Long-Horizon Tasks figure
ICCV2025arxiv_html

Wavelet Policy: Lifting Scheme for Policy Learning in Long-Horizon Tasks

Policy

策略学习

针对具身智能中长程任务面临的误差累积、多模态动作分布与高精度操作等挑战,本文从信号处理视角出发,提出基于可学习提升方案的小波策略网络。该方法将长程动作与观测序列进行多尺度小波分解,在低频成分中捕捉全局动作趋势以维持长期一致性,并通过逐步添加高频细节实现从粗到细的精确动作生成。实验涵盖机器人操作、自动驾驶及多机协作等五个复杂场景,结果表明该方法在长程任务中的精度与可靠性优于或可比于现有基线。

Spatial-Temporal Aware Visuomotor Diffusion Policy Learning figure
ICCV2025arxiv_html

Spatial-Temporal Aware Visuomotor Diffusion Policy Learning

Policy

3D 视觉策略学习

现有视觉模仿学习多依赖静态轨迹克隆,难以捕捉三维空间结构与四维时空动态。本文提出的4D Diffusion Policy(DP4)引入动态高斯世界模型,从单视角RGB-D观测重建当前三维场景并预测未来状态,将时空表征注入扩散策略以指导轨迹生成。在17项模拟任务(173个变体)及3项真实机器人任务中,DP4显著优于基线,Adroit与DexArt成功率分别提升16.4%和14%,真实任务提升8.6%。

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework figure
ICCV2025arxiv_html

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework

Policy

策略学习灵巧操作

现有双臂操作多采用集成控制模型,强制双臂早期信息交互以同时预测动作,却忽视了其中存在大量无需显式合作的非协调任务。本文提出解耦交互框架:为每只手臂分配独立模型以强化非协调任务学习,并引入基于自身状态自适应加权的选择性交互模块来提升协调任务表现。在RoboTwin数据集上,该框架较SOTA提升23.5%,且仅用1/6模型尺寸即可带来16.5%的性能增益,同时可无缝嵌入现有方法并扩展至多智能体操作。

Learning Precise Affordances from Egocentric Videos for Robotic Manipulation figure
ICCV2025arxiv_html

Learning Precise Affordances from Egocentric Videos for Robotic Manipulation

Policy

策略学习视频

现有从人类视频学习affordance的方法多聚焦于可抓取区域且输出粗粒度热图,难以满足精细操作需求。本文提出自动化流程,从第一人称交互视频中联合提取可抓取与功能affordance的精确分割掩码;并设计Geometry-guided Affordance Transformer,通过注入深度几何先验提升表征能力,进而结合抓取生成模型构建Aff-Grasp框架。实验表明,该方法在视觉评估中mIoU较最优方法提升15.9%,在真实机器人任务中affordance预测与抓取成功率分别达到95.5%和77.1%。

EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow figure
ICCV2025arxiv_html

EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow

Policy

策略学习视频

现有基于物体中心光流的方法受限于刚性假设与完整可见性,难以处理可变形物体、遮挡及旋转按压等非位移操作。EC-Flow将预测重心转向机器人本体中心光流,借助运动学先验与目标图像对齐,从动作未标注的视频中学习操作策略,并基于URDF将光流分解为各关节变换以生成可执行动作。在仿真与真实世界实验中,该方法在遮挡、可变形物体和非位移任务上较此前最优方法的成功率分别提升62%、45%和80%。

Dense Policy: Bidirectional Autoregressive Learning of Actions figure
ICCV2025arxiv_html

Dense Policy: Bidirectional Autoregressive Learning of Actions

Policy

策略学习

针对自回归策略在机器人动作预测中长期依赖捕捉不足、性能逊于整体生成式方法的局限,本文提出Dense Policy,以双向扩展学习建立新的动作预测范式。该模型基于轻量级纯编码器架构,从初始单帧动作出发,通过迭代双向上采样与跨注意力细化,以对数时间复杂度由粗到精地生成连续动作序列,无需动作离散化。在涵盖2D与3D场景的多个模拟基准及真实机器人任务中,该方法均取得了优于现有整体生成式策略的表现。

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation figure
ICCV2025arxiv_html

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation

Policy

策略学习灵巧操作

针对双手操作数据采集成本高、策略泛化难的问题,本文提出AnyBimanual,一种将预训练单手策略迁移到双手操作的即插即用框架。其核心是通过技能管理器动态调度从单手策略中挖掘的可共享技能基元,并结合任务导向补偿表达双手指令;同时引入视觉对齐器生成空间软掩码,缓解双臂与单臂场景间的观察分布差异。在RLBench2的12项模拟任务和9项真实任务中,该方法将成功率分别提升17.33%与84.62%,显著增强了双手操作的泛化性与实用性。

4D Visual Pre-training for Robot Learning figure
ICCV2025arxiv_html

4D Visual Pre-training for Robot Learning

Policy

策略学习

针对现有机器人视觉预训练多基于2D图像而忽略3D本质、且大规模3D数据稀缺的问题,本文提出FVP框架,将预训练目标构建为下一帧点云预测任务,以条件扩散模型建模并融入历史观测与动作信息,作为即插即用模块适配多种3D编码器。实验表明,FVP在12项真实任务中将DP3平均成功率提升28%,并在仿真中取得SOTA;进一步应用于RDT-1B VLA模型,显著增强了空间理解与任务泛化能力。

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding figure
ICCV2025arxiv_html

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding

Perception

3D 视觉感知

现有3D占用预测多聚焦离线局部感知,难以支持具身智能体在线探索未知室内场景并建立全局理解。本文提出EmbodiedOcc框架,以3D语义高斯构建显式全局记忆,通过可变形交叉注意力逐步细化观测区域的高斯分布,并以高斯-体素溅射生成全局占用预测。在EmbodiedOcc-ScanNet基准上,该方法大幅优于现有方案,实现了准确高效的在线具身场景理解。

Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions figure
ICCV2025arxiv_html

Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions

Perception

3D 视觉感知

现有图像描述模型在机器人主动探索时,常因视角变化与遮挡导致对同一物体的描述不一致。本文提出一种三阶段自监督框架:智能体在环境中导航并积累带噪声的图像-描述对;通过大语言模型基于频次共识蒸馏出空间一致的伪描述标签;再以对比学习微调模型,使同物体多视角表征聚拢。实验表明,所提策略能主动挖掘高分歧样本,其伪描述语义相似度优于现有方法,微调后描述准确性与一致性均显著提升。

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation figure
ICCV2025arxiv_html

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

Hierarchical Planning

规划/推理

现有方法在认知与执行间顾此失彼:数据驱动策略易受环境变化干扰,大模型缺乏物理直觉而规划失准。RoBridge提出由高层认知规划器、不变可操作表征与引导式具身智能体构成的层次架构,让VLM输出具有环境不变性的物理直觉符号,再由强化学习智能体转化为底层动作,实现认知与执行各司其职而非相互掣肘。实验表明,该架构在零样本新任务上达到75%成功率,且仅用每任务5个真实样本即实现83%的sim-to-real平均成功率。

CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs figure
ICCV2025arxiv_html

CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs

Hierarchical Planning

规划/推理导航

现有物体目标导航方法多局限于粗粒度的探索-识别二状态或依赖仿真器隐式学习,难以捕捉人类在陌生环境中搜索目标时动态维护细粒度认知状态的能力。为此,本文提出CogNav框架,利用大语言模型的常识推理能力,通过在线构建并动态修正包含场景图、地标图与占用图的异构认知地图,驱动有限状态机在探索到识别等多个细粒度状态间转移。该方法在HM3D、MP3D和RoboTHOR基准上较现有最优方法显著提升导航成功率,并在移动机器人与四足机器人上验证了真实场景有效性。

Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding figure
ICCV2025arxiv_html

Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding

Hierarchical Planning

规划/推理

针对关节物体几何多样、机制复杂导致的跨类别自适应操作难题,本文提出AdaRPG框架。其核心洞察在于利用部件的局部几何相似性提升泛化:通过基础模型分割部件点云并预测部件可供性,引导原语技能执行;同时借助GPT-4o推理隐藏机制并生成高层控制代码。实验在模拟与真实环境中验证了其跨类别泛化能力。

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks figure
ICCV2025arxiv_html

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

Benchmark and Dataset

规划/推理Benchmark/数据集

现有仿真基准难以匹配基础模型时代VLA方法的评测需求,尤其缺乏对常识推理、隐含意图理解与长程规划的考察。为此,作者提出VLABench,涵盖100类任务与2000余种物体,以非模板化的自然语言指令评估策略在语义理解、空间关系、物理规律及知识迁移等维度的综合能力,并配套自动化数据收集框架支持下游微调。实验表明,当前SOTA预训练VLA与基于VLM的工作流均在该基准下面临显著挑战,尚未展现出类似大语言模型的强泛化或涌现能力。

RoboPearls: Editable Video Simulation for Robot Manipulation figure
ICCV2025arxiv_html

RoboPearls: Editable Video Simulation for Robot Manipulation

Benchmark and Dataset

世界模型Benchmark/数据集视频

针对机器人操作数据收集成本高与仿真到现实鸿沟的难题,本文提出基于3D高斯溅射的可编辑视频仿真框架RoboPearls。通过增量语义蒸馏与3D正则化NNFM损失,该框架将演示视频重建为具备时空动态与语义信息的真实感场景,支持物体外观编辑、增删及物理仿真;进一步利用多LLM智能体解析自然语言指令自动完成仿真生成,并以视觉语言模型分析策略缺陷实现闭环优化。实验表明,该方法在RLBench与COLOSSEUM基准上分别将操作成功率提升最高23.0与17.5分,并在真实机器人场景中验证有效。

RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation figure
ICCV2025arxiv_html

RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation

Benchmark and Dataset

Benchmark/数据集

针对多模态大模型在3D空间交互感知不足及机器人数据收集成本高昂的问题,本文提出一体化多模态操作模型RoboTron-Mani与综合数据集RoboData。模型通过相机参数与占据监督增强3D感知,并设计模态隔离掩码与多模态解码器改善模态融合;RoboData首次统一多视角图像、深度、相机参数与动作空间,整合九个公开数据集。该通用策略在CALVIN上将平均序列长度从1.7提升至3.5,支持跨本体泛化与多数据集同时评测,在仿真和真实场景中均取得领先性能。

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints figure
ICCV2025temporary_pdf

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Benchmark and Dataset

Benchmark/数据集

针对多机器人协作中训练数据自动生成困难的问题,本文提出组合约束概念,将逻辑、空间与时序约束融入RoboFactory框架,建立了首个多智能体具身操作基准。消融实验表明,三类约束协同可大幅提升数据生成成功率并缩短交互步数;在多智能体模仿学习中,独立策略配合局部视角显著优于共享策略与全局视角。此外,随着智能体数量增至四个,扩散策略成功率由49%骤降至10%,揭示了多机协作规模化仍面临的严峻挑战。

RoboAnnotatorX: A Comprehensive and Universal Annotation Framework for Accurate Understanding of Long-horizon Robot Demonstration figure
ICCV2025temporary_pdf

RoboAnnotatorX: A Comprehensive and Universal Annotation Framework for Accurate Understanding of Long-horizon Robot Demonstration

Benchmark and Dataset

Benchmark/数据集

现有机器人演示数据集因长程标注稀疏、粒度不一而难以充分发挥价值。本文提出RoboAnnotatorX,以多尺度token高效编码器联合建模场景细节与时序动态,并构建跨真实与模拟场景的RoboX-VQA数据集(50万片段、100万QA对),通过课程式三阶段训练提升MLLM的机器人领域理解能力。实验表明,该框架在标注质量与跨环境泛化性上显著优于现有方法,有效释放了长程演示数据的潜力。

RobAVA: A Large-scale Dataset and Baseline Towards Video based Robotic Arm Action Understanding figure
ICCV2025temporary_pdf

RobAVA: A Large-scale Dataset and Baseline Towards Video based Robotic Arm Action Understanding

Benchmark and Dataset

Benchmark/数据集视频

由于现有大规模数据集的匮乏制约了基于视频的机械臂动作理解,本文构建了包含约4万段视频序列的RobAVA数据集,覆盖模拟与真实场景中的基础动作组合、多物体交互以及正常与异常执行实例。作者提出基线方法AGPT-Net,将动作理解重新定义为视频序列与原子属性的对齐任务,并通过引入类别与属性间的联合语义空间约束来增强对异常动作的判别能力。实验表明AGPT-Net在机械臂动作识别上优于主流模型。

MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation figure
ICCV2025arxiv_html

MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation

Benchmark and Dataset

导航Benchmark/数据集

现有导航算法在移动操作中往往只追求接近目标,却忽略了为后续机械臂预留可达、无遮挡的最优终端站位,造成“最后一公里”断层。为此,本文构建大规模基准 MoMa-Kitchen,包含 10 万余条带可供性标注的厨房场景样本,通过自动化仿真记录多种机械臂与底盘在杂乱环境中的成功操作位置。进而,作者提出轻量级基线 NavAff,基于第一视角 RGB-D 点云预测地面最优导航站位,实验表明其能有效提升操作成功率,并对不同臂型、平台高度及真实场景具备良好泛化性。

HUMOTO: A 4D Dataset of Mocap Human Object Interactions figure
ICCV2025arxiv_html

HUMOTO: A 4D Dataset of Mocap Human Object Interactions

Benchmark and Dataset

Benchmark/数据集

针对现有4D人与物体交互数据集多局限于单物体交互或缺乏手部细节的问题,本文提出HUMOTO数据集。其核心创新在于采用场景驱动的LLM脚本生成多样化日常任务,并结合电磁场动捕服、手套与双Kinect的多模态采集方案,在严重遮挡下仍保留全身及精细手部运动。数据集包含735段共7875秒的真实表演序列,涵盖63个精确建模物体及72个活动部件,经专业艺术家清洗验证,并提供了评估HOI数据质量的新指标与基准。

DexH2R: A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover figure
ICCV2025arxiv_html

DexH2R: A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover

Benchmark and Dataset

灵巧操作Benchmark/数据集抓取

现有面向灵巧手的人机交接研究受限于真实动态数据匮乏,且合成数据与真实机器人运动模式差异显著。本文提出首个针对五指灵巧手的真实世界人机交接数据集DexH2R,基于遥操作采集4282组试验并涵盖多模态感知与精细标注;进而设计三阶段方案DynamicGrasp,包含融合物理约束的抓取姿态预训练生成、基于自回归与扩散策略的接近运动生成、以及目标姿态对齐。实验在安全性与可靠性等维度验证了该方法的有效性,为动态灵巧交接建立了基准。

Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering figure
ICCV2025arxiv_html

Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering

Benchmark and Dataset

Benchmark/数据集

针对现有具身问答数据集易引入先验偏差、评估指标难以衡量探索忠实度,且传统前沿探索在复杂场景中效率低下等问题,本文构建面向探索感知的EXPRESS-Bench基准,包含777条真实场景探索轨迹与2044个问题-轨迹对,并提出混合探索模型Fine-EQA,通过结合全局前沿探索与目标导向导航实现对任务相关区域的细粒度考察。此外,作者提出探索-答案一致性(EAC)指标,通过度量答案依据与探索过程的匹配程度来检测幻觉。实验表明,该基准与模型在提升具身探索与问答推理方面优于现有方法。

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control figure
ICCV2025arxiv_html

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

Accelerating and Deploying

策略学习加速/部署

针对模仿学习策略部署开销过高的问题,本文提出显著性感知量化模仿学习SQIL。核心洞察是量化误差并非均匀累积,而是在少量关键状态(如抓取释放物体)导致动作大幅偏离并引发失败。SQIL通过策略动作敏感度识别这些状态,在量化感知训练中对其实施加权损失的动作蒸馏。实验表明,4-bit量化的OpenVLA在LIBERO上恢复全精度成功率,于边缘GPU实现2.5倍加速与能耗节省,并在自动驾驶及物理模拟等跨域任务中验证了泛化性。

On-Device Diffusion Transformer Policy for Efficient Robot Manipulation figure
ICCV2025arxiv_html

On-Device Diffusion Transformer Policy for Efficient Robot Manipulation

Accelerating and Deploying

策略学习加速/部署

Diffusion策略虽在机器人模仿学习中表现优异,但其高昂的计算开销与内存占用阻碍了其在移动端等受限平台上的实时部署。本文提出LightDP框架,通过统一化的剪枝与重训练流程压缩去噪网络,并显式优化剪枝后模型的可恢复性,同时结合一致性蒸馏显著削减推理步数。在PushT、Robomimic、CALVIN、LIBERO等基准数据集及真实机器人实验中,LightDP在移动设备上实现了实时动作预测,且保持了与先进Diffusion策略相当的性能。

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation figure
ICCV2025arxiv_html

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

Accelerating and Deploying

导航感知加速/部署

针对现有视觉语言导航方法因依赖Transformer并叠加外部知识而导致计算成本高、长指令性能下降的问题,本文指出直接应用状态空间模型会面临空间关系建模与输入选择的双重挑战,进而提出COSMO混合架构:通过Round Selective Scan在单次扫描中捕获视觉token间的空间关系,并设计Cross-modal Selective State Space Module实现跨模态交互与选择,先以选择性状态空间模块过滤记忆,再辅以Transformer完成精确动作决策。在REVERIE、R2R及R2R-CE基准上的实验表明,该方法在大幅降低参数与计算开销的同时取得了有竞争力的导航性能。

CARP: Coarse-to-Fine Autoregressive Prediction for Visuomotor Policy Learning figure
ICCV2025arxiv_html

CARP: Coarse-to-Fine Autoregressive Prediction for Visuomotor Policy Learning

Accelerating and Deploying

策略学习加速/部署

现有视觉运动策略在精度与效率之间存在权衡:扩散模型精度高但推理慢,自回归模型快却缺乏全局一致性。为此,CARP将动作生成重新定义为从粗到细的next-scale自回归过程:先用动作自编码器提取多尺度表征,再以GPT风格Transformer由粗至细逐步细化动作序列。实验表明,该方法在仿真与真实机器人任务中取得了与扩散策略相当甚至更优的成功率,同时将推理速度提升10倍,缓解了高精度与实时性之间的矛盾。

UniAct: Universal Actions For Enhanced Embodied Foundation Models figure
CVPR2025arxiv_html

UniAct: Universal Actions For Enhanced Embodied Foundation Models

Vision-Language-Action Models

VLA感知

针对异构机器人数据因本体差异与控制接口不同导致的动作空间冲突问题,本文提出UniAct框架,通过共享视觉语言模型学习向量量化的通用动作空间,将跨平台的原子行为抽象为统一编码,再经轻量化异构解码器映射为特定机器人的可执行指令。实验表明,仅0.5B参数的UniAct即可在真实与模拟机器人任务上超越参数量14倍以上的SOTA模型,显著提升了跨本体泛化与新机器人快速适应能力。

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters figure
CVPR2025arxiv_html

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Vision-Language-Action Models

VLA3D 视觉感知

当前3D角色交互多采用LLM-Agent模块化方案,存在信息损耗与高延迟问题。本文受机器人VLA模型启发,将数字人视为虚拟人形具身智能体,提出端到端Social VLA架构SOLAMI,直接以用户语音和动作作为输入生成角色的语音与动作响应,并构建了自动合成的多模态交互数据集SynMSI以解决数据稀缺难题。定量实验与VR用户研究显示,该框架相比模块化方法延迟更低,能生成更精准、自然的社交互动反馈。

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction figure
CVPR2025arxiv_html

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

Vision-Language-Action Models

VLA感知

针对多模态大语言模型难以将高层语义反思转化为细粒度机器人动作修正的问题,本文提出Phoenix框架,以“运动指令”为桥梁连接语义层与动作层。该框架通过双过程运动调整机制(预测与修正模块)生成运动指令,并设计运动条件扩散策略将其转化为高频精确动作,同时结合终身学习持续自我提升。实验在RoboMimic模拟与真实场景中验证了其在接触丰富任务上的修正精度、泛化能力与鲁棒性。

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints figure
CVPR2025arxiv_html

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Vision-Language-Action Models

VLA3D 视觉感知

现有视觉语言模型虽擅长高层推理,却缺乏精细三维空间理解,而将其微调为视觉语言动作模型又受限于高昂的数据成本与泛化瓶颈。本文提出一种以物体为中心的交互基元表示,在由功能可供性定义的物体规范空间中描述交互点与方向,将大模型的常识推理转化为可执行的三维空间约束,并构建了无需微调VLM的规划与执行双闭环开放词汇操作系统。实验表明,该方法在多样机器人操作任务上实现了显著的零样本泛化,并展现出自动化大规模仿真数据生成的潜力。

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation figure
CVPR2025arxiv_html

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

Vision-Language-Action Models

VLA感知

现有视觉-语言-动作(VLA)模型虽在固定基座操作任务中展现出强泛化能力,但难以直接应用于需要移动基座与机械臂协同的移动操作。为此,本文提出MoManipVLA框架,通过迁移预训练的固定基座VLA模型来生成高泛化性的末端执行器路径点,并设计包含可达性、平滑性与避障的移动基座与机械臂运动规划目标,进而通过双层轨迹优化(上层优化基座路径点以扩展机械臂操作空间,下层优化末端轨迹)生成物理可行的全身运动。实验表明,该方法在OVMM及真实场景中较现有最优方法成功率提升4.2%,且仅需50条专家轨迹即可部署于真实世界。

Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation figure
CVPR2025arxiv_html

Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation

Vision-Language-Action Models

VLA感知

现有视觉预训练模型利用人类活动数据,但受限于人与机器人的形态差异导致的领域鸿沟,难以有效迁移到下游机器人操作任务。本文提出利用少量现成的人-机器人配对演示视频作为桥梁,通过参数高效的适配器模块与人-机器人对比对齐损失,在保持预训练模型通用性的同时缩小领域差距。实验覆盖两个模拟基准的20项任务及5项真实任务,结果表明该方法在单任务与语言条件多任务设置下均能提升下游策略表现,但具体量化增益因文本截断未充分说明。

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models figure
CVPR2025arxiv_html

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Vision-Language-Action Models

VLA规划/推理感知

现有视觉-语言-动作模型多为端到端直接映射,缺乏对复杂操作任务至关重要的中间推理与规划能力。本文提出CoT-VLA,在动作生成前显式引入视觉思维链推理:先自回归生成像素空间的子目标图像作为中间规划步骤,再基于当前观测与生成子目标预测短动作序列。该框架还能利用无动作标注的大规模视频数据预训练,以增强视觉推理。实验表明,该7B模型在真实机器人任务上较先前最优VLA提升17%,仿真任务提升6%。

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning figure
CVPR2025arxiv_html

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Vision-Language-Action Models

VLA感知数据

针对预训练视觉模型在机器人学习中的配置问题,本文发现DINO与iBOT在控制和感知任务上均优于MAE,但在非物体中心数据上因难以习得物体性而出现性能衰减。据此提出SlotMIM,通过语义瓶颈与跨视图一致性约束将非物体中心数据分解为物体级槽表征,在百万级数据扩展中避免了逆扩展现象,并在操作、导航及分割检测等多任务上展现出更优的数据效率与可扩展性。

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation figure
CVPR2025arxiv_html

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation

Video

灵巧操作视频

针对现有第一人称手物交互数据集视角不一致、指令对齐差导致生成视频质量低的问题,本文构建大规模数据集TASTE-Rob,包含100,856个视角固定且指令精确对齐的完整交互视频。基于此微调的视频扩散模型虽能生成合理交互,但手部抓取姿态仍不稳定。为此,作者提出三阶段姿态精炼框架:先粗略生成视频,再用运动扩散模型修正手部姿态序列,最后以修正姿态为条件重新生成。实验表明,该数据集与所提方法显著提升了生成视频的真实度与机器人操作的泛化性能。

GraphMimic: Graph-to-Graphs Generative Modeling from Videos for Policy Learning figure
CVPR2025temporary_pdf

GraphMimic: Graph-to-Graphs Generative Modeling from Videos for Policy Learning

Video

策略学习视频

针对机器人模仿学习中标注数据成本高昂的瓶颈,GraphMimic提出将视频预训练形式化为图到图生成建模的新范式。该方法将视频帧抽象为包含物体与视觉动作顶点的图结构,通过层次化图生成网络建模物体属性、内部结构与空间关系,从而生成未来图来引导策略学习。实验表明,该方法仅使用20%的标注数据即可取得优异性能,在仿真和真实世界任务中分别比SOTA提升超过17%和23%,跨本体迁移提升超33%。

Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions figure
CVPR2025arxiv_html

Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions

Sim2real and Real2sim

Sim2Real

针对可微分机器人渲染在梯度优化时易与静态环境或机器人自身发生碰撞的问题,本文提出将碰撞检测建模为姿态分类任务,并通过Eikonal正则化使分类器在高维关节空间中具备梯度一致的SDF特性,同时引入层次化关节编码以捕捉机械臂的依赖结构。该方法可与现有可微分渲染框架无缝结合,在姿态优化与轨迹生成中实现了无碰撞的机器人动作,并完成了模拟到真实的部署验证。

AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster Registration figure
CVPR2025arxiv_html

AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster Registration

Sim2real and Real2sim

3D 视觉Sim2Real

AutoURDF 旨在解决机器人 URDF 模型构建依赖大量人工或额外传感器数据的问题。该工作提出一种无监督方法,仅利用时序点云帧,通过聚类点云配准跟踪 6-DoF 变换,进而从运动模式中层级式完成运动部件分割、机体拓扑推断与关节参数估计,最终生成可直接导入现有仿真器的标准 URDF 文件。实验表明,该方法在合成与真实机器人扫描数据上的配准和拓扑估计精度均优于已有方法,为自动化机器人建模提供了可扩展方案。

Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning figure
CVPR2025arxiv_html

Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning

Policies

策略学习

Tra-MoE 针对机器人轨迹预测模型如何利用大规模域外无动作视频数据的问题,指出简单混合域内与域外数据会导致优化冲突甚至域内性能下降。为此,作者提出基于 Top-1 稀疏门控的 MoE 架构,在保持计算开销不变的前提下,通过参数的专业化与协作有效吸收跨环境、跨物体、跨技能甚至跨具身的数据;并设计自适应策略条件机制,将预测轨迹编码为可与图像观测显式对齐的二维掩码以灵活引导策略。实验表明,Tra-MoE 在仿真与真实场景中均优于密集基线,即使将后者参数量扩充至同等规模也无法匹敌,验证了稀疏架构在利用域外数据上的显著优势。

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training figure
CVPR2025arxiv_html

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

Policies

感知

针对现有视觉机器人位姿估计方法在关节角未知及遮挡场景下表现不佳的问题,本文提出RoboPEPP框架。其核心创新在于引入基于关节掩码的嵌入预测预训练策略,通过让编码器-预测器网络根据未掩码区域推断被掩码关节的嵌入,显式地将机器人物理模型知识注入编码器。在此基础上,结合关节角与关键点预测网络进行端到端微调,并在训练时施加随机掩码以增强遮挡鲁棒性。实验表明,该方法在多个数据集上同时实现了最优的位姿与关节角估计精度,对遮挡的敏感度最低且推理速度最快。

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation figure
CVPR2025arxiv_html

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

Policies

3D 视觉策略学习

现有3D操作策略常因缺乏大规模机器人3D数据或在模态转换中损失空间几何信息而受限。Lift3D提出两阶段框架以提升2D基础模型:先利用任务感知的掩码自编码器对任务相关affordance区域掩码并重建深度,增强隐式3D空间感知;再通过建立3D点云与2D位置编码的映射,使2D模型直接编码点云以构建显式3D表示。在多个仿真基准及30余项真实世界操作中,该方法持续超越现有最优水平,于Meta-World和Adroit分别将平均成功率提升18.2%与21.3%,并具备强泛化能力。

KStar Diffuser: Spatial-Temporal Graph Diffusion Policy with Kinematics Modeling for Bimanual Robotic Manipulation figure
CVPR2025arxiv_html

KStar Diffuser: Spatial-Temporal Graph Diffusion Policy with Kinematics Modeling for Bimanual Robotic Manipulation

Policies

3D 视觉策略学习灵巧操作

现有双臂操作模仿学习多预测末端执行器位姿再经逆运动学求关节角,但易忽略机器人物理结构与运动学约束,导致自碰撞或关节不可行。本文提出KStar Diffuser,通过构建随双臂关节运动变化的动态时空图显式编码机器人结构,并以可微运动学提供关节空间监督,将运动学可行位姿作为条件引导扩散策略去噪。实验表明,该方法在模拟与真实环境中较基线成功率提升逾10%,显著改善了双臂协调操作的物理可行性与可靠性。

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation figure
CVPR2025arxiv_html

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

Policies

3D 视觉

针对现有基于扩散模型的3D模仿学习缺乏语义理解、难以胜任姿态感知操作与跨对象泛化的局限,本文提出G3Flow框架,融合3D生成模型、视觉基础模型与实时姿态跟踪,从单视角输入在线构建物体中心、遮挡鲁棒的动态3D语义流,无需人工标注。在五个仿真任务上的实验表明,该方法在末端约束操作和跨对象泛化中的成功率分别达68.3%与50.1%,显著优于现有基线。

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation figure
CVPR2025temporary_pdf

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

Policies

规划/推理策略学习灵巧操作

现有扩散规划方法在灵巧操作中常产生物体未接触即自行移动的"幽灵状态",且难以适应新目标。本文提出DexHandDiff,以双阶段扩散联合建模手-物状态与动作:先对齐接触关键点,再联合引导接触后的手与物体状态,并引入动力学模型双重引导及大语言模型自动生成的奖励函数。在开门、锤击等接触丰富任务中,该方法对分布外目标的平均成功率达59.2%,显著优于现有方法的29.5%,体现出良好的目标自适应能力。

AffordDP: Generalizable Diffusion Policy with Transferable Affordance figure
CVPR2025arxiv_html

AffordDP: Generalizable Diffusion Policy with Transferable Affordance

Policies

策略学习

现有扩散策略受限于同类别与相似外观,难以泛化至未见物体实例及全新类别。本文提出AffordDP,其核心洞察是将操作先验建模为可迁移的affordance——以3D接触点与接触后轨迹分别捕捉“在何处”与“如何”交互,并借助基础视觉模型与点云配准估计6D变换矩阵,实现域内数据到未知物体的迁移;此外,在扩散采样中引入自适应affordance引导,使生成动作序列逐步逼近目标操作并约束于动作流形。仿真与真实环境实验表明,AffordDP在跨实例与跨类别泛化上均显著优于现有扩散方法。

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics figure
CVPR2025arxiv_html

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

Planning and Reasoning

规划/推理3D 视觉感知

现有视觉语言模型因训练数据缺乏深度空间推理与多参考系理解,在具身机器人任务中表现受限。本文提出RoboSpatial大规模数据集,将1M张第一人称图像与5k个3D扫描配对,围绕空间上下文、兼容性与配置三类任务,从自我、世界、物体三种参考系进行问答标注。实验表明,基于该数据集训练的2D/3D模型在验证集、多个跨域基准及真实机器人操作中性能均优于基线。

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete figure
CVPR2025arxiv_html

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

Planning and Reasoning

规划/推理

现有MLLM在机器人长程操作任务中因缺乏规划、affordance感知与轨迹预测能力而表现受限。为此,作者构建了高质量异构数据集ShareRobot,对任务规划、物体affordance及末端执行器轨迹进行细粒度人工标注;并基于LLaVA架构提出统一模型RoboBrain,通过融合机器人与通用多模态数据、多阶段训练及长视频与高分辨率图像输入,实现从抽象指令到具体动作的能力贯通。实验表明,RoboBrain在RoboVQA、OpenEQA等多个机器人基准上取得最优性能,验证了该数据与框架对增强机器人大脑核心能力的有效性。

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection figure
CVPR2025arxiv_html

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Planning and Reasoning

规划/推理

针对机器人闭环系统中同时实现开集反应式与主动式故障检测的挑战,本文提出Code-as-Monitor框架,将两类检测统一为时空约束满足问题,并通过视觉语言模型生成可执行代码进行实时监测。其核心在于引入约束元素,将相关实体或部件抽象为紧凑几何元语,结合约束感知分割与跟踪实现精准高效的状态验证。实验覆盖三个模拟器及真实场景,结果表明该方法在强干扰下显著提升了任务成功率并缩短了执行时间,且能与开环策略结合构建闭环系统以应对复杂长程任务。

Let Humanoid Robots Go Hiking! Integrative Skill Development over Complex Trails figure
CVPR2025arxiv_html

Let Humanoid Robots Go Hiking! Integrative Skill Development over Complex Trails

Humanoid

人形机器人

现有研究多将人形机器人的运动控制与高层导航割裂,难以应对复杂徒步场景所需的感知-决策-运动整合。本文提出LEGO-H框架,通过TC-ViT在分层强化学习中预测时序局部导航目标来引导底层运动,并设计HLM分层隐空间匹配机制实现特权策略到纯视觉策略的平滑迁移。实验表明,该方法无需预定义运动模式即可在多样化复杂地形中使不同构型的人形机器人自主完成徒步,并涌现出适应性的运动技能与路径探索行为。

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping figure
CVPR2025arxiv_html

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

Grasp

抓取

现有抓取方法常因缺乏显式几何建模而导致碰撞。ZeroGrasp提出近实时单视图RGB-D联合重建与6D抓取预测框架,核心洞察是遮挡推理与物体间空间关系可同时提升重建与抓取精度。方法基于八叉树CVAE,引入多物体编码器与3D遮挡场处理复杂遮挡,通过重建几何的接触约束与碰撞检测精炼位姿。论文构建ReOcS真实评估集与大规模合成数据集ZeroGrasp-11B,在GraspNet-1B及真实机器人实验中取得SOTA,验证零样本泛化能力。

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping figure
CVPR2025arxiv_html

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

Grasp

策略学习灵巧操作抓取

针对现有灵巧抓取方法训练流程复杂、难以扩展且单网络处理多物体时性能下降的问题,本文提出UniGraspTransformer。其核心流程是:先为各物体训练专用RL策略网络以生成成功抓取轨迹,再通过离线蒸馏将这些轨迹监督训练到一个通用的Transformer网络中。这一简化方案摆脱了复杂课程学习与渐进式蒸馏的束缚,使网络可扩展至12层自注意力块,并能从理想状态迁移到带噪声的视觉输入。实验表明,该方法在state-based和vision-based设定下均超越UniDexGrasp++,在vision-based设定中对已见、同类别未见及全新类别未见的物体成功率分别提升3.5%、7.7%和10.1%,同时生成更多样化的抓取姿态。

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness figure
CVPR2025arxiv_html

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

Grasp

灵巧操作抓取

针对现有扩散式灵巧抓取生成因缺乏物理约束而易出现穿模与接触不足的问题,本文提出一种在训练与采样双阶段同步嵌入表面拉力、外力排斥及自穿透排斥三类物理约束的生成框架,并构建了包含超过340万条多样抓取姿态、涵盖1.5万余物体的大规模数据集,在多个公开基准上取得当前最优性能并展现出良好的泛化能力。

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version) figure
CVPR2025arxiv_html

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)

Benchmark and Dataset

Benchmark/数据集

针对双臂机器人协作与工具使用任务缺乏专门训练数据的问题,本文提出RoboTwin基准,同步提供基于COBOT Magic平台的真实遥操作数据及其数字孪生生成的合成数据。其核心创新在于建立了仅需单张RGB图像的AIGC驱动的真实到仿真转换流程,自动生成高保真3D模型与可物理交互的仿真场景;并进一步利用大语言模型自动推断功能坐标与任务姿态,合成专家级训练数据。该工作构建了面向双臂操作与人机交互的综合基准与数据管线,但具体实验性能的定量结果在提供的文本中未充分说明。

RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments figure
CVPR2025arxiv_html

RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments

Benchmark and Dataset

导航Benchmark/数据集感知

现有自动驾驶基准多面向结构化道路且以车顶视角为主,难以适用于校园、公园等拥挤非结构化环境中的社交移动机器人。本文提出的RoboSense数据集聚焦自我中心近场感知,通过相机、激光雷达与鱼眼摄像头实现全视角覆盖,是首个面向该场景的大规模多模态基准。其13.3万帧数据包含140万个3D边界框与21.6万条轨迹,近场障碍物标注量远超KITTI与nuScenes。文章进一步定义了面向近场3D感知与预测的新匹配准则,建立了涵盖检测、跟踪、运动及占位预测六项标准基准并给出系统基线评估。

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision figure
CVPR2025arxiv_html

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Benchmark and Dataset

Benchmark/数据集感知

现有RGB-NIR系统因相机分置导致像素未对齐,形成深度估计与光谱配准相互制约的困境。本文设计了一套搭载棱镜式RGB-NIR双传感器立体相机与LiDAR的移动机器人系统,实现像素级对齐的RGB-NIR立体采集并构建大规模真实与合成数据集。作者提出可直送RGB预训练模型的图像融合方法及RGB-NIR特征融合深度网络,直接利用对齐后的跨光谱互补信息。实验表明,在深度估计、目标检测与运动恢复结构等任务中,尤其在低光环境下,所提方法显著优于单模态及未对齐基线。

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation figure
CVPR2025arxiv_html

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

3D Vision

3D 视觉视频感知

针对机器人遥操作数据采集成本高昂、难以扩展的问题,本文提出 VidBot,利用互联网上丰富的野外单目 RGB 人类视频进行零样本机器人操作学习。核心方法是通过结合单目深度基础模型与运动恢复结构技术,从视频中重建时间一致、度量尺度的三维手部轨迹作为与具身无关的 affordance 表征;并进一步设计由粗到细的 affordance 学习框架,先预测像素级接触点与目标点,再以扩散模型生成精细交互轨迹,同时引入测试时可微代价函数进行约束引导。实验表明,该方法在 13 项操作任务的零样本设定下显著优于基线,并可直接部署于真实机器人系统。

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation figure
CVPR2025arxiv_html

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

3D Vision

3D 视觉感知数据

现有机器人视觉预训练多在2D图像上进行掩码自编码,难以满足操作任务对3D场景理解的需求。本文提出3D-MVP,以RVT多视图Transformer为框架,将其视觉编码器在大规模3D数据集的正交RGB-D视图上进行跨视角掩码重建预训练,从而学习显式的3D空间表征。在RLBench虚拟操作任务上,该方法显著优于从头训练及2D预训练基线;在COLOSSEUM泛化基准上,对未见物体尺寸、纹理和光照变化也展现出更强的鲁棒性。

\pi_{0.5}: a Vision-Language-Action Model with Open-World Generalization figure
CORL2025arxiv_html

\pi_{0.5}: a Vision-Language-Action Model with Open-World Generalization

Vision-Language-Action Model

VLA感知

现有VLA模型在真实开放环境的泛化能力仍待验证。本文提出π_0.5,通过异构数据联合训练(多机器人数据、网络视觉-语言数据、语义子任务预测等)与分层推理架构(先高层语义子任务规划、后底层动作生成),将绝大多数非目标域数据的知识迁移至移动操作。实验首次证明端到端学习型机器人系统能在全新真实家庭中完成长达10至15分钟的灵巧操作任务,如完整清洁厨房或卧室。

Training Strategies for Efficient Embodied Reasoning figure
CORL2025arxiv_html

Training Strategies for Efficient Embodied Reasoning

Vision-Language-Action Model

VLA规划/推理感知加速/部署

现有具身链式思维推理虽能提升VLA策略泛化性,却需昂贵的推理数据标注且推理速度缓慢。本文通过隔离验证推理提升策略性能的三个机制——表征学习、课程化学习与模型表达能力,提出轻量化的ECoT-Lite训练策略,使模型在测试时无需生成推理过程即可保持高效推理。实验表明,该方法在LIBERO-90上取得SOTA性能,在BridgeData V2上较常规VLA提升10%–19%,并将推理速度提升约3倍。

TrackVLA: Embodied Visual Tracking in the Wild figure
CORL2025arxiv_html

TrackVLA: Embodied Visual Tracking in the Wild

Vision-Language-Action Model

VLA感知

现有具身视觉跟踪方法多将目标识别与轨迹规划解耦,导致模块间错误累积,难以应对遮挡与高动态场景。本文提出TrackVLA,通过共享LLM骨干将两者统一为联合优化框架:识别任务使用语言建模头,规划任务采用锚点扩散头生成轨迹。研究还构建了EVT-Bench并收集170万样本进行训练。实验表明,该模型在公开基准上实现零样本SOTA,并在真实环境中以10 FPS对未见目标保持鲁棒跟踪,展现出显著的跨域泛化能力。

TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models figure
CORL2025arxiv_html

TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models

Vision-Language-Action Model

VLA感知

针对现有VLA模型难以利用力矩等物理反馈的局限,本文系统探索了将关节力矩融入VLA架构的设计空间。核心发现包括:力矩适配器置于解码器侧显著优于编码器侧;将力矩历史聚合为单一token可在保留解码器输入模式的同时充分利用时序信息;联合预测未来力矩与动作有助于构建基于物理交互动态的隐空间。在包含5项接触丰富任务的10项真实世界操作中,该方法在多个强基线上取得一致增益,并展现出跨模型与跨机器人本体的泛化能力。

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models figure
CORL2025arxiv_html

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

Vision-Language-Action Model

VLA感知

RoboMonkey针对VLA模型在真实环境部署中鲁棒性不足的问题,提出通过推理时采样与验证来扩展测试时计算。作者首次发现VLA的动作误差与采样数量之间存在指数幂律缩放关系,并基于此设计了高斯扰动与多数投票采样策略,配合VLM验证器进行动作优选。此外,该工作还提出了可扩展的合成偏好数据生成管道用于训练验证器。实验表明,该方法在分布外任务上取得25%的绝对性能提升,分布内提升9%,且在新机器人设置上联合微调VLA与验证器比仅微调VLA提升7%。

RoboChemist: Long-Horizon and Safety-Compliant Robotic Chemical Experimentation figure
CORL2025ar5iv_html

RoboChemist: Long-Horizon and Safety-Compliant Robotic Chemical Experimentation

Vision-Language-Action Model

VLA感知

RoboChemist针对化学实验中长程、安全关键且涉及透明器皿与可变形物质的操作难题,提出了一种VLM与VLA协同的双循环框架。该框架利用VLM进行任务分解、生成指令感知的视觉提示(如关键点或边界框)以引导VLA执行,并作为监控器实现闭环反馈与安全合规检查。实验表明,该系统在原子操作和完整多步化学实验中的平均成功率较现有VLA基线提升23.57%,合规率平均提高0.298,并能泛化至未见的试剂、器皿与流程。

RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models figure
CORL2025arxiv_html

RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models

Vision-Language-Action Model

VLA感知

现有视觉-语言-动作(VLA)模型虽具通用潜力,但模仿学习预训练使其难以像大语言模型那样通过上下文学习(ICL)快速适应新任务。本文提出RICL,通过后训练为预训练VLA注入上下文适应能力,使其无需参数更新即可通过检索增强生成(RAG)利用仅10到20条演示完成新操作任务。实验表明,RICL能显著提升对未见物体、新颖动作及新场景的泛化表现,若进一步在目标数据上微调则效果更佳。

MoTo: A Zero-shot Plug-in Interaction-aware Navigation for General Mobile Manipulation figure
CORL2025temporary_pdf

MoTo: A Zero-shot Plug-in Interaction-aware Navigation for General Mobile Manipulation

Vision-Language-Action Model

VLA导航感知

现有移动操作端到端方法因缺乏大规模数据而泛化性不足,而泛化能力强的固定基座操作模型又无法移动。本文提出即插即用的MoTo模块,通过视觉语言模型在多视角一致性下提取目标与机械臂的交互关键点,以交互感知导航生成基座停靠点,并联合优化基座与机械臂轨迹的物理可行性,从而将任意固定基座模型零样本迁移至移动操作任务。在OVMM仿真和真实世界实验中,该方法在不需额外移动操作数据的情况下,成功率分别较最先进方法提升2.68%和16.67%。

Mechanistic Interpretability for Steering Vision-Language-Action Models figure
CORL2025arxiv_html

Mechanistic Interpretability for Steering Vision-Language-Action Models

Vision-Language-Action Model

VLA感知

受大语言模型可解释性进展启发,本文针对视觉-语言-动作(VLA)模型缺乏机理解释与实时调控能力的问题,提出首个通过内部表示干预来引导VLA行为的框架。作者将Transformer前馈激活投影至词嵌入空间,识别出与动作选择因果关联的稀疏语义方向(如速度、方向),并据此提出无需微调或环境交互的通用激活引导方法。实验表明,该方法可在开源VLA(如OpenVLA)的仿真环境LIBERO及真实UR5机器人上实现零样本行为调控。

Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation figure
CORL2025temporary_pdf

Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation

Vision-Language-Action Model

VLA感知

现有视觉-语言-动作(VLA)模型多面向短程任务,难以处理长程操作中的技能链与子任务依赖。本文提出Long-VLA,首个专为长程操作设计的端到端统一模型,其核心是通过阶段感知输入掩码将子任务动态划分为移动与交互阶段,并分别适配第三人称与自我中心视觉输入,在保持VLA可扩展性的同时提升子任务兼容性。该架构无关模块可无缝接入现有VLA,并配套提出L-CALVIN基准。仿真与真实实验表明,Long-VLA显著优于先前最优方法。

LaVA-Man: Learning Visual Action Representations for Robot Manipulation figure
CORL2025arxiv_html

LaVA-Man: Learning Visual Action Representations for Robot Manipulation

Vision-Language-Action Model

VLA感知

现有语言引导操作多依赖CLIP等模型计算视觉-文本相似度再映射为动作,但此类表征缺乏因果基础,难以捕捉指令如何改变视觉状态的底层关联。本文提出LaVA-Man,通过自监督目标图像重建任务,在给定初始图像与语言指令条件下预测被掩码的目标图像,从而在无动作标注下学习视觉-动作表征。作者还构建了含180类3200个实例的Omni-Object Pick-and-Place数据集以评估跨实例泛化。实验表明,该方法在模拟与真实机器人的五项基准上均优于现有方法,且仅需少量示范即可高效微调。

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data figure
CORL2025arxiv_html

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

Vision-Language-Action Model

VLA抓取感知数据

现有VLA模型依赖昂贵的真实数据,本文探索纯合成数据预训练的可行性。作者构建了十亿帧抓取数据集SynGrasp-1B,并提出GraspVLA模型,通过Progressive Action Generation将感知与动作生成统一为链式思维过程,联合合成数据与互联网语义训练。实验表明,该模型可直接sim-to-real迁移,在真实场景与LIBERO基准中具备强零样本泛化能力,对透明和长尾物体的抓取优于AnyGrasp,且能通过少样本后训练快速适应特定人类偏好。

Generalist Robot Manipulation beyond Action Labeled Data figure
CORL2025arxiv_html

Generalist Robot Manipulation beyond Action Labeled Data

Vision-Language-Action Model

VLA感知数据

针对通用机器人操作依赖大规模动作标注数据、难以扩展的瓶颈,该工作提出利用无动作标签的人类与机器人视频进行学习。核心创新在于以手部或夹爪处的密集动态三维点云作为与具体形态无关的中间表征,通过两阶段训练——先在大规模无标签数据上自监督学习三维动态预测,再用少量标注数据对齐为动作预测器——将无标签视频中的运动先验注入VLA模型。实验表明,该方法在真实与模拟环境中均提升了策略的开放词汇与跨域泛化能力,并支持无动作标签的新任务学习。

Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models figure
CORL2025arxiv_html

Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models

Vision-Language-Action Model

VLA感知

现有Vision-Language-Action模型通常将图像切分为数百个patch作为视觉token,导致训练计算成本高昂。本文提出Oat-VLA,通过以对象为中心的表征提取场景中关键物体的信息,并补充agent自身的视觉patch,将视觉token压缩至极少量,同时不牺牲任务性能。实验表明,该方法在LIBERO基准上收敛速度较OpenVLA提升至少一倍,并在真实世界的抓取放置任务中取得了更高的成功率。

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies figure
CORL2025arxiv_html

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

Vision-Language-Action Model

VLA感知加速/部署

现有VLA策略常需数十亿参数与海量算力,预训练与部署门槛极高。本文提出仅950M参数的FLOWER,以中间层模态融合剪枝VLM主干并将释放容量重新分配给Flow Transformer扩散头,同时引入全局动作空间AdaLN实现轻量模块化条件,在有限参数下兼顾语义理解与复杂动作建模。仅需200 H100 GPU小时预训练,即在10个模拟与真实世界基准的多样任务中匹敌更大VLA,并在CALVIN ABC基准上取得4.53的新SoTA,为高效通用机器人策略提供了可行路径。

FLARE: Robot Learning with Implicit World Modeling figure
CORL2025arxiv_html

FLARE: Robot Learning with Implicit World Modeling

Vision-Language-Action Model

VLA世界模型感知

针对生成未来视觉帧进行世界建模导致计算开销高、与动作预测竞争模型容量的问题,本文提出FLARE,将隐式世界建模嵌入VLA策略。核心是在扩散Transformer中引入少量未来token,将中间层隐状态与未来观测的紧凑隐表征对齐以避免像素重建,并采用动作感知的嵌入模型提升效率。该方法在单臂和人形机器人多任务模仿学习基准上达到SOTA,较基线提升达26%,且能利用无动作标签的人体第一视角视频联合训练,在真实GR1人形机器人上少量微调即达95%成功率。

EndoVLA: Dual-Phase Vision-Language-Action for Precise Autonomous Tracking in Endoscopy figure
CORL2025arxiv_html

EndoVLA: Dual-Phase Vision-Language-Action for Precise Autonomous Tracking in Endoscopy

Vision-Language-Action Model

VLA感知

传统内窥镜追踪因感知、规划与控制模块割裂而难以应对动态非结构化的胃肠道环境,且无法直接融合高层手术意图。本文提出面向连续体机器人的EndoVLA框架,将视觉-语言-动作端到端结合,并采用双阶段微调:先在自建的EndoVLA-Motion数据集上监督微调,再辅以任务感知的可验证奖励进行强化微调,以缓解数据稀缺与域迁移。该模型可执行息肉追踪、异常黏膜跟随及圆周切割标记跟随三类任务,真实机器人验证表明其达到当前最优性能,并展现出跨场景与复杂序列任务的零样本泛化能力。

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control figure
CORL2025arxiv_html

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control

Vision-Language-Action Model

VLA策略学习感知

现有视觉-语言-动作(VLA)模型多聚焦扩展视觉-语言模型,却忽视了动作表示瓶颈与数据效率。DexVLA提出一个可插拔的十亿参数扩散动作专家,并配合具身课程学习:先在跨本体数据上预训练扩散专家,再对齐特定本体,最后快速适应新任务。通过子步骤推理训练,模型无需外部高层策略即可直接完成叠衣服等复杂长程任务。实验表明,该方法在单臂、双臂及灵巧手等多本体上,仅需不足100次演示即可习得灵巧操作,且预训练数据仅需100小时,推理速度达60Hz。

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models figure
CORL2025arxiv_html

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

Vision-Language-Action Model

VLA感知

针对预训练VLA模型在少量示教下适应新任务效率低的问题,ControlVLA提出一种ControlNet风格的高效微调框架:通过零初始化的投影层将物体中心表示注入预训练策略,在保留通用先验的同时逐步学习任务特定技能。真实世界实验显示,仅需10-20次示教即可在多样化操作任务上取得76.7%成功率,显著优于需要百余次示教的基线方法,并展现出对长程任务与未见物体、背景的泛化能力。

AnyPlace: Learning Generalizable Object Placement for Robot Manipulation figure
CORL2025arxiv_html

AnyPlace: Learning Generalizable Object Placement for Robot Manipulation

Vision-Language-Action Model

VLA感知

现有机器人放置方法往往任务特定且难以泛化到新物体与多样构型。AnyPlace将放置视为成对形状匹配,提出由VLM引导粗定位、扩散模型精调姿态的两阶段框架,并完全基于合成数据训练。该方法在插入、堆叠、悬挂三类任务的高保真仿真中显著优于基线,并在16项真实任务中实现76%的平均成功率与覆盖率,展现了从合成数据到真实场景的强零样本泛化能力。

3DS-VLA: A 3D Spatial-Aware Vision Language Action Model for Robust Multi-Task Manipulation figure
CORL2025temporary_pdf

3DS-VLA: A 3D Spatial-Aware Vision Language Action Model for Robust Multi-Task Manipulation

Vision-Language-Action Model

VLA3D 视觉感知

现有二维VLA模型难以从图像推理三维空间关系,而三维模仿学习方法又受限于缺乏大规模三维预训练模型或存在投影信息损失,且多数策略仅做感知到动作的直接映射,缺乏对机器人与环境时空交互的显式理解。为此,3DS-VLA提出非参数三维tokenizer与二维到三维位置对齐机制,使预训练二维VLM能直接编码点云三维观测;同时引入序列化三维空间约束(关键点)显式建模机器人与环境的时空关系。实验表明,该方法在RLBench的26个单双臂任务及10项真实世界任务中超越现有最优方法,并展现出跨任务、跨本体和跨环境的泛化能力。

\texttt{SPIN}: distilling \texttt{Skill-RRT} for long-horizon prehensile and non-prehensile manipulation figure
CORL2025arxiv_html

\texttt{SPIN}: distilling \texttt{Skill-RRT} for long-horizon prehensile and non-prehensile manipulation

Policy

策略学习

针对机器人长程抓取与非抓取混合操作任务中存在的技能串联困难与在线规划计算代价高的问题,本文提出SPIN框架,通过模仿学习将基于Skill-RRT的规划器蒸馏为推理策略。该方法设计了connectors以最小化技能切换时的物体扰动,并采用噪声回放过滤低质量轨迹生成训练数据。实验表明,纯仿真训练的策略可零样本迁移至真实世界,在三个复杂长程任务上取得超过80%的成功率,并优于MAPLE、HLPS等分层强化学习与规划基线。

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real figure
CORL2025arxiv_html

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

Policy

策略学习Sim2Real

X-Sim 针对人类视频缺乏机器人动作标签、且人机具身差异大导致跨具身迁移困难的问题,提出一种无需机器人遥操作数据的 real-to-sim-to-real 框架。其核心洞察在于利用人类视频中物体运动作为密集监督信号:通过重建逼真仿真并跟踪物体轨迹定义以物体为中心的奖励,在仿真中训练 RL 策略并蒸馏为图像条件扩散策略,同时以在线域适应对齐虚实观测。实验显示,该方法在多项操作任务中较基线平均提升 30% 任务进度,并以约为行为克隆十分之一的数据收集时间达到相当性能,且能泛化至新视角和测试时环境变化。

VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via Simulation Fine-Tuning figure
CORL2025arxiv_html

VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via Simulation Fine-Tuning

Policy

世界模型策略学习灵巧操作触觉

针对精密双手装配任务中真实演示数据稀缺、次优且难以覆盖触觉探索行为的问题,本文提出VT-Refine框架:仅利用少量真实视觉-触觉演示预训练扩散策略,即迁移至配备GPU并行压阻式触觉模拟的数字孪生中,通过大规模强化学习微调后再转回真实世界;其基于点的统一表示有效促进了跨域迁移。实验在五个双手装配任务上实现了真实世界成功部署,证明模拟微调可显著提升策略性能,且高分辨率触觉反馈在预训练与微调阶段均至关重要。

Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions figure
CORL2025arxiv_html

Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions

Policy

策略学习灵巧操作触觉

现有LLM自动设计奖励的工作多聚焦视觉与本体感觉,却忽视了类人灵巧操作所依赖的触觉模态。本文提出Text2Touch,首次将迭代式LLM奖励生成扩展至真实视觉触觉感知,并以覆盖七十余个环境变量的提示工程应对高复杂度场景。通过教师-学生蒸馏,策略迁移至配备TacTip的四指Allegro灵巧手,在手掌朝上与朝下配置中完成多轴悬空物体旋转。实验表明,LLM生成的奖励函数比人工基线简短一个数量级,且在真实系统的旋转速度与稳定性上显著更优。

Streaming Flow Policy: Simplifying diffusion/flow-matching policies by treating action trajectories as flow trajectories figure
CORL2025arxiv_html

Streaming Flow Policy: Simplifying diffusion/flow-matching policies by treating action trajectories as flow trajectories

Policy

策略学习

现有扩散或流匹配策略通常在轨迹空间中对整条动作序列进行采样,导致机器人必须等待生成完成才能执行,计算代价高且实时性差。本文提出 Streaming Flow Policy,将动作轨迹本身视为流轨迹,从上一时刻动作的窄高斯邻域出发,在动作空间中通过流匹配逐步积分生成未来动作,实现边采样边流式执行。该方法在保留多模态分布建模能力的同时,通过构造围绕演示轨迹的稳定条件速度场来缓解分布偏移。实验表明,该策略在提升模仿学习性能的基础上,显著加快了执行速度并缩短了感知运动闭环。

Steering Your Diffusion Policy with Latent Space Reinforcement Learning figure
CORL2025temporary_pdf

Steering Your Diffusion Policy with Latent Space Reinforcement Learning

Policy

策略学习触觉

现有基于行为克隆的扩散策略在开放世界部署时常表现不佳,收集额外示教成本高昂,而传统强化学习微调样本效率低且直接修改权重易引发不稳定。本文提出DSRL,将扩散策略视为从潜噪声空间到动作空间的确定性映射,据此构建latent-action MDP,仅在潜噪声空间中训练强化学习策略来引导基础策略输出,无需修改预训练权重且仅需黑盒访问。实验表明,该方法在模拟基准、真实机器人任务以及预训练通用策略的适配中均展现出高效的自主策略改进能力。

SafeBimanual: Diffusion-based trajectory optimization for safe bimanual manipulation figure
CORL2025arxiv_html

SafeBimanual: Diffusion-based trajectory optimization for safe bimanual manipulation

Policy

策略学习灵巧操作

现有扩散策略在双臂操作中忽视物理安全约束,易引发机械臂碰撞或物体撕裂等危险行为。为此,本文提出即插即用的测试时轨迹优化框架SafeBimanual,针对不同双臂协作模式设计安全成本函数,并在扩散去噪过程中进行引导采样;同时利用视觉语言模型动态调度成本函数,依据关键点配对关系生成最优约束。在RoboTwin仿真和真实世界任务中,该方法分别将成功率提升13.7%与32.5%,并显著降低不安全交互。

SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies figure
CORL2025ar5iv_html

SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies

Policy

策略学习

现有离线模仿学习策略只能以演示速度执行,制约了机器人任务吞吐量。本文提出SAIL,一个全栈加速执行框架,核心洞察是需同时应对高速带来的机器人动力学变化与状态-动作分布偏移。系统通过误差自适应引导保持动作时序一致性,以控制器不变的高保真跟踪目标抑制分布偏移,并依据任务复杂度自适应调速与调度动作。在12项模拟与真实机器人任务中,SAIL在仿真中实现最高4倍、真实世界最高3.2倍的速度提升,同时保持高成功率。

Robust Dexterous Grasping of General Objects figure
CORL2025arxiv_html

Robust Dexterous Grasping of General Objects

Policy

策略学习灵巧操作抓取

现有灵巧抓取方法多依赖预扫描模型、人工演示或开环静态姿态执行,难以泛化到新物体且抗扰动能力差。本文提出一种仅依赖单目视觉的零样本动态灵巧抓取框架:通过以手部为中心的动态距离向量表征局部接触区域形状,降低对全局几何精确性的依赖;并采用特权教师-混合课程学生训练范式,由模仿学习蒸馏核心抓取行为,再经强化学习探索对抗扰动的自适应策略。该方法纯仿真训练,在24.7万仿真物体和512个真实unseen物体上分别取得97.0%和94.6%的抓取成功率,并展现出对外部扰动的实时适应能力。

Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance figure
CORL2025arxiv_html

Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

Policy

策略学习触觉

现有衣物操作多依赖展平或可见特征假设,难以处理揉皱、悬挂及遮挡状态。本文提出一种双臂视触觉框架,通过分布损失学习衣物对称性,建立带置信度的密集像素对应关系,并引入触觉自监督的抓取可供性网络,在低置信度时主动推迟动作以等待可靠视觉信息。系统在折叠与悬挂任务中验证了任务无关的抓取选择与闭环张力控制能力,其密集描述子还可作为中间表示支持从人类视频中提取目标,无需完整状态估计或预先展平。

ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations figure
CORL2025arxiv_html

ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations

Policy

策略学习

ReWiND 旨在解决机器人学习中对每个新任务依赖大量演示或手工奖励的问题。该方法仅从少量演示出发,学习语言条件的奖励函数:通过跨模态序列聚合预测任务进度以提供密集反馈,并引入 video rewind 从成功轨迹自动生成失败样本来增强策略犯错时的指导;进而以离线 RL 预训练策略,并在未见任务上在线微调。实验表明,其奖励泛化与策略对齐指标较基线提升 23%–74%,仿真任务成功率提升 2 倍,真实双臂机器人场景提升 5 倍,实现了样本高效的新任务适应。

Poke and Strike: Learning Task-Informed Exploration Policies figure
CORL2025arxiv_html

Poke and Strike: Learning Task-Informed Exploration Policies

Policy

策略学习

针对动态操作任务中因无法重试而必须在执行前识别物体物理属性的难题,本文提出基于强化学习的任务知情探索框架:通过特权任务策略对各属性估计误差的敏感度自动构建探索奖励,使机器人习得辨识任务相关属性的交互行为;同时引入基于不确定性估计的策略切换机制,在保证估计精度的前提下最小化探索时间。该方法在击打任务中以平均不足1.2秒的探索实现90%成功率,且测试时无需额外仿真查询或重训练即可直接执行,并在KUKA iiwa实体机器人上完成验证。

Point Policy: Unifying Observations and Actions with Key Points for Robot Manipulation figure
CORL2025arxiv_html

Point Policy: Unifying Observations and Actions with Key Points for Robot Manipulation

Policy

策略学习

针对机器人遥操作数据收集成本高昂的问题,本文提出仅利用离线人类演示视频即可学习策略的 Point Policy。其核心洞察在于人类与机器人共享同一三维空间,可通过视觉模型提取的语义关键点建立形态无关的表征:先将人手与物体的关键点轨迹通过双目三角测量投影至三维空间,再以 Transformer 策略预测未来机器人关键点,最后基于刚体几何约束反推末端执行器位姿。在八项真实机器人任务中,该方法在训练分布内较先前工作绝对提升 75%,对新物体实例提升 74%,且对背景干扰表现出较强鲁棒性。

Phantom: Training Robots Without Robots Using Only Human Videos figure
CORL2025arxiv_html

Phantom: Training Robots Without Robots Using Only Human Videos

Policy

策略学习视频

针对机器人遥操作数据采集成本高、难以扩展场景多样性的问题,本文提出仅利用人类视频即可训练机器人策略的Phantom方法。其核心洞察在于:通过手部姿态估计获取动作标签,并结合图像修复与虚拟机器人渲染的数据编辑技术,在训练与推理阶段统一人类与机器人的视觉分布,从而弥合本体差异。该方法无需任何机器人数据即可实现零样本部署,在多个任务及未知场景中均取得较高成功率,且采集的数据与机器人本体无关。

Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion figure
CORL2025arxiv_html

Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion

Policy

人形机器人策略学习触觉

现有足式机器人运动策略大多需为特定形态单独训练,难以跨双足、四足及人形等平台泛化。本文提出Multi-Loco框架,利用形态无关的扩散模型从跨形态数据中学习不变运动模式,并通过零填充与掩码分数匹配统一异构观测与动作空间;进一步以跨平台共享的轻量级残差RL策略在线优化扩散输出,结合多critic架构提升任务性能与sim2real鲁棒性。在四种机器人上的仿真与真实实验表明,该方法较PPO基线平均回报提升10.35%,轮式双足任务增益达13.57%,并支持未见过平台的零样本迁移。

Mobi-\pi: Mobilizing Your Robot Learning Policy figure
CORL2025arxiv_html

Mobi-\pi: Mobilizing Your Robot Learning Policy

Policy

策略学习

现有视觉运动操作策略多在有限基座姿态与相机视角下训练,直接部署到移动平台易因视角与工作空间超出训练分布而失效,重新训练又成本高昂。本文提出“策略迁移”问题,通过3D高斯泼溅重建场景,结合可微渲染与评分函数评估候选基座姿态的分布内程度与操作可行性,并以采样优化求解最优位姿,从而在无需额外示教数据的情况下,将固定机械臂策略有效部署到移动平台。在RoboCasa模拟任务与真实机器人实验中,该方法均优于非策略感知与策略感知基线。

MirrorDuo: Reflection-Consistent Visuomotor Learning from Mirrored Demonstration Pairs figure
CORL2025temporary_pdf

MirrorDuo: Reflection-Consistent Visuomotor Learning from Mirrored Demonstration Pairs

Policy

策略学习

针对图像行为克隆在跨工作空间泛化时面临多样化演示数据成本高昂的问题,本文提出MirrorDuo,利用反射对称性对RGB观测、本体感受及完整6自由度动作进行联合镜像,在无需相机外参的情况下生成语义与物理一致的配对演示。该方法既可作为即插即用的数据增强策略,也可嵌入为反射等变网络的结构先验。实验表明,当演示均匀分布于工作空间两侧时,其在相同数据预算下能显著提升策略性能;当演示仅集中于单侧时,仅需零个或极少目标侧演示即可实现高效的镜像技能迁移。

ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training figure
CORL2025arxiv_html

ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

Policy

策略学习

现有流匹配策略在复杂灵巧操作中面临推理效率与多模态融合不足的问题。本文提出ManiFlow,通过一致性训练与流匹配联合优化以"拉直"流路径,使高维灵巧动作仅需1–2步生成;并设计DiT-X架构,以自适应交叉注意力与AdaLN-Zero条件化融合视觉、语言及本体感觉信息。实验表明,该策略在仿真灵巧任务中对图像与点云输入分别提升45.6%和11.0%,多任务提升31.4%,鲁棒性测试提升58%;在真实世界单臂、双臂及人形机器人任务中成功率较基线提升近一倍,并展现对新物体与背景变化的强泛化及扩展能力。

Learning Long-Context Diffusion Policies via Past-Token Prediction figure
CORL2025arxiv_html

Learning Long-Context Diffusion Policies via Past-Token Prediction

Policy

策略学习

针对机器人长上下文模仿学习中内存开销激增、历史信息易被丢弃且策略时间依赖性不足的问题,本文提出Past-Token Prediction(PTP)辅助任务,通过让扩散策略联合预测过去与未来的动作token来显式正则化时序建模。基于PTP的收益主要集中于策略头而非视觉编码器的分析,作者进一步设计多阶段训练策略:先在短上下文下预训练视觉编码器,再基于缓存的长上下文嵌入微调策略头,从而大幅降低显存与计算成本;同时将PTP扩展为测试时的自验证机制,以筛选与历史动作一致的候选动作。在四项真实世界与六项模拟任务上的实验表明,该方法将长上下文扩散策略性能提升约3倍,训练加速10倍以上,并在历史关键任务上达到80%的成功率。

Learn from What We HAVE: History-Aware VErifier that Reasons about Past Interactions Online figure
CORL2025arxiv_html

Learn from What We HAVE: History-Aware VErifier that Reasons about Past Interactions Online

Policy

策略学习

针对机器人操作中普遍存在的视觉歧义(如推门或拉门、外观相同但质量分布不均的物体),本文指出仅靠视觉策略难以在线消除不确定性,而单纯依赖历史条件化的生成模型在歧义场景下实际表现次优。为此,作者提出HAVE框架,将动作生成与验证显式解耦:利用无条件扩散模型生成候选动作,再通过历史感知验证器结合过往交互经验进行筛选。理论分析表明,只要验证器优于随机选择即可提升期望动作质量;在铰接物体、多模态门及真实世界不规则物体拾取任务中的实验验证了该方法的有效性。

KDPE: A Kernel Density Estimation Strategy for Diffusion Policy Trajectory Selection figure
CORL2025arxiv_html

KDPE: A Kernel Density Estimation Strategy for Diffusion Policy Trajectory Selection

Policy

策略学习

针对Diffusion Policy因去噪随机性和对训练异常值敏感而可能生成离群轨迹的问题,本文提出KDPE方法:在推理时并行生成多条轨迹,利用流形感知的核密度估计对末端执行器位姿与夹爪状态组成的动作分布进行建模,并选择概率密度最高的轨迹。该方法在RoboMimic和MimicGen的模拟任务以及Franka真实机器人的三项操作中均提升了成功率,且对视觉扰动更具鲁棒性,推理开销较低。

Imitation Learning Based on Disentangled Representation Learning of Behavioral Characteristics figure
CORL2025arxiv_html

Imitation Learning Based on Disentangled Representation Learning of Behavioral Characteristics

Policy

策略学习

现有机器人模仿学习难以在线响应“用力擦”等定性修饰指令并细粒度调节连续运动参数。本文提出一种基于解耦表示学习的在线运动生成模型:将演示分割为短序列并赋予修饰指令弱监督标签,通过约束潜在空间建立指令与运动隐变量的对应关系,结合 Action Chunking 生成平滑轨迹。在擦拭与抓取放置任务中的实验表明,该方法能在执行过程中实时根据指令调整运动,克服了传统批次方法无法在线适配的局限。

ImMimic: Cross-Domain Imitation from Human Videos via Mapping and Interpolation figure
CORL2025ar5iv_html

ImMimic: Cross-Domain Imitation from Human Videos via Mapping and Interpolation

Policy

策略学习视频

针对机器人示教数据昂贵而人类视频丰富的矛盾,本文提出ImMimic框架,通过将人手姿态重定向到机器人关节空间,利用动态时间规整对齐人与机器人轨迹,并借助MixUp插值构建中间域以平滑弥合视觉、形态及物理域差异。实验表明,在四种机器人本体与四项真实操作任务中,该方法显著提升了任务成功率与执行平滑性,且基于动作相似性的映射比视觉映射带来更大增益。

Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop figure
CORL2025arxiv_html

Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop

Policy

策略学习感知

受人类主动视觉启发,该研究提出EyeRobot系统,通过可自由旋转的机械眼球主动观察以辅助操作。其核心创新是一个BC-RL联合训练循环:手部策略基于行为克隆从眼球视角学习,眼球策略则通过强化学习优化并以手部任务成功率作为奖励,无需任何眼球示教即可自然涌现手眼协调能力。系统采用中央凹视觉Transformer架构,在有限算力下实现高分辨率感知。在五个全景工作空间操作任务中,EyeRobot展现出注视切换、长距离搜索等涌现行为,且单目主动视觉的性能优于固定外部或腕部相机。

Dynamics-Compliant Trajectory Diffusion for Super-Nominal Payload Manipulation figure
CORL2025arxiv_html

Dynamics-Compliant Trajectory Diffusion for Super-Nominal Payload Manipulation

Policy

策略学习

现有机械臂的标称负载通常按最坏情况保守统一设定,导致硬件能力被严重低估与过度配置。本文提出一种基于去噪扩散模型的负载条件化轨迹生成方法,直接在关节角度、速度和加速度空间中采样同时满足运动学与动力学约束的可行轨迹,无需后处理即可在真实硬件上执行。在7自由度Franka机器人的实验表明,即使搬运远超标称能力的超重载荷,系统仍能在常数时间内生成轨迹并保持较高的工作空间可达率,显著扩展了机器人的安全操作包络。

DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration figure
CORL2025arxiv_html

DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration

Policy

策略学习加速/部署

针对人类遥操作演示普遍迟缓导致策略执行慢的问题,本文提出DemoSpeedup,一种基于动作熵估计的自监督演示加速方法。其核心洞察是:动作熵低的帧对应高精度操作应保留原速,熵高的帧对应随意段落可安全降采样加速。该方法无需额外标注,通过代理策略估计每帧熵值并聚类分段变速处理。实验表明,加速后的策略在仿真和真实任务中执行速度显著提升,同时保持甚至有时超越了原速训练策略的任务成功率。

Data Retrieval with Importance Weights for Few-Shot Imitation Learning figure
CORL2025arxiv_html

Data Retrieval with Importance Weights for Few-Shot Imitation Learning

Policy

策略学习数据

现有检索式模仿学习普遍采用潜空间最近邻距离筛选先验数据,本文从概率视角揭示该准则等价于高斯核密度估计的极限形式,存在估计方差高且忽略先验分布的固有偏置。为此提出重要性加权检索(IWR),利用高斯KDE估计目标与先验分布的概率比率作为重要性权重,从而基于全部数据点平滑估计并校正偏置。在LIBERO仿真与Bridge真实机器人数据集上,IWR均持续提升现有检索方法的性能,其中真实场景任务成功率平均提高30%。

D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation figure
CORL2025arxiv_html

D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation

Policy

策略学习数据

D-CODA 面向眼在手上双手模仿学习,解决演示数据采集成本高、视角多样性不足的问题,提出一种基于扩散模型的离线数据增强方法。该方法以双臂腕部参考图像和相机位姿扰动为输入,合成视角一致的腕部相机图像;并借助 SAM2 将任务分解为无接触与接触丰富状态,对后者通过约束优化采样扰动,生成满足双手协调约束的关节空间动作标签,实现带动作标注的增强。在 5 项仿真与 3 项真实任务中,该方法均显著优于基线与消融实验,验证了其在双手操作数据增强中的有效性。

Constraint-Preserving Data Generation for One-Shot Visuomotor Policy Generalization figure
CORL2025arxiv_html

Constraint-Preserving Data Generation for One-Shot Visuomotor Policy Generalization

Policy

策略学习数据

针对机器人模仿学习中大规模演示数据收集成本高昂的问题,本文提出CP-Gen方法,仅利用单条专家轨迹即可生成包含全新物体几何形状与位姿的演示数据。其核心洞察在于将机器人技能转化为关键点-轨迹约束,使机器人或被抓物体上的关键点跟踪任务相关物体坐标系下的参考轨迹,从而在位姿变换之外实现真正的几何感知型数据增强。实验表明,该方法在16项仿真任务和4项真实任务中使视觉运动策略的平均成功率达到77%,显著优于基线的50%,并实现了零样本的仿真到现实迁移。

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping figure
CORL2025arxiv_html

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping

Policy

策略学习灵巧操作抓取

针对环境约束导致抓取姿态运动学不可行的遮挡抓取问题,本文提出COMBO-Grasp,利用双手机器人协同解决该难题。系统采用自监督约束策略预测支撑姿态,并结合强化学习训练抓取策略;其核心创新在于价值函数引导的策略协调机制,通过价值梯度优化约束姿态以提升双手配合效率。此外,该方法通过教师-学生策略蒸馏将点云策略迁移至真实环境。实验表明,该方法在仿真和真实场景中均显著优于基线,并能泛化到未见物体。

COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning figure
CORL2025arxiv_html

COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning

Policy

策略学习

现有少样本模仿学习的数据检索多依赖单一模态相似度,易引入无关样本,且不同任务对视觉或运动模态的偏好各异。本文提出COLLAGE,通过自适应晚期融合为各单模态 heuristic 预筛选的子集估计任务权重:在各子集上训练参考策略并评估其在目标示范上的预测似然,再据此在训练时进行重要性采样。该方法特征无关,可灵活组合多种检索方式。在LIBERO仿真与真实世界(基于DROID数据集)任务上的实验表明,其优于单特征检索与多任务学习基线,但文本中相对增益的具体数值未完整显示。

CLASS: Contrastive Learning via Action Sequence Supervision for Robot Manipulation figure
CORL2025arxiv_html

CLASS: Contrastive Learning via Action Sequence Supervision for Robot Manipulation

Policy

策略学习感知

行为克隆在异构视觉条件(如不同相机位姿、物体外观)下常因过拟合单条演示而泛化受限。本文提出 CLASS,通过动态时间规整(DTW)计算动作序列相似度,并基于软 InfoNCE 损失对正样本对按相似度加权,将共享相似未来行为的观测映射到邻近嵌入空间,从而学习跨演示的鲁棒行为表示。实验涵盖 5 项仿真与 3 项真实任务,结果表明该表示既能支持有效的检索式控制,也可通过预训练显著提升 Diffusion Policy 在视觉偏移场景下的成功率并优于现有基线。

CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion figure
CORL2025arxiv_html

CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion

Policy

策略学习

针对现有扩散策略因独立建模动作而忽视序列结构、且在硬件受限与观测降质下难以保持鲁棒性的问题,本文提出因果扩散策略CDP。该框架以Transformer为基础,通过条件化历史动作序列引入时序上下文,实现连贯且具上下文感知的视觉运动策略生成;并设计缓存复用机制降低自回归推理开销。在多样2D/3D仿真与真实机器人操作任务中,CDP显著提升了精度,尤其在观测质量下降时仍凭借时序连续性维持高表现,展现出较强的实际部署鲁棒性。

AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies figure
CORL2025arxiv_html

AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies

Policy

3D 视觉策略学习

现有视觉-运动策略常缺乏末端执行器与场景间空间关系的显式感知。本文提出AimBot,一种受光学瞄准镜启发的轻量级视觉增强方法:利用深度图、相机外参和末端位姿,在多视角RGB图像上实时叠加射击线与十字准星,将夹爪与物体的空间对齐关系直接编码到像素空间,无需改动模型架构且计算开销低于1毫秒。实验表明,该方法在仿真与真实环境中持续提升多种VLA策略的性能,尤其在需精确空间对齐的长程任务中增益明显,并改善了分布外泛化。

Action-Free Reasoning for Policy Generalization figure
CORL2025arxiv_html

Action-Free Reasoning for Policy Generalization

Policy

规划/推理策略学习

机器人模仿学习难以泛化且收集大规模机器人数据成本高昂,而丰富的人类视频又缺乏动作标签。本文提出RAD方法,其核心洞察是不从人类视频中提取难以迁移的底层动作,而是提取高层语言推理链作为跨具身的共享表征,通过机器人数据学习“推理到动作”的映射,同时利用无动作的人类视频数据增强推理能力。实验表明,RAD能有效跨越具身差距,在仅见于人类视频的任务上提升20%成功率,并在全新任务上比基线高15%。

ATK: Automatic Task-driven Keypoint Selection for Robust Policy Learning figure
CORL2025arxiv_html

ATK: Automatic Task-driven Keypoint Selection for Robust Policy Learning

Policy

策略学习

针对视觉运动策略因环境视觉差异而性能下降的问题,本文提出以2D关键点作为状态表示,并设计了ATK方法自动选取任务相关的最小关键点集。该方法通过掩码架构联合优化关键点选择与策略学习,将专家数据蒸馏为基于RGB图像的条件策略。实验涵盖模拟到真实迁移与真实世界模仿学习,在透明物体、可变形物体及细粒度操作等场景中,验证了所选关键点对视觉干扰和环境变化具有显著鲁棒性。

ARCH: Hierarchical Hybrid Learning for Long-Horizon Contact-Rich Robotic Assembly figure
CORL2025arxiv_html

ARCH: Hierarchical Hybrid Learning for Long-Horizon Contact-Rich Robotic Assembly

Policy

策略学习

针对长程富接触装配任务中端到端模仿学习数据需求高、精度不足与强化学习样本效率低的问题,本文提出分层混合框架ARCH。其低层融合运动规划与强化学习构建参数化技能原语库,兼顾执行效率与接触鲁棒性;高层基于Diffusion Transformer通过少量非遥操作示范学习原语组合策略。在包含4至9个零件的仿真与真实装配任务中,ARCH在成功率和数据效率上优于基线,并能泛化到未见物体。

GraspQP: Differentiable Optimization of Force Closure for Diverse and Robust Dexterous Grasping figure
CORL2025temporary_pdf

GraspQP: Differentiable Optimization of Force Closure for Diverse and Robust Dexterous Grasping

Dexterous Manipulation

灵巧操作触觉抓取

针对现有灵巧抓取合成方法易收敛于力量抓取、多样性不足的问题,本文提出GraspQP框架。核心创新在于将力闭合条件严格建模为隐式二次规划下的可微能量项,在保留摩擦等关键物理特性的同时支持梯度优化;并设计MALA*优化策略,依据全局能量分布动态拒绝劣质梯度步以缓解模式坍塌。实验表明,该方法显著提升了抓取多样性与稳定性,能够生成捏取和三指精确抓取等精细操作构型,并发布了覆盖5700个物体、五种夹爪及三种抓取类型的大规模数据集。

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation figure
CORL2025arxiv_html

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

Dexterous Manipulation

灵巧操作

DexUMI旨在解决人手向各类灵巧机器手迁移技能时的具身差异难题,提出将人手本身作为通用操作接口。其核心在于硬件与软件协同适配:硬件上通过可穿戴外骨骼直接采集符合目标机器手运动学的可行动作与触觉反馈,无需机器人本体在场;软件上通过视频分割与重绘,将采集视频中的人手替换为对应机器手以消除视觉差异。在Inspire与XHand两类真实硬件上的实验表明,该方法平均任务成功率达86%,且数据收集效率为传统遥操作的3.2倍。