Embodied AI TopConf 论文总览

No Figure

ICML2026failed

NeurVLA: Unleashing Failure-Handling Capability of Vision-Language-Action Models via Neural-Symbolic Reasoning

Vision-Language-Action Models

视觉语言动作规划/推理灵巧操作感知

全文暂未成功提取，短总结尚未生成。

ICLR2026arxiv_html

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

视觉语言动作仿真到现实

现有VLA模型依赖合成数据时受限于Sim2Real域差距。本文提出Sim2Real-VLA，核心洞察是通过架构设计而非高保真仿真弥合差距：以高层规划器推断affordance链、低层执行器实时验证的双系统架构，利用affordance信号过滤操作无关特征并聚焦运动关键动态。模型仅凭合成数据与自动化技能生成即可免微调训练，在双手、灵巧及长程任务中较基线取得35%以上成功率提升，并展现可靠的零样本域迁移能力。

$RobotArena \infty: Unlimited Robot Benchmarking via Real-to-Sim Translation figure$

ICLR2026temporary_pdf

RobotArena \infty: Unlimited Robot Benchmarking via Real-to-Sim Translation

Sim2real and Real2sim

数据集/基准仿真到现实

针对真实世界机器人策略评估难以扩展与复现的瓶颈，本文提出RobotArena ∞框架，利用视觉语言模型与生成式建模将真实视频自动译为大规模仿真环境，并引入纹理、物体位置等系统性扰动以检验鲁棒性。该框架结合VLM自动评分与众包人类偏好对比，在百余个环境上评估了六个国际实验室的VLA模型。结果表明，当前VLA对分布外场景高度敏感且抗扰动能力薄弱，尚非真正通才，但不同架构与数据设计带来的性能差异具有稳定的排序一致性。

ICLR2026temporary_pdf

Latent Adaptation of Foundation Policies for Sim-to-Real Transfer

Sim2real and Real2sim

仿真到现实

针对传统sim-to-real方法需对策略网络进行资源密集型重训练、难以灵活应对变化环境的问题，本文受人类无需重新学习行走即可调整步态适应新地面的启发，提出Found-adapt框架，将技能获取与环境适应解耦。该方法先在源模拟器上预训练基础策略以捕获多样化的可复用技能，部署时仅通过轻量级适配器在潜空间中对少量目标域数据进行参数高效对齐，无需重训练策略即可适应新系统动力学。实验表明，该方法在多个运动任务及动力学变化下显著缩小sim-to-real差距，并揭示了数据质量与适用场景的关键要求。

ICLR2026arxiv_html

Exo-Plore: Exploring Exoskeleton Control Space through Human-aligned Simulation

Sim2real and Real2sim

世界模型仿真到现实

针对外骨骼控制器优化依赖长时间人体实验、而行动不便者难以参与这一悖论，本文提出Exo-plore框架，将神经力学模拟与深度强化学习结合，通过符合人类经验适应模式的奖励函数训练步态数据生成器，并借助代理网络构建平滑可微的代谢成本景观以稳定优化。该框架无需真实人体实验即可优化髋部外骨骼参数，复现了辅助与非辅助步态趋势及代谢降低率，发现健康步态的最优扭矩延迟随步行速度增加而减小，并在五种病理步态中的四种上观察到病理严重程度与最优辅助强度呈显著线性关系。

ICLR2026arxiv_html

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Sim2real and Real2sim

灵巧操作仿真到现实抓取

D-REX针对从视觉观测中精确识别物理参数、构建高保真数字孪生的难题，将3D Gaussian Splatting与可微物理引擎结合，提出了端到端的物体质量辨识方法，并通过把人手握持演示迁移为机器人仿真演示，训练出力感知灵巧抓取策略。实验表明，该方法在多样物体上实现了准确的质量估计，并显著提升了真实场景中的抓取成功率，有效弥合了仿真到现实的动态差异。

ICLR2026temporary_pdf

Contact-guided Real2Sim from Monocular Video with Planar Scene Primitives

Sim2real and Real2sim

仿真到现实视频感知

现有单目人体-场景重建常因噪声与非水密几何导致物理模拟失败。本文提出CRISP，通过将平面基元聚类拟合至点云构建紧凑凸几何，并结合人体-场景接触建模恢复被遮挡的交互表面（如椅面），再以强化学习确保物理合理性。在EMDB与PROX上，运动跟踪失败率从55.2%降至6.9%，RL仿真吞吐量提升43%，并可推广至野外及生成视频。

ICLR2026ar5iv_html

When would Vision-Proprioception Policies Fail in Robotic Manipulation?

Policy

策略学习感知

现有视觉-本体感觉操作策略的泛化表现并不稳定，有时反而劣于纯视觉策略。本文通过时间受控实验揭示，在运动转换阶段（需重新目标定位时），策略会因追求更快的训练损失下降而过度依赖本体感觉，从而抑制视觉模态的学习。为此，作者提出梯度调整与相位引导算法GAP，利用本体感觉估计各时间步处于运动转换阶段的概率，并据此细粒度降低本体感觉的梯度权重，以实现双模态的动态协作。实验表明，GAP在仿真与真实环境、单臂与双臂设置以及传统策略和视觉-语言-动作模型上均能显著提升策略表现。

ICLR2026arxiv_html

When a Robot is More Capable than a Human: Learning from Constrained Demonstrators

Policy

策略学习

本文针对人类通过摇杆等受限接口示教机器人时，因动作空间受限导致示教轨迹次优的问题，提出“受限示教学习（LfCD）”框架LfCD-GRIP。其核心洞察是将奖励与专家受限动作解耦，仅基于状态推断目标接近度，并通过置信度估计与在线插值，将任务进度信号推广到示教未覆盖的新状态。实验表明，该方法在MiniGrid导航中发现捷径，并在真实WidowX机械臂上将任务完成时间从行为克隆的100秒缩短至12秒，显著优于传统模仿与逆强化学习基线。

ICLR2026ar5iv_html

ViPRA: Video Prediction for Robot Actions

Policy

策略学习视频

针对无动作标签的海量视频难以直接训练机器人策略的问题，ViPRA 提出将视频预测模型转化为机器人策略的预训练-微调框架：预训练阶段联合预测未来视觉观测和以运动为中心的隐式动作，通过光流一致性约束保证物理合理性；微调阶段仅用百余条遥操作演示，即可通过 flow matching 解码器输出高达 22Hz 的平滑连续动作。该方法在 SIMPLER 仿真基准和真实世界任务上分别取得 16% 和 13% 的性能提升，并支持跨本体迁移。

ICLR2026arxiv_html

VITA: Vision-to-Action Flow Matching Policy

Policy

策略学习感知

传统流匹配策略需在每步去噪中通过条件模块重复注入视觉信息，推理开销大。本文提出VITA，一种无噪声、无条件的视觉-动作流匹配框架，直接以视觉潜在表征为源流向潜在动作；通过动作自编码器对齐模态维度，并设计流潜在解码机制将动作重构损失反向传播经ODE求解，防止端到端训练中的潜在空间坍缩。在ALOHA与Robomimic的仿真及真实任务中，VITA内存占用降低18.6%-28.7%，推理速度显著提升，成功率达到或超过现有最优策略。

ICLR2026arxiv_html

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Policy

策略学习感知

现有视觉基础模型各有所长但难以兼顾多样机器人任务需求，传统多模型蒸馏又易稀释特征且缺乏任务级灵活性。为此，VER基于混合专家架构构建视觉专家库，预训练阶段将异质VFM蒸馏为领域专家并冻结，下游仅微调占比不足0.4%参数的轻量路由网络，借助逐块专家路由与课程化Top-K退火动态激活任务相关专家。在17项机器人任务及多种策略头上，该方法取得最优性能，并有效抑制背景异常值、聚焦任务关键区域。

ICLR2026arxiv_html

Uncovering Robot Vulnerabilities through Semantic Potential Fields

Policy

策略学习

现有机器人操作策略在真实环境变化下存在脆弱性，但直接物理测试成本高昂且不安全，且难以预知应测试哪些变化。本文将故障诊断重构为在连续视觉-语言语义嵌入空间中的搜索问题，将该空间视为成功与失败的势场，训练深度强化学习策略主动探索脆弱区域，从而无需昂贵物理试验即可预测失败概率。在模拟与真实机械臂实验中，该方法比现有视觉-语言基线多发现23%的独特脆弱性，并可用于指导策略微调，以更少数据提升操作性能。

ICLR2026arxiv_html

Translating Flow to Policy via Hindsight Online Imitation

Policy

策略学习

针对分层机器人系统中高层点流计划难以转化为可靠底层动作、且高质量机器人数据稀缺的问题，本文提出HinFlow框架，其核心洞察在于利用事后重标注将在线交互中实际达成的流目标重新标记为监督信号，以目标条件模仿学习迭代精炼底层策略。该方法在仿真与真实世界的多样操作任务上较基础策略取得显著提升，仅用约八万步在线交互即展现高样本效率，并支持从跨本体视频数据中获取策略，实现了对新物体和干扰物的零样本泛化。

ICLR2026arxiv_html

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Policy

人形机器人策略学习数据加速/部署

针对人形机器人控制中on-policy方法样本效率低、难以安全适应新环境的问题，本文提出LIFT框架。核心发现是：通过大批量更新与高UTD比率，off-policy的SAC亦可支持大规模并行预训练，在单卡1小时内收敛至可零样本部署真实机器人的策略。进一步地，作者将随机探索约束在物理信息世界模型内，仅于新环境执行确定性策略，实现安全高效的微调。实验表明，该框架在预训练阶段具备与PPO相当的墙钟效率，在微调阶段则兼具样本效率与安全性，并完成了仿真到真实机器人的全流程验证。

ICLR2026temporary_pdf

Time Optimal Execution of Action Chunk Policies Beyond Demonstration Speed

Policy

策略学习

针对模仿学习策略受慢速遥操作示教和推理延迟限制而无法高速执行的问题，本文提出RACE方法，通过将模仿目标从动作指令转为期望状态、对状态块进行时间最优重参数化以逼近机器人物理极限，并在测试时搜索与当前状态最对齐的平滑轨迹，系统性地解决了加速导致的动力学失配与异步推理错位问题。实验表明，该方法在保持高成功率的同时，可在仿真中达到示教速度的2倍以上，在真实任务中实现原始策略4倍加速，并使预训练VLA模型的吞吐量翻倍。

ICLR2026arxiv_html

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System

Policy

策略学习感知

现有机器人学习多聚焦静态或低速物体操作，而高速动态场景（如乒乓球）对毫秒级感知与精准控制提出严峻挑战。本文受双系统理论启发，提出SpikePingpong系统：以System 1实现基于传统相机的快速球体检测与物理轨迹预测，以System 2融合脉冲相机高频数据进行神经误差校正以精修可击打位置，并设计基于模仿学习的IMPACT模块完成策略击球。实验表明，该系统在30cm目标区域成功率达92%，20cm高精度区域达70%。

ICLR2026arxiv_html

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

Policy

视觉语言动作策略学习触觉

针对VLA模型在监督微调中面临的数据稀缺与泛化不足问题，本文借鉴大推理模型的RL经验，提出面向VLA的高效在线强化学习框架SimpleVLA-RL。该方法基于veRL构建了VLA专属的交互式轨迹采样、多环境并行渲染与结果奖励机制，并引入探索增强策略。实验表明，该方法在LIBERO和RoboTwin上达到SoTA性能，仅需单条演示即可将LIBERO-Long成功率从17.1%提升至91.7%，并在空间、物体及任务泛化与真实场景迁移上显著优于SFT。此外，作者观察到RL训练中出现"pushcut"现象，即策略自发涌现出训练数据外的新行为模式。

ICLR2026arxiv_html

Scalable Exploration for High-Dimensional Continuous Control via Value-Guided Flow

Policy

策略学习

高维连续控制中，传统无向探索（如高斯噪声）随动作维度增加而迅速失效，而降维又会损失系统灵活性。本文提出Q-guided Flow Exploration (Qflex)，利用学习到的值函数诱导概率流，直接在原生高维动作空间中生成与任务梯度对齐的探索动作，避免各向同性噪声。该方法以actor-critic形式实现，在多个高维连续控制基准上显著优于高斯和扩散基线，并成功驱动具有700个执行器的全身人体肌肉骨骼模型完成复杂敏捷运动，展现了极高的可扩展性与样本效率。

ICLR2026arxiv_html

Rodrigues Network for Learning Robot Actions

Policy

策略学习

针对通用架构缺乏铰接运动学归纳偏置的问题，本文将经典Rodrigues旋转公式转化为可学习的Neural Rodrigues Operator，并构建Rodrigues Network。该网络通过Rodrigues Layer与Joint Layer显式建模关节与连杆间的运动学传递，结合自注意力实现全局信息交互。实验表明，该方法在正运动学拟合、运动预测等合成任务以及机器人模仿学习和单目3D手部重建等真实应用中均显著优于标准骨干网络，证明将结构化运动学先验嵌入网络架构可有效提升动作学习性能。

ICLR2026arxiv_html

Robust Fine-tuning of Vision-Language-Action Robot Policies via Parameter Merging

Policy

视觉语言动作策略学习感知

针对通用机器人策略在少量数据微调新任务时易过拟合、丧失预训练泛化能力的问题，本文提出RETAIN方法。其核心洞察是在权重空间中对预训练与微调后的模型进行插值合并，并辅以联合微调与模态特定合并策略。大量模拟与真实机器人实验表明，该方法能在保留通用能力的同时，显著提升目标任务在分布外场景（如新视角、物体、位置）的泛化表现，并支持在不遗忘旧技能的前提下持续学习新技能。

ICLR2026arxiv_html

Remotely Detectable Robot Policy Watermarking

Policy

策略学习

现有机器人策略水印方法多假设审计者能访问机器人内部状态，难以应对现实中仅能通过摄像头等外部信号远程观测的场景。本文针对该“物理观察鸿沟”，提出基于频域的 Colored Noise Coherency（CoNoCo）水印策略：利用策略固有随机性注入有色噪声水印，并通过谱相干检测——该指标对未知系统动力学滤波具有理论不变性，且能严格保持动作边缘分布。实验表明，在模拟与真实机器人上，仅凭动作捕捉或侧视/俯视视频等远程观测即可实现鲁棒检测，且对同步误差、丢帧及对抗性噪声均表现出强韧性。

ICLR2026temporary_pdf

Reference Guided Skill Discovery

Policy

策略学习

现有无监督技能发现难以扩展到高自由度智能体，因其探索空间指数膨胀而语义流形有限。本文提出RGSD，先利用参考运动通过对比学习在单位超球面构建语义潜空间，再在此空间内同时实现参考行为模仿与语义相关新行为发现。在69自由度SMPL人形机器人上，RGSD不仅能高精度复现走、跑、侧步、拳击等参考动作，还能发现其连贯变体，并在下游locomotion任务中优于纯模仿与纯发现基线。

ICLR2026arxiv_html

Real-Time Robot Execution with Masked Action Chunking

Policy

策略学习

本文针对机器人异步推理与动作分块结合时的执行失败问题，指出除块间不连续外，块内不一致（即执行动作与当前感知的局部失配）是此前被忽视的关键失效模式。为此提出REMAC，通过在预训练策略上引入掩码动作分块学习校正调整，并设计前缀保留采样强化块间连续性，在不增加推理延迟的前提下提升策略对执行失配的鲁棒性。在模拟与真实环境中，该方法实现了更高的任务成功率、更快的完成速度及对多变延迟的强鲁棒性。

ICLR2026temporary_pdf

RAVEN: End-to-end Equivariant Robot Learning with RGB Cameras

Policy

策略学习

现有等变策略方法依赖点云或固定视角等结构化输入，难以适配低成本、多机位部署。本文提出RAVEN，首次实现仅基于RGB图像的端到端SE(3)等变策略学习；核心洞察是将图像表示为投影到三维空间的光线集合，使二维像素获得三维等变变换能力，并兼容任意数量与位置的相机。在MimicGen、DexMimicGen及真实任务中，该方法较最强基线分别提升12%、17%与35%，且训练速度比先前等变扩散方法快约1.6倍。

ICLR2026temporary_pdf

Policy Likelihood-based Query Sampling and Critic-Exploited Reset for Efficient Preference-based Reinforcement Learning

Policy

策略学习触觉加速/部署

针对偏好强化学习中查询与策略不对齐以及奖励估计器因初现偏差导致早期反馈过拟合的问题，本文提出PoLiCER方法。其核心在于以策略似然度而非时间近度选取查询（PLS），确保反馈始终贴合当前策略；同时利用critic输出动态重置奖励估计器与Q函数（CER），在抑制奖励高估的同时避免频繁重置的计算开销。实验表明，该方法在DMControl运动任务与Meta-World机器人操作任务上均显著优于现有方法，例如在Drawer Open任务上将成功率提升至近100%。

ICLR2026arxiv_html

Policy Contrastive Decoding for Robotic Foundation Models

Policy

策略学习

现有机器人策略易学习预训练数据中的虚假相关性，过度依赖背景纹理而非物体特征，导致视觉分布偏移时泛化性能显著下降。本文提出免训练即插即用的策略对比解码PCD，通过在推理阶段对比原始与物体掩码观测的动作概率分布，引导策略关注物体相关线索，并借助Track2Mask与KDE-PM兼容自回归和扩散策略。在三种开源策略与15项任务的实验中，PCD在模拟环境下将Octo、OpenVLA及另一SOTA策略分别提升29.7%、50.6%和8.9%，在真实世界任务中提升达108%。

ICLR2026arxiv_html

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Policy

策略学习

现有流式生成策略虽能建模复杂动作分布，但依赖多步迭代采样，导致训练与推理开销大，限制了在线强化学习与实时控制的应用。为此，本文提出均值速度策略（MVP），通过直接建模平均速度场实现单步动作生成，并引入瞬时速度约束（IVC）作为边界条件，以解决平均速度ODE学习中的多解问题，从而兼顾效率与表达能力。实验表明，MVP在Robomimic和OGBench的机器人操作任务上取得了最先进的成功率，同时在训练和推理速度上显著优于现有流策略基线。

ICLR2026temporary_pdf

Master Skill Learning with Policy-Grounded Synergy of LLM-based Reward Shaping and Exploring

Policy

策略学习

现有基于大语言模型的奖励设计方法虽能减少人工，但生成的奖励往往过于目标导向而忽视状态探索，导致机器人在高维稀疏奖励任务中陷入局部最优，且传统探索奖励常与任务无关。为此，本文提出PoRSE框架，让LLM同时生成任务感知的目标奖励与抽象affordance状态空间，以驱动与任务强相关的结构化探索，并通过策略内优化过程动态筛选奖励-探索配置及其权衡比例，无需从零训练策略。在24项机器人操作与移动任务中，PoRSE不仅持续优于现有LLM奖励设计方法，更在多个此前未解决的复杂任务上首次取得突破。

ICLR2026arxiv_html

Masked Generative Policy for Robotic Control

Policy

策略学习

现有扩散策略因多步去噪推理缓慢，自回归策略受限于逐token串行采样且难以处理非马尔可夫任务与观测缺失。本文提出Masked Generative Policy（MGP），将连续动作离散化为token，以条件Masked Transformer并行生成完整动作序列，并仅精炼低置信度token。针对马尔可夫任务提出MGP-Short实现短程快速闭环控制；针对长程交互提出MGP-Long，引入自适应token精炼与后验置信度估计，基于新观测动态修正未执行轨迹。在150项机器人操作任务中，MGP较SOTA扩散与自回归策略平均成功率提升9%，推理时间最高缩短35倍，并在动态与观测缺失环境下成功率提升60%，同时解决了其他方法失效的非马尔可夫长程任务。

ICLR2026temporary_pdf

ManipEvalAgent: Promptable and Efficient Evaluation Framework for Robotic Manipulation Policies

Policy

策略学习数据集/基准加速/部署

现有机器人操作策略的评估通常依赖大规模仿真采样与固定流程，时间开销高且难以响应用户开放式需求，最终往往仅给出单一成功率，缺乏诊断信息。本文提出ManipEvalAgent，一个模拟人类专家评估行为的智能体框架：它通过代码生成在仿真器中动态构建任务与评测函数，基于每轮中间观测自适应规划后续小批量测试，并结合视觉语言模型输出细粒度诊断。实验表明，该框架在显著压缩评估耗时的同时，仍能得出与大规模标准基准相当的结论。

ICLR2026arxiv_html

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

Policy

策略学习视频

针对现有轨迹控制视频生成方法将机械臂与操作物体独立建模，导致交互区域特征纠缠、难以生成物理合理操作视频的问题，本文提出RoboMaster框架，将交互过程分解为交互前、交互中、交互后三个阶段，以单一协同轨迹统一刻画各阶段主导物体的运动，从而解耦重叠区域特征；同时引入耦合外观与形状嵌入以保持物体语义一致性。实验表明，该方法在Bridge、RLBench和SIMPLER基准上均取得当前最优性能，显著提升了机器人操作视频的真实感与下游动作规划可靠性。

ICLR2026arxiv_html

Learning Part-Aware Dense 3D Feature Field For Generalizable Articulated Object Manipulation

Policy

三维视觉策略学习

现有2D基础特征升维到3D时面临推理慢、视图不一致和分辨率低等瓶颈，限制了关节物体操作的泛化。本文提出部件感知3D特征场PA3FF，直接以点云前馈预测密集连续的3D特征场，让特征距离反映功能部件邻近关系，并依托大规模3D部件标注进行对比学习训练。进一步构建部件感知扩散策略PADP。实验表明，该方法在PartInstruct及真实世界任务上均显著优于CLIP、DINOv2和Grounded-SAM，性能分别提升15%与16.5%，且能支撑对应点学习与分割等下游任务。

ICLR2026temporary_pdf

Hierarchical Value-Decomposed Offline Reinforcement Learning for Whole-Body Control

Policy

人形机器人策略学习触觉

针对高自由度全身机器人控制中专家演示稀缺的问题，该工作提出利用大量易获取的次优数据。为此，作者提出分层价值分解离线强化学习HVD：通过离线RL对次优数据进行价值导向筛选，同时沿机器人运动学结构分解Q函数以改善信用分配并降低学习复杂度。基于Transformer的架构支持多模态多任务学习。作者还发布了含自然不完美轨迹的50小时数据集WB-50。实验表明，HVD在复杂全身任务上的成功率显著优于基线，证明有效的全身控制策略可从结构化利用不完美数据中涌现。

ICLR2026arxiv_html

HAMLET: Switch Your Vision-Language-Action Model into a History-Aware Policy

Policy

视觉语言动作策略学习感知

现有视觉-语言-动作模型（VLA）通常仅依据当前观测预测动作，难以处理机器人操作中固有的历史依赖问题（如遮挡、多步推理），而简单堆叠历史帧又会带来巨大的计算与内存开销。为此，本文提出即插即用的微调框架HAMLET，通过时间对比学习初始化“时刻令牌”（moment tokens）紧凑编码每帧关键信息，并借助轻量级记忆模块跨时间步聚合历史表征，无需从头预训练即可赋予VLA历史感知能力。实验表明，该方法在真实世界长程任务上将GR00T N1.5的基线成功率提升了47.2%（达76.4%），并在RoboCasa Kitchen和LIBERO等基准上持续刷新性能。

ICLR2026arxiv_html

H3DP: Triply‑Hierarchical Diffusion Policy for Visuomotor Learning

Policy

三维视觉策略学习

现有视觉运动策略常将感知与动作生成割裂优化，忽视二者耦合。本文提出H3DP框架，在输入、表示和动作生成三层引入层次化设计：输入端以深度感知分层将RGB-D按深度切层，抑制遮挡与干扰；表示端提取多尺度视觉特征；动作生成端则让扩散过程依视觉特征由粗到细逐步去噪，从低频结构到高频细节对齐视觉与动作。实验覆盖5个模拟基准的44项任务及4项真实世界双手长程操作任务，在仿真与真实场景中均较基线取得提升，但具体增益数值文中未充分说明。

ICLR2026arxiv_html

Geometry-aware Policy Imitation

Policy

三维视觉策略学习

现有模仿学习方法多将示教压缩为参数化模型，难以兼顾多模态、效率与可扩展性。本文提出几何感知策略模仿（GPI），将示教视为状态空间中的几何曲线，通过距离场导出“前进流”与“吸引流”两种互补原语，叠加为轻量非参数向量场以直接驱动机器人。该方法将度量学习与策略合成解耦，无需重训练即可组合新示教并自然支持多模态。实验表明，GPI在仿真与真实机器人任务中的成功率优于扩散策略，推理速度快20倍且内存占用更低，对扰动表现出良好鲁棒性。

ICLR2026temporary_pdf

Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints

Policy

三维视觉策略学习

针对现有coarse-to-fine策略在新任务组合与环境变化下泛化不足的问题，本文提出CLAP框架，将高层VLM规划器扩展为先把任务分解为步骤级语言指令，再依次执行物体定位与3D关键点预测，同时在低层动作预测器中融合语言对齐的RGB特征与带3D位置编码的深度信息以构建3D感知表征。实验表明，该方法在GemBench上仅用五分之一数据即超越SOTA约12%平均成功率，并在真实场景中仅凭十次演示便泛化至未见指令与环境。

ICLR2026temporary_pdf

GRL-SNAM: Geometric Reinforcement Learning with Differential Hamiltonians for Navigation and Mapping in Unknown Environments

Policy

导航策略学习触觉

针对无地图未知环境中同步导航与建图任务，现有深度强化学习受限于样本效率低、长程漂移与泛化性差。该文提出GRL-SNAM，将导航刻画为受控哈密顿优化下的动态最短路径搜索，把局部感知转化为编码可达性与障碍屏障的能量景观，通过可微分哈密顿量更新在线演化感知、规划与形变策略，无需构建全局地图。在超弹性机器人挤缝穿行与室内迷宫点导航中，该方法以最少地图覆盖保持了路径间隙质量，并能泛化到未见过环境。

ICLR2026arxiv_html

EquAct: An SE(3)-Equivariant Multi-Task Transformer for 3D Robotic Manipulation

Policy

三维视觉策略学习

现有语言条件的多任务操作策略缺乏3D几何一致性保证，难以泛化到新场景，且已有等变方法多局限于平移等变或单任务拾取放置。本文提出EquAct，首次实现连续SE(3)等变的多任务关键帧策略学习：设计基于球傅里叶特征的等变点云Transformer U-net，并引入SE(3)不变的iFiLM层进行语言条件化，且严格证明了相关等变与不变性质。在18个RLBench任务（含SO(3)与SE(3)扰动）及4项物理实验中，EquAct均取得领先性能，且计算开销与基线相当。

ICLR2026arxiv_html

Emergent Dexterity Via Diverse Resets and Large-Scale Reinforcement Learning

Policy

策略学习触觉仿真到现实

现有机器人强化学习需要大量任务专属工程，在长程接触丰富操作中难以随算力扩展。本文提出OmniReset框架，其核心洞察是通过程序化生成多样化的模拟器重置，系统性覆盖灵巧操作所需的各类机器人-物体交互，将额外计算直接转化为更广的行为覆盖与持续性能提升，无需课程、演示或精细奖励塑形。实验表明，该方法能扩展到现有方法难以企及的长程灵巧操作任务，学到具备动态恢复行为的鲁棒策略，并可蒸馏为视觉运动策略零样本迁移至真实世界，在更广泛的初始条件下完成复杂任务。

ICLR2026temporary_pdf

Difference-Aware Retrieval Polices for Imitation Learning

Policy

策略学习

针对行为克隆在分布外状态因误差累积导致方差过大与 rollout 不稳定的问题，本文提出 DARP：一种半参数检索式模仿学习方法。其核心洞察是将策略表示从全局状态-动作映射转向局部邻域结构，在推理时检索专家演示的 k 近邻，并基于邻居状态、对应动作及与查询状态的差值向量进行差异感知预测与聚合，从而隐式实现拉普拉斯平滑、抑制高频方差。在 MuJoCo、Robosuite、Robocasa 及高维视觉模仿任务上，DARP 在不引入额外数据或在线监督的条件下，将标准行为克隆性能提升 15%–46%。

ICLR2026arxiv_html

Demystifying Robot Diffusion Policies: Action Memorization and a Simple Lookup Table Alternative

Policy

策略学习

针对Diffusion Policy在极少样本机器人操作中严重过拟合却仍能表现优异的谜团，本文揭示其成功并非源于动作泛化，而是隐式记忆了动作查找表：推理时仅在潜空间中寻找最近邻训练图像并召回对应动作序列。基于该洞察，作者提出Action Lookup Table (ALT)，利用对比学习编码器显式建立索引，在小数据集上取得与扩散模型相当的性能，却仅需约三百分之一的推理时间和不足百分之一的内存，并可通过潜空间距离阈值实现即时的分布外检测。

ICLR2026arxiv_html

DemoGrasp: Universal Dexterous Grasping from a Single Demonstration

Policy

策略学习灵巧操作仿真到现实抓取

灵巧抓取的高维长时域探索使现有强化学习方法依赖复杂奖励与课程设计，跨物体泛化困难。DemoGrasp的核心洞察是，单次成功演示已蕴含可迁移的抓取模式，只需编辑其中手腕位姿与手部关节角度即可适配新物体与新姿态。作者将轨迹编辑建模为单步决策过程，以仅含二值成功与碰撞惩罚的极简奖励完成并行训练。该方法在DexGraspNet上达95%仿真成功率，并在真实世界迁移至110个未见物体，常规尺寸成功率95.3%，小薄物体71.1%，且可泛化至不同相机配置与杂乱场景。

ICLR2026arxiv_html

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

Policy

策略学习触觉数据集/基准

该研究旨在降低机器人策略预训练对高质量示范数据的依赖，将离线强化学习与跨具身学习相结合，利用包含次优轨迹的异构机器人数据学习通用控制策略。作者构建了覆盖16种机器人平台的运动数据集，系统分析了该范式的优势与局限，发现当次优数据比例和机器人类型增加时，跨形态梯度冲突会严重阻碍学习。为此，他们提出基于形态相似性的静态分组更新策略，有效缓解冲突并超越现有方法，在富含次优数据的预训练场景中表现优于纯行为克隆。

ICLR2026arxiv_html

Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation

Policy

策略学习

现有视图变换器通常独立处理各静态视角，导致跨视角3D空间推理不足且难以适应动态环境变化。受人类大脑视觉腹侧-背侧双通路启发，本文提出Cortical Policy：静态视图流借助预训练3D基础模型对齐几何一致关键点以增强空间理解，动态视图流则通过位置感知的自我中心注视估计预训练模拟背侧通路实现自适应轨迹调整。二者融合使策略同时具备坚实的几何基础与动态适应能力，在RLBench、COLOSSEUM及真实机器人任务上均显著优于现有基线，验证了该皮层启发式双流架构对视觉运动模仿学习的有效性。

ICLR2026arxiv_html

Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations

Policy

策略学习

扩散策略虽能捕捉多模态动作分布，但迭代采样中数值求解器与分数匹配误差的累积在连续控制中尤为致命。本文提出Contractive Diffusion Policies（CDPs），将微分方程的收缩理论引入反向扩散采样ODE，通过使相近采样流相互靠拢来抑制误差增长并降低动作方差。实现上仅需添加一个超参数与一项轻量收缩损失即可嵌入现有架构。在D4RL、Robomimic及真实机器人任务中，CDPs常优于标准扩散策略，且在数据稀缺场景下提升更显著。

ICLR2026arxiv_html

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Policy

策略学习

扩散与流式机器人策略的性能常受限于数据收集成本与模型容量瓶颈。本文提出General Policy Composition（GPC），一种无需额外训练的测试时策略组合框架：通过凸组合多个异构预训练策略（如扩散/流匹配、VA/VLA）的分布分数，并以测试时搜索确定最优权重。理论分析表明，凸组合在单步功能目标上优于任一单个分数，且该优势可沿生成轨迹系统性地传播。在Robomimic、PushT、RoboTwin及真实机器人实验上，GPC持续优于所有单一父策略，并展现出跨架构与模态的通用性。

ICLR2026arxiv_html

Capturing Visual Environment Structure Correlates with Control Performance

Policy

策略学习

针对视觉表示评估成本高昂且现有代理指标泛化受限的问题，本文提出以预训练视觉编码器从图像解码环境完整状态（几何、物体结构及物理属性）的能力作为代理指标，利用仿真环境的 ground-truth 状态进行轻量级测量。实验表明，该精度与下游策略成功率在 MetaWorld、RoboCasa 等多种环境及不同学习设置下均呈强相关性，显著优于现有指标且计算成本更低。研究验证了仿真到真实任务的迁移可靠性，并指出编码环境潜在物理状态是提升机器人控制视觉表示的关键方向。

ICLR2026temporary_pdf

Autonomous Play with Correspondence-Driven Trajectory Warping

Policy

策略学习

现有机器人模仿学习受限于人工示教数据的线性扩展瓶颈。本文提出Tether系统，通过语义关键点对应将少量示教轨迹变形适配到新场景，构建了一种数据高效且空间语义鲁棒的开环策略；并在此基础上设计了由视觉语言模型引导的自主功能性玩耍循环，无需人工重置即可持续生成高质量训练数据。实验表明，该方法仅凭少量示教就能在真实环境中连续自主运行26小时，产出超过1000条专家级轨迹，并持续优化下游闭环模仿策略至接近人工示教训练的性能。

ICLR2026arxiv_html

Accelerated co-design of robots through morphological pretraining

Policy

策略学习数据加速/部署

针对机器人形态与控制协同设计长期受限于“每变一次形态就要重学一次策略”的低效循环，本文提出基于可微仿真的形态预训练框架，先在大规模多样化机器人身体上通过梯度优化训练出一个通用控制器，再将其用于进化过程中的零样本评估与快速微调。研究发现，若从头同时协同优化形态与控制器，种群会因“多样性崩溃”而趋于同质化；而采用预训练控制器的零样本进化不仅迅速得到高性能设计，辅以每代微调后还能进一步放大形态多样性，首次在复杂软体机器人上验证了有效的设计重组（crossover）。

ICLR2026arxiv_html

Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies

Policy

策略学习

现有扩散策略在多任务机器人操作中面临模型规模与推理成本急剧上升的难题。本文提出Skill Mixture-of-Experts Policy（SMP），在局部白化动作空间中学习状态自适应的正交技能基，并通过粘性路由与自适应专家激活机制，使每步仅调用少量相关专家生成动作。作者在仿真与真实双臂平台上验证了多任务学习与迁移学习效果，结果表明SMP在取得更高任务成功率的同时，推理延迟与激活参数量均显著低于大规模扩散基线，且学到的技能可在新任务中少量样本快速复用。

ICLR2026arxiv_html

VLMgineer: Vision-Language Models as Robotic Toolsmiths

Planning and Reasoning

规划/推理感知

现有机器人研究多聚焦于控制器优化，本文提出以发明更优工具将问题求解负担从控制策略转移至工具几何设计，视其为一种互补的物理智能。为此构建完全自主的VLMgineer框架，利用视觉语言模型的代码生成与进化搜索迭代共设计工具形态及操作动作，无需任务特定模板。在RoboToolBench的12项日常任务中，该框架较人工规格VLM设计和现有人工工具分别取得64.7%与24.3%的平均归一化提升，验证了基础模型在物理设计先验上的有效性。

ICLR2026temporary_pdf

Towards Improvisational TAMP: Learning Low-Level Shortcuts in Abstract Planning Graphs

Planning and Reasoning

规划/推理

现有任务与运动规划（TAMP）依赖人工预定义技能（如抓取、放置），限制了机器人在复杂物理交互中的即兴能力。本文提出SLAP方法，其核心洞察是利用现有抽象技能的结构，通过无模型强化学习在抽象规划图中自动发现低层捷径选项，无需额外输入即可突破预定义行为边界。在四个长程稀疏奖励的模拟机器人任务中，SLAP将规划长度缩短超过50%，成功率持续优于纯规划与分层RL基线，并能泛化到训练时未见的物体数量与动态物理属性。

ICLR2026arxiv_html

Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Planning and Reasoning

规划/推理三维视觉

针对现有基础模型多聚焦被动感知而缺乏对主动空间探索能力的系统评估，本文提出Theory of Space框架，将空间探索本身作为首要决策问题，通过文本与视觉环境基准测试，考察模型在部分可观测下自主构建、修正和利用空间信念的能力。其核心创新在于空间信念探测机制，通过提示模型输出每一步的认知地图，直接度量其内部空间表征的质量与不确定性。评估发现，主流模型存在显著的主动-被动差距，探索冗余低效；深层诊断表明，除感知瓶颈外，全局空间信念存在时序不稳定性，且视觉模型表现出严重的信念惯性，难以更新过时先验。

ICLR2026arxiv_html

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Planning and Reasoning

规划/推理感知

现有机器人故障检测常限于预定义闭集，难以应对真实世界微妙组合的故障，且详细推理标注昂贵。本文提出ARMOR，将检测与推理建模为多轮自精炼的多任务过程，令视觉语言模型迭代联合优化检测结果与开放式自然语言推理。训练时融合大规模稀疏二元标签与小规模密集推理标注，以离线与在线模仿学习处理异质监督；推理时生成多条精炼轨迹并依自确定性选取最优。实验显示，故障检测率较前方法最高提升30%，推理评分最高提升100%，展现出对异质监督的鲁棒性与超越预定义模式的开放推理能力。

ICLR2026arxiv_html

Self-Improving Loops for Visual Robotic Planning

Planning and Reasoning

规划/推理

现有基于专家演示训练的视觉规划模型难以泛化到未见过的新任务，且仅依赖静态离线数据。本文提出 SILVR，让领域内视频生成模型通过执行自身产出的视觉规划与环境交互，在线收集轨迹并利用稀疏奖励筛选后迭代微调，从而在初始未见的任务上持续自提升；必要时还可引入互联网规模的预训练视频先验。实验表明，该方法在 MetaWorld 和真实机械臂操作任务中均实现多轮性能增长，其中 MetaWorld 任务成功率在 10 次迭代内提升达 285%，且对非完美奖励信号和次优数据具有鲁棒性，最终还能蒸馏为轻量策略以兼顾推理速度。

ICLR2026arxiv_html

SafeFlowMatcher: Safe and Fast Planning using Flow Matching with Control Barrier Functions

Planning and Reasoning

规划/推理策略学习

流匹配规划器虽快但无形式化安全保证，直接在采样中施加控制屏障函数又易因干预中间潜在状态导致分布漂移与局部陷阱。本文提出SafeFlowMatcher，以预测-校正积分器解耦路径生成与安全认证：先由流匹配生成候选路径，再通过基于CBF的二次规划在修正阶段补偿积分误差并施加安全约束，且仅对执行路径而非中间隐状态进行限制。理论证明了安全集的前向不变性与有限时间收敛。在迷宫导航、移动及机器人操作任务中，该方法相较基线实现了更快、更平滑且安全的路径。

ICLR2026arxiv_html

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

Planning and Reasoning

规划/推理

针对视觉-语言-动作（VLA）智能体在长程任务中因单步误差引发级联失败的问题，本文提出ReCAPA框架，通过层次化预测修正在动作、子目标和轨迹三个层级进行跨层对齐与早期偏差纠正，并引入EPR和PAC指标量化错误传播与衰减。实验表明，该方法在VisualAgentBench、MineDojo和AI2-THOR上较强力基线分别提升成功率5.65%、9%和7%。

ICLR2026temporary_pdf

Planning with an Embodied Learnable Memory

Planning and Reasoning

规划/推理

针对现有具身记忆难以应对动态环境中物体移动、计算开销大且依赖多模型启发式集成的问题，本文提出Embodied Perception Memory (EPM)。该记忆以单一VLM基于自我中心视觉维护可动态更新的文本化场景表示，使LLM规划器无需显式查询即可直接推理。训练上结合人类示教模仿与Dynamic Difficulty-Aware Fine-Tuning (DDAFT)在线强化学习。在PARTNR基准上，该方法较基线成功率提升达55%，即便基线使用真实感知仍表现更优。

ICLR2026arxiv_html

One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration

Planning and Reasoning

规划/推理

现有任务与运动规划（TAMP）长期受困于人工构建符号规划域的高成本与低扩展性。本文提出PDDLLM框架，仅凭单次演示轨迹，通过大语言模型推理与物理模拟推演自动生成PDDL规划域（含谓词与动作），并借助Logical Constraint Adapter自动对接低级运动规划器。在九个环境、超过一千二百项任务中，其成功率较六种LLM基线提升至少两成，token消耗更低，且已成功部署于Franka Panda等多款真实机器人。

ICLR2026arxiv_html

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

Planning and Reasoning

规划/推理三维视觉

现有基于多模态大语言模型的具身系统面临纯2D输入空间信息不足与硬编码3D注入损害2D泛化的矛盾，且常忽视物理约束导致计划不可执行。本文提出OmniEVA，通过任务自适应门控路由动态按需注入3D特征，并引入具身感知训练框架将物理约束与任务目标纳入推理过程。该模型在8个具身推理基准中的7个上达到SOTA，并在物体导航与移动操作等下游任务中展现出优异的规划与泛化能力。

ICLR2026temporary_pdf

Natural Language PDDL (NL-PDDL) for Open-world Goal-oriented Commonsense Regression Planning in Embodied AI

Planning and Reasoning

规划/推理

针对开放世界具身智能体在部分可观测与知识不完整条件下的规划难题，本文指出纯LLM/VLM规划易出现幻觉且缺乏因果追踪，而经典PDDL则受限于完整模型假设与穷举实例化。为此，作者提出NL-PDDL，以自然语言灵活描述目标与动作，并将回归规划与LLM常识蕴涵推理结合，自动推断实现子目标所需的观测信息与动作affordance，同时通过lifted回归避免对象枚举，使复杂度与实例数量解耦。在Blocksworld及ALFWorld（文本/视觉）上的实验表明，该方法在长程复杂任务中显著优于基线，并具备跨模态泛化能力。

ICLR2026arxiv_html

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Models for Embodied Task Planning

Planning and Reasoning

规划/推理感知

针对家庭移动操作机器人需同时导航与操作的需求，现有场景图往往仅编码单一空间或功能关系、局限于静态快照且缺乏任务相关性。为此，本文提出MomaGraph，首次将空间-功能关系统一并引入部件级交互节点，构建动态且任务对齐的统一表示；并配套推出首个大规模任务驱动场景图数据集MomaGraph-Scenes及综合评估基准MomaGraph-Bench。进而以强化学习训练7B视觉语言模型MomaGraph-R1，采用Graph-then-Plan范式实现零样本任务规划，在基准上取得71.6%的准确率，较最优开源基线提升11.4%，并有效迁移至真实机器人实验。

ICLR2026arxiv_html

Experience-based Knowledge Correction for Robust Planning in Minecraft

Planning and Reasoning

规划/推理

现有大语言模型在Minecraft长程规划中常携带错误的物品依赖与动作先验，且难以通过提示或反馈自我纠正。本文提出XENON，其不依赖LLM自省，而是基于成败经验算法化修正外部知识：通过Adaptive Dependency Graph利用成功记录修正依赖关系，并通过Failure-aware Action Memory利用失败记录修正动作知识并归因失败原因。实验表明，该方法在多项Minecraft基准中显著优于现有智能体，且仅用7B开源模型即可超越依赖更大专有模型的系统。

ICLR2026arxiv_html

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

Planning and Reasoning

规划/推理触觉

针对机器人操作中数据稀缺与具身异构造成的“感知-动作鸿沟”，本文提出以“指向”作为统一且具身无关的中间表示，系统定义了四种核心具身指向能力。研究构建了Embodied-Points-200K数据集，并通过两阶段强化微调与多任务奖励设计，训练出3B参数的Embodied-R1模型。该模型在11项基准上取得SOTA，且在SIMPLEREnv仿真与真实XArm任务中实现零样本泛化，较基线提升62%，对视觉干扰亦具强鲁棒性。

ICLR2026arxiv_html

EVLP: Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning

Planning and Reasoning

规划/推理触觉感知

针对复杂长程机器人操作中语言规划与视觉生成割裂、导致多模态规划不一致的问题，本文提出基于单一Transformer的EVLP框架，统一建模语言推理与视觉想象。其核心在于设计双塔视觉模块耦合语义与空间感知，通过双向动态预训练（逆/前向动力学任务）学习环境状态转移，并进一步提出强化监督微调（RSFT），以策略梯度显式对齐文本动作与生成图像的空间逻辑，克服传统最大似然训练对任务无关视觉细节的过度优化。在多个复杂操作基准上，EVLP在指令执行准确率与任务成功率方面均显著优于竞争基线。

ICLR2026arxiv_html

Compositional Visual Planning via Inference-Time Diffusion Scaling

Planning and Reasoning

规划/推理策略学习

针对长程机器人视觉规划，现有方法在噪声空间拼接短程扩散模型片段时易因因子分解失效而产生不一致全局计划。本文核心洞察在于应在Tweedie估计的干净数据域而非噪声中间状态上强制边界一致，将长程规划建模为重叠视频块的链式因子图推断，并通过同步与异步消息传递在推理时传播约束。该无需额外训练的框架在组合规划基准和真实机器人实验上显著优于现有方法，并能泛化到未见的起始-目标组合。

ICLR2026temporary_pdf

BOLT: Decision‑Aligned Distillation and Budget-Aware Routing for Constrained Multimodal QA on Robots

Planning and Reasoning

规划/推理

针对机器人在延迟、内存与能耗严格受限下的多模态多选题决策难题，本文指出传统token级蒸馏与始终开启的测试时增强难以对齐决策表面且浪费资源。为此提出BOLT框架：训练时通过选项级决策蒸馏直接对齐师生在答案选项上的偏好分布；推理时利用置信度、熵等低成本信号进行预算感知路由，仅在预期收益为正时才触发高分辨率重判、检索增强或问题分解。在Robo2VLM-1上，2B学生模型准确率从28.66%提升至50.50%，超越13B教师（36.74%），同时将显存从约26.9GB压缩至3.8GB以内，并改善了校准、风险覆盖权衡与可解释性。

ICLR2026arxiv_html

PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement

Other

感知

现有工作多聚焦3D物体摆放，却忽视接触、支撑、平衡等物理关系，难以生成高密度、物理合理的复杂场景。本文提出PhyScensis，一个由物理引擎驱动的LLM智能体框架：LLM以空间和物理谓词迭代描述布局，物理求解器将其落地为3D场景，并通过多重反馈闭环优化。通过概率编程评估稳定性，该方法实现了对紧凑度与稳定性的细粒度控制。实验表明，其在场景复杂度、视觉质量与物理准确性上优于已有方法，可生成面向机器人操作的开放词汇复杂物理场景。

ICLR2026arxiv_html

On the Generalization Capacities of MLLMs for Spatial Intelligence

Other

三维视觉

现有RGB-only多模态大语言模型在空间推理中忽略相机内参，导致近小远大与焦距-深度等几何歧义无法消解，严重限制跨相机泛化。为此，本文提出Camera-Aware MLLM框架：通过相机射线嵌入将内参注入视觉token，设计相机感知的几何增强强制解耦场景与相机属性，并蒸馏3D视觉基础模型的几何先验。实验表明，该方法在跨相机空间任务中显著优于基线，尤其在分布外相机上保持鲁棒，验证了相机感知是实现可泛化空间智能的必要前提。

ICLR2026arxiv_html

OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds

Other

三维视觉

现有智能体多专注GUI或具身单一领域，但复杂任务需交替交互2D与3D世界，直接混合训练会因动作差异导致数据冲突。作者发现两类数据在浅层具协同性、在深层存冲突，类似人脑大脑-小脑机制，据此提出Layer-heterogeneity MoE：浅层共享参数利用协同，深层分离参数消除冲突，并统一动作空间与大规模数据训练。OmniActor在GUI和具身任务上均超越单一领域训练模型及现有通才智能体，甚至优于专用SOTA模型。

ICLR2026arxiv_html

Interaction-aware Representation Modeling With Co-Occurrence Consistency for Egocentric Hand-Object Parsing

Other

灵巧操作

针对第一视角手-物体解析任务，现有Transformer方法因查询初始化僵化、语义特征引入交互无关噪声且易产生“交互错觉”而导致物理不一致预测。本文提出InterFormer，通过Dynamic Query Generator基于手-物体接触空间动态生成自适应交互查询，利用Dual-context Feature Selector融合交互边界与语义特征以抑制噪声，并引入Conditional Co-Occurrence损失约束手-物体共现关系。实验表明，该模型在EgoHOS及跨域mini-HOI4D数据集上均达到最优性能，具备强泛化能力。

ICLR2026arxiv_html

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Other

其他

现有LLM具身智能体多聚焦于单次物体重排，难以利用历史交互中的个性化知识提供真正辅助。本文从记忆利用视角出发，构建Memento评估框架，从物品语义与用户行为模式两个维度系统考察智能体的个性化能力。研究发现，当前智能体虽能回忆简单物品语义，却难以将序列化的用户模式融入规划，且存在信息过载与多记忆协调失败两大瓶颈。为此，作者提出分层知识图谱用户画像记忆模块以独立管理个性化知识，在单记忆与联合记忆任务中均取得显著提升。

ICLR2026arxiv_html

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Other

其他

现有外视到自视转换方法常受限于同步多视角、初始自视帧或2D手部布局等强假设，难以处理遮挡与视角差异。该工作提出EgoWorld，先利用估计的深度图与3D手部姿态构建并校准点云，再将其重投影到自视视角，最后通过扩散模型补全生成高保真自视图像，并以文本描述增强语义一致性。在H2O、TACO等四个数据集上达到最优性能，且对未见物体、动作、场景及真实环境具有强泛化能力。

ICLR2026arxiv_html

Lifelong Embodied Navigation Learning

Navigation

导航

现有大语言模型驱动的具身导航智能体难以持续习得新技能且易遗忘旧知识。本文提出终身具身导航学习（LENL）任务与Uni-Walker框架，通过DE-LoRA将知识解耦为共享与特定成分，并设计知识继承、专家共激活、子空间正交约束及导航专用思维链机制，在持续学习多场景多指令风格任务时有效缓解灾难性遗忘，实验表明其在LENL设置下达到领先性能并具备跨任务泛化能力。

ICLR2026arxiv_html

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

Navigation

导航策略学习触觉

当前导航基础模型仅靠离线视频预训练，缺乏对物理交互与动态环境的因果推理能力。本文提出S2E框架，通过锚点引导分布匹配稳定离线预训练，并设计残差注意力模块，在仿真中通过强化学习注入反应性行为而不覆盖预训练知识。此外构建NavBench-GS基准进行闭环评估。实验表明，RL后训练可突破纯离线数据扩展的收益递减瓶颈，并在轮式与四足机器人上实现真实场景的零样本泛化。

ICLR2026arxiv_html

Emergence of Spatial Representation in an Actor-Critic Agent with Hippocampus-Inspired Sequence Generator

Navigation

导航三维视觉

该研究提出海马体位置细胞序列源于CA3内在递归回路的长时程传播，可在缺乏连续输入时充当时间记忆缓冲。作者据此构建受海马启发的Actor-Critic导航智能体，以齿状回稀疏化与硬编码CA3序列生成器处理稀疏自我中心视觉输入。实验表明，该架构能在无显式几何线索的连续迷宫中可靠求解，且仅在稀疏输入下优于同等规模LSTM；训练自发涌现局部位置野、输入正交化及任务依赖重映射，表明稀疏编码与序列生成动力学的协同既解释了海马体序列起源，也为稀疏感知下的强化学习导航提供了有效归纳偏置。

ICLR2026arxiv_html

CE-Nav: Flow-Guided Reinforcement Refinement for Cross-Embodiment Local Navigation

Navigation

导航策略学习触觉

CE-Nav针对跨形态局部导航中数据成本高昂、规划控制耦合及多模态决策缺失等瓶颈，提出两阶段IL-then-RL框架：第一阶段利用条件归一化流模型VelFlow离线学习经典规划器的运动学多模态分布，构建无需真实数据的通用专家；第二阶段冻结该专家作为先验，通过课程引导的在线强化学习训练轻量优化器，以极少环境交互补偿特定机器人的动力学与控制器误差。实验表明，该方法在四足、双足及四旋翼平台上均达到SOTA性能，并已完成真实场景部署验证。

ICLR2026arxiv_html

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

Humanoid

人形机器人

针对当前类人行为基础模型在复杂任务中难以平衡prompt精确性与动作鲁棒性的问题，本文提出Task Tokens：在完全冻结预训练BFM（如MaskedMimic）的前提下，仅训练轻量级任务编码器，通过强化学习生成任务专属token，将用户定义的高层目标先验与reward-driven优化无缝结合。该方法在大幅减少可训练参数并提升收敛速度的同时，实现了优异的任务适应与分布外泛化性能，且完整保留了原模型的多模态提示能力与zero-shot鲁棒性。

ICLR2026arxiv_html

HWC-Loco: A Hierarchical Whole-Body Control Approach to Robust Humanoid Locomotion

Humanoid

人形机器人

针对人形机器人从仿真到真实部署时面临的环境动力学失配及安全关键场景，现有方法常因过度正则化或缺乏结构化危险模式建模而难以兼顾任务效率与安全性。本文提出HWC-Loco，一种分层全身控制框架，将策略学习重构为鲁棒优化问题，显式学习极端情形下的安全恢复策略，并通过高层规划器动态权衡目标跟踪与安全保障，结合ZMP动态约束避免过度保守。在多样化地形、强外部位移扰动及H1和G1等不同机型的仿真与真机实验中，该框架在任务完成率、抗扰鲁棒性、动作自然度及新任务可扩展性上均展现出优于现有方法的表现。

ICLR2026arxiv_html

From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance

Humanoid

人形机器人

现有语言驱动人形机器人运动的多级流程（生成人体动作、重定向、跟踪）存在误差累积、延迟高且语义与控制耦合弱的问题。本文提出RoboGhost框架，其核心洞察是将语言生成的运动潜变量作为一级条件直接驱动策略，通过混合因果Transformer-扩散架构获得长程一致且多样的运动隐表示，再由扩散策略从噪声中直接降噪出可执行动作，彻底绕过显式解码与重定向。实验表明，该方法将部署延迟从17.85秒降至5.84秒，成功率提升5%并降低跟踪误差，且在真实人形机器人上实现了语义对齐的敏捷运动。

ICLR2026arxiv_html

BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning

Humanoid

人形机器人策略学习触觉

针对现有人形全身控制方法多依赖on-policy强化学习与显式跟踪奖励、难以跨任务泛化且缺乏统一任务接口的问题，本文提出BFM-Zero，一种基于前向-后向表示的在线off-policy无监督强化学习算法。该算法利用动捕数据正则化策略学习，并引入域随机化与非对称历史依赖训练以弥合仿真到现实的差距，进而学习统一的任务潜空间与可提示策略，在仿真及真实Unitree G1机器人上实现了奖励优化、目标姿态到达与动作跟踪等任务的zero-shot执行，并支持通过少量交互快速适应新任务。

ICLR2026arxiv_html

VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation

Dexterous Manipulation

灵巧操作感知

现有双手操作要么依赖大规模示教数据与模型重训练，要么模块化系统在动态场景中缺乏灵活性。VLBiMan提出一种基于单次示教的视觉-语言锚定框架：先将任务感知分解为左右臂原语，再利用VLM提取物体锚点并在语义与几何约束下自适应调整，最后自主组合轨迹。实验表明，该方法在10项复杂双手任务中显著减少示教需求，实现了长程技能组合泛化、对新物体与外部干扰的鲁棒性，以及跨机器人平台的免重训练迁移。

ICLR2026arxiv_html

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

Dexterous Manipulation

灵巧操作感知

现有灵巧手操作多局限于静态抓取，缺乏开放词汇语言引导且难以生成时序连贯的动态交互。UniHM提出首个统一的语言驱动灵巧手操作框架，通过将异构手形态映射至共享离散码本实现跨手型泛化，并仅利用人-物交互视频训练视觉语言模型，避免昂贵遥操作数据。其物理引导的动态细化模块在生成与时间先验下分段联合优化，确保操作序列平滑且物理可行。实验表明，该方法在已见与未见物体、轨迹及真实场景中均达领先性能，展现出强泛化与高物理可行性。

ICLR2026arxiv_html

SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

Dexterous Manipulation

灵巧操作

针对长程、接触丰富的机器人操作（如可变形物体折叠）中演示数据质量参差不齐且难以量化的问题，本文提出阶段感知奖励建模框架SARM。该框架利用自然语言子任务标注为变长演示生成稳定的进度标签，联合预测任务阶段与细粒度进展，避免帧索引标签的脆弱性。在此基础上，作者提出Reward-Aligned Behavior Cloning（RA-BC），依据奖励估计对演示进行过滤与重加权。真实世界T恤折叠实验表明，该方法将平整与揉皱起始状态的成功率分别从vanilla BC的8%和0%提升至83%和67%，显著优于基线。

ICLR2026arxiv_html

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

Dexterous Manipulation

灵巧操作视频

针对机器人模仿学习依赖真实示教或大规模视频数据集带来的采集成本高、域差距大等问题，该研究提出RIGVid框架，探索仅通过模仿AI生成视频执行复杂操作任务的可能性。系统基于视频扩散模型生成候选演示，利用VLM自动过滤失败样本，并通过6D物体姿态跟踪提取轨迹后重定向至机器人。真实实验表明，过滤后的合成视频监督效果可与人类示教媲美，且生成视频作为监督信号优于VLM关键点预测等紧凑表示，6D姿态跟踪也显著优于点跟踪和光流等轨迹提取方法。

ICLR2026arxiv_html

RFS: Reinforcement learning with Residual flow steering for dexterous manipulation

Dexterous Manipulation

策略学习灵巧操作触觉

基于流匹配的生成式模仿学习策略虽能捕捉多模态行为，但预训练后泛化有限，现有微调方法也难以同时兼顾局部修正与全局调整。本文提出残差流引导（RFS），将残差动作学习与潜在噪声调制统一为策略调制框架，在冻结预训练流匹配策略参数的前提下，通过强化学习联合优化残差动作与潜变量分布，实现局部精细纠错与全局行为探索的互补。实验表明，RFS在仿真中实现了高效的多指抓取，并能通过少量真实数据离线微调，直接迁移到真实机器人并取得优于基线的表现。

ICLR2026arxiv_html

Primary-Fine Decoupling for Action Generation in Robotic Imitation

Dexterous Manipulation

策略学习灵巧操作

针对机器人模仿学习中动作序列多模态分布的挑战，现有离散化方法会损失细粒度变化，而单阶段连续生成策略则容易出现模态跳变与轨迹不连续。本文提出PF-DAG两阶段框架，首先利用VQ-VAE将动作块压缩为少量离散primary modes并由轻量策略稳定选择，随后通过MeanFlow策略在选定模态下生成高保真连续动作。理论分析证明该设计可获得严格低于单阶段生成策略的MSE下界，并在Adroit、DexArt、MetaWorld共56项仿真任务及真实世界触觉灵巧操作中验证了有效性与稳定性。

ICLR2026arxiv_html

Learning to Grasp Anything By Playing with Random Toys

Dexterous Manipulation

灵巧操作抓取

受儿童通过简单玩具习得抓取并泛化至复杂物体的认知科学启发，本文提出仅用球体、长方体、圆柱体和圆环随机组装的"Cézanne toys"训练抓取策略，并引入检测池化机制（DetPool）提取以物体为中心的视觉表征，实现从玩具到真实物体的强零样本泛化。仅用250个玩具与1500条演示训练，在YCB数据集64个真实物体上达到67%抓取成功率，优于依赖大量域内数据的最先进方法，并在Franka机器人与H1-2灵巧手上验证了跨本体鲁棒性。

ICLR2026arxiv_html

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Dexterous Manipulation

灵巧操作视频

针对机器人模仿学习的数据稀缺与遥操作扩展瓶颈，该研究利用Apple Vision Pro采集EgoDex数据集，通过多相机与设备端SLAM原生记录829小时第一人称视频及手指关节级精确3D姿态，将人手作为通用本体以实现被动式规模扩展。该数据集涵盖9000万帧、33.8万条演示与194项桌面灵巧操作任务，并建立了手部轨迹预测基准与评估指标。

ICLR2026arxiv_html

DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

Dexterous Manipulation

灵巧操作

现有灵巧手内旋转方法多受限于简单物体与固定腕部姿态，sim-to-real 迁移中复杂接触动力学与高昂数据采集成本是核心瓶颈。本文提出 DexNDM，其关键洞察是将高维手-物交互动力学按关节分解，利用各关节本体感觉历史学习低维神经动力学模型，从而以极少真实数据矫正仿真策略；配合无需人工重置的自主负载随机化数据收集。实验表明，单一策略在真实世界中首次实现了对复杂形状、高长宽比（达 5.33）及多样腕部朝向的通用空中旋转，并验证了复杂遥操作任务的可行性。

ICLR2026temporary_pdf

DexMove: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands

Dexterous Manipulation

灵巧操作触觉

现有非抓握操作多依赖夹爪或推杆，灵巧多指手的潜力尚未被充分挖掘。本文提出DexMove框架，其核心洞察在于利用多指分布式接触提升操作稳定性与效率。该方法通过大规模仿真生成物理合理的腕-指轨迹，并结合基于视觉触觉传感器的可穿戴设备捕获人手演示的指间力分布，进而训练流式策略实现腕-指协同控制。真实实验中对六种不同物体操作成功率达77.8%，较消融基线提升36.6%且效率提高近300%，并能泛化至语言条件的长程整理任务。

ICLR2026temporary_pdf

Cross-Embodied Co-Design for Dexterous Hands

Dexterous Manipulation

灵巧操作

现有灵巧手研究常将硬件设计与控制解耦，限制了灵巧性且难以跨越仿真到现实的鸿沟。本文提出House of Dextra框架，通过形态条件化的跨具身策略联合优化机械手形态与控制，并基于真实模块化组件的语法生成可制造的设计，实现24小时内完成从设计、训练到真实部署的端到端流程。实验表明，该框架生成的非拟人化手形在18个新物体的真实抓取旋转任务中可直接零样本迁移，且形态结构是影响操作性能的首要因素。

ICLR2026arxiv_html

World2Minecraft: Occupancy-Driven simulated scenes Construction

Benchmark and Dataset

数据集/基准感知

针对现有仿真环境不可编辑、真实扫描存在局限的问题，本文提出World2Minecraft框架，基于3D语义占用预测将真实场景重建为可编辑的Minecraft世界。其核心洞察在于体素化占用表示与Minecraft方块结构天然契合，无需复杂网格转换。作者进一步设计了低成本自动化数据生成管线，构建出包含156个场景、超10万张图像的MinecraftOcc数据集。实验表明，该数据集对现有SOTA方法构成显著挑战，作为辅助训练可有效提升真实世界基准性能，并在重建场景中成功验证了视觉语言导航任务。

ICLR2026arxiv_html

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes

Benchmark and Dataset

规划/推理三维视觉数据集/基准感知

现有视觉语言模型评估多局限于单视角设置，难以反映机器人平台日益普及的多相机配置需求。为此，本文提出MV-RoboBench基准，通过1.7K人工精选的问答对系统评估模型在机器人操作场景中的多视角空间推理能力，涵盖空间理解与机器人执行两类任务。实验表明，当前最先进模型仍远逊于人类表现；空间智能与机器人任务执行能力在多视角场景下呈正相关，而单视角空间理解基准的优异表现无法可靠迁移至多视角机器人任务。

ICLR2026arxiv_html

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation

Benchmark and Dataset

数据集/基准

现有机器人操作数据集普遍存在规模有限、多样性不足且缺乏plan-then-execute范式所需中间表示监督的问题。为此，本文提出RoboInter套件，其核心贡献包括：半自动标注工具RoboInter-Tool；涵盖571个场景、23万余片段的RoboInter-Data，提供10余类逐帧对齐的中间表示密集标注；29类具身VQA基准RoboInter-VQA；以及基于中间监督连接高层规划与低层执行的RoboInter-VLA框架。实验表明，该套件在规模与标注质量上显著优于现有工作，并为跨平台的真实世界闭环操作提供了可行基础。

ICLR2026arxiv_html

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

Benchmark and Dataset

世界模型数据集/基准

针对现有仿真平台在任务覆盖、环境多样性与数据规模上的不足，以及真实世界评估难以系统复现的问题，作者基于RoboCasa推出RoboCasa365，构建了包含365个日常家庭移动操作任务、2500个多样化厨房场景的大规模仿真基准，并提供超600小时人类演示与1600小时合成数据，以支持多任务学习、基础模型训练与终身学习的系统评测。实验深入分析了任务多样性、数据规模及环境变化对策略泛化的影响，为通用机器人学习提供了关于关键驱动因素的经验洞察。

ICLR2026arxiv_html

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Benchmark and Dataset

规划/推理数据集/基准

现有LLM任务规划器默认人类指令清晰无歧义，但现实中非专家用户（如老人、儿童）常用“它”“那个重的东西”等隐式指代表达，导致核心指称模糊。本文提出首个基于语用学系统建模此类模糊的基准REI-Bench，通过3级指称难度与3级对话上下文记忆构建9级模糊度评测。实验发现隐式指称可使规划成功率暴跌36.9%，且常规提示工程（CoT、ICL等）收效甚微；为此提出任务导向上下文认知（TOCC），将语言理解与规划解耦，显著缓解该问题并达到当前最优。

ICLR2026arxiv_html

MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation

Benchmark and Dataset

灵巧操作数据集/基准

针对多步骤双手移动操作中人类遥操作数据收集成本高昂的问题，现有自动数据生成方法因未考虑移动底座带来的可达性与主动相机带来的可见性而难以适用。本文提出MoMaGen，将数据生成建模为同时满足硬约束（如可达性）与平衡软约束（如导航可见性）的约束优化问题，统一了现有X-Gen方法框架。实验表明，该方法可基于单条人类演示生成高度多样的数据集，并训练出有效的模仿学习策略，仅需40条真实数据微调即可实现真实机器人部署。

ICLR2026arxiv_html

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Benchmark and Dataset

策略学习触觉数据集/基准

当前强化学习领域缺乏对智能体记忆能力进行系统评估的通用基准，在涉及部分可观测的桌面机器人操作中尤为突出。本文提出MIKASA综合评测框架，建立了记忆密集型任务的分类体系，并推出MIKASA-Base统一基准与包含32个任务的MIKASA-Robo机器人操作套件，覆盖属性保持、序列回忆与动态追踪等典型记忆场景。研究同步开源了专家轨迹数据集，系统评估了在线RL、离线RL及VLA基线模型，为记忆增强型算法在真实世界机器人任务中的标准化评测与能力诊断提供了基础支撑。

ICLR2026temporary_pdf

MIMIC: Mask-Injected Manipulation Video Generation with Interaction Control

Benchmark and Dataset

数据集/基准视频

针对具身智能交互数据稀缺的瓶颈，本文提出面向操作场景的两阶段图像到视频扩散框架MIMIC。其核心洞察是利用参考视频驱动生成：先通过Interaction-Motion-Aware模块提取语义掩码轨迹以表征交互，再以Pair Prompt Control机制引入参考视频解耦物体与相机运动，从而生成物理合理且时序连贯的操作视频。实验表明，该方法在包含人手与夹爪的操作基准上显著优于现有方法，能有效保留操作意图与细粒度交互细节，并泛化至可变形物体。

ICLR2026arxiv_html

LeRobot: An Open-Source Library for End-to-End Robot Learning

Benchmark and Dataset

数据集/基准

机器人学习领域长期面临工具链碎片化与闭源壁垒，中间件和数据集格式互不兼容严重阻碍了研究复现。本文提出开源库LeRobot，将真实机器人底层电机控制、大规模多模态数据集的存储与流式传输、异步推理以及PyTorch版SOTA算法整合为统一的端到端栈，并原生支持低成本开源硬件。通过标准化的API与可扩展的隐式学习范式，LeRobot显著降低了真实世界机器人研究的入门门槛，为社区提供了可复现的开放基准。

ICLR2026arxiv_html

Image Quality Assessment for Embodied AI

Benchmark and Dataset

数据集/基准

现有图像质量评估多面向人类或通用机器，难以覆盖具身AI在认知、决策与执行各阶段对图像失真的敏感度差异。本文基于Mertonian系统构建“感知-认知-决策-执行”的具身IQA框架，建立了含3.6万余对参考/失真图像、超500万条VLM/VLA/真机标注的Embodied-IQA数据库。实验显示，15种主流IQA方法对具身任务图像可用性的预测能力不足；通过在真实世界执行1500余次任务，进一步验证了认知、决策与执行之间的内在关联，表明具身AI亟需更专门化的质量指标。

ICLR2026arxiv_html

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Benchmark and Dataset

世界模型数据集/基准

ENACT 探究以非具身方式训练的视觉语言模型是否具备具身认知能力。它将评估转化为以自我中心交互为核心的世界建模任务，设计前向与逆向序列重排两种 VQA 形式，迫使模型基于场景图变化推理动作与观测的时序关系。实验显示，前沿 VLM 在长程家庭活动中的准确率远低于人类，且随交互时长增加差距扩大；模型在逆向任务上表现更优，但存在显著的拟人化偏见，对右利手动作及偏离人眼特性的相机参数更为敏感。

ICLR2026arxiv_html

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels

Benchmark and Dataset

策略学习数据集/基准数据

针对通用机器人策略在特定任务上表现不足、需大量任务特定数据微调的问题，本文提出 DataMIL，将 datamodels 范式引入机器人模仿学习以进行端到端的数据筛选。不同于基于语义或视觉相似性的启发式方法，DataMIL 直接估计各数据点对策略性能的真实影响，并通过任务特定数据上的替代损失函数避免昂贵的环境 rollout。在 MetaWorld、LIBERO 及真实世界等 60 余项操作任务中，该方法成功从 Open X-Embodiment 等大规模数据集中筛选出提升性能的数据，相比基线实现约 10% 的成功率提升。

ICLR2026arxiv_html

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Benchmark and Dataset

数据集/基准感知数据

针对实体AI数据收集成本高昂的问题，本文提出D2E框架，利用桌面交互（特别是游戏）作为预训练基础。该工作构建了OWA工具包实现大规模同步录制与152倍数据压缩，并设计Generalist-IDM通过时间戳感知的下一事件预测实现跨游戏零样本泛化，从而对YouTube游戏视频进行伪标注扩展数据。基于1.3K+小时数据预训练的1B参数模型，在LIBERO操作和CANVAS导航任务上分别达到96.6%和83.3%的成功率，匹敌甚至超越3.3B至7B规模的专用模型，验证了桌面数据向实体任务迁移的有效性。

ICLR2026temporary_pdf

CoNavBench: Collaborative Long-Horizon Vision-Language Navigation Benchmark

Benchmark and Dataset

导航数据集/基准感知

现有视觉语言导航研究多聚焦单机器人逐步执行，忽视了真实场景中多机协作的并行效率与机器人间干扰。本文提出首个协作长时程视觉语言导航基准CoNavBench，涵盖4048段单/多机片段及图级注释，并构建自动化图驱动生成平台NavCraft，以两级分层智能体实现长程任务分解、角色分配与带验证的交接调度。基于Qwen2.5-VL-3B的协作策略在该基准上训练后，相较强单机器人基线显著缩短完成时间，步级成功率提升18.11%，表明协作机制可有效优化长时程导航性能。

ICLR2026arxiv_html

CitySeeker: How Do VLMs Explore Embodied Urban Navigation with Implicit Human Needs?

Benchmark and Dataset

导航数据集/基准

现有视觉语言模型虽能遵循显式逐步导航指令，却难以应对城市中"我渴了"这类隐式人类需求。本文提出CitySeeker基准，涵盖8个城市共6440条轨迹与7种目标场景，评估模型在动态城市场景下的隐式需求推理与视觉定位能力。实验表明，即使顶尖模型任务完成率也仅21.1%，长程推理错误累积、空间认知匮乏与经验回忆不足是核心瓶颈。作者据此提出模仿人类认知地图的回溯、空间认知增强与记忆检索（BCR）策略，为提升VLM应对"最后一公里"导航挑战的空间智能提供了可行路径。

ICLR2026arxiv_html

AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory

Benchmark and Dataset

世界模型数据集/基准

现有VLA基准多聚焦家庭场景，科学实验室等高精度专业环境亟待探索。为此，本文提出AutoBio仿真平台与基准测试，针对生物实验室需求，开发了仪器数字化管线、螺纹与棘爪等专用物理插件及支持透明材质与动态界面的PBR渲染栈，并构建了三档难度的真实实验任务。对π0和RDT等SOTA VLA模型的评测表明，当前模型在科学工作流的高精度操作、视觉推理与长程指令遵循上仍存在显著不足。

ICLR2026arxiv_html

PD2GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

3D Vision

三维视觉仿真到现实感知

现有自监督关节物体建模方法多对离散交互状态进行独立重建再跨状态匹配，易造成表示碎片化与运动漂移，且难以处理多部件连续变形。本文提出PD2GS，将任意交互状态视为共享规范高斯场的连续变形，通过潜码驱动可变形高斯泼溅，并设计基于变形轨迹聚类与SAM边界感知的粗到细分割策略，实现无监督部件级解耦与运动学建模。此外，作者发布真实到仿真数据集RS-Art，实验表明该方法在几何与运动学精度及连续控制一致性上优于既有方法。

ICLR2026arxiv_html

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

3D Vision

世界模型三维视觉仿真到现实感知

针对机器人操作依赖2D图像泛化不足、而真实深度相机噪声严重制约几何感知的问题，本文提出相机深度模型（CDMs）作为即插即用模块，通过建模真实深度相机的噪声模式，利用神经数据引擎在仿真中合成高质量配对数据，并借助引导滤波解决噪声尺度不匹配，将RGB与原始深度恢复为去噪的精确度量深度。实验表明，CDMs使真实深度精度逼近仿真水平，首次实现了仅基于原始仿真深度训练的策略在真实机器人上零样本迁移，在涉及关节、反光及细长物体的长程操作中无明显性能退化，从感知层面弥合了几何sim-to-real鸿沟。

ICLR2026arxiv_html

Geometry-aware 4D Video Generation for Robot Manipulation

3D Vision

三维视觉视频感知

现有视频生成模型往往难以兼顾时间连贯与跨视角3D几何一致，限制了机器人在复杂场景中的操作规划。本文提出几何感知的4D视频生成框架，利用跨视角点云图对齐的几何一致监督，在预训练视频扩散模型上学习共享3D场景表示，仅凭各视角单张RGB-D输入即可生成时空对齐的未来视频，无需相机位姿。实验表明，该方法在模拟与真实机器人任务中显著提升了多视角预测的稳定性和空间一致性，并能通过现成6DoF姿态跟踪器直接从生成视频中恢复机器人末端执行器轨迹，实现对新视角的泛化。

CVPR2026arxiv_html

XL-VLA: Cross-Hand Latent Representation for Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作灵巧操作感知

现有VLA模型在灵巧操作中受限于不同机械手关节空间差异大、数据难以复用的问题。本文提出XL-VLA，通过无监督自编码器学习一个跨本体的统一潜在动作空间，使异构灵巧手能够共享该空间进行联合训练，并直接嵌入标准VLA架构。实验表明，该方法在四种真实灵巧手上的十个任务中持续优于原始关节空间的基线，并实现了对新本体的零样本泛化。

CVPR2026arxiv_html

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

Vision-Language-Action Models

视觉语言动作灵巧操作数据集/基准视频感知

针对灵巧手操作数据采集昂贵、机械手异构及控制维度高的难题，本文提出UniDex基础套件：通过人在环重定向与视觉对齐，将第一人称人类视频转化为覆盖8种机械手（6–24自由度）、逾50K轨迹的机器人中心数据集UniDex-Dataset；并设计功能-执行器对齐空间FAAS统一异构机械手的动作表征，进而训练3D VLA策略UniDex-VLA。此外，UniDex-Cap采集装置支持人机数据联合训练以降低示教成本。在真实工具使用任务中，UniDex-VLA取得81%平均任务进度，显著优于既往VLA基线，并展现出零样本跨手泛化能力。

AlphaXiv Project Code

CVPR2026arxiv_html

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Vision-Language-Action Models

视觉语言动作感知

现有视觉-语言-动作模型多在固定视角下训练，难以统一语义驱动的主动感知与动态视角的鲁棒执行。SaPaVe解耦相机与机械臂动作空间，采用自底向上两阶段策略：先在ActiveViewPose-200K上学习语义相机控制，再联合优化主动操作，并引入3D几何感知模块提升动态视点下的执行稳定性。实验表明，该方法在仿真与真实环境中均显著优于GR00T-N1与π0等基线，在ActiveManip-Bench上取得75.2%成功率，真实任务成功率最高提升31.25个百分点。

CVPR2026arxiv_html

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作策略学习感知

现有VLA模型的强化学习后训练受困于奖励稀疏，失败轨迹信息被浪费。本文提出SRPO，通过在当前批次内以模型自身成功轨迹作为自参考，为失败样本赋予基于世界模型隐空间表征的渐进奖励，从而摆脱对外部演示或手工奖励工程的依赖。在LIBERO基准上，该方法仅用200步RL便将成功率从48.9%提升至99.2%，并在LIBERO-Plus上取得167%的稳健性增益，同时验证了其真实世界有效性。

CVPR2026arxiv_html

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作感知加速/部署

VLA模型在实际部署中面临计算与内存瓶颈，但现有加速方案多聚焦视觉前端，忽略了语言骨干与Diffusion Transformer动作头的量化敏感性。本文提出首个面向VLA系统的训练后量化框架QuantVLA，通过选择性量化布局、注意力温度匹配与输出头平衡三项尺度校准机制，在不修改架构且无需重训练的前提下，首次实现对DiT动作头的稳定低比特量化。在LIBERO仿真环境中，该框架不仅取得超过全精度基线的任务成功率，还为量化组件带来约70%的相对内存节省。

CVPR2026arxiv_html

OptimusVLA: Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Vision-Language-Action Models

视觉语言动作感知加速/部署

现有分层VLA模型的动作生成受限于高斯噪声先验与目标分布差距大导致的推理低效，以及仅依赖当前观测造成的时间鲁棒性不足。为此，本文提出OptimusVLA，通过全局先验记忆（GPM）以检索到的任务级先验替代标准噪声初始化生成过程，显著缩小先验-目标差距并降低函数评估次数；同时利用局部一致性记忆（LCM）动态建模历史动作序列以推断任务进度并注入一致性约束，保障时序连贯性。实验表明，该方法在LIBERO、CALVIN及RoboTwin 2.0仿真基准和真实世界长程/泛化任务中均显著优于基线，并带来2.9倍推理加速。

CVPR2026arxiv_html

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作感知

现有VLA模型多假设马尔可夫性质，仅依赖当前观测导致时间近视，堆叠历史帧又带来冗余。HiF-VLA将运动视为时间动态的紧凑表征，提出双向时间推理框架：编码过去运动获取后见先验，结合指令与观测进行预见推理，并通过后见调制的联合专家实现“边行动边思考”。该方法在LIBERO-Long和CALVIN ABC-D基准上取得领先性能且推理延迟增加甚微，在真实世界长程操作任务中亦有显著提升。

CVPR2026arxiv_html

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Vision-Language-Action Models

视觉语言动作规划/推理感知加速/部署

现有推理型视觉-语言-动作模型依赖冗长显式思维链，推理延迟过高难以满足机器人实时控制需求。Fast-ThinkAct提出可言语化的隐式推理框架，通过奖励偏好引导的蒸馏与操作轨迹对齐，将语言和视觉规划能力压缩为紧凑连续隐式token，再以推理增强策略学习桥接隐式规划与动作执行。实验表明，该方法在保持长程规划、少样本适应和故障恢复能力的同时，推理延迟较现有最优推理VLA降低达89.3%。

CVPR2026arxiv_html

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

Vision-Language-Action Models

视觉语言动作感知

现有视觉-语言-动作模型普遍存在参数量大、依赖大规模机器人数据预训练的问题，且端到端训练易损害视觉-语言骨干的语义表征。为此，本文提出仅0.77B参数的轻量级VLA模型Evo-1，采用原生多模态VLM骨干，引入跨模态调制扩散Transformer与优化集成模块，并通过两阶段训练逐步对齐动作与感知以保留语义空间。该模型无需机器人数据预训练，在Meta-World和RoboTwin上取得新SOTA，较此前最佳分别提升12.4%和6.9%，LIBERO达94.8%，真实世界任务成功率78%，且具备高推理频率与低显存占用。

CVPR2026arxiv_html

CoWVLA: Chain of World: World Model Thinking in Latent Motion

Vision-Language-Action Models

视觉语言动作世界模型感知

现有视觉-语言-动作模型缺乏对未来动态的预测能力，直接预测未来帧的范式会浪费大量计算在冗余背景重建上，而潜在动作方法又缺乏时间连续性与世界知识。该文提出CoWVLA，利用预训练视频VAE将视频解耦为结构与运动隐变量，在预训练阶段令模型根据指令和初始帧推断连续隐式运动链并预测段末帧，再通过共微调联合建模稀疏关键帧与动作序列以实现对齐。实验表明，该方法在机器人仿真基准上优于现有的世界模型与潜在动作方法，且保持适中的计算效率。

CVPR2026arxiv_html

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作感知

现有VLA模型在推理时普遍采用固定动作块长度，难以在多样任务中平衡响应速度与执行一致性。本文提出Adaptive Action Chunking (AAC)，以动作熵为信号在推理时动态决定块大小：预测不确定性高时采用短块以提升反应性，不确定性低时采用长块以增强时序一致性与效率，且无需额外训练或修改架构。在模拟与真实机器人操作实验中，AAC显著提升了任务成功率与动作安全性。

CVPR2026arxiv_html

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作感知

现有VLA模型多通过语言子任务或视觉目标等间接推理指导动作生成，难以弥合高层语义与低层运动指令间的鸿沟。本文提出Action Chain-of-Thought范式，将推理过程直接置于动作空间：显式动作推理器合成粗粒度参考轨迹，隐式动作推理器提取潜在动作先验，二者协同构成动作链以指导策略学习。实验表明，ACoT-VLA在仿真与真实机器人任务中均取得了更优性能。

CVPR2026arxiv_html

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

Robot Learning and Policy

人形机器人策略学习仿真到现实

现有人形机器人多聚焦盲行或静态操作，缺乏自主移动操作能力，且真实数据采集成本过高。VIRAL提出纯仿真训练的视觉sim-to-real框架：先以特权RL教师学习长程移动操作，再通过DAgger与行为克隆混合蒸馏为视觉学生策略。研究表明，将仿真规模扩展至数十块GPU是训练可靠的关键，并需配合大规模视觉域随机化与真机硬件对齐实现零样本迁移。在Unitree G1上的测试显示，该RGB策略无需真实世界微调即可连续完成最多54轮移动操作，泛化于多样空间与外观变化，性能逼近专家遥操水平。

AlphaXiv Project Code

CVPR2026arxiv_html

GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer

Robot Learning and Policy

三维视觉策略学习仿真到现实

现有sim-to-real方法多孤立处理每次迁移，导致重复调优且浪费历史经验。本文提出GeCo-SRT，建立持续跨任务sim-to-real迁移范式，利用局部几何特征兼具域不变与任务不变的双重特性作为可复用知识媒介。方法通过几何感知混合专家模块动态激活专家以弥合观测差异，并辅以几何专家引导的优先经验回放防止持续学习中的灾难性遗忘。在四项机器人操作任务的实验中，该方法相比基线平均提升52%，且新任务仅需1/6数据即可达到同等成功率。

CVPR2026arxiv_html

Contact-Aware Neural Dynamics

Robot Learning and Policy

策略学习

针对接触丰富的灵巧操作任务中仿真到现实的巨大动力学鸿沟，现有显式系统辨识与忽视接触的隐式残差方法难以捕捉真实世界的高维、状态相关及非平滑接触动态。本文提出了一种基于触觉信号的隐式仿真到现实对齐框架：以现成仿真器为先验，先在大规模仿真数据上训练条件于接触信息的神经前向动力学模型，再通过少量真实交互与触觉数据进行微调，使模型隐式对齐仿真与真实状态。实验表明，该接触感知神经动力学模型显著提升了状态预测精度，并能有效评估与改进纯仿真训练的策略。

CVPR2026arxiv_html

Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航

开放世界具身AI的可复现闭环评估长期受限于高保真仿真环境。针对现有视频3DGS方法因纯RGB重建导致几何不准、尺度缺失及视角外推退化等问题，本文提出Wanderland框架，采用LiDAR与多传感器融合采集及LIV SLAM重建，构建530个室内外城市场景的数据集。工作系统揭示了纯视觉管线的扩展瓶颈，证明精确度量几何对视角合成与导航策略评估可靠性的关键影响，为开放世界具身导航建立了可信的仿真基准。

CVPR2026arxiv_html

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航三维视觉

Vision Language Models在精确空间推理上仍显不足。本文提出Double Interactive Reinforcement Learning（DIRL），采用“教学-探索”两阶段框架：先融合单工具交互RL专家的演示与多工具前沿模型轨迹进行监督学习，再在全工具集上执行交互式强化学习以精炼多工具协同；并设计Toolshed系统支持训练阶段的高吞吐工具调用。所得模型SpaceTools在RoboSpatial-Home、BLINK等多个空间推理基准上达到SOTA，在真实7自由度机器人操控任务中实现86%成功率，较纯SFT与RL基线均有显著提升。

CVPR2026arxiv_html

GLMap: Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航三维视觉

针对现有语义地图难以同时保留显式几何、多尺度语义并与大模型原生兼容的问题，本文提出多尺度高斯-语言地图GLMap。其核心在于构建基于2D网格索引的语义单元，每个单元联合存储自然语言描述与3D高斯表征，在实例与区域层面编码多尺度语义，从而无需额外投影即可零样本适配大模型。此外，提出的Gaussian Estimator可从稠密点云直接解析推导高斯参数，实现高效增量更新。在ObjectNav、InstNav和SQA任务上的实验表明，该方法有效提升了目标导航与情境推理性能。

CVPR2026arxiv_html

Dexterous World Models

Embodied Navigation, Planning and Simulation

世界模型规划/推理导航灵巧操作

现有数字孪生多局限于静态导航与视图合成，难以支持由灵巧手部操作驱动的具身交互。本文提出 Dexterous World Models（DWM），将沿相机轨迹渲染的静态场景视频与第一人称手部网格序列共同作为条件，基于视频修复扩散先验仅建模动作引起的残差动态，在保持未改变区域不变的同时合成物理合理且时序一致的交互视频。通过融合合成第一人称交互数据与固定摄像头真实视频进行训练，实验表明该方法在复杂抓取、开闭等操作中实现了良好的场景与相机一致性，并可作为视觉世界模型用于候选动作的视觉结果评估。

AlphaXiv Project Code

CVPR2026arxiv_html

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

Benchmark and Dataset

视觉语言动作数据集/基准感知

现有视觉-语言-动作模型在标准机器人操作基准上的高分往往掩盖了其严重的鲁棒性缺陷。本文通过在物体布局、相机视角、机器人初始状态、语言指令、光照等七个维度引入系统性受控扰动，对多种主流VLA模型进行深度脆弱性分析。研究发现，模型对视觉与本体感知扰动极度敏感，性能可从95%骤降至30%以下，且往往完全忽略语言指令，暴露出虚假的多模态理解能力。论文进一步揭示了组合泛化差距，并开源了LIBERO-Plus基准，推动社区采用更能反映真实环境变化的评估方式。

RSS2025arxiv_html

You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations

General

灵巧操作视频

针对现有双臂操作依赖预定义分类或繁琐遥操作而难以扩展的局限，本文提出YOTO框架，仅需单次人类双手演示视频即可提取关键帧轨迹并注入双臂机器人，再通过真实世界自动回滚与点云几何变换快速增殖训练数据，进而基于物体级点云观察和关键帧预测训练专用的双臂扩散策略BiDP。实验表明，该方法在5项复杂长程双臂任务中实现了高精度模仿，并具备较强的视觉与空间泛化能力。

RSS2025arxiv_html

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

General

世界模型策略学习数据集/基准视频数据

现有模仿学习受限于高质量示教数据难以规模化，而海量无标注视频数据又因缺乏动作标签难以直接用于策略学习。本文提出Unified World Models（UWM），将动作扩散与视频扩散耦合于统一Transformer架构，通过独立控制各模态的扩散时间步，使单一模型可灵活充当策略、前向/逆动力学模型及视频生成器。实验表明，在大规模多任务机器人数据上进行联合预训练能显著提升策略的泛化性与鲁棒性，且无需动作标注的视频数据也可被有效利用以进一步优化策略性能。

RSS2025arxiv_html

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

General

视觉语言动作三维视觉

现有视觉-语言-动作模型多依赖2D输入，难以对齐异构机器人的3D观察空间与动作空间。本文提出SpatialVLA，以自我中心3D位置编码将3D空间上下文注入视觉特征，并设计自适应动作网格统一跨本体的连续动作表示，支持针对新机器人设置重新离散化以适应新分布。在110万条真实机器人数据上预训练后，该模型在零样本多任务控制和新本体迁移中均展现出较强的泛化与适应能力。

RSS2025arxiv_html

Sketch-to-Skill: Bootstrapping Robot Learning with Human Drawn Trajectory Sketches

General

其他

针对机器人操作学习依赖高质量专家演示、采集成本高的瓶颈，本文提出Sketch-To-Skill框架，将人类手绘的二维轨迹草图转化为三维轨迹，既用于行为克隆预训练，又在强化学习中提供引导式探索，突破了此前草图仅用于模仿学习的局限。实验表明，仅依靠草图即可达到遥操作演示基线96%的性能，并较纯强化学习提升170%，在仿真与真实硬件任务中验证了其有效性。

RSS2025arxiv_html

STDArm: Transferring Visuomotor Policies From Static Data Training to Dynamic Robot Manipulation

General

数据

针对在动态平台（如四足机器人与无人机）上部署视觉运动策略时面临的训练数据采集困难、机体运动干扰及边缘设备推理延迟等挑战，该研究提出STDArm系统，通过动作管理器提升控制频率、轻量级稳定器网络实时补偿运动扰动，以及在线延迟估计模块校准系统参数，将静态数据训练的策略直接迁移至动态平台而无需修改策略本身。实验覆盖两种机械臂、四种移动平台及三项任务，结果显示该系统在平台运动期间保持了原有策略的操作能力，实现厘米级末端定位精度，在最困难的4厘米精度要求任务中仍达到与静态条件相当的成功率。

RSS2025arxiv_html

SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning

General

人形机器人

现有腿足机器人位置控制策略在未知环境中缺乏柔顺性与安全性，而直接力矩控制又因动作空间高维和非线性导致早期探索困难、难以收敛。本文提出SATA框架，引入简化的生物力学模型模拟肌肉特性以平滑输出，并设计生长式训练机制动态解锁力矩限制、控制频率与奖励项，显著改善训练稳定性与探索效率。该方法实现了零样本sim-to-real迁移，在湿滑、软地形、狭窄通道等未知环境中，以及面对推拉按压和单腿扰动时，均展现出优异的柔顺性与安全性。

RSS2025arxiv_html

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

General

数据集/基准

针对机器人领域数据扩展与标准化评测缺失的瓶颈，本文提出 RoboVerse 统一框架。其核心 MetaSim 基础设施通过通用配置与对齐 API 抽象 IsaacSim、MuJoCo、Genesis 等异构仿真器，支持跨仿真器混合与跨具身迁移；并构建包含千级任务、千万级片段的高保真合成数据集，配套覆盖模仿学习与强化学习的多级泛化基准。实验表明，该平台可提升策略学习性能并促进 sim-to-real 直接迁移。

RSS2025arxiv_html

RoboSplat: Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation

General

三维视觉

机器人模仿学习依赖大量真实演示，收集成本高且现有2D增强或Real-to-Sim-to-Real分别受限于空间信息缺失与几何重建误差。本文提出RoboSplat，基于3D高斯溅射重建真实场景并直接编辑3D表示，通过高斯替换、等变变换与视角合成等技术，从单条演示生成覆盖物体姿态、类型、光照、视角、外观与本体六类泛化的新颖数据。真实世界一次性学习实验表明，该方法在六种泛化设置下的平均成功率达87.8%，远高于基于数百条真实演示并辅以2D增强的57.2%。

RSS2025arxiv_html

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation

General

策略学习触觉

现有视觉模仿学习在动作块执行时处于开环状态，无法对实时触觉反馈快速反应，且多数遥操作系统缺乏细粒度触觉反馈。本文提出TactAR遥操作系统，通过增强现实提供低成本实时触觉/力反馈；并设计Reactive Diffusion Policy，以慢速扩散策略低频预测高层动作块，再由快速非对称标记器基于高频触觉闭环微调。在三项复杂接触操作任务中，该方法显著优于视觉模仿学习基线，且可迁移至多种触觉传感器。

RSS2025arxiv_html

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

General

视觉语言动作导航感知

针对腿式机器人在复杂地形执行视觉语言导航时难以直接将指令映射为底层关节控制的问题，本文提出NaVILA双层框架：高层VLA将视觉与语言指令推理为带空间信息的中层自然语言动作（如“前进75厘米”），再由低层视觉运动策略实时执行并转换为关节控制，同时利用人类游览视频增强泛化。该框架在经典VLN基准上成功率提升逾17%，在自建的VLN-CE-Isaac仿真基准中视觉策略较盲策略提升14%，并在Unitree Go2、H1及Booster T1等多款机器人上实现真实部署，在25条真实指令中达到88%成功率。

RSS2025arxiv_html

Flying Hand: End-Effector-Centric Framework for Versatile Aerial Manipulation Teleoperation and Policy Learning

General

策略学习灵巧操作

现有空中操纵系统往往针对特定任务设计，缺乏跨任务通用性。本文提出一种末端执行器为中心的统一框架，通过解耦高层策略与低层控制，将桌面操纵中的遥操作与模仿学习范式引入空中平台。该框架基于全驱动六旋翼与四自由度机械臂，设计了末端执行器为中心的全身模型预测控制器及L1在线自适应模块，实现高精度鲁棒跟踪。真实实验验证了系统在书写、轴孔装配、拾取放置及换灯泡等多种任务中的通用性与有效性。

RSS2025arxiv_html

FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning

General

策略学习触觉

现有遥操作与模仿学习常忽视机械臂本体力反馈，使机器人难以胜任接触丰富的动态任务。本文首先设计低成本双边遥操作系统，将跟随臂外力实时回传主臂并补偿重力，显著改善示教体验；进而提出FACTR课程训练，通过在训练初期以高斯模糊等破坏视觉输入并逐步恢复清晰，防止策略过拟合视觉、引导其关注力模态。实验表明，该遥操作系统将任务完成率提升64.7%，FACTR则使策略对未见物体的泛化成功率平均提升40%。

RSS2025temporary_pdf

Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models

General

加速/部署

针对数据驱动自动驾驶难以覆盖罕见边缘案例及云端大模型隐私与延迟风险，本文提出一种车载本地部署大语言模型与底层模型预测控制结合的混合架构。系统通过DecisionxLLM模块基于自然语言指令评估驾驶行为符合度，再由MPCxLLM动态调整MPC成本与约束参数，在保障安全的同时提升控制适应性。研究还采用RAG、LoRA与量化技术实现边缘端高效推理，在缩比平台上实验表明，推理准确率最高提升10.45%，控制适应性提升52.2%，计算效率提升10.5倍。

RSS2025arxiv_html

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training

General

策略学习加速/部署

扩散策略在机器人操作中性能强大，但过参数化带来高昂训练成本，导致在线交互式模仿学习难以实际应用。针对这一问题，本文提出DRIFT框架，利用奇异值分解在训练过程中动态调整可训练秩的数量：初期保持高秩以捕捉行为模式，后期通过秩调制与秩调度器逐步缩减可训练参数，从而平衡表示能力与计算效率。在此基础上实现的DRIFT-DAgger算法将离线自举与在线自适应无缝结合，仿真与真实世界实验表明，该方法能在几乎不牺牲性能的前提下显著提升样本效率并加快训练速度。

RSS2025arxiv_html

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning

General

策略学习数据加速/部署

视觉运动策略因空间泛化能力差而需要大量人工示教。DemoGen提出完全合成的数据增强框架：仅利用单条人工示教，通过TAMP将轨迹分解为自由空间运动段与接触技能段并分别重规划与空间变换，同时以点云为视觉模态通过三维编辑合成新视角观察，无需真机执行验证。在模拟与真实环境中，该方法在单臂、双臂、灵巧手及可变形物体等多种任务上实现了单样本模仿学习，显著扩展空间泛化范围，并可通过简单扩展赋予策略抗干扰与避障能力。

RSS2025arxiv_html

DOGlove: Dexterous Manipulation with a Low-Cost Open-Source Haptic Force Feedback Glove

General

灵巧操作触觉

现有灵巧手遥操作系统多依赖昂贵设备且缺乏多模态反馈，限制了复杂操作中的物体感知能力。本文提出低成本开源触觉力反馈手套DOGlove，成本不足600美元，支持21自由度运动捕捉与5自由度力/触觉反馈，并设计动作与力重定向框架实现沉浸式遥操作。实验表明，该系统在无视觉反馈的富含接触任务中仍能高效完成操作，且采集的数据可直接用于训练模仿学习策略。

RSS2025arxiv_html

CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World

General

策略学习灵巧操作

针对真实世界灵巧操作中单视角点云易受遮挡且缺乏接触与空间对应的问题，本文提出CordViP，通过融合鲁棒6D位姿估计与本体感知构建交互感知点云，并借助接触图与手臂-手部协调信息预训练编码器，以扩散策略实现视觉运动控制。该方法在六项真实任务中仅用少量示教即取得领先性能，且对新物体、视角及场景具有强泛化能力。

RSS2025arxiv_html

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

General

视觉语言动作策略学习触觉

现有视觉-语言-动作（VLA）模型在真实机器人操作中的监督微调常受限于少量且不一致的演示数据，尤其在接触丰富的场景中难以获得鲁棒策略。为此，本文提出基于一致性策略的强化微调框架ConRFT，通过统一的训练目标分阶段优化：离线阶段结合行为克隆与Q学习以稳定提取初始策略和价值函数，在线阶段引入人在回路干预，在保障安全的前提下利用一致性策略进行高效探索。该方法在八个真实世界操作任务上仅需45至90分钟在线微调即达到96.3%的平均成功率，相较监督微调方法成功率提升144%，并将回合长度缩短1.9倍，展示了将强化学习直接用于VLA模型真实环境优化的可行性与高效性。

RSS2025arxiv_html

ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills

General

世界模型人形机器人

针对人形机器人全身敏捷运动受限于仿真与现实动力学不匹配的问题，本文提出ASAP两阶段框架：先利用人体视频重定向数据在仿真中预训练运动跟踪策略，再通过真实 rollout 数据训练 delta action 残差模型补偿动力学差异，并将其嵌入仿真器微调策略。在 IsaacGym 到 IsaacSim、Genesis 及真实 Unitree G1 的迁移中，该方法显著降低了运动跟踪误差，实现了以往难以完成的敏捷全身动作。

NeuIPS2025arxiv_html

SAMPO: Scale-wise Autoregression with Motion Prompt for Generative World Models

World Model

世界模型

现有自回归世界模型因光栅扫描展平破坏空间结构、逐token解码效率低且运动建模不足，难以保证长程视觉连贯性。SAMPO将帧间时序因果生成与帧内多尺度空间自回归相结合，以非对称多尺度tokenizer在观察帧保留细节、在未来帧压缩动态表征，并引入轨迹感知运动提示注入机器人与物体轨迹先验，从而兼顾空间一致性与物理交互真实性。实验表明，该方法在动作条件视频预测和机器人控制中性能更优，推理速度提升4.4倍，并展现出良好的零样本泛化与规模扩展能力。

NeuIPS2025arxiv_html

OSVI-WM: One-Shot Visual Imitation for Unseen Tasks using World-Model-Guided Trajectory Generation

World Model

世界模型策略学习

现有单次视觉模仿学习方法多局限于物体配置变化，难以泛化至语义或结构不同的未见任务，且缺乏环境动态模型导致无法有效推理未来状态。本文提出OSVI-WM，利用世界模型自专家示范与初始观测预测未来潜在状态与动作轨迹，并解码为物理路点指导执行，测试时支持基于当前状态重规划。该方法无需大规模预训练、仅依赖域内数据端到端训练，在两项模拟基准与三个真实机器人平台上均显著优于先前方法，部分场景成功率提升超过30%。

NeuIPS2025arxiv_html

Learning 3D Persistent Embodied World Models

World Model

世界模型三维视觉

现有视频世界模型因缺乏对未观测区域的显式记忆，在长程生成中常出现场景不一致与内容矛盾。本文提出Persistent Embodied World Model，通过将视频扩散模型生成的RGB-D帧实时聚合为持久化的3D特征地图记忆，使模型在预测未来观测时能同时检索已见区域的几何与语义信息，从而保持长程空间一致性。实验表明，该方法显著提升了视频生成的视觉质量与3D一致性，并有效支撑了轨迹排序、模型预测控制及新环境策略学习等下游具身任务。

NeuIPS2025arxiv_html

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

Vision-Language-Action Model

视觉语言动作规划/推理感知

针对现有VLA方法在规划范式、表示及训练数据上差异显著、难以公平比较的问题，本文提出统一架构系列VLA-OS，将ActionOnly、Integrated与Hierarchical三种主流范式纳入同一框架，并在刚性/可变形物体、2D/3D视觉、仿真/真实场景及多种末端执行器上开展控制实验。结果表明：视觉基础规划表示普遍优于语言表示；Hierarchical-VLA在任务性能、泛化、可扩展性与持续学习方面总体更优，但训练与推理成本更高。

NeuIPS2025arxiv_html

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Vision-Language-Action Model

视觉语言动作规划/推理触觉感知

现有视觉-语言-动作模型多为端到端映射，缺乏显式推理，难以完成长程规划与复杂任务适应。本文提出ThinkAct双系统框架，通过动作对齐的视觉反馈（目标完成与轨迹一致性）强化多模态大模型的具身推理，并将推理规划压缩为视觉潜在变量以指导下游动作网络。实验表明，该方法在机器人操作与具身推理任务中实现了少样本适应、长程规划和自校正能力。

NeuIPS2025arxiv_html

Self-Improving Embodied Foundation Models

Vision-Language-Action Model

视觉语言动作感知

针对当前机器人基础模型仍局限于行为克隆、缺乏类似大语言模型强化学习后训练阶段的现状，本文提出一种两阶段后训练框架。第一阶段通过行为克隆与剩余步数预测目标对预训练模型进行监督微调；第二阶段利用模型自预测的剩余步数自动构造具有良好塑形的奖励函数与成功检测器，使机器人可在极少人工监督下自主练习下游任务。实验表明，该框架在LanguageTable与Aloha等任务上的样本效率显著优于单纯扩展模仿数据，且能令机器人自主习得远超训练分布的新技能。

NeuIPS2025arxiv_html

SAFE: Multitask Failure Detection for Vision-Language-Action Models

Vision-Language-Action Model

视觉语言动作感知

现有视觉-语言-动作模型在未见任务上成功率低且失败模式多样，但传统故障检测器多为单任务设计，难以泛化到新指令与环境。本文提出多任务故障检测框架SAFE，其核心洞察是VLA内部潜空间中成功与失败轨迹存在跨任务一致的几何分离；基于此，SAFE直接利用VLA内部特征回归失败概率，并采用功能共形预测校准检测阈值。在OpenVLA、π0及π0-FAST的仿真与真实机器人实验中，SAFE在未见任务上取得了优于现有基线的检测准确率与检测时效的权衡。

NeuIPS2025ar5iv_html

Robo2VLM: Improving Visual Question Answering using Large-Scale Robot Manipulation Data

Vision-Language-Action Model

视觉语言动作感知数据

现有视觉-语言模型缺乏细粒度空间与物理交互知识，而真实机器人遥操作轨迹蕴含丰富的本体感觉与运动学信息。本文提出Robo2VLM框架，从末端执行器位姿、夹爪状态及力觉等非视觉模态中提取真值，将轨迹分段并自动生成面向空间与交互推理的VQA数据。由此构建的Robo2VLM-1数据集涵盖68万余条真实场景问题，实验表明现有VLM在复杂空间关系推理上仍显著落后于人类，但基于该数据微调LLaVA可在状态推理与任务理解上实现最高50%的准确率提升。

NeuIPS2025arxiv_html

Real-Time Execution of Action Chunking Flow Policies

Vision-Language-Action Model

视觉语言动作感知

针对视觉-语言-动作模型推理延迟高、导致动作分块边界出现抖动与暂停的问题，本文提出实时分块（RTC）算法。该方法将异步动作分块视为推理时修复问题：在执行当前块的同时生成下一块，对确定执行的动作“冻结”并对其余部分“修复”，无需重训练即可直接应用于扩散或流式VLA。在Kinetix模拟器12项高动态任务及6项真实双臂操作任务中，RTC在超过300毫秒延迟下仍保持流畅与高精度（如划火柴），任务执行速度比同步推理快20%，且显著优于时间集成等基线方法。

NeuIPS2025arxiv_html

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

Vision-Language-Action Model

视觉语言动作感知数据

现有基于目标到达的视觉-语言预训练方法假设动作视频从初帧到末帧逐步逼近指令目标，但第一人称人体动作视频常因粗粒度标注而包含提前终止或无关尾部等噪声，导致视觉-语言语义关联失真。为此，作者提出 Action Temporal Coherence Learning（AcTOL），在不依赖刚性目标约束的前提下，通过视觉-语言排序损失刻画帧间自然时序差异，并引入局部布朗桥约束保证中间表示平滑连续，且具备理论保证。在模拟与真实机器人上的语言条件模仿学习实验表明，该方法仅需少量示教即显著优于先前方法，可生成语言条件的视觉奖励，且对复杂语言扰动保持鲁棒。

NeuIPS2025arxiv_html

PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning

Vision-Language-Action Model

视觉语言动作三维视觉策略学习感知

针对RGB图像缺乏几何感知、而现有下采样点云方法又损失细粒度空间细节的问题，本文提出PointMapPolicy，将点云结构化为与图像同维度的规则二维网格（point map），使其可直接适配标准视觉骨干网络，并借助xLSTM与RGB实现高效的多模态融合。在扩散模仿学习框架下，该方法在CALVIN基准的从头训练策略中达到最优，并在RoboCasa与真实机器人实验中优于RGB、深度图及传统点云基线，且训练和推理速度可提升一个数量级。

NeuIPS2025arxiv_html

PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models

Vision-Language-Action Model

视觉语言动作策略学习触觉感知

针对偏好强化学习依赖大量人工标注且面临早期查询模糊与信用分配困难的问题，本文提出PRIMT框架，利用基础模型生成多模态合成反馈与双向轨迹合成。其核心在于通过分层神经符号融合策略整合大语言模型的时序推理与视觉语言模型的空间感知优势，提升反馈可靠性；同时通过前瞻轨迹生成预热轨迹缓冲区以缓解早期查询模糊，并借助后见轨迹增强与因果辅助损失改善状态动作级的信用分配。该方法在多个模拟与真实机器人操作及运动任务上取得了优于现有基线的性能。

NeuIPS2025arxiv_html

Learning Spatial-Aware Manipulation Ordering

Vision-Language-Action Model

视觉语言动作三维视觉感知

针对杂乱场景中物体间空间依赖导致操作顺序决策困难、现有启发式方法泛化不足且大视觉语言模型推理过慢的问题，本文提出OrderMind统一框架，通过k-NN空间图编码局部几何与物体-机械手交互关系，并设计空间先验标注策略引导视觉语言模型自动生成训练监督，实现免人工标注的端到端空间感知排序学习。在包含超过十六万样本的排序基准及仿真与真实机器人实验中，该方法在有效性与推理效率上均优于已有方案，支持杂乱环境下的实时操作。

NeuIPS2025arxiv_html

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Vision-Language-Action Model

视觉语言动作感知

当前VLA模型为支持机器人高频连续控制，常在预训练VLM上嫁接diffusion或flow matching动作专家，但此类模块从头训练产生的梯度回流会破坏VLM的预训练知识表示，导致训练变慢且语义迁移受损。本文提出知识隔离机制：VLM骨干仅通过离散动作token的next-token prediction微调，连续动作专家则独立以flow matching目标优化且梯度不回流骨干，从而在保留VLM语义知识的同时实现精确连续输出。该策略在复杂长程操作任务及DROID、LIBERO等基准上展现出更优的训练稳定性与泛化能力，但具体性能提升幅度在提供的片段中未充分说明。

NeuIPS2025arxiv_html

HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data

Vision-Language-Action Model

视觉语言动作感知数据

现有机器人策略在未见环境变化中泛化能力有限。本文提出HiMaCon，一种从无标注多模态演示中自监督学习层次化操作概念的框架。该方法通过跨模态关联网络捕捉感官模态间的不变交互模式，并借助多时间尺度预测器将表征组织为层次化子目标，进而嵌入多种模仿学习策略。实验表明，概念增强的策略在模拟与真实任务中对新颖物体、障碍及环境变化均显著提升了泛化性能，且所学概念与人类可理解的操作基元高度相似。

NeuIPS2025arxiv_html

Fast-in-Slow: A Dual-System VLA Model Unifying Fast Manipulation within Slow Reasoning

Vision-Language-Action Model

视觉语言动作规划/推理感知

现有视觉-语言-动作模型常因大模型自回归生成而执行频率低下，且传统双系统架构将快速执行模块与慢速推理VLM分离，导致前者难以利用预训练知识。本文提出Fast-in-Slow（FiS-VLA），将System 1嵌入System 2的尾部Transformer块以实现统一模型内的参数共享，并针对两者设计异构模态输入与异步运行频率（1:4）。通过双感知协同训练（System 2保留自回归推理、System 1基于扩散模型生成动作），该方法在仿真和真实世界任务中较SOTA分别提升8%与11%的平均成功率，并于单卡4090上达到117.7 Hz的控制频率。

NeuIPS2025arxiv_html

Exploring the Limits of Vision-Language-Action Manipulation in Cross-task Generalization

Vision-Language-Action Model

视觉语言动作感知

现有视觉-语言-动作模型虽在已知任务上泛化良好，但缺乏针对零样本跨任务迁移的系统评估。该工作构建AGNOSTOS基准，含23个两级难度的未见操作任务，并揭示主流VLA模型在全新任务上普遍失效。为此提出X-ICM方法，通过跨任务动态引导的样本选择策略从已见任务中筛选相关示范供大语言模型作上下文，进而预测未见任务动作。实验表明，X-ICM在AGNOSTOS上较领先基线提升6.0%至7.9%，并在真实机器人实验中验证跨任务迁移有效性。

NeuIPS2025arxiv_html

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Vision-Language-Action Model

视觉语言动作感知

现有工作将通用视频生成模型直接适配到机器人操控时，其表示空间与三维时序物理环境存在显著鸿沟。本文提出生成式基础模型EnerVerse，以块级自回归视频扩散迭代预测具身未来空间，并设计稀疏上下文记忆实现长程推理；通过多视角视频预训练注入三维空间先验，使单目相机部署亦可借助渲染视图获得3D感知。此外，EnerVerse-D结合4D高斯溅射构建数据飞轮以缩小sim-to-real差距，EnerVerse-A策略头将4D世界表征转化为物理动作。该框架在仿真与真实世界任务中均达到领先性能。

NeuIPS2025arxiv_html

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Vision-Language-Action Model

视觉语言动作感知

现有视觉-语言-动作模型直接映射观测到动作，缺乏对未来世界知识的有效预测，且像素级预测存在冗余。DreamVLA提出预测紧凑的综合世界知识，包括动态区域、深度和高层语义特征，构建感知-预测-动作闭环；并通过块级结构化注意力解耦各类知识，以扩散Transformer建模动作分布。该方法在CALVIN ABC-D基准上取得4.44的平均任务长度，并在真实机器人任务上达到76.7%的成功率。

NeuIPS2025arxiv_html

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections

Vision-Language-Action Model

视觉语言动作感知

针对真实世界接触丰富操作中DAgger面临的纠正数据收集与策略更新难题，本文提出Compliant Residual DAgger（CR-DAgger）。其核心是一个基于柔顺控制的干预接口，允许人类在不中断策略运行的情况下直接施力，以提供平滑的位置与力修正；同时提出融合力反馈的残差策略，学习人类修正并输出残差运动与目标力。在翻书、皮带装配等四项长程接触任务中，该系统以极少纠正数据将基线成功率提升64%，并显著优于重训练与微调方法。

NeuIPS2025arxiv_html

CogVLA: Cognition-Aligned Vision-Language-Action Models via Instruction-Driven Routing & Sparsification

Vision-Language-Action Model

视觉语言动作感知

现有VLA模型后训练开销大，且现有稀疏化方法忽视跨模态语义耦合。本文受人类多模态协调机制启发，提出CogVLA框架，以指令驱动的三级渐进路由实现端到端稀疏化：先在视觉编码器通过EFA-Routing聚合压缩任务相关token，再在语言模型中通过LFP-Routing剪枝无关token，最后以V-L-A耦合注意力保障压缩输入仍能支撑准确连贯的动作生成。该框架在LIBERO与真实机器人任务上达到最优性能，同时相较OpenVLA训练成本降低2.5倍、推理延迟降低2.8倍。

NeuIPS2025arxiv_html

ChatVLA-2: Vision-Language-Action Model with Open-World Reasoning

Vision-Language-Action Model

视觉语言动作规划/推理感知

现有VLA在机器人数据微调时常遗忘VLM预训练的开放世界知识，导致泛化能力受限。ChatVLA-2提出动态混合专家架构，显式解耦多模态理解与动作控制的特征空间并保留共享表示，同时引入推理增强模块与两阶段训练策略，使动作输出严格遵循模型内部推理。实验表明，该方法在数学解题与未见物体空间放置等分布外任务上显著优于OpenVLA与DexVLA，展现出强大的开放世界具身推理与泛化能力。

NeuIPS2025arxiv_html

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

Vision-Language-Action Model

视觉语言动作感知

现有视觉-运动策略的前向预测范式因优化目标短视而积累严重复合误差。本文提出Chain-of-Action，以轨迹自回归建模为核心，从编码任务目标的关键帧出发反向生成完整动作序列，通过全局到局部的约束减少误差。该框架整合了连续动作表示、动态停止、反向时间集成与多token预测等关键设计，在60项RLBench任务及8项真实世界操作中取得领先性能，较ACT分别提升16%与15%。

NeuIPS2025arxiv_html

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

Vision-Language-Action Model

视觉语言动作三维视觉感知加速/部署

现有VLA模型多基于2D图像，数据效率低，而3D策略虽具空间结构优势却难与预训练VLM融合。BridgeVLA提出输入-输出对齐范式：将点云投影为多视角2D图像以匹配VLM预训练输入，并通过heatmap预训练使模型在统一2D空间内先预测热力图再生成3D动作。该方法在RLBench、COLOSSEUM和GemBench上均超越SOTA，在真实机器人实验中平均领先32%，且仅需3条轨迹/任务即在十余项任务上达到95.4%成功率，兼具高样本效率与强泛化能力。

NeuIPS2025arxiv_html

Blindfolded Experts Generalize Better: Insights from Robotic Manipulation and Videogames

Vision-Language-Action Model

视觉语言动作视频感知

传统模仿学习假设专家掌握完整任务信息，但本文发现在多任务场景下，刻意遮蔽专家的部分观察反而能提升泛化。作者提出“眼罩”策略：通过限制任务信息迫使专家采取更具探索性的行为，且训练策略时仍使用完整观察。理论分析表明泛化误差随专家获取的任务信息量增加而上升。实验在Procgen游戏和真实机器人插孔任务中证实，遮蔽后的专家行为在少量示范下即可显著优于全信息专家。

NeuIPS2025arxiv_html

BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization

Vision-Language-Action Model

视觉语言动作感知

针对Vision-Language-Action模型在Training-as-a-Service范式中暴露的后门安全风险，本文首次系统研究并提出了专用攻击框架BadVLA。其核心为目标解耦的两阶段优化：第一阶段在感知模块注入微小触发器，在特征空间显式区隔正常与触发输入；第二阶段冻结感知模块并仅用干净数据微调动作头，以维持正常任务表现。多基准实验表明，BadVLA在保持干净任务精度几乎无损的同时，实现了近100%的攻击成功率，且对输入扰动、任务迁移及现有防御手段均表现出强鲁棒性。

NeuIPS2025arxiv_html

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

Vision-Language-Action Model

视觉语言动作策略学习感知加速/部署

针对模仿学习中动作序列token化存在的训练开销大、序列长度不一及轨迹不平滑等问题，本文提出基于B样条编码的BEAST tokenizer。该方法无需单独训练tokenizer，即可将连续动作序列压缩为定长离散或连续token，天然保证轨迹平滑与段间连续，并支持并行解码加速。在166项模拟任务与8项真实机器人任务中，BEAST显著降低了训练与推理的计算成本，同时保持了与现有方法相当的任务成功率。

NeuIPS2025arxiv_html

AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation

Vision-Language-Action Model

视觉语言动作策略学习感知

现有移动操作方法通常未显式建模底座运动对机械臂的影响，且全程采用单一视觉模态，难以适配不同阶段的感知需求。本文提出AC-DiT，通过底座-本体条件机制将底座运动表征作为先验来指导全身动作预测，从而缓解误差累积；并设计感知自适应的多模态融合策略，动态调整2D图像与3D点云的权重，以匹配当前阶段对语义或几何信息的不同需求。在仿真与真实世界移动操作任务中的实验表明，该方法在协调性与动作生成上优于现有基线。

NeuIPS2025arxiv_html

Universal Visuo-Tactile Video Understanding for Embodied Interaction

Tactile

触觉视频

现有视觉语言模型难以感知触觉属性，限制了具身智能体对物体物理特性的推理能力。为此，本文提出首个面向通用视觉触觉视频理解的多模态大语言模型VTV-LLM，并构建跨三种触觉传感器、包含15万帧的VTV150K数据集，系统标注硬度、弹性等四项属性。通过光流引导掩码增强、跨模态对齐与文本微调的三阶段训练，该方法有效弥合了触觉感知与自然语言间的域鸿沟，在触觉视频理解与推理任务中取得更优表现。

NeuIPS2025arxiv_html

Toward Artificial Palpation: Representation Learning of Touch on Soft Bodies

Tactile

触觉

本文针对人工触诊中仅依赖力映射图难以准确推断软体内部结构的问题，提出一种基于自监督学习的序列触觉表征方法。通过编码器-解码器框架预测不同位置的触觉读数，使模型从多步交互中捕捉超越刚度的机械结构信息。作者在仿真环境与真实乳腺模体（配准MRI真值）上验证，发现所学表征能够生成比力映射图更易解释的触觉图像，并在肿块变化检测任务上达到与人类相当的表现。

NeuIPS2025arxiv_html

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper

Tactile

触觉

现有手持夹爪虽便于野外采集人类演示，却普遍缺少触觉反馈，难以捕捉接触丰富的精细操作策略，且野外视觉易受光照与遮挡影响。为此，本文设计了一款集成柔性压阻传感器的轻量便携式视触觉夹爪，支持室内外大规模同步采集；并基于掩码自编码与交叉注意力提出跨模态表征学习方法，在保留模态特异性的同时使表征自动聚焦于接触区域。基于逾260万对数据预训练后，所得策略在试管插入、移液管流体转移等精细任务上展现出更高的精度与抗干扰鲁棒性。

NeuIPS2025arxiv_html

Taccel: Scaling Up Vision-based Tactile Robotics via High-performance GPU Simulation

Tactile

世界模型触觉感知

现有视觉触觉传感器仿真或因刚体近似而精度不足，或因软体动力学而速度受限，难以支撑大规模机器人学习。Taccel将增量潜在接触（IPC）与仿射体动力学（ABD）统一于高性能GPU仿真框架，在保证软体接触物理精度的同时实现数千并行环境的高速仿真，于单张H100上低分辨率任务可达4096环境18倍实时。平台支持多种机器人构型与多模态触觉信号输出，并在物体分类、灵巧抓取及关节物体操作中验证了仿真精度与sim-to-real迁移能力。

NeuIPS2025arxiv_html

Enhancing Tactile-based Reinforcement Learning for Robotic Control

Tactile

策略学习触觉

这篇工作针对机器人操作过度依赖理想化状态信息的问题，提出利用自监督学习从稀疏二进制触觉信号中学习有效表征，以替代视觉与特权信息。研究发现，在本体感受无法捕捉的解耦接触交互中，显式触觉反馈对灵巧操作至关重要；将SSL辅助记忆与策略记忆解耦能进一步提升性能。该方法的纯触觉策略在球弹跳和保定球旋转等复杂任务中实现了超人类灵巧度，并发布了RoTO基准以促进后续研究。

NeuIPS2025arxiv_html

World-aware Planning Narratives Enhance Large Vision-Language Model Planner

Policy

规划/推理策略学习感知

现有大视觉语言模型的具身规划方法多采用与环境脱节的模仿学习，导致模型在复杂场景和长程交互中过度依赖辅助信号、缺乏视觉推理能力。本文提出WAP框架，通过视觉、空间、功能与句法四个维度的“世界感知叙事”增强数据，并采用课程学习训练，使模型仅依靠原始视觉观测和语言指令即可闭环决策。在EB-ALFRED上，Qwen2.5-VL成功率绝对提升60.7，长程规划提升70.0，且超过GPT-4o等闭源模型。

NeuIPS2025arxiv_html

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Policy

策略学习触觉

针对机器人模仿学习面临的数据稀缺、质量不均及flow策略缺乏探索机制等瓶颈，ReinFlow首次实现了对flow matching策略的在线强化学习微调。其核心方法是向flow的确定性路径注入可学习噪声，将其转化为离散时间马尔可夫过程，从而获得精确似然、稳定训练并自动平衡探索与利用，支持在极少甚至单步去噪下稳定优化多种flow变体。实验显示，在腿部运动任务中Rectified Flow策略的episode reward平均净增135.36%，墙钟时间较DPPO节省82.63%；在状态和视觉操作任务中，Shortcut Model的成功率平均提升40.34%，在四步或一步去噪下即可媲美微调后的DDIM策略。

NeuIPS2025arxiv_html

Quantization-Free Autoregressive Action Transformer

Policy

策略学习加速/部署

针对现有自回归模仿学习需对连续动作进行离散量化、从而破坏动作空间几何结构并引入不可导操作的问题，本文提出Quantization-Free Autoregressive Action Transformer（Q-FAT）。该方法基于无限词表生成式Transformer，直接在decoder-only架构上将策略输出参数化为高斯混合模型，避免了动作量化步骤，同时支持自回归生成与显式似然估计；此外还设计了降低轨迹方差的采样策略。在多种基于本体感知与视觉输入的模拟机器人任务中，Q-FAT于条件与无条件策略生成均达到当前最优性能。

NeuIPS2025arxiv_html

Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution

Policy

策略学习

针对行为克隆中协变量偏移导致误差累积的问题，本文提出Latent Policy Barrier（LPB）。该方法受控制障碍函数启发，将专家演示的隐式嵌入视为区分安全分布内状态与OOD危险状态的屏障，并解耦精确模仿与偏离恢复：基础扩散策略仅学习高质量专家数据，动态模型则利用训练过程中自动采集的次优推出数据学习。推理时，通过预测未来隐状态并优化其贴近专家分布来纠偏。实验表明，该方法在模拟和真实机器人操作任务中显著提升了策略的鲁棒性与样本效率，且能即插即用地增强现成预训练策略。

NeuIPS2025arxiv_html

Human-assisted Robotic Policy Refinement via Action Preference Optimization

Policy

策略学习

针对VLA模型依赖离线专家演示、难以在部署后持续从失败中迭代优化的问题，本文提出Action Preference Optimization（APO）。该方法通过人机协作框架收集交互修正轨迹，并引入基于二值期望信号的自适应重加权偏好优化目标，缓解物理交互不可逆与动作token概率失配的挑战，使大规模VLA模型能从次优干预轨迹中稳定学习。实验表明，APO在模拟与真实场景的多种操作任务中均实现了快速适应与强鲁棒性，并支持跨模型泛化与终身学习。

NeuIPS2025arxiv_html

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

Policy

策略学习加速/部署

现有基于生成模型的视觉运动策略因多步采样而推理延迟高，难以实时应用。FreqPolicy发现，与图像生成不同，机器人动作需要时序连续性，直接套用图像加速技术会忽略这一本质差异。因此，该方法首次在流匹配策略中引入频率一致性约束：在频域对齐不同时间步的动作特征，并设计自适应频率分量损失以捕捉操作中动静交替的结构化时序变化，进而实现高质量一步动作生成。实验表明，FreqPolicy在模拟和真实场景中均优于现有单步生成器，且能嵌入视觉-语言-动作模型实现无性能损失的加速。

NeuIPS2025temporary_pdf

Failure Prediction at Runtime for Generative Robot Policies

Policy

策略学习

针对生成式模仿学习策略在运行时因分布偏移或动作误差累积而失效、且难以预先获取失败数据的问题，本文提出FIPER框架，通过联合监测策略嵌入空间中的OOD观测（RND-OE）与生成动作块的不确定性（ACE），并结合共形预测对少量成功轨迹进行校准，实现无需失败数据的早期失败预警。实验表明，该方法在多个仿真与真实环境中均比现有基线更早、更准确地预测失败，且能有效区分实际失败与良性OOD情形。

NeuIPS2025arxiv_html

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy

Policy

策略学习

现有扩散与流匹配策略在机器人模仿学习中表现优异，但普遍采用固定推理预算，导致简单子任务计算冗余、困难子任务精度不足。本文提出难度感知随机插值策略DA-SIP，通过轻量CNN或少样本VLM实时判断当前观测的难度等级，在随机插值统一框架下动态调配求解器类型、积分步数及ODE/SDE模式，实现测试时计算资源的自适应分配。实验表明，该方法在保持与最大计算基线相当成功率的同时，可将总推理耗时降低2.6至4.4倍。

NeuIPS2025arxiv_html

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

Policy

策略学习

现有策略引导方法通常需在训练时覆盖测试目标分布，难以灵活适配开放场景。本文提出DynaGuide，通过将潜在视觉动力学模型与基础扩散策略解耦，在动作去噪过程中注入动力学梯度实现主动引导。该方法无需微调即可对现成预训练策略进行多目标、正负兼顾的灵活引导，并对低质量目标保持鲁棒性。实验表明，DynaGuide在CALVIN仿真任务上平均引导成功率达70%，在低质量目标条件下较目标条件化方法提升5.4倍，且在真实机器人上成功引导现成策略并诱导出新行为。

NeuIPS2025arxiv_html

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies

Policy

策略学习感知

现有模仿学习常将感知与动作解耦，忽略了二者在决策中的因果互惠。本文提出 Action-Guided Diffusion Policy（DP-AG），通过变分推断编码观测潜变量，并利用扩散策略噪声预测的向量–雅可比积作为结构化随机力，驱动潜变量随动作反馈动态演化；进一步以循环一致对比损失将感知更新与动作去噪耦合为双向闭环。理论分析与 UR5 真实机器人实验表明，该方法在任务成功率和动作平滑度上均显著优于主流扩散策略。

NeuIPS2025arxiv_html

A Practical Guide for Incorporating Symmetry in Diffusion Policy

Policy

策略学习

现有等变策略学习虽能提升样本效率与泛化，但专用架构实现复杂、难以兼容扩散策略等现代框架。本文提出实用方法，在不承担完整等变设计开销的前提下为扩散策略引入对称性：证明眼在手视觉配合相对轨迹动作可天然获得SE(3)不变性；并通过等变视觉编码器或基于Frame Averaging的预训练编码器对称特征提取强化策略。实验表明，不变表示结合等变特征提取显著优于基线，在MimicGen上取得与完全等变架构相当甚至更优的性能，且仅用单眼在手相机即可匹敌多相机3D体素输入方案。

NeuIPS2025arxiv_html

UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Robot Task Planning

Planning and Reasoning

规划/推理数据

现有LLM与PDDL结合的方法多依赖手工或狭窄领域，难以在真实机器人交互中完成符号接地与长程规划。本文提出UniDomain框架，从12,393条真实操作演示中预训练统一PDDL领域，通过基于能量的关键帧提取与闭环验证生成原子领域，再针对目标任务检索并融合为紧凑的元领域，以支持组合泛化。在100个未见长程复杂任务上的实验表明，该方法可实现零样本规划，任务成功率较最优基线提升58%，规划最优性提升160%。

NeuIPS2025arxiv_html

Towards Reliable LLM-based Robots Planning via Combined Uncertainty Estimation

Planning and Reasoning

规划/推理

现有大语言模型在机器人规划中易产生幻觉且过度自信，而既有工作未能有效区分认知不确定性与内在不确定性。本文提出CURE框架，将不确定性解耦为认知与内在两部分：前者进一步细分为任务清晰度与任务熟悉度，后者建模为预期成功率，分别通过MLP回归头与RND网络估计。在厨房移动操作与桌面重排任务上的实验表明，该方法的不确定性估计与实际执行结果的一致性显著优于现有基线。

NeuIPS2025temporary_pdf

Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning

Planning and Reasoning

规划/推理

现有大模型代码策略在动态或部分可观测环境中常因感知不足生成错误代码，导致任务失败。本文提出NESYRO神经符号框架，在代码生成中递归引入符号验证与交互式验证：先静态检查逻辑与前提条件，再通过探索性代码主动与环境交互、补全缺失观测并建立动作前提，类似回溯搜索构建有效执行路径。RLBench与真实场景实验表明，该方法较Code as Policies基线成功率提升46.2%，任务相关动作可执行性达86.8%以上。

NeuIPS2025arxiv_html

RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

Planning and Reasoning

规划/推理

现有分层VLA框架在微调高层规划器时，依赖人工或启发式规则分解演示，产生的子任务常与底层视觉运动策略训练数据不匹配，导致长程任务性能受损。本文提出基于检索的演示分解器RDD，通过将演示划分为与策略训练集视觉特征最相似的子任务区间，并建立最优划分目标以动态规划高效求解，实现无需训练的自动对齐。实验表明，RDD在仿真与真实机器人任务上均优于现有分解方法，且在不同设置下保持鲁棒。

NeuIPS2025arxiv_html

Seeing through Uncertainty: Robust Task-Oriented Optimization in Visual Navigation

Navigation

导航

针对视觉导航中数据稀缺导致策略过拟合、复杂架构反而降低小样本泛化的问题，本文提出NeuRO框架，将深度感知网络与下游鲁棒优化紧耦合：利用部分输入凸神经网络和保形校准把含噪预测转化为凸不确定集以参数化约束，并将部分可观测规划重新建模为鲁棒优化问题。在无序与顺序多目标导航任务中，该方法在未见环境上显著优于现有方法，取得更优的泛化性能。

NeuIPS2025arxiv_html

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

Navigation

导航加速/部署

针对大语言模型驱动的物体目标导航依赖云端、难以部署到本地设备的问题，本文提出EfficientNav。该系统面向内存受限的本地设备，通过语义感知记忆检索剪枝冗余地图信息以缓解小模型理解能力不足，并设计离散记忆缓存与基于注意力的记忆聚类机制对导航地图KV缓存进行分组管理与复用，在控制内存占用的同时降低重计算开销。实验表明，该系统在HM3D数据集上较GPT-4基线成功率提升11.1%，实时与端到端延迟分别降低6.7倍与4.7倍。

NeuIPS2025arxiv_html

Distilling LLM Prior to Flow Model for Generalizable Agent’s Imagination in Object Goal Navigation

Navigation

导航

针对ObjectNav中语义地图补全的固有不确定性与室内数据稀缺问题，本文提出GOAL框架，将LLM推断的空间上下文先验蒸馏为二维高斯场注入流模型训练，并通过数据依赖耦合直接条件化流匹配过程，同时以3D联合分割聚合多帧观测降低误差累积，在MP3D和Gibson取得最先进性能，且向HM3D迁移时展现出强泛化能力。

NeuIPS2025arxiv_html

C-NAV: Towards Self-Evolving Continual Object Navigation in Open World

Navigation

导航

现有物体导航方法通常假设训练数据固定且物体类别已知，难以在动态开放世界中持续学习新类别而不遗忘旧知识。为此，本文提出持续物体导航基准与C-Nav框架，其核心在于双路径抗遗忘机制：通过特征蒸馏维持多模态编码器的表征一致性，并借助特征回放保证动作解码器的策略稳定性；同时引入基于局部异常因子的自适应关键帧选择策略，在不存储原始轨迹的前提下降低冗余与隐私风险。实验表明，该框架在多种导航架构上均优于现有持续学习方法，甚至超过完整保留轨迹的基线，且显著降低了内存开销。

NeuIPS2025arxiv_html

Active Test-time Vision-Language Navigation

Navigation

导航感知

针对视觉语言导航在陌生测试环境遭遇分布偏移、传统熵最小化易使智能体对错误动作过度自信的问题，本文提出ATENA框架，利用片段级成败反馈进行主动学习。其核心是混合熵优化，通过融合动作分布与伪专家分布来同时调控预测置信度和动作偏好，对成功轨迹增大确定性、对失败轨迹降低确定性；并辅以自主动学习策略，让智能体在高置信度时自行评估结果以减少人工依赖。在REVERIE、R2R和R2R-CE上的实验表明，该方法有效克服了测试时分布偏移，性能显著优于基线。

NeuIPS2025arxiv_html

KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills

Humanoid

人形机器人

针对现有人形机器人模仿学习仅能跟踪平滑低速动作、且参考运动常与自身物理约束冲突的局限，本文提出基于物理的双阶段框架PBHC。该框架先通过多步运动处理管线从视频中提取动作，并基于物理指标过滤、接触修正与逆运动学重定向以保障可行性；随后在模仿阶段引入双层优化驱动的自适应跟踪机制，依据在线跟踪误差动态调整奖励容忍度，并结合非对称actor-critic架构训练策略。实验表明，该方法在仿真中能显著降低高难度动态动作的跟踪误差，并成功在Unitree G1真机上稳定部署功夫与舞蹈等复杂技能。

NeuIPS2025arxiv_html

From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots

Humanoid

人形机器人

现有人形机器人全身控制方法在单一技能上表现优异，但直接学习通用策略时，因跳跃、行走等不同动作对扭矩与平衡的冲突性需求导致数据分布不匹配和梯度冲突。本文提出BumbleBee专家-通才框架：利用自编码器结合腿部运动学特征与文本描述对动作聚类，在各簇内训练专家策略并通过迭代delta action模型补偿sim-to-real差异，最终蒸馏为统一通才策略。实验表明，该框架在仿真与真实机器人上均实现了长时间复杂动作序列的敏捷鲁棒跟踪。

NeuIPS2025arxiv_html

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

Humanoid

人形机器人策略学习

现有方法常将人形机器人全身运动整体模仿，忽视上下半身功能差异，导致训练代价高且真机易失衡摔倒。本文提出对抗式运动与动作模仿框架ALMI，将下半身鲁棒 locomotion 与上半身精确 motion tracking 解耦为互相对抗的两个策略，通过迭代扰动训练达到协调平衡。该方法在仿真及 Unitree H1-2 真机上验证了稳定行走与精准动作跟踪。此外，作者发布含 8 万余条带语言标注的 ALMI-X 数据集，并初步探索了基于 Transformer 的全身控制基础模型。

NeuIPS2025ar5iv_html

Scaffolding Dexterous Manipulation with Vision-Language Models

Dexterous

灵巧操作感知

针对灵巧手训练中长期存在的示教数据稀缺与奖励函数手工设计难题，该研究提出利用视觉语言模型（VLM）的常识空间语义能力，直接根据语言指令和场景图像生成手-物关键点粗轨迹作为“脚手架”，再由低层残差强化学习策略在仿真中跟踪优化。实验表明，该方法无需人类示教或手工奖励即可在关节物体与语义理解等仿真任务中习得鲁棒策略，并成功迁移至真实灵巧手硬件。

NeuIPS2025arxiv_html

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning

Dexterous

规划/推理人形机器人灵巧操作数据

针对现有人形机器人双臂灵巧操作缺乏仿真任务与高质量演示数据、且遥操作成本高昂的问题，本文提出HumanoidGen框架。该框架通过对资产与灵巧手进行基于原子操作的空间标注，使LLM规划器能够依据场景可供性生成可执行的空间约束链以驱动手臂运动，并引入MCTS变体显著增强长程任务与标注稀疏场景下的推理能力。实验构建的HGen-Bench涵盖20项任务，结果表明所生成数据可有效训练扩散策略且性能随数据量持续提升，同时MCTS显著改善了复杂任务的规划成功率。

NeuIPS2025arxiv_html

Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges

Dexterous

灵巧操作抓取感知

针对异构灵巧手抓取知识迁移难题，本文提出基于Schrödinger Bridge的视觉驱动灵巧抓取翻译方法。动机在于：不同机械手形态差异大，直接复制关节或姿态易产生物理无效抓取，且配对数据难以获取。为此，作者将跨手迁移建模为源手与目标手抓取分布间的随机传输，在视觉条件下通过隐空间score与flow matching学习映射，并设计了编码基座姿态、接触图、力旋空间及可操纵性的物理感知代价函数。实验表明，该方法在多样手-物组合上能生成稳定且功能等价的物理合理抓取，泛化性良好。

NeuIPS2025arxiv_html

DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy

Dexterous

策略学习灵巧操作

现有服装操作研究因缺乏逼真的灵巧手仿真环境与高效数据收集而受限。本文提出DexGarmentLab，首个面向灵巧手（尤其双手）服装操作的仿真平台，内含2500余件服装资产与15项任务，并针对服装建模优化物理模拟以缩小sim-to-real差距。基于服装结构对应关系，仅需单次专家演示即可自动生成多样化演示数据。进一步提出分层策略HALO，先识别可迁移的affordance点定位操作区域，再生成泛化轨迹。实验表明，HALO在形状与形变差异显著的未见实例上均优于基线方法，并成功实现真实世界部署。

NeuIPS2025arxiv_html

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

Dexterous

灵巧操作数据

针对灵巧操作高质量数据稀缺且现有采集方式难以兼顾规模与多样性的问题，本文提出 DexFlyWheel 框架，核心洞察是将人类演示作为行为先验而非简单回放，通过模仿学习与残差强化学习构建自迭代的数据飞轮，在仿真中循环生成轨迹并持续增强数据多样性。实验表明，该框架仅需少量种子演示即可在四项任务中扩展出两千余条高质量数据，策略在挑战性测试集上平均成功率达 81.9%，并成功迁移至真实双臂机器人系统完成举升与交接任务。

NeuIPS2025arxiv_html

Contact Map Transfer with Conditional Diffusion Model for Generalizable Dexterous Grasp Generation

Dexterous

策略学习灵巧操作抓取

灵巧抓取中，分析类方法稳定但低效且难适应任务，生成类方法高效却受数据限制而难以泛化至未知物体与任务。本文提出基于条件扩散模型的抓取迁移框架，将模板的高质量抓取结合任务语义，以生成接触图的方式迁移至同类新物体；针对复杂形变，引入双映射机制显式建模模板与新物体的几何关联，并进一步利用部件图与方向图细化接触表征，再经级联条件扩散实现三者联合迁移与内部一致，最终结合鲁棒优化快速恢复抓取配置。实验表明，该方法在保持抓取质量的同时有效平衡了生成效率与跨任务泛化能力。

NeuIPS2025arxiv_html

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model

Data

三维视觉数据

URDF-Anything针对机器人模拟中铰接物体数字孪生构建繁琐的问题，提出了一种基于3D多模态大语言模型的端到端自动重建框架。该方法通过自回归方式联合优化几何部件分割与运动学参数预测，并设计了专门的token机制实现点云特征级别的细粒度分割与符号化运动学输出的深度耦合。在PartNet-Mobility及真实数据上，该方法在几何分割mIoU、关节参数预测误差和物理可执行性上均显著优于现有方法，并展现出良好的分布外泛化能力。

NeuIPS2025arxiv_html

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skill

Data

数据

现有机器人生成框架多忽略工具使用，且人类工具常不适配机械臂，而传统工具设计又受限于固定模板或通用3D生成。本文提出RobotSmith，将视觉语言模型的隐式物理先验与物理仿真结合，通过双智能体协作迭代设计工具几何、规划使用轨迹并联合优化。实验涵盖刚性、可变形及流体物体，平均成功率达50.0%，远超3D生成与工具检索基线；真实世界3D打印与机器人执行验证了设计的物理可行性。

NeuIPS2025arxiv_html

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Data

策略学习数据

针对机器人操作中真实世界演示数据采集成本高、而仿真数据丰富但存在域差异的问题，本文提出一种统一的仿真-真实联合训练框架。其核心洞察是：对齐观测与动作的联合分布比仅对齐观测的边缘分布能提供更强的迁移信号。为此，该方法嵌入最优传输损失以学习域不变且保留动作信息的特征空间，并进一步提出非平衡最优传输及时间感知采样策略，以应对仿真与真实数据量严重不平衡的挑战。实验表明，该方法在真实世界操作任务中成功率提升可达30%，并能泛化到仅在仿真中见过的场景。

NeuIPS2025arxiv_html

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

Data

策略学习数据

为降低机器人遥操作数据采集成本，本文利用可穿戴设备获取的第一人称人类行为数据扩展模仿学习。针对人机在视觉、传感器与运动学上的域差异，作者将跨本体学习形式化为域适应问题，提出EgoBridge框架：以动态时间规整度量运动相似性，基于最优传输在策略联合潜在空间中构建伪配对进行对齐，在域对齐的同时保留动作关键信息。在真实世界单臂与双手操作任务中，该方法绝对成功率较人类增强基线提升44%，并能泛化至仅在人类数据中见过的新物体、场景与任务。

NeuIPS2025arxiv_html

SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing

Benchmark and Dataset

数据集/基准

现有端到端自主缝合在真实硬件上尚未实现，且公开数据稀缺、缺乏可复现基准。本文提出基于dVRK的SutureBot框架与基准，发布含1890条轨迹的高保真缝合数据集；并设计显式优化穿刺点精度的目标条件策略，将定位精度较纯任务基线提升59%–74%。此外，本文系统评测了多种SOTA VLA模型结合高层任务预测策略的端到端表现，为长程灵巧操作提供了可复现的评估基础。

NeuIPS2025arxiv_html

SonoGym: High Performance Simulation for Challenging Surgical Tasks with Robotic Ultrasound

Benchmark and Dataset

世界模型数据集/基准

现有机器人超声的深度强化学习与模仿学习研究多集中于导航，而解剖重建和手术引导等复杂骨科任务因缺乏高保真仿真环境难以开展。本文提出可扩展的SonoGym平台，基于真实患者CT数据实现物理与生成式超声模拟，支持数百环境并行；将三类手术任务形式化为带次模或安全约束的决策过程，并实现了强化学习与扩散策略等方法的训练与评测。实验表明策略可在不同患者模型及噪声条件下学习，但也揭示了现有方法在临床环境中的局限。

NeuIPS2025arxiv_html

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

Benchmark and Dataset

数据集/基准

现有机器人操作基准多聚焦短时程反应式任务，难以充分评估VLM的System 2慢思考能力（如长程规划与反思）。为此，本文提出RoboCerebra基准，通过LLM自上而下生成任务并由人工在仿真中执行，构建了轨迹长度约为现有基准6倍的长时程家庭操作数据集，支持细粒度子任务分解与动态场景变化。作者还设计了高层VLM规划器与低层VLA执行器协同的分层框架，并建立针对规划、反思与记忆的多维System 2评估协议。实验对GPT-4o等主流VLM进行了评测并分析了各认知维度表现，但具体得分的详细对比在提供的片段中未充分说明。

NeuIPS2025arxiv_html

PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies?

Benchmark and Dataset

数据集/基准

现有视觉-语言模型虽被广泛用于机器人操作，但学界对其细粒度物理前提理解缺乏系统验证。本文提出PAC Bench，首次从物体属性、可供性与物理约束三个可执行性维度，对基础模型进行细粒度诊断。该基准涵盖超过3万条标注的真实与模拟场景，涉及115类物体及多类操作前提。评估显示，当前主流VLM在基本物理概念上仍有显著短板，暴露了其在可靠操作中的关键瓶颈。

NeuIPS2025arxiv_html

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

Benchmark and Dataset

世界模型数据集/基准

现有具身模拟器多聚焦家庭场景，难以支持化学动力学建模与长程实验规划，制约了科学实验室自动化研究。为此，LabUtopia 构建了面向科学场景的高保真模拟与评测套件：LabSim 支持多物理场及化学反应仿真，LabScene 可程序化生成多样化实验室场景与 200 余个资产，LabBench 则建立从原子操作到长程移动操作的五级层次化基准，覆盖 30 项任务。实验表明，当前先进操作策略在仪器配置泛化与长程误差累积上仍存在明显瓶颈。

NeuIPS2025arxiv_html

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

Accelerating and Deploying

视觉语言动作感知加速/部署

VLA-Cache针对机器人操作中视觉输入的时间冗余，提出一种无需训练的高效推理加速方法。其核心洞察在于：相邻帧中大量静态视觉token变化极小，却重复消耗计算资源；而任务相关的敏感区域仍需精准更新。为此，该方法通过跨帧KV缓存复用静态token，同时利用decoder注意力分数筛选环境敏感区域进行重计算，并依据各层注意力集中度动态调整复用比例。实验表明，该方法在仿真与真实机器人上均可实现最高1.7倍CUDA加速与15%控制频率提升，且几乎不损失任务成功率。

NeuIPS2025arxiv_html

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

Accelerating and Deploying

视觉语言动作感知加速/部署

现有VLA加速多局限于单一模块，难以协同解决语言模型内存瓶颈、视觉token冗余与扩散动作头时序重复计算问题。本文提出无需训练的EfficientVLA框架，通过层间相似度剪除语言模型冗余层，按任务相关性与多样性精选视觉token，并在扩散动作头缓存中间特征复用时序连贯性。在CogACT上的实验表明，该方法将语言模块FLOPs降低78%、视觉token压缩至56个、去噪步数减至2步，整体推理延迟大幅缩短，在SIMPLER基准上仅造成极小的成功率损失。

NeuIPS2025arxiv_html

Accelerating Visual-Policy Learning through Parallel Differentiable Simulation

Accelerating and Deploying

世界模型策略学习加速/部署

针对视觉策略学习中可微渲染工程复杂、像素空间求导开销高且梯度不稳定的问题，本文提出D.Va方法，将渲染过程从计算图中解耦，从而避免像素雅可比计算并显著降低内存消耗，同时发现该解耦能归一化策略梯度以提升优化稳定性；理论分析进一步表明此解耦梯度等价于从开环轨迹优化中对策略进行蒸馏。实验在GPU并行加速仿真环境中表明，该方法不仅大幅缩短挂钟训练时间，还在最终回报上持续优于现有强化学习基线、特权仿真蒸馏及可微渲染的解析梯度方法，并可在单张GPU上四小时内从像素输入学会人形机器人跑步策略。

NeuIPS2025arxiv_html

A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search

Accelerating and Deploying

策略学习加速/部署

行为克隆仅在专家访问过的状态上提供密集监督，导致智能体一旦犯错脱离演示分布便难以自主恢复。本文提出 SAILOR，通过从演示与基策略数据中联合学习世界模型和奖励模型，使智能体在测试时能在线搜索并规划恢复路径，无需额外人工修正。在十余项视觉操作任务中，该方法在相同数据下持续优于扩散策略，即使将行为克隆的数据量扩大五至十倍仍存在性能差距，且能识别细微失败并对奖励作弊具有鲁棒性。

NeuIPS2025arxiv_html

DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation

3D Vision

三维视觉感知

全文短总结尚未生成。

NeuIPS2025temporary_pdf

Building 3D Representations and Generating Motions From a Single Image via Video-Generation

3D Vision

三维视觉视频感知

针对单张 RGB 图像重建 3D 结构时单目深度估计常产生视锥形伪影、难以直接用于运动规划的问题，本文提出 VGER。该方法先以输入图像为条件驱动预训练视频生成模型合成相机运动视频，再经 3D 基础模型融合为多视角一致、无伪影的密集点云；进而通过多尺度噪声对比学习提取隐式无符号距离场，并将其编码为环境相关的黎曼度量场，实时调制名义动力系统生成光滑无碰撞轨迹。实验表明，VGER 在多样化室内外场景中均能准确恢复几何并产生符合场景结构的实时运动。

ICRA2025arxiv_html

SpatialBot: Precise Spatial Understanding with Vision Language Models

General

三维视觉感知

现有视觉语言模型仅基于RGB训练，缺乏精确深度感知，难以满足具身智能的空间理解需求。本文提出SpatialBot，通过融合RGB-D输入与可查询像素级深度的Depth API，并设计分层的SpatialQA通用数据集与面向机器人操作的SpatialQA-E数据集进行渐进式训练。实验表明，该方法在SpatialBench空间理解基准、通用VLM评测及真实机器人操作任务上均取得显著提升，实现了毫米级精度的空间推理与物理交互。

ICRA2025arxiv_html

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

General

其他

当前端到端多模态大语言模型在四足机器人控制中推理延迟高，而常规的参数缩减方法虽能提速，却会严重损害模型在未见任务上的泛化能力。为此，本文提出QUART-Online，其核心是通过动作块离散化（ACD）将连续动作序列压缩为少量离散表征，并辅以动作块对齐与多步预测机制，在不削弱基础模型视觉-语言理解能力的前提下大幅提升推理效率。实验表明，该系统可与底层控制器同步实现50Hz实时推理，并在多种导航与全身操作任务上将平均成功率提高65%。

ICRA2025arxiv_html

MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models

General

视觉语言动作策略学习触觉感知

针对现有视觉-语言-动作（VLA）模型多直接微调多模态大语言模型（MLLM）且难以利用自动采集的混合质量数据的问题，本文提出面向四足机器人的MoRE模型。其核心是将多个LoRA模块作为专家嵌入密集MLLM，构建稀疏激活的混合专家架构，并设计基于强化学习的Q函数训练目标，使模型能从包含次优轨迹的混合数据中有效学习。实验表明，MoRE在六项仿真技能上均优于基线，具备出色的分布外泛化能力，并在真实场景中验证了实用性。

ICML2025arxiv_html

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

Vision-Language-Action Models

视觉语言动作感知

现有视觉-语言-动作模型多基于视觉语言模型微调，但后者在视觉问答等任务上的预训练使其偏重高级语义而忽视距离、尺寸等低级空间细节，限制了机器人对物理动态的感知与精确控制。为此，本文提出UP-VLA，将多模态理解与未来视觉预测统一于单一自回归模型中联合训练，使表征同时兼容高层语义与低层视觉模式。实验表明，该方法在Calvin ABC-D基准上较此前最优方法提升33%，并在真实机器人操作中显著提高成功率，尤其在依赖精确空间信息的任务上优势明显。

ICML2025arxiv_html

ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning

Vision-Language-Action Models

视觉语言动作策略学习触觉感知

针对视觉-语言-动作模型因模仿学习难以区分并利用混合质量训练数据的问题，本文提出端到端模型 ReinboT，将离线强化学习最大化累积回报的思想融入通用机器人操控。其核心是通过自动轨迹分解设计面向操控任务特性的密集奖励，并将 ReturnToGo 作为新模态引入 GPT 风格架构，借助 expectile regression 预测最大回报以指导动作生成。实验表明，该方法在 CALVIN 混合质量数据集上达到最优，并在真实任务中展现出优异的小样本学习与分布外泛化能力。

ICML2025arxiv_html

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Vision-Language-Action Models

视觉语言动作感知

现有视觉-语言-动作模型通常微调预训练视觉-语言模型，导致视觉与语言特征独立输入策略网络，破坏了预训练的语义对齐并在未见环境上泛化下降。OTTER提出文本感知的视觉特征提取机制，冻结CLIP等编码器，根据语言指令选择性提取语义对齐的任务相关视觉特征输入策略网络，从而保留预训练的丰富语义理解。仿真与真实机器人实验表明，该方法在未见物体和环境中显著优于现有模型，展现出更强的零样本泛化能力，且性能随编码器与数据规模扩大而提升。

ICML2025arxiv_html

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作感知

现有机器人指令跟随多局限于简单原子指令，难以处理复杂开放域提示与实时人类反馈。本文提出Hi Robot，一种分层视觉-语言-动作模型：高层VLM负责结合视觉观测与用户语言进行任务推理和反馈整合，输出原子指令；低层VLA执行具体动作，并通过逆向合成复杂交互数据来训练高层策略。在单臂、双臂及移动双臂平台上的实验表明，该系统在长程任务（如做三明治、清理桌面）中显著优于端到端基线，能有效利用执行中的人类修正完成未见任务。

ICML2025ar5iv_html

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

Vision-Language-Action Models

视觉语言动作感知

现有基于大语言模型的奖励工程方法仅依赖文本描述，难以准确刻画复杂机器人任务中的隐性偏好，也无法妥善平衡各目标函数的权重。为此，本文提出ELEMENTAL框架，将视觉-语言模型与逆强化学习结合，通过视觉示教与自然语言共同理解用户意图，并以自反思迭代机制持续优化特征提取、奖励与策略学习。实验表明，该方法在IsaacGym标准基准上任务成功率较现有方法提升42.3%，并在分布外任务上实现41.3%的泛化增益。

ICML2025arxiv_html

A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

Vision-Language-Action Models

视觉语言动作感知

现有大型动作模型多基于Transformer，但其推理时二次复杂度导致延迟过高，难以满足机器人实时控制对100Hz–1000Hz采样率的需求。本文提出以xLSTM为核心的大型循环动作模型LRAM，在保持训练并行化的同时实现线性时间复杂度的快速推理，并具备序列长度外推能力。在包含6个领域432个任务、共8.94亿步 transitions 的多任务离线数据集上，LRAM在性能与推理速度上均优于Transformer，且在微调和上下文学习场景中表现良好。

ICML2025arxiv_html

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

Policies

策略学习视频

现有视觉编码器多基于单图或双图预训练，易捕获静态信息却忽略动态演化。本文提出Video Prediction Policy (VPP)，利用视频扩散模型内部同时编码当前状态与预测未来帧的“预测性视觉表征”，使下游策略在该表征上隐式学习逆动力学模型。实验表明，该模型在Calvin ABC-D泛化基准上相对此前最优方法提升18.6%，并在真实世界高维灵巧操作任务中将成功率提高31.6%。

ICML2025arxiv_html

STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented

Policies

其他

现有基于 VQ-VAE 的技能抽象方法存在码本坍缩与技能间因果依赖建模不足的问题。本文提出 STAR 框架，通过旋转增强残差技能量化（RaRSQ）将编码器输出的相对角度关系引入梯度流，避免嵌入坍缩并维持多样化技能表示；同时设计因果技能 Transformer（CST）以自回归方式显式建模技能层级依赖，实现连贯动作生成。在 LIBERO 仿真基准与真实机器人任务上的实验表明，该方法相比基线取得约 12% 的性能提升。

ICML2025arxiv_html

SAM2Act:Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation

Policies

其他

针对现有机器人操作在复杂环境泛化和记忆依赖任务上的不足，本文提出SAM2Act，通过融合视觉基础模型的多分辨率上采样特征与多视角Transformer策略，在RLBench 18项任务中达到86.8%的SOTA成功率，并在The Colosseum环境扰动下仅损失4.3%性能。进一步地，SAM2Act+引入受SAM2启发的记忆库与注意力机制，并配套提出MemoryBench基准，在记忆任务上取得94.3%的成功率，显著超越基线。文中还包含真实机器人验证。

ICML2025arxiv_html

Pre-training Auto-regressive Robotic Models with 4D Representations

Policies

其他

现有机器人预训练受限于数据稀缺与表征不足。本文提出ARM4R，利用单目深度估计从人类视频中提取3D点轨迹构建4D表征，并基于自回归模型进行预训练。该表征与机器人状态仅差线性变换，可实现从人类视频到机器人控制的高效迁移。实验表明，仅预训练于人类视频即可在RLBench及真实Kinova任务上超越多种基线，并展现跨机器人泛化能力。

ICML2025arxiv_html

Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks

Policies

策略学习

针对多任务与元强化学习在任务高度多样化时泛化能力不足、易产生负迁移，且现有聚类方法缺乏理论保证与样本效率的问题，本文提出PACMAN框架，通过参数化任务表示在参数空间聚类，为每个簇学习专属策略以构建策略委员会；其核心洞察在于以高覆盖而非完全覆盖作为聚类目标，从而在低维任务下获得可证明的近似比与样本复杂度保证，并导出与状态/动作空间维度无关的少样本适应界。实验表明，该方法在MuJoCo和Meta-World上显著优于11个多任务、元强化及任务聚类基线，且能通过LLM嵌入有效处理非参数任务。

ICML2025arxiv_html

Flow-based Domain Randomization for Learning and Sequencing Robotic Skills

Policies

其他

现有域随机化方法依赖手工设计环境参数分布，难以兼顾策略收敛与真实世界泛化，且部分方法需要昂贵的真实环境交互。为此，本文提出GoFlow，利用归一化流构建神经采样分布，在训练过程中通过熵正则化奖励最大化自动探索当前策略可解的最广环境边界，无需真实数据即可学习鲁棒策略。实验表明，该方法在六个仿真域及真实接触操作任务中均优于现有基线，并实现更高的域覆盖。此外，作者将学习到的分布与特权值函数结合，用于分布外检测，以支持不确定性感知的多步操作规划。

ICML2025arxiv_html

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Policies

数据集/基准感知

针对多模态大语言模型（MLLM）驱动的具身智能体缺乏系统评测基准的问题，本文提出EmbodiedBench，在四个环境中构建了1,128个覆盖高层语义规划与低层原子动作（导航、操作）的测试任务，并设计了面向常识推理、空间感知、长期规划等六大能力的细粒度评测框架。实验评估了24个主流MLLM，发现模型在高层任务表现较好，但在低层操作任务上仍有显著瓶颈，且长期规划是最具挑战性的能力；此外，视觉信息对低层任务至关重要，移除后性能下降40%至70%，而对高层任务影响甚微。

ICML2025arxiv_html

Efficient Robotic Policy Learning via Latent Space Backward Planning

Planning and Reasoning

规划/推理策略学习加速/部署

现有机器人规划方法在细粒度视频预测（成本高、误差累积）与粗粒度前向子目标规划（易偏离长期目标）之间难以平衡效率与准确性。本文提出潜在空间反向规划LBP，先将任务目标锚定为最终潜在状态，再反向递归生成趋近当前状态的中间子目标，使规划全程保持对任务完成的感知，抑制偏离目标的误差累积；策略通过可学习token自适应聚合子目标序列提取动作。在LIBERO-LONG仿真与真实机器人长程多阶段任务中，LBP在计算效率与成功率上均优于现有前向及细粒度方法，达到当前最优。

ICML2025arxiv_html

Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling

Planning and Reasoning

规划/推理

现有LLM智能体在长程机器人任务规划中受限于单向依赖、缺乏错误修正和固定推理过程。本文将自精炼过程建模为不动点问题，利用深度平衡模型与隐函数定理实现无需额外验证器的端到端监督训练，并设计嵌套平衡序列建模结构以高效融合环境反馈，实现闭环规划。在VirtualHome-Env上的实验表明，该方法相比基于树的方案具有更优的性能与推理计算扩展性。

ICML2025arxiv_html

WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving

Dataset

规划/推理数据集/基准

针对现有驾驶语言数据集多局限于空间邻近交互、忽视交通规则引发的关键交互这一问题，本文构建了大规模多模态数据集WOMD-Reasoning，包含300万对真实场景Q&A，系统覆盖交通规则与人类意图驱动的交互推理。基于该数据集微调的Motion-LLaVA在交互预测、规则合规规划及驾驶问答等任务中表现优异，验证了对非邻近交互进行语言建模的必要性与有效性。

ICML2025arxiv_html

Unifying 2D and 3D Vision-Language Understanding

3D Vision

三维视觉感知

针对3D视觉语言数据稀缺导致具身系统长期依赖2D模型的瓶颈，本文提出统一架构UniVLG，通过预训练2D权重初始化并联合2D与3D数据训练，引入跨模态共享的语言条件掩码解码器与2D-to-3D提升策略，在无需网格重建和真值提议的真实传感器设置下，于3D指代定位、问答等任务上取得SOTA，且联合训练不损害2D性能。

ICML2025arxiv_html

GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model

3D Vision

三维视觉感知

现有参数高效微调方法直接迁移至3D点云时，因难以利用几何信息而性能受限。本文提出GAPrompt，通过可学习的Point Prompt显式引入点云几何细节，并设计Point Shift Prompter提取实例级全局形状特征对输入进行自适应调整，辅以Prompt Propagation将几何信息注入特征提取过程。实验表明，该方法仅用2.19%的可训练参数即可在多个基准上达到媲美全量微调的精度，并显著优于现有PEFT方法。

ICLR2025arxiv_html

VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation

Vision-Language-Action Models

视觉语言动作感知

现有视觉语言动作模型仅支持文本指令，忽略了更自然的语音交互模态，且级联语音识别系统会丢失声纹等个性化信息。为此，本文提出端到端模型VLAS，将语音识别直接集成到机器人策略中，通过三阶段训练实现图文语音与动作的多模态对齐，并设计语音检索增强生成机制处理个性化任务。实验表明，VLAS在CALVIN基准上性能与传统VLA相当，在定制化任务和真实UR5机械臂上均能有效利用语音指令完成操作。

ICLR2025arxiv_html

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Vision-Language-Action Models

视觉语言动作三维视觉感知

现有视觉-语言-动作（VLA）模型虽具通用性，却常因缺乏对历史运动的空间-时序感知而陷入被动反应。本文提出视觉轨迹提示，将机器人过去运动的多点轨迹直接叠加于输入图像，以显式编码时空关系。基于OpenVLA微调的TraceVLA（7B）及轻量版TraceVLA-Phi3（4B）在SimplerEnv仿真与真实WidowX机器人任务上取得领先性能，其中7B模型相对OpenVLA在仿真环境提升10%、真实任务提升3.5倍，4B模型则在推理效率显著优于7B基线的同时保持强劲表现。

ICLR2025arxiv_html

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

Vision-Language-Action Models

视觉语言动作数据集/基准感知

针对既有研究多依赖野外人类视频预训练机器人视觉表征、却因人机体型差异和动态信息缺失导致性能受限的问题，本文系统评估了表征的“操作中心性”与下游策略表现之间的强关联，进而提出基于大规模机器人数据集DROID的MCR预训练框架。该框架通过将视觉观测与机器人本体状态-动作动态对齐，并辅以动作预测和时间对比学习，显著增强了操作中心性。实验表明，MCR在20项仿真操作任务上较最强基线提升14.8%，并在3项真实机器人任务中将成功率提高76.9%。

ICLR2025arxiv_html

PIDM: Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation

Vision-Language-Action Models

视觉语言动作感知

现有机器人策略学习多割裂视觉与动作，或仅做行为克隆，或分阶段预训练视觉表示。本文提出端到端预测逆动力学模型PIDM，通过Transformer同时预测未来视觉状态与中间动作，在训练与推理中闭环融合视觉与动作。模型Seer经大规模机器人数据预训练后，在LIBERO-LONG、CALVIN ABC-D及真实世界任务上分别提升13%、21%与43%，其中CALVIN ABC-D达新SOTA，并在长程任务与强扰动下展现优异泛化性。

ICLR2025arxiv_html

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

Vision-Language-Action Models

视觉语言动作策略学习感知数据

针对机器人示教数据稀缺导致预训练视觉语言模型难以直接适配机器人控制的问题，本文提出LLaRA框架，将机器人动作策略建模为视觉-文本对话，并设计自动化流水线将行为克隆数据转换为指令微调数据，使机器人动作与图像像素坐标对齐。进一步地，通过六项自监督辅助任务增强数据集，无需额外动作标注。实验表明，该框架在少量数据微调下即可在模拟与真实世界任务中取得先进性能，并有效保持了对未见任务的泛化能力。

ICLR2025arxiv_html

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

Video

视频

针对现有视觉-语言-动作模型在真实部署中难以抵御光照变化、视频流噪声等外部扰动的问题，本文受经典内模控制原理启发，提出闭环框架GEVRM。其核心在于利用文本引导的视频扩散模型生成高表达力的未来视觉目标作为参考输入，并通过原型对比学习优化内部嵌入以模拟和区分外部扰动，从而驱动目标引导的扩散策略生成鲁棒动作。该方法在标准与受扰动的CALVIN基准及真实机器人任务中均取得了领先的性能。

ICLR2025arxiv_html

ReGen: Generative Robot Simulation via Inverse Design

Sim2real and Real2sim

世界模型仿真到现实

现有机器人仿真构建依赖人工，且从文本生成低层控制的方式限制了场景多样性。ReGen提出逆设计思路，从给定的机器人行为与文本描述反向推断并生成可能引发该行为的仿真环境：通过大语言模型迭代扩展编码因果关系与实体属性的有向图，再将其转换为符号程序配置仿真器。在自动驾驶与操作中，该方法以高成功率生成了更多样、更复杂的场景，支持可控反事实与边角案例生成，并能推理智能体认知及多模态感知故障。

ICLR2025arxiv_html

Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

Policies

策略学习

针对视觉模仿学习因光照、纹理等外观变化导致泛化性不足的问题，本文提出 Stem-OB，利用预训练图像扩散模型的 inversion 过程将不同外观的观察映射为保留高层场景结构的收敛表示，从而抑制低级视觉差异。该方法可作为即插即用的预处理模块，无需额外训练，且部署时无需推理阶段 inversion。实验表明，其在真实世界机器人任务上的成功率较最佳基线平均提升 22.2%。

ICLR2025arxiv_html

STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning

Policies

策略学习

针对多任务机器人策略在单任务上因负迁移导致性能次优的问题，本文提出STRAP，在测试时利用少量域内轨迹，基于视觉基础模型特征与子序列动态时间规整，从大规模离线数据集中检索相似子轨迹而非整条轨迹以训练策略。其核心洞察在于不同任务间广泛共享底层行为，子轨迹粒度能更充分利用跨任务数据。实验表明，该方法在LIBERO模拟环境及真实机器人操作任务中均优于全轨迹检索与多任务学习方法，且仅需少量真实演示即可学习鲁棒策略。

ICLR2025arxiv_html

SRSA: Skill Retrieval and Adaptation for Robotic Assembly Tasks

Policies

其他

针对机器人装配等接触密集型任务数据效率低的问题，本文提出SRSA框架，利用预存技能库解决新任务。核心假设是：在新任务上零样本成功率更高的源策略，经微调后收敛更快、效果更好。为此，作者联合学习几何、动力学与专家动作的特征，预测策略迁移成功率以检索最优技能，并引入自模仿学习稳定适应。实验表明，在密集奖励下成功率较基线提升19%、样本效率提高2.4倍，稀疏奖励下提升135%；且策略可零样本迁移至真实机器人，取得90%平均成功率。

ICLR2025temporary_pdf

ReViWo: Learning View-invariant World Models for Visual Robotic Manipulation

Policies

世界模型

现有视觉操作策略在相机视角变化时性能显著下降，因其未能解耦视角不变的任务状态与视角相关的外观信息。本文提出ReViWo，通过双编码器将图像显式分解为视角不变表示（VIR）和视角相关表示，利用带标签的多视角数据及Open X-Embodiment数据联合训练。基于VIR构建世界模型并训练策略，使策略仅依赖跨视角稳定的状态表示。在Meta-world、PandaGym及真实ALOHA机器人上的实验表明，该方法在面对10至90度视角偏移和持续相机抖动时均保持鲁棒，显著优于基线。

ICLR2025arxiv_html

HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation

Policies

视觉语言动作

现有单体VLA模型直接微调VLM预测动作，既受限于昂贵的机器人数据，又难以兼顾灵巧操作与开放世界泛化。本文提出分层VLA架构HAMSTER，将高层VLM与低层3D策略解耦：VLM仅需从单目RGB和任务描述输出粗粒度2D末端执行器路径，低层策略据此完成精确操控。该设计使高层模型能利用无动作视频、仿真等廉价off-domain数据学习语义推理，低层模型则专注空间感知与高频控制。真实机器人实验表明，该方法在七个泛化维度上较OpenVLA平均提升20个百分点，相对增益达50%。

ICLR2025arxiv_html

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

Policies

三维视觉策略学习

现有模仿学习方法在3D操作任务中难以泛化到新任务，而基于基础模型的方法又缺乏对3D环境的精准理解。本文提出GravMAD，通过子目标连接两种范式：训练阶段从演示中自动发现关键子姿态，推理阶段利用基础模型提取子目标，并生成GravMaps空间价值图引导扩散策略，实现兼具精度与泛化性的语言条件3D操作。在RLBench上，GravMAD对新任务和训练任务的性能分别提升28.63%和13.36%，并在真实机器人任务中验证了跨任务泛化能力。

ICLR2025arxiv_html

Data Scaling Laws in Imitation Learning for Robotic Manipulation

Policies

策略学习数据

本文探究机器人模仿学习中的数据缩放规律，以期训练出可在新环境与新物体上零样本部署的单任务策略。基于逾四万条演示与一万五千余次真实机器人 rollout，作者发现策略泛化性能随训练环境及物体数量呈幂律增长，且环境与物体的多样性远比单一环境下的演示数量重要，超过阈值后收益甚微。据此提出的高效采集策略仅需四名采集者用一个下午，即可为新的操作任务收集到足以在未见环境与物体上实现约九成成功率的数据。

ICLR2025arxiv_html

BadRobot: Jailbreaking Embodied LLMs in the Physical World

Policies

其他

全文短总结尚未生成。

ICLR2025arxiv_html

VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning

Planning and Reasoning

世界模型规划/推理

针对传统符号模型难以适应新环境与纯神经网络缺乏逻辑推理的问题，本文提出神经-符号谓词（NSPs），将视觉-语言模型的感知能力与Python的可计算性结合，通过在线交互自动发明谓词并学习抽象世界模型与高层动作。在五个模拟机器人任务上的实验表明，该方法相比分层强化学习、VLM规划及符号基线具有更高的样本效率、更强的分布外泛化能力与可解释性。

ICLR2025arxiv_html

Physics-informed Temporal Difference Metric Learning for Robot Motion Planning

Planning and Reasoning

规划/推理

针对现有自监督运动规划方法在求解Eikonal方程时难以保持最优值函数与测地距离特性的问题，本文提出物理信息时序差分度量学习框架。该方法将时序差分损失引入物理信息神经网络以在有限区域内强制Bellman最优性、抑制虚假局部极小，并通过度量学习架构保证网络满足测地距离的非负性、对称性与三角不等式。推理时采用基于采样的模型预测控制最小化所学值函数。实验表明，该方法在2至12自由度的复杂及未见过环境中显著优于现有自监督方法。

ICLR2025arxiv_html

Multi-Robot Motion Planning with Diffusion Models

Planning and Reasoning

规划/推理策略学习

多机器人运动规划因维度灾难和交互数据稀缺，难以直接学习多机器人扩散模型。本文提出MMD框架，核心洞察是仅需单机器人扩散模型，通过借鉴MAPF的约束搜索机制，利用时空引导函数施加碰撞约束并协调多机，同时组合多个模型实现大范围长程规划。实验表明，该方法在物流场景的数十机器人模拟中，随机器人数量和环境规模均展现出良好的可扩展性，且优于基于学习代价地图的MAPF方法。

ICLR2025temporary_pdf

LASeR: Towards Diversified and Generalizable Robot Design with Large Language Models

Planning and Reasoning

规划/推理

现有大语言模型辅助进化优化在探索与利用平衡及跨任务泛化上存在不足，限制了其在机器人设计自动化中的应用。本文提出LASeR框架，通过多样性反思机制DiRect引导LLM基于历史搜索轨迹进行知识化探索，同时显式注入任务背景信息以激发LLM的跨任务推理能力。在体素软体机器人上的实验表明，该方法在优化效率、解多样性及零样本新任务设计方面均显著优于基线。

Paper Code

ICLR2025arxiv_html

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents

Planning and Reasoning

规划/推理

现有异构多机器人系统多依赖人工预设规则与角色，难以实现全自动化协作。本文提出EMOS框架，其核心洞察在于：机器人的能力应由物理构型而非人为角色定义。为此，系统通过解析URDF与运动学工具自发生成"机器人简历"，实现基于具身感知推理的层级化任务规划、分配与执行。同时发布Habitat-MAS基准，涵盖感知、导航、操作及跨楼层物体重排任务，实验表明机器人简历与分层设计对异构多机协作至关重要。

ICLR2025arxiv_html

DenseMatcher: Learning 3D Semantic Correspondence for Category-Level Manipulation from a Single Demo

Planning and Reasoning

规划/推理三维视觉

现有3D密集对应方法多依赖几何而忽略纹理，且类别单一，难以实现语义层面的跨类别泛化。为此，本文提出DenseMatcher，将多视角2D基础模型特征投影至网格后，经3D网络精炼，再通过改进的functional map建立密集对应，并发布了首个多类别彩色网格3D匹配数据集DenseCorr3D。实验表明，该方法在3D匹配任务上大幅优于已有基线，且仅通过单次演示即可实现真实场景中跨实例、跨类别的长程复杂机器人操作，并支持零样本颜色迁移。

ICLR2025arxiv_html

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation

Planning and Reasoning

规划/推理感知

现有视觉语言模型在机器人操作中擅长执行任务，却难以识别和推理失败。本文提出开源VLM Aha，将失败检测重构为自由形式推理任务，并设计FailGen管道，通过对仿真中的成功演示进行程序性扰动，规模化生成失败轨迹数据。仅在合成数据上微调的Aha，能泛化至真实场景与未见任务，在失败推理上超越GPT-4o等模型；将其反馈集成到强化学习奖励生成、任务运动规划与零样本轨迹生成中，平均提升任务成功率21.4%。

ICLR2025arxiv_html

6D Object Pose Tracking in Internet Videos for Robotic Manipulation

Planning and Reasoning

规划/推理视频

全文短总结尚未生成。

ICLR2025arxiv_html

SPA*: 3D Spatial-Awareness Enables Effective Embodied Representation

3D Vision

三维视觉感知

现有具身AI视觉表征多沿用2D视觉范式，难以捕捉3D空间结构。本文提出SPA框架，通过可微分神经渲染在多视角图像上进行自监督预训练，使普通ViT获得内在3D空间感知能力。研究构建了涵盖8个模拟器268个任务的迄今最大规模具身表征评测基准，结果表明SPA在单任务与语言条件多任务场景中持续优于十余种SOTA方法，且仅需更少训练数据；真实世界实验进一步验证了其有效性，证实3D空间感知对具身表征至关重要。

ICLR2025arxiv_html

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination

3D Vision

世界模型三维视觉策略学习感知

现有世界模型难以直接复现机器人面前的真实环境，易产生幻觉且缺乏组合泛化能力。本文提出DreMa，将高斯溅射与物理引擎结合构建可学习的组合式数字孪生，使机器人能在想象中对物体进行物理可信的重新配置。基于该世界模型，作者对少量真实演示施加等变变换生成新数据，用于模仿学习。实验表明，该方法在仿真和真实Franka机器人上均实现one-shot策略学习，显著减少所需演示并提升泛化性。

ICCV2025temporary_pdf

Learning 4D Embodied World Models

World Model

世界模型

现有2D世界模型缺乏精确深度与几何信息，难以支持机器人操作所需的空间一致性与6-DoF姿态估计。本文提出TesserAct，通过微调视频生成模型联合预测RGB-DN（RGB、深度、法线）序列，以轻量中间表示学习4D具身世界模型；并设计算法将生成视频重建为时空一致的4D场景，引入新颖损失约束动态区域一致性。实验表明，该方法在真实与模拟机器人数据上均生成高保真4D场景，并显著提升下游操作策略性能，且能泛化至未见物体与跨域场景。

ICCV2025arxiv_html

IRASim: A Fine-Grained World Model for Robot Manipulation

World Model

世界模型

现有世界模型难以精确对齐机器人动作轨迹与视频帧，导致细粒度操作交互建模不足。为此，本文提出基于扩散Transformer的IRASim，创新性地在Transformer块内引入帧级动作条件模块，显式强化动作与生成帧的逐帧对齐，实现高保真轨迹到视频生成。实验表明，IRASim在多个真实机器人数据集上的视频质量均优于基线，且具备良好的规模扩展性；其策略评估结果与真实仿真器高度相关，并可通过测试时模型预测规划将Push-T任务的IoU从0.637提升至0.961。

ICCV2025arxiv_html

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

World Model

世界模型三维视觉

现有图像世界模型缺乏三维几何理解，对光照和视角变化敏感。本文提出基于3D高斯泼溅的Gaussian World Model (GWM)，通过3D高斯VAE将场景压缩至潜空间，并以扩散Transformer预测动作条件下的未来高斯状态，实现细粒度场景重建。GWM既可增强模仿学习的视觉表征，也可作为神经模拟器支持基于模型的强化学习。在31项模拟与真实机器人任务中，GWM显著优于现有方法，展现了3D世界模型的数据扩展潜力。

ICCV2025arxiv_html

DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation

World Model

视觉语言动作世界模型

现有非抓取操作学习方法多依赖多视角相机与精确位姿跟踪，且难以泛化至不同物理条件。本文提出DyWA，通过历史轨迹自适应建模动态特性，并联合预测未来状态与机器人动作，在单视角点云的部分可观测条件下实现几何、物理与动作的统一学习。仿真中仅用单视角输入便将成功率提升31.5%，真实世界平均达68%，且对摩擦变化及半满水瓶等非均匀质量分布具有鲁棒性。

ICCV2025ar5iv_html

Diffusion-Based Imaginative Coordination for Bimanual Manipulation

World Model

世界模型策略学习灵巧操作

受人类借助想象未来以协调双手的启发，本文提出一种基于扩散模型的统一框架，将视频预测作为隐式协调的共识载体，联合优化未来状态生成与动作预测。具体而言，多帧潜在预测在压缩空间中编码未来信息，单向注意力机制让视频预测以动作为条件而动作预测不依赖视频，从而在推理时跳过视频生成以提升效率。实验表明，该方法在ALOHA与RoboTwin模拟基准及真实世界任务中均显著优于基线，成功率分别提升24.9%、11.1%和32.5%。

ICCV2025temporary_pdf

monoVLN: Bridging the Observation Gap between Monocular and Panoramic Vision and Language Navigation

Vision-Language-Navigation Model

视觉语言导航导航感知

现有视觉语言导航方法多假设全景观察，而实际机器人普遍配备单目RGB-D相机，导致观测信息固有缺失。本文提出基于3DGS的monoVLN框架，通过隐式部分补全模块推断缺失区域特征，并引入不确定性感知的主动感知策略，使智能体在决策不确定时主动选择方向采集视觉信息。该方法在R2R-CE上将单目方法的导航成功率提升8%，仅增加约9%的步数，并在真实机器人平台上验证了部署可行性。

ICCV2025arxiv_html

SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Vision-Language-Navigation Model

视觉语言导航导航感知

现有视觉导航任务多按语言粒度孤立研究，直接混合训练会因目标冲突导致性能波动。为此，本文提出状态自适应混合专家模型SAME，将导航统一为语言粒度连续谱下的通用问题：不同于任务级或token级MoE，其依据当前视觉-语言状态动态选择专家，并将MoE作用于视觉查询层。实验表明，单一SAME智能体在七个导航任务上同时取得与专用模型相当甚至更优的性能。

ICCV2025arxiv_html

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

Vision-Language-Navigation Model

视觉语言导航导航感知

现有视觉语言导航研究多基于理想化仿真，忽视物理本体差异与真实部署挑战。本文提出物理真实平台VLN-PE，首次系统评估了多种以自我为中心视觉感知的导航方法在人形、四足及轮式机器人上的表现。实验发现，现有方法在物理环境中成功率相对下降34%，且对本体视角高度、光照变化敏感；而跨本体联合训练可提升整体适应性，RGB-D融合也更鲁棒。此外，仅在MP3D上训练的模型泛化不足，小规模新场景数据微调即可超越零样本SoTA，提示需重新思考物理与视觉差异对VLN的实际影响。

ICCV2025arxiv_html

P3Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction

Vision-Language-Navigation Model

视觉语言导航规划/推理导航感知

该工作针对现有导航模型缺乏可解释的规划推理且长期探索中历史观察冗余严重的问题，提出RoboTron-Nav框架：通过多任务协作联合训练导航与具身问答任务，显式整合感知、规划与预测能力；并设计自适应3D感知历史采样策略，依据空间相邻性与视角多样性压缩冗余观察。在SPOC基准的ObjectNav任务中，该方法达到81.1%的成功率，较先前方法绝对提升9%，创下新SOTA。

ICCV2025arxiv_html

NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation

Vision-Language-Navigation Model

视觉语言导航导航感知

针对目标导向视觉语言导航中现有方法仅依赖历史信息、忽视动作长期后果的问题，本文提出NavQ。其核心洞察是将Q-learning引入潜空间，通过大规模无标注轨迹自监督训练Q-model，使模型单步输出候选动作的累积未来表征（Q-feature），从而避免多步展开的耗时与失真；进而利用跨模态未来编码器融合Q-feature与导航指令，生成面向目标的启发式分数，并与基于历史观测的分数结合，执行类A*的前瞻性搜索。在主流目标导向VLN数据集上的实验验证了该方法的有效性。

ICCV2025arxiv_html

NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments

Vision-Language-Navigation Model

视觉语言导航世界模型导航感知

针对连续环境视觉语言导航中现有方法难以泛化到新环境且缺乏在线适应能力的问题，本文提出自演化世界模型框架NavMorph。该框架通过为VLN定制的循环状态空间模型显式建模连续潜在动作-状态转移，并引入上下文演化记忆机制，使智能体在在线交互中持续更新潜在表示、积累场景上下文以支持前瞻规划与动态决策。实验表明，NavMorph在主流VLN-CE基准上显著提升了多个领先模型的性能。

ICCV2025arxiv_html

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

Vision-Language-Navigation Model

视觉语言导航导航三维视觉感知加速/部署

现有3D视觉语言模型多依赖静态重建，缺乏主动探索能力，而强化学习方法又存在样本效率低和泛化差的问题。本文提出MTU3D框架，通过在线查询表示直接从RGB-D流构建空间记忆，避免显式3D重建，并将未探索区域建模为前沿查询，实现视觉grounding与探索的联合优化。此外，研究通过百万级模拟与真实轨迹进行视觉-语言-探索预训练。在多个具身导航与问答基准上，MTU3D将成功率较现有最优方法提升最高达23%，并在真实机器人上验证了有效性。

ICCV2025arxiv_html

Harnessing Input-adaptive Inference for Efficient VLN

Vision-Language-Navigation Model

视觉语言导航导航感知加速/部署

该研究针对视觉语言导航（VLN）模型计算成本高昂、难以部署于资源受限机器人的问题，提出了一种输入自适应推理方法。作者发现现有自适应机制在VLN中失效，因此从时空局部性出发，设计了选择性处理全景视图、基于重要性的自适应早期退出阈值，以及基于局部敏感哈希的视图缓存机制。在7个基准上对3种智能体的测试表明，该方法在标准场景下减少60%计算量且成功率平均仅降11.7%，在连续环境下更实现86%的计算节省与8%的性能下降，显著优于基线。

ICCV2025arxiv_html

Embodied Navigation with Auxiliary Task of Action Description Prediction

Vision-Language-Navigation Model

视觉语言导航导航感知

针对室内多模态导航中决策系统日益黑箱化且可解释性与性能存在权衡的问题，本文提出DescRL框架，将动作描述预测作为强化学习的辅助任务。为克服RL缺乏动作描述真值的困难，作者利用预训练视觉语言模型通过知识蒸馏生成伪标签，监督策略网络同时学习导航决策与对自身过去或未来动作的自然语言描述。在物体目标导航、视觉语言导航及语义音视频导航等多种任务上的综合实验表明，该方法在提升可解释性的同时不损害导航性能，并在极具挑战性的语义音视频导航任务上取得当前最优表现。

ICCV2025temporary_pdf

3D Gaussian Map with Open-Set Semantic Grouping for Vision-Language Navigation

Vision-Language-Navigation Model

视觉语言导航导航三维视觉感知

针对视觉语言导航中现有场景表示常忽略复杂三维几何与开放语义、导致泛化受限的问题，本文提出三维高斯地图方法。该方法以稀疏伪激光雷达点云初始化可微三维高斯来在线构建局部场景地图，并通过开放集语义分组将高斯按实例或类别聚合，实现几何与语义的统一表征；进而基于多粒度动作预测融合场景布局、视角与实例级线索进行导航决策。在R2R、R4R和REVERIE的unseen验证集上，SR/SPL、SDTW及RGS/RGSPL等指标均获得2%–3%的提升。

ICCV2025arxiv_html

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

Vision-Language-Action Model

视觉语言动作感知加速/部署

本文针对VLA模型中动作tokenizer数据规模受限的问题，提出基于卷积残差VQ-VAE的动作tokenizer，并采用渐进式策略先在真实数据上训练再融入仿真数据，将数据量扩大逾百倍。核心洞察是动作轨迹的仿真到真实域差距极小，因此合成数据可有效提升性能而不损害真实世界表现。实验表明，随着合成数据增加，下游任务成功率线性提升，在真实机器人长程任务中成功率提高达30%，同时显著加速推理并生成更平滑的动作输出。

ICCV2025temporary_pdf

Towards Long-Horizon Vision-Language-Action System: Reasoning, Acting and Memory

Vision-Language-Action Model

视觉语言动作规划/推理感知

现有视觉-语言-动作模型多局限于短程单技能任务，难以应对真实场景中的长程多技能需求。为此，本文提出分层式具身智能系统MindExplore，其核心洞察在于通过迭代对齐任务规划与动作执行的知识域，将推理、动作与记忆机制统一为专家级分层架构：推理层利用任务特定的思维链分解长程指令，动作层基于混合策略专家与轻量多模态扩散策略融合RGB、深度及LiDAR信息自适应生成闭环动作序列，记忆机制则实现两层间的状态反馈与实时重规划。实验表明，该系统在30 FPS下于高度动态的非结构化沙地环境中成功率达到现有方法的3.01倍，并通过了24项复杂地形真实世界任务验证。

ICCV2025temporary_pdf

SD2Actor: Continuous State Decomposition via Diffusion Embeddings for Robotic Manipulation

Vision-Language-Action Model

视觉语言动作策略学习感知

现有语言条件机器人操作多聚焦离散状态，难以处理连续状态（如“打开35%”）的精确映射与泛化。SD2Actor提出一种零样本状态分解框架：利用LLM将指令中的新状态分解为若干已学基础状态，并通过其嵌入的线性组合构造新状态特征，以正交化损失保障插值有效性，再作为条件引导扩散策略生成精确动作。该方法在ARNOLD基准上优于现有方法，并能在少量示教下泛化至真实世界连续操作任务。

ICCV2025arxiv_html

PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation

Vision-Language-Action Model

视觉语言动作感知

针对机器人操作中高层语义与低层几何特征割裂、现有方法依赖人工标注且自动检测缺乏验证的问题，本文提出闭环框架PASG。该框架融合视觉基础模型与几何拓扑分析自动提取关键点、方向及主轴等交互基元，通过VLM实现动态语义锚定与自校正闭环，将几何基元与功能可供性分层耦合。实验表明，PASG在多样操作任务中性能与人工标注相当，其微调的Qwen2.5VL-PA在Robocasa-PA基准上达77.8%准确率，绝对提升33.9%。

ICCV2025arxiv_html

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

Vision-Language-Action Model

视觉语言动作视频感知

针对机器人动作标注昂贵而网络视频丰富的矛盾，本文提出将相邻帧间的视觉动态压缩为离散 Latent Motion Token，构建一种与硬件无关的“运动语言”，并通过 Moto-GPT 自回归预训练捕获通用运动先验。作者进一步设计联合微调策略，在运动 token 预测与低层动作输出间建立桥梁，实现视频知识到真实机器人控制的有效迁移。实验表明，该 token 具备可解释性与跨本体泛化能力，微调后的策略在 SIMPLER 和 CALVIN 基准上展现出优异的样本效率与操作性能，尤其在有限数据下优势显著。

ICCV2025ar5iv_html

FedVLA: Federated Vision-Language-Action Learning with Dual Gating Mixture-of-Experts for Robotic Manipulation

Vision-Language-Action Model

视觉语言动作感知

针对VLA模型训练依赖用户私有数据带来的隐私泄露风险，本文提出首个联邦视觉-语言-动作学习框架FedVLA，通过面向指令的场景解析机制增强任务感知特征提取，并设计双重门控混合专家模块使token与专家双向自适应决定激活以提升计算效率，同时引入基于专家相似度的专家驱动聚合策略实现跨客户端语义对齐知识融合。实验表明，该框架在模拟与真实机器人环境中均能达到接近集中式训练的任务成功率，并有效保护数据隐私。

ICCV2025ar5iv_html

Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics

Vision-Language-Action Model

视觉语言动作感知

该研究针对视觉-语言-动作（VLA）模型在机器人系统中的安全性空白，系统评估了其对抗鲁棒性。研究指出，机器人动作的物理动力学约束与时间序列依赖性使传统攻击难以生效，据此提出了面向空间与功能特性的攻击目标：一种无目标的位置感知目标以破坏动作稳定性，以及一种有目标的轨迹操纵目标。通过设计可在摄像头视野内放置的对抗性彩色补丁，该方法在数字与物理环境中均能有效攻击。实验显示，模拟任务成功率最高可降至零，物理环境失败率也显著攀升，暴露了VLA架构在真实部署前的关键安全缺陷。

ICCV2025temporary_pdf

Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding

Vision-Language-Action Model

视觉语言动作视频感知

现有端到端多模态模型在融合长视频与具身传感信息时面临计算成本高、动态场景理解不足的问题。本文提出的Embodied VideoAgent通过整合第一人称视频与深度图、相机位姿构建持久化物体记忆，并设计基于VLM的自动更新机制以应对动作带来的状态变化。在Ego4D-VQ3D、OpenEQA和EnvQA上的实验表明，该方法分别取得4.9%、5.8%与11.7%的性能提升，并在机器人操作等具身任务中展现了应用潜力。

ICCV2025arxiv_html

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Vision-Language-Action Model

视觉语言动作策略学习感知

现有通用视觉-语言-动作模型通常依赖紧凑动作头输出离散或连续动作，难以适配跨本体数据中异构的动作空间与多视角观测。Dita将扩散去噪直接融入Transformer，通过上下文条件机制让动作去噪与历史视觉token细粒度对齐，显式建模动作微差与环境变化。该轻量框架在多项仿真基准上达到领先或可比性能，并仅凭第三人称相机输入和10条真实样本微调即可部署复杂长程任务。

ICCV2025arxiv_html

CoA-VLA: Improving Vision-Language-Action Models via Visual-Text Chain-of-Affordance

Vision-Language-Action Model

视觉语言动作感知

现有视觉-语言-动作（VLA）模型往往依赖外部大模型进行高层规划，自身难以形成面向低层控制的隐式推理。本文提出CoA-VLA，受O1模型链式推理启发，将“思维链”思想落地为机器人可执行的affordance推理链，依次明确物体、抓取部位、放置空间与无碰撞运动路径四类affordance，并以视觉-文本双模态格式将其注入基于DiffusionVLA的策略网络。在LIBERO仿真与七项真实机器人长程任务上的实验表明，该方法的成功率优于OpenVLA与Octo等前沿模型，且对未见物体位姿、自由空间识别及动态避障具有显著泛化能力。

ICCV2025arxiv_html

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

Vision-Language-Action Model

视觉语言动作感知

现有机器人操作方法在空间可供性推理上不足，难以完成擦白板、堆叠等需理解"何处接触、如何运动"的复杂任务。本文提出分层可供性感知扩散模型A0，将操控解耦为高层可供性理解与低层动作执行，并学习一种本体无关的以物体为中心的可供性表示，仅通过预测接触点与轨迹实现跨平台迁移。模型基于百万级接触点预训练，并引入位置偏移注意力与空间信息聚合层以增强运动感知。实验表明，A0在Franka和Kinova等平台上的平均成功率分别达62.50%与53.75%，在轨迹跟随类任务中优于现有基线。

ICCV2025arxiv_html

iManip: Skill-Incremental Learning for Robotic Manipulation

Policy

策略学习

现有机器人操作研究多聚焦单次任务性能，却鲜有探讨如何让机器人增量地习得新技能。本文发现，传统增量方法因忽视操作任务的时间连贯性与动作复杂性，存在严重灾难性遗忘。为此，作者提出iManip框架，通过时序关键帧回放维护旧技能完整性，并设计可扩展PerceiverIO，以新增动作提示与权重适应新动作基元且冻结已学参数。实验表明，该框架在基于RLBench的10技能增量环境中平均较基线提升9.4%，并在模拟与真实机器人实验中验证了有效性与轻量微调优势。

ICCV2025arxiv_html

Wavelet Policy: Lifting Scheme for Policy Learning in Long-Horizon Tasks

Policy

策略学习

针对具身智能中长程任务面临的误差累积、多模态动作分布与高精度操作等挑战，本文从信号处理视角出发，提出基于可学习提升方案的小波策略网络。该方法将长程动作与观测序列进行多尺度小波分解，在低频成分中捕捉全局动作趋势以维持长期一致性，并通过逐步添加高频细节实现从粗到细的精确动作生成。实验涵盖机器人操作、自动驾驶及多机协作等五个复杂场景，结果表明该方法在长程任务中的精度与可靠性优于或可比于现有基线。

ICCV2025arxiv_html

Spatial-Temporal Aware Visuomotor Diffusion Policy Learning

Policy

三维视觉策略学习

现有视觉模仿学习多依赖静态轨迹克隆，难以捕捉三维空间结构与四维时空动态。本文提出的4D Diffusion Policy（DP4）引入动态高斯世界模型，从单视角RGB-D观测重建当前三维场景并预测未来状态，将时空表征注入扩散策略以指导轨迹生成。在17项模拟任务（173个变体）及3项真实机器人任务中，DP4显著优于基线，Adroit与DexArt成功率分别提升16.4%和14%，真实任务提升8.6%。

ICCV2025arxiv_html

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework

Policy

策略学习灵巧操作

现有双臂操作多采用集成控制模型，强制双臂早期信息交互以同时预测动作，却忽视了其中存在大量无需显式合作的非协调任务。本文提出解耦交互框架：为每只手臂分配独立模型以强化非协调任务学习，并引入基于自身状态自适应加权的选择性交互模块来提升协调任务表现。在RoboTwin数据集上，该框架较SOTA提升23.5%，且仅用1/6模型尺寸即可带来16.5%的性能增益，同时可无缝嵌入现有方法并扩展至多智能体操作。

ICCV2025arxiv_html

Learning Precise Affordances from Egocentric Videos for Robotic Manipulation

Policy

策略学习视频

现有从人类视频学习affordance的方法多聚焦于可抓取区域且输出粗粒度热图，难以满足精细操作需求。本文提出自动化流程，从第一人称交互视频中联合提取可抓取与功能affordance的精确分割掩码；并设计Geometry-guided Affordance Transformer，通过注入深度几何先验提升表征能力，进而结合抓取生成模型构建Aff-Grasp框架。实验表明，该方法在视觉评估中mIoU较最优方法提升15.9%，在真实机器人任务中affordance预测与抓取成功率分别达到95.5%和77.1%。

ICCV2025arxiv_html

EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow

Policy

策略学习视频

现有基于物体中心光流的方法受限于刚性假设与完整可见性，难以处理可变形物体、遮挡及旋转按压等非位移操作。EC-Flow将预测重心转向机器人本体中心光流，借助运动学先验与目标图像对齐，从动作未标注的视频中学习操作策略，并基于URDF将光流分解为各关节变换以生成可执行动作。在仿真与真实世界实验中，该方法在遮挡、可变形物体和非位移任务上较此前最优方法的成功率分别提升62%、45%和80%。

ICCV2025arxiv_html

Dense Policy: Bidirectional Autoregressive Learning of Actions

Policy

策略学习

针对自回归策略在机器人动作预测中长期依赖捕捉不足、性能逊于整体生成式方法的局限，本文提出Dense Policy，以双向扩展学习建立新的动作预测范式。该模型基于轻量级纯编码器架构，从初始单帧动作出发，通过迭代双向上采样与跨注意力细化，以对数时间复杂度由粗到精地生成连续动作序列，无需动作离散化。在涵盖2D与3D场景的多个模拟基准及真实机器人任务中，该方法均取得了优于现有整体生成式策略的表现。

ICCV2025arxiv_html

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation

Policy

策略学习灵巧操作

针对双手操作数据采集成本高、策略泛化难的问题，本文提出AnyBimanual，一种将预训练单手策略迁移到双手操作的即插即用框架。其核心是通过技能管理器动态调度从单手策略中挖掘的可共享技能基元，并结合任务导向补偿表达双手指令；同时引入视觉对齐器生成空间软掩码，缓解双臂与单臂场景间的观察分布差异。在RLBench2的12项模拟任务和9项真实任务中，该方法将成功率分别提升17.33%与84.62%，显著增强了双手操作的泛化性与实用性。

ICCV2025arxiv_html

4D Visual Pre-training for Robot Learning

Policy

策略学习

针对现有机器人视觉预训练多基于2D图像而忽略3D本质、且大规模3D数据稀缺的问题，本文提出FVP框架，将预训练目标构建为下一帧点云预测任务，以条件扩散模型建模并融入历史观测与动作信息，作为即插即用模块适配多种3D编码器。实验表明，FVP在12项真实任务中将DP3平均成功率提升28%，并在仿真中取得SOTA；进一步应用于RDT-1B VLA模型，显著增强了空间理解与任务泛化能力。

ICCV2025arxiv_html

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding

Perception

三维视觉感知

现有3D占用预测多聚焦离线局部感知，难以支持具身智能体在线探索未知室内场景并建立全局理解。本文提出EmbodiedOcc框架，以3D语义高斯构建显式全局记忆，通过可变形交叉注意力逐步细化观测区域的高斯分布，并以高斯-体素溅射生成全局占用预测。在EmbodiedOcc-ScanNet基准上，该方法大幅优于现有方案，实现了准确高效的在线具身场景理解。

ICCV2025arxiv_html

Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions

Perception

三维视觉感知

现有图像描述模型在机器人主动探索时，常因视角变化与遮挡导致对同一物体的描述不一致。本文提出一种三阶段自监督框架：智能体在环境中导航并积累带噪声的图像-描述对；通过大语言模型基于频次共识蒸馏出空间一致的伪描述标签；再以对比学习微调模型，使同物体多视角表征聚拢。实验表明，所提策略能主动挖掘高分歧样本，其伪描述语义相似度优于现有方法，微调后描述准确性与一致性均显著提升。

ICCV2025arxiv_html

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

Hierarchical Planning

规划/推理

现有方法在认知与执行间顾此失彼：数据驱动策略易受环境变化干扰，大模型缺乏物理直觉而规划失准。RoBridge提出由高层认知规划器、不变可操作表征与引导式具身智能体构成的层次架构，让VLM输出具有环境不变性的物理直觉符号，再由强化学习智能体转化为底层动作，实现认知与执行各司其职而非相互掣肘。实验表明，该架构在零样本新任务上达到75%成功率，且仅用每任务5个真实样本即实现83%的sim-to-real平均成功率。

ICCV2025arxiv_html

CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs

Hierarchical Planning

规划/推理导航

现有物体目标导航方法多局限于粗粒度的探索-识别二状态或依赖仿真器隐式学习，难以捕捉人类在陌生环境中搜索目标时动态维护细粒度认知状态的能力。为此，本文提出CogNav框架，利用大语言模型的常识推理能力，通过在线构建并动态修正包含场景图、地标图与占用图的异构认知地图，驱动有限状态机在探索到识别等多个细粒度状态间转移。该方法在HM3D、MP3D和RoboTHOR基准上较现有最优方法显著提升导航成功率，并在移动机器人与四足机器人上验证了真实场景有效性。

ICCV2025arxiv_html

Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding

Hierarchical Planning

规划/推理

针对关节物体几何多样、机制复杂导致的跨类别自适应操作难题，本文提出AdaRPG框架。其核心洞察在于利用部件的局部几何相似性提升泛化：通过基础模型分割部件点云并预测部件可供性，引导原语技能执行；同时借助GPT-4o推理隐藏机制并生成高层控制代码。实验在模拟与真实环境中验证了其跨类别泛化能力。

ICCV2025arxiv_html

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

Benchmark and Dataset

规划/推理数据集/基准

现有仿真基准难以匹配基础模型时代VLA方法的评测需求，尤其缺乏对常识推理、隐含意图理解与长程规划的考察。为此，作者提出VLABench，涵盖100类任务与2000余种物体，以非模板化的自然语言指令评估策略在语义理解、空间关系、物理规律及知识迁移等维度的综合能力，并配套自动化数据收集框架支持下游微调。实验表明，当前SOTA预训练VLA与基于VLM的工作流均在该基准下面临显著挑战，尚未展现出类似大语言模型的强泛化或涌现能力。

ICCV2025arxiv_html

RoboPearls: Editable Video Simulation for Robot Manipulation

Benchmark and Dataset

世界模型数据集/基准视频

针对机器人操作数据收集成本高与仿真到现实鸿沟的难题，本文提出基于3D高斯溅射的可编辑视频仿真框架RoboPearls。通过增量语义蒸馏与3D正则化NNFM损失，该框架将演示视频重建为具备时空动态与语义信息的真实感场景，支持物体外观编辑、增删及物理仿真；进一步利用多LLM智能体解析自然语言指令自动完成仿真生成，并以视觉语言模型分析策略缺陷实现闭环优化。实验表明，该方法在RLBench与COLOSSEUM基准上分别将操作成功率提升最高23.0与17.5分，并在真实机器人场景中验证有效。

ICCV2025arxiv_html

RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation

Benchmark and Dataset

数据集/基准

针对多模态大模型在3D空间交互感知不足及机器人数据收集成本高昂的问题，本文提出一体化多模态操作模型RoboTron-Mani与综合数据集RoboData。模型通过相机参数与占据监督增强3D感知，并设计模态隔离掩码与多模态解码器改善模态融合；RoboData首次统一多视角图像、深度、相机参数与动作空间，整合九个公开数据集。该通用策略在CALVIN上将平均序列长度从1.7提升至3.5，支持跨本体泛化与多数据集同时评测，在仿真和真实场景中均取得领先性能。

ICCV2025temporary_pdf

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Benchmark and Dataset

数据集/基准

针对多机器人协作中训练数据自动生成困难的问题，本文提出组合约束概念，将逻辑、空间与时序约束融入RoboFactory框架，建立了首个多智能体具身操作基准。消融实验表明，三类约束协同可大幅提升数据生成成功率并缩短交互步数；在多智能体模仿学习中，独立策略配合局部视角显著优于共享策略与全局视角。此外，随着智能体数量增至四个，扩散策略成功率由49%骤降至10%，揭示了多机协作规模化仍面临的严峻挑战。

ICCV2025temporary_pdf

RoboAnnotatorX: A Comprehensive and Universal Annotation Framework for Accurate Understanding of Long-horizon Robot Demonstration

Benchmark and Dataset

数据集/基准

现有机器人演示数据集因长程标注稀疏、粒度不一而难以充分发挥价值。本文提出RoboAnnotatorX，以多尺度token高效编码器联合建模场景细节与时序动态，并构建跨真实与模拟场景的RoboX-VQA数据集（50万片段、100万QA对），通过课程式三阶段训练提升MLLM的机器人领域理解能力。实验表明，该框架在标注质量与跨环境泛化性上显著优于现有方法，有效释放了长程演示数据的潜力。

ICCV2025temporary_pdf

RobAVA: A Large-scale Dataset and Baseline Towards Video based Robotic Arm Action Understanding

Benchmark and Dataset

数据集/基准视频

由于现有大规模数据集的匮乏制约了基于视频的机械臂动作理解，本文构建了包含约4万段视频序列的RobAVA数据集，覆盖模拟与真实场景中的基础动作组合、多物体交互以及正常与异常执行实例。作者提出基线方法AGPT-Net，将动作理解重新定义为视频序列与原子属性的对齐任务，并通过引入类别与属性间的联合语义空间约束来增强对异常动作的判别能力。实验表明AGPT-Net在机械臂动作识别上优于主流模型。

ICCV2025arxiv_html

MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation

Benchmark and Dataset

导航数据集/基准

现有导航算法在移动操作中往往只追求接近目标，却忽略了为后续机械臂预留可达、无遮挡的最优终端站位，造成“最后一公里”断层。为此，本文构建大规模基准 MoMa-Kitchen，包含 10 万余条带可供性标注的厨房场景样本，通过自动化仿真记录多种机械臂与底盘在杂乱环境中的成功操作位置。进而，作者提出轻量级基线 NavAff，基于第一视角 RGB-D 点云预测地面最优导航站位，实验表明其能有效提升操作成功率，并对不同臂型、平台高度及真实场景具备良好泛化性。

ICCV2025arxiv_html

HUMOTO: A 4D Dataset of Mocap Human Object Interactions

Benchmark and Dataset

数据集/基准

针对现有4D人与物体交互数据集多局限于单物体交互或缺乏手部细节的问题，本文提出HUMOTO数据集。其核心创新在于采用场景驱动的LLM脚本生成多样化日常任务，并结合电磁场动捕服、手套与双Kinect的多模态采集方案，在严重遮挡下仍保留全身及精细手部运动。数据集包含735段共7875秒的真实表演序列，涵盖63个精确建模物体及72个活动部件，经专业艺术家清洗验证，并提供了评估HOI数据质量的新指标与基准。

ICCV2025arxiv_html

DexH2R: A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover

Benchmark and Dataset

灵巧操作数据集/基准抓取

现有面向灵巧手的人机交接研究受限于真实动态数据匮乏，且合成数据与真实机器人运动模式差异显著。本文提出首个针对五指灵巧手的真实世界人机交接数据集DexH2R，基于遥操作采集4282组试验并涵盖多模态感知与精细标注；进而设计三阶段方案DynamicGrasp，包含融合物理约束的抓取姿态预训练生成、基于自回归与扩散策略的接近运动生成、以及目标姿态对齐。实验在安全性与可靠性等维度验证了该方法的有效性，为动态灵巧交接建立了基准。

ICCV2025arxiv_html

Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering

Benchmark and Dataset

数据集/基准

针对现有具身问答数据集易引入先验偏差、评估指标难以衡量探索忠实度，且传统前沿探索在复杂场景中效率低下等问题，本文构建面向探索感知的EXPRESS-Bench基准，包含777条真实场景探索轨迹与2044个问题-轨迹对，并提出混合探索模型Fine-EQA，通过结合全局前沿探索与目标导向导航实现对任务相关区域的细粒度考察。此外，作者提出探索-答案一致性（EAC）指标，通过度量答案依据与探索过程的匹配程度来检测幻觉。实验表明，该基准与模型在提升具身探索与问答推理方面优于现有方法。

ICCV2025arxiv_html

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

Accelerating and Deploying

策略学习加速/部署

针对模仿学习策略部署开销过高的问题，本文提出显著性感知量化模仿学习SQIL。核心洞察是量化误差并非均匀累积，而是在少量关键状态（如抓取释放物体）导致动作大幅偏离并引发失败。SQIL通过策略动作敏感度识别这些状态，在量化感知训练中对其实施加权损失的动作蒸馏。实验表明，4-bit量化的OpenVLA在LIBERO上恢复全精度成功率，于边缘GPU实现2.5倍加速与能耗节省，并在自动驾驶及物理模拟等跨域任务中验证了泛化性。

ICCV2025arxiv_html

On-Device Diffusion Transformer Policy for Efficient Robot Manipulation

Accelerating and Deploying

策略学习加速/部署

Diffusion策略虽在机器人模仿学习中表现优异，但其高昂的计算开销与内存占用阻碍了其在移动端等受限平台上的实时部署。本文提出LightDP框架，通过统一化的剪枝与重训练流程压缩去噪网络，并显式优化剪枝后模型的可恢复性，同时结合一致性蒸馏显著削减推理步数。在PushT、Robomimic、CALVIN、LIBERO等基准数据集及真实机器人实验中，LightDP在移动设备上实现了实时动作预测，且保持了与先进Diffusion策略相当的性能。

ICCV2025arxiv_html

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

Accelerating and Deploying

导航感知加速/部署

针对现有视觉语言导航方法因依赖Transformer并叠加外部知识而导致计算成本高、长指令性能下降的问题，本文指出直接应用状态空间模型会面临空间关系建模与输入选择的双重挑战，进而提出COSMO混合架构：通过Round Selective Scan在单次扫描中捕获视觉token间的空间关系，并设计Cross-modal Selective State Space Module实现跨模态交互与选择，先以选择性状态空间模块过滤记忆，再辅以Transformer完成精确动作决策。在REVERIE、R2R及R2R-CE基准上的实验表明，该方法在大幅降低参数与计算开销的同时取得了有竞争力的导航性能。

ICCV2025arxiv_html

CARP: Coarse-to-Fine Autoregressive Prediction for Visuomotor Policy Learning

Accelerating and Deploying

策略学习加速/部署

现有视觉运动策略在精度与效率之间存在权衡：扩散模型精度高但推理慢，自回归模型快却缺乏全局一致性。为此，CARP将动作生成重新定义为从粗到细的next-scale自回归过程：先用动作自编码器提取多尺度表征，再以GPT风格Transformer由粗至细逐步细化动作序列。实验表明，该方法在仿真与真实机器人任务中取得了与扩散策略相当甚至更优的成功率，同时将推理速度提升10倍，缓解了高精度与实时性之间的矛盾。

CVPR2025arxiv_html

UniAct: Universal Actions For Enhanced Embodied Foundation Models

Vision-Language-Action Models

视觉语言动作感知

针对异构机器人数据因本体差异与控制接口不同导致的动作空间冲突问题，本文提出UniAct框架，通过共享视觉语言模型学习向量量化的通用动作空间，将跨平台的原子行为抽象为统一编码，再经轻量化异构解码器映射为特定机器人的可执行指令。实验表明，仅0.5B参数的UniAct即可在真实与模拟机器人任务上超越参数量14倍以上的SOTA模型，显著提升了跨本体泛化与新机器人快速适应能力。

CVPR2025arxiv_html

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Vision-Language-Action Models

视觉语言动作三维视觉感知

当前3D角色交互多采用LLM-Agent模块化方案，存在信息损耗与高延迟问题。本文受机器人VLA模型启发，将数字人视为虚拟人形具身智能体，提出端到端Social VLA架构SOLAMI，直接以用户语音和动作作为输入生成角色的语音与动作响应，并构建了自动合成的多模态交互数据集SynMSI以解决数据稀缺难题。定量实验与VR用户研究显示，该框架相比模块化方法延迟更低，能生成更精准、自然的社交互动反馈。

CVPR2025arxiv_html

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

Vision-Language-Action Models

视觉语言动作感知

针对多模态大语言模型难以将高层语义反思转化为细粒度机器人动作修正的问题，本文提出Phoenix框架，以“运动指令”为桥梁连接语义层与动作层。该框架通过双过程运动调整机制（预测与修正模块）生成运动指令，并设计运动条件扩散策略将其转化为高频精确动作，同时结合终身学习持续自我提升。实验在RoboMimic模拟与真实场景中验证了其在接触丰富任务上的修正精度、泛化能力与鲁棒性。

CVPR2025arxiv_html

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Vision-Language-Action Models

视觉语言动作三维视觉感知

现有视觉语言模型虽擅长高层推理，却缺乏精细三维空间理解，而将其微调为视觉语言动作模型又受限于高昂的数据成本与泛化瓶颈。本文提出一种以物体为中心的交互基元表示，在由功能可供性定义的物体规范空间中描述交互点与方向，将大模型的常识推理转化为可执行的三维空间约束，并构建了无需微调VLM的规划与执行双闭环开放词汇操作系统。实验表明，该方法在多样机器人操作任务上实现了显著的零样本泛化，并展现出自动化大规模仿真数据生成的潜力。

CVPR2025arxiv_html

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

Vision-Language-Action Models

视觉语言动作感知

现有视觉-语言-动作（VLA）模型虽在固定基座操作任务中展现出强泛化能力，但难以直接应用于需要移动基座与机械臂协同的移动操作。为此，本文提出MoManipVLA框架，通过迁移预训练的固定基座VLA模型来生成高泛化性的末端执行器路径点，并设计包含可达性、平滑性与避障的移动基座与机械臂运动规划目标，进而通过双层轨迹优化（上层优化基座路径点以扩展机械臂操作空间，下层优化末端轨迹）生成物理可行的全身运动。实验表明，该方法在OVMM及真实场景中较现有最优方法成功率提升4.2%，且仅需50条专家轨迹即可部署于真实世界。

CVPR2025arxiv_html

Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation

Vision-Language-Action Models

视觉语言动作感知

现有视觉预训练模型利用人类活动数据，但受限于人与机器人的形态差异导致的领域鸿沟，难以有效迁移到下游机器人操作任务。本文提出利用少量现成的人-机器人配对演示视频作为桥梁，通过参数高效的适配器模块与人-机器人对比对齐损失，在保持预训练模型通用性的同时缩小领域差距。实验覆盖两个模拟基准的20项任务及5项真实任务，结果表明该方法在单任务与语言条件多任务设置下均能提升下游策略表现，但具体量化增益因文本截断未充分说明。

CVPR2025arxiv_html

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

Vision-Language-Action Models

视觉语言动作规划/推理感知

现有视觉-语言-动作模型多为端到端直接映射，缺乏对复杂操作任务至关重要的中间推理与规划能力。本文提出CoT-VLA，在动作生成前显式引入视觉思维链推理：先自回归生成像素空间的子目标图像作为中间规划步骤，再基于当前观测与生成子目标预测短动作序列。该框架还能利用无动作标注的大规模视频数据预训练，以增强视觉推理。实验表明，该7B模型在真实机器人任务上较先前最优VLA提升17%，仿真任务提升6%。

CVPR2025arxiv_html

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Vision-Language-Action Models

视觉语言动作感知数据

针对预训练视觉模型在机器人学习中的配置问题，本文发现DINO与iBOT在控制和感知任务上均优于MAE，但在非物体中心数据上因难以习得物体性而出现性能衰减。据此提出SlotMIM，通过语义瓶颈与跨视图一致性约束将非物体中心数据分解为物体级槽表征，在百万级数据扩展中避免了逆扩展现象，并在操作、导航及分割检测等多任务上展现出更优的数据效率与可扩展性。

CVPR2025arxiv_html

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation

Video

灵巧操作视频

针对现有第一人称手物交互数据集视角不一致、指令对齐差导致生成视频质量低的问题，本文构建大规模数据集TASTE-Rob，包含100,856个视角固定且指令精确对齐的完整交互视频。基于此微调的视频扩散模型虽能生成合理交互，但手部抓取姿态仍不稳定。为此，作者提出三阶段姿态精炼框架：先粗略生成视频，再用运动扩散模型修正手部姿态序列，最后以修正姿态为条件重新生成。实验表明，该数据集与所提方法显著提升了生成视频的真实度与机器人操作的泛化性能。

CVPR2025temporary_pdf

GraphMimic: Graph-to-Graphs Generative Modeling from Videos for Policy Learning

Video

策略学习视频

针对机器人模仿学习中标注数据成本高昂的瓶颈，GraphMimic提出将视频预训练形式化为图到图生成建模的新范式。该方法将视频帧抽象为包含物体与视觉动作顶点的图结构，通过层次化图生成网络建模物体属性、内部结构与空间关系，从而生成未来图来引导策略学习。实验表明，该方法仅使用20%的标注数据即可取得优异性能，在仿真和真实世界任务中分别比SOTA提升超过17%和23%，跨本体迁移提升超33%。

CVPR2025arxiv_html

Prof. Robot: Differentiable Robot Rendering Without Static and Self-Collisions

Sim2real and Real2sim

仿真到现实

针对可微分机器人渲染在梯度优化时易与静态环境或机器人自身发生碰撞的问题，本文提出将碰撞检测建模为姿态分类任务，并通过Eikonal正则化使分类器在高维关节空间中具备梯度一致的SDF特性，同时引入层次化关节编码以捕捉机械臂的依赖结构。该方法可与现有可微分渲染框架无缝结合，在姿态优化与轨迹生成中实现了无碰撞的机器人动作，并完成了模拟到真实的部署验证。

CVPR2025arxiv_html

AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster Registration

Sim2real and Real2sim

三维视觉仿真到现实

AutoURDF 旨在解决机器人 URDF 模型构建依赖大量人工或额外传感器数据的问题。该工作提出一种无监督方法，仅利用时序点云帧，通过聚类点云配准跟踪 6-DoF 变换，进而从运动模式中层级式完成运动部件分割、机体拓扑推断与关节参数估计，最终生成可直接导入现有仿真器的标准 URDF 文件。实验表明，该方法在合成与真实机器人扫描数据上的配准和拓扑估计精度均优于已有方法，为自动化机器人建模提供了可扩展方案。

CVPR2025arxiv_html

Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning

Policies

策略学习

Tra-MoE 针对机器人轨迹预测模型如何利用大规模域外无动作视频数据的问题，指出简单混合域内与域外数据会导致优化冲突甚至域内性能下降。为此，作者提出基于 Top-1 稀疏门控的 MoE 架构，在保持计算开销不变的前提下，通过参数的专业化与协作有效吸收跨环境、跨物体、跨技能甚至跨具身的数据；并设计自适应策略条件机制，将预测轨迹编码为可与图像观测显式对齐的二维掩码以灵活引导策略。实验表明，Tra-MoE 在仿真与真实场景中均优于密集基线，即使将后者参数量扩充至同等规模也无法匹敌，验证了稀疏架构在利用域外数据上的显著优势。

CVPR2025arxiv_html

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

Policies

感知

针对现有视觉机器人位姿估计方法在关节角未知及遮挡场景下表现不佳的问题，本文提出RoboPEPP框架。其核心创新在于引入基于关节掩码的嵌入预测预训练策略，通过让编码器-预测器网络根据未掩码区域推断被掩码关节的嵌入，显式地将机器人物理模型知识注入编码器。在此基础上，结合关节角与关键点预测网络进行端到端微调，并在训练时施加随机掩码以增强遮挡鲁棒性。实验表明，该方法在多个数据集上同时实现了最优的位姿与关节角估计精度，对遮挡的敏感度最低且推理速度最快。

CVPR2025arxiv_html

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

Policies

三维视觉策略学习

现有3D操作策略常因缺乏大规模机器人3D数据或在模态转换中损失空间几何信息而受限。Lift3D提出两阶段框架以提升2D基础模型：先利用任务感知的掩码自编码器对任务相关affordance区域掩码并重建深度，增强隐式3D空间感知；再通过建立3D点云与2D位置编码的映射，使2D模型直接编码点云以构建显式3D表示。在多个仿真基准及30余项真实世界操作中，该方法持续超越现有最优水平，于Meta-World和Adroit分别将平均成功率提升18.2%与21.3%，并具备强泛化能力。

CVPR2025arxiv_html

KStar Diffuser: Spatial-Temporal Graph Diffusion Policy with Kinematics Modeling for Bimanual Robotic Manipulation

Policies

三维视觉策略学习灵巧操作

现有双臂操作模仿学习多预测末端执行器位姿再经逆运动学求关节角，但易忽略机器人物理结构与运动学约束，导致自碰撞或关节不可行。本文提出KStar Diffuser，通过构建随双臂关节运动变化的动态时空图显式编码机器人结构，并以可微运动学提供关节空间监督，将运动学可行位姿作为条件引导扩散策略去噪。实验表明，该方法在模拟与真实环境中较基线成功率提升逾10%，显著改善了双臂协调操作的物理可行性与可靠性。

CVPR2025arxiv_html

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

Policies

三维视觉

针对现有基于扩散模型的3D模仿学习缺乏语义理解、难以胜任姿态感知操作与跨对象泛化的局限，本文提出G3Flow框架，融合3D生成模型、视觉基础模型与实时姿态跟踪，从单视角输入在线构建物体中心、遮挡鲁棒的动态3D语义流，无需人工标注。在五个仿真任务上的实验表明，该方法在末端约束操作和跨对象泛化中的成功率分别达68.3%与50.1%，显著优于现有基线。

CVPR2025temporary_pdf

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

Policies

规划/推理策略学习灵巧操作

现有扩散规划方法在灵巧操作中常产生物体未接触即自行移动的"幽灵状态"，且难以适应新目标。本文提出DexHandDiff，以双阶段扩散联合建模手-物状态与动作：先对齐接触关键点，再联合引导接触后的手与物体状态，并引入动力学模型双重引导及大语言模型自动生成的奖励函数。在开门、锤击等接触丰富任务中，该方法对分布外目标的平均成功率达59.2%，显著优于现有方法的29.5%，体现出良好的目标自适应能力。

CVPR2025arxiv_html

AffordDP: Generalizable Diffusion Policy with Transferable Affordance

Policies

策略学习

现有扩散策略受限于同类别与相似外观，难以泛化至未见物体实例及全新类别。本文提出AffordDP，其核心洞察是将操作先验建模为可迁移的affordance——以3D接触点与接触后轨迹分别捕捉“在何处”与“如何”交互，并借助基础视觉模型与点云配准估计6D变换矩阵，实现域内数据到未知物体的迁移；此外，在扩散采样中引入自适应affordance引导，使生成动作序列逐步逼近目标操作并约束于动作流形。仿真与真实环境实验表明，AffordDP在跨实例与跨类别泛化上均显著优于现有扩散方法。

CVPR2025arxiv_html

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

Planning and Reasoning

规划/推理三维视觉感知

现有视觉语言模型因训练数据缺乏深度空间推理与多参考系理解，在具身机器人任务中表现受限。本文提出RoboSpatial大规模数据集，将1M张第一人称图像与5k个3D扫描配对，围绕空间上下文、兼容性与配置三类任务，从自我、世界、物体三种参考系进行问答标注。实验表明，基于该数据集训练的2D/3D模型在验证集、多个跨域基准及真实机器人操作中性能均优于基线。

CVPR2025arxiv_html

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

Planning and Reasoning

规划/推理

现有MLLM在机器人长程操作任务中因缺乏规划、affordance感知与轨迹预测能力而表现受限。为此，作者构建了高质量异构数据集ShareRobot，对任务规划、物体affordance及末端执行器轨迹进行细粒度人工标注；并基于LLaVA架构提出统一模型RoboBrain，通过融合机器人与通用多模态数据、多阶段训练及长视频与高分辨率图像输入，实现从抽象指令到具体动作的能力贯通。实验表明，RoboBrain在RoboVQA、OpenEQA等多个机器人基准上取得最优性能，验证了该数据与框架对增强机器人大脑核心能力的有效性。

CVPR2025arxiv_html

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

Planning and Reasoning

规划/推理

全文短总结尚未生成。

CVPR2025arxiv_html

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Planning and Reasoning

规划/推理

针对机器人闭环系统中同时实现开集反应式与主动式故障检测的挑战，本文提出Code-as-Monitor框架，将两类检测统一为时空约束满足问题，并通过视觉语言模型生成可执行代码进行实时监测。其核心在于引入约束元素，将相关实体或部件抽象为紧凑几何元语，结合约束感知分割与跟踪实现精准高效的状态验证。实验覆盖三个模拟器及真实场景，结果表明该方法在强干扰下显著提升了任务成功率并缩短了执行时间，且能与开环策略结合构建闭环系统以应对复杂长程任务。

CVPR2025arxiv_html

MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data

Humanoid

人形机器人灵巧操作数据

全文短总结尚未生成。

CVPR2025arxiv_html

Let Humanoid Robots Go Hiking! Integrative Skill Development over Complex Trails

Humanoid

人形机器人

现有研究多将人形机器人的运动控制与高层导航割裂，难以应对复杂徒步场景所需的感知-决策-运动整合。本文提出LEGO-H框架，通过TC-ViT在分层强化学习中预测时序局部导航目标来引导底层运动，并设计HLM分层隐空间匹配机制实现特权策略到纯视觉策略的平滑迁移。实验表明，该方法无需预定义运动模式即可在多样化复杂地形中使不同构型的人形机器人自主完成徒步，并涌现出适应性的运动技能与路径探索行为。

CVPR2025arxiv_html

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

Grasp

抓取

现有抓取方法常因缺乏显式几何建模而导致碰撞。ZeroGrasp提出近实时单视图RGB-D联合重建与6D抓取预测框架，核心洞察是遮挡推理与物体间空间关系可同时提升重建与抓取精度。方法基于八叉树CVAE，引入多物体编码器与3D遮挡场处理复杂遮挡，通过重建几何的接触约束与碰撞检测精炼位姿。论文构建ReOcS真实评估集与大规模合成数据集ZeroGrasp-11B，在GraspNet-1B及真实机器人实验中取得SOTA，验证零样本泛化能力。

CVPR2025arxiv_html

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

Grasp

策略学习灵巧操作抓取

针对现有灵巧抓取方法训练流程复杂、难以扩展且单网络处理多物体时性能下降的问题，本文提出UniGraspTransformer。其核心流程是：先为各物体训练专用RL策略网络以生成成功抓取轨迹，再通过离线蒸馏将这些轨迹监督训练到一个通用的Transformer网络中。这一简化方案摆脱了复杂课程学习与渐进式蒸馏的束缚，使网络可扩展至12层自注意力块，并能从理想状态迁移到带噪声的视觉输入。实验表明，该方法在state-based和vision-based设定下均超越UniDexGrasp++，在vision-based设定中对已见、同类别未见及全新类别未见的物体成功率分别提升3.5%、7.7%和10.1%，同时生成更多样化的抓取姿态。

CVPR2025arxiv_html

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

Grasp

灵巧操作抓取

针对现有扩散式灵巧抓取生成因缺乏物理约束而易出现穿模与接触不足的问题，本文提出一种在训练与采样双阶段同步嵌入表面拉力、外力排斥及自穿透排斥三类物理约束的生成框架，并构建了包含超过340万条多样抓取姿态、涵盖1.5万余物体的大规模数据集，在多个公开基准上取得当前最优性能并展现出良好的泛化能力。

CVPR2025arxiv_html

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)

Benchmark and Dataset

数据集/基准

针对双臂机器人协作与工具使用任务缺乏专门训练数据的问题，本文提出RoboTwin基准，同步提供基于COBOT Magic平台的真实遥操作数据及其数字孪生生成的合成数据。其核心创新在于建立了仅需单张RGB图像的AIGC驱动的真实到仿真转换流程，自动生成高保真3D模型与可物理交互的仿真场景；并进一步利用大语言模型自动推断功能坐标与任务姿态，合成专家级训练数据。该工作构建了面向双臂操作与人机交互的综合基准与数据管线，但具体实验性能的定量结果在提供的文本中未充分说明。

CVPR2025arxiv_html

RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments

Benchmark and Dataset

导航数据集/基准感知

现有自动驾驶基准多面向结构化道路且以车顶视角为主，难以适用于校园、公园等拥挤非结构化环境中的社交移动机器人。本文提出的RoboSense数据集聚焦自我中心近场感知，通过相机、激光雷达与鱼眼摄像头实现全视角覆盖，是首个面向该场景的大规模多模态基准。其13.3万帧数据包含140万个3D边界框与21.6万条轨迹，近场障碍物标注量远超KITTI与nuScenes。文章进一步定义了面向近场3D感知与预测的新匹配准则，建立了涵盖检测、跟踪、运动及占位预测六项标准基准并给出系统基线评估。

CVPR2025arxiv_html

Pixel-aligned RGB-NIR Stereo Imaging and Dataset for Robot Vision

Benchmark and Dataset

数据集/基准感知

现有RGB-NIR系统因相机分置导致像素未对齐，形成深度估计与光谱配准相互制约的困境。本文设计了一套搭载棱镜式RGB-NIR双传感器立体相机与LiDAR的移动机器人系统，实现像素级对齐的RGB-NIR立体采集并构建大规模真实与合成数据集。作者提出可直送RGB预训练模型的图像融合方法及RGB-NIR特征融合深度网络，直接利用对齐后的跨光谱互补信息。实验表明，在深度估计、目标检测与运动恢复结构等任务中，尤其在低光环境下，所提方法显著优于单模态及未对齐基线。

CVPR2025arxiv_html

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

3D Vision

三维视觉视频感知

针对机器人遥操作数据采集成本高昂、难以扩展的问题，本文提出 VidBot，利用互联网上丰富的野外单目 RGB 人类视频进行零样本机器人操作学习。核心方法是通过结合单目深度基础模型与运动恢复结构技术，从视频中重建时间一致、度量尺度的三维手部轨迹作为与具身无关的 affordance 表征；并进一步设计由粗到细的 affordance 学习框架，先预测像素级接触点与目标点，再以扩散模型生成精细交互轨迹，同时引入测试时可微代价函数进行约束引导。实验表明，该方法在 13 项操作任务的零样本设定下显著优于基线，并可直接部署于真实机器人系统。

CVPR2025arxiv_html

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

3D Vision

三维视觉感知数据

现有机器人视觉预训练多在2D图像上进行掩码自编码，难以满足操作任务对3D场景理解的需求。本文提出3D-MVP，以RVT多视图Transformer为框架，将其视觉编码器在大规模3D数据集的正交RGB-D视图上进行跨视角掩码重建预训练，从而学习显式的3D空间表征。在RLBench虚拟操作任务上，该方法显著优于从头训练及2D预训练基线；在COLOSSEUM泛化基准上，对未见物体尺寸、纹理和光照变化也展现出更强的鲁棒性。

CORL2025temporary_pdf

3DS-VLA: A 3D Spatial-Aware Vision Language Action Model for Robust Multi-Task Manipulation

Vision-Language-Action Model

视觉语言动作三维视觉感知

现有二维VLA模型难以从图像推理三维空间关系，而三维模仿学习方法又受限于缺乏大规模三维预训练模型或存在投影信息损失，且多数策略仅做感知到动作的直接映射，缺乏对机器人与环境时空交互的显式理解。为此，3DS-VLA提出非参数三维tokenizer与二维到三维位置对齐机制，使预训练二维VLM能直接编码点云三维观测；同时引入序列化三维空间约束（关键点）显式建模机器人与环境的时空关系。实验表明，该方法在RLBench的26个单双臂任务及10项真实世界任务中超越现有最优方法，并展现出跨任务、跨本体和跨环境的泛化能力。

CORL2025arxiv_html

Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion

Policy

人形机器人策略学习触觉

现有足式机器人运动策略大多需为特定形态单独训练，难以跨双足、四足及人形等平台泛化。本文提出Multi-Loco框架，利用形态无关的扩散模型从跨形态数据中学习不变运动模式，并通过零填充与掩码分数匹配统一异构观测与动作空间；进一步以跨平台共享的轻量级残差RL策略在线优化扩散输出，结合多critic架构提升任务性能与sim2real鲁棒性。在四种机器人上的仿真与真实实验表明，该方法较PPO基线平均回报提升10.35%，轮式双足任务增益达13.57%，并支持未见过平台的零样本迁移。