ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations figure
RA-L 20262026-09-14

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

3D 表征

3D 表征强化学习触觉泛化操作

论文关注机器人操作策略对相机视角变化极其敏感、固定机位训练后难以真实部署的问题。作者提出 ManiVID-3D,用点云构建解耦的3D表征,并以无需外参标定的 ViewNet 将任意视角观测对齐到统一坐标系,再配合高速批量渲染支撑大规模RL训练。10个仿真和5个真实任务中,其在视角扰动下成功率较现有方法提升40.6%,参数量减少80%,且表现出较强 sim-to-real 泛化。

Robot Learning from Human Videos: A Survey figure
arXiv2026-04-30

Robot Learning from Human Videos: A Survey

视频规划

视频规划机器人学习综述

针对机器人操作数据难以规模化采集的瓶颈,本文系统综述了利用互联网上丰富的人类活动视频进行技能迁移的研究进展。作者从信息如何流向机器人执行的角度,构建了任务级、观察级与动作级的层次化迁移分类框架,并深入剖析了不同路径在视角选择、真实机器人数据依赖及学习范式上的设计权衡与耦合机制。此外,本文系统梳理了人机交互解析工具,并通过迄今最大规模的统计分析呈现了人类视频数据集与生成技术的演进趋势,最终为研究者提供了实用的路径选择指南与未来研究方向。

PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations figure
arXiv2026-04-30

PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations

VLA

VLA机器人学习

论文指出现有VLA预训练大多停留在行为克隆,只会做静态语义匹配,缺少“当前状态离语言目标还有多远”的时间进度感。PRTS把语言指令当作目标,将对比式目标条件强化学习直接并入VLM主干,用离线轨迹提取无奖励的密集可达性监督,并借助 role-aware causal mask 在单次前向里同时学习动作与目标可达性表示。实验显示其在 LIBERO、SimplerEnv 和 14 项真实机器人任务上达到或刷新 SOTA,长时程、接触密集、零样本指令与干预后恢复提升尤为明显;但部分增益可能也来自 167B token 的数据规模,具体占比文中未充分说明。

OmniRobotHome: A Multi-Camera Platform for Real-Time Multiadic Human-Robot Interaction figure
arXiv2026-04-30

OmniRobotHome: A Multi-Camera Platform for Real-Time Multiadic Human-Robot Interaction

人机交互

多智能体/多机器人人机交互感知

这篇工作针对家庭中多人、多机器人近距离并行协作长期难以研究的问题,指出核心瓶颈不在控制器,而在频繁遮挡与快速状态变化下缺少房间级实时3D感知。作者搭建OmniRobotHome:以48个硬同步RGB相机和两台Franka机械臂,在统一世界坐标系下实现无标记多人/物体跟踪,并将长期轨迹沉淀为行为记忆。实验显示,实时感知可把安全碰撞降低2.6倍且缩短周期,行为记忆还能进一步提升提前放置与动态交接中的意图预测。

MotuBrain: An Advanced World Action Model for Robot Control figure
arXiv2026-04-30

MotuBrain: An Advanced World Action Model for Robot Control

辅助任务

辅助任务VLA世界模型感知机器人学习

论文针对VLA语义泛化强但缺乏细粒度世界动力学理解、以及“视频生成+逆动力学”两阶段方案易误差累积的问题,提出统一世界动作模型MotuBrain:在UniDiffuser下联合建模视频、动作和文本,采用三流Mixture-of-Transformers、多视角表示与跨本体统一动作表征,并配合长时程控制的后训练和推理加速,使同一模型兼顾策略学习、世界建模和逆动力学。实验中其在RoboTwin 2.0上达到95.8%/96.1%成功率,WorldArena取得最强EWMScore,并能以50–100条轨迹适配新人形;但各组件增益来源文中未充分拆清。

LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models figure
arXiv2026-04-30

LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

VLA

VLALatent Learning机器人学习

论文针对潜变量推理型VLA仍停留在模仿学习、而动作级RL又绕开物理推理的问题,提出LaST-R1:用LAPO把潜在CoT与动作生成放进同一RL优化环,并自适应调整推理步数。其在LIBERO上以一次SFT warm-up达99.9%平均成功率,真实四任务较SOTA SFT最高提升22.5%;但增益有多少来自更强基座/数据,文中未充分说明。

FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems figure
arXiv2026-04-30

FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems

灵巧操作

灵巧操作触觉数据采集遥操作操作

这篇工作针对机器人触觉系统难以低成本、可重复、跨平台部署,导致接触丰富操作的数据采集与闭环控制受限的问题,提出 FlexiTac。核心做法是用 FPC–Velostat–FPC 三层封装与电极一体化柔性电路提升制造一致性和装配效率,再配合可扩展多通道读出板,形成可插拔触觉模块。结果上,它已部署到多种刚性/软体夹爪、触觉手套和大面积触觉皮肤,并支持视触融合、跨本体技能迁移和仿真到真实微调;但文中未充分说明相对既有方案的定量增益来源。

STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation figure
arXiv2026-04-29

STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation

3D 表征

3D 表征VLA世界模型机器人学习操作

这篇工作针对现有 VLA 操作策略偏反应式、未来预测与动作执行脱节,且难以突出把手、接触面等决策关键区域的问题,提出 STARRY:将未来时空潜变量与动作序列放入同一扩散过程联合去噪,让世界模型更“动作中心”;再用 GASAM 把预测深度和末端执行器几何转成 token 级权重,选择性调制动作注意力,连接 2D 视觉表征与 3D 度量控制。在 RoboTwin 2.0 的 50 个双臂任务上,其成功率达 93.82%/93.30%,真实机器人平均成功率也从 π0.5 的 42.5% 提升到 70.8%。

Reactive Motion Generation via Phase-varying Neural Potential Functions figure
RA-L 20262026-04-29

Reactive Motion Generation via Phase-varying Neural Potential Functions

轨迹生成

轨迹生成机器人学习

本文针对示教学习中的难点:轨迹交叉或重复经过相似状态时,二阶动力系统依赖速度判向、易受扰动,而时间/相位驱动方法又缺乏闭环恢复能力。作者提出PNPF,用由状态进展闭环估计的相位去调制神经势函数,并将表征任务推进的名义能量与基于示教分布的安全能量结合,在保持反应性的同时处理状态重访与越界回拉。实验显示其在2D书写、点到点/周期运动及6D真实机械臂操作上,尤其在交叉轨迹和外力扰动场景下优于现有方法。

3D Generation for Embodied AI and Robotic Simulation: A Survey figure
arXiv2026-04-29

3D Generation for Embodied AI and Robotic Simulation: A Survey

3D 表征

3D 表征操作综述

这篇综述的动机是:机器人训练与部署越来越依赖可交互、可执行的3D内容,但现有3D生成研究多停留在视觉逼真,难直接服务仿真和真实迁移。文中以“仿真就绪性”为主线,把相关工作统一到数据生成器、仿真环境、Sim2Real桥接三类角色中,这是最核心的框架性洞察。主要结论是该领域正从外观真实转向交互可用,当前瓶颈集中在物理标注稀缺、几何质量与物理有效性脱节、评测碎片化及迁移鸿沟;统一量化增益文中未充分说明。

KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning figure
RSS 20262026-04-28

KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning

任务规划

任务规划机器人学习数据集/Benchmark

论文动机是:现有机器人基准常把物理推理与感知、语言理解和具体应用耦合,难以判断方法究竟卡在“会不会推理”还是别的环节。KinDER的核心创新不是新算法,而是构建面向物理推理的统一基准:25个可程序生成环境、Gym接口与示教/技能库,并用13类基线系统拆解空间关系、非抓取多物体操作、工具使用、组合几何和动态约束。实验表明现有TAMP、IL、RL及基础模型方法在多项任务上成功率仍低,实机—仿真—实机结果说明该基准与真实交互有一定对应性。

HANDFUL: Sequential Grasp-Conditioned Dexterous Manipulation with Resource Awareness figure
arXiv2026-04-28

HANDFUL: Sequential Grasp-Conditioned Dexterous Manipulation with Resource Awareness

抓取

抓取灵巧操作操作

面向“先抓住物体、再用剩余手指完成第二操作”的序列灵巧操作,论文指出传统只追求稳定抓取的策略会占满手指资源,导致后续推、拉、按等动作难以执行。HANDFUL将手指使用显式建模为稀缺资源,用指级接触奖励探索能保留可用手指的抓取,并通过课程式学习筛选更适合下游子任务的抓取状态,同时提出HANDFUL-Bench。仿真和LEAP手实验证明,该思路较贪心稳抓基线在第二子任务成功率与鲁棒性上更优。

GS-Playground: A High-Throughput Photorealistic Simulator for Vision-Informed Robot Learning figure
RSS 20262026-04-28

GS-Playground: A High-Throughput Photorealistic Simulator for Vision-Informed Robot Learning

跨本体

跨本体机器人学习数据集/Benchmark

论文针对视觉驱动机器人学习中“高保真渲染太慢、仿真资产制作太重、接触操控 sim2real 落差大”的瓶颈,提出 GS-Playground:将自研并行物理引擎与批量 3D Gaussian Splatting 渲染紧耦合,并配套自动化 Real2Sim 流程,把真实场景快速变成兼顾外观与物理一致性的 sim-ready 环境。

M2-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills figure
arXiv2026-04-27

M2-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

VLA

VLA泛化机器人学习操作

该工作针对现有VLA端到端微调会破坏VLM语义能力、导致遗忘并削弱新指令/新物体泛化的问题,尝试尽量保留通用VLM作为操作骨干;核心做法是用MoL从多层表征中筛出更适合精细控制的空间信息,再以MSM用“元技能”复用补足PEFT下动作头容量不足。结果上,作者称其在仿真与真实机器人中均有效,且零样本泛化和消融支持两模块贡献,但具体提升幅度文中未充分说明,判断基于公开摘要/项目页。

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System figure
ACL 20262026-04-27

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System

VLA

VLA机器人学习

这篇论文针对现有VLA将语言视觉特征直接映射为高频连续控制、难以同时兼顾语义推理与精细操作的问题,提出基于混合动作空间的粗到细异步双系统:先由Semantic Planner预测离散宏观动作意图,再由Action Refiner据此生成连续微姿态。其核心洞察是动作分解粒度存在倒U型最优点,两个子系统学习难度达到平衡时性能最好。实验中模型在LIBERO上平均成功率达97.2%,在LIBERO-Plus上也表现出更强鲁棒性和更低时延。

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation figure
arXiv2026-04-27

Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

模仿学习

模仿学习数据采集基础模型机器人学习操作

面向机器人操作,作者针对机器人示教昂贵、而人类视频又混杂场景理解与具身差异、难直接转成控制信号的问题,提出先学“意图”再学执行:将操作拆为3D交互轨迹、MANO手部运动先验和机器人动作三层,并基于HA-2.2M大规模人类演示预训练,配合只读KV传递减轻下游控制对上游先验的干扰。结果上,其在手部运动生成、仿真与真实任务中提升了动作合理性和分布外鲁棒性,但具体提升幅度文中未充分说明,可能部分来自数据规模。

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment figure
arXiv2026-04-27

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

VLA

VLA机器人学习

面向机器人端部署时,VLA 推理常受实时控制频率、功耗与硬件成本三重约束,而现有评测多基于 4090 级桌面 GPU,难回答哪些模型-硬件组合真正适合上机。本文构建跨 GPU/XPU/NPU 的 CET(成本、能耗、时延)排行榜,并用 Roofline 与端到端 profiling 揭示统一瓶颈:前段 VLM 主干偏算力受限,后段 Action Expert 尤其扩散过程偏带宽/访存受限。基于此提出免训练的 DP-Cache 和 V-AEFusion,分别削减扩散冗余并实现异步流水并行,在成功率仅轻微下降下,GPU 最高提速 2.9 倍、边缘 NPU 最高 6 倍,且不少“适配尺寸”的边缘设备比旗舰 GPU 更省电、更具性价比。

CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies figure
arXiv2026-04-27

CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies

VLA

VLA机器人学习

论文针对流式VLA从高斯噪声出发、低步数推理时既要做全局迁移又要做局部修正,导致实时控制效率差的问题,提出CF-VLA:先用粗阶段学习终点速度后验,生成更靠近动作流形的动作先验引导初始化,再用固定一步细化修正残差,并配合分阶段训练稳定两阶段耦合。实验表明,在CALVIN、LIBERO和真实机器人上,它在NFE=2下稳定优于现有两步方法,部分指标可匹敌或超过NFE=10的π0.5,采样时延降低75.4%,真实机器人平均成功率达83.0%。

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms figure
arXiv2026-04-26

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

VLA

VLA安全综述

面向VLA走向真实部署后出现的物理风险、长时序误差累积和多模态攻击面,本文的核心洞察是按“攻击时机/防御时机”两条时间轴重组安全研究,把训练期投毒、时序/状态后门与推理期越狱、视觉扰动、运行时监控放进统一框架。主要结果是给出覆盖攻击、防御、评测与六类部署场景的系统地图,并指出认证鲁棒性、可物理实现防御和标准化评测仍是空缺;作为综述,文中未充分说明该框架的量化增益,判断基于公开摘要/项目页。

Tube Diffusion Policy: Reactive Visual-Tactile Policy Learning for Contact-rich Manipulation figure
arXiv2026-04-26

Tube Diffusion Policy: Reactive Visual-Tactile Policy Learning for Contact-rich Manipulation

触觉

触觉Diffusion Policy接触丰富感知机器人学习操作

该文瞄准接触丰富操作里的一个关键瓶颈:现有扩散模仿学习常靠动作块开环执行,难以及时利用高频视觉—触觉信号应对接触不确定性和外扰。作者提出动作管扩散策略TDP,用扩散模型生成名义动作,再用观测条件下的流式反馈在“动作管”内逐步纠偏;核心洞察是只需较粗的初始去噪,后续闭环修正即可兼顾表达力、反应性和低时延。结果上,它在Push-T、3个仿真视觉触觉任务和2个真实实验中均优于现有基线,且更抗扰动。

Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation figure
arXiv2026-04-26

Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation

人形操作

人形操作VLA语言条件机器人学习操作

论文动机是现有单体VLA把大幅接近运动与接触敏感的精细操作放在同一策略里学习,导致样本更多、幅度更大的移动阶段淹没操作阶段信号。作者据此显式拆分“移动—操作”两相位,用可学习路由选择双专家,并借助MLLM结合末端速度、子任务分解自动打相位标签。RoboTwin2八项任务上平均成功率68.9%,较π0高24.1个百分点,还以更少数据和少40%训练步达到相近或更优表现。

EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks figure
arXiv2026-04-26

EgoLive: A Large-Scale Egocentric Dataset from Real-World Human Tasks

视频规划

视频规划基础模型操作数据集/Benchmark

该工作针对机器人操作缺少可扩展、真实世界高质量数据的问题,提出第一视角数据集EgoLive:用定制双目头戴设备在非受限家庭服务、零售等场景采集2160×2160、60fps视频,并配套6DoF运动、精细分割和3D重建标注。结果上,数据集含1680小时、65866段、346类任务,规模与语义覆盖超过EgoDex/Xperience-10M;但对下游策略学习的直接增益文中未充分说明,可能主要来自scaling/data。

Modular Sensory Stream for Integrating Physical Feedback in Vision-Language-Action Models figure
arXiv2026-04-25

Modular Sensory Stream for Integrating Physical Feedback in Vision-Language-Action Models

VLA

VLA触觉机器人学习

论文针对仅依赖视觉的VLA难以处理插接、接触校正等精细操作的问题,提出模块化感知流MoSS:为触觉、力矩等异构物理信号分别增加独立流,并通过联合跨模态自注意力接入动作专家,再结合“先冻结预训练VLA、后端到端微调”与未来物理信号预测辅助任务稳定训练。文中在4个真实接触丰富任务上平均成功率达49.0%,明显高于基座GR00T N1.5的20.8%,且多模态联合优于单一触觉或力矩。

BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances figure
arXiv2026-04-25

BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances

Affordance

Affordance3D 表征模仿学习VLA数据采集机器人学习

该工作针对“人类演示视频丰富、但难直接变成机器人可执行动作”的迁移难题,提出具身无关的“工具-目标可供性”中间表征,把操作统一为“抓哪里、如何相对目标运动”,且训练时不依赖机器人示范。系统先定位任务相关作用区域,再从人类视频预测带角色条件的3D运动可供性,最后用抓取模块和闭环SE(3)控制器执行。实验证明其在单物体与物体-物体任务上优于基线,并能泛化到未见物体、场景和视角。

Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training figure
arXiv2026-04-25

Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training

VLA

VLA泛化机器人学习数据集/Benchmark

本文关注通用VLA在少量示教后容易“锁死”:策略虽学会目标技能,却会固着于训练过的物体概念或空间位置,难以响应新指令。作者将其归纳为概念锁定与空间锁定,并提出DeLock:训练时用视觉编码器漂移正则保住预训练视觉 grounding,测试时再用对比式提示引导动作去噪。其在自建的4个仿真和4个真实任务上均优于强基线,并可匹敌甚至超过依赖更多精选示教的数据后训练策略。

dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model figure
ICML 20262026-04-24

dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

辅助任务

辅助任务VLADiffusion Policy世界模型感知机器人学习操作

这篇工作关注机器人策略评测难以在海量环境与任务上扩展的问题,指出现有视频式世界模型把动作当弱条件,容易被视觉先验压制,出现“动作错了也预测成功”的幻觉。dWorldEval改用离散扩散,把视觉、语言和动作统一成同一token序列联合建模,并加入稀疏关键帧记忆与进度token,分别增强长时一致性和自动判成败。

Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines figure
TMLR 20262026-04-24

Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines

VLA

VLA数据生成操作数据集/Benchmark综述

该综述的动机是:VLA机器人当前瓶颈已从模型结构转向数据基础设施与评测协议,缺少统一梳理阻碍了可靠比较与扩展。文中以数据集、Benchmark和数据引擎三条主线建立数据中心分类框架,核心洞察是真实/合成数据存在保真度—成本权衡,现有评测难覆盖组合泛化与长程推理,数据引擎普遍受限于物理真实性和sim-to-real。主要结果是归纳出表示对齐、多模态监督、推理评估和可扩展数据生成四类开放问题,并发布持续更新的资源库。

RedVLA: Physical Red Teaming for Vision-Language-Action Models figure
arXiv2026-04-24

RedVLA: Physical Red Teaming for Vision-Language-Action Models

VLA

VLA安全机器人学习

面向VLA部署前难以暴露、却可能造成不可逆物理伤害的安全缺口,本文提出首个物理红队框架RedVLA:先依据正常轨迹定位关键交互区域,在尽量不破坏原任务语义的前提下注入单一风险因子,再用轨迹特征驱动的无梯度迭代放大风险,系统诱发状态型、累积型和条件型危险行为。六个代表性模型上,该方法10轮内最高ASR达95.5%,并进一步用生成数据训练SimpleVLA-Guard,将在线攻击成功率降低59.5%。

RL Token: Bootstrapping Online RL with Vision-Language-Action Models figure
arXiv2026-04-24

RL Token: Bootstrapping Online RL with Vision-Language-Action Models

VLA

VLA机器人学习

论文针对VLA在真实机器人“最后一毫米”精细操作上常受示教噪声限制、动作偏慢且易重试,而直接在线RL又样本代价过高的问题,提出让预训练VLA暴露压缩的RL token,并在其上训练受VLA动作正则约束的轻量 actor-critic,把通用表征与快速在线适应解耦。四个高精度装配任务中,经过数分钟到数小时练习后,成功率明显提升,关键阶段速度最高提升3倍,部分环节甚至快于人工遥操作。

GazeVLA: Learning Human Intention for Robotic Manipulation figure
arXiv2026-04-24

GazeVLA: Learning Human Intention for Robotic Manipulation

辅助任务

辅助任务VLA感知机器人学习操作

论文针对机器人示教数据昂贵、直接利用人类视频又受人机 embodiment gap 限制的问题,提出把人类注视点建模为“意图”中间变量:先在大规模第一视角人类视频上学习“视觉-语言→意图→动作”的链式推理,再用少量人类/机器人数据适配,且机器人侧无需意图标注。仿真与真实机器人结果显示,其在长时程、精细操作、few-shot 与鲁棒性上普遍优于强基线、泛化更好,但具体增益幅度文中未充分说明。

CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models figure
arXiv2026-04-24

CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models

任务规划

任务规划辅助任务VLA机器人学习

这篇工作针对VLA在长时程非马尔可夫操作中“只看当前帧”导致的进度判断失真、遮挡信息丢失和杂乱场景误导问题,提出CodeGraphVLP:用持续更新的语义图显式保存任务相关实体与关系,再让一次性生成的代码规划器在图上做进度检查,输出子任务和相关物体,并构造抑制杂乱的视觉-语言提示来驱动底层VLA。论文在3个真实桌面任务上相较强VLA基线、带历史版本及VLM在线重规划取得更高完成率且规划延迟更低,但给定片段未充分说明具体提升幅度。

VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis figure
ICRA 20262026-04-23

VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis

泛化

泛化安全操作

论文针对端到端操作策略在固定训练视角下遇到相机换位就易失效的问题,提出VistaBot:先用前馈几何模型估计深度与相对位姿,把任意测试视角重投影到训练视角,再借助带时序记忆的视频扩散模型提取4D潜变量,直接在潜空间学习闭环动作,并引入VGS衡量跨视角泛化。接入ACT和π0后,VGS分别提升2.79倍和2.63倍,仿真与真实实验都表明其在大视角变化下成功率更稳。

Long-Horizon Manipulation via Trace-Conditioned VLA Planning figure
arXiv2026-04-23

Long-Horizon Manipulation via Trace-Conditioned VLA Planning

任务规划

任务规划VLA泛化机器人学习操作

论文针对VLA在长时程操作中易因多步依赖与误差累积失效的问题,提出LoHo-Manip:将高层任务管理VLM与低层执行VLA解耦,并基于当前观测反复预测“已完成/剩余”子任务及2D视觉轨迹,让执行器按轨迹做局部控制,从而隐式完成进度跟踪、重规划与失败恢复。结果上,其在仿真和Franka实机的规划、推理与操作任务中提升了长程成功率、鲁棒性和OOD泛化;具体数值判断基于公开摘要/项目页。

How VLAs (Really) Work In Open-World Environments figure
arXiv2026-04-23

How VLAs (Really) Work In Open-World Environments

VLA

VLA机器人学习数据集/Benchmark

该文针对 B1K 只看最终状态、易高估 VLA 家务能力且忽略执行安全的问题,系统分析榜首/次优策略的复现性、一致性与失败模式,并提出将目标物损伤、非目标物扰动等纳入的安全评测指标 sQ/seQ。主要结论是:现有 VLA 在开放世界长时任务中鲁棒性和任务感知仍不足,常出现掉落、碰撞和误操作,传统成功率明显偏乐观;但具体数值降幅文中未充分说明,判断基于公开摘要/项目页。

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training figure
arXiv2026-04-23

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作针对机器人后训练过度依赖真实机执行、人工盯场和场景重置,导致纠错成本随任务规模快速上升的问题,提出把人类纠错搬进世界模型:先让策略在模型内闭环rollout,在临近失败处由人给出短时纠正,并用状态缓存、回滚和分支复用同一失败状态,集中补齐策略薄弱区。作者在3个真实操作任务、2种策略骨干上验证,真实成功率平均较基础策略提升37.9个点,较仅做世界模型闭环执行提升19.0个点,且模型内评测与真实表现相关性达0.953。

From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges figure
arXiv2026-04-23

From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

VLA

VLA机器人学习

论文聚焦 VLA 中语义理解与低层控制的时空尺度错配:从纯噪声生成动作既低效,也易在训练中忽视语言条件。作者提出 ResVLA,用频谱分解先预测低频“意图锚点”,再以残差扩散桥仅补高频局部动力学,把生成改成“从意图细化”。实验显示其在 LIBERO、SimplerEnv 和真机上表现有竞争力,并在长时程、接触密集与跨本体扰动下更稳、收敛更快;但判断基于公开摘要,增益来源是否独立于 scaling/data 文中未充分说明。

CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors figure
arXiv2026-04-23

CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors

VLA

VLA机器人学习

这篇工作针对VLA里空间信息多被隐式编码、难直接约束连续动作的问题,提出先预测少量与动作对齐的未来位移锚点,再把它们转成训练时的“走廊”容差约束,专门纠正生成轨迹的空间偏离,同时允许接触与执行噪声。该方法几乎不改主干,可插到SmolVLA和GR00T上,在更难的LIBERO-Plus上较基线提升3.4%–12.4%,GR00T-Corr达83.21%;但文中未做真实机器人验证,增益与基座能力耦合程度仍待厘清。

VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation figure
arXiv2026-04-22

VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation

触觉

触觉双臂感知操作数据集/Benchmark

这项工作针对接触密集型双臂操作缺少大规模真实交互数据的问题,提出 VTouch++:在多种机器人平台上同步采集本体状态、多视角 RGB-D 与视觉触觉指尖信号,并以矩阵式技能轴组织 380+任务和 100+原子动作,兼顾系统性与可扩展采集。文中称其在跨模态检索和真实机器人评测中体现出更好的视觉-触觉融合与跨机器人泛化,但具体量化幅度文中未充分说明,增益也可能主要来自 scaling / data,判断基于公开摘要/项目页。

Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models figure
arXiv2026-04-22

Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models

VLA

VLA机器人学习应用

论文关注机器人VLA在序列操作中的置信度不可靠问题:任务成败往往只在轨迹结束时揭晓,传统单步校准难以支持中途判断。作者提出序列版Brier分数,并证明其风险最小解等价于策略价值函数,因此可用TD值学习做时序校准,且仅依赖动作概率也能进行黑盒估计。实验在LIBERO、多个VLA模型及Franka真机上表明,TDQC较BCE/SAFE有更低序列Brier分数和更强早期失败检测,并将OpenVLA成功率提升约15%。

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance figure
arXiv2026-04-22

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

VLA

VLA机器人学习

这篇工作针对现有小型VLA把通用VLM特征直接喂给动作头,导致操作域知识错位、双视角空间不一致、缺少目标级高层语义的问题,提出两阶段PokeVLA:先用240万条涵盖空间指代、可供性和具身推理的数据预训练袖珍PokeVLM,再通过腕部/底座多视角目标语义学习、几何对齐和action query把与操作相关的表示注入动作空间。在1.22B规模下,它在LIBERO-Plus上取得SOTA,相比OpenVLA-OFT和VLA-Adapter总成功率分别提升4.0%和2.5%,迁移到扰动场景及真实机器人上也表现出更强鲁棒性。

Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics figure
arXiv2026-04-22

Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics

跨本体

跨本体基础模型操作数据集/Benchmark

论文针对医疗机器人长期受限于小规模、单本体且不开放的数据瓶颈,构建了跨49家机构、覆盖20种平台、同步视频与运动学的Open-H-Embodiment,并据此训练医疗VLA模型GR00T-H和多本体动作条件世界模型。结果显示,GR00T-H在缝合基准上是唯一实现端到端完成的模型,29步离体缝合平均成功率64%,世界模型还能支持多平台手术场景生成;但增益可能主要来自scaling / data,文中对数据与模型贡献拆解未充分说明。

Navigating the Clutter: Waypoint-Based Bi-Level Planning for Multi-Robot Systems figure
arXiv2026-04-22

Navigating the Clutter: Waypoint-Based Bi-Level Planning for Multi-Robot Systems

多智能体/多机器人

多智能体/多机器人任务规划语言条件机器人学习

面向密集障碍下的多机器人协作,论文认为仅做高层任务分配或依赖固定低层运动规划,都会因任务—运动失配导致碰撞或不可达。为此提出 WAYPLAN:用两个LLM分别负责任务与运动规划,以“航点”替代直接预测高维轨迹,并结合课程式联合训练与改造RLVR,把运动可行性反馈回传给任务层,缓解跨层信用分配。BoxNet3D-OBS实验中,其成功率持续优于运动无感知和VLA式基线,4B模型可达0.62,甚至超过缺乏运动感知的GPT-5。

JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy figure
arXiv2026-04-22

JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy

辅助任务

辅助任务VLA基础模型机器人学习操作

论文面向开放场景操作中“数据覆盖不足、不同机器人/人类本体难迁移”的瓶颈,提出JoyAI-RA:将网页数据、第一视角人类操作视频、仿真轨迹和真实机器人示教做多源分层预训练,并用统一动作空间把人类操作语义对齐到机器人控制,核心是先缩小embodiment gap再学动作生成。结果在仿真与真实基准上超过现有VLA方法,泛化任务更明显;但文中未充分说明提升究竟来自动作对齐还是更大数据规模,增益来源不清,判断基于公开摘要/项目页。

FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation figure
arXiv2026-04-22

FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation

灵巧操作

灵巧操作触觉机器人学习操作

论文针对灵巧操作中“接触前—初触—接触后”感知割裂的问题:传统触觉多在接触后才有效,导致起触不稳。FingerEye把双目近距RGB视觉与可形变软环结合,用同一视觉流同时提供近场几何线索和接触力矩代理,再配合多传感器模仿学习与数字孪生做仿真增强表征学习。结果显示其可完成立硬币、夹薯片、取信纸、注射器操作等多类任务;但文中摘要未充分说明定量增益,判断基于公开摘要/项目页。

ETac: A Lightweight and Efficient Tactile Simulation Framework for Learning Dexterous Manipulation figure
arXiv2026-04-22

ETac: A Lightweight and Efficient Tactile Simulation Framework for Learning Dexterous Manipulation

灵巧操作

灵巧操作触觉操作

本文针对触觉强化学习里“高保真软体仿真太慢、轻量近似又难刻画应变传播”的矛盾,提出ETac:用带物理先验的指数衰减传播加轻量残差网络,近似弹性体在曲面、各向异性条件下的全局形变,并可从FEM预标定到真实传感器映射。实验中其形变估计接近FEM,在单张4090上支持4096并行环境、869 FPS,盲抓四类物体平均成功率84.45%;但性能增益有多少来自仿真质量、多少可能主要来自scaling / data,文中未充分说明。

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment figure
arXiv2026-04-22

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

辅助任务

辅助任务VLA世界模型感知机器人学习应用

论文针对工业机器人长时程操作中,纯反应式VLA易因遮挡、杂乱和接触误差累积而失效的问题,将Cortex升级为“先规划后执行”:在视觉潜空间生成多条候选未来轨迹,并用PRO综合评估任务进展、完成概率和风险后再执行动作;同时借助视觉表征实现跨单臂、双臂的统一规划。在4个真实仓储任务上,它均超过π0.5、RDT-2等基线,成功率普遍超90%,且是唯一实现零人工干预的方法;不过文中增益也可能部分来自持续部署数据与scaling。

Bimanual Robot Manipulation via Multi-Agent In-Context Learning figure
arXiv2026-04-22

Bimanual Robot Manipulation via Multi-Agent In-Context Learning

多智能体/多机器人

多智能体/多机器人语言条件双臂机器人学习操作

双臂操作难点在于联合动作维度高、两臂时序耦合强,直接用文本LLM做ICL容易超出上下文并产生不协调轨迹。本文的关键洞察是把双臂控制改写成多智能体主从协作:先由Leader规划一臂,再让Follower条件化补全另一臂,并用“手臂辩论”和LLM裁判在推理时反复修正与筛选。其在TWIN的13个任务上最高平均成功率达71.1%,较最强免训练基线提升6.7个百分点,且超过多数监督方法;不过增益也可能部分来自Best-of-N采样与裁判筛选。

A Vision-Language-Action Model for Adaptive Ultrasound-Guided Needle Insertion and Needle Tracking figure
ICRA 20262026-04-22

A Vision-Language-Action Model for Adaptive Ultrasound-Guided Needle Insertion and Needle Tracking

VLA

VLA音频应用

面向超声引导穿刺中针体易被遮挡、成像伪影强、传统模块化控制脆弱的问题,论文将针跟踪与插入控制统一到VLA框架中,并用跨深度融合跟踪头结合浅层位置信息与深层语义,再以TraCon轻量适配视觉骨干,配合不确定性感知控制和异步流水线做实时决策。实验显示其跟踪优于现有方法,穿刺成功率高于人工(平均80% vs 60%),耗时更短(17.3s vs 23.2s),但跟踪速度仅勉强满足实时。

VLA Foundry: A Unified Framework for Training Vision-Language-Action Models figure
arXiv2026-04-21

VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

VLA

VLA语言条件机器人学习

论文动机是现有开源VLA多只覆盖动作训练,难以系统研究上游语言/视觉预训练对机器人策略的影响。作者提出VLA Foundry,将LLM、VLM到VLA统一到同一可配置训练栈,支持数据混合、从零训练和预训练骨干替换。结果上,全开源从零模型在LBM Eval中接近既有闭源基线,而换用Qwen3-VL后多任务桌面操作显著更强;但增益来源不清,可能主要来自更强backbone与数据/scaling。

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling figure
arXiv2026-04-21

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

人形操作

人形操作世界模型机器人学习操作

论文针对人形基础模型受限于机器人数据稀缺、而人类演示又存在跨形体运动学不匹配的问题,提出 UniT:用“视觉锚定”的三分支交叉重建,把视觉后果与动作对应起来,学习离散的、与具体形体无关的物理意图 token。它既作为 VLA 的中间动作语言,也作为世界模型条件;摘要称在仿真与真机上提升数据效率、OOD 泛化和零样本任务迁移,并支持人到人形的动作迁移,但增益来源是否部分主要来自更多人类数据,文中未充分说明。

RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation figure
arXiv2026-04-21

RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation

视频规划

视频规划世界模型操作数据集/Benchmark

这篇工作针对现有世界模型评测偏重画面真实感、却难回答“生成的操作视频能否真正转成机器人动作并完成任务”的问题,提出RoboWM-Bench:将人手或机器人生成视频经重定向/逆动力学转为动作,在real-to-sim重建场景中执行,并同时评估步骤级与任务级成功率。结果显示,视觉逼真与物理可执行性并不一致,复杂、长时程和可形变任务最易失败,主要瓶颈在空间推理、接触预测与几何失真;面向操作数据的微调能提升表现,但整体机器人可执行性仍有限。

Mask World Model: Predicting What Matters for Robust Robot Policy Learning figure
arXiv2026-04-21

Mask World Model: Predicting What Matters for Robust Robot Policy Learning

辅助任务

辅助任务VLA安全世界模型感知机器人学习

论文针对RGB世界模型易把光照、纹理和动态背景当成预测目标,导致表征与控制需求错配、闭环执行脆弱的问题,提出Mask World Model:训练时预测未来语义掩码而非像素、推理时仍只用多视角RGB,并把掩码中心的中间特征接入扩散策略头,以几何信息瓶颈突出物体关系与接触动态。实验中,MWM在LIBERO、RLBench和真实Franka任务上平均成功率达98.3%、68.3%、67.5%,OOD泛化和随机token裁剪鲁棒性也优于RGB式世界模型。

GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation figure
arXiv2026-04-21

GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation

移动操作

移动操作任务规划语言条件双臂操作

论文针对双臂移动操作中“高层语义懂任务、低层控制保安全”长期割裂的问题,提出GenerativeMPC:用VLM-RAG把图像和语言直接映射为全身MPC的速度上限与安全距离,并同时调节底盘和双臂统一阻抗-导纳控制的刚度、阻尼,实现可解释的“语义到物理参数”闭环;再借助ChromaDB复用过往参数经验而非重训。实验在MuJoCo、IsaacSim和实机上表明,机器人靠近人时会主动降速约60%,导航误差达毫米级,双臂末端收敛小于2 mm。

Gated Memory Policy figure
arXiv2026-04-21

Gated Memory Policy

Vision-Action

Vision-Action机器人学习

这篇工作关注机器人操作中“并非所有任务都需要长历史,盲目加记忆反而会因分布偏移和过拟合掉点”的问题。作者提出GMP,用可学习记忆门控判断何时该调历史,再用轻量交叉注意力从图像与动作轨迹里提取该回忆什么,并对历史动作注入扩散噪声提升抗噪性。结果是在其提出的非马尔可夫基准MemMimic上,相比长历史基线平均成功率提升30.1%,同时在RoboMimic这类近马尔可夫任务上基本不牺牲性能。

FASTER: Value-Guided Sampling for Fast RL figure
arXiv2026-04-21

FASTER: Value-Guided Sampling for Fast RL

强化学习

强化学习触觉机器人学习

这篇工作针对扩散策略在强化学习中常依赖 best-of-N 采样、导致训练和推理开销随候选数暴涨的问题,提出 FASTER:把多候选动作的去噪与筛选过程建模为 MDP,在噪声/去噪空间学习价值函数和过滤策略,尽早淘汰低价值样本,常常只看初始噪声就能预测后续动作价值。实验表明,它在长时程操作的在线与 batch-online RL 中普遍优于基础策略,以接近或达到 best-of-N 的效果显著降低 FLOPs,并在预训练 VLA 上保持性能同时减少训练和推理计算。

Environmental Understanding Vision-Language Model for Embodied Agent figure
CVPRF 20262026-04-21

Environmental Understanding Vision-Language Model for Embodied Agent

任务规划

任务规划多模态推理数据集/Benchmark

这篇工作指出,具身 VLM 的关键瓶颈不只是高层推理,而是对环境状态、可交互对象、动作后果和目标完成度的理解不足,因此常在执行中交互失败或依赖环境元数据。作者将对象感知、任务规划、动作理解和目标识别四类技能统一监督到单一 VLM 中,并加入基于采样的恢复机制与 GRPO 一致性优化;同时通过技能级数据与评测说明,现有开源和闭源 VLM 普遍缺少稳健交互所需的环境理解能力。ALFRED 上其方法相对行为克隆基线平均成功率提升 8.86%,再叠加恢复与 GRPO 额外提升 3.03%。

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training figure
arXiv2026-04-21

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

VLA

VLA数据采集数据筛选

这篇工作关注现有VLA常直接继承通用VLM,但两者训练分布和所需能力并不匹配,导致机器人动作生成的初始化偏弱。作者先发现VLA数据在特征空间中更紧凑、只与部分VLM样本接近,再用冻结VLM特征上的轻量邻近度估计器,从大规模VLM池中筛出更贴近操作域的数据做mid-training,再进行VLA微调。该方法在Calvin、Libero、Simpler上相对基线约提升0.5、19和15分,且优势从微调早期就出现,并可迁移到不同VLM骨干。

Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models figure
arXiv2026-04-20

Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models

VLA

VLA泛化机器人学习数据集/Benchmark

本文质疑现有VLA在静态基准上的高分是否真的代表具身推理能力,认为标准评测容易把动作模仿误当成理解。作者提出诊断基准BeTTER,通过空间布局变化、时序外推等因果干预,并用运动学隔离尽量剥离底层执行因素。结果显示多种SOTA模型在这些受控变化下性能断崖式下降,暴露出词汇-动作捷径、行为惯性和语义表征坍缩;文中进一步将问题归因于VLM到VLA适配中的容量压缩与下采样瓶颈,且实机测试表明这并非纯仿真现象。

Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models figure
arXiv2026-04-20

Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models

VLA

VLA泛化机器人学习

论文指出,VLA在轻微环境变化下失效的关键原因并非单纯感知噪声,而是“轨迹过拟合”:模型把动作与场景中偶然实体的相关性误当成因果,从而复现记忆化轨迹。为此作者提出无需额外verifier、冻结基座VLA的测试时适配框架PDF,用基于不确定性的图像扰动与动作投票缓解伪相关,再借助延迟反馈训练轻量logit扰动头纠正过度自信。在LIBERO上成功率提升7.4%,在Atari上人类归一化分数提升10.3%,说明其能稳定提升跨场景决策鲁棒性。

StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement figure
arXiv2026-04-20

StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement

视频规划

视频规划Vision-Action机器人学习操作

论文聚焦逆动力学模型在机械臂出画或截断时动作回归失稳的问题:单帧视觉一旦丢失关键几何线索,状态恢复就会变得病态。StableIDM的核心洞察是把剩余可见臂段的方向当作几何代理,并结合机器人中心掩码去背景、方向特征聚合提取各向异性空间线索,以及前后两级时序细化补全短时运动连续性。实验中,它在AgiBot重截断集上严格动作准确率提升12.1%,真实机器人回放平均成功率提升9.7%,视频规划解码抓取成功率提升11.5%,作为VLA自动标注器还带来17.6%的下游实机增益。

ST-π: Structured SpatioTemporal VLA for Robotic Manipulation figure
arXiv2026-04-20

ST-π: Structured SpatioTemporal VLA for Robotic Manipulation

3D 表征

3D 表征VLA机器人学习操作

这篇工作针对现有 VLA 在长时序精细操作中主要依赖隐式时空推理、难以处理子任务边界与前后因果衔接的问题,提出 ST-π:先用 ST-VLM 基于 4D 观测和语言指令显式生成含子任务、位置和时长的 chunk 级动作提示,再由双生成器 ST-AE 分别建模空间平滑性与时间一致性,细化为步级控制,并配套构建带结构化标注的 STAR 数据集。实验中其在 LIBERO/STAR 上达到 97.4%/80.1% 成功率,完成时间为 5.9/13.5,较基线与去模块版本更稳定。

ReFineVLA: Multimodal Reasoning-Aware Generalist Robotic Policies via Teacher-Guided Fine-Tuning figure
arXiv2026-04-20

ReFineVLA: Multimodal Reasoning-Aware Generalist Robotic Policies via Teacher-Guided Fine-Tuning

辅助任务

辅助任务VLA基础模型机器人学习操作

这篇论文针对现有VLA常把视觉/语言直接映射为动作、缺少显式推理,因而在长时序和分布外操作上泛化不足的问题,提出ReFineVLA:先用教师模型为轨迹补充自然语言理由,再以动作预测+理由生成联合微调预训练VLA,并用注意力图验证其更关注语义相关物体与空间锚点。在SimplerEnv的WidowX和Google Robot任务上,方法分别达到47.7%成功率、68.8% variant aggregation和76.6% visual matching,较次优提升5.0%、3.5%和2.3%;但增益中有多少来自推理监督而非额外标注数据,文中未充分说明。

OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL figure
arXiv2026-04-20

OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

VLA

VLA机器人学习

这篇工作针对现有VLA在3D空间理解不准、早/晚融合只改外围模块、以及PPO/GRPO用于在线强化学习时不稳定的问题,提出OmniVLA-RL:用MoT把推理、空间和动作专家放进共享Transformer层内做深度交互,并以块级因果注意力隔离感知与动作生成,再将Flow Matching改写为SDE并结合GSPO做在线优化。结果上,模型在LIBERO平均成功率达97.6%,在LIBERO-Plus上也比PPO和GRPO基线收敛更快、最终表现更好。

OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation figure
arXiv2026-04-20

OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation

辅助任务

辅助任务VLAFlow Matching安全感知机器人学习操作

这篇工作针对现有VLA做操控时过于“看一帧做一帧”,且未来预测与目标物体建模分属不同表征空间、在动态场景下鲁棒性不足的问题,提出OFlow:先在DINO语义潜空间用时序flow matching预测未来,再通过无监督层次聚类提炼面向物体的状态,并以ControlNet式条件注入连续动作生成,从而把前瞻能力和物体感知统一起来。实验显示,它在LIBERO、LIBERO-Plus、MetaWorld、SimplerEnv及7个真实任务上普遍提升成功率与抗分布移位能力,尤其对涉及动态目标交互的操控更稳健。

HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation figure
arXiv2026-04-20

HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation

VLA

VLA泛化机器人学习操作

本文针对VLA在长程操作中“短任务强、长任务易崩”的现象,指出症结不只是上下文太短,而是执行环存在三类结构性缺陷:遗忘已完成子目标、动作执行前缺少可行性验证、失败后缺少回滚恢复。HELM在冻结VLA外增设情景记忆模块、基于记忆的失败预测器SV和回滚重规划控制器,其中SV是核心学习贡献。在LIBERO-LONG上,它将OpenVLA成功率从58.4%提升到81.5%,显著超过仅把上下文扩到32步的63.8%,并在CALVIN及受扰动恢复评测中也有提升。

Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study figure
arXiv2026-04-20

Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study

辅助任务

辅助任务VLA机器人学习

这篇工作关注VLA仅靠模仿学习时,难以显式掌握避障和运动学可行性等硬约束的问题。作者在扩散式VLA训练中加入几何可行性辅助损失,把预测动作经过正运动学映射后,用机器人与障碍物的有符号距离进行监督,而推理时仍只用RGB和语言输入。近障碍到达仿真表明,这种显式监督能同时提升物理可靠性、任务成功率和低数据下的学习效率,但效果依赖损失权重设置,且结论主要基于单一场景,泛化性文中未充分说明。

AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models figure
arXiv2026-04-20

AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models

VLA

VLA机器人学习操作

论文指出现有VLA把大范围搬运与接触前后的微小纠偏放在同一动作空间学习,导致大动作掩盖决定成败的细粒度修正。AnchorRefine据此将动作预测拆成轨迹锚点规划、连续残差细化和面向夹爪离散边界的决策感知修正,使全局运动与局部接触精度解耦。实验在LIBERO、CALVIN及真实机器人上为回归式和扩散式骨干都带来稳定提升,仿真成功率最高增7.8%,实机最高增18%。

FLASH: Fast Learning via GPU-Accelerated Simulation for High-Fidelity Deformable Manipulation in Minutes figure
arXiv2026-04-19

FLASH: Fast Learning via GPU-Accelerated Simulation for High-Fidelity Deformable Manipulation in Minutes

可变形物体

可变形物体操作数据集/Benchmark

这项工作针对可变形物体操作中“高保真接触仿真太慢,难以支撑大规模学习”的瓶颈,提出从底层按GPU并行特性重写的FLASH:以FEM和基于NCP的非光滑牛顿接触求解器为核心,并把深度渲染与遮挡处理和仿真紧耦合。结果是在单张RTX 5090上实现300万以上自由度、30 FPS的接触丰富仿真,端到端训练较实时快100–300倍,且仅用数分钟生成的合成数据就能把毛巾/衣物折叠策略零样本迁移到真机;训练增益可能主要来自scaling与数据吞吐,判断基于公开摘要/项目页。

LongBench: Evaluating Robotic Manipulation Policies on Real-World Long-Horizon Tasks figure
arXiv2026-04-18

LongBench: Evaluating Robotic Manipulation Policies on Real-World Long-Horizon Tasks

基础操作

基础操作操作数据集/Benchmark

针对现有长时程机器人操作评测多依赖仿真或只给总成功率、难以定位失败来源的问题,LongBench提出真实世界长程基准,收集1000+回合,并把任务拆成上下文无关与上下文相关两类,再按能力与歧义细分,用于诊断执行鲁棒性、动态响应和上下文推理。对6种代表性策略的评测表明,长时程性能并非由单一因素决定:全可观测场景主要受执行稳定性限制,而记忆机制对含歧义任务并未稳定带来提升。

WorldComposer: From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation figure
arXiv2026-04-17

WorldComposer: From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

基础操作

基础操作泛化感知机器人学习操作数据集/Benchmark

论文针对真实机器人训练中场景重配和资产采集成本高、难以获得多样数据的问题,提出 WorldComposer:把360°全景自动生成可交互的高保真仿真场景,并通过语义与几何编辑构造“数字表亲”,还能做多房间拼接,结合物理引擎支持操作与导航。实验显示其仿真与真实表现相关性较强,扩大生成数据后对未见场景和物体的泛化更好;但各模块的独立增益文中未充分说明,提升可能主要来自 scaling / data。

Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning figure
arXiv2026-04-17

Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning

任务规划

任务规划多模态推理模仿学习感知

这篇工作关注长时程 action-chunked 模仿学习一旦偏离演示分布,就会继续生成局部合理但无效动作、且缺乏自恢复能力的问题。作者提出无需再训练的 Rewind-IL,核心洞察是用策略内部相邻动作块的自一致性差异 TIDE 做零样本故障检测,并结合保形预测定阈;同时离线借助 VLM 从演示中选出语义可靠的中间检查点,在线失败后回退到最近安全状态并重启推理。实验表明,该方法在真实与仿真长程操作、以及迁移到 flow-matching 策略时,都能提升故障检测效果和任务成功率,在自然失败与扰动场景下更稳健。

ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control figure
arXiv2026-04-17

ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control

VLA

VLA安全机器人学习操作

ReconVLA针对VLA在模糊指令、遮挡或分布外场景下会“自信出错”、却缺少可校准置信度的问题,提出无需改动或重训基座策略的外接框架:用保形分位回归在动作token上估计不确定性并偏向低风险动作,再以马氏距离监控隐状态分布,及早识别OOD或失稳状态。仿真与真机操作表明,它能更早预警失败、减少灾难性错误并提升任务成功率;但具体提升幅度文中未充分说明。

Long-Term Memory for VLA-based Agents in Open-World Task Execution figure
arXiv2026-04-17

Long-Term Memory for VLA-based Agents in Open-World Task Execution

VLA

VLA泛化

这篇工作针对VLA在开放环境长流程化学实验中“会做单步、难做全程”,且无法积累经验的问题,提出ChemBot:由LLM Agent做分解与回溯规划,Skill-VLA执行并预测子任务进度,再结合长短期记忆与面向未来状态的异步推理,缓解长时程执行中的轨迹断裂。实验表明其在协作机器人上的安全性、操作精度和任务成功率优于现有VLA基线;但各模块各自带来多少增益,文中未充分说明,判断基于公开摘要/首页内容。

π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities figure
arXiv2026-04-16

π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

辅助任务

辅助任务VLA世界模型基础模型感知机器人学习操作

论文针对现有机器人基础模型虽能扩规模,却难把异构数据真正组合成新技能、且常依赖任务微调的问题,提出可“转向”的π0.7:在训练中不只输入指令,还加入策略/质量等回合元数据与子目标图像等多模态上下文,缓解多来源、含失败样本数据被平均化学习的弊端,并让模型能按“怎么做”被显式引导。实验显示其无需微调即可完成浓缩咖啡机、叠衣等高灵巧长程任务,在未见环境中遵循复杂语言、实现零样本跨机体迁移;文中还称已见任务成功率常超90%,未见任务约60%–80%。

World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems figure
arXiv2026-04-16

World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

任务规划

任务规划辅助任务VLA世界模型感知机器人学习

针对现有VLA多以逐步直接预测动作为主、难以处理长时程与组合任务的问题,本文提出WAV,将世界模型、轨迹价值评估和动作生成统一到潜变量轨迹推断框架中,以隐式规划替代显式动作空间搜索;其关键洞察是,规划步长增加时,直接在动作空间找到可行轨迹的概率会指数衰减,而潜空间推断能把搜索分布重塑到高价值且动力学可行的区域。仿真与真实机器人实验表明,WAV在成功率、泛化性和鲁棒性上均优于现有方法,尤其在长时程场景更明显,但具体增益来源与部署开销权衡文中未充分说明。

R3D: Revisiting 3D Policy Learning figure
ICRA 20262026-04-16

R3D: Revisiting 3D Policy Learning

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作针对3D策略学习里“大模型反而更差”、训练不稳和易过拟合的问题,指出关键症结是常被忽略的3D数据增强缺失,以及BatchNorm在小批量模仿学习中的副作用。基于此,作者提出仅用LayerNorm的可扩展点云Transformer编码器,并结合保留空间分辨率的扩散解码器,同时支持3D分割预训练和末端位姿/关节联合预测。在仿真与真实操作基准上,R3D显著优于现有3D基线,但具体增益幅度在给定片段中未充分说明。

HRDexDB: A Large-Scale Dataset of Dexterous Human and Robotic Hand Grasps figure
arXiv2026-04-16

HRDexDB: A Large-Scale Dataset of Dexterous Human and Robotic Hand Grasps

抓取

抓取灵巧操作基础模型操作数据集/Benchmark

为解决现有灵巧操作数据集在人机配对、触觉和高精度3D标注上彼此割裂的问题,HRDexDB构建了首个大规模无标记的人手与多种机器人手配对抓取数据集:用21个外部相机和2个第一视角相机统一采集100个物体上的1.4K次成功/失败抓取,并同步提供手/机器人轨迹、物体6D位姿、触觉和多视角视频。结果显示,21视角将物体跟踪一致性的MVD从1.71mm降至0.83mm,还能分析不同手型因力矩与摩擦差异造成的失败模式,可作为跨具身多模态策略学习基准。

Foundation Models in Robotics: A Comprehensive Review of Methods, Models, Datasets, Challenges and Future Research Directions figure
arXiv2026-04-16

Foundation Models in Robotics: A Comprehensive Review of Methods, Models, Datasets, Challenges and Future Research Directions

基础模型

基础模型操作数据集/Benchmark综述

面向机器人从单任务、场景定制系统走向开放世界通用体的趋势,作者指出现有综述常局限于操控、VLA或自治等局部视角,因此系统梳理了基础模型在机器人中的五个演进阶段,并按模型类型、网络架构、学习范式、知识注入阶段、任务、应用领域及公开数据集进行细粒度交叉分类。文中的主要结论是:基础模型已明显提升多模态理解、长时程规划与跨平台泛化,但落地仍受推理时延、物理与语义落地不足、数据与具身偏置、安全性和可解释性等瓶颈制约;判断基于公开摘要/项目页。

A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics figure
arXiv2026-04-16

A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics

模仿学习

模仿学习Latent Learning机器人学习操作

这篇工作面向机器人上下文模仿学习中“动作离散化只做平坦聚类、难以表达时序平滑与层次结构”的瓶颈,提出分层时空动作 tokenizer(HiST-AT):先用两级向量量化学习细粒度子动作与高层动作簇,再联合重建动作和时间戳以显式注入时序信息。实验显示其在 RoboCasa、ManiSkill 和真实机器人操作上达到新 SOTA;例如 ManiSkill 平均成功率由 LipVQ-VAE 的 0.617 提升到 0.670,跨数据集平均由 0.525 提升到 0.625。

Jump-Start Reinforcement Learning with Vision-Language-Action Regularization figure
arXiv2026-04-15

Jump-Start Reinforcement Learning with Vision-Language-Action Regularization

强化学习

强化学习VLA触觉机器人学习

这篇工作针对机器人强化学习在长时程、稀疏或奖励设计欠佳任务中探索低效、信用分配差的问题,提出 VLAJS:把预训练 VLA 仅作为训练早期的稀疏高层动作先验,并在 PPO 中加入方向一致性正则,让策略“朝向”VLA 建议而非持续模仿,从而保留高频闭环控制并避免教师束缚。结果上,它在六个 ManiSkill 操作任务中比 PPO 和蒸馏基线更省样本,多项任务交互量降幅超 50%,且可零样本迁移到 Franka 实机,在杂乱、物体变化和外部扰动下仍较稳健。

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System figure
arXiv2026-04-15

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

辅助任务

辅助任务VLA感知机器人学习操作

这篇工作针对端到端 VLA 在狭窄控制数据上微调后易削弱原有 VLM 推理能力的问题,提出分层式 HiVLA:上层用 VLM 做任务拆解与视觉定位,生成“子任务指令+目标框”,下层用带级联交叉注意力的 DiT 依次融合全局场景、保留绝对位置信息的局部高分辨率目标块和技能语义来执行动作。实验显示其在仿真与真实场景都优于现有方法,在 RoboTwin 上较 H-RDT 提升 12.7%、较 π0 提升 37.7%,尤其擅长长时序技能组合和拥挤场景中的小物体精细操作。

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection figure
arXiv2026-04-15

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

任务规划

任务规划泛化操作

这篇工作针对现有 VLA 在长时程操作中因短上下文、端到端反应式控制而易在遮挡、阶段依赖和失败恢复上崩溃的问题,提出将“想什么”和“怎么做”拆开的双系统框架:上层 VLM 负责结构化记忆、子任务分解、结果验证与反思式重规划,下层 VLA 在过滤干扰后的几何保持观测上执行技能。实验显示其在 RMBench 五项任务上平均成功率达 32.4%,显著高于最强基线的 9.8%,在记忆密集任务上也有明显优势。

Failure Identification in Imitation Learning Via Statistical and Semantic Filtering figure
ICRA 20262026-04-15

Failure Identification in Imitation Learning Via Statistical and Semantic Filtering

任务规划

任务规划多模态推理模仿学习

论文针对模仿学习策略在真实部署中易被分布外事件击穿、而传统视觉异常检测又会把无害偏差误报为失败的问题,提出与策略解耦的 FIDeL:先用正常示教表征与最优传输对齐做异常定位,再用时空 conformal prediction 自适应定阈,最后借助 VLM 结合热图做语义过滤,将 benign anomaly 与真正失败区分开。作者还构建了 BotFails 数据集;结果显示其在 BotFails 上的异常检测 AUROC 比现有方法高 5.3%,失败识别准确率提升 17.38%。

A Mechanistic Analysis of Sim-and-Real Co-Training in Generative Robot Policies figure
arXiv2026-04-15

A Mechanistic Analysis of Sim-and-Real Co-Training in Generative Robot Policies

泛化

泛化Sim2Real

论文关注机器人生成式策略里“少量真实数据+大量仿真数据”联合训练为何有效这一黑箱问题,并用扩散策略的理论分析与操控实验给出解释。核心洞察是性能主要取决于“结构化表征对齐”:跨域任务相关特征要对齐,但同时必须保留域可辨识性,才能把仿真知识迁移到真实世界而不是生硬照搬;动作层面的重要性重加权只是次要因素。实验显示,合适的数据混合比例会隐式形成这种对齐,且与成功率显著相关;据此结合 CFG 与 ADDA 后,仿真和真机任务相对以往方法可再提升约20%,真实机器人成功率约74%。

XRZero-G0: Pushing the Frontier of Dexterous Robotic Manipulation with Interfaces, Quality and Ratios figure
arXiv2026-04-14

XRZero-G0: Pushing the Frontier of Dexterous Robotic Manipulation with Interfaces, Quality and Ratios

灵巧操作

灵巧操作数据采集遥操作操作

这篇工作聚焦灵巧操作里高质量、动作对齐示教数据难以低成本扩展的瓶颈,提出软硬件协同的 XRZero-G0:用 VR 头显、顶视相机和双形态手持夹爪提升无机器人遥操作采集稳定性,并建立“采集-质检-训练-评测”闭环来过滤非本体感知数据。结果上,数据有效率达到 85%,构建了 2000 小时数据集;以约 10:1 混合少量真机数据和大规模无机器人数据,可取得接近纯真机训练的性能且成本降低约 20 倍,并实现零样本跨本体迁移。硬件改进各自带来的独立增益文中未充分说明。

Whole-Body Mobile Manipulation using Offline Reinforcement Learning on Sub-optimal Controllers figure
arXiv2026-04-14

Whole-Body Mobile Manipulation using Offline Reinforcement Learning on Sub-optimal Controllers

移动操作

移动操作强化学习触觉操作

本文面向门、抽屉、橱柜等需要底盘与双臂同步协调的移动操作,试图摆脱全身遥操作数据和繁琐WBC调参。其关键洞察是:即便次优的全身控制器也能作为结构先验,把采样限制在任务相关区域;再用离线强化学习从这些演示中“拼接”出更优行为,并提出面向动作块扩散策略的Q-chunking。仿真中开门、双臂拉抽屉、开柜放物三任务成功率达98%、80%、78%,优于WBC、行为克隆和多种离线RL;零微调迁移到真实Tiago++后,抽屉和开柜放物成功率为80%与68%。

Utilizing Inpainting for Keypoint Detection for Vision-Based Control of Robotic Manipulators figure
arXiv2026-04-14

Utilizing Inpainting for Keypoint Detection for Vision-Based Control of Robotic Manipulators

感知

感知机器人学习操作

这篇工作针对视觉伺服常依赖贴标记、相机标定和机器人模型、且被遮挡后易失效的问题,提出一种基于自然关键点的控制框架:采集时先用 ArUco 自动获得关键点标签,再借助图像修复去除标记,生成无标记训练集;运行时对遮挡区域实时修复,并用 UKF 稳定时序预测。实验表明,在仅依赖固定外部视觉、无显式模型和编码器的条件下,系统可完成平面及含空间运动的机械臂配置控制,部分遮挡下仍能工作,但对复杂背景、动态遮挡和大面积同色遮挡的鲁棒性文中未充分说明。

Scalable Trajectory Generation for Whole-Body Mobile Manipulation figure
arXiv2026-04-14

Scalable Trajectory Generation for Whole-Body Mobile Manipulation

数据需求量大

移动操作数据需求量大数据采集数据生成操作

这篇工作针对移动底盘与机械臂协同操作数据难以规模化获取的问题,提出 AutoMoMa:用 AKR 将底盘、机械臂和物体统一进同一运动学链,并结合 GPU 并行轨迹优化与碰撞检测,自动生成物理可行的全身轨迹。系统达到每 GPU 小时约 5000 条、较 CPU 基线快 80 倍,累计产出 50 万+轨迹,覆盖 330 个场景、多类关节物体和多种机器人。更关键的是,下游 IL 实验表明单一关节物体任务也需数万示范才能到约 80% 成功率,说明瓶颈可能主要来自 scaling / data,而非策略结构本身。

Robotic Manipulation is Vision-to-Geometry Mapping (f(v) \rightarrow G): Vision-Geometry Backbones over Language and Video Models figure
arXiv2026-04-14

Robotic Manipulation is Vision-to-Geometry Mapping (f(v) \rightarrow G): Vision-Geometry Backbones over Language and Video Models

3D 表征

3D 表征视频规划VLA机器人学习操作

论文的出发点是,机器人操作真正需要的是对三维位置、姿态和空间关系的建模,而当前 VLA/视频策略的语言或像素先验与这一目标错位。作者据此提出 VGA,用预训练 3D world model 取代 VLM/视频骨干,直接把多视角视觉映射到几何表征,再通过渐进体调制和动作-3D属性联合训练强化几何一致性。结果上,VGA 在 LIBERO 上超过 π0.5、SpatialVLA、GeoVLA,并在真实机器人未见视角零样本测试中也优于 π0.5,说明原生 3D 表征更利于精细操作与跨视角泛化。

HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models figure
arXiv2026-04-14

HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models

VLA

VLA安全机器人学习

论文指出,现有VLA评测常把“没做成危险动作”和“真正理解危险语义”混为一谈,因而高估模型安全性。作者提出HazardArena,以安全/危险孪生场景和能力感知评测隔离语义风险,在物体、布局与动作需求基本一致时只改变是否危险的上下文,覆盖7类40个风险敏感任务。实验表明,只在安全数据上训练的VLA在对应危险场景中仍常执行高风险操作;推理时无训练的Safety Option Layer可显著抑制此类行为,且对正常任务影响较小。

FastGrasp: Learning-based Whole-body Control method for Fast Dexterous Grasping with Mobile Manipulators figure
arXiv2026-04-14

FastGrasp: Learning-based Whole-body Control method for Fast Dexterous Grasping with Mobile Manipulators

移动操作

移动操作抓取灵巧操作人形操作机器人学习操作

该工作面向移动机器人高速抓取中“撞击后不稳、底盘—机械臂—灵巧手难实时协同、跨物体泛化差”的难题,提出 FastGrasp:先用基于点云的 CVAE 生成并筛选抓取候选,再以强化学习统一控制底盘、机械臂和灵巧手,并结合简化触觉信号在接触后快速修正。摘要称其在仿真与实机上均优于现有方法,能较稳地处理多种形状物体并实现 sim-to-real 迁移,但具体量化增益来源文中片段未充分说明,判断基于公开摘要。

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models figure
arXiv2026-04-13

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

模仿学习

模仿学习数据采集数据增强世界模型

这篇工作针对模仿学习在少量示教下容易因分布外状态导致误差累积、而传统 DAgger 又需要持续人工接管采集恢复数据的问题,提出 WM-DAgger:利用眼在手世界模型无人工标注地批量合成 OOD 恢复轨迹,并通过“沿专家原轨迹方向”的纠偏动作合成和基于终帧锚定真实示教的一致性过滤,减少次优监督与物理幻觉。实机四类操作任务中,其成功率整体优于标准 BC,软袋推动仅用 5 条示教即可达到 93.3%。

StarVLA-α: Reducing Complexity in Vision-Language-Action Systems figure
arXiv2026-04-13

StarVLA-α: Reducing Complexity in Vision-Language-Action Systems

VLA

VLA语言条件机器人学习

论文针对VLA研究中架构、动作空间与数据工程高度碎片化、导致性能增益难归因的问题,提出以Qwen3-VL加轻量MLP和简单动作padding为核心的受控基线StarVLA-α,在统一流程下重审动作头、机器人预训练和接口设计。核心洞察是许多常见复杂设计收益有限且依赖场景,性能可能主要来自强VLM骨干、联合训练与batch/scaling。结果上,单一通才模型在LIBERO、SimplerEnv、RoboTwin、RoboCasa上保持强竞争力,并在真实RoboChallenge上超过π0.5约20%。

Micro-Dexterity in Biological Micromanipulation: Embodiment, Perception, and Control figure
arXiv2026-04-13

Micro-Dexterity in Biological Micromanipulation: Embodiment, Perception, and Control

跨本体

跨本体感知操作应用综述

面向单细胞操作、微创介入等生物任务,现有微机器人虽已能完成运动与运输,但对柔软脆弱目标的精细交互仍缺少统一框架。本文以“微观灵巧性”重构问题,提出从具身形态、感知与状态估计、控制与学习三者耦合评估推、转、抓取和协作操作,并将平台归纳为具身微机器人、场介导无接触系统和外部驱动末端执行器三类。文中主要结论是:实验室已能实现抓取、重定向和协同搬运等原语,但受低雷诺数物理、粘附主导、缺乏本体传感和全局耦合驱动限制,距离临床可用仍存在明显“灵巧性鸿沟”。

M2HRI: An LLM-Driven Multimodal Multi-Agent Framework for Personalized Human-Robot Interaction figure
arXiv2026-04-13

M2HRI: An LLM-Driven Multimodal Multi-Agent Framework for Personalized Human-Robot Interaction

人机交互

多智能体/多机器人人机交互语言条件

面向家庭、医院等社交场景,多机器人HRI常把机器人视为可互换执行体,忽视个体身份会如何改变用户感知,以及异质机器人并存后谁该回应、如何避免抢话。M2HRI以LLM/VLM为基础,为每个机器人注入可区分的人格、长期记忆和基于个体差异的集中协调机制;在双NAO、105名受试者实验中,作者发现人格能被稳定辨认并提升参与感,记忆增强偏好记忆与个性化感知,集中协调减少响应重叠并改善对话流畅性与整体交互质量,说明个体性与协调在多机器人社交交互中是互补而非可替代的。

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment figure
arXiv2026-04-13

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

Latent Learning

Latent Learning泛化机器人学习数据集/Benchmark

论文针对机器人领域显式动作标注稀缺、潜在动作表征缺少统一评测的问题,提出 LARYBench,从“做什么”的语义动作分类和“怎么做”的低层控制回归两层系统评估潜在动作,并构建覆盖人类与 11 种机器人、含 120 万视频、62 万图像对和 59.5 万轨迹的大规模数据。结果表明,无动作监督的通用视觉基础模型整体优于专门的 embodied LAM,且基于潜在表征的语义空间比像素重建空间更贴近真实物理动作空间。

Grounded World Model for Semantically Generalizable Planning figure
arXiv2026-04-13

Grounded World Model for Semantically Generalizable Planning

任务规划

任务规划视频规划泛化世界模型

这篇论文针对传统视觉MPC依赖预先给定目标图像、难以在新环境中用自然语言交互指定目标,以及端到端VLA容易把指令当标签、测试时语义泛化差的问题,提出Grounded World Model:在预训练视觉-语言对齐潜空间中学习状态转移,用指令与预测未来视频的嵌入相似度为候选动作打分,从而把MPC变成语义驱动的规划器,并避免微调VLM带来的知识遗忘。在WISER基准上,GWM-MPC在288个含未见视觉信号和指代表达的测试任务上达到87%成功率,而传统VLA平均仅22%,且其训练集成功率已达90%。

DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models figure
arXiv2026-04-13

DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作面向资源受限机器人上VLA难部署的问题,指出常规PTQ失效的关键不只是层级重建误差,而是视觉语言到动作接口的小扰动会在闭环顺序控制中被机器人运动学持续放大,形成轨迹漂移。为此作者提出DA-PTQ,用跨空间表示补偿校正量化后条件表征,再按结构Jacobian/运动误差分配混合精度。文中称其在低比特下显著降低漂移、性能接近全精度,但摘要未给出具体增益幅度,判断基于公开摘要。

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation figure
arXiv2026-04-13

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

数据需求量大

数据需求量大Affordance数据采集数据生成操作数据集/Benchmark

论文针对仿真操作数据生成里“抓得稳但抓错功能区域”的affordance缺失问题,提出把可供性显式前置:先用开放词汇3D affordance预测定位任务相关接触区,再在该区域内采样抓取并结合运动规划筛选,而不是事后用语义掩码过滤。AffordSim据此把自然语言任务自动转成场景、抓取轨迹和随机化数据,并构建了覆盖50个任务、5种机械臂、500+物体的基准;其轨迹采集成功率达到人工接触标注方案的93%,复杂组合任务为89%,零样本迁移到真实Franka FR3平均成功率24%,说明规模化数据生成有效,但真实落地表现仍偏有限。

OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction figure
arXiv2026-04-12

OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction

数据采集

数据采集人机交互遥操作机器人学习

该文针对 UMI 类无机器人数据采集过度依赖视觉与轨迹、难覆盖接触丰富操作中抓取力与接触力的问题,提出 OmniUMI:把 RGB-D、轨迹、触觉、内部夹持力和外部作用力统一进可手持且采集—部署共用的接口,并用双边夹爪反馈与阻抗执行尽量保持“人怎么感知和调力,机器人就怎么学和复现”的一致性。实验显示其在受力敏感抓放、擦拭和基于触觉的选择性释放上表现更强,但更细的量化增益来源摘要中未充分说明。

LIDEA: Human-to-Robot Imitation Learning via Implicit Feature Distillation and Explicit Geometry Alignment figure
arXiv2026-04-12

LIDEA: Human-to-Robot Imitation Learning via Implicit Feature Distillation and Explicit Geometry Alignment

模仿学习

模仿学习泛化跨本体

这篇工作针对机器人示教稀缺、而人类视频难以直接迁移到机器人上的跨本体鸿沟,提出LIDEA:一方面经由“伪机器人”中间域做两阶段特征蒸馏,把人手与夹爪在2D观测中的语义交互对齐;另一方面在3D点云中滤除本体几何并填入虚拟夹爪,显式保留与操作相关的交互结构。实验表明,在固定下游策略架构下,人类数据最高可替代约80%的机器人示教,并提升新物体和视觉干扰场景下的OOD泛化。

AnySlot: Goal-Conditioned Vision-Language-Action Policies for Zero-Shot Slot-Level Placement figure
arXiv2026-04-12

AnySlot: Goal-Conditioned Vision-Language-Action Policies for Zero-Shot Slot-Level Placement

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作关注零样本槽位级放置:现有端到端VLA把语言推理与低层控制耦合在一起,模块化方法又常把目标压成单点坐标,难以同时保证语义选槽正确和亚厘米级执行精度。AnySlot的核心洞察是用“显式视觉目标”而非坐标连接推理与控制:先依据指令在场景中生成目标标记,再交给目标条件VLA完成精确放置。作者还提出含9类任务的SlotBench;文中结果显示,该方法在未见布局和指令上显著优于平坦VLA与既有模块化基线,平均成功率接近90%。

Vision-Language-Action Model, Robustness, Multi-modal Learning, Robot Manipulation figure
arXiv2026-04-11

Vision-Language-Action Model, Robustness, Multi-modal Learning, Robot Manipulation

VLA

VLA安全机器人学习操作

论文关注VLA在真实部署中同时遭遇视觉噪声、遮挡和指令污染时任务成功率明显下降的问题,指出把干净样本与扰动样本混训会让任务保真与鲁棒不变性产生梯度冲突。为此提出两阶段微调框架STRONG-VLA:先按难度课程学习多模态扰动获取鲁棒性,再用干净数据回对齐执行策略,并建立含28类文本/视觉扰动的评测集。在LIBERO与AIRBOT实机上,该方法对OpenVLA、OpenVLA-OFT和pi0均稳定提升,最高分别达到已见/未见扰动下+12.60%/+7.77%、+14.48%/+13.81%和+16.49%/+5.58%。

Device-Conditioned Neural Architecture Search for Efficient Robotic Manipulation figure
arXiv2026-04-11

Device-Conditioned Neural Architecture Search for Efficient Robotic Manipulation

VLA

VLA机器人学习操作

面向大规模VLA/视觉运动策略在异构机器人硬件上部署时延高、显存重且往往需要逐设备重训的问题,本文提出DC-QFA:以单个设备条件化超网联合覆盖网络结构与混合精度比特宽度,用真实设备的时延/显存查表进行约束训练,并通过一次搜索直接为不同平台选子网;再引入多步 on-policy 蒸馏,缓解低比特闭环控制中的误差累积。实验表明,该方法在 DiffusionPolicy、MDT-V、OpenVLA-OFT 及真实机器人上可实现2–3倍加速,成功率几乎不降,4比特接触操作也较稳定。

ABot-Claw: A Foundation for Persistent, Cooperative, and Self-Evolving Robotic Agents figure
arXiv2026-04-11

ABot-Claw: A Foundation for Persistent, Cooperative, and Self-Evolving Robotic Agents

泛化

泛化操作

该工作针对机器人智能体在开放环境中“会推理但难持续落地执行”的问题,在 OpenClaw 上补齐具身控制层:以统一具身接口和能力调度协同异构机器人,用视觉中心的跨本体多模态记忆维持长期上下文,再用通用 critic 奖励模型做闭环评估、纠错与重规划。主要结果是完成了机械臂、人形和四足机器人在遮挡搜索、含糊指令操作、跨机器人改派等真实演示,但文中未充分说明统一量化基准,增益来源不清,可能部分来自系统集成与 scaling。

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies figure
arXiv2026-04-10

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

基础操作

基础操作基础模型操作数据集/Benchmark

这篇工作针对现有机器人操作基准中训练与评测场景重叠、成功率易饱和而难以检验真实泛化的问题,提出基于 IsaacLab 的高保真仿真评测框架 RoboLab。其核心是将训练域与评测域解耦:用仅在真实世界 DROID 数据上训练的策略,在仿真中通过人工或 LLM 快速生成与机器人/策略无关的场景与任务,并构建覆盖视觉、程序、关系三类能力、三档难度的 RoboLab-120。结果显示其与真实世界基准具有较强相关性,并能通过子任务、事件追踪和扰动敏感性分析揭示当前最强策略仍有明显性能与鲁棒性缺口。

2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness figure
arXiv2026-04-10

2D or 3D: Who Governs Salience in VLA Models? -- Tri-Stage Token Pruning Framework with Modality Salience Awareness

3D 表征

3D 表征VLA机器人学习

论文针对2D+3D VLA因模态扩展导致视觉token激增、难以满足实时控制的问题,指出现有面向2D VLA的裁剪方法忽略了2D/3D显著性差异。作者通过“预处理—语义融合—动作迭代”三阶段分析回答谁主导显著性:预处理阶段2D更关键,但在不同语义区域和连续动作迭代中,2D/3D贡献会动态变化;据此提出模态感知的三阶段token裁剪,在候选确定、语义分组和时间自适应调整上分别建模,最终以约5.8%额外开销实现最高2.55倍推理加速且精度损失很小。

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning figure
arXiv2026-04-09

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

视频规划

视频规划强化学习辅助任务VLA触觉世界模型感知机器人学习

论文关注真实机器人强化学习里价值函数缺乏“看见未来”能力的问题:基于静态图像的VLM价值模型难应对部分可观测和长时延反馈。ViVa将预训练视频生成器重用为价值模型,输入当前多视角观测与本体感觉,联合预测未来本体状态和当前标量价值,把价值估计建立在对交互时空动态的前瞻上。接入RECAP后,它在真实箱体装配中优于VLM价值基线,并在衬衫折叠、卷纸整理中给出更平滑、能识别失误与关键进展的价值信号,还表现出对新物体的泛化;但给定材料未充分说明具体量化增益幅度,判断基于公开摘要与节选。

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds figure
arXiv2026-04-09

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

数据需求量大

数据需求量大可变形物体数据采集数据生成操作数据集/Benchmark

这篇工作针对可变形物体操作中真实数据昂贵、传统 sim-to-real 又常因几何失真、软体动力学不稳和刚体式动作先验而失效的问题,提出物理对齐的 R2S2R 系统 SIM1:将真实场景扫描成度量一致的数字孪生,校准布料动力学,并用扩散模型生成与筛选轨迹来扩充数据。结果显示,仅用合成数据训练即可在真机上零样本迁移,成功率最高 90%,泛化较真实数据基线提升约 50%,且 15 条合成样本约等价于 1 条真实示范。

One Interface, Many Robots: Unified Real-Time Low-Level Motion Planning for Collaborative Arms figure
arXiv2026-04-09

One Interface, Many Robots: Unified Real-Time Low-Level Motion Planning for Collaborative Arms

基础操作

基础操作任务规划操作非学习控制

针对协作机械臂软硬件异构、现有规划器跨平台移植差且难以实时中断重规划的问题,本文在WOS中提出统一的低层运动规划接口:以带时间戳的笛卡尔航点为输入,经通用IK映射到关节空间,再用n阶多项式插值结合QP生成满足位置、速度、加速度连续的轨迹。实验在离线绘图、移动底盘上动态抓取和双臂遥操作三类任务中验证了其可用性,说明其价值主要在机制无关的接口抽象与实时执行,而非更强的全局规划能力。

LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation figure
arXiv2026-04-09

LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation

任务规划

任务规划多模态推理Affordance3D 表征操作

这篇工作针对开放世界操作中现有 LLM/VLM 表征偏语言化、缺少细粒度 3D 几何感知,难以在新任务和噪声场景下泛化的问题,提出 LAMP:先按指令对当前观测做图像编辑,再把编辑前后的变化提升为对象间连续 3D 变换,用于生成可执行操作。其关键洞察是,图像编辑隐含了物体应如何移动、旋转和接触的空间先验;为落地到机器人,文中又加入 2D-3D 分层点云过滤与统一尺度对齐。实验表明,该方法能更准确估计 3D 关系,并在多种真实操作任务上取得较强零样本泛化和鲁棒性。

HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation figure
arXiv2026-04-09

HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

人形操作

移动操作人形操作VLA跨本体操作

这篇工作针对现有 VLA 将四肢近似独立建模、导致人形机器人全身操作易失稳的问题,提出 HEX:用人形对齐的通用状态表示统一不同本体,再以基于形态的 MoE 本体感觉预测器建模全身耦合与时序动态,并用轻量历史 token 融合视觉语言上下文与未来状态。实机在 Tienkung 2.0/3.0 上较 ACT、GR00T 等基线取得更高成功率和泛化,优势主要体现在快反应与长时程任务;但各模块相对增益与数据规模贡献文中未充分说明。

Generative Simulation for Policy Learning in Physical Human-Robot Interaction figure
arXiv2026-04-09

Generative Simulation for Policy Learning in Physical Human-Robot Interaction

人机交互

多智能体/多机器人人机交互机器人学习

这篇工作针对物理人机交互训练数据稀缺、真实采集昂贵且接触任务存在安全风险的问题,提出零样本“text2sim2real”框架:借助LLM/VLM从高层文本自动生成软体人体、场景布局与机器人接触轨迹,批量收集合成示范,并训练基于分割点云的视觉模仿学习策略。作者在抓痒和擦洗两类辅助任务上实现了零样本仿真到真实迁移,用户研究成功率均超过80%,对非脚本人类运动也有一定鲁棒性;不过各生成模块与数据规模分别带来多少增益,文中未充分拆解。

BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields figure
arXiv2026-04-09

BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields

灵巧操作

灵巧操作任务规划Affordance3D 表征

这篇工作面向非结构化环境中的功能性灵巧抓取,认为现有端到端 VLA 过于黑箱且数据饥渴,模块化 affordance 方法又受限于预定义标签和 2.5D 定位。作者提出 BLaDA,把开放词汇指令解析为六元操作约束,再结合 3DGS 中的三角几何定位功能区域,并将语义约束转成可执行的腕部位姿与手指级控制,形成可解释的零样本链路。实验称其在复杂基准上的 affordance grounding 精度和功能操作成功率均优于现有方法,但具体提升幅度在给定材料中未充分说明。

TAMEn: Tactile-Aware Manipulation Engine for Closed-Loop Data Collection in Contact-Rich Tasks figure
arXiv2026-04-08

TAMEn: Tactile-Aware Manipulation Engine for Closed-Loop Data Collection in Contact-Rich Tasks

触觉

触觉数据采集接触丰富遥操作操作

这篇工作聚焦接触丰富双臂操作中“数据难采、演示难复现、失败恢复数据更缺”的问题,提出TAMEn:用可跨夹爪适配的可穿戴触视觉接口,结合MoCap高精度/VR便携双模采集、在线可行性检查,以及把大规模触觉预训练、任务演示和人类恢复数据组织成金字塔式闭环数据飞轮。实验表明,其可显著提升演示回放可执行性,并将多类双手任务平均成功率从34%提升到75%;但判断基于公开摘要,增益有多少来自模型设计、多少来自数据规模与闭环采集,文中未充分拆分说明。

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents figure
arXiv2026-04-08

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

任务规划

任务规划多模态推理基础模型

这篇工作瞄准通用VLM难以满足真实机器人对细粒度感知、时空理解与任务规划的需求,提出面向具身智能的HY-Embodied-0.5系列:用MoT与视觉latent token强化原生分辨率感知,再通过迭代式自演化后训练和大到小on-policy蒸馏提升推理与边端部署能力。在22个感知、空间与具身基准上,2B模型在16项同规模对比中领先,32B接近Gemini 3.0 Pro,并能支撑下游VLA取得真实机器人操作效果;但各模块相对增益文中未充分说明,可能也部分来自数据与scaling。

Flow Motion Policy: Manipulator Motion Planning with Flow Matching Models figure
arXiv2026-04-08

Flow Motion Policy: Manipulator Motion Planning with Flow Matching Models

任务规划

任务规划Flow Matching轨迹生成机器人学习操作

针对现有端到端开环机械臂规划器多为确定性、同一场景往往只输出单一路径,难以做推理时优化的问题,本文将 flow matching 引入点云条件轨迹策略,显式建模可行路径分布,并以 best-of-N 在生成后并行做碰撞判定、执行首条无碰解。实验称其相较采样式与神经规划基线在成功率和效率上更优,且优于同架构下的 GMM/扩散头;但具体增益幅度与来源,判断基于公开摘要,文中片段未充分说明。

EgoVerse: An Egocentric Human Dataset for Robot Learning from Around the World figure
arXiv2026-04-08

EgoVerse: An Egocentric Human Dataset for Robot Learning from Around the World

视频规划

视频规划机器人学习操作数据集/Benchmark

针对机器人示教数据昂贵且难扩展、现有人类第一视角数据又分散静态的问题,EgoVerse提出一个可持续增长的人类数据驱动机器人学习平台:将学术界标准化采集的 EgoVerse-A、产业侧野外数据 EgoVerse-I 与 EgoDB 管理系统统一起来,当前汇集1362小时、8万段演示,并提供视频、3D手/头位姿和子任务描述。跨实验室、跨机器人复现实验表明,人类数据与机器人数据联合训练通常能提升操作策略,但随数据规模获得稳定增益的关键前提是人机任务语义与场景对齐;此外,示范者多样性更利于跨人泛化,场景多样性更利于新环境泛化。

BiDexGrasp: Coordinated Bimanual Dexterous Grasps across Object Geometries and Sizes figure
arXiv2026-04-08

BiDexGrasp: Coordinated Bimanual Dexterous Grasps across Object Geometries and Sizes

抓取

抓取灵巧操作双臂操作

面向现有双手灵巧抓取数据不足、对不同几何与尺寸物体泛化差的问题,BiDexGrasp同时做了数据与模型:用“区域约束初始化+解耦力闭合优化”的两阶段合成流程,降低双手高维搜索难度并提升物理可行性;再以双手协同模块和几何-尺寸自适应策略生成未见物体抓取。论文构建了覆盖6351个30–80cm物体、约970万抓取的大规模数据集,数据合成成功率较既有流程提升2.8倍以上、速度快30倍,并在仿真与真实机器人上表现更好,但增益有多少来自模型、多少来自数据规模,文中未充分说明。

Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming figure
arXiv2026-04-07

Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming

VLA

VLA安全机器人学习

这篇论文关注VLA在真实人机交互中对同义改写、附加约束和无关上下文的语言脆弱性,指出现有基于RL的红队因只追求高回报而易模式坍塌,只会反复找到少数失败指令。作者提出DAERT,将攻击指令生成建模为兼顾执行失败率与语义多样性的强化学习过程,在黑盒仿真中自动挖掘更广泛的失效模式。实验表明,它在LIBERO、CALVIN和SimplerEnv上都比基线更强,可将平均任务成功率从93.33%压到5.85%,跨模型迁移攻击也提升约59.7%。

Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation figure
arXiv2026-04-07

Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation

机器人学习

机器人学习操作

该文针对模仿学习式视觉运动策略在分布外偏移、执行失误和动态障碍下难以恢复的问题,提出闭环 ReV:将人或高层规划器给出的稀疏 3D 指向点注入双扩散头策略,由全局头预测带时间位置的稀疏动作锚点,局部头再细化为平滑轨迹,并通过对专家演示施加定向扰动完成训练。实验表明其在仿真与真实操作中的纠错、避障和在线重规划成功率优于现有方法,且不需额外纠错数据或后处理微调;判断基于公开摘要与片段,具体提升幅度未充分说明。

HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning figure
arXiv2026-04-07

HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning

VLA

VLA机器人学习

这篇工作针对模仿学习中固定频率动作分块的核心矛盾:低频有利于建模长时规划,但难做精细闭环控制;高频则相反。HiPolicy提出分层多频率动作分块,同时预测粗粒度阶段动作和高频细节修正,并用动作熵自适应决定执行频率,以兼顾长程依赖、反应式控制和执行速度。实验显示它可无缝接入现有2D/3D生成式策略,在仿真与真实操作中持续提升性能和效率,但提供片段未充分说明各基线上的具体增益幅度。

Action Images: End-to-End Policy Learning via Multiview Video Generation figure
arXiv2026-04-07

Action Images: End-to-End Policy Learning via Multiview Video Generation

视频规划

视频规划辅助任务VLA世界模型感知机器人学习

论文针对机器人世界模型里“会生成未来视频却不一定会做决策”的落差,认为症结在动作表征:低维动作 token 或独立策略头难以真正复用视频骨干的视觉先验。作者把 7-DoF 控制转成多视角、像素对齐的动作图像/视频,用统一视频生成骨干同时建模观测与动作,从而直接做零样本控制,并兼容动作标注与动作条件视频预测。在 RLBench 和真实机器人上,其零样本成功率和视频-动作联合生成质量优于已有视频世界模型,但具体增益幅度在给定片段中未充分说明。

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model figure
arXiv2026-04-07

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

VLA

VLA机器人学习

这篇工作针对VLA在机器人部署中常被大模型骨干和多步 flow/diffusion 动作头拖慢、难以低成本实时控制的问题,提出开源 A1。其关键洞察是中间层已足够生成稳定动作、去噪轨迹往往很早收敛,因此用跨层动作一致性触发早退,并以层间截断 Flow Matching 复用上一层去噪结果,联合压缩骨干与动作头计算。结果是在基本保持操控成功率的同时,将 flow 推理单回合时延最高降 72%、骨干计算降 76.6%,RoboChallenge 平均成功率达 29.0%,超过 π0 等基线。

Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation? figure
arXiv2026-04-06

Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

视频规划

视频规划辅助任务VLA泛化世界模型感知机器人学习操作

论文关注一个现实问题:相比需大量机器人数据且常损伤预训练泛化的VLA,前沿视频模型究竟能把通用操作推进多远。作者发现,Veo-3配合仅用random-play训练的IDM虽难胜任接触密集的低层控制,但能稳定给出语义正确的任务级视觉轨迹;据此提出分层式Veo-Act,让Veo-3做高层视频规划、VLA负责低层执行,并用多头IDM预测动作与交互切换信号,在仿真和真实灵巧手上将π0.5平均成功率由45%提到80%。

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing figure
arXiv2026-04-06

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

VLA

VLA语言条件机器人学习

论文针对VLA研究在架构、代码库和评测协议上彼此割裂、难以公平复现与比较的问题,提出积木式StarVLA框架:以可插拔的backbone-action head抽象统一VLM与world model两路方法,并复用跨embodiment训练、多模态共训和多基准评测接口。其核心洞察是,不同VLA范式可放入同一结构中,差异主要体现在动作头与辅助学习信号。结果上,配合简化训练recipe,系统在LIBERO等多个基准上达到或超过已有方法,但具体增益来源文中未充分说明,判断基于公开摘要/项目页。

RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains figure
arXiv2026-04-06

RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains

VLA

VLA机器人学习操作

针对现有机器人操作评测依赖少数专家编写固定基准、难以表达用户自定义约束与成功标准的问题,RoboPlayground将评测重构为结构化物理域中的自然语言任务编写:把指令编译为可复现的资产、初始化和成功判定,并形成可系统变化的任务族。在积木操作域实验中,该接口比编程或代码辅助更易用、认知负担更低,还暴露出固定基准下不明显的策略泛化脆弱性;同时评测空间的扩展更依赖贡献者多样性而非任务数量。

E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes figure
arXiv2026-04-06

E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

VLA

VLA数据增强机器人学习

这项工作针对VLA在极低照、长曝光模糊和黑场裁剪下感知失效的问题,引入事件相机增强VLA:不先做事件重建,而是直接把事件流中的运动与结构线索以可兼容预训练骨干的方式接入,包括参数无关的overlay融合和轻量event adapter,并配套采集同步RGB-事件-动作数据。结果显示,在20 lux的Pick-Place上成功率由纯图像的0%升至60%,用adapter可到90%;在1000ms强模糊下,Pick-Place由0%升至20-25%,Sorting由5%升至32.5%,且正常光照下性能基本保持。

VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models figure
arXiv2026-04-05

VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models

VLA

VLA安全基础模型

这篇工作关注VLA机器人在部署后如何“删除”不安全、伪相关或隐私敏感行为,因为错误知识往往分散在视觉编码、跨模态对齐和动作生成层,单独改视觉或语言模块都不够。VLA-Forget据此提出分组件混合遗忘:对视觉/投影层做比率感知选择性编辑,对高层动作Transformer做分层选择更新,在定向遗忘、感知保持和推理保留三目标间折中。实验称其相对强基线将遗忘效果提升10%、感知特异性提升22%、推理与任务成功率提升9%,并把量化后的遗忘恢复降低55%。

Learning Dexterous Grasping from Sparse Taxonomy Guidance figure
arXiv2026-04-05

Learning Dexterous Grasping from Sparse Taxonomy Guidance

抓取

抓取灵巧操作操作综述

论文针对灵巧抓取中“仅靠任务奖励学到的策略难以干预、而为每个物体和任务标注稠密抓取位姿又不现实”的矛盾,提出两阶段框架 GRIT:先根据场景与任务预测抓取分类及腕部朝向,再由分类条件策略生成连续手指控制。其核心洞察是不同抓取分类对不同物体几何更有效,利用这种对应关系可提升新物体泛化。实验显示总体成功率达 87.9%,且真实机器人上能通过高层分类切换来调整抓取策略。

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models figure
CVPR 20262026-04-05

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

VLA

VLA机器人学习

论文关注VLA在推理时固定 action chunk 长度难以兼顾反应性与时序连续性的问题:块太长会错过新信息,太短又易在块间跳模、动作发抖。作者提出AAC,在每步用预测动作熵衡量不确定性,并结合平均熵变化拐点与最小动作幅值约束,自适应决定执行多长的动作序列;高熵时短执行、频繁重规划,低熵时长执行、提升一致性与效率。该方法无需额外训练或改模型,在多种仿真和真实机器人操作任务上均优于固定 chunk 和多种测试时策略。

From Video to Control: A Survey of Learning Manipulation Interfaces from Temporal Visual Data figure
arXiv2026-04-04

From Video to Control: A Survey of Learning Manipulation Interfaces from Temporal Visual Data

视频规划

视频规划感知操作综述

这篇综述的出发点是:互联网上大量无动作标注视频包含物体运动与接触演化信息,但与机器人动作、视角和本体存在鸿沟,难以直接转成可靠操作控制。作者的核心贡献是提出“以接口为中心”的分类框架,将方法分为直接视频-动作、潜在动作和显式视觉接口三类,并比较它们如何闭环控制、执行前可验证性及失效入口。主要结论是当前最关键的瓶颈不在视频预测本身,而在把视频先验稳健落到机器人行为的集成层;作为综述,文中未给出统一性能增益结论。

Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control figure
arXiv2026-04-04

Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control

机器人学习

机器人学习

论文针对扩散/流式生成策略虽能建模多峰动作、却因每步控制要做数十到数百次去噪而难以用于高频闭环与在线RL的问题,提出DBP/DBPO:用drifting固定点目标把迭代修正前移到训练期,得到原生1-NFE策略;再加一个可精确算似然的随机接口做on-policy更新而不破坏单步部署。实验中,DBP在Diffusion Policy基准上把平均分从0.79提到0.83、推理快100倍,在37个点云任务上达88.4%,双臂实机以105.2Hz运行并有75%成功率。

CRAFT: Video Diffusion for Bimanual Robot Data Generation figure
arXiv2026-04-04

CRAFT: Video Diffusion for Bimanual Robot Data Generation

数据需求量大

数据需求量大视频规划Diffusion Policy数据采集数据生成双臂

双臂模仿学习受限于真实示教昂贵且视觉变化少,导致策略对视角、物体配置和不同机械臂形态的泛化较差。CRAFT的核心做法是先用数字孪生在仿真中生成轨迹,再提取Canny边缘作为结构控制,驱动预训练视频扩散模型把仿真视频转成带动作标签的逼真示教,从而统一支持视角、光照、背景、物体位姿/颜色、多视角和跨机体增强。论文在3个仿真与3个真实双臂任务上均优于现有增强方法和直接堆数据基线,表明增益不只是简单data scaling,而来自更丰富且时序一致的训练分布。

Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model figure
arXiv2026-04-03

Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model

3D 表征

3D 表征视频规划辅助任务VLADiffusion Policy世界模型感知机器人学习

这篇论文的动机是,现有操控策略多依赖2D观测和静态图文预训练,既缺少对3D几何的建模,也难以显式预测环境随动作的演化,因此在少样本下数据效率和泛化都受限。作者提出MV-VDP,把点云及末端状态/动作统一投影为多视角RGB与热力图视频,并用同一视频扩散模型联合预测未来视觉和动作热图,以对齐视频预训练与动作微调、缩小感知到控制的表示鸿沟。实验显示其在Meta-World和真实机器人上均优于视频预测、3D策略和VLA基线,仅10条示教且无额外预训练也能完成复杂任务,并具备较强鲁棒性和OOD泛化。

ARM: Advantage Reward Modeling for Long-Horizon Manipulation figure
arXiv2026-04-03

ARM: Advantage Reward Modeling for Long-Horizon Manipulation

任务规划

任务规划多模态推理强化学习操作

论文针对长时程机器人操作里稀疏奖励难做信用分配、手工密集进度奖励又难处理回退与纠错的问题,提出ARM:不再建模难定义的绝对进度,而用“前进/后退/停滞”三态标签学习轨迹片段的相对优势,并结合完成度头重建全局进度,再在离线RL中通过AW-BC按优势重加权动作样本,过滤次优数据并保留有价值的恢复行为。在高难度毛巾折叠任务上,其成功率达到99.4%,且训练期几乎无需人工干预。

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models figure
arXiv2026-04-02

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

3D 表征

3D 表征VLA安全机器人学习

这篇工作关注VLA机器人在真实可部署攻击下的安全性:相比依赖文本接口或视角敏感的2D补丁,附着在操纵物体表面的3D对抗纹理更隐蔽,也更符合物理场景。为解决MuJoCo等仿真器对物体外观不可微、且长时序攻击难稳定的问题,作者提出Tex3D,用前景-背景解耦在双渲染器间建立可微纹理优化路径,再用轨迹感知优化聚焦关键帧并以顶点颜色参数化提升跨视角与时序鲁棒性。仿真和真机四类任务上,Tex3D可将任务失败率最高推到96.7%,暴露出当前VLA在物理接地攻击面前的显著脆弱性。

F2F-AP: Flow-to-Future Asynchronous Policy for Real-time Dynamic Manipulation figure
arXiv2026-04-02

F2F-AP: Flow-to-Future Asynchronous Policy for Real-time Dynamic Manipulation

VLA

VLA机器人学习操作

这篇工作针对异步推理在动态操作中的核心瓶颈:系统延迟会让动作块与真实环境错位,尤其视觉输入已过时,机器人只能被动追赶移动目标。F2F-AP的关键做法是预测交互物体光流并合成未来观测,再用流对比学习把预测观测的特征对齐到真实未来状态,让策略按实际执行时刻提前规划。论文在固定机械臂和四足移动操作平台的多项动态任务上报告了更高成功率、更快执行和更好响应性,但摘要与首页片段未充分说明具体提升幅度。

CompassAD: Intent-Driven 3D Affordance Grounding in Functionally Competing Objects figure
arXiv2026-04-02

CompassAD: Intent-Driven 3D Affordance Grounding in Functionally Competing Objects

任务规划

任务规划多模态推理Affordance3D 表征

这篇工作关注机器人在拥挤场景中遇到“功能相同但用途不同”的物体混淆:同样可切割的刀和剪刀,必须依赖隐式任务意图而非类别名来选对目标。作者提出新的多物体 3D affordance grounding 设定与 CompassAD 基准,并在 CompassNet 中用实例边界约束的跨模态注入和几何组/点级双层对比学习,抑制跨物体语义泄漏、强化细粒度区分。在该基准上,相比现有方法 aIoU/SIM 分别提升 24.3% 和 28.4%,且能迁移到真实机械臂抓取。

Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior figure
CVPR 20262026-04-02

Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior

VLA

VLA泛化机器人学习

论文指出,机器人操作里同一状态往往存在一片“可行动作邻域”,但现有VLA微调仍按语言建模的一热目标训练,导致SFT易把概率压到单个示范动作、RFT则靠大量探索才学到鲁棒性。为此作者提出FAN先验正则,用高斯目标约束离散动作分布在优选方向和幅值附近保持局部平滑、单峰,且无需改动模型结构或自回归解码。实验表明,该方法在SFT与RFT、多种VLA骨干及ID/OOD任务上都提升了样本效率、成功率和泛化能力。

AnchorVLA: Anchored Diffusion for Efficient End-to-End Mobile Manipulation figure
arXiv2026-04-02

AnchorVLA: Anchored Diffusion for Efficient End-to-End Mobile Manipulation

移动操作

移动操作VLADiffusion Policy操作

该文针对移动操作中动作本身多模态、而扩散策略又因迭代去噪和 action chunking 带来高时延与执行漂移的问题,提出 AnchorVLA。其核心洞察是:若从接近可行解流形的示范轨迹锚点出发,只需截断式局部去噪,就能保留多解动作分布并显著降低推理成本;再结合测试时残差自校正,对每步动作做高频微调以抑制开放环漂移。作者在 ManiSkill-HAB 六个任务上取得 64.0% 平均成功率,较强 3D 基线高 8.4 个百分点、较 RGB 基线高 21.1 个百分点,长 chunk 下仍有 61.5%,并在真实四足移动操作上验证了稳定性。

Functional Force-Aware Retargeting from Virtual Human Demos to Soft Robot Policies figure
arXiv2026-04-01

Functional Force-Aware Retargeting from Virtual Human Demos to Soft Robot Policies

软体机器人

软体机器人Affordance触觉操作

这篇工作针对人手示范难以直接迁移到非拟人软体手的问题:软手欠驱动、强非线性且接触形态与人手差异大,单纯做关节或轨迹模仿往往失效。作者提出SoftAct,用VR采集带接触力的人类示范,并以两阶段力感知重定向先做按示范受力分配的手指匹配,再结合接触几何与力大小在线修正指尖目标。实验称其相较纯运动学和学习基线,指尖跟踪RMSE最高降55%、方差降69%,仿真与零样本真机成功率也更高,说明软手技能迁移的关键在于建模接触与受力,而非只学动作外形。

RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment figure
ICRA 20262026-03-31

RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment

任务规划

任务规划多模态推理Affordance数据增强数据检索

这篇工作针对机器人在少样本、跨类别场景下难以同时判断“该碰哪里”和“碰后怎么动”的问题,指出接触点与动作方向的不确定性不同:前者更适合靠单个高匹配参考做稠密对应迁移,后者则需汇聚多个检索样本做跨图像动作对齐。RAAP据此把检索与学习结合,用双重加权注意力整合多参考方向信息。实验表明,在DROID、HOI4D以及真实/仿真零样本操作中,它在未见物体和跨类别泛化上优于RAM、A0,且每个任务只需几十个样本。

HapCompass: A Rotational Haptic Device for Contact-Rich Robotic Teleoperation figure
ICRA 20262026-03-31

HapCompass: A Rotational Haptic Device for Contact-Rich Robotic Teleoperation

触觉

触觉数据采集接触丰富遥操作操作

面向插接等接触丰富遥操作,作者指出现有便携式接口难以传达力的方向,操作者往往只能依赖视觉,也会削弱示教数据中的接触意图。为此提出 HapCompass:通过旋转单个 LRA 并配合非对称振动,在可穿戴设备上输出二维方向触觉,避免多振子阵列的感知干扰。实验表明,它相较纯视觉和无方向振动可提高成功率、缩短完成时间并降低峰值接触力;对模仿学习的提升仅属初步结果,具体增益来源文中未充分说明。

Efficient Camera Pose Augmentation for View Generalization in Robotic Policy Learning figure
arXiv2026-03-31

Efficient Camera Pose Augmentation for View Generalization in Robotic Policy Learning

数据增强

数据增强泛化感知机器人学习操作

这篇工作针对机器人策略在新相机位姿下容易失效、而补采多视角示教成本高的问题,提出 GenSplat:先用前馈式3D Gaussian Splatting从稀疏、未标定观测重建场景,再用3D先验蒸馏稳住几何结构,生成受控的新视角训练数据。核心洞察是让策略在一致的3D几何上而非单一2D外观上学习动作映射。文中实机结果显示,相比只用人工采集数据,在中到大幅视角扰动下成功率明显提升,并且省去逐场景优化与额外采集成本。

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA figure
arXiv2026-03-31

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

VLA

VLALatent Learning世界模型机器人学习操作

这篇工作针对端到端VLA里“VLM只当特征编码器、低层动作监督又易破坏语义表征”的问题,提出DIAL:让System-2先在VLM原生特征空间预测未来潜在视觉前瞻,作为可微的“意图瓶颈”,再由轻量System-1把当前观测与该意图解码成动作,并用先解耦预热、后端到端联合优化来稳定训练。实验显示它在RoboCasa GR1 Tabletop上刷新SOTA,使用的示范数据量仅为以往方法的1/10,并在结合异构人类示范后于人形机器人上表现出对新物体和新配置的零样本泛化。

CLaD: Planning with Grounded Foresight via Cross-Modal Latent Dynamics figure
arXiv2026-03-31

CLaD: Planning with Grounded Foresight via Cross-Modal Latent Dynamics

任务规划

任务规划VLALatent Learning语言条件机器人学习

这篇工作针对机器人长程操作中“机械运动变了、场景语义也会随动作联动变化”这一耦合关系,指出现有方法要么生成图像/文本式子目标、代价高,要么只在单一潜空间规划,易出现语义与运动脱节。CLaD的关键洞察是对齐“跨模态转移”而非静态状态:用非对称交叉注意力让本体感觉转移去查询语义转移,并以EMA预测加重建约束学习可落地的潜在前瞻,再条件化扩散策略生成动作。在LIBERO-LONG上其以0.66B参数达到94.7%成功率,超过OpenVLA的93.8%和π0.5的93.2%。

StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation figure
arXiv2026-03-30

StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation

VLA

VLAFlow Matching机器人学习

该文关注VLA在真实部署中因观察、动作生成和执行严格串行而导致的高时延与明显停顿问题。作者提出StreamingVLA:用基于状态对齐的action flow matching替代action chunking,使动作可边生成边执行;再用动作显著性感知的自适应提前观察,按动作对后续观测的影响决定何时抢先感知。基于π0.5在LIBERO上,方法将单步时延从49.9ms降至31.6ms、停顿从230.8ms降至36.0ms,约2.4×加速且成功率94.9%,接近95.1%基线。

SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning figure
arXiv2026-03-30

SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning

任务规划

任务规划多模态推理视频规划强化学习触觉

论文针对把通用VLM直接当机器人RL奖励时,常因部分可观测和分布外场景被策略“刷分”而失效的问题,提出SOLE-R1:仅基于原始视频与语言目标,做逐时刻时空推理并输出任务进度,直接充当稠密奖励。其关键在于合成带时间对齐CoT与进度标签的大规模轨迹数据,并结合SFT+RLVR训练奖励模型。结果显示,它在4个仿真环境和真实机器人上从随机策略学会24个未见操作任务,明显优于GPT-5、Gemini-3等奖励器,且更抗reward hacking。

Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL figure
ICRA 20262026-03-30

Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL

强化学习

强化学习触觉机器人学习

这篇论文关注偏好强化学习里“高质量偏好标注太贵”这一瓶颈:纯人工或VLM预言机虽准但成本高,纯视觉语言嵌入又噪声大。作者提出ROVED,用轻量VLE先给轨迹片段生成偏好,只在高不确定样本上查询预言机,并用少量预言机反馈对VLE做参数高效、带动力学约束的持续适配。实验在Meta-World多个操作任务上显示,其性能基本达到或超过PEBBLE等方法,同时将预言机查询减少50%–80%,跨任务迁移后累计标注节省可达75%–90%。

ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation figure
arXiv2026-03-30

ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation

基础操作

基础操作基础模型操作数据集/Benchmark

这篇工作针对机器人评测过度依赖仿真、真实世界结果碎片化且难公平复现的问题,提出 ManipArena:一个面向推理型通用操作的标准化真实世界基准。其核心在于用单模型统一评测、20个任务与10812条专家轨迹、分层OOD设置、移动操作、低层传感诊断及3D扫描Real-to-Sim同步环境,把语义/空间推理与接触执行一起纳入评测。主要结果是建立了可复现的真实机评测协议并显示现有方法距离饱和仍远;具体性能领先数值文中未充分说明,判断基于公开摘要/项目页。

Learning Multi-View Spatial Reasoning from Cross-View Relations figure
arXiv2026-03-30

Learning Multi-View Spatial Reasoning from Cross-View Relations

任务规划

任务规划多模态推理

这篇工作针对现有VLM虽擅长单视角理解,却难以处理机器人所需的跨视角3D空间关系这一缺口,提出XVR数据集:从1.8万3D场景和7万机器人轨迹构造10万多视图问答,并以对应、验证、定位三类任务显式监督跨视角几何关系,核心洞察是把类似SfM的多视图几何先验转成VLM可学习的训练信号。实验显示,XVR微调后模型在多视图与机器人空间推理基准上显著提升,内部评测约1.8倍增益,作为VLA骨干时在RoboCasa上平均再带来13%的绝对成功率提升。

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models figure
arXiv2026-03-30

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

基础操作

基础操作VLA泛化安全操作数据集/Benchmark

论文关注VLA在少样本微调后容易记住训练指令表述、却难以理解等义改写的部署风险,提出LIBERO-Para基准与PRIDE指标,把操作动词和对象指称两条轴分开控制,构造43类改写以诊断语言泛化。实验显示,7种0.6B-7.5B模型遇到改写指令时成功率普遍下降22–52个百分点,其中对象词汇替换最致命,且80–96%的失败源于规划阶段轨迹偏离而非执行失误,说明模型更依赖表面词匹配而不是真正语义落地,也暴露出传统二值成功率难以反映不同改写难度。

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models figure
arXiv2026-03-30

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models

VLA

VLA感知机器人学习

本文针对自回归VLA在精细操作中“看不准”的问题,指出瓶颈不主要在视觉表征本身,而在视觉信息利用低效:结构捷径会绕开视觉细节,过多视觉token分散注意力,背景噪声也会干扰动作生成。为此提出FocusVLA,用级联模态注意力切断捷径,再用Focus Attention在patch筛选和通道抑噪两级聚焦任务相关区域。实验表明其在LIBERO和RoboTwin上取得SOTA,并显著加快收敛,LIBERO整体约提升到1.5倍训练速度,Spatial任务约5倍。

Feel Robot Feels: Tactile Feedback Array Glove for Dexterous Manipulation figure
arXiv2026-03-30

Feel Robot Feels: Tactile Feedback Array Glove for Dexterous Manipulation

灵巧操作

灵巧操作触觉数据采集遥操作操作

这篇工作针对灵巧遥操作中两大瓶颈:手-机映射不准,以及操作者几乎“看着做”而缺少真实触觉,导致接触丰富任务和示教数据质量受限。作者提出低成本手套TAG,用21自由度无接触磁编码实现抗漂移、亚角度级关节跟踪,并在每个指尖集成32点EEOP触觉阵列,通过几何空间映射和压力面积映射把机器人端接触形状与受力变化回传给人。实验显示其关节误差低于1°、可稳定感知接触几何与动态力,并提升接触型遥操作成功率和模仿学习数据可靠性。

Active Stereo-Camera Outperforms Multi-Sensor Setup in ACT Imitation Learning for Humanoid Manipulation figure
arXiv2026-03-30

Active Stereo-Camera Outperforms Multi-Sensor Setup in ACT Imitation Learning for Humanoid Manipulation

人形操作

人形操作模仿学习感知操作

论文关注人形机器人模仿学习中“该配哪些传感器”这一缺乏共识的问题,在 Unitree G1 上用统一消融框架对 14 种传感组合做对比,并通过对同一主数据集进行传感屏蔽,尽量排除示教差异带来的干扰。核心洞察是:在不超过 250 条示教的数据受限场景里,更多模态不一定更好,低信噪比触觉甚至会拖累 ACT;相反,最小化的主动双目相机配置在两项操作任务中分别达到 87.5% 和 94.4% 成功率,优于更复杂的多传感器方案。

ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation figure
arXiv2026-03-29

ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation

辅助任务

辅助任务VLADiffusion Policy机器人学习操作

这篇工作针对 VLA 在长程操作中缺少“任务进度”感知、常依赖手工终止规则的问题,提出 ProgressVLA:先在大规模机器人视频-文本数据上预训练进度估计器,再用逆动力学世界模型把候选动作映射到未来视觉潜变量,并把进度梯度作为 diffusion 采样引导,让动作生成显式朝更快完成目标的方向更新。实验表明其在 CALVIN、LIBERO 和真实机器人上提升了成功率与泛化,进度预测残差可降至 0.07;但相对各强基线的完整增益幅度,判断基于公开摘要/首页片段。

VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation figure
arXiv2026-03-27

VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation

VLA

VLA机器人学习

这篇工作针对VLA后训练的两难:离线SFT收敛快但容易因分布偏移导致灾难性遗忘,在线RL虽更鲁棒却受稀疏奖励和低样本效率限制。作者提出VLA-OPD,让教师在学生自采样轨迹上提供token级密集监督,并以Reverse-KL替代常见Forward-KL/硬交叉熵,避免熵爆炸或过早塌缩,在纠错的同时保留动作多样性与预训练能力。LIBERO和RoboTwin2.0上其样本效率优于RL、鲁棒性和成功率优于SFT,但摘要未充分说明具体提升幅度。

UMI-Underwater: Learning Underwater Manipulation without Underwater Teleoperation figure
arXiv2026-03-27

UMI-Underwater: Learning Underwater Manipulation without Underwater Teleoperation

水下操作

水下操作数据采集遥操作操作

本文针对水下抓取中视觉退化严重、且水下遥操作示教昂贵两大瓶颈,关键洞察是用深度可供性把“目标定位”与“动作控制”解耦:先以启发式控制和自动成功判别自监督采集水下成功轨迹,再将陆地手持示教学到的深度可供性热图零样本迁移到水下,并训练可供性/深度条件扩散策略。池实验显示,该方法相较RGB基线在常规抓取、背景与光照变化下更稳健,还能泛化到仅在陆地数据见过的新物体。

Ruka-v2: Tendon Driven Open-Source Dexterous Hand with Wrist and Abduction for Robot Learning figure
arXiv2026-03-27

Ruka-v2: Tendon Driven Open-Source Dexterous Hand with Wrist and Abduction for Robot Learning

灵巧操作

灵巧操作机器人学习操作

本文针对机器人学习中低成本、可复现且具有人手级操作能力硬件稀缺的问题,提出开源腱驱灵巧手 Ruka-v2。其关键改进不是单纯加自由度,而是补上对真实操作最关键的解耦并联 2 自由度腕部与手指外展/内收,并用可拆磁编码器提升腱驱关节标定与控制可用性。相较前代 Ruka,Ruka-v2 在遥操作任务中完成时间降低 51.3%、成功率提升 21.2%,并展示了 13 项单/双手任务与 3 项自主策略学习任务的适用性。

Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate figure
arXiv2026-03-27

Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate

VLA

VLA机器人学习

论文关注VLA落地时“推理够快但机器人未必跑得快”的问题,指出真正瓶颈在相机/本体时延、控制滞后、轨迹不平滑,以及示教过慢带来的训推失配。作者据此把时延标定、异步控制与速度规划、轨迹整形,以及基于经验数据的人机调速学习整合成系统方案,使机器人在折衣、插装、搭扣等任务上把75–99秒示教缩短到19–43秒,接近日常人工操作速度并逼近轻量机械臂硬件上限。

Partial Motion Imitation for Learning Cart Pushing with Legged Manipulators figure
arXiv2026-03-27

Partial Motion Imitation for Learning Cart Pushing with Legged Manipulators

四足操作

四足操作模仿学习操作

本文针对四足机械臂推车时“既要走得稳又要推得准”难以同时学到的问题,提出两阶段部分模仿学习:先在强域与地形随机化下学到鲁棒行走策略,再用部分AMP只模仿下肢运动,让上肢自由适应推车。其关键洞察是全身模仿会束缚操作,而不模仿又易在行走与施力的联合探索中失稳。实验显示该方法在IsaacLab中可沿多种轨迹稳定推车,并能迁移到MuJoCo,稳定性和跟踪精度优于无模仿、全身模仿和分层RL;但文中默认购物车位姿估计可靠。

DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching figure
arXiv2026-03-27

DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching

VLA

VLAFlow Matching语言条件机器人学习操作

本文针对离散动作VLA中“早期动作 token 一旦生成便难以纠错”的问题,提出DFM-VLA:用离散 flow matching 建模 token 级概率速度场,对整段动作进行反复联合修正,并配合速度头/动作嵌入两种速度场构造和“迭代细化+确定性验证”的两阶段解码。实验显示其在 CALVIN 上平均成功长度达4.44、在 LIBERO 上平均成功率达95.7%,整体优于自回归、离散扩散和连续扩散基线,同时保持较高推理效率。

Adapt as You Say: Online Interactive Bimanual Skill Adaptation via Human Language Feedback figure
arXiv2026-03-27

Adapt as You Say: Online Interactive Bimanual Skill Adaptation via Human Language Feedback

模仿学习

模仿学习双臂机器人学习

这篇工作关注双臂机器人在部署后遇到物体变化、环境干扰和用户偏好时,离线学到的技能难以靠模仿学习直接在线改写的问题。作者提出 BiSAIL,将“理解该改什么”和“动作该怎么改”解耦:先用具身链式推理从多模态观测与口头反馈中抽象适应目标,再用扩散式运动调制与闭环反思生成保持双臂协同的修正动作。真实机器人在6个任务、2个双臂平台上取得约0.76-0.77的平均成功率,整体优于非自适应、轨迹调制和语言端到端基线,并表现出较好的跨平台泛化。

π, But Make It Fly: Physics-Guided Transfer of VLA Models to Aerial Manipulation figure
arXiv2026-03-26

π, But Make It Fly: Physics-Guided Transfer of VLA Models to Aerial Manipulation

空中操作

空中操作VLA操作

这篇工作想回答一个关键问题:在固定机械臂上预训练的VLA能否迁移到动力学完全不同的空中操作平台。作者发现视觉表征有迁移性,但飞行控制与载荷变化带来的“动力学鸿沟”不会靠微调自然消失,因此提出在推理时注入载荷约束的Payload-Aware Guidance,并用3D Gaussian Splatting合成导航数据补足数据稀缺。在460次真实实验中,导航成功率由81%升至100%,抓取放置由23%升至50%,长时程组合任务达到62%。

VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents figure
arXiv2026-03-26

VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents

任务规划

任务规划视频规划

这篇工作针对机器人多相机演示中,逐视角独立做视频到视频迁移会造成跨视角外观不一致、而标准跨视角注意力又难扩展的问题,提出首个多模态多视角V2V框架 VideoWeaver。其关键洞察是不用在2D图像上硬对齐,而是借助 Pi3 预测的4D点云坐标把所有视角锚定到共享潜空间,并用异步扩散时间步训练联合/条件分布,从而支持自回归补全新视角。实验表明,它在单视角基准上与现有方法相当或更优,并首次在自视角和异构相机设置下实现了物理与风格一致的多视角翻译。

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition figure
arXiv2026-03-26

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

数据需求量大

数据需求量大数据采集数据生成泛化操作

这篇论文针对通用机器人操作中“真实示范分布窄、但高维因素覆盖又极其昂贵”的数据瓶颈,提出 F-ACIL。其核心不是改模型结构,而是把操作数据按物体、动作、环境三类因素分解,再用按因素采集与迭代训练,在稀疏组合上学习可组合泛化,避免高维空间做低效的均匀铺满。真实抓放和开关任务中,相比不使用该策略的基线,成功率提升超过45%,且所需示范减少5–10倍。

ThermoAct:Thermal-Aware Vision-Language-Action Models for Robotic Perception and Decision-Making figure
arXiv2026-03-26

ThermoAct:Thermal-Aware Vision-Language-Action Models for Robotic Perception and Decision-Making

VLA

VLA感知机器人学习操作

这项工作针对现有VLA只看RGB、难以理解“最冷/最热/危险”等温度属性的问题,提出ThermoAct:把热成像接入分层式VLM+VLA框架,由VLM先结合语言与热/视觉信息做高层规划和子任务拆解,再由VLA执行,从而在热数据稀缺时避免直接端到端学习复杂推理。真实机器人实验表明,它能完成温度感知选择与安全规避,并较纯视觉方案提升成功率和安全性;但摘要未给出充分的量化细节,具体增益来源仍不够清楚。

System Design for Maintaining Internal State Consistency in Long-Horizon Robotic Tabletop Games figure
arXiv2026-03-26

System Design for Maintaining Internal State Consistency in Long-Horizon Robotic Tabletop Games

操作

操作应用

论文关注麻将这类长时程桌游中“微小误差累积后击穿任务状态”的系统性问题。作者的关键做法不是单点提模组精度,而是显式维护感知、执行、交互三类内部状态,把低频VLM策略与规则理解同实时感知控制解耦,并用触觉校验与恢复延后状态提交、监测越轮与偷看等事件。实机在122局中有89.3%可全程无人工干预完成,抓取经恢复后成功率达99.8%;对比结果表明,单体或未校验流水线会明显降低端到端可靠性。

SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation figure
ICRA 20262026-03-26

SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation

数据需求量大

数据需求量大可变形物体数据采集数据生成机器人学习操作

这篇工作针对可变形物体操作数据昂贵且难扩展、现有合成数据方法又依赖刚体参考系的问题,提出 SoftMimicGen:从少量人类遥操作示范出发,用非刚性配准替代静态物体坐标系,将轨迹自适应迁移到新绳索、毛巾、纸巾等场景并自动扩充数据。文中在多任务、多机体上训练出较强策略,并报告了多种真实任务的零样本 sim2real,结合少量真机数据协同训练后进一步提升;但从给定材料看,增益有多少来自方法本身、多少来自 scaling / data,仍不完全清楚。

SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models figure
arXiv2026-03-26

SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

VLA

VLA安全机器人学习

面向VLA机器人中“轻微指令改写就可能触发真实执行偏差”的安全问题,本文提出黑盒红队框架SABER:把攻击建模为受编辑预算约束的行为优化,用经GRPO训练的ReAct代理按FIND→APPLY两阶段,组合字符、词元和提示级微扰,自动生成更隐蔽的对抗指令。其关键洞察是,无需梯度或重写整句,少量看似合理的文本编辑就足以稳定诱发任务失败、动作冗长和约束违背。在LIBERO上针对6个VLA模型,任务成功率平均下降20.6%,动作序列长度增加55%,约束违规增加33%,且比GPT基线少21.1%工具调用和54.7%字符编辑。

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation figure
arXiv2026-03-26

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

VLA

VLADiffusion Policy语言条件机器人学习

这篇工作针对现有VLA常见的层级结构复杂、自回归动作在长时程上易误差累积、且往往要靠额外世界模型刻画环境动态的问题,提出原生预训练的扩散式VLA:将语言、图像和连续控制统一离散到同一 token 空间,通过掩码去噪并行生成未来目标观测与动作块,以迭代、无序的全局细化提升时序一致性,并让动作受预测视觉结果约束。实验中其在 LIBERO 上达到 98.0% 平均成功率,在 CALVIN 上达到 4.78 平均完成长度;但各模块收益与 scaling/data 的相对贡献,文中未充分说明。

LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior figure
arXiv2026-03-26

LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior

3D 表征

3D 表征辅助任务VLALatent Learning感知机器人学习

该文针对现有 VLA 主要依赖 2D 语义特征直接回归动作、难以显式建模接触与深度关系、在陌生空间扰动下易失稳的问题,提出 LaMP:用 Motion Expert 预测一步部分去噪的 3D scene flow 作为潜在运动先验,并通过门控交叉注意力注入 Action Expert,在保留预训练 VLM 语义能力的同时补足 3D 动力学信息。实验显示其在 LIBERO、LIBERO-Plus、SimplerEnv-WidowX 及真实机器人上均优于对比方法,且在 LIBERO-Plus 的 OOD 扰动下平均再提升 9.7%。

LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation figure
RA-L 20262026-03-26

LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation

语言条件

语言条件对象中心感知机器人学习

这篇工作针对现有VLA依赖大量机器人示教、零样本泛化弱,且闭环流方法推理开销大、易累积误差的问题,把操作规划改写为“单张RGB图像+语言→对象中心2D光流→6DoF轨迹”的开环生成。LILAC的关键是在流生成中加入语义对齐损失和提示词条件跨模态适配器,减少模型只看图不听指令的失败模式。实验上其在多个基准上的光流质量优于已有方法,并在真实机器人自由指令操作中取得更高成功率,但摘要片段未给出具体提升幅度,判断主要基于公开摘要/项目页。

Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance figure
arXiv2026-03-26

Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

VLA

VLADiffusion Policy语言条件机器人学习

论文针对离散扩散VLA虽具多模态对齐优势、但推理频率远低于机器人实时控制需求的问题,发现其在双向注意力下仍隐含按块从左到右解码的倾向。据此提出Fast-dVLA,用块级扩散和块因果注意力实现KV cache复用,并结合非对称蒸馏与流水线并行解码,在保留跨块并行的同时提升吞吐。实验在CALVIN、LIBERO、SIMPLER及部分真机任务上取得2.8×到4.1×加速,成功率基本保持SOTA水平,接近实时部署。

Emergent Neural Automaton Policies: Learning Symbolic Structure from Visuomotor Trajectories figure
arXiv2026-03-26

Emergent Neural Automaton Policies: Learning Symbolic Structure from Visuomotor Trajectories

Vision-Action

Vision-Action机器人学习

这篇工作针对长时程机器人操作中端到端策略缺少结构化推理、传统神经符号方法又依赖人工符号先验的问题,提出 ENAP:先从视觉—动作演示中用自适应聚类与扩展 L* 算法自动抽取 Mealy 状态机,显式刻画任务阶段、分支和失败恢复,再据此训练残差式低层控制器输出连续动作。实验显示,它在复杂操作与长时程任务的低数据场景下相对现有 VLA 最高提升 27%,同时参数更少且可解释性更强。

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection figure
arXiv2026-03-26

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection

四足操作

四足操作操作

这篇工作针对传统轮式清垃圾机器人难以进入草地、坡地和路边植被等复杂场景的问题,搭建了一个“四足+机械臂+机载垃圾箱”的自主拾荒平台。核心思路不是端到端学全流程,而是把感知、抓取与运动分层解耦:用CNN找垃圾,用逆运动学优化底座姿态和手臂动作,用RL实现崎岖地形上的稳健行走,从而扩大可抓取工作空间。实地户外测试显示系统能在不平地面完成检测、接近、抓取、收纳与卸载流程,但文中定量对比和成功率等指标未充分说明,系统收益更像来自合理集成与场景化工程实现。

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models figure
arXiv2026-03-26

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

VLA

VLA机器人学习

论文关注VLA在机器人操作中因密集视觉 token 带来的推理延迟,并质疑“高注意力 token 更重要”这一常见前提:实验表明其作用强烈依赖任务与状态,甚至可能误导策略。作者提出 TIES,用跨层 token 排序一致性(Kendall τ)判断当前注意力是否可靠,再动态调整保留比例,并结合时序冗余仅在画面显著变化时更新剪枝参数。该方法无需额外训练,在 CogACT+SIMPLER 上以约 78% 的 token 压缩取得平均成功率 6% 的提升。

Toward Generalist Neural Motion Planners for Robotic Manipulators: Challenges and Opportunities figure
TASE 20262026-03-25

Toward Generalist Neural Motion Planners for Robotic Manipulators: Challenges and Opportunities

任务规划

任务规划泛化基础模型操作综述

这篇综述聚焦机械臂在拥挤、动态场景中为何仍受限于底层运动规划:经典方法在高维构型空间里采样、碰撞检测和优化代价高,现有通用操作策略也难直接覆盖这些细节。文中将神经运动规划系统化为端到端规划、引导采样、转向/优化热启动和碰撞检测等路径,核心洞察是学习方法更适合增强经典规划器而非完全替代,但其跨场景泛化受数据稀缺、工作空间到构型空间的不连续映射、安全约束和实时性共同限制。主要结论是现有方法虽能明显加速推理并处理多模态规划,却仍难稳健应对OOD与杂乱环境,因此作者给出了迈向“通用型”神经规划器的路线图。

TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models figure
arXiv2026-03-25

TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models

VLA

VLA对象中心机器人学习

论文关注VLA在杂乱场景中常见的“动作可行但抓错实例”问题,认为瓶颈不在运动生成,而在目标级视觉指向失稳。为此作者提出TAG,在推理时对比原始观测与“擦除目标”的反事实观测,用两者预测差作为类似CFG的残差信号,放大目标证据、抑制干扰物和外观偏置,且基本不改策略结构。基于LIBERO、LIBERO-Plus和VLABench的结果,TAG持续提升成功率,并明显减少near-miss和抓错物体。

SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation figure
arXiv2026-03-25

SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation

VLA

VLA数据增强泛化安全

这篇工作针对冻结VLA在OOD噪声、语义歧义和长程任务中易因“注意力漂移”失效、且缺少长期记忆与失败归因的问题,提出SOMA:用成功/失败双记忆检索、LLM归因编排和可插拔MCP工具干预,在不改参数下在线重写指令、修正视觉/语言输入,并离线整合经验。实验在pi0、pi0.5、SmolVLA及LIBERO-PRO/LIBERO-SOMA上平均绝对成功率提升56.6%,长程串联任务最高提升89.1%。

Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation figure
arXiv2026-03-25

Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation

泛化

泛化操作

论文聚焦机器人操作中的“感知别名”难题:决策时观测可能相同,但正确动作依赖更早的交互历史,因此语义压缩记忆和相似度检索常会丢失关键细节。Chameleon借鉴人类情景记忆,用几何对齐的多模态 token 写入可区分事件,再通过可微分分层记忆和 HoloHead 目标实现面向任务的召回,并用 rectified-flow 生成长时域动作轨迹。在 UR5e 的 Camo-Dataset 多类任务上,它相对 Diffusion Policy、ACT 等基线持续提升决策可靠性与长程任务成功率;摘要未给出具体增益幅度。

3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models figure
arXiv2026-03-25

3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models

3D 表征

3D 表征VLA机器人学习

论文针对 VLA 主要依赖 2D 预训练 MLLM、空间推理和深度感知不足的问题,系统比较了 9 种把 VGGT 几何特征接入 VLA 的方案,核心洞察是融合效果更取决于注入位置与语义/几何权衡,而非更复杂结构;据此提出可插拔的 3D-Mix,用语义条件门控按任务上下文自适应混合 2D 语义与 3D 几何,无需改动 MLLM 或动作专家。在 SIMPLER 和 LIBERO 上,它在 6 个 MLLM 系列、9 个变体中稳定增益,GR00T 风格模型在 OOD SIMPLER 平均提升 7.0%。

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs figure
arXiv2026-03-24

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

视频规划

视频规划触觉人机交互机器人学习

论文针对仅靠视频的动作/世界模型在遮挡、易碎和持续接触场景中难以感知力变化、导致控制不稳的问题,提出VTAM:在预训练视频Transformer上以轻量方式接入触觉,并联合预测未来视觉—触觉动态,再用“虚拟力”正则抑制训练时视觉主导的模态塌缩。实机薯片抓放、削皮和擦拭实验中,VTAM平均成功率约90%,其中薯片任务相对π0.5提升80%,而去掉该正则或仅做朴素触觉注入几乎失效。

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models figure
arXiv2026-03-24

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

VLA

VLA人机交互感知机器人学习

这篇工作针对VLA在长视觉上下文下推理开销高、且现有token裁剪常按语义显著性误删操控所需几何区域的问题,提出免训练的VLA-IAP,把视觉裁剪从“感知优先”转为“交互优先”:一方面用边缘/几何先验保留把手、透明边界等结构锚点,另一方面依据语义掩码与运动掩码的IoU动态切换保守到激进的裁剪强度。实验显示其在LIBERO上以97.8%成功率实现1.25×加速,并可在接近未裁剪基线性能下达到最高1.54×提速,且在多模型、仿真和真机上都表现出较稳定的泛化。

TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches figure
arXiv2026-03-24

TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches

VLA

VLA安全机器人学习

这篇工作关注一个被忽视的问题:CoT虽提升VLA的泛化与可解释性,却也可能暴露新的控制劫持入口。作者的关键洞察是,VLA的动作往往更受中间CoT支配,即使CoT与用户指令语义不一致也会跟着执行;据此提出TRAP,用桌面上的对抗补丁直接扰乱CoT,而非仅让策略失效,从而诱导“把苹果换成刀”这类定向行为。实验在3类VLA架构、3种CoT范式及纸质真实场景中均验证有效,但对长时程复杂任务的攻击效果文中未充分说明。

SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation figure
arXiv2026-03-24

SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation

移动操作

移动操作VLA操作

论文关注一个关键痛点:把标准VLA直接用于家庭移动操作时,面对需同时处理全局场景、局部几何和13维底盘-机械臂-夹爪联合控制的任务,纯模仿学习监督过弱,成功率有限。SG-VLA的核心做法是在共享视觉语言骨干上同时加入多视角RGB、深度和短时序输入,并共训练机器人全局位姿、关节状态、抓取可行性、目标相对位姿与分割等辅助解码器,以学习更强的空间锚定表征。在ManiSkill-HAB家居整理任务上,其平均成功率由直接模仿的60%提升到73%,在抓取、放置、开合操作上均有稳定增益。

PhotoAgent: A Robotic Photographer with Spatial and Aesthetic Understanding figure
ICRA 20262026-03-24

PhotoAgent: A Robotic Photographer with Spatial and Aesthetic Understanding

操作

操作应用

这篇工作针对机器人摄影中“语言审美意图难落到可执行相机位姿”的核心瓶颈,提出 PhotoAgent:先让多模态大模型把“戏剧感”等主观要求推理为可求解的几何约束,再用解析式逆视角求解得到初始机位,并借助 3DGS 内部世界模型做渲染反思与迭代微调,减少真实试拍。文中称其在仿真和真实场景的空间推理、审美质量与指令符合度上优于基线,但公开片段未充分说明具体数值增益来源。

Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models figure
arXiv2026-03-24

Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

灵巧操作

灵巧操作VLA泛化Sim2Real操作

这篇工作针对灵巧操作中“仿真数据便宜但VLA落地真实世界常失效”的问题,系统拆解了影响 Sim2Real 泛化的关键因素,并建立覆盖背景、光照、干扰物、物体与空间位置变化的真实评测协议。基于超1万次真实试验,文中发现空间特征随机化比单纯外观扰动更有效,逐帧随机化优于按回合随机化,更高视觉/物理保真度能提升迁移但存在收益递减,RL 微调与结构化随机化结合可进一步增强分布外鲁棒性。

Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation figure
arXiv2026-03-24

Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation

辅助任务

辅助任务VLA感知机器人学习操作

论文指出现有VLA在精细操作中常因“被动看全图”而难以聚焦任务关键区域。作者的核心做法是在训练阶段用预训练凝视预测器生成并时序聚合人类注视热图,再将其转成patch分布,用KL损失约束Transformer注意力,无需改模型结构,也不增加推理开销。实验中该方法在多项操作基准上提升4%–12%,如LIBERO-Spatial从85.9%升至95.5%,同时收敛更快、对光照和传感器噪声更稳,并带来更可解释的注意力可视化。

Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics for Robot Manipulation figure
CVPR 20262026-03-24

Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics for Robot Manipulation

泛化

泛化操作

这篇工作针对等变扩散操作策略推理慢、常依赖单一视觉模态、且直接结合快速采样会不稳定的问题,提出 E3Flow:用球谐表示构建严格 SO(3) 等变的 flow policy,并设计 FEM 融合点云与图像,把细粒度语义注入等变特征。核心洞察是用稳定的等变表征承接流匹配,从而同时保留旋转泛化与高效采样。在 8 个 MimicGen 任务和 4 个真机实验中,相比 SDP 平均成功率提升 3.12%,推理速度快 7 倍。

Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring figure
arXiv2026-03-24

Agile-VLA: Few-Shot Industrial Pose Rectification via Implicit Affordance Anchoring

Affordance

数据需求量大AffordanceVLA感知应用

这篇工作针对工业现场把 VLA 部署到 Jetson Orin Nano 一类边缘平台时,语义推理延迟高、而翻转等接触操作又需要高频闭环控制的矛盾,提出分层式 Agile-VLA。其关键洞察是把操作语义压缩进几何锚点:用功能面的质心锚点触发稳定抓取,用边缘锚点触发借助桌面支点的翻转,并用 10Hz 感知和 50Hz 控制异步解耦。结果上,系统在普通 6 自由度机械臂加平行夹爪上,仅靠 5-shot 示例就能完成多种不规则工件的位姿纠正;但相对开源基线的详细量化增益文中未充分说明。

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment figure
arXiv2026-03-24

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

任务规划

任务规划视频规划基础模型操作

论文聚焦视频世界模型在机器人操作中常出现穿模、无接触运动等物理违例,导致难以用于规划与仿真。ABot-PhysWorld以14B DiT为骨干,结合300万操作片段的数据筛选与物理感知标注,并用解耦判别器驱动的Diffusion-DPO后训练压制非物理行为,同时通过并行上下文块注入空间动作条件,实现跨机器人可控视频生成。在PBench和其提出的零样本EZSbench上,模型在物理合理性、轨迹一致性和动作对齐上超过Veo 3.1、Sora v2 Pro;但增益也可能部分来自大模型与大数据,文中对各因素边际贡献未充分说明。

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models figure
arXiv2026-03-23

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

辅助任务

辅助任务VLA感知机器人学习

这篇工作针对端到端VLA把指令理解、空间定位和低层控制压在一次前向中、因而常出现抓放不准和OOD泛化差的问题,提出双系统VP-VLA:高层规划器先拆解子任务并找出目标与放置位置,再把十字准星、框等提示直接叠加到RGB图像,配合视觉grounding辅助损失,引导低层控制器执行。结果上,它在Robocasa-GR1-Tabletop平均成功率较基线提升5%,在SimplerEnv绝对提升8.3%,真实杂乱场景下也优于QwenOFT和GR00T-N1.6等方法。

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos figure
CVPR 20262026-03-23

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

灵巧操作

灵巧操作视频规划VLA操作

UniDex针对灵巧手学习受限于真机示教昂贵、手型异构和高维控制难的问题,核心做法是将第一视角人类操作视频通过“人在环”重定向转成机器人可执行轨迹,并提出按功能对齐执行器的统一动作空间FAAS,使同一3D VLA能在多种手型间迁移。基于8种灵巧手、5万+轨迹预训练后,模型在5个真实工具使用任务上平均任务进度达81%,显著高于π0的38%,并展现出空间、物体和零样本跨手泛化能力。

DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models figure
arXiv2026-03-23

DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models

辅助任务

辅助任务VLA感知机器人学习

该工作针对现有VLA在复杂操作中难以同时兼顾高层任务规划与细粒度空间感知、且自回归CoT推理时延高并易误差累积的问题,提出DualCoT-VLA:以视觉CoT和语言CoT两路隐式推理分别蒸馏3D空间先验与逻辑计划,并用两组可学习查询token实现并行、单次前向的动作生成。结果上,模型在LIBERO、RoboCasa GR1和真实机器人实验中达到SOTA,但各子模块增益来源在给定材料中未充分说明。

Do World Action Models Generalize Better than VLAs? A Robustness Study figure
arXiv2026-03-23

Do World Action Models Generalize Better than VLAs? A Robustness Study

辅助任务

辅助任务VLA安全世界模型感知机器人学习

这篇工作针对一个关键争议:具备显式动态预测的世界动作模型(WAM)是否比 VLA 更能抗真实环境中的视觉与语言扰动。作者在 LIBERO-Plus 和 RoboTwin 2.0-Plus 上系统比较多类 VLA、WAM 与混合方法,发现 WAM 整体对噪声、光照和布局变化更稳健,LingBot-VA 与 Cosmos-Policy 分别达到 74.2% 和 82.2% 成功率;但强 VLA 如 π0.5 在大规模多样机器人数据和额外训练目标下可接近甚至追平,说明优势可能既来自世界模型时空先验,也明显受 scaling/data 影响,同时 WAM 推理延迟仍是落地瓶颈。

DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming figure
arXiv2026-03-23

DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

灵巧操作

灵巧操作接触丰富应用

作者把“打鼓”提出为检验灵巧操作的新基准,因为它同时要求鼓槌在手内稳定调节、连续击打带来的强接触处理,以及跨鼓切换与长时节奏保持。核心做法是分层双手策略:高层用参数化击鼓轨迹、运动规划和残差强化学习完成快速跨鼓转移,低层用显式建模手指—鼓槌与鼓槌—鼓面接触的奖励和课程学习,逼出以手指为主的控制。仿真中其F1较固定抓握基线在简单/困难曲目上提升1.87倍和1.22倍,实机零样本迁移可在双鼓设置上演奏训练曲及扩展版,F1达1.0。

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation figure
arXiv2026-03-23

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

任务规划

任务规划程序化规划操作数据集/Benchmark

这篇工作关注一个关键问题:现有机器人 Code-as-Policy 往往依赖人工设计的高层技能,因而难判断真正起作用的是模型能力还是脚手架。作者提出 CaP-X,包括覆盖 187 个任务的 CaP-Gym 与按抽象层级、交互轮次、感知方式系统评测 12 个模型的 CaP-Bench。核心洞察是:人工抽象越强,代码代理表现越好;去掉先验后性能明显下滑,但多轮交互、执行反馈、视觉差分、自动技能合成和集成推理等 test-time scaling 能显著补回差距。基于此得到免训练的 CaP-Agent0,在若干仿真和真实操作任务上接近人类可靠性;进一步的 CaP-RL 也提升了成功率,并表现出较小的 sim2real 落差。

BiPreManip: Learning Affordance-Based Bimanual Preparatory Manipulation through Anticipatory Collaboration figure
CVPR 20262026-03-23

BiPreManip: Learning Affordance-Based Bimanual Preparatory Manipulation through Anticipatory Collaboration

任务规划

多智能体/多机器人任务规划多模态推理Affordance双臂操作

这篇工作针对许多物体无法被单臂直接抓取或功能操作的问题,提出“协作式预备操作”任务:先由一只手改变物体位姿或可达性,再让另一只手完成目标动作。BiPreManip的关键洞察是先预测主臂未来交互的预期affordance图,再据此引导辅臂执行抓持、抬起、旋转或推移等准备动作,并尽量避开主臂接触区域。仿真、真实机器人及人机交接实验表明,其成功率与跨类别泛化均明显优于现有基线。

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models figure
arXiv2026-03-22

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

辅助任务

辅助任务VLA机器人学习

本文的出发点是:把MLLM做强“具身推理”并不一定能提升VLA,甚至会因语言推理与低层动作之间的模态鸿沟而掉点。RoboAlign的关键做法是先让模型通过零样本文本推理生成动作,再用基于动作精度奖励的RL(GRPO)在测试时推理轨迹上做对齐,把“会解释”转成“会动手”。在冻结MLLM骨干、仅接扩散动作头的设定下,它用不到1%的额外RL数据,相对SFT基线在LIBERO、CALVIN和真实环境分别提升17.5%、18.9%和106.6%,且具身推理评测也优于多种专用模型。

GAPG: Geometry Aware Push-Grasping Synergy for Goal-Oriented Manipulation in Clutter figure
ICRA 20262026-03-22

GAPG: Geometry Aware Push-Grasping Synergy for Goal-Oriented Manipulation in Clutter

抓取

抓取操作

这篇工作面向拥挤堆叠场景中单次抓取常失效、现有推抓方法又缺少3D几何感知的问题,提出GAPG:先将候选抓姿转成虚拟夹爪点云,与闭合区域内物体点云做几何匹配来评估抓取稳定性,再用该评估去指导推动作选择,预测哪些推动能把“不可抓”状态转成“可抓”状态。文中实验称其可从仿真直接迁移到真实场景,并对未见物体保持较好泛化,但给定材料未充分说明相对基线的具体提升幅度。

Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation figure
ICLR 20262026-03-22

Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation

3D 表征

3D 表征VLATransformer Policy机器人学习操作

该文针对现有 view transformer 只依赖固定静态视角,因而 3D 空间推理不足、目标被移动时难以及时改轨的问题,提出受人脑腹侧/背侧通路启发的双流策略:静态流用预训练 3D 基础模型提供的跨视角几何一致性约束增强空间表征,动态流把具位置感知预训练的第一视角凝视模型引入动作预测以捕捉在线调整线索。实验显示,其在 RLBench 18 个任务上平均成功率达 81.0%,高于 RVT-2 的 77.5%,并在 COLOSSEUM 与真实机器人任务中表现出更好的扰动鲁棒性和动态适应能力。

Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models figure
arXiv2026-03-21

Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

强化学习

强化学习辅助任务VLA触觉世界模型感知机器人学习

针对VLA在真实机器人上做强化学习交互昂贵且不安全的问题,论文提出VLA-MBPO:用统一多模态模型充当世界模型,同时预测多视角视觉动态与奖励;再以交错视角解码保证多相机一致性,并用按动作块展开的分支式rollout缓解稀疏奖励下的误差累积。实验与理论分析表明,该方法在仿真和真实任务中都提升了策略性能与样本效率,说明世界模型RL可成为VLA更实用的后训练路径。

StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models figure
arXiv2026-03-21

StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models

VLA

VLA安全机器人学习

这篇工作关注VLA在真实执行时容易被杂物和物理遮挡拖垮、而单纯微调又难覆盖新干扰的问题。作者提出无需再训练的StageCraft:先收集少量策略 rollout 视频及成败标签,再用VLM做上下文推理,判断初始场景里哪些物体应被预先挪走或整理。核心洞察是,不改策略参数而通过最小化环境干预来提升执行成功率,且干预强度应随底层策略鲁棒性自适应变化。实机三类任务上,Pi0.5和SmolVLA平均绝对提升约40%,仿真中更多示例也能继续带来增益。

RoboECC: Multi-Factor-Aware Edge-Cloud Collaborative Deployment for VLA Models figure
IJCNN 20262026-03-21

RoboECC: Multi-Factor-Aware Edge-Cloud Collaborative Deployment for VLA Models

VLA

VLA机器人学习

本文针对VLA在边缘端通常仅1–3Hz、难满足约30Hz实时控制,以及模型结构异构和带宽波动会让传统边云切分失效的问题,提出RoboECC:用模型—硬件协同感知策略自动寻找跨ViT/LLM/多类Action Model的较优切分点,并以带宽感知调整和参数共享池在线修正部署。实验显示其在Orin+A100上较纯边端提速3.16–3.28倍,在Thor+A100上提速2.10–2.23倍,额外开销仅2.55%–2.62%。

ViTac-Tracing: Visual-Tactile Imitation Learning of Deformable Object Tracing figure
ICRA 20262026-03-19

ViTac-Tracing: Visual-Tactile Imitation Learning of Deformable Object Tracing

可变形物体

可变形物体模仿学习触觉感知操作

这篇工作针对线缆、绳索、毛巾等可变形物体常处于缠绕或褶皱状态、难以直接执行后续操作的问题,尝试把1D与2D tracing 统一到一个视觉-触觉模仿学习策略中。其核心思路是同时建模局部接触稳定性与全局任务进度:前者用偏重触觉图像中心接触的损失减少滑脱,后者用 tracing task loss 约束何时推进或停止,并配套低成本触觉遥操作来提升示教质量。实验显示,该方法在多种对象上对已见类平均成功率80%,对未见类为65%。

V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors figure
arXiv2026-03-19

V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

数据需求量大

数据需求量大视频规划数据采集数据生成操作

这篇工作针对机器人操作训练受限于真实示教昂贵、现有仿真资产库封闭的问题,提出 V-Dreamer:把语言指令自动转成具备物理约束的开放词表3D场景,再利用视频生成模型提供动作先验,经 CoTracker3/VGGT 对齐与3D提升后转成可执行轨迹。系统还能支持照片条件的 real2sim2real 流程,生成速度约为每小时600条轨迹;在桌面操作与 Piper 真机实验中,对未见物体展现了零样本泛化和一定 sim-to-real 能力,但摘要未充分说明具体成功率,增益可能部分来自更大规模合成数据。

Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models figure
arXiv2026-03-19

Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

VLA

VLA机器人学习

面向VLA在新物体、场景和指令上泛化不稳、疑似“背演示轨迹”的问题,论文用稀疏自编码器分析VLA隐层残差流,并提出基于激活统计的特征“泛化—记忆化”判别方法。结果表明,多数特征对应具体训练片段的记忆,但也能挖出少量可解释、可跨任务迁移且可被显式干预的抓取/搬运等运动原语;在LIBERO中,对单个特征做steering能因果性改变机器人行为。作者还发现,小规模SFT会放大记忆化,而更大、更杂的数据和knowledge insulation更有利于形成一般特征。

Scaling Sim-to-Real Reinforcement Learning for Robot VLAs with Generative 3D Worlds figure
arXiv2026-03-19

Scaling Sim-to-Real Reinforcement Learning for Robot VLAs with Generative 3D Worlds

3D 表征

3D 表征强化学习VLA触觉Sim2Real机器人学习

作者指出,直接在真实世界做VLA强化学习虽能绕开sim2real,却会因场景与物体难以扩展而把通用模型微调成“场景专用策略”。为此,论文用语言驱动的场景设计器结合生成式3D世界,自动合成大量可交互数字孪生场景,在仿真中并行RL微调预训练模仿策略,并以PPOFlow将流匹配策略压成单步高斯策略。结果是在100个生成场景中仿真成功率由9.7%升至79.8%,真实机实验由21.7%升至75%,且任务完成速度分别提升1.25倍和1.13倍。

SOFTMAP: Sim2Real Soft Robot Forward Modeling via Topological Mesh Alignment and Physics Prior figure
arXiv2026-03-19

SOFTMAP: Sim2Real Soft Robot Forward Modeling via Topological Mesh Alignment and Physics Prior

软体机器人

软体机器人Sim2Real操作

针对软体手指从低维舵机指令到三维形状的前向建模易受迟滞、蠕变和制造差异影响、而纯仿真与纯实物学习各有缺陷的问题,SOFTMAP将仿真与真实点云用ARAP对齐到共享拓扑顶点空间,再以仿真预训练的轻量MLP配合少量真实数据学习逐顶点残差,并加入线性驱动校准实现30 FPS推理。实验显示其仿真/实机Chamfer距离为0.389 mm和3.786 mm,较仅仿真模型降误差33.4%,还能实现毫米级指尖轨迹跟踪,遥操作成功率提升36.5%。

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation figure
arXiv2026-03-19

OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation

触觉

触觉世界模型接触丰富机器人学习操作

面向擦拭、装配等接触丰富操作中视觉难以可靠感知受力、摩擦和接触状态变化的问题,论文先构建含2.1万余轨迹、86类任务的 OmniViTac 数据集,再提出 OmniVTA:用自监督触觉表征和双流视触世界模型预测短时接触演化,并以接触感知融合策略结合60Hz触觉反射控制做闭环修正。真实机器人在六类交互模式上整体优于已有方法,对未见物体、几何配置和扰动也更稳健,说明显式建模接触动态比把触觉仅当辅助观测更有效。

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models figure
ICLRW 20262026-03-19

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

VLA

VLA机器人学习

这篇论文针对VLA虽能端到端控机器人、但“到底在看什么、听不听指令”仍不清楚的问题,跨6个模型和39.4万余次rollout,用激活注入、稀疏自编码器与线性探针做机制分析。核心洞察是:动作主要由视觉通路驱动,语言是否起作用更多取决于场景是否存在多目标歧义,而非模型架构本身;在多通路模型中,expert通路更像编码运动程序,VLM通路更像编码目标语义。结果上,跨任务注入虽会把机械臂拉向源任务空间位置,却难以迁移出真正任务成功,且多数模型的SAE必须按token处理,均值池化会显著破坏动作保真度。

MemoAct: Atkinson-Shiffrin-Inspired Memory-Augmented Visuomotor Policy for Robotic Manipulation figure
arXiv2026-03-19

MemoAct: Atkinson-Shiffrin-Inspired Memory-Augmented Visuomotor Policy for Robotic Manipulation

VLA

VLA数据增强语言条件机器人学习操作

针对机器人在感知别名和长时依赖操作中,固定窗口或单一压缩记忆难以同时保留细粒度任务状态与远期历史的问题,MemoAct借鉴 Atkinson-Shiffrin 记忆理论,设计“感知记忆—无损短时记忆—压缩长时记忆”的分层策略,并用因果注意力压缩与相似性合并更新长时记忆。作者还提出 MemoryRTBench 专测状态跟踪和长程记忆;实验显示其在仿真、RMBench 和真实机器人上均优于 Markovian 与现有 history-aware 基线。

From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models figure
arXiv2026-03-19

From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models

VLA

VLA机器人学习

这篇论文的动机是指出VLA领域常用的参数量、FLOPs和解码吞吐等“推理效率”指标,并不能反映机器人真实部署时的系统效率。作者将评估重心转向具身效率,提出用任务完成时间、末端/关节路径长度、轨迹平滑度与动作能耗等指标,系统分析模型压缩、token稀疏化和动作序列压缩。结果显示,算得更省不等于跑得更好:如对π0做5%剪枝后完成时间反而增加13.6%、末端路径增加46.2%;π0与π0-FAST成功率相同,但后者jerk高34.5%;微调或in-context prompting也只带来有限且带权衡的改进。

FASTER: Rethinking Real-Time Flow VLAs figure
arXiv2026-03-19

FASTER: Rethinking Real-Time Flow VLAs

VLA

VLA机器人学习

论文聚焦现有异步 VLA 更重“不断顿”而轻“快反应”的问题,指出动作块策略的反应时间并非固定延迟,而由首动作时间(TTFA)与执行视野共同决定,且服从均匀分布;同时,流式 VLA 对整段动作采用恒定采样日程,会让近端动作被过度去噪、拖慢启动。FASTER 以面向时域的采样日程优先生成近端动作,并结合流式客户端-服务器与早停机制,把首个反应可压到一步采样,同时尽量保持长时域轨迹质量;真实机器人与乒乓任务结果显示,其在消费级 GPU 上也能显著降低有效反应时延并提升轨迹平滑与准确性。

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models figure
arXiv2026-03-19

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

强化学习

强化学习VLA触觉世界模型机器人学习

这篇论文针对大规模VLA用强化学习训练时常见的同步阻塞、GPU空转和环境采样慢的问题,提出AcceRL:将训练、推理与rollout物理解耦为全异步流水线,并首次把可插拔、可训练的世界模型接入分布式异步RL,用虚拟轨迹补足真实交互。结果上,它在LIBERO上达到SOTA,训练吞吐随GPU数呈超线性增长;带世界模型版本的在线样本效率据称提升约200倍,但这部分增益也可能来自预训练世界模型与scaling的共同作用。

VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning figure
ICRA 20262026-03-18

VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning

3D 表征

3D 表征Diffusion Policy机器人学习操作

这篇工作针对视觉模仿学习中“2D图像输入却预测3D操作”的表征错位问题,提出纯RGB策略 VolumeDP:先用体素—图像交叉注意力把多帧图像提升到三维体表征,再学习筛选任务相关体素并压缩为空间 token,最后用多 token 扩散解码器联合预测动作,避免把多处关键空间信息过早聚合成单一特征。实验上其在 LIBERO 上达到 88.8% 成功率,较最强基线提升 14.8%,在 ManiSkill、LIBERO-Plus 和真实机器人上也表现出更好的成功率与视角/布局泛化。

Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model figure
arXiv2026-03-18

Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model

VLA

VLA安全机器人学习

论文关注VLA在机器人操作中缺乏可靠自省的问题,指出将各时刻 token 熵简单取均值会落入“平均陷阱”,掩盖故障前短暂但关键的不确定性尖峰。为此,作者用最大滑窗保留瞬时风险,再结合基于动作抖动的稳定性重加权和 DoF 级贝叶斯优化校准,突出真正危险的时间段与关键运动轴。基于 LIBERO 的实验表明,该方法比均值熵更能区分成功与失败轨迹并提升故障预测;但给定材料未展示具体数值增益。

ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models figure
arXiv2026-03-18

ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models

VLA

VLAFlow Matching机器人学习

这篇工作针对带 Flow Matching 动作头的 VLA 在部署时被多步 ODE 求解拖慢、难以满足闭环控制时延的问题,提出无需再训练的 ProbeFlow。其核心洞察是动作流轨迹只在少数高曲率阶段需要密集积分,因此用一次前瞻探测比较当前与未来速度的余弦相似度,自适应分配求解步数并复用中间状态。结果上,MetaWorld 中动作解码步数由 50 降到 2.6、加速 14.8×,端到端时延降 2.8×,LIBERO 与实机上也基本保持成功率和执行稳定性。

KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition figure
arXiv2026-03-18

KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition

辅助任务

辅助任务VLA机器人学习

这篇工作针对现有VLA更擅长理解“做什么”、却难以执行“怎么做”的问题,尤其对朝向、轨迹、相对位移等语言中的细粒度运动约束不敏感。作者提出KineVLA,用双层动作离散化将任务目标与运动学实现解耦,并引入双层推理token作为受监督中间变量对齐语言与控制,同时构建覆盖仿真与真实机器人的运动学标注数据集。实验表明其在LIBERO和Realman-75上稳定优于强基线,生成更精确、可控且泛化更好的操作行为。

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness figure
arXiv2026-03-18

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

VLA

VLA机器人学习

这篇工作针对VLA控制推理慢、单一投机解码要么有草稿模型开销要么检索草稿质量差的问题,提出混合式HeiSD。其核心洞察是:机器人多步轨迹中,与历史样本重合的片段更适合检索式SD,偏离片段改用drafter式SD;并配合verify-skip、序列级宽松接受和基于运动学的融合指标自动确定切换边界。实验显示仿真最高加速2.45倍,真实场景达2.06–2.41倍,同时基本保持任务成功率。

GigaWorld-Policy: An Efficient Action-Centered World--Action Model figure
arXiv2026-03-18

GigaWorld-Policy: An Efficient Action-Centered World--Action Model

辅助任务

辅助任务VLA世界模型感知机器人学习

论文针对现有世界-动作模型推理时常需联合生成未来视频、导致延迟高且动作预测易受视频误差牵连的问题,提出以动作为中心的GigaWorld-Policy:训练时同时学习动作预测与基于预测动作的2D未来视觉生成,但用因果设计阻断未来视频token影响动作token,因此部署时可跳过视频生成、直接解码动作。实机结果显示其较Motus推理快9倍且成功率高7%,在RoboTwin 2.0上相对pi-0.5提升95%;不过部分增益可能也来自更大规模预训练数据与课程式训练。

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control figure
ICLRW 20262026-03-18

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Flow Matching

Flow Matching安全机器人学习操作

论文动机是现有扩散/Flow Matching 控制在推理时按固定时间表“盲目积分”,简单与困难状态消耗同样算力,且缺少内生安全信号。GeCO改为学习时间无关的静态动作速度场,把动作生成视为收敛到专家吸引子的迭代优化,并用场范数作为免训练的OOD检测指标。LIBERO上,GeCO仅5步就超过20步Rectified Flow,20步预算下平均11.6次函数评估达到93.5%成功率;其也可即插即用替换VLA的flow head,但更大模型上的增益来源文中未充分说明。

DexViTac: Collecting Human Visuo-Tactile-Kinematic Demonstrations for Contact-Rich Dexterous Manipulation figure
arXiv2026-03-18

DexViTac: Collecting Human Visuo-Tactile-Kinematic Demonstrations for Contact-Rich Dexterous Manipulation

灵巧操作

灵巧操作模仿学习触觉数据采集接触丰富遥操作操作

这篇工作针对接触丰富灵巧操作中“人类示教易采、触觉难采”的瓶颈,提出便携式人中心采集系统 DexViTac,在非结构化环境同步记录第一视角视觉、高密度指尖触觉、末端位姿与19-DoF手部运动学。其关键洞察是用手部运动学为多指触觉表征提供全局语义锚点,缓解局部触觉的语义歧义,并据此进行两阶段学习。作者构建了2400+多模态示教数据,摘要报告采集效率达248条/小时,四项真实任务平均成功率超过85%,优于基线。

DexEXO: A Wearability-First Dexterous Exoskeleton for Operator-Agnostic Demonstration and Learning figure
arXiv2026-03-18

DexEXO: A Wearability-First Dexterous Exoskeleton for Operator-Agnostic Demonstration and Learning

灵巧操作

灵巧操作模仿学习数据采集遥操作

这篇工作针对灵巧手示教难以规模化的瓶颈:现有可穿戴接口常在舒适性、跨人适配和运动/视觉一致性之间取舍,导致数据采集费力且训练前还需分割修补。DexEXO 的关键是把具身对齐前置到硬件层:用可容忍姿态变化的拇指机构、滑块式手指接口和与目标机器人外观/接触几何一致的被动手,使不同手型用户可直接采集原始腕载 RGB 示教。结果上,用户研究显示舒适性与易用性优于既有系统,并能仅靠这些视觉观测训练扩散策略取得有竞争力表现,但具体任务范围与增益来源文中未充分说明。

Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model figure
arXiv2026-03-18

Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model

VLA

VLA机器人学习

论文针对扩散式VLA在分布外场景中易出现抖动碰撞、恢复尝试减少,而纯自回归又低层控制精度不足的问题,提出ADV:先由扩散动作专家一次草拟多个动作块,再让VLM以单次前向的困惑度式打分并行重排,选出最可信方案。其关键洞察是验证器不必找到最优动作,只要稳定滤掉异常或低质量草案,就能提升鲁棒性。文中在同骨干、同数据、同动作块长度下,相比扩散基线仿真成功率提升4.3点、真实场景提升19.7点,额外开销主要是一次重排前向。

Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation figure
arXiv2026-03-17

Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation

音频

音频机器人学习操作

这篇工作关注机器人在执行操作时会因动作分块和系统延迟错过瞬时声音,导致传统VLA难以利用蜂鸣、碰撞声等实时反馈。作者将问题形式化为VSLA,核心洞察是声音中心操作需要“因果持久性”和显式时序学习;据此提出HEAR,用流式音频记忆跨越“盲执行区间”,并结合多模态推理、音频世界模型预测和流匹配策略生成动作。文中还构建OpenX-Sound与HEAR-Bench;HEAR在仿真平均成功率81%,高于波形渲染61%和ASR基线35%,真实Franka四类任务达54%。

TeleDex: Accessible Dexterous Teleoperation figure
arXiv2026-03-17

TeleDex: Accessible Dexterous Teleoperation

灵巧操作

灵巧操作数据采集遥操作

论文针对机器人策略泛化差、部署时常需补采示教,而现有灵巧遥操作设备昂贵且搭建复杂的问题,提出 TeleDex:以普通手机作为统一入口,利用 ARKit 提供 6DoF 位姿,并通过可3D打印腕戴支架、21DoF手部估计和 Dex-Retarget 实现多指手重定向,无需外部跟踪或标定。实验表明,它在仿真中采集示教比键盘和 SpaceMouse 更快,并能在真实平台完成抓放、按琴键、开蛋盒等灵巧任务;但对下游策略微调收益的量化文中未充分说明。

S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight figure
arXiv2026-03-17

S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight

视频规划

视频规划辅助任务VLA世界模型感知机器人学习

这篇工作针对视频动作模型在机器人操控中的核心矛盾:多步视频生成前瞻性强但延迟高,单步扩散特征虽快却噪声大、几何与语义纠缠。作者提出 S-VAM,用轻量解耦器在单次前向中把一步去噪特征映射为几何/语义前瞻,并以扩散模型多步生成视频上提取的 DPAv3、DINOv2 表征做自蒸馏监督,相当于把慢速生成先验压缩到实时推理里。结果上,该方法在仿真和真实机器人上都优于现有方法,实现更高效、更精确的复杂操控;但给定材料未充分说明具体提升幅度。

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation figure
arXiv2026-03-17

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

VLA

VLA基础模型语言条件机器人学习操作

这篇工作针对“机器人操作必须靠少量真机数据补齐 sim-to-real 鸿沟”的常见看法,检验大规模仿真是否足以直接迁移到现实。作者的核心做法是开源 MolmoBot-Engine,在程序化生成的多机器人、多任务、多环境中构建约170万条轨迹,并训练 VLA 与 π0 复现模型;其关键洞察是增益可能主要来自 scaling / data,而非写实渲染或真机微调。结果上,模型在 Franka 和 RB-Y1 上实现零样本迁移,桌面抓放真实成功率 79.2%,明显高于 π0.5 的 39.2%。

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K figure
arXiv2026-03-17

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

数据集/Benchmark

数据集/Benchmark

论文关注仿真操作长期缺少既可直接进模拟器、又带功能与抓取语义的大规模对象资产这一瓶颈,提出 ManiTwin:把单张图片自动转成可仿真的3D物体,并用VLM补全尺寸、质量、摩擦、语言描述、功能点和抓取候选,再经物理仿真与人工复核筛验。基于该流程作者构建了10万资产的 ManiTwin-100K,报告注释人工评估准确率超过90%,并展示了其在操作数据生成、场景合成和机器人VQA中的可用性;但物理属性主要来自VLM估计而非真实标定。

MG-Grasp: Metric-Scale Geometric 6-DoF Grasping Framework with Sparse RGB Observations figure
arXiv2026-03-17

MG-Grasp: Metric-Scale Geometric 6-DoF Grasping Framework with Sparse RGB Observations

抓取

抓取操作

面向不依赖深度相机的6-DoF抓取,作者认为现有RGB方法在稀疏视角下常因几何尺度不准、跨视图不一致而难以形成可靠接触。MG-Grasp的核心是把两视图基础模型产生的非尺度深度,结合已知相机内外参与三角化恢复到真实尺度,再用置信度加权的两阶段多视图优化和面向抓取的点云筛选来生成稳定抓取。文中在GraspNet-1Billion和真实场景上报告了RGB 6-DoF方法中的SOTA,并称端到端延迟为秒级,但增益究竟更多来自几何重建还是下游抓取器,文中未充分说明。

Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models figure
arXiv2026-03-17

Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models

任务规划

任务规划多模态推理强化学习泛化

针对机器人强化学习长期受制于通用奖励难设计、IL策略又容易在长时程精细操作上停滞的问题,本文把基础VLM改造成在线“大奖励模型”,直接从当前视觉观测生成三类帧级奖励:相对进展、绝对进度和任务完成信号,用于零样本环境中的闭环RL微调。实验表明,在ManiSkill长程任务上仅30轮RL就能显著提升初始IL策略成功率,真实实验也从38.3%升至51.7%;但增益可能部分来自Qwen3-VL与24源多域数据的scaling。

Efficient and Reliable Teleoperation through Real-to-Sim-to-Real Shared Autonomy figure
arXiv2026-03-17

Efficient and Reliable Teleoperation through Real-to-Sim-to-Real Shared Autonomy

数据采集

数据采集Sim2Real人机交互遥操作

这篇工作针对精细、接触丰富操作中“人能表达意图,却难稳定完成毫米级对准与接触调节”的遥操作瓶颈,提出不依赖专家先验的 real-to-sim-to-real 共享自治:先用不足5分钟真实遥操作数据拟合一个轻量 kNN 人类代理,再在仿真中训练残差式 copilot,只对人的指令做低层纠偏。16人真实实验表明,在螺母旋合、齿轮啮合和插销插入上,新手成功率更高、熟手执行更快,且采集到的示范更利于后续模仿学习。

EFF-Grasp: Energy-Field Flow Matching for Physics-Aware Dexterous Grasp Generation figure
arXiv2026-03-17

EFF-Grasp: Energy-Field Flow Matching for Physics-Aware Dexterous Grasp Generation

抓取

抓取灵巧操作Flow Matching操作

针对高自由度灵巧手抓取中,扩散模型采样慢、轨迹抖动且易出现穿透或失接触的问题,EFF-Grasp将生成过程从随机微分方程改写为基于Flow Matching的确定性ODE,并在推理阶段加入无需额外训练的物理能量引导,用显式能量约束外部穿透、表面接触和自碰撞,再通过局部蒙特卡洛近似修正轨迹。文中在5个基准上报告其抓取质量和物理可行性优于扩散基线,且采样步数明显更少,但具体各模块的增益分解文中未充分说明。

DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models figure
arXiv2026-03-17

DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models

任务规划

任务规划视频规划强化学习触觉世界模型

针对VLM做机器人高层规划时“会说不会做”、在布料等可变形操作中因缺乏物理常识而频繁失误的问题,DreamPlan的核心洞察是:零样本VLM收集到的大量次优甚至失败轨迹,已足够训练动作条件视频世界模型来预测复杂形变;再结合Best-of-K与ORPO,在模型“想象”的视频rollout中离线强化微调规划器。结果显示其在布料、绳索和软玩具操作上显著优于零样本基线,并减少真实交互需求。

DexGrasp-Zero: A Morphology-Aligned Policy for Zero-Shot Cross-Embodiment Dexterous Grasping figure
arXiv2026-03-17

DexGrasp-Zero: A Morphology-Aligned Policy for Zero-Shot Cross-Embodiment Dexterous Grasping

抓取

抓取灵巧操作跨本体操作

这篇工作面向“每换一只灵巧手就要重训”的痛点,研究零样本跨本体抓取。其关键洞察是,不同机械手虽运动学差异很大,但可用解剖语义对齐成统一图结构;据此提出形态对齐图表示、三轴运动原语和注入URDF物理约束的MAGCN,直接输出可执行动作,避免中间目标重定向带来的不可行动作。仿真中在4种手上联合训练后,对未见LEAP、Inspire零样本成功率达85%,较SOTA高59.5%;真实3个平台对未见物体平均成功率为82%。

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting figure
arXiv2026-03-17

Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

数据采集

数据采集数据筛选机器人学习

论文关注离线机器人后训练中的异构数据问题:不同机体、视角和操作者质量混杂,统一行为克隆会把恢复动作和冲突监督一并学进去。PTR利用动作后的观测结果来判断样本是否“说得通”,通过候选后验识别分数对训练样本做保守重加权,并兼容diffusion/flow-matching头。实验在仿真及3种embodiment的12个真实任务上显示其普遍优于均匀训练,但文中摘要未充分说明总体提升幅度与增益分解。

BrickSim: A Physics-Based Simulator for Manipulating Interlocking Brick Assemblies figure
arXiv2026-03-17

BrickSim: A Physics-Based Simulator for Manipulating Interlocking Brick Assemblies

数据集/Benchmark

数据集/Benchmark

针对现有刚体仿真难以刻画积木卡扣连接、导致真实稳定结构在仿真中误塌的问题,BrickSim在Isaac Sim上提出将刚体动力学与卡扣力学解耦的混合架构,用紧凑的受力模型和结构化凸二次规划实时求解连接内力,并据此处理拼装、拆解与断裂。实验显示,它在150个真实搭建结构上实现静态稳定性预测100%准确、平均求解约5ms,并能在跌落测试中较真实地复现是否破坏及具体断裂位置。

You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector figure
arXiv2026-03-16

You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector

Diffusion Policy

Diffusion Policy机器人学习

这项工作针对生成式机器人策略在下游任务上常需微调权重或另训控制器、代价高且难用于VLA的问题,提出一个反直觉洞察:把扩散或flow matching策略推理时反复采样的高斯初始噪声,换成经回报搜索得到的固定向量“golden ticket”,在完全冻结原策略的前提下也能把行为稳定偏向更高回报。作者用基于蒙特卡洛回合评估的搜索而非训练新模型,在仿真和真机43个任务中有38个获得提升,部分仿真成功率最高相对提升58%,真机任务在50次搜索内最高提升60%,并显示出一定跨任务迁移与速度—成功率权衡能力。

RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation figure
CVPR 20262026-03-16

RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation

抓取

抓取基础模型感知操作数据集/Benchmark

这篇工作针对现有视觉-语言指代多停留在目标级定位、传统抓取又缺少语言语义的问题,试图打通“看懂指令”和“给出可执行抓取”之间的鸿沟。其核心是构建大规模真实世界 RealVLG-11B,将框、分割、抓取矩形、接触点与细粒度语言统一标注,并在此基础上用强化微调训练 RealVLG-R1 统一预测多种感知与抓取输出。结果表明其在未见真实环境中支持零样本感知与操作,但具体相对基线的增益来源文中未充分说明,可能主要来自 scaling / data,判断基于公开摘要/项目页。

ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy figure
arXiv2026-03-16

ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作针对2D视觉策略缺少显式3D空间感、而稀疏点云与正交多视角渲染又分别带来结构不规则和几何失真的问题,提出ReMAP-DP:先将多相机RGB-D重投影到统一透视观察空间,生成像素对齐的RGB与PointMap,再用冻结的DINOv2语义流和可训练的PointMap几何流,经模态嵌入与跨模态Transformer做隐式patch级对齐,最后条件化扩散策略生成动作。在RoboTwin 2.0上平均成功率59.3%,比DP3高6.6%,在ManiSkill 3的Stack Cube上提升28%,且真实机器人仅需少量示教就表现出较强鲁棒性。

MoE-ACT: Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned Mixture-of-Experts Transformers figure
arXiv2026-03-16

MoE-ACT: Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned Mixture-of-Experts Transformers

Transformer Policy

Transformer Policy语言条件双臂机器人学习操作

论文针对双臂多任务模仿学习里统一策略容易出现任务纠缠、负迁移,而大模型 VLA 又训练和部署过重的问题,提出轻量级 MoE-ACT:在 ACT 编码器中插入稀疏 MoE,用按任务路由的专家分解潜在动作分布,再结合语言条件、FiLM 调制和多尺度交叉注意力,使动作生成同时对齐任务语义与细粒度视觉。仿真和真实双臂实验显示,其成功率较原始 ACT 平均提升 33%;但各模块增益来源在给定材料中未充分说明。

Master Micro Residual Correction with Adaptive Tactile Fusion and Force-Mixed Control for Contact-Rich Manipulation figure
arXiv2026-03-16

Master Micro Residual Correction with Adaptive Tactile Fusion and Force-Mixed Control for Contact-Rich Manipulation

触觉

触觉接触丰富机器人学习操作

这篇工作针对接触丰富操作中“长时程规划要稳定、瞬时接触又要求快速反馈”的矛盾,提出M2-ResiPolicy:用10Hz主策略基于扩散模型生成时序一致的动作块,并按触觉强度自适应融合视觉与触觉;再用60Hz微残差校正器依据末端力/力矩实时补偿,并结合force-mixed PBIC执行层约束接触力。实验在脆弱抓取和精密插入等任务上优于DP与RDP,芯片抓取无损成功率达93%;但增益来源有多大来自架构而非控制细节,判断基于公开摘要仍不够清楚。

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models figure
arXiv2026-03-16

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

VLA

VLALatent Learning机器人学习

论文的出发点是:作者分层分析多个VLA后发现,动作生成时模型对视觉token的敏感性会随LLM层数加深而明显衰减,深层逐渐丢失对任务相关物体的关注,影响精细操作。为此提出DeepVision-VLA,用VL-MoT把视觉基础模型的多层特征注入VLA深层,并用AGVP根据浅层动作-视觉注意力裁剪无关token,以较小额外开销强化关键视觉线索。结果是在RLBench和真实双臂任务上分别超过此前最优方法9.0%和7.5%。

HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing figure
arXiv2026-03-16

HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing

VLA

VLA触觉接触丰富机器人学习操作

论文针对接触丰富操作中触觉传感器成本高、平台复现差的问题,提出HapticVLA:先用带安全触觉奖励的SA-RWFM学到避免过大抓取力和劣质轨迹的动作专家,再把其触觉能力蒸馏为可由视觉与状态预测的紧凑token,使部署时无需触觉硬件。真实机器人平均成功率86.7%,优于多种VLA基线,甚至超过推理时直接接入触觉的模型;但跨平台泛化与增益拆解文中未充分说明。

GraspALL: Adaptive Structural Compensation from Illumination Variation for Robotic Garment Grasping in Any Low-Light Conditions figure
arXiv2026-03-16

GraspALL: Adaptive Structural Compensation from Illumination Variation for Robotic Garment Grasping in Any Low-Light Conditions

抓取

抓取可变形物体泛化操作

这篇工作关注家务机器人在夜间或动态光照下抓取衣物时,RGB纹理、褶皱和边缘会失真,而固定式RGB-D融合又会在不同亮度下错误依赖深度线索。GraspALL的关键洞察是把“当前有多暗”显式参数化:用可学习的参数化亮度曲线估计连续照度,再通过亮度/结构响应库自适应选择深度补偿强度,生成与光照一致的抓取表征。作者还构建了多光照衣物抓取数据集;在多种照明下,相比基线抓取准确率提升32%–44%,极暗场景mGSR达83.3%。不过其跨传感器与跨家庭场景泛化边界文中未充分说明。

From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation figure
arXiv2026-03-16

From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

任务规划

任务规划多模态推理强化学习触觉操作

论文针对长程机器人操作中进度监督和稠密奖励难以获得的问题,指出现有经SFT训练的视频多模态模型更像“观察者”,会描述动作却难判断离目标还有多远,甚至可能给失败轨迹高分。作者提出PRIMO R1,用结果型强化学习诱导显式过程推理,并以“初始图像—视频序列—当前图像”的边界锚定输入,把进度估计转成面向任务目标的状态对齐判断。实验中,7B模型将MAE相对专用基线降低约50%,平均MRA达82.9,在RoboFail上零样本准确率67.0%,超过OpenAI o1 6个百分点。

ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation figure
arXiv2026-03-16

ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation

触觉

触觉接触丰富机器人学习操作

论文针对现有VLA在接触丰富操作中仍以位置控制为主、把力仅当作辅助观测,因而难以稳定处理擦拭、按压和装配等任务的问题,提出ForceVLA2:在VLM侧用力提示构建分阶段的力感知任务概念,在动作侧用跨尺度MoE融合高层语义与实时交互力,输出闭环混合力位控制。作者还构建了含1000条轨迹、5类任务的数据集。实验显示其平均成功率较π0和π0.5分别提升48%和35%,并减少机械臂过载与接触不稳;但增益来源未完全拆清,可能同时来自模型设计与新数据。

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors figure
arXiv2026-03-16

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

泛化

泛化Sim2Real机器人学习

这篇工作针对真实机器人专家示教昂贵、纯强化学习又依赖繁琐奖励工程的瓶颈,提出 ExpertGen:先用少量人类或 LLM 生成的“不完美示范”训练扩散行为先验,再在大规模并行仿真中只优化扩散初始噪声、冻结原策略,从而把探索约束在人类式动作流形内,并在稀疏奖励下自动提升任务成功率,最后用 DAgger 蒸馏成可实机部署的视觉策略。实验中其在工业装配和长时程操作上分别达到 90.5% 与 85% 总体成功率,优于基线并实现零样本 Sim2Real;但性能上限仍受先验覆盖范围限制。

End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset figure
arXiv2026-03-16

End-to-End Dexterous Grasp Learning from Single-View Point Clouds via a Multi-Object Scene Dataset

抓取

抓取灵巧操作3D 表征操作数据集/Benchmark

面向多物体遮挡场景中单视角点云不完整、现有灵巧抓取数据多局限于单物体且缺少预抓取建模的问题,论文提出端到端的 DGS-Net,并设计“物体级稠密合成→场景级稠密标注”的两阶段数据生成流程。其核心是显式学习抓取偏移和预抓取手型,以补偿投影误差并降低手物穿透。作者构建了含307个物体、240个场景、35万+有效抓取的数据集;方法在仿真和真实平台成功率分别为88.63%和78.98%,真实新物体场景成功率80.39%,推理约0.45秒。

Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning figure
ICLR 20262026-03-16

Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning

强化学习

强化学习触觉基础模型机器人学习

论文针对机器人操作RL在长时程、强接触任务中易陷入狭窄状态分布、不得不依赖手工奖励、课程和示范的问题,提出OmniReset:通过程序化生成多样化模拟器重置,系统覆盖抓取、接触、对齐等关键中间交互状态,使PPO在固定超参与统一奖励下也能有效探索。结果表明,该方法在抽屉插入、桌腿旋拧、插销装配等任务上明显优于基线,并可蒸馏为RGB策略实现零样本真机迁移与更强重试鲁棒性。

Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning figure
arXiv2026-03-16

Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning

任务规划

任务规划多模态推理强化学习触觉

论文聚焦多机器人协作中“从多个局部自中心视角还原全局世界”的难题:单视角常因遮挡、歧义和视野有限而无法完成可靠计数、关系判断与操作定位。作者一方面构建E2W基准,系统评测跨视角融合;另一方面提出CoRL,用CoT监督微调加GRPO强化学习训练VLM,并设计CVSR奖励,将中间推理与跨视角证据、实体一致性和最终抓取坐标显式绑定。结果显示其在三类任务上持续优于强基线,还能泛化到外部基准和真实多机器人抓放。

AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation figure
arXiv2026-03-16

AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation

移动操作

移动操作VLAMamba Policy操作

这篇工作针对VLA在移动操作落地时常被Transformer的时延与显存开销卡住的问题,提出轻量化AnoleVLA:用Mamba式深度状态空间模型替代自注意力,以线性复杂度融合视觉、语言和机器人状态,直接生成连续动作块,并通过“速度损失→加速度损失”的两阶段训练提升轨迹平滑性与可执行性。仿真和实机结果都显示其更适合资源受限部署;在实机上相对π0.5成功率高21个百分点、推理约快3倍,但各模块增益拆分文中未充分说明。

AeroGrab: A Unified Framework for Aerial Grasping in Cluttered Environments figure
arXiv2026-03-16

AeroGrab: A Unified Framework for Aerial Grasping in Cluttered Environments

抓取

抓取空中操作操作数据集/Benchmark

这项工作针对空中机械臂在杂乱环境中抓取时常因遮挡、碰撞风险和“抓物体中心”策略失效而不可靠的问题,提出统一的AeroGrab框架:先用语言指令完成场景与目标定位,再通过主动环绕观察提升可见性,并为各视角生成多个6-DoF抓取候选,结合整机凸包与深度图评估碰撞、可达性和进近空间后再执行。文中在仿真和真实杂乱场景中展示了较稳健的抓取与取回能力,但给定片段未充分说明具体量化提升和增益来源。

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning figure
arXiv2026-03-15

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

辅助任务

辅助任务VLA机器人学习

这篇工作关注现有VLA虽能做文本式CoT,却把视觉当成一次性静态上下文,导致长程操作里难以消歧、跟踪子目标和中途纠错。VLA-Thinker的关键是把感知变成可在推理中动态调用的动作,通过图像裁剪/放大实现“边看边想边做”,再用视觉CoT冷启动和GRPO对齐完整推理—动作轨迹。实验显示其在LIBERO上达到97.5%成功率,并在RoboTwin 2.0的长时程操作上取得明显增益。

Tactile Modality Fusion for Vision-Language-Action Models figure
arXiv2026-03-15

Tactile Modality Fusion for Vision-Language-Action Models

VLA

VLA触觉机器人学习

这篇论文针对VLA在接触密集操作中过度依赖视觉、难以感知接触力、摩擦和微小对位的问题,提出TacFiLM:不再把触觉当额外token拼接进序列,而是用预训练触觉表征通过FiLM调制视觉骨干的中间特征,以较小计算代价在后训练微调阶段完成视觉-触觉融合。作者在700余次真实机器人插接实验中报告,方法在分布内外任务上都提升成功率、直接插入率和完成效率,部分任务较次优基线最高提升30%,HDMI插接提升50%,且接触力更稳定、某些场景用力降至约三分之一。

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism figure
arXiv2026-03-15

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

VLA

VLA机器人学习

这篇工作关注机器人在同一观测下并行执行操控、对话和记忆等任务时的推理瓶颈:MoT式VLA虽具备多任务生成能力,但现有系统把各任务的KV cache割裂管理,导致共享观测被重复prefill、语言与动作任务争抢单卡资源。OxyGen的核心洞察是把KV cache作为跨任务、跨时间的统一共享资源,进一步实现跨任务KV共享和跨帧连续批处理,将语言解码与固定频率动作控制解耦;在π0.5上于RTX 4090和Jetson AGX Thor取得最高3.7倍加速,同时达到200+ tok/s语言吞吐与70 Hz动作频率,且未降低动作质量。

One-Policy-Fits-All: Geometry-Aware Action Latents for Cross-Embodiment Manipulation figure
ICRA 20262026-03-15

One-Policy-Fits-All: Geometry-Aware Action Latents for Cross-Embodiment Manipulation

Latent Learning

Latent Learning泛化跨本体操作

该工作针对不同夹爪与灵巧手在动作维度、关节结构和几何形态上差异过大,导致跨本体数据难以共训、迁移新末端成本高的问题,提出 OPFA:先将各本体的可达几何状态编码到统一的几何感知动作潜变量,再用无需按本体单独调参的统一解码器还原具体动作,把策略学习转到共享潜空间。文中在 11 种末端、14 个任务上报告,共训相对单一本体训练成功率可提升 50% 以上,新本体仅 8 条示教即可接近 72 条示教模型;但判断基于公开摘要/项目页,增益中有多少来自表示设计而非更多异构数据,文中未充分说明。

OmniClone: Engineering a Robust, All-Rounder Whole-Body Humanoid Teleoperation System figure
arXiv2026-03-15

OmniClone: Engineering a Robust, All-Rounder Whole-Body Humanoid Teleoperation System

人形操作

移动操作人形操作数据采集安全遥操作

论文指出,现有人形全身遥操作常用平均指标掩盖深蹲、奔跑、精细操作等不同运动区间的失效模式,且系统强依赖特定动捕与繁琐校准,难以真实部署。为此作者提出分层诊断基准OmniBench,并据此设计技能均衡的数据配方,结合与操作者身材无关的重定向和抗延迟通信,构建可兼容实时遥操作、动作回放与VLA输入的统一策略OmniClone。结果是在18类评测上全面优于GMT/Twist2,MPJPE降幅超66%,且仅需30小时数据和单张消费级GPU;判断基于公开摘要。

ToMPC: Task-oriented Model Predictive Control via ADMM for Safe Robotic Manipulation figure
RA-L 20262026-03-14

ToMPC: Task-oriented Model Predictive Control via ADMM for Safe Robotic Manipulation

基础操作

基础操作任务规划安全操作非学习控制

面向开放工作空间中既要避障又要接触操作的机械臂任务,作者指出现有MPC常把碰撞规避与力交互分开处理,难同时保证实时性与硬安全约束。论文提出ToMPC,将全身动力学下的运动/力规划与“面向任务”的冗余避障统一建模,并用ADMM把优化拆成DDP与QP两类子问题;其关键洞察是避障不只绕开障碍,还应主动调整连杆姿态以扩大末端可操作范围。仿真和Franka Panda实验证明,该方法可实时生成运动或力轨迹,严格满足安全约束,并在受阻环境中获得更大的有效操作范围。

SmoothVLA: Aligning Vision-Language-Action Models with Physical Constraints via Intrinsic Smoothness Optimization figure
arXiv2026-03-14

SmoothVLA: Aligning Vision-Language-Action Models with Physical Constraints via Intrinsic Smoothness Optimization

VLA

VLA机器人学习

这篇工作关注VLA后训练中的“探索—稳定性悖论”:SFT依赖演示、泛化差,而直接RL虽能探索新策略,却常产生抖动轨迹,难满足机器人运动学约束。SmoothVLA的关键做法是把轨迹jerk转成可由rollout直接计算的内在平滑奖励,并与任务成功的稀疏奖励联合,用GRPO优化,使平滑性成为显式先验。文中在LIBERO/LIBERO-Plus上报告相较标准RL平滑度提升13.8%,且跨任务泛化优于SFT。

ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation figure
arXiv2026-03-14

ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation

3D 表征

3D 表征VLA机器人学习操作

这篇工作针对分层 VLA 常用 2D 中间表示、难以对齐机器人真实 3D 执行空间且缺少时序一致性的问题,提出 ST-VLA:把高层语义指导提升为 3D 轨迹,并用跨模态对齐的平滑空间掩码表示 4D 时空上下文,减少几何歧义、动作抖动与幻觉;同时构建含14个任务、30万轨迹的 ST-Human 训练 ST-VLM。实验显示其在多个基准上最高提升33.19%,RLBench 与真实场景零样本成功率分别提升44.6%和30.3%。

KoopmanFlow: Spectrally Decoupled Generative Control Policy via Koopman Structural Bias figure
arXiv2026-03-14

KoopmanFlow: Spectrally Decoupled Generative Control Policy via Koopman Structural Bias

Flow Matching

Flow Matching机器人学习

论文针对生成式控制策略在实时RHC中被压成一步推理后,会把接触、遮挡等触发的高频修正与低频稳定运动一起过度平滑的问题,提出KoopmanFlow。其关键做法是在共享视觉-本体潜空间中先注入视觉条件,再借鉴Koopman结构偏置把末端生成拆成宏观慢变分支(一致性训练)和瞬态残差分支(Flow Matching),以减少多阶段误差累积。文中称其在接触密集、需快速抗扰的操作任务上明显优于现有方法,同时参数更省并保持实时部署可行;判断基于公开摘要/项目页。

Exploration-assisted Bottleneck Transition Toward Robust and Data-efficient Deformable Object Manipulation figure
arXiv2026-03-14

Exploration-assisted Bottleneck Transition Toward Robust and Data-efficient Deformable Object Manipulation

可变形物体

数据需求量大可变形物体安全操作

这篇工作针对可变形物体模仿学习在分布外初态下易失效、而穷举示教与精确感知又不现实的问题,提出 ExBot:先把任务重构为“任意初态→瓶颈状态→策略执行”,再按“可识别/不可识别”划分状态,分别用准备动作与探索动作把绳索或布料变回可操作构型。真实机器人实验表明,它能从严重自遮挡、缠绕或揉皱初态完成任务,并降低示教需求;但文中片段未充分说明相对基线的具体量化增益来源,判断基于公开摘要与提供片段。

Building Explicit World Model for Zero-Shot Open-World Object Manipulation figure
arXiv2026-03-14

Building Explicit World Model for Zero-Shot Open-World Object Manipulation

泛化

泛化Sim2Real世界模型操作

论文针对VLA在开放世界操作中依赖大量机器人示范、对新物体和新任务泛化不足的问题,提出显式世界模型框架:先从机载RGB-D观测重建带尺度与位姿对齐的物理数字孪生,再在仿真中采样多种交互策略,并用VLM评估结果后迁移到真实机器人执行。实验表明其无需任务专用训练即可在未见刚体和多种开放集任务上实现零样本操作;但摘要未充分说明相对基线的定量优势,判断基于公开摘要/项目页。

TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation figure
arXiv2026-03-13

TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation

VLA

VLA触觉安全机器人学习操作

这篇工作针对VLA在视觉遮挡、精细接触和受约束拆解中缺乏物理反馈的问题,提出把触觉编码成紧凑token接入策略网络,并以接触感知门控按状态路由触觉,只在真正接触时参与融合,避免无接触阶段干扰。实机实验显示,其在约束拆解成功率平均提升20%、箱内抓取提升60%,遮挡场景提升2.1倍;但门控仍依赖二值阈值,增益与数据/微调规模的相对贡献文中未充分拆解。

RoboStream: Weaving Spatio-Temporal Reasoning with Memory in Vision-Language Models for Robotics figure
arXiv2026-03-13

RoboStream: Weaving Spatio-Temporal Reasoning with Memory in Vision-Language Models for Robotics

任务规划

任务规划3D 表征操作

这篇工作针对长时程操作中VLM逐步决策却缺乏持续世界状态的问题:每一步都从像素重建几何,既会累积空间误差,也会忘记被遮挡或被先前动作改变的物体。RoboStream提出免训练框架,将视觉证据与3D几何绑定为STF-Tokens做持久目标锚定,并用CSTG记录动作导致的状态转移,从而支持遮挡下的对象永存和因果追踪。结果上,它在长时程RLBench达90.5%,真实积木搭建44.4%,显著高于SoFar和VoxPoser的11.1%。

ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries figure
arXiv2026-03-13

ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries

VLA

VLALatent Learning机器人学习

针对VLA在闭环控制中默认马尔可夫假设、难以处理依赖历史上下文的操作任务,本文提出ReMem-VLA:用帧级与块级两层循环记忆查询分别承载短期与长期记忆,并以“过去观测预测”强化视觉回忆,试图在不增加额外推理开销下把历史信息隐式注入动作生成;同时配合流式训练维持跨整段轨迹状态。仿真与真实机器人实验表明,它在空间、时序、情节与视觉记忆任务上明显优于π0.5、OpenVLA-OFT和MemoryVLA。

Learning Actionable Manipulation Recovery via Counterfactual Failure Synthesis figure
arXiv2026-03-13

Learning Actionable Manipulation Recovery via Counterfactual Failure Synthesis

任务规划

任务规划多模态推理数据增强操作

这篇工作针对机器人操作中“会检测失败但不会真正补救”的瓶颈:真实失败数据采集危险且昂贵,仿真扰动又有明显sim2real落差。作者提出Dream2Fix,在生成式世界模型中对成功示范注入动作扰动,合成反事实失败视频及其轨迹级修正,并用任务有效性、视觉一致性和运动学安全三重验证筛选数据,再训练VLM同时输出失败类型与可执行修复。最终构建12万+样本,纠错准确率由19.7%提升到81.3%,真实机器人零样本闭环恢复率达46%。

LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation figure
CVPR 20262026-03-13

LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation

VLA

VLALatent Learning机器人学习操作

论文聚焦机器人操作里“高层语言理解强、低层连续控制难对齐”的断层,认为关键缺少把语义意图映射到运动执行的中间层。LaDA将7-DoF动作拆成平移、旋转、夹爪三类带语言描述的细粒度原语,并用语义软标签对比学习对齐跨任务相似动作,再以自适应权重联合模仿学习稳定训练。作者在LIBERO、MimicGen及真实机器人实验中报告了更强性能,对未见和语义相关任务的泛化也更好。

Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation figure
arXiv2026-03-13

Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation

任务规划

任务规划辅助任务VLA世界模型感知机器人学习操作

这篇工作针对世界模型式VLA在长时操作中要么依赖稠密未来预测、易累积误差并出现计划漂移,要么只给语义/隐式子目标、缺少运动学落地的问题,提出StructVLA:从夹爪开合与运动转折等内在线索自动抽取稀疏“结构化帧”,先训练世界模型预测这些物理可执行的中层里程碑,再在统一离散token空间把规划迁移到低层动作生成。其在SimplerEnv-WidowX和LIBERO上分别达到75.0%与94.8%平均成功率,并报告了真实世界从基础抓放到长程整理任务的稳健泛化。

Beyond Binary Success: Sample-Efficient and Statistically Rigorous Robot Policy Comparison figure
arXiv2026-03-13

Beyond Binary Success: Sample-Efficient and Statistically Rigorous Robot Policy Comparison

VLA

VLA机器人学习

论文聚焦机器人硬件评测昂贵、样本极少且二元成功率过于粗糙的问题,提出基于SAVI的顺序比较框架 N-SCORE,把策略比较从“成功/失败”推广到分级任务进度、回合奖励、轨迹平滑度等更丰富的有界指标,并在参数化与非参数场景下保持任意时刻可停止的统计显著性控制。仿真与真实评测表明,其评测开销相对批量方法最高减少70%,相对仅适用于二元结果的最新顺序检验最高再降50%,且细粒度进度指标通常能更快区分策略优劣。

Altered Thoug hts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation figure
arXiv2026-03-13

Altered Thoug hts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation

VLA

VLA安全机器人学习操作

这篇工作针对带链式思维的VLA提出一个此前少被关注的安全问题:若只篡改“推理文本—动作解码器”之间的内部CoT通道、而保持视觉输入与指令干净,机器人是否会失效。作者在40个LIBERO操作任务上系统比较7类文本扰动,发现动作解码器真正依赖的不是推理质量或句子顺序,而是对象指称的一致性;仅做对象名替换就使成功率平均下降8.3个百分点,在goal任务上达19.3个百分点、个别任务达45个百分点,而乱序、方向词翻转、噪声注入甚至70B LLM伪造“看似合理但错误”的计划几乎无效。对照实验还表明,这一漏洞主要存在于显式推理型VLA中。

Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation figure
arXiv2026-03-12

Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

人形操作

移动操作人形操作VLA基础模型操作

论文针对人形移动操作中“机器人示教昂贵、但人类视频与人形本体存在明显运动学差异”这一矛盾,认为把人类与机器人数据混合共训并不高效。其核心做法是分阶段解耦训练:先用高质量第一视角人类操作视频预训练VLM学习任务级视觉—动作先验,再用人形真机数据后训练基于流/扩散的动作专家学习精确关节控制,并用实时动作分块缓解部署抖动。实机八项长程任务中,模型仅用约800小时人类视频和30小时机器人数据,就比使用10倍以上数据的基线整体成功率高40%以上。

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning figure
arXiv2026-03-12

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

强化学习

强化学习VLA触觉泛化机器人学习

面向开放环境中需持续适应新任务的机器人,本文重新检验了VLA持续强化学习里“顺序微调会灾难性遗忘”的常识,系统比较3类预训练VLA与5个终身RL基准。核心洞察是,预训练大模型先验、LoRA参数高效更新与 on-policy RL 形成协同,重塑了稳定性—可塑性权衡。实验表明,最简单的 Seq. FT 往往比回放、正则化等复杂CRL方法更强,旧任务遗忘极小,同时还能保持甚至提升零样本泛化,部分情况下超过多任务 oracle。

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics figure
CVPR 20262026-03-12

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

VLA

VLA泛化感知操作

这篇工作针对现有VLA多依赖固定近最优视角、难把“主动看”与“稳定做”统一起来的问题,提出SaPaVe:将相机动作与操作动作解耦,先用ActiveViewPose-200K预训练语义相机控制,再结合3D几何感知模块和混合数据做联合优化。作者还构建了ActiveManip-Bench;模型在该基准上平均成功率75.2%,真实任务中相对GR00T N1最高提升31.25%。增益也可能部分来自新增数据与训练配方。

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks figure
arXiv2026-03-12

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

泛化

泛化操作

论文针对长时程操作里“采集—训练—部署”割裂导致的人工重置成本高、状态分布失配和多技能串联脆弱问题,提出由VLM统一驱动的RoboClaw:用前向/逆向耦合的EAP形成自复位数据闭环,并由同一代理在执行时完成技能编排与状态监控,以尽量保持训练和部署语义一致。真实机器人实验中,其长时程任务成功率较基线提升25%,人工投入下降53.7%,但各模块增益来源文中未充分说明。

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies figure
arXiv2026-03-12

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

VLA

VLA安全机器人学习

论文关注VLA对指令措辞极其敏感、失败模式又难预判的问题。作者提出Q-DIG,把质量多样性优化与视觉语义grounding结合,在预设“攻击风格”下迭代生成既贴近任务又能诱发失败的多样化自然语言指令,再用这些指令扩充示教微调策略。仿真、用户研究和少量真实机器人实验表明,Q-DIG比ERT等基线找到更丰富、更像人说的话的失效样本,并提升对未见指令的鲁棒性,多个VLA成功率约提升5%到15%。

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset figure
arXiv2026-03-12

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

数据需求量大

数据需求量大任务规划数据采集数据生成操作数据集/Benchmark

这篇工作针对机器人学习受限于人工遥操作采集成本高、且现有自动化流程缺少可靠验收与环境复位的问题,提出闭环数据生成系统 RADAR。其关键洞察是把“语义决策”和“物理执行”解耦:用少量(2–5个)3D人类示范作几何先验,由 VLM 负责场景级任务规划与成功判定,GNN 负责模仿执行,FSM 按 LIFO 因果顺序自动反向复位并路由数据。结果上,仿真长时序任务成功率最高达 90%,真实机器上也能以少样本完成毛巾折叠等接触丰富技能,且无需专门微调。

One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies figure
arXiv2026-03-12

One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies

Flow Matching

Flow Matching机器人学习

这篇工作针对流/扩散机器人策略采样慢、控制频率受限的问题,提出 One-Step Flow Policy:不依赖预训练教师、从零开始自蒸馏,把跨时间段的一致性约束与面向高密度专家模式的自引导正则结合,并用 warm-start 复用时序相关动作以缩短传输距离。结果上,OFP 在 56 个模拟操作任务中以单步生成的性能超过 100 步扩散/流基线,推理加速超 100×,接入 π0.5 后也优于原 10 步策略;但文中主要证据仍来自仿真。

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams figure
arXiv2026-03-12

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

3D 表征

3D 表征VLA感知机器人学习

面向机器人等流式场景里语义、时序、几何模型彼此割裂的问题,OmniStream把预训练图像ViT改造成统一在线视觉骨干:用因果时空注意力与3D-RoPE实现逐帧、严格因果且可KV-cache推理,并以视频自监督、流式3D重建和轻量视觉语言对齐联合预训练。结果表明,在冻结骨干下,它在图像/视频探测、在线几何重建、空间问答和训练未见的机器人操作上都能与专用模型竞争;不过文中也承认并非各项基准都做到最优。

HumDex: Humanoid Dexterous Manipulation Made Easy figure
arXiv2026-03-12

HumDex: Humanoid Dexterous Manipulation Made Easy

灵巧操作

灵巧操作人形操作数据采集遥操作操作

论文聚焦人形全身灵巧操作中“高质量示教难采”的瓶颈:现有遥操作要么依赖固定 mocap/外骨骼、缺乏便携性,要么受视觉遮挡影响精度。HumDex 用 IMU 做全身跟踪,并以学习式手部重定向替代手工调参的优化法,再配合“先人类数据预训练、后机器人数据微调”的两阶段模仿学习,利用人类动作多样性同时弥合 embodiment gap。实验表明,该系统能更快收集更高质量示教,在双手、长程、可形变/关节物体等任务上提升实机成功率,并让策略对新位置、物体和背景具有更强泛化。

HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies figure
arXiv2026-03-12

HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

灵巧操作

灵巧操作应用

这篇工作聚焦一个典型“仿真能弹、上真机就错键”的高精度灵巧操作难题:双手机器人弹钢琴对毫米级空间误差和时序误差都极其敏感,纯仿真策略难以直接迁移。作者的关键洞察是把仿真当作手指协同的结构先验,再用两阶段快速适应补齐真实差距:先依据真实执行中“目标键/实际键”的偏差,对手指横向关节做启发式校正,再在其上训练残差强化学习微调动作。实验在5首曲目上表明,系统仅用约30分钟真机交互数据,就将表现提升到直接仿真迁移的1.8倍,并实现稳定的双手实机演奏。

Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMsk figure
arXiv2026-03-12

Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMsk

数据需求量大

数据需求量大数据采集数据增强数据检索泛化语言条件

这篇论文的动机是:机器人论文常说“泛化”,但测试任务究竟离训练分布有多远往往说不清。作者提出 RADAR,用通用机器人策略的嵌入先从大规模训练集中检索相关样本,再让 VLM 按视觉/行为等轴比较测试与训练并判定所需泛化类型。实验中,仅检索 5%–10% 数据即可找回 80%–90% 关键样本,VLM 的轴向分析平均 F1 为 0.841、某任务族总体分类准确率达 92.5%;但对细微视觉差异仍不稳。

Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints figure
arXiv2026-03-12

Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints

任务规划

任务规划3D 表征视频规划

论文针对第一视角可控视频生成里手部频繁遮挡、现有2D轨迹或姿态控制难以保持三维一致且难泛化到机器人手的问题,提出用稀疏3D手关节作为跨形态控制信号,并通过源帧遮挡剔除、目标帧3D加权传播和几何嵌入来保留关节语义与深度结构。实验表明该方法在人手与机器人手数据上都优于现有方法,且跨形态迁移时优势更明显;作者还构建了百万级第一视角手轨迹数据和机器人基准。

Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation figure
arXiv2026-03-12

Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation

3D 表征

3D 表征Flow Matching机器人学习操作

论文针对扩散式机器人策略虽能保留多模态动作、但推理需多步去噪而难以满足实时控制的问题,提出把“迭代精修”从测试时前移到训练时。Ada3Drift在3D点云条件下学习带吸引/排斥机制的drifting field,并配合sigmoid损失切换和多尺度场聚合,尽量避免一步生成时把多种可行动作平均成危险轨迹。实验表明其在Adroit、Meta-World、RoboTwin和真实机器人上以1 NFE达到或超过多步扩散基线,推理开销约降10倍,真实机平均成功率79%。

World2Act: Latent Action Post-Training via Skill-Compositional World Models figure
arXiv2026-03-11

World2Act: Latent Action Post-Training via Skill-Compositional World Models

辅助任务

辅助任务VLALatent Learning世界模型感知机器人学习

论文针对现有世界模型后训练依赖像素监督、易受生成伪影与长时程 rollout 漂移影响的问题,提出 World2Act:用对比学习将 VLA 的动作表征直接对齐到世界模型的视频动力学潜变量,并结合 LLM 技能拆解构建 RoboCasa-Skill 与 LIBERO-Skill,支撑技能组合式的任意时长稳定预测。实验显示其在 RoboCasa、LIBERO 上取得最优结果,迁移到真实机器人后成功率提升 6.7%;不过文中也指出增益对骨干较敏感,Cosmos Policy 提升相对有限。

ScanDP: Generalizable 3D Scanning with Diffusion Policy figure
arXiv2026-03-11

ScanDP: Generalizable 3D Scanning with Diffusion Policy

3D 表征

3D 表征Diffusion Policy泛化应用

为解决现有学习式3D扫描对大规模训练数据依赖强、对未见物体泛化差且轨迹易出现抖动、折返与碰撞风险的问题,ScanDP将扩散策略用于模仿人类扫描,并用占据栅格图替代点云作为3D状态表征,以更稳健地编码空间结构与测量不确定性;同时结合最大空球(bubble)表示和后续路径优化,过滤危险动作并压缩冗余轨迹。实验显示,它在不同形状和尺度的未见物体上取得更高覆盖率和更短路径,对噪声与运动扰动也更稳健,并完成了真实机器人验证。

RISE: Self-Improving Robot Policy with Compositional World Model figure
arXiv2026-03-11

RISE: Self-Improving Robot Policy with Compositional World Model

世界模型

世界模型感知机器人学习

这篇工作针对真实机器人强化学习受限于安全风险、硬件成本和人工复位,导致VLA在接触丰富、动态操作中难以靠在线试错变稳健的问题,提出RISE:把策略改进搬到想象空间,用组合式世界模型拆分为可控多视角动力学预测和进度价值评估,并结合任务中心批采样与进度/TD学习产生更密集的优势信号,闭环生成虚拟轨迹并更新策略。作者在动态砖块分拣、背包装载、纸箱封合三项真实任务上分别取得超过35%、45%、35%的绝对成功率提升。

RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation figure
CVPR 20262026-03-11

RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation

任务规划

任务规划多模态推理感知操作

这篇工作针对VLA机器人在动态环境中易因分布外状态失效、而现有监控又要么依赖异常枚举要么推理过慢的问题,提出RC-NF作为可插拔实时监控器:仅用成功轨迹训练条件归一化流,并用RCPQNet解耦建模任务相关的机器人本体状态与目标物点集运动,以概率密度给出异常分数。作者还构建LIBERO-Anomaly-10;在三类操作异常上较最佳基线约提升8%AUC和10%AP,真实机器人中检测延迟低于100ms,并可触发回退或重规划。

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment figure
CVPR 20262026-03-11

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

模仿学习

模仿学习VLALatent Learning数据检索泛化机器人学习

论文针对机器人顺序学习新操作时易遗忘旧技能、且原始回放占内存大的问题,提出在冻结CLIP表征上进行多模态潜变量回放,缓存视觉、语言和机器人状态的紧凑联合特征,而非原始轨迹;再用增量特征调整,以自适应角度间隔约束把新旧任务嵌入拉开,减轻共享潜空间干扰。在LIBERO基准上,其AUC较已有方法提升10–17点,遗忘最高降低65%,说明低内存回放配合表征分离对持续模仿学习有效。

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model figure
arXiv2026-03-11

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

VLA

VLALatent Learning机器人学习

论文关注VLA缺乏前瞻性的问题,认为现有显式未来预测容易被视觉重建主导、隐式稀疏帧建模又破坏动作连续性,因此难以学到真正耦合的视动表征。FutureVLA用连续多帧预训练,并以联合视动门控将视觉状态与运动动态解耦,再通过潜表示对齐把先验迁移到下游VLA且不改推理结构;在SimplerEnv平均提升11.4%,真实机器人操作提升21.7%,但增益有多少来自异构数据规模,文中片段未充分说明。

FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation figure
arXiv2026-03-11

FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation

触觉

触觉基础模型机器人学习操作

这篇工作针对现有触觉-语言表示多停留在“粗糙、硬”等定性描述、难以支撑精细力控操作的问题,提出 FG-CLTP:用 10 万级 3D 触觉点云-文本数据、离散数值 token 和辅助回归,把力大小、接触位置、形变深度与主轴朝向等定量接触状态对齐到语言空间,并进一步接入 flow matching 的 3D-TLA 策略。结果上,预训练模型分类准确率达 95.9%,回归 MAE 相比 SOTA 降低 52.6%,sim-to-real gap 仅 3.5%,下游真实操作中 tube insertion 和 board wiping 成功率分别为 85% 与 75%。

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control figure
arXiv2026-03-11

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

视频规划

视频规划辅助任务VLA泛化世界模型感知机器人学习

该工作针对现有 VLA 多继承静态图文表征、对物理动态学习不足且依赖大量动作标注的问题,提出 DiT4DiT:将视频 DiT 与动作 DiT 级联联合训练,不直接依赖重建未来帧,而是抽取视频扩散去噪中的中间隐状态作为动作条件,并用双 flow-matching 解耦视频与动作的时间步和噪声。实验中其在 LIBERO 与 RoboCasa GR1 分别达到 98.6% 和 50.8%,样本效率提升超 10×、收敛最高快 7×,在 Unitree G1 上也表现出更强零样本泛化;但具体增益有多少来自更大视频预训练或数据规模,文中未充分说明。

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference figure
arXiv2026-03-11

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

3D 表征

3D 表征VLA感知机器人学习

这篇工作针对VLA推理延迟高、统一剪枝或合并会破坏机器人所需空间关系的问题,提出无需训练和改模型的DepthCache:把深度从“输入模态”转成“压缩先验”,按深度分区对近处操作区少合并、远处背景多合并,并结合跨帧渐进缓存、语义注意力与深度边缘保护,以及基于末端运动的腕视角自适应压缩。LIBERO上在pi_0.5、OpenVLA、GR00T取得最高1.28×加速且平均成功率下降不足1%,真机约1.33×,优于同压缩率下退化4–24%的基线。

COT-FM: Cluster-wise Optimal Transport Flow Matching figure
CVPR 20262026-03-11

COT-FM: Cluster-wise Optimal Transport Flow Matching

Flow Matching

Flow Matching机器人学习

这篇论文针对 Flow Matching 因随机或批量最优传输配对而学到弯曲流场、导致低步数采样离散误差大和生成失真的问题,提出 COT-FM:先按目标样本聚类,再利用预训练 FM 反演得到每簇专属源分布,并在簇内做近似 OT 交替优化,从而在不改网络结构下拉直概率路径。实验中它在2D分布、CIFAR-10 和 LIBERO 机器人操作上都显著提升一步到少步生成,CIFAR-10 10步 FID 由12.6降到8.23,LIBERO 1 NFE 达到 Spatial 96.1%、Long 94.5%。

AdaClearGrasp: Learning Adaptive Clearing for Zero-Shot Robust Dexterous Grasping in Densely Cluttered Environments figure
arXiv2026-03-11

AdaClearGrasp: Learning Adaptive Clearing for Zero-Shot Robust Dexterous Grasping in Densely Cluttered Environments

抓取

抓取灵巧操作安全操作数据集/Benchmark

这篇工作针对密集杂乱场景中“直接灵巧抓取易受遮挡与碰撞影响、盲目清障又可能不安全”的矛盾,提出 AdaClearGrasp:先由 VLM 结合图像和语言判断该直接抓还是先清障,再通过统一原子技能接口执行,并用基于手-物相对几何表示的 GeoGrasp 强化学习策略实现跨物体零样本抓取,失败后还能依据视觉反馈闭环重规划。判断基于公开摘要/首页片段,文中称其在 Clutter-Bench 的 210 个仿真场景及 18 个 sim-to-real 场景中显著提升了密集杂乱抓取成功率。

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation figure
arXiv2026-03-10

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

抓取

抓取任务规划操作

这篇工作针对端到端VLA虽接口统一但依赖大量示教、而传统TAMP又难以泛化和部署的问题,提出模块化系统TiPToP:把预训练视觉基础模型提供的开放词汇感知、6-DoF抓取和目标解析,与GPU并行TAMP及轨迹执行解耦结合,直接从双目RGB和语言完成多步操作,并可较快迁移到新机器人。173次、28项仿真与真实桌面任务显示,它在零机器人数据下总体达到或超过用350小时DROID数据微调的π0.5-DROID,但文中也指出其开环执行缺乏反应性,易在小物体、滑落和凹形几何上失败。

TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration figure
arXiv2026-03-10

TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration

人机交互

多智能体/多机器人人机交互

这篇工作关注人机协作中“短暂推拉机器人”难以被转成任务语义的问题,试图补上视觉/语言模型忽视力交互、传统 pHRI 又多停留在轨迹修正的空缺。TATIC先用关节力矩残差完成接触检测与粗定位,再用任务感知的因果多任务 TCN 同时预测离散任务意图和连续运动参数,并借助局部坐标规范化提升跨布局泛化,最终将推断结果转成运动适应策略。实验中意图识别 Macro-F1 达 0.904,且在协作拆解硬件实验中验证了在线适应能力。

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation figure
arXiv2026-03-10

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

辅助任务

辅助任务VLA安全感知机器人学习操作

机器人操作常因长时任务中抓取失败、卡住或状态偏离而错误累积,现有进度监控多停留在抽象语言层,难以直接驱动恢复。SPR把语言指令自动分解为可验证的2D空间里程碑,并以“看当前/下一子目标—规划轨迹—进度停滞时回退到可恢复状态”的闭环执行,在不引入额外失败数据或辅助模型下实现纠错。实验中其在LIBERO上超过MolmoAct约4–5%,在OOD更强的LIBERO-Plus上平均性能跌幅仅18.8%,优于OpenVLA-OFT和UniVLA,实机长程整理与推物任务也更稳健。

SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly figure
arXiv2026-03-10

SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly

VLA

VLA接触丰富应用

这篇工作针对工业拆解中长时序、接触丰富且步骤受约束的操作,指出纯端到端VLA难以稳定处理“接近目标—精确接触—失败恢复”这类阶段差异。SELF-VLA将VLA规划器、显式技能库和VLA纠错器结合:先由模型接近并在合适状态触发技能,再按预定义waypoint执行解锁/拔取,并用抓取与掉落检测做重抓。实验在两项拆解任务、四个VLA骨干上显示成功率显著高于端到端基线,但增益依赖基座先到达足够准确的预接触位姿,OOD朝向下仍明显失效。

ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly figure
arXiv2026-03-10

ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

触觉

触觉Transformer Policy机器人学习应用

该工作针对精密装配“最后一毫米”阶段中视觉会因末端与工件遮挡而失效、必须依赖接触反馈的问题,在ACT上扩展出原生视觉—触觉策略:先用双向跨模态注意力互相增强视觉与触觉特征,再用由本体状态条件化的门控在接近插入时动态提高触觉权重,并通过触觉重建损失逼迫编码器学习接触几何而非表面纹理。基于NIST ATB M1插销装配实验,方法在3mm间隙下成功率达90%,在0.1mm工业级间隙下仍有80%,明显超过纯视觉ACT及通用策略。

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning figure
ICRA 20262026-03-10

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

数据需求量大

数据需求量大模仿学习数据采集数据筛选机器人学习

这篇论文针对示教学习里“数据多但示教质量参差、人工清洗又依赖经验”的瓶颈,提出QoQ,把数据质量定义为样本对验证示教损失下降的真实贡献。方法上用影响函数估计样本价值,并针对机器人轨迹提出两点关键改造:对验证集取最大影响而非平均,以减少无关行为带来的噪声;再按轨迹聚合分数筛选整段示教,避免只挑到重复片段、提升状态覆盖。实验显示,它在仿真和真实机器人上都优于基于特征相似度或互信息的筛选方法,成功率最高分别提升23.2%和30.0%。

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties figure
arXiv2026-03-10

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

安全

安全操作数据集/Benchmark

论文针对机械臂在非凸环境、运动误差和障碍物不确定性下,现有方法难同时兼顾规划效率与可证明安全的问题,提出把RM-DeSKO不确定动力学预测、并行物理仿真与SOS分层碰撞风险验证、以及利用二值碰撞反馈更新的MPPI控制器结合起来。结果表明,该方法在两类机械臂的仿真与真实人机协作任务中可实现约6 Hz重规划并完成仿真到现实迁移,但相对基线的详细量化增益文中未充分说明。

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models figure
arXiv2026-03-10

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

VLA

VLA机器人学习

该文针对现有端到端VLA难以显式建模可复用操作原语、依赖大量示教且基本停留在模仿学习的问题,提出NS-VLA:先用符号编码器把指令与视觉观测解析为结构化原语计划,再用受计划约束的符号求解器生成稀疏动作,并结合在线RL联合优化原语切换与控制,从而扩大探索空间。实验显示其在LIBERO/LIBERO-Plus上均优于OpenVLA等方法,尤其在1-shot训练、扰动与零样本泛化下仍保持明显优势,如成功率达到98.6%、69.1%和79.4%。

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models figure
arXiv2026-03-10

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

3D 表征

3D 表征VLA机器人学习

该工作针对现有 VLA 主要依赖 2D patch 或逐像素深度、难以显式表达表面朝向与几何置信度,且动作前缺少可检查的空间推理这一问题,提出 GST-VLA:用 Gaussian Spatial Tokenizer 将语义特征和深度压缩为 3D 高斯空间 token,并用 DA-CoT 监督生成物体定位、抓取接触、距离关系和粗 SE(3) 路点,再交给流匹配动作专家解码。实验中其在 LIBERO 达到 96.4%,较基线提升 2.0%,在 SimplerEnv 达到 80.2%,提升 5.4%,增益主要集中在插入、薄物体抓取等高精度任务。

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning figure
arXiv2026-03-10

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

强化学习

强化学习触觉机器人学习

针对稀疏奖励、长时程操作里在线交互昂贵且无约束探索易跑偏的问题,本文提出DICE-RL,将强化学习视为对预训练生成式BC策略的“分布收缩”算子,而不是从零找策略。方法是在冻结的扩散/流行为先验上学习残差策略,并结合选择性行为正则与价值引导动作选择,把探索限制在先验支持附近,同时放大高回报动作模式。实验显示,该方法在像素输入的仿真与真实机器人长时程操作上都能更稳定、更省样本地提升成功率。

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation figure
arXiv2026-03-10

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

Flow Matching

Flow Matching泛化机器人学习

这篇工作针对流匹配/扩散策略虽能拟合多峰示教、却因多步ODE采样过慢而难以用于高频闭环控制的问题,提出用IMLE将CFM教师蒸馏为单步学生,并以双向Chamfer集合级目标同时约束模式覆盖与保真,缓解单步策略常见的分布塌缩;同时融合RGB、深度、点云和本体感觉。结果上,学生在RLBench以123.5Hz达到68.6%成功率,保留教师约93%性能且明显优于一致性策略;实机达70.0%、125Hz,相对教师提速43倍,并在动态扰动下更稳健。

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation figure
arXiv2026-03-10

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

灵巧操作

灵巧操作VLA操作

这篇工作针对灵巧操作中高维多指控制、接触敏感和分布漂移使纯离线SFT难以把VLA适配到具体任务的问题,提出DexHiL:将机械臂与灵巧手统一到同一套人类在线干预框架中,结合学习式手部重定向、轻量遥操作,以及面向纠错片段的干预感知采样与重加权,在离线预热后进行DAgger式在线修正以提升样本效率。真实机器人实验显示,其相对仅做离线微调的基线在多任务成功率上平均提升25%,并在两项任务中经三轮在线迭代分别取得20%和30%的提升。

DRAFTO: Decoupled Reduced-space and Adaptive Feasibility-repair Trajectory Optimization for Robotic Manipulators figure
arXiv2026-03-10

DRAFTO: Decoupled Reduced-space and Adaptive Feasibility-repair Trajectory Optimization for Robotic Manipulators

基础操作

基础操作任务规划操作非学习控制

论文针对机械臂轨迹优化在连续碰撞、关节限位和任务约束下反复求解大规模约束QP过慢、又易陷入不可行局部极小的问题,提出DRAFTO:将主迭代改为低维函数空间中的约化Gauss-Newton搜索,只在初始化和终止可行性修复时求解约束QP,并结合空域等式处理、hinge-squared不等式罚项与两阶段接受策略。基于1000余个单/双臂任务,方法较FACTO耗时降40%–75%且成功率仅小幅下降,相比GPMP2快2–6倍且成功率达92%–97%,并在FR3抽屉取物上完成实机验证。

Cross-Hand Latent Representation for Vision-Language-Action Models figure
CVPR 20262026-03-10

Cross-Hand Latent Representation for Vision-Language-Action Models

VLA

VLALatent Learning泛化机器人学习

这篇工作针对灵巧手形态差异大、每种新手都要单独采集示教,导致VLA难以跨平台扩展的问题,提出XL-VLA:先用无监督动作自编码器学习与具体手型无关的共享潜在动作,再用各手的解码器还原到关节空间,并将该潜变量直接接入标准VLA。论文在4种灵巧手、10个真实任务上表明,该表示比直接预测原始关节的VLA和重定向基线更强,还能对未训练的手-任务组合实现零样本泛化;但给定片段未充分说明具体提升幅度。

CORAL: Scalable Multi-Task Robot Learning via LoRA Experts figure
arXiv2026-03-10

CORAL: Scalable Multi-Task Robot Learning via LoRA Experts

VLA

VLA机器人学习

这篇工作针对VLA多任务微调中常见的梯度冲突、负迁移,以及为每个任务保存整模型过于昂贵的问题,提出CORAL:冻结共享骨干、为每个任务训练独立LoRA专家,并直接用语言指令做确定性路由,避免MoE门控开销与参数级干扰,也便于顺序增添新任务。实验中,CORAL在LIBERO上把SimVLA提升到99.3%、π0.5提升到98.4%,在WidowX和Google Robot上也分别达到97.9%和84.9%;真实机效果有验证,但统一量化增益文中未充分说明。

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks figure
arXiv2026-03-10

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

VLA

VLA泛化安全机器人学习操作数据集/Benchmark

这篇工作针对现有机器人仿真基准多停留在抓放等短时程任务、难以体现真实操作中的非马尔可夫依赖与关节联动,提出了带钥匙锁、密码锁和逻辑锁的保险箱基准 RuleSafe,并借助 LLM 扩展多阶段解锁规则;同时提出 VQ-Memory,将历史本体感知状态压缩成离散 token,过滤低层噪声、保留任务阶段信息,作为可插拔时序记忆接入 VLA 和 diffusion policy。实验表明它能提升长时程规划与未见配置泛化,并降低计算开销,但文中未充分说明具体增益幅度。

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models figure
arXiv2026-03-10

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

VLA

VLA语言条件机器人学习

论文指出现有VLA和扩散策略虽能生成动作块,但每次感知后都会重置时序上下文,导致控制抖动、长程任务易“失忆”。AR-VLA将低层控制改为真正跨时间的自回归动作专家,用混合KV缓存持续保留动作历史,并以动态时序重锚定对齐慢速视觉语言前缀与高速控制流。文中在仿真和真机的通用/专用操作上取得不低于、部分优于OpenVLA和DP等方法的成功率,同时轨迹更平滑、历史感知更强。

ΔVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation figure
arXiv2026-03-09

ΔVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

3D 表征

3D 表征VLA机器人学习

这篇工作针对现有 VLA 更擅长“预测未来长什么样”却不擅长“推理动作应让世界如何变化”的问题,提出 ΔVLA:先用 PWKE 从视觉中抽取可操作区域、深度/空间关系和语义,构建显式当前世界先验,再用 LWVQ 将动作引起的世界知识变化离散量化,并通过 CV-Atten 减少不同知识流之间的干扰。文中称其在 LIBERO、RoboTwin 2.0 和真实机器人任务上同时取得更高成功率与更好效率,但摘要未充分说明具体增益幅度与各模块贡献边界。

Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA figure
arXiv2026-03-09

Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA

灵巧操作

灵巧操作人形操作VLA数据采集数据增强遥操作操作

这篇工作瞄准现有VLA主要停留在低自由度、以视觉抓放为主的局限,试图把它扩展到双手高自由度、接触丰富的类人灵巧操作。其关键做法是把RL训练的IMCopilot同时用作遥操作共享自治助手和推理时可调用的手内操作技能,并用MoDE-VLA以残差注入和稀疏专家方式融合力觉与触觉,尽量不破坏预训练VLA。实验在齿轮装配、插充电器、试管整理和削苹果四项任务上,相比基线成功率约翻倍,并展示了自主双灵巧手削苹果。

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation figure
arXiv2026-03-09

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

数据需求量大

数据需求量大数据采集数据生成数据增强

这篇工作针对机器人VLA高度依赖人工示范、自动采集又易因失败轨迹累积而在自训练中崩塌的问题,提出Seed2Scale:让轻量SuperTiny负责并行探索和轨迹生成,用预训练VLM自动判定成败并打分过滤,再用高质量数据训练目标SmolVLA,形成“小模型采集—大模型验数—目标模型学习”的闭环。实验称只需4条种子示范,迭代后成功率可由22.18%升至68.57%,且优于现有数据增强;但文中不同位置把相对增益写成131.2%或209.15%,增益来源可能主要来自scaling/data,细节文中未充分说明。

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM figure
arXiv2026-03-09

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

模仿学习

模仿学习Latent Learning语言条件机器人学习

这篇工作针对 VLM 做 in-context 模仿学习时“一次生成整条轨迹”在环境变化下很脆弱的问题,提出把机器人模仿改写为测试时可持续加算力的轨迹搜索:用 MCTS 以“完整轨迹”为节点,并结合成功轨迹检索与 VLM 的逐步打分反馈反复修正。实验覆盖 6 个操作任务和真实机器人,显示测试时扩展更多节点能稳定提升成功率,复杂任务最高达 95%。

RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models figure
arXiv2026-03-09

RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models

VLA

VLA机器人学习

论文针对VLA在机器人端部署时推理开销大、现有视觉熵驱动的边云划分易受噪声干扰且忽视动作阶段冗余的问题,提出RAPID:不再用环境视觉置信度触发卸载,而以关节加速度、力矩等运动学/动力学信号估计兼容性与动作重要性,把平滑冗余阶段留在边端、关键交互阶段卸载到云端,从而减少无效中断并保持动作连续性。实验显示其相对Edge-Only和视觉基线最高提速1.73倍、精度提升15.8%,额外开销约5%–7%。

PlayWorld: Learning Robot World Models from Autonomous Play figure
arXiv2026-03-09

PlayWorld: Learning Robot World Models from Autonomous Play

辅助任务

辅助任务VLA世界模型感知机器人学习

论文关注机器人视频世界模型在接触密集操作中易因人类示范数据偏置而产生“幻觉”失真。PlayWorld 的核心洞察是,关键瓶颈可能主要来自数据而非模型:让机器人通过可夜间无监督运行的自主 play 持续采集长尾接触、失败和反事实状态,再训练动作条件世界模型。实验显示其物理一致性预测明显更好,失败预测与策略评估较人采数据最高提升40%,并可在世界模型内做强化学习,使真实部署成功率再提高65%。

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies figure
arXiv2026-03-09

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

VLA

VLA基础模型机器人学习

这篇工作针对通用VLA在复杂空间语义理解、拥挤场景避障和精细操作上的“最后一公里”失效,提出无需额外机器人数据与再训练的推理时框架 OmniGuide:把3D重建、VLM语义推理、手部/人体姿态等外部先验统一成位于3D空间的可微能量场,以吸引/排斥梯度直接引导扩散或flow-matching动作采样。实验显示,它在仿真和真实环境中都能稳定提升 π0.5、GR00T N1.6,成功率最高由24.2%升至92.4%,避碰率由7.0%升至93.5%,且延迟开销较小。

Interactive World Simulator for Robot Policy Training and Evaluation figure
arXiv2026-03-09

Interactive World Simulator for Robot Policy Training and Evaluation

辅助任务

辅助任务VLA世界模型感知机器人学习数据集/Benchmark

针对现有动作条件视频世界模型速度慢、长时交互易漂移的问题,本文提出两阶段的 Interactive World Simulator:先以 CNN 编码器和一致性模型解码器学习 2D 潜表示,再在潜空间用动作条件一致性动力学做自回归预测,从中等规模真实机器人交互数据构建可交互世界模型。实验表明,它在单张 4090 上可 15FPS 稳定滚动 10 分钟以上,长时预测真实感优于 Cosmos、UVA 等;更关键的是,仅用仿真生成数据训练的模仿策略表现接近同量真实数据,且仿真评测与真实世界成绩高度相关。

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models figure
arXiv2026-03-09

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作面向VLA在边缘机器人上的部署瓶颈,指出静态量化忽略了闭环操作中从粗运动到精细接触的时序敏感度变化,因而要么浪费算力,要么在关键阶段放大量化误差。作者的核心洞察是:量化敏感度具有明显时间动态性,且可由机械臂运动学代理信号估计;据此提出DyQ-VLA,在INT4权重基础上结合运动精细度与角jerk进行位宽切换和动态激活分配,必要时回退高精度。结果显示其仅用30.9%原始内存即可保持99.5%性能,仿真和真实机分别提速1.49倍与最高1.43倍。

AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models figure
arXiv2026-03-09

AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models

辅助任务

辅助任务VLALatent Learning世界模型感知机器人学习操作

这篇工作针对VLA在长时序操作中只依赖高层指令、缺少中间语义锚点而易累积误差,以及在线RL代价高的问题,提出两阶段AtomVLA:先用GPT-4o将示范分解为2-5个原子子任务并用于SFT,再用基于V-JEPA2的潜在世界模型在离线轨迹上评估动作块、为GRPO提供奖励。实验在LIBERO/LIBERO-PRO上分别达到97.0%和48.0%,并在Galaxea R1 Lite真机长程任务上验证有效,但各模块相对增益来源文中未充分说明。

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis figure
CVPR 20262026-03-09

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

抓取

抓取灵巧操作AffordanceDiffusion Policy操作

论文针对“同一物体因指令不同应有不同抓法”这一语义抓取难题,指出现有方法在3D几何与文本之间存在明显模态鸿沟,且缺少显式空间与物理约束,容易生成接触不合理或语义错位的手型。其核心做法是先自动为HO-3D、OakInk等数据补充结构化交互指令,再用可供性生成器定位与指令对应的局部交互区域,并结合双条件潜扩散与分布调整模块,在采样时同时约束接触一致性和语义对齐。实验表明其在四个增强基准上均优于现有方法,提升了抓取质量、语义准确率和多样性,但尚未显式建模重力、摩擦等物理先验。

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos figure
arXiv2026-03-09

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

3D 表征

3D 表征视频规划基础模型感知机器人学习操作

这篇工作针对机器人策略训练严重依赖大量遥操作示教、而直接利用人类视频又受人与机器人运动学和操作策略差异限制的问题,提出3PoinTr:先从单帧点云预测与执行体无关的稠密3D点轨迹,再用Perceiver IO提炼任务相关表示并驱动扩散式行为克隆,避免手工关键点或物体掩码偏置,从而能利用随手拍、非编排的人类视频。实验显示,在仿真和真实任务上仅用20条机器人示教就获得稳健空间泛化,平均成功率较最强基线提升43.8%,点轨迹预测质量也优于现有方法。

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation figure
arXiv2026-03-08

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

VLA

VLA机器人学习操作

这篇工作针对预训练VLA在长时序操作中“单帧决策、几乎无记忆”而易受遮挡、状态混淆和细微后效影响的问题,提出无需训练的TempoFit:把冻结骨干各层前缀注意力的K/V直接当作模型原生时序记忆,在选定中间层做FIFO缓存、带Frame-Gap Temporal Bias的K-to-K检索,并以预注意力残差注入历史上下文,尽量避免分布漂移。实验上,它在LIBERO-LONG上将π0.5平均成功率从92.6%提到96.6%,也提升QwenGR00T、CALVIN和真实机器人表现,同时基本保持近实时推理速度。

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation figure
ICRA 20262026-03-08

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

任务规划

任务规划多模态推理Affordance模仿学习数据采集感知操作

这篇工作针对现有可供性方法只找接触区域、再单独估姿而易出现“点对了但姿态不对”的执行失配,提出以姿态为中心的可供性学习:把接触点与接触姿态联合建模,并用 Human2Afford 从人类演示中自动恢复深度、目标mask和手物接触几何,生成可扩展训练标注;模型端再结合RGB-D编码、目标区域增强和扩散生成进行条件预测。实验显示其在AGD20K、RLBench和真实机器人上分别提升18.6%、38.5%和24.9%,说明联合建模比“区域+独立姿态”更可靠。

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills figure
arXiv2026-03-08

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

人形操作

人形操作模仿学习人机交互操作

这篇工作面向人形机器人真实人-物交互中“动作能跟上、接触不稳定、奖励难手调”的问题,提出统一物理模仿学习框架 InterReal。其关键做法是用带手物接触约束的 IK 运动增广提升对物体位姿扰动的鲁棒性,并用由关键跟踪误差驱动的元策略自动分配底层奖励权重。实验显示,在搬箱与推箱任务上它比近期基线取得更低跟踪误差和更高成功率,并在 Unitree G1 真机上完成闭环部署。

ICLR: In-Context Imitation Learning with Visual Reasoning figure
arXiv2026-03-08

ICLR: In-Context Imitation Learning with Visual Reasoning

模仿学习

模仿学习Latent Learning感知机器人学习

作者针对现有 in-context 模仿学习只依赖状态—动作轨迹、在多目标和杂乱场景中难以表达任务意图的问题,提出 ICLR:把图像空间中的未来末端执行器轨迹作为结构化视觉推理加入示范提示,并用统一自回归 Transformer 联合生成推理痕迹与低层动作,让策略先推断再执行。文中称其在仿真和真实机械臂任务上,相比其他 in-context IL 基线,在成功率以及对未见任务和新物体配置的泛化上都有稳定提升,但具体增益分解文中未充分说明。

HSC-VLA: Hierarchical Scene-Clearing for Robust Bimanual Manipulation in Dense Clutter figure
arXiv2026-03-08

HSC-VLA: Hierarchical Scene-Clearing for Robust Bimanual Manipulation in Dense Clutter

VLA

VLA安全双臂机器人学习操作

论文针对端到端VLA在高密度杂乱场景中易被无关物体分散注意、且长时程规划与低层控制相互干扰的问题,提出分层双臂操作框架HSC-VLA:高层“Brain”用VLM拆解任务并生成目标相关场景掩码,低层“Cerebellum”只基于掩码视觉与本体感觉执行扩散策略,并强调训练与部署的感知—动作一致性。在超市货架实验中,其高密杂乱综合成功率达86.7%,较最佳单体基线34.3%提升52.4%,排序与补货长任务分别达到72%和66%。

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection figure
arXiv2026-03-08

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection

模仿学习

模仿学习数据采集跨本体遥操作

这篇论文关注 gripper-in-hand 采集的核心瓶颈:演示是否能被目标机器人执行,往往要到事后 replay 才知道,导致无效轨迹反复采集与验证。FeasibleCap把 iPhone 装到手持夹爪上,用 ARKit 位姿、在线逆解和 URDF 约束检查,在采集时实时提示可达性、关节速度和碰撞风险,并用屏幕叠加与震动引导纠正,无需头显、真机或学习模型。结果显示它在抓放和抛掷任务上都提升 replay 成功率、减少不可执行帧,且对抛掷这类动态任务收益更明显;仿真还表明跨本体迁移能力未明显受损。

DAISS: Phase-Aware Imitation Learning for Dual-Arm Robotic Ultrasound-Guided Interventions figure
arXiv2026-03-08

DAISS: Phase-Aware Imitation Learning for Dual-Arm Robotic Ultrasound-Guided Interventions

模仿学习

模仿学习音频安全双臂机器人学习操作

本文针对超声引导穿刺中“探头稳像+针具进针”的非对称双臂协同难、操作者负担重的问题,构建了可采集高保真示教的双臂遥操作平台DAISS,并提出相位感知模仿学习:按流程阶段解耦双臂控制,用动态掩码损失和多模态融合在接近与精细操作间切换优化重点。体模实验表明,该方法可用少量示教实现个体化策略迁移,保持稳定超声视野并提升靶向精度,同时明显减轻轨迹过冲与抖动。

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots figure
CVPR 20262026-03-08

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

VLA

VLA泛化机器人学习

论文针对现有VLA用单一动作解码器处理混合技能、难以支撑长时序任务和持续学新技能的问题,提出统一的Think-Act框架AtomicVLA:先生成任务链与原子技能抽象,再用技能引导的MoE调用专属专家执行;新技能只需扩展路由和新增专家,以减轻干扰与遗忘。结果上,LIBERO平均提升2.4%、LIBERO-LONG提升10%,CALVIN平均成功长度较π0/π0.5增0.22/0.25,真实机器人长程与持续学习提升18.3%和21%。

AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow figure
arXiv2026-03-08

AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow

空中操作

空中操作感知操作

论文针对空中机械臂放置任务长期依赖人工指定精确目标位姿、难以用自然语言下达目标的问题,提出免训练的AeroPlace-Flow:先借助语言条件图像编辑生成“放好后的场景”,再通过深度对齐、接触区域估计和显式3D几何推理,把这一直观语义目标转成可执行、避碰的物体流轨迹。作者在100个语言放置任务上得到80%成功率,真实无人机20次实验中达到75%,且文中指出主要瓶颈更多来自单目深度重建与接触推断,而非视觉生成。

Adaptive Capacity Allocation for Vision Language Action Fine-tuning figure
ICRA 20262026-03-08

Adaptive Capacity Allocation for Vision Language Action Fine-tuning

VLA

VLA机器人学习

这篇论文关注VLA在新环境、新机械臂和多任务场景下微调时,固定rank的LoRA容量常常不够且任务间差异很大,导致调参困难和子空间干扰。作者提出LoRA-SP,用SVD式共享向量库加轻量router,为每层每个输入按累计能量阈值动态选择最小有效rank,并用谱损失促使能量集中、便于裁剪。在AgileX PiPER四个真实操作任务、π0和SmolVLA两种骨干上,它以更少可训练参数达到或超过全量微调,多任务成功率相比标准LoRA最高提升31.6%,且对rank选择更稳健。

RoTri-Diff: A Spatial Robot-Object Triadic Interaction-Guided Diffusion Model for Bimanual Manipulation figure
ICRA 20262026-03-07

RoTri-Diff: A Spatial Robot-Object Triadic Interaction-Guided Diffusion Model for Bimanual Manipulation

3D 表征

3D 表征Diffusion Policy人机交互双臂机器人学习操作

针对双臂模仿学习往往只建模机器人轨迹或物体运动、忽视“两臂—物体”动态几何关系而易出现互撞、掉落和协同失稳的问题,RoTri-Diff提出RoTri三元交互表征,用两末端执行器与物体之间的相对6D位姿形成连续三角约束,并在分层扩散框架中联合预测物体点流、关键姿态和连续动作。实验显示其在RLBench2的11个任务上较现有方法平均提升10.2%,并在4个真实双臂任务中保持稳定执行,说明显式空间关系建模对细粒度协同操作很关键。

Swooper: Learning High-Speed Aerial Grasping With a Simple Gripper figure
RA-L 20252026-03-06

Swooper: Learning High-Speed Aerial Grasping With a Simple Gripper

抓取

抓取空中操作操作

这项工作针对高速空中抓取中飞行控制与夹爪时序强耦合、从零强化学习难收敛的问题,提出 Swooper:先预训练飞行策略,再微调出抓取能力,用单个轻量网络同时控制四旋翼运动与夹爪开合时机,并在简单现成两指夹爪上实现零样本仿真到实机迁移。训练在 RTX 3060 上不足 60 分钟,机载树莓派推理约 1 ms;实机 25 次测试中抓取成功率为 84%,最高速度 1.5 m/s。相对复杂软夹爪方案的性能增益有多少来自策略、多少来自平台,文中未充分说明。

Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance figure
arXiv2026-03-06

Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

人机交互

多智能体/多机器人人机交互安全

论文面向重度肢体障碍辅助操作中“看一眼就想选中”的需求,解决多目标、视角变化和微眼跳下凝视意图易漂移的问题。其关键是以对象为中心做 gaze grounding,用 sticky-glance 同时累积几何距离与视线方向趋势,把最少3个注视样本稳定锚定到目标,再结合带确认的凝视-语音连续共享控制。实验中,静态选择准确率达0.98、动态跟踪率约0.92,任务时长较基线缩短近10%,成功率最高到0.96。

RoboCritics: Enabling Reliable End-to-End LLM Robot Programming through Expert-Informed Critics figure
HRI 20262026-03-06

RoboCritics: Enabling Reliable End-to-End LLM Robot Programming through Expert-Informed Critics

任务规划

任务规划程序化规划语言条件

这篇论文关注用LLM让新手通过自然语言编写机器人程序时,常因黑盒代码难验证而带来安全风险。作者提出RoboCritics,把机器人专家知识写成运动层 critics,直接检查执行轨迹中的碰撞、关节超速和末端姿态问题,并将可解释告警与一键修复结构化反馈回LLM,形成“生成—验证—改写”的人在回路闭环。在UR3e上的18人用户研究表明,该方法相对基础LLM界面减少了安全违规、提升了执行质量,但具体增益幅度文中未充分说明。

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration figure
arXiv2026-03-06

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

VLA

VLA机器人学习

作者发现VLA在矛盾指令下仍会执行看似正确的操作,暴露出“语言失明”:动作生成更依赖视觉先验而非指令语义。为诊断并缓解这一安全问题,文中基于LIBERO构建ICBench,并提出免训练的推理期注意力重校准IGAR,把注意力从sink token转回关键指令词。30个任务、π0/π0.5/OpenVLA-OFT及Franka实验表明,它能显著减少OOD矛盾指令下的误执行,同时基本保持正常任务性能。

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild figure
arXiv2026-03-06

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

VLA

VLA应用

针对温室草莓采摘中遮挡、反光强、接触易损且传统感知—规划链条调参重、迁移差的问题,论文将开源VLA首次落到真实桌面式采摘:仅用三路RGB与语言指令,不依赖深度和显式标定,并用3.71小时VR示教微调多种策略。结果上,pi_0.5全量微调在50次真实测试中达74.0%成功率、32.6秒/次、4.1%损伤率,异步推理控制优于同步,但近距离可观测性丢失和接触动力学失配仍是主要瓶颈。

DexEMG: Towards Dexterous Teleoperation System via EMG2Pose Generalization figure
arXiv2026-03-06

DexEMG: Towards Dexterous Teleoperation System via EMG2Pose Generalization

灵巧操作

灵巧操作数据采集泛化遥操作感知

这篇工作针对灵巧手遥操作在“高性能但笨重”和“便携但易遮挡”之间的矛盾,提出用低成本sEMG腕带解码前臂肌电来替代视觉/外骨骼。核心是采集sEMG与手套姿态同步数据,训练可连续预测22自由度手部运动的EMG2Pose,再配合实时避碰重定向控制机械手。实验中,系统在训练物体上达76%成功率,对新物体和新环境仍保持可用,并能完成包装、擦拭等长时任务;但跨用户仍需校准,且缺少力反馈。

Data Analogies Enable Efficient Cross-Embodiment Transfer figure
arXiv2026-03-06

Data Analogies Enable Efficient Cross-Embodiment Transfer

泛化

泛化跨本体

论文关注跨本体机器人学习中“哪些外部示范真正有用”这一问题:仅把不同机器人、视角和场景的数据越堆越多,未必能有效迁移到目标机器人。作者提出以“数据类比”为核心的数据组织思路,在不同本体间刻意收集场景、任务或轨迹相对应的配对示范。实验表明,视角/外观这类感知变化更依赖广覆盖多样性,而末端形态差异更依赖这种配对类比;在不改模型、只改数据组成下,仿真较大规模非配对数据提升19%,真实世界平均提升22.5%。

CDF-Glove: A Cable-Driven Force Feedback Glove for Dexterous Teleoperation figure
arXiv2026-03-06

CDF-Glove: A Cable-Driven Force Feedback Glove for Dexterous Teleoperation

灵巧操作

灵巧操作可变形物体触觉数据采集遥操作操作

这篇工作针对灵巧操作中模仿学习缺少高质量遥操作示教、而现有数据手套常常无触觉反馈且笨重昂贵的问题,提出低成本线缆驱动的 CDF-Glove。其核心在于把20自由度手部状态获取(16个直接测量、4个由运动学约束推断)与闭环力反馈结合,并建立从线缆位移到关节角的运动学与控制栈。实验显示该手套末端关节重复精度达0.4°、力反馈延迟约200ms;相比无反馈遥操作,任务成功率提升4倍,基于其双手示教数据训练的策略相对动觉示教平均成功率提升55%,完成时间缩短15.2秒。

AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models figure
arXiv2026-03-06

AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models

VLA

VLA泛化安全感知

论文针对VLA部署后常过拟合训练相机视角、几厘米位移都可能让成功率腰斩的问题,提出零样本相机适配:不改策略结构、不再收集示教,只在测试时用前馈式新视角合成把当前RGB观测实时变回训练视角。其核心洞察是把“学会跨视角泛化”改成“恢复到策略熟悉的输入分布”。在LIBERO和真实机器人上,该方法均优于视角增强微调和3D感知基线,在外参、内参变化及手持相机场景下更稳,最多15cm平移、60°旋转时退化也更小。

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory figure
arXiv2026-03-05

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Vision-Action

Vision-Action机器人学习

这篇工作针对机器人模仿学习在非马尔可夫任务上“记不住远因”的问题:直接拉长历史窗口既算力昂贵,也容易学到伪相关。VPWEM把近期观测保留为工作记忆,再用基于Transformer的压缩器把窗口外历史递归写成固定长度情节记忆,并与扩散策略联合训练,从而在近乎恒定的每步开销下利用整段轨迹信息。结果上,它在记忆需求高的MIKASA上较现有扩散/VLA基线提升20%以上,在MoMaRT平均提升约5%,在近马尔可夫的Robomimic上基本持平。

UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data figure
ICRA 20262026-03-05

UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

抓取

抓取灵巧操作数据生成双臂操作

论文针对双臂灵巧抓取长期受限于高质量、多策略数据不足的问题,提出 UltraDexGrasp:把基于优化的抓取合成与基于规划的示范生成结合,统一生成双指捏取、三指 tripod、全手和双手协同抓取轨迹,并据此构建 20M 帧、1000 个物体的数据集,再训练点云输入的闭环策略。结果上,纯合成数据训练即可在仿真 600 个物体上达 84.0% 成功率、真实场景零样本迁移达 81.2%;但模型设计相对简单,增益可能主要来自 scaling / data,文中未充分拆解各模块贡献。

TransMASK: Masked State Representation through Learned Transformation figure
arXiv2026-03-05

TransMASK: Masked State Representation through Learned Transformation

3D 表征

3D 表征机器人学习

这篇工作关注模仿学习策略容易把桌面纹理、背景杂物等偶然因素也学进控制中,导致跨场景泛化脆弱。作者提出 TransMASK,用与策略同步训练的变换掩码,借助反向传播中梯度/Jacobian 的幅值自动强化动作相关状态、抑制无关维度,不需额外标注、也不改原有损失,可直接嵌入扩散策略等模仿学习框架。实验显示它在视觉与非视觉状态上都比多种表征学习基线更能抵抗无关特征的分布偏移,但方法依赖状态可较好解耦,这一前提较强。

Task-Relevant and Irrelevant Region-Aware Augmentation for Generalizable Vision-Based Imitation Learning in Agricultural Manipulation figure
arXiv2026-03-05

Task-Relevant and Irrelevant Region-Aware Augmentation for Generalizable Vision-Based Imitation Learning in Agricultural Manipulation

模仿学习

模仿学习数据增强泛化感知操作应用

面向农业操作中示教昂贵、作物外观与背景变化大而导致视觉模仿学习易抓住伪相关的问题,论文提出 DRAIL:先用领域知识把图像划分为任务相关区与无关区,再对前者做保留关键外观的定向增强,对后者做强随机化,以迫使 diffusion policy 关注真正决定动作的目标特征。作者在仿真蔬菜采摘和真实生菜病叶预处理上报告了未见视觉条件下更高成功率,并用注意力与 ARG 指标表明策略更少依赖背景;但相关区域提取与增强设计仍主要依赖人工经验。

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation figure
arXiv2026-03-05

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Diffusion Policy

Diffusion Policy机器人学习操作

本文的出发点是:标准 Diffusion Policy 将历史观测简单堆帧后,观测时域越长反而越容易退化,说明瓶颈主要在时序建模而非动作生成。作者提出带门控的递归时序模块 SEGA,用持续演化的紧凑隐状态累积长程上下文,并借助交叉注意力门控过滤遮挡、背景变化等无关帧;接入 DP 后形成 SeedPolicy。RoboTwin 2.0 的 50 个任务上,其相对 DP 在 clean 与 randomized 设置下平均分别提升 36.8% 和 169%,且在 clean 下以显著更少参数超过 RDT。

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation figure
arXiv2026-03-05

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

VLA

VLA安全机器人学习操作

这项工作针对现有VLA过度依赖RGB、既看不到温度或埋藏目标等“不可见”物理状态、又缺少OOD执行时安全约束的问题,提出Safe-Night VLA:将长波红外热成像接入冻结的视觉语言骨干,并用控制障碍函数在推理时做动作安全过滤。其关键洞察是热模态不只是补充视觉,而是能支撑温度语义推理并抑制镜面反射错觉;注意力消融也表明策略确实利用了热梯度。Franka实机在温度条件操作、埋藏目标定位和反射消歧上优于纯RGB基线,同时保持受约束执行,但提供片段未充分说明具体量化增益。

SPIRIT: Perceptive Shared Autonomy for Robust Robotic Manipulation under Deep Learning Uncertainty figure
arXiv2026-03-05

SPIRIT: Perceptive Shared Autonomy for Robust Robotic Manipulation under Deep Learning Uncertainty

人机交互

多智能体/多机器人人机交互安全操作

这篇工作针对深度学习感知在安全关键操作中可能“自信出错”、难以直接可靠部署的问题,提出“感知式共享自主”:用基于数字孪生分区的点云配准和NTK/GP不确定性估计评估感知可信度,低不确定时启用半自主操作,高不确定时切回带触觉与3D可视反馈的遥操作。15人用户研究、8个基线消融和工业场景演示表明,SPIRIT在感知失效时仍能完成空中操作任务,并提升整体性能与系统可靠性,但自治切换阈值与人机负担的敏感性文中未充分说明。

RoboPocket: Improve Robot Policies Instantly with Your Phone figure
arXiv2026-03-05

RoboPocket: Improve Robot Policies Instantly with Your Phone

数据采集

数据采集遥操作

这篇工作针对手机/手持式示教虽易扩展、却缺少策略反馈,导致数据采集常处于“盲录”、难以覆盖失败状态的问题,提出 RoboPocket:用单部手机通过远程推理和 AR 轨迹预见把策略意图直接叠加到真实场景中,并配合异步在线微调,让用户无需实体机器人就能发现薄弱点、立即补采纠错数据。实验表明,该闭环流程符合数据 scaling 规律,但相较纯离线扩数可将数据效率提升约 2 倍,在分布式多环境下每人仅少量交互纠错也能带来最高 2 倍样本效率增益。

RealWonder: Real-Time Physical Action-Conditioned Video Generation figure
arXiv2026-03-05

RealWonder: Real-Time Physical Action-Conditioned Video Generation

任务规划

任务规划视频规划

这项工作针对现有视频生成只能做被动或2D控制、难以理解力和机器人操作后果的问题,提出 RealWonder:先从单张图像重建可模拟的3D场景,再用物理仿真把连续的3D动作转成光流与粗RGB等视觉中间表示,最后用蒸馏后的4步扩散模型实时生成视频,从而绕开动作 token 化和动作-视频配对数据难题。实验显示系统在单卡 480×832 下可达 13.2 FPS,并能交互式预览刚体、可变形体、流体与颗粒材料在受力、夹爪操作和相机运动下的结果。

Latent Policy Steering through One-Step Flow Policies figure
arXiv2026-03-05

Latent Policy Steering through One-Step Flow Policies

Latent Learning

Latent LearningFlow Matching机器人学习

这篇工作针对机器人离线强化学习的核心难点:一旦只顾回报最大化,策略容易跑出数据分布;而显式行为约束又很依赖超参数调节。作者提出 Latent Policy Steering,用可微的一步 MeanFlow 作为行为先验,把动作空间 Q 函数的梯度直接反传到潜变量策略,避免了以往潜空间 critic 蒸馏的近似误差,在基本免调参下实现策略改进。文中在 OGBench 和真实机械臂任务上报告了 SOTA,并持续超过 BC 与强潜变量基线;但具体增益中有多少来自 MeanFlow 底座,判断仍主要基于公开摘要与片段。

Hyperbolic Multiview Pretraining for Robotic Manipulation figure
arXiv2026-03-05

Hyperbolic Multiview Pretraining for Robotic Manipulation

3D 表征

3D 表征基础模型机器人学习操作

论文针对机器人操作预训练多在欧氏空间进行、难以编码多视角结构关系,导致扰动场景泛化不足的问题,提出双曲空间多视角自监督框架 HyperMVP:以五个正交视图做 MAE 预训练,用 GeoLink 将特征映射到 Lorentz 双曲空间,并结合邻域排序相关损失、蕴含损失及视图内/间重建学习 3D-aware 表征,同时构建 20 万级 3D-MOV 数据集。结果上,它在 COLOSSEUM 上平均较先前最佳提升 33.4%,在“全扰动”设定达 2.1×,在 RLBench 和真实场景也更稳健。

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation figure
arXiv2026-03-05

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

任务规划

任务规划视频规划操作

这篇工作针对视频生成模型做零样本操作时常见的两类失败:一是生成 rollout 会出现物理幻觉,二是从视频到机器人动作的几何重定向会累积误差。作者的关键洞察是让 VLM 补足 VGM 缺失的结构化物理推理:先从语言指令自动抽取空间、运动与安全约束,用它筛选更可信的视频轨迹,再用同一组约束做轨迹优化以修正执行偏差。文中在6个真实机器人精细操作任务上,相比最强基线成功率提升43.3个百分点,且不需要任务特定训练数据。

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding figure
arXiv2026-03-05

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

灵巧操作

灵巧操作触觉机器人学习

这篇工作的动机是:多指灵巧操作的瓶颈不只是“看见/感到”接触,而是让策略输出经过顺应控制器后仍能真实实现预期的多点接触演化。CGP将问题改写为“接触落地”:不用把触觉仅当附加观测,而是先在压缩触觉潜空间里用条件扩散联合预测未来机器人实际状态与触觉,再通过学习到的接触一致性映射生成控制器可执行的目标状态。在Allegro真机和Tesollo仿真的翻盒、擦盘、开罐、脆弱抓取等任务中,它相对纯视觉和视觉触觉扩散基线取得更高成功率,且在持续、精细接触任务上的优势更明显。

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models figure
arXiv2026-03-05

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对 VLA 把重推理一刀切地用于所有状态,既拖慢推理又缺少对分布外风险的识别,提出一个与具体 VLA 架构基本解耦的自适应路由框架:先从 VLM 主干提取表征,用 GMM、kNN 与小型 MLP 估计当前状态复杂度,再决定直接执行、触发额外推理或拒绝执行。其关键洞察是,判断任务复杂度时纯视觉表征比语言或融合表征更可靠,因为语言语义不变性会掩盖异常;在 LIBERO、LIBERO-PRO 和真机上,视觉配置仅用 5% 训练数据就达到约 80% F1,用于识别部分 OOD 任务。

Structural Action Transformer for 3D Dexterous Manipulation figure
CVPR 20262026-03-04

Structural Action Transformer for 3D Dexterous Manipulation

灵巧操作

灵巧操作3D 表征Transformer Policy操作

针对异构高自由度灵巧手难以共享示范、传统2D观测和按时间组织的动作块又难刻画3D空间关系与跨手型关节对齐的问题,SAT的核心洞察是把动作从时间序列(T,Da)改写为按关节组织的变长无序轨迹序列(Da,T),并用Embodied Joint Codebook注入关节功能与运动学先验,再从3D点云通过Transformer与flow matching生成整段动作。文中显示其在大规模异构预训练后,于仿真和真实双手操作任务上均稳定优于HPT、3DDP等基线,跨构型迁移与样本效率更强。

SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse figure
arXiv2026-03-04

SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse

辅助任务

辅助任务VLA双臂机器人学习操作

这篇工作关注双臂VLA中的“组合多样性”难题:现有方法常把双臂动作直接拼接建模,导致左右臂技能纠缠,只会复现训练中见过的配对,难以把已学单臂技能重组到新任务。SkillVLA的核心是用分层推理先识别技能结构,再由高层判断是否需要协作、低层在“单臂独立生成”和“跨臂通信协作”两种模式间切换,从而支持技能复用。真实机器人实验表明,它在未见技能组合任务上把成功率从0%提升到51%,协作任务性能不降,并将长时序任务执行时间缩短21%。

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies figure
arXiv2026-03-04

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

基础操作

基础操作基础模型操作数据集/Benchmark

针对机器人通用策略在长时程、依赖历史的操作中缺少统一记忆评测,论文提出RoboMME:覆盖时间、空间、对象和程序四类记忆的标准化基准,含16个任务、1600条演示和77万步数据,并基于π0.5系统比较14种记忆增强VLA,将符号、感知、循环记忆通过上下文、调制器和专家三种方式接入。结果显示没有一种记忆设计能通吃所有任务;符号记忆更适合计数,感知记忆对时序敏感和运动复现更关键,其中感知记忆+调制式接入在效果与效率上最均衡。

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots figure
ICLR 20262026-03-04

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

基础模型

移动操作基础模型操作数据集/Benchmark

针对通用家用机器人缺少可复现、大规模系统评测的问题,RoboCasa365在RoboCasa上构建了覆盖365个厨房移动操作任务、2500个场景和2200余小时示教数据的仿真基准,并统一支持多任务、基础模型预训练与终身学习。实验表明,预训练可将下游学习数据效率提升约3倍,但长时序复合任务成功率仍偏低,终身学习还明显存在灾难性遗忘,说明当前提升可能仍主要依赖数据规模与多样性扩展。

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning figure
arXiv2026-03-04

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

VLA

VLA泛化机器人学习

论文关注机器人持续学习中的灾难性遗忘,核心问题是大规模预训练VLA是否会像从零训练的小BC策略那样学新忘旧。作者在LIBERO上比较Pi0、GR00T与BC-Transformer后发现,预训练VLA用最简单的经验回放就很稳:2%级回放有时接近零遗忘,GR00T平均SR/NBT约0.92/0.03,明显优于BC-T的0.59/0.25;且旧任务即使表面退化,也可经少量再微调快速恢复,说明增益更可能主要来自预训练与规模,而非复杂持续学习技巧。

PTLD: Sim-to-real Privileged Tactile Latent Distillation for Dexterous Manipulation figure
arXiv2026-03-04

PTLD: Sim-to-real Privileged Tactile Latent Distillation for Dexterous Manipulation

灵巧操作

灵巧操作触觉Latent LearningSim2Real机器人学习操作

针对灵巧手触觉策略难以依赖示教、而触觉仿真又昂贵且失真的问题,PTLD提出用“特权传感器”充当仿真到真实的桥梁:先在仿真中用物体位姿、形状等特权状态训练策略,再在带外部感知的真实系统中采集触觉—潜变量配对数据,蒸馏出仅凭触觉和本体感觉工作的状态估计器,并用非对称actor-critic简化传统两阶段蒸馏。实验中,该方法在手内旋转上较纯本体策略提升182%,在更难的手内重定向任务上目标达成数提升57%,且对打滑、质量和腕部姿态变化更稳健。

MEM: Multi-Scale Embodied Memory for Vision Language Action Models figure
arXiv2026-03-04

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

辅助任务

辅助任务VLA机器人学习

针对传统 VLA 依赖短历史帧、难以支撑多阶段真实操作的问题,MEM 的核心洞察是把不同时间尺度的记忆拆到不同模态:用视频编码器保留数秒内的稠密视觉上下文以处理遮挡和重抓,用文本记忆压缩长期语义事件与子任务进度。该方法集成到 π0.6 后,在多类操作任务上达到 SOTA,并能完成最长约 15 分钟的厨房清理、做芝士三明治等长程任务,同时表现出一定的情境内策略调整能力。

Learning Surgical Robotic Manipulation with 3D Spatial Priors figure
CVPR 20262026-03-04

Learning Surgical Robotic Manipulation with 3D Spatial Priors

3D 表征

3D 表征操作应用

论文针对手术机器人仅依赖双目内窥镜时3D空间感知不足、而显式重建或腕部相机又分别带来误差累积和临床部署障碍的问题,提出SST:先用自建的3万对带精确几何标注的Surgical3D微调几何Transformer,再通过轻量MSFC把多层3D隐表示在以内窥镜为中心的坐标系中对齐到动作空间,实现端到端模仿学习。真实机器人在打结和离体器官解剖等复杂任务上达到SOTA并展现较强空间泛化,但各模块增益拆分及是否主要受益于合成数据规模,文中未充分说明。

GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning figure
ICRA 20262026-03-04

GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning

可变形物体

可变形物体任务规划多模态推理Affordance数据检索

面向现实中更常见的衣物堆抓取,而非单件服装操作,GarmentPile++把问题拆成“先选哪件、抓哪里、是否双臂协作”三步:用SAM2分割与掩码微调给VLM提供更清晰的堆叠状态,再结合点云affordance预测抓点,并在抬起后由VLM判断是否需要双臂接力,以尽量保证每次只取出一件。摘要称该方法在真实与仿真、开放/封闭边界及顺序/指定检索任务中都表现稳定,但具体定量增益文中未充分说明。

From Local Corrections to Generalized Skills: Improving Neuro-Symbolic Policies with MEMO figure
arXiv2026-03-04

From Local Corrections to Generalized Skills: Improving Neuro-Symbolic Policies with MEMO

任务规划

任务规划程序化规划

这篇工作针对神经符号操作中“高层会分解任务、低层却受限于固定技能库”的瓶颈,提出 MEMO:把人类对失败动作的自然语言纠错与成功代码片段存入可检索 skillbook,并异步聚类、改写为更通用的文本指导和参数化技能模板,使机器人能从局部纠错中合成新技能,而不只是记住原话。文中在仿真和真实机器人上报告,对未见任务的零样本成功率优于仅检索反馈的基线和现有神经符号方法。

Force-Aware Residual DAgger via Trajectory Editing for Precision Insertion with Impedance Control figure
arXiv2026-03-04

Force-Aware Residual DAgger via Trajectory Editing for Precision Insertion with Impedance Control

触觉

触觉机器人学习

这篇工作针对精密插接中模仿学习部署后易因分布偏移而失效、传统 DAgger 又依赖人工持续盯控的问题,提出 TER-DAgger:利用“预测末端力—实测末端力”偏差按需触发人工纠错,再通过轨迹编辑把策略轨迹与人类纠正平滑拼接,学习残差策略,并在笛卡尔阻抗控制下执行以保持接触顺应性。仿真与真实 USB/插头插接实验中,其平均成功率达到 77.2%,较最强基线提升超过 37 个百分点,消融也表明力建模和编辑后的残差样本是关键。

Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation figure
ICRA 20262026-03-03

Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation

任务规划

任务规划程序化规划泛化操作

这篇工作针对技能中心机器人规划受限于固定技能库、遇到新任务往往还要人工补示教的问题,提出 Uni-Skill:先在规划阶段判断现有技能是否足够,不足时自动生成新技能描述;再借助从海量无结构机器人视频构建的分层技能库 SkillFolder 检索相关示例与轨迹,实现少样本技能推断和技能库自演化。实验显示,其在 RLBench 未预定义技能任务上较 MOKA 的零样本成功率提升 31%,在真实场景长程任务和未见技能上分别提升 20% 和 34%。

Robotic Grasping and Placement Controlled by EEG-Based Hybrid Visual and Motor Imagery figure
arXiv2026-03-03

Robotic Grasping and Placement Controlled by EEG-Based Hybrid Visual and Motor Imagery

抓取

抓取感知机器人学习操作

论文旨在弥合机器人已具备低层抓取能力却难理解人类高层意图的缺口,探索仅凭EEG想象信号驱动抓取放置。核心做法是将视觉想象和运动想象组成双通道接口:前者选抓取对象,后者定放置方位,并把离线预训练解码器零样本接入在线流式控制。系统在真实平台上取得VI/MI在线解码40.23%/62.59%,端到端任务成功率20.88%;说明高层意图可落到动作,但整体成功率仍偏低,VI判别仍是主要瓶颈。

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference figure
arXiv2026-03-03

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

操作

操作应用

论文聚焦削皮这类接触丰富、受力敏感且成功标准带主观性的精细操作,难点在于示教数据难收集、任务质量又难用显式奖励刻画。作者提出两阶段框架:先用融合视觉与力觉的模仿学习获得可泛化基础策略,再用结合定量指标和人类偏好的奖励模型做偏好微调,把“削得干净、均匀”纳入优化目标。在黄瓜、苹果、土豆等真实实验中,仅用50–200条轨迹即可达到90%以上平均成功率,微调后最高再提升40%,并对未见同类及跨品类果蔬表现出强零样本泛化。

HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations figure
arXiv2026-03-03

HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations

移动操作

移动操作模仿学习数据采集操作

这篇工作关注移动操作学习很难规模化采集数据:纯腕部视角缺少全局上下文,而直接加入人类第一视角又会放大人机外形与运动学差异。HoMMI的关键做法是把机器人无关的人类演示转成跨 embodiment 的手眼策略,具体用与形体无关的3D视觉表示、较宽松的“注视点”头部动作,以及满足约束的全身控制器来落地。文中在三类真实世界长时程双臂移动操作任务上整体优于 Wrist-Only 和直接加头部RGB等基线,其中洗衣任务成功率达90%。

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery figure
ICRA 20262026-03-03

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

双臂

双臂应用

为减轻器械护士反复递送带来的疲劳,并让机器人在动态手术室里更安全地工作,本文提出一套双臂手术辅助系统:上层用视觉语言模型根据医生指令和场景观测零样本生成抓取与递送子目标,下层把实时最小障碍距离估计纳入统一QP安全滤波,同时处理环境避障、自碰撞和关节约束。实验证明系统在全部试验中保持平滑无碰撞,器械递送成功率为83.33%;但对薄而光滑器械的抓取,以及VLM识别/关键点误判,仍是主要失效来源。

GAIDE: Graph-based Attention Masking for Spatial- and Embodiment-aware Motion Planning figure
arXiv2026-03-03

GAIDE: Graph-based Attention Masking for Spatial- and Embodiment-aware Motion Planning

任务规划

任务规划几何约束规划跨本体

这篇论文针对高维机械臂采样式规划中“均匀/手工启发采样低效、现有神经采样又难显式编码空间结构”的问题,提出GAIDE:把机械臂运动链与场景—机器人空间关系统一成图,并将邻接矩阵作为Transformer注意力掩码,而不是用消息传递GNN做采样,从而兼顾结构约束与长程依赖。实验显示,它相对MPNets、SIMPNet及多数启发式/最优型基线通常能提升成功率、规划效率并降低路径代价;但文中结果也表明,Bi-RRT在部分任务上的时间和成功率仍更强。

Chain of World: World Model Thinking in Latent Motion figure
CVPR 20262026-03-03

Chain of World: World Model Thinking in Latent Motion

VLA

VLALatent Learning世界模型机器人学习

论文针对两类VLA预训练的缺口:世界模型要重建大量静态背景、训练冗长,潜在动作虽紧凑却只刻画短时跃迁,缺少连续时序推理和场景知识。CoWVLA的关键洞察是把世界建模转到潜在运动空间:先用视频VAE解耦结构与运动,再依据指令和初始帧生成连续运动链并预测终止关键帧,随后在协同微调中与离散动作联合对齐。文中报告其在多个机器人仿真基准上优于现有世界模型和潜在动作方法,且计算效率适中,但具体增益来源仍需更细消融说明。

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments figure
arXiv2026-03-03

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

任务规划

任务规划多模态推理跨本体

论文关注异构具身体(车、无人机、机器人)难以共享统一模型的问题,认为直接联合训练会遇到长尾数据、梯度冲突和灾难遗忘。其关键洞察是:不同本体虽形态差异大,但都依赖三维空间建模,因此可先把空间智能学成共享底座;据此提出 SSR 范式,先搭底座,再训练领域专家,最后用无数据模型合并并配合 GRPO 做对齐。ACE-Brain-0 在 24 个空间与具身基准上达到有竞争力乃至部分 SOTA 的结果。

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs figure
arXiv2026-03-02

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

VLA

VLA机器人学习

本文针对 flow-based VLA 做在线RL时“动作似然难算、ODE采样探索窄而SDE扩展后又易失配”的问题,提出无critic、无likelihood的 π-StepNFT:训练时用SDE扩大行为流形,并把监督从终点动作改为逐步、噪声感知的下一去噪状态,再配合 logistic 对比排序强化成功轨迹、压制失败轨迹。实验上,LIBERO 少样本相对 SFT 提升32.9%,ManiSkill 在 OOD 场景较 critic 基线高11.1%,说明细粒度逐步对齐比值函数式调优更稳健。

TacMamba: A Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA Reasoning figure
arXiv2026-03-02

TacMamba: A Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA Reasoning

VLA

VLA触觉数据筛选机器人学习

论文关注视觉含糊操作中“按钮是否按下”等只能靠触觉判定的问题,认为难点在于100Hz触觉历史与约1Hz VLA规划的时空错配。TacMamba用异步分层架构把Mamba触觉历史压缩器接到VLA前端,以0.45ms、O(1)延迟持续编码长时力觉,并配合触觉引导的两阶段训练和相位均匀采样缓解关键接触片段稀疏。离散计数和隐式状态切换实验达100%成功率,显著优于纯视觉π0.5,但更广泛任务的泛化能力文中未充分说明。

Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons figure
arXiv2026-03-02

Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons

任务规划

任务规划多模态推理强化学习感知操作

这篇工作针对通用机器人奖励模型过度依赖专家演示的逐帧绝对进度标注、难以利用大量失败与次优轨迹的问题,提出 Robometer:把轨迹内的进度监督与轨迹间的成对偏好比较联合训练,用少量可定标的专家标签约束奖励幅值,再用相对排序吸收无标注失败数据。作者还构建了含100万条、覆盖21种机器人形态的RBM-1M。实验显示其在OOD奖励评测上平均提升14%的排序相关性、成功/次优区分相对提升32%,下游RL、数据过滤和故障检测成功率达基线的2.4–4.5倍;但部分增益可能也来自数据规模与失败样本覆盖。

Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation figure
CVPR 20262026-03-02

Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation

可变形物体

可变形物体Vision-Action感知机器人学习操作

这篇工作针对机器人操作中鱼眼腕部相机被广泛采用、但其对模仿学习究竟利弊不清的问题,系统比较了鱼眼与普通相机在空间定位、场景泛化和跨硬件迁移上的影响,并在 MuJoCo 与真实平台上验证。核心洞察是:大视场只有在纹理丰富、特征点充足的环境里才真正提升定位;鱼眼更易在简单场景过拟合,但配合足够多样的背景、光照和干扰物后能获得更强场景泛化;跨鱼眼镜头失败主要源于尺度过拟合,随机尺度增强可明显缓解,因此数据采集应优先保证环境复杂度与跨场景多样性。

ROSER: Few-Shot Robotic Sequence Retrieval for Scalable Robot Learning figure
ICLRW 20262026-03-02

ROSER: Few-Shot Robotic Sequence Retrieval for Scalable Robot Learning

数据需求量大

数据需求量大数据采集数据检索机器人学习操作

论文针对机器人海量连续日志难以直接用于学习、人工切分标注成本过高的问题,将数据整理重新表述为少样本序列检索任务。ROSER的关键是仅用本体感觉时间序列,在短时间窗上学习任务无关度量空间,并用少量演示构造原型来检索相似片段,因此部署时无需针对新任务再训练。在LIBERO、DROID和nuScenes上,它用3–5个示例就稳定超过DTW、学习式嵌入和语言模型基线,同时达到亚毫秒级匹配速度,说明连续日志可被高效转化为可复用训练片段。

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation figure
arXiv2026-03-02

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

3D 表征

3D 表征VLA机器人学习

这篇工作认为,现有VLA大多只用动作标签做模仿学习,知道“怎么动”却不理解动作后场景几何会如何演化,因此在门、抽屉等物理交互上容易失稳。Pri4R的做法是在训练时从示范中预计算3D点轨迹,用一个轻量辅助头预测未来点的三维运动,把4D几何动态作为特权监督注入共享表征;测试时去掉该分支,不增加额外输入或推理开销。结果上,它在LIBERO-Long上提升约10%,在RoboCasa上提升约40%,真实机器人上也有明显增益。

Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining figure
arXiv2026-03-02

Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining

VLA

VLA泛化机器人学习操作

这篇工作针对 VLA 在长时序操作中过度依赖当前观测、难以处理“必须记住过去关键状态”的非马尔可夫任务,提出 Keyframe-Chaining VLA:用轻量级关键帧选择模块在统一度量空间中自动提取状态转折帧,并结合任务调制与进度感知检索,将稀疏历史关键帧作为视觉 token 交织注入策略,避免长上下文注意力的高开销。在 4 个 ManiSkill 记忆依赖任务上,方法成功率达 92%,显著高于基线 57%,真实场景长程任务完成率也有提升。

Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models figure
arXiv2026-03-02

Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models

VLA

VLA机器人学习

论文指出,现有VLA多将动作表示为离散路点,这与物理运动的连续性不匹配,受固定采样率、无法高阶求导和量化噪声限制,容易带来轨迹抖动并难以做柔顺控制。NIAF将动作块改写为连续时间隐式函数回归,用MLLM作为分层谱调制器/超网络去调制共享运动先验,并借助SIREN实现对速度、加速度和jerk的解析监督。结果上,它在CALVIN与LIBERO上跨多种骨干取得SOTA,实机实验也显示运动更平滑、抖动更少且可支持阻抗控制。

Closed-Loop Action Chunks with Dynamic Corrections for Training-Free Diffusion Policy figure
arXiv2026-03-02

Closed-Loop Action Chunks with Dynamic Corrections for Training-Free Diffusion Policy

Diffusion Policy

Diffusion Policy机器人学习

这篇工作针对扩散策略依赖 action chunk 做长时规划却常以开环执行、在动态场景中反应滞后而失效的问题,提出 DCDP:无需重训原有 diffusion policy,只在推理阶段插入动态闭环校正模块,用滑窗历史观测经自监督动态编码、时序与交叉注意力提取环境变化,再与非对称动作编解码器融合,对待执行动作块逐步轻量修正,从而兼顾长时连贯性与实时响应。实验显示,它在动态 PushT 上仅增加约 5% 计算就带来 19% 的适应性相关提升,并在真实机器人任务中表现出更强鲁棒性。

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models figure
ICRA 20262026-03-02

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

VLA

VLA机器人学习

面向VLA在复杂操作中虽可借助推理提升表现、但现有方法常依赖CoT、框/掩码标注和重训练而带来高成本与慢推理的问题,ATA提出免训练的隐式推理框架:在推理时结合模型注意力图与基于动作的RoI,自适应重构视觉输入,作为可插拔策略适配多种VLA。实验显示其在LIBERO上将OpenVLA与π0-fast成功率分别提升5.2%和2.0%,在RLBench上使HybridVLA提升5.3%,真实三层叠块任务中GR00T-N1.5最高提升10%,且效率未降、部分设置更快。

ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation figure
ICAPS 20262026-03-02

ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation

任务规划

任务规划强化学习触觉基础模型机器人学习操作

针对机器人操作中目标条件强化学习在稀疏奖励下常依赖 HER/优先回放“挑经验”、却缺少随训练阶段变化的学习顺序设计这一问题,ACDC提出分层方案:上层依据成功率和训练进度,自适应权衡轨迹的多样性与质量来规划课程;下层用带范数约束的对比学习,把课程目标落到经验筛选上,优先保留当前最有用的轨迹并抑制无关或次优样本。文中在多项高难操作任务上,相比现有经验回放基线同时提升了样本效率和最终成功率。

RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design figure
arXiv2026-03-01

RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design

基础操作

基础操作双臂操作数据集/Benchmark

论文针对现有机器人操作策略大多依赖固定长度观测窗口、难以处理需长期保留历史线索的非马尔可夫任务,提出“任务记忆复杂度”指标,并在RoboTwin 2.0上构建含9个双臂任务的RMBench,用于分层评测策略的记忆能力;同时设计可插拔的Mem-0,以双系统结构和任务阶段分类器做受控消融。仿真与真机实验表明,当前代表性策略普遍存在记忆短板,而显式记忆与分阶段调用机制更有效,但文中未充分说明各模块的具体增益幅度。

Pro-HOI: Perceptive Root-guided Humanoid-Object Interaction figure
arXiv2026-03-01

Pro-HOI: Perceptive Root-guided Humanoid-Object Interaction

人形操作

人形操作人机交互操作

这篇工作针对人形机器人搬箱等HOI任务中控制接口不通用、感知闭环不足、掉落后难恢复的问题,提出Pro-HOI:训练时只把期望根轨迹作为策略输入、把全身参考动作仅作奖励,从而减少繁琐奖励设计,并把根轨迹变成可接高层规划的统一接口;再结合实时检测与数字孪生做持续物体估计,支持滑落检测和自主重抓。实机在Unitree G1上完成带避障搬运、掉落恢复和15次以上连续搬运,泛化性与长时鲁棒性优于对比方法。

Minimalist Compliance Control figure
arXiv2026-03-01

Minimalist Compliance Control

基础操作

基础操作操作非学习控制

这篇工作针对顺应控制常依赖六维力/力矩传感器、而RL替代方案又存在仿真到现实落差与安全性不足的问题,提出一种极简顺应控制框架:仅用现代伺服或准直驱电机自带的电流/电压(PWM)信号,结合电机力矩模型与雅可比估计外部力/力矩,再接入任务空间导纳控制。核心洞察是,稳定顺应更依赖受力方向与相关频段响应,而非高精度力值。作者在机械臂、灵巧手和两台人形机器人上,结合VLM、模仿学习和模型规划完成擦拭、绘画、舀取、手内操作等接触任务,表现出较稳健、安全且与平台无关的顺应性。

DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation figure
ICRA 20262026-03-01

DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation

VLA

VLA语言条件机器人学习操作

这篇工作针对现有VLA难以同时兼顾任务泛化与精细操作的问题,抓住机械臂大范围运动与夹爪接触操作在路径约束、视觉关注区域和数据分布上的差异,提出DAM-VLA:先用VLM根据视觉与语言线索进行动作路由,再以融合高层语义和低层视觉的双头扩散模型分别预测臂部与夹爪动作,并用轨迹级与动作块级双尺度加权协调两者。在SIMPLER、FurnitureBench和真实抓放实验中,其成功率优于多种SOTA VLA,并在长时程、接触密集任务上表现出更稳健的泛化。

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping figure
ICLR 20262026-03-01

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

抓取

抓取灵巧操作Sim2Real操作

这篇工作针对仿真抓取落地时最棘手的动力学失配,尤其是物体质量难由视觉准确恢复的问题,提出 D-REX:把 4D Gaussian Splat 重建、可微物理引擎和人类演示迁移串成 real-to-sim-to-real 闭环,从真实交互视频与控制信号中端到端辨识物体质量,并据此训练带力感知的灵巧抓取策略。文中实验表明其在不同形状和质量物体上质量识别更稳健,且能提升仿真到真实的抓取表现,但文中未充分说明具体量化增益来源。

TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation figure
arXiv2026-02-28

TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation

3D 表征

3D 表征VLA安全机器人学习操作

这篇工作针对3D VLA模仿学习中演示关键帧采样冗余、时序分布失衡,以及点云重投影后黑色物体难分辨、易受干扰物误导的问题,提出TGM-VLA:一方面重组关键帧采样并交替训练,显著降低回放缓存冗余;另一方面加入颜色反转投影分支,并用任务引导的跨任务/任务内mixup强化语言—动作对齐与多峰动作建模。实验中其内存占用降80%、训练提速5倍,在RLBench达90.5%,在干扰更强的COLOSSEUM达68.8%。

VCA: Vision-Click-Action Framework for Precise Manipulation of Segmented Objects in Target Ambiguous Environments figure
arXiv2026-02-27

VCA: Vision-Click-Action Framework for Precise Manipulation of Segmented Objects in Target Ambiguous Environments

感知

感知机器人学习操作数据集/Benchmark

论文针对VLA在多相似目标场景中依赖语言指令易歧义、指定目标费时且认知负担高的问题,提出VCA:用摄像头视角中的点击替代文本描述,并将改造后的SAM2做成可在线交互、可增删目标的分割跟踪模块,再把目标mask与多视角图像和本体状态送入ACT式策略,实现闭环实例级操作。实验证明其能较可靠地操纵被指定物体,但节选中未充分说明量化指标以及相对语言驱动基线的具体增益来源。

Planning from Observation and Interaction figure
arXiv2026-02-27

Planning from Observation and Interaction

任务规划

任务规划模仿学习强化学习人机交互安全机器人学习

这篇工作针对机器人常见的“只看演示、拿不到手工奖励和示范动作”场景,试图解决现有观察学习与 IRL 在真实世界中过度依赖先验、且交互代价过高的问题。作者提出 MPAIL2,在潜变量空间联合学习编码器、动力学、奖励、价值与策略,并用离策略更新结合规划式多步评估,把“观察+在线试错”转成可执行的世界模型学习。实机视觉操作实验显示,其从零开始约40分钟内即可稳定学会任务,样本效率和成功率优于 RLPD、Diffusion Policy 等基线,并展示了在线迁移;但各模块的独立增益文中未充分说明。

FAVLA: A Force-Adaptive Fast-Slow VLA model for Contact-Rich Robotic Manipulation figure
arXiv2026-02-27

FAVLA: A Force-Adaptive Fast-Slow VLA model for Contact-Rich Robotic Manipulation

VLA

VLA触觉接触丰富机器人学习操作

论文指出,现有力觉VLA常把视觉、语言和力信号按同一低频融合,并在VLM更新间开环执行动作块,导致高频接触线索被下采样,难以及时应对冲击、卡滞等事件。FAVLA据此将“慢”的语义感知规划与“快”的接触控制解耦:低频VLM负责场景表征并预测近期力变化,高频AE结合最新力序列、通过force adapter在多层注入力特征,并按预测力变化自适应调整执行频率。实验证明其在多种接触丰富任务上将平均成功率提升到80.8%,较最强基线高13.8%,且峰值接触力更低。

AoE: Always-on Egocentric Human Video Collection for Embodied AI figure
arXiv2026-02-27

AoE: Always-on Egocentric Human Video Collection for Embodied AI

视频规划

视频规划数据采集遥操作

这篇工作针对具身基础模型缺少低成本、可持续真实交互数据的问题,提出 AoE:把人本身视为分布式 embodied agent,用颈挂式手机和跨平台 App 做常开第一视角采集,再以端云协同完成触发录制、自动标注与质量过滤,将原始日常视频转成可训练片段。实验表明,AoE 数据在预处理质量和 real-to-sim 重建上表现可靠,并能提升下游操作策略在复杂真实场景中的成功率;但具体增益幅度在给定材料中未充分说明,提升可能主要来自数据质量与规模。

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation figure
ICRA 20262026-02-27

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

机器人学习

机器人学习操作

这篇工作针对模仿学习操控里“同步推理+原始动作块”常见的块内抖动、块间不连续和停走式执行问题,提出ABPolicy:将低层动作表示为连续B样条控制点并用flow matching生成,再结合双向动作预测与连续性约束重拟合,在机器人持续执行旧轨迹的同时异步更新新轨迹,从而兼顾平滑性和实时响应。7个静态与动态任务实验显示,该方法可降低轨迹jerk、减小边界突变并提升操控表现,但摘要未充分说明具体增益幅度。

Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline figure
ICRA 20262026-02-26

Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline

VLA

VLA机器人学习数据集/Benchmark

这篇工作针对现有VLA参数过大、依赖昂贵预训练且难支持移动操作的落地问题,先提出跨仿真与真实环境、覆盖单臂/双臂/移动双臂并包含域随机化的CEBench,再系统分析小模型规模、两阶段训练和导航-操作统一动作空间对实用性的影响;据此构建轻量级LLaVA-VLA,结合紧凑VLM、多视角感知、本体状态token化与action chunking。结果上,它在多构型任务中可比甚至超过大10倍以上模型,尤其在域随机化下更强,并在真实世界完成端到端移动操作。

Metamorphic Testing of Vision-Language Action-Enabled Robots figure
arXiv2026-02-26

Metamorphic Testing of Vision-Language Action-Enabled Robots

VLA

VLA机器人学习

本文聚焦VLA机器人的测试预言机难题:现有符号oracle虽能判断任务是否达成,却难覆盖轨迹质量、安全性与提示多样性。作者将变形测试引入机器人操作,提出2类关系模式和5个基于轨迹变化的MR,在无显式oracle时比较源/跟随执行。对5个VLA、2种仿真机器人、4项任务、9320组样例的实验表明,该方法能自动发现未完成任务之外的多类失败,但最佳效果仍依赖与符号oracle联合使用及阈值设定。

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion figure
arXiv2026-02-26

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

抓取

抓取Latent LearningDiffusion Policy泛化操作

这篇工作关注模仿学习抓取策略常见的抓取不准、空间与物体泛化差的问题。作者的关键做法是把预训练抓取检测器产生的抓取位姿和graspness先验注入潜变量扩散策略:前者在动作潜空间中引导动作块解码,后者通过腕部视角重建的自监督目标强化去噪过程对抓取相关区域的关注。仿真与真机结果显示,相比Diffusion Policy,其域内成功率提升17.5%,空间、物体和视觉泛化分别提升22.2%、46.8%和48.3%,且对动态抓取也更有效。

Embedding Morphology into Transformers for Cross-Robot Policy Learning figure
arXiv2026-02-26

Embedding Morphology into Transformers for Cross-Robot Policy Learning

Transformer Policy

Transformer Policy泛化跨本体机器人学习

这篇工作针对 VLA 策略在跨机器人学习中通常只能“从观测里猜机构”,因此对不同本体乃至单一本体内变化都不够稳健的问题,把机器人形态显式嵌入 Transformer 动作头:先用按关节组织的 kinematic tokens 建立关节级接口,再用带局部/全局调度的拓扑注意力偏置传播运动学关系,并结合关节属性编码补足仅靠连通性无法表达的语义。文中在 DROID、Unitree G1 Dex1 和 SO101 的单/多本体实验中均优于原始 π0.5 基线,表明这类结构先验能同时提升本体内鲁棒性与跨本体泛化。

DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation figure
arXiv2026-02-26

DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

VLA

VLA机器人学习操作

这篇工作针对VLA在机器人操作中推理延迟高、难以满足实时控制的问题,利用“关键动作更需要精算、普通动作可降算力”的观察,提出动态-静态层跳过:保留信息量大的层,按动作重要性选择性跳过增量层,并用前验-后验跳过引导与两阶段蒸馏稳定训练。在CALVIN上,它较DeeR-VLA成功长度提升2.1%,并在同等精度下相对RoboFlamingo实现3.75倍加速、训练参数减少85.7倍。

Demystifying Action Space Design for Robotic Manipulation Policies figure
ICLRW 20262026-02-26

Demystifying Action Space Design for Robotic Manipulation Policies

模仿学习

模仿学习机器人学习操作

论文针对机器人模仿学习中动作空间长期依赖经验选型、却会同时影响策略可学性与部署稳定性的问题,将设计系统拆成时间轴上的绝对/增量与动作分块,以及空间轴上的关节/任务空间,并在仿真和真实双臂平台上做了500多个模型、1.3万余次真实rollout的系统对照。主要发现是:采用合适实现的增量动作,尤其 chunk-wise delta,几乎在各类任务中都更稳更强;关节空间在数据充足、训练充分时更利于控制稳定,而任务空间在跨平台迁移与泛化场景中更占优。

World Guidance: World Modeling in Condition Space for Action Generation figure
arXiv2026-02-25

World Guidance: World Modeling in Condition Space for Action Generation

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作针对VLA中“未来表征越丰富越冗余、越紧凑又不够精细”的矛盾,提出WoG:先把未来观测经冻结视觉模型与Q-Former压缩为直接服务动作生成的条件空间,再让VLA在测试时仅凭当前观测同时预测该条件与动作,把世界建模转移到更可预测、也更贴近控制的中间层。结果上,WoG在仿真和真实机器人操作中均明显优于现有基于未来预测的方法,并能从大规模人类操作视频中获益提升泛化,但给定材料未充分说明具体增益幅度。

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination figure
arXiv2026-02-25

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作针对VLA主要依赖模仿数据先验、对物理动态理解不足,且现有强化学习又依赖外部奖励、与模型内部状态脱节的问题,提出SC-VLA:在动作生成时加入稀疏世界想象,预测任务进度与短期轨迹趋势,再用在线动作细化依据预测未来状态重塑稠密奖励并做残差式修正,实现基于内部表征的自纠错。实验在ManiSkill四项操作任务和真实ARX5平台上取得SOTA,相比最强基线步数减少16%、成功率提升9%,真实场景再提升14%。

Primary-Fine Decoupling for Action Generation in Robotic Imitation figure
ICLR 20262026-02-25

Primary-Fine Decoupling for Action Generation in Robotic Imitation

模仿学习

模仿学习Flow Matching机器人学习操作

这篇工作针对机器人模仿学习中动作分布多峰的问题:回归式策略易均值化,离散动作会丢失细节,单阶段连续生成又容易在不同动作模式间来回跳变。PF-DAG的核心是把动作生成拆成“主模式选择+细粒度连续生成”两步,先将动作块压缩为少量离散模式,再用模式条件的MeanFlow生成高保真连续动作,从而兼顾时序一致性与细节表达;文中还给出相对单阶段生成策略更低的MSE下界分析。实验显示其在Adroit、DexArt和MetaWorld共56个任务及真实触觉灵巧操作上均优于现有扩散/流匹配基线,稳定性和样本效率也更好。

Multiview Progress Prediction of Robot Activities figure
ICASSP 20262026-02-25

Multiview Progress Prediction of Robot Activities

任务规划

任务规划多模态推理

这篇工作关注机器人常被忽视的“动作进度预测”:机器人不仅要识别在做什么,还要判断任务做到哪一步,单目视角又容易被机械臂自遮挡。作者提出融合头部与双臂三路同步相机的多流架构,用共享视觉骨干、SPP 与 LSTM 做因果在线预测,并用可变帧率等增强抑制“按时长猜进度”的捷径。实验表明该方法在 Mobile ALOHA 上显著优于单视角,但材料未给出首页可见的具体提升数值。

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies figure
arXiv2026-02-25

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

VLA

VLA泛化对象中心机器人学习操作

这篇工作针对VLA在长时程操作中难以把原子技能可靠串联、且一处失误易级联崩溃的问题,提出LiLo-VLA:用经典运动规划负责全局到达,用对象中心VLA只处理局部交互,把运输与操作解耦,并借助重规划实现失败恢复与零样本组合泛化。在21个仿真任务上平均成功率69%,较Pi0.5和OpenVLA-OFT分别高41和67个百分点;8个真实任务平均成功率85%。

Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild figure
CVPR 20262026-02-25

Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild

VLA

VLALatent Learning基础模型机器人学习

论文针对机器人数据稀缺、野外人类操作视频又缺少可靠动作标注的问题,指出以往依赖前向重建的潜在动作学习在细粒度手部操作上易受噪声拖累。JALA改为将VLA上下文产生的预测嵌入同时对齐逆动力学潜在动作与可用真值动作,并用7.5M的UniHand-Mix混合实验室与野外视频预训练。结果显示其手部动作生成更真实,下游Libero、RoboCasa及真实机器人任务泛化更强;但增益可能也部分来自scaling与数据扩充。

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation figure
arXiv2026-02-25

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

Flow Matching

Flow Matching机器人学习操作

论文关注生成式操作策略在部署时遇到分布外“差一点成功”的失败:与其整网微调,不如让人用VR给出少量相对位姿轻推式修正。FlowCorrect在冻结的flow-matching主干上接入LoRA式局部纠错模块,并用门控与flow-edit目标只在被纠正状态附近改写流场,从而尽量不破坏原有能力。真实机器人四项台面任务中,少量纠错即可把原失败案例成功率提升到80%,同时基本保持已掌握场景表现,训练开销也低于全策略重训。

FODMP: Fast One-Step Diffusion of Movement Primitives Generation for Time-Dependent Robot Actions figure
RISEx 20252026-02-25

FODMP: Fast One-Step Diffusion of Movement Primitives Generation for Time-Dependent Robot Actions

模仿学习

模仿学习Diffusion Policy机器人学习

该文针对机器人扩散策略里“短动作块推理快但缺乏时间结构、运动基元方法能建模加减速却推理过慢”的矛盾,提出FODMP:把扩散蒸馏到ProDMP参数空间,用一致性蒸馏一次预测整段运动基元,再经单次解码生成轨迹。这样既保留时序动态,又把闭环控制延迟降到控制频率级。实验中其在MetaWorld/ManiSkill平均成功率78.2%,高于MPD的64.1%,单步推理17.2ms,约比MPD快10倍,并能完成快速飞球拦截抓取。

EgoAVFlow: Robot Policy Learning with Active Vision from Human Egocentric Videos via 3D Flow figure
arXiv2026-02-25

EgoAVFlow: Robot Policy Learning with Active Vision from Human Egocentric Videos via 3D Flow

3D 表征

3D 表征视频规划感知机器人学习

这篇工作针对“仅靠人类第一视角视频学机器人”里一个常被忽视的问题:机器人执行时若不能主动调整相机、持续看见关键物体,学到的操作很容易失效。作者提出 EgoAVFlow,用共享的 3D flow 将人手/物体未来运动、机器人动作和相机轨迹统一到同一几何空间,并在测试时借助带可见性奖励的扩散去噪在线修正视角,而不是机械模仿人的头部运动。真实实验表明,在视角持续变化的条件下,它无需机器人示教也能稳定优于人类视角模仿基线,更好维持目标可见性并提升操作成功率,但文中方法仍假设初始关键跟踪点可见。

DexRepNet++: Learning Dexterous Robotic Manipulation with Geometric and Spatial Hand-Object Representations figure
T-RO 20262026-02-25

DexRepNet++: Learning Dexterous Robotic Manipulation with Geometric and Spatial Hand-Object Representations

抓取

抓取灵巧操作操作

论文指出,灵巧手强化学习的瓶颈不只在高维动作空间,更在于手物交互表征难以泛化。作者提出以手坐标系为中心的DexRep,用体素占据建模全局形状,再结合指尖到物体表面的距离/法向与接触邻域局部几何,统一编码空间关系和接触线索。该表示在抓取、手内重定向和双手交接中均优于基线:仅用40个训练物体,抓取策略就在5000多个未见物体上达到87.9%成功率,其余任务提升约20%到40%,且真实部署的仿真到现实差距较小。

ADM-DP: Adaptive Dynamic Modality Diffusion Policy through Vision-Tactile-Graph Fusion for Multi-Agent Manipulation figure
ICRA 20262026-02-25

ADM-DP: Adaptive Dynamic Modality Diffusion Policy through Vision-Tactile-Graph Fusion for Multi-Agent Manipulation

多智能体/多机器人

多智能体/多机器人3D 表征触觉Diffusion Policy机器人学习操作

论文针对多机器人操作中协调、避碰与稳抓取并存,而静态多模态融合会在不同阶段引入无效触觉或冗余空间信息的问题,提出ADM-DP:以FiLM融合RGB与点云、用FSR触觉触发抓取纠偏、用共享TCP图编码建模相互位置,并通过AMAM按任务阶段动态重加权各模态,在解耦训练下兼顾可扩展性与协同。七项任务上其较现有方法提升12%–25%,且消融显示收益在强依赖多模态的任务中最明显。

VLA Knows Its Limits figure
arXiv2026-02-24

VLA Knows Its Limits

VLA

VLA机器人学习

这篇工作关注VLA中常被拍脑袋设定的执行视界:动作块执行太短会抖动、太长又失去反应性,因此性能会随视界先升后降。作者通过注意力分析发现,块内动作对视觉/语言条件的关注几乎不变,后段动作容易依赖过时感知;同时首尾动作 token 像稳定锚点组织中间动作。据此提出测试时方法 AutoHorizon,用动作自注意力的拐点动态估计每个 chunk 的可靠执行长度。在 LIBERO、RoboTwin 和 Franka 实机任务上,它以几乎零额外开销普遍优于固定视界与随机基线。

Recursive Belief Vision Language Action Models figure
arXiv2026-02-24

Recursive Belief Vision Language Action Models

VLA

VLALatent Learning机器人学习

论文针对现有VLA在长时程、部分可观测操作中依赖短上下文或反复调用VLM、易丢失任务进度并带来高延迟的问题,提出RB-VLA:仅在任务开始用VLM提取高层意图,执行时用经世界模型自监督训练的递归belief压缩历史、动力学与交互状态,再联合扩散策略闭环控制。其在多阶段抓放和堆叠上较pi_0成功率分别提升52.5%和37.5%,推理延迟最高降低5倍,消融也表明主要增益来自belief状态表征。

IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation figure
arXiv2026-02-24

IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation

VLA

VLA人机交互机器人学习操作

这篇工作针对VLA模型在真实世界长时程操作中受分布偏移、示教稀缺和稀疏奖励影响、仅靠SFT难以稳定泛化的问题,提出IG-RFT:用交互状态引导的IG-AWR在接近/撤离阶段加大探索、在抓取等关键交互阶段强调稳健,并结合轨迹级与子任务级混合稠密奖励,再通过SFT—离线RL—人在环RL三阶段逐步微调。实机四项长程任务平均成功率达85.0%,显著高于SFT的18.8%和标准离线RL的40.0%。

HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning figure
arXiv2026-02-24

HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning

辅助任务

辅助任务VLA机器人学习

这篇工作针对现有VLA在长时程操作和分布外场景中缺乏显式推理与未来状态预判的问题,提出HALO:先做文本任务分解,再生成子目标图像,最后结合两者预测动作,把“语义推理—视觉前瞻—执行”串成统一闭环。方法上用Mixture-of-Transformers拆分三类专家,并配套自动化EM-CoT数据合成与两阶段训练。实验显示其在RoboTwin上平均成功率达80.5%,相对π0提升34.1%,且在真实机器人和强随机化未见环境中泛化更稳。

Grasp to Act: Dexterous Grasping for Tool Use in Dynamic Settings figure
arXiv2026-02-24

Grasp to Act: Dexterous Grasping for Tool Use in Dynamic Settings

抓取

抓取灵巧操作操作应用

这项工作针对灵巧手在工具使用中常因冲击、扭矩和持续阻力而失稳的问题,指出仅按静态几何稳定性选抓取并不足以支撑真实操作。文中把人类示教引入“抓取到操作”流程:先在物理仿真中依据任务受力做抓取采样与扳手空间稳定性筛选,再用强化学习残差控制在线微调手指关节,边跟踪工具轨迹边抑制手内滑移。实验在锤击、锯切、切割、搅拌和舀取五项任务上实现零样本仿真到真实迁移,相比仅做抓取优化或仅用强化学习的基线,手内平移与转动滑移更小,任务完成率最高。

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model figure
RA-L 20262026-02-24

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

VLA

VLA机器人学习

面向多视角VLA在实时操控中因视觉token暴涨而变慢、且直接套用VLM剪枝会忽视视角关系和操作阶段差异的问题,BFA++提出层次化动态token剪枝:先用视角内重要性预测器聚焦夹爪、目标物等任务区域,再用视角间预测器按操作阶段选择关键相机视角,并进行局部到全局的联合筛选。该后训练方法可插拔到π0和RDT上,在RoboTwin及真机场景中实现1.5–1.8倍加速,同时成功率提升约10%。

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies figure
arXiv2026-02-23

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

3D 表征

3D 表征VLA泛化基础模型感知机器人学习

论文指出,现有VLA把感知与稀疏、机体相关的动作监督绑在一起,又依赖偏VQA的VLM骨干,因而难以捕捉决定操作差异的细粒度3D状态。Pose-VLA的关键是用相机中心坐标系下的离散pose token把两者解耦:先在大规模非机器人3D数据上学空间先验,再用机器人轨迹做运动对齐,随后只需轻量动作适配。其在RoboTwin 2.0上达到79.5%平均成功率、在LIBERO上达96.0%,并在真实场景中用每任务100条示范展示了跨物体泛化。

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models figure
arXiv2026-02-23

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

3D 表征

3D 表征VLALatent Learning机器人学习

这篇工作针对现有潜动作VLA只从RGB视频学习动作先验、缺少3D几何信息而在抓取、放置和避碰上易失稳的问题,提出先用UNILARN通过逆/前向动力学把RGB与深度对齐到共享潜空间,生成模态特定与统一潜动作,再用其预训练UNILACT。核心洞察是把深度的空间结构注入RGB潜动作中,从而让下游策略继承更强空间先验,且推理时仍只需RGB。结果上,其相对RGB潜动作基线在仿真中提升29.2%,真实机器人上抓取更稳、避碰更好;但各模块独立增益的细拆,文中未充分说明。

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models figure
CVPR 20262026-02-23

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

VLA

VLA机器人学习

这篇论文关注VLA在机器人端部署时,语言骨干与DiT动作头带来的显存和算力瓶颈。作者的关键洞察是,直接做PTQ会引入尺度漂移,具体表现为DiT中的注意力温度失配和残差能量漂移,尤其会伤害长时序控制;因此提出训练后量化框架QuantVLA,只量化LLM与DiT中的线性/MLP层、保留QKV/O为浮点,并加入ATM与OHB做逐头和逐层校准。在LIBERO上的π0.5与GR00T N1.5实验中,W4A8设置可带来约70%的量化模块内存节省,任务成功率还超过FP16基线。

FACTO: Function-space Adaptive Constrained Trajectory Optimization for Robotic Manipulators figure
arXiv2026-02-23

FACTO: Function-space Adaptive Constrained Trajectory Optimization for Robotic Manipulators

基础操作

基础操作任务规划操作非学习控制

这篇论文针对传统基于路点的轨迹优化在连续时间安全性、任务约束处理和多臂耦合上常依赖密集采样、计算代价高的问题,提出 FACTO:用正交基函数的截断线性组合表示机械臂轨迹,直接在系数空间优化,并结合零空间投影、活动集约束和自适应 LM/Gauss-Newton 更新来处理全轨迹约束与非线性。实验表明,它在单臂和双臂受约束任务中,相比 CHOMP、TrajOpt、GPMP2 及 RRT/PRM 等方法取得更高可行性与更好解质量,并在 Franka 实机上完成验证。

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation figure
arXiv2026-02-23

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation

触觉

触觉Diffusion Policy机器人学习操作

这项工作针对扩散策略在接触密集操作中只会模仿、难以应对视觉变化和受力漂移的问题,提出 AdaWorldPolicy:将世界模型、动作专家和力预测器统一为互联的 DiT,并在测试时通过“动作生成—未来想象”双模式,把视觉预测误差与力预测误差作为自监督信号在线更新少量共享参数。结果上,它在 PushT、CALVIN、LIBERO 上达到 SOTA,OOD 性能提升超 5%,域内约增 1%,真实机器人实验也显示出更强的动态适应性。

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics figure
arXiv2026-02-22

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

任务规划

任务规划多模态推理强化学习操作

论文针对机器人强化学习中奖励稀疏、现有过程奖励跨任务泛化差的问题,提出TOPReward:不再让视频VLM直接生成“完成度”数值,而是读取其内部token logits里对任务完成相关词的概率变化,把潜在世界知识转成零样本时序价值信号。作者还构建了含130+真实操作任务的ManiRewardBench;在Qwen3-VL上,TOPReward取得0.947平均VOC,显著优于在开源模型上几乎失效的GVL,并能用于成功检测和加权行为克隆。

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation figure
CVPR 20262026-02-22

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

VLA

VLA数据增强机器人学习操作

这篇工作针对分层VLA在动作生成上的两大瓶颈:从高斯噪声到动作分布的先验鸿沟导致采样慢且易出无效动作,以及只看当前观测而缺少历史约束造成阶段感知差、控制抖动。作者提出OptimusVLA,用全局先验记忆从相似轨迹检索任务级动作先验替代纯噪声起点,再用局部一致性记忆编码已执行动作以注入进度与时序平滑约束,在几乎不改预训练范式下同时提速和增强鲁棒性。结果上,LIBERO平均成功率98.6%,CALVIN较π0提升13.5%,真实世界泛化和长程任务分别超过π0 42.9%和52.4%,推理加速2.9倍。

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning figure
arXiv2026-02-21

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

数据需求量大

数据需求量大数据采集数据生成机器人学习

论文针对视频生成合成机器人数据里“画面像真但动作不准”的瓶颈:VLM只能粗看视频是否合理,难验证动作标签。RoboCurate的关键做法是把IDM预测动作放回仿真器重放,用生成视频与仿真回放的运动一致性来筛掉坏轨迹,并结合I2I/V2V扩充场景与外观多样性。实验中,相比仅用真实数据,GR-1 Tabletop、DexMimicGen和真实ALLEX上的成功率分别提升70.1%、16.1%和179.9%,且对新物体/新动作也更稳。

HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation figure
arXiv2026-02-21

HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

任务规划

任务规划3D 表征感知操作

这篇工作针对纯几何3D操作策略难以区分鞋头/鞋跟等部件语义、因而在姿态敏感任务中易失败的问题,提出 HeRO:先用 Dense Semantic Lifting 融合 DINOv2 的判别性与 Stable Diffusion 的空间一致性,构建全局与局部层次语义场,再用置换不变的层次条件模块给扩散策略提供部件级约束,减少局部顺序偏置。结果是在6个高难姿态操作任务上平均提升6.5%,其中双鞋摆放较 G3Flow 提升12.3%,并给出了仿真和真实实验验证。

Habilis-β: A Fast-Motion and Long-Lasting On-Device Vision-Language-Action Model figure
arXiv2026-02-21

Habilis-β: A Fast-Motion and Long-Lasting On-Device Vision-Language-Action Model

VLA

VLA语言条件机器人学习

论文针对现有VLA只看单次成功率、忽视连续作业中的速度衰减与人工干预问题,提出以TPH和MTBI构成的PRP评测,并围绕“快动作+长时运行+端侧部署”设计三阶段训练:先用无语言play数据学习交互先验,再用循环任务数据建模状态漂移与恢复,结合ESPADA压缩空载动作、整流流蒸馏实现高频闭环控制。结果上,Habilis-β在1小时连续运行中显著优于π0.5:仿真达572.6 TPH和39.2秒MTBI,真实物流达124 TPH和137.4秒MTBI,并登顶RoboTwin 2.0代表任务榜单。

VLANeXt: Recipes for Building Strong VLA Models figure
arXiv2026-02-20

VLANeXt: Recipes for Building Strong VLA Models

VLA

VLA机器人学习

这篇工作针对VLA研究中训练协议与评测设置不统一、难以判断哪些设计真正有效的问题,在统一框架下从基础组件、感知输入和动作建模三方面系统消融,总结出12条构建强VLA的经验,并据此提出VLANeXt。文中较关键的洞察是:VLM与策略头的软连接优于松/紧耦合,将本体感觉送入VLM优于只接到策略模块,以及把动作生成视为时间序列预测并加入频域损失能提升泛化。最终2.5B的VLANeXt在LIBERO与LIBERO-plus上超过OpenVLA-OFT等更大模型,并在真实机器人实验中表现出较强泛化。

UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models figure
arXiv2026-02-20

UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models

VLA

VLA安全机器人学习

这篇工作针对VLA常依赖额外深度/点云或辅助模块提升性能、部署成本高的问题,提出免训练插件UAOR。其核心洞察是模型在前向过程中会逐层“遗忘”观测,表现为动作熵升高且动作token对观测的注意力下降,因此在高不确定层将观测特征重新注入下一层FFN。论文称该方法在仿真和真实机器人、不同VLA骨干上都能稳定提升成功率且额外开销很小,但给定材料未充分说明各设置下的具体增益幅度。

SimVLA: A Simple VLA Baseline for Robotic Manipulation figure
arXiv2026-02-20

SimVLA: A Simple VLA Baseline for Robotic Manipulation

VLA

VLA机器人学习操作

这篇工作针对VLA研究里“新结构”和“新训练配方”常被同时改动、导致性能增益难归因的问题,提出极简基线SimVLA:用标准视觉语言骨干配轻量动作头,显式解耦感知与控制,并统一数据打乱、动作归一化和优化日程,强调不少提升可能更多来自这些训练细节而非复杂模块。结果上,0.5B模型在LIBERO达98.6%,超过7B OpenVLA-OFT和3B π0.5,训练显存仅9.3GB,实机表现与π0.5相当;但给定材料对实机评测覆盖面与增益拆解仍未充分说明。

ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models figure
arXiv2026-02-20

ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

3D 表征

3D 表征VLA机器人学习

针对2D预训练VLA缺乏3D空间理解、且现有单层表征对齐既依赖事后选层又难利用跨层信息的问题,ROCKET将多层对齐重写为残差流到残差流的对齐,用跨层共享投影器降低梯度冲突,并以Matryoshka式稀疏激活平衡浅深层监督,再配合免训练选层策略。在LIBERO上,它以约4%训练算力达到98.5%成功率,并在LIBERO-Plus、RoboTwin和多种VLA骨干上保持优势。

How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf figure
arXiv2026-02-20

How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf

VLA

VLA机器人学习

这篇论文聚焦机器人落地时最关键却常被忽视的问题:VLA到底能否实时跑起来。作者提出解析式性能模型VLA-Perf,把模型规模、架构、长视频上下文、异步执行、双系统流水线,以及硬件、部署位置和网络统一到同一分析框架中。主要结果是:同一VLA在不同推理系统上的端到端延迟可相差数个数量级,是否能达到10Hz到100Hz不只取决于模型大小,还强依赖扩散步数、上下文长度、异步/双系统设计,以及端侧、边缘或云侧部署与网络条件的联合权衡;论文最终提炼出15条面向设计与部署的实用结论。

When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs figure
arXiv2026-02-19

When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

VLA

VLA数据增强安全机器人学习

论文指出VLA在场景固定而语言监督弱时,常被数据偏置诱导走“视觉捷径”,忽视指令并重复训练中高频动作,带来安全风险。为系统评估这类反事实失败,作者构建LIBERO-CF,并提出可插拔的双分支推理CAG,用无语言的VA分支对比约束VLA动作,强化语言条件而无需改架构或新增示范。实验表明,多种VLA在新指令下普遍失真;CAG在LIBERO-CF上将语言跟随与任务成功分别最高提升15.5%和8.5%,真实机器人中平均再降低9.4%反事实失败并提升17.2%成功率。

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment figure
arXiv2026-02-19

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

辅助任务

辅助任务VLA世界模型基础模型感知机器人学习

这篇工作针对VLA把世界模型做成未来图像预测时常陷入像素重建、且推理依赖预测观测会误差累积的问题,提出FRAPPE:先在中期训练中预测未来观测的潜表示,再在后期用共享骨干+LoRA/前缀的并行多专家结构,同时对齐多个视觉基础模型的未来表征,并可吸收无动作标注的人类第一视角视频。实验显示其在RoboTwin和真实任务上优于现有方法,在长时程、未见场景和遥操作数据稀缺时更稳,利用人类视频相对纯遥操作基线可再提升约10–15%;但总体增益有多少来自表示对齐、并行scaling还是额外数据,公开摘要里拆分仍不完全清楚。

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation figure
arXiv2026-02-18

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

灵巧操作

灵巧操作对象中心操作应用

针对灵巧手工具操作难以通过遥操作收集高质量数据、且现有 sim-to-real 强化学习常依赖逐物体建模与逐任务奖励设计的问题,SimToolReal 的核心洞察是把工具使用统一为“让物体沿目标位姿序列运动”。它在仿真中用程序生成的工具原语训练单个对象中心、目标条件策略,并在真实世界仅依赖工具 6D 位姿与粗粒度抓取区域实现零样本迁移。实验显示,其在 DexToolBench 的 120 次真实测试中覆盖 24 个任务、12 个实例和 6 类工具,相比运动重定向和固定抓取基线任务进度提升 37%,且与面向单一对象/任务训练的专用策略表现相当。

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation figure
arXiv2026-02-18

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

数据需求量大

数据需求量大VLA数据采集数据生成基础模型

论文针对机器人预训练受限于真实交互数据昂贵且任务设计偏向高频简单动作的问题,提出RoboGene:用LFU式多样性采样主动覆盖长尾对象与技能,再结合自反思评估物理可行性和新颖性,并把人类修正与执行失败写入长期记忆持续改进。作者据此生成1200个任务、采集1.8万条轨迹,任务质量和多样性均优于GPT-4o、Gemini 2.5 Pro;用其预训练的π0在新物体、背景变化和指令变化上泛化更强,说明增益很大程度来自更均衡且可执行的数据分布。

One Hand to Rule Them All: Canonical Representations for Unified Dexterous Manipulation figure
arXiv2026-02-18

One Hand to Rule Them All: Canonical Representations for Unified Dexterous Manipulation

抓取

抓取灵巧操作操作

针对灵巧手策略强依赖固定手型、难迁移到不同指数量与运动学结构的问题,论文提出“规范参数表示+规范URDF”,把多种灵巧手映射到统一的形态条件与动作空间,并用VAE学习可插值的形态潜变量,支持跨手联合训练。实验表明该表示能较好复现原始URDF的抓取与重定向行为,在三种手上共享策略优于单手基线,还能零样本泛化到未见手型,3指LEAP真机成功率达81.9%;但性能提升究竟多大程度来自表示设计而非数据规模,文中未充分说明。

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation figure
arXiv2026-02-18

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

人形操作

移动操作人形操作感知操作

论文针对人形机器人在开放场景中抓取新物体时“看得懂但手到不了”的问题:真实世界模仿学习数据难采、泛化弱,且现有全身跟踪的末端误差常达8–13cm,难以支撑精细操作。作者提出HERO,将开放词汇视觉感知与末端执行解耦,核心是用IK和运动规划生成参考轨迹,再结合神经前向运动学/里程计、目标修正与闭环重规划补偿系统误差。结果将末端跟踪误差降至仿真2.5cm、实机2.44cm,并在真实世界新场景开放词汇抓取中取得83.8%的平均成功率。

EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data figure
arXiv2026-02-18

EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data

灵巧操作

灵巧操作视频规划VLA操作

论文关注一个关键问题:可规模化的人类第一视角操作视频,是否足以支撑高自由度灵巧手控制。EgoScale的核心是先用2万余小时带动作标注的人类视频学习腕部相对运动与手部关节先验,再用少量人机对齐play数据做中训;作者进一步发现,人类动作预测验证损失与数据规模呈对数线性关系,且能预测真实机器人表现。最终在22自由度灵巧手上平均成功率较无预训练提升54%,还能通过单次示教适应新任务并迁移到低自由度手型。

World Action Models are Zero-shot Policies figure
arXiv2026-02-17

World Action Models are Zero-shot Policies

辅助任务

辅助任务VLA世界模型感知机器人学习

论文针对VLA擅长语义理解却难泛化到新动作、新环境的问题,提出DreamZero:以14B视频扩散骨干构建世界动作模型,联合预测未来视频与动作,用“视觉未来”约束逆动力学,从而更有效吸收异构、非重复机器人数据并支持跨形态迁移。实机结果显示,其在未见任务/环境上的平均任务进度较SOTA VLA提升超2倍,经优化后可实现7Hz闭环控制;仅用10–20分钟人类或他机视频也能让未见任务表现再提升42%以上,但部分增益可能也来自大模型scaling与数据多样性,文中因素拆分仍有限。

Selective Perception for Robot: Task-Aware Attention in Multimodal VLA figure
arXiv2026-02-17

Selective Perception for Robot: Task-Aware Attention in Multimodal VLA

VLA

VLA感知机器人学习

论文针对多模态 VLA 常用静态融合、对所有相机与传感流平均处理而造成算力浪费和背景干扰的问题,提出任务感知的选择性感知框架:以腕部相机和语言指令为锚,实时预测多视角乃至热成像输入的任务相关性,通过路由与门控抑制低价值模态,让感知计算随任务重要性伸缩;同时用 VLM 自动标注管线训练路由器,降低人工标注成本。文中称该方法在真实机器人操作尤其长时程任务上同时提升推理效率和控制性能,但摘要未给出具体增益幅度,判断基于公开摘要。

ActionCodec: What Makes for Good Action Tokenizers figure
arXiv2026-02-17

ActionCodec: What Makes for Good Action Tokenizers

泛化

泛化机器人学习

本文聚焦VLA里“动作tokenizer该为优化而非重建服务”的问题,指出仅看重建误差会错过对策略学习最关键的因素,并据此总结出四条设计原则:增大相邻动作块的时序token重叠、减少词表冗余、提升与视觉/语言上下文的互信息、增强token独立性,在此基础上提出VQ式ActionCodec。实验表明,它在仿真和真实机器人任务中都提升了训练效率与抗过拟合能力;SmolVLM2-2.2B在无机器人预训练下于LIBERO达到95.5%,配合额外架构增强可到97.4%。

DexEvolve: Evolutionary Optimization for Robust and Diverse Dexterous Grasp Synthesis figure
arXiv2026-02-16

DexEvolve: Evolutionary Optimization for Robust and Diverse Dexterous Grasp Synthesis

抓取

抓取灵巧操作安全操作

这篇工作针对灵巧抓取中“解析生成+高保真仿真筛选”流程会丢掉大量候选、导致稳定性与多样性同时受损的问题,提出把 Isaac Sim 从验证器改成优化器:以解析抓取为种子,用异步无梯度进化搜索在仿真中持续修复和提升抓取,并结合密度感知选择与归档机制抑制模式坍塌,还可纳入非可微的人类偏好或任务指标。实验表明其在 Handles 和 DexGraspNet 子集上每个物体可得到超过120个不同稳定抓取,较初始解析方法提升1.7–6倍,独特抓取覆盖率也比扩散基线高46%–60%,并展示了真实机器人部署能力。

BPP: Long-Context Robot Imitation Learning by Focusing on Key History Frames figure
arXiv2026-02-16

BPP: Long-Context Robot Imitation Learning by Focusing on Key History Frames

模仿学习

模仿学习机器人学习

论文关注必须记住过去事件的非马尔可夫机器人任务:直接把长历史喂给模仿策略,常因训练数据对“历史空间”覆盖不足而学到伪相关,部署时一旦偏离专家轨迹就容易失效。BPP的核心做法是不用完整历史,而让VLM从轨迹中抽取少量语义关键帧作为压缩记忆,在保留抓取、子目标完成等关键信息的同时缩小训练与测试分布差。作者在4个真实世界操作和3个仿真任务上验证,真实任务平均成功率较最强基线提升约70%,且更省数据、训练更快。

A Soft Wrist with Anisotropic and Selectable Stiffness for Robust Robot Learning in Contact-rich Manipulation figure
arXiv2026-02-16

A Soft Wrist with Anisotropic and Selectable Stiffness for Robust Robot Learning in Contact-rich Manipulation

软体机器人

软体机器人安全接触丰富机器人学习操作

本文针对接触丰富操作里,刚性末端在学习阶段易因碰撞受损,而现有软夹爪又难同时兼顾大形变、方向性刚度和实用性的问题,提出把顺应性从手指转移到腕部的 CLAW 软腕:以两根正交板簧配合旋转关节和锁止机构,实现 6 自由度大范围形变,并在三种模式下提供各向异性可选刚度,以兼顾碰撞吸收与抑制水平姿态下的下垂。模仿学习的插销插入实验中,其成功率达 76%,高于 Fin Ray 的 43% 和刚性夹爪的 36%。

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL figure
arXiv2026-02-15

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

辅助任务

辅助任务VLA世界模型遥操作感知机器人学习数据集/Benchmark

这篇工作针对VLA用RL后训练时难以承受真实机器人海量交互、而世界模型闭环想象又会因“幻觉”和长时误差累积误导优化的问题,提出WoVR,把重点从“学一个绝对真实的模拟器”转为“约束RL如何使用不完美模拟器”:结合可控动作条件视频世界模型、关键帧初始化 rollout 以缩短有效误差深度,以及策略—世界模型协同进化来缓解分布漂移。在LIBERO上平均成功率由39.95%升至69.2%,真实机器人由61.7%升至91.7%;但各模块增益占比文中未充分说明。

RoboAug: One Annotation to Hundreds of Scenes via Region-Contrastive Data Augmentation for Robotic Manipulation figure
arXiv2026-02-15

RoboAug: One Annotation to Hundreds of Scenes via Region-Contrastive Data Augmentation for Robotic Manipulation

数据需求量大

数据需求量大数据采集数据增强操作

这篇工作针对机器人策略在未见背景、光照和干扰物下容易失效、而大规模采集和依赖完美检测又成本高的问题,提出RoboAug:只需单张图像框标注,就用一次区域匹配加时序跟踪生成任务掩码,再结合生成式背景重组和可插拔区域对比损失,让策略更聚焦操作相关区域。35k次真实实验显示,三台机器人在组合扰动场景的成功率分别从0.09/0.16/0.19提升到0.47/0.60/0.67。

Learning Part-Aware Dense 3D Feature Field for Generalizable Articulated Object Manipulation figure
ICLR 20262026-02-15

Learning Part-Aware Dense 3D Feature Field for Generalizable Articulated Object Manipulation

任务规划

任务规划3D 表征泛化操作

论文聚焦铰接物体操作难以跨对象泛化的问题,指出把2D基础特征硬提升到3D常受推理慢、跨视角不一致和空间分辨率不足所限,真正关键是识别“该抓哪一部分、如何作用”的功能部件。作者提出PA3FF,从点云前馈预测连续的部件感知稠密3D特征场,并结合PADP扩散策略提升模仿学习泛化与样本效率。结果上,PartInstruct较现有方法绝对提升9.4%,8个真实任务较GenDP提升18.75%,并优于CLIP、DINOv2和Grounded-SAM;但判断基于公开摘要/项目页,增益拆解文中未充分说明。

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment figure
arXiv2026-02-14

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

触觉

触觉Latent Learning机器人学习

这篇工作针对“人类示教触觉丰富却难迁移到异构机器人”的问题,提出 TactAlign:先分别自监督预训练手套与机器人触觉编码器,再用基于手物交互伪配对的 rectified flow 对齐无配对触觉潜变量,从而支持跨形态共享策略训练。实验显示,在转动、插入、压盖任务上,相比无触觉/无对齐成功率分别提升59%和51%;仅用≤5分钟人类数据即可泛化到新物体,并实现灯泡旋拧的零样本迁移。

Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation figure
arXiv2026-02-14

Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation

触觉

触觉泛化操作应用

这篇论文针对一类难点:仅靠视觉的通用策略懂“该用哪儿”却不懂“该施多大力”,而触觉策略又常绑死在单一工具实例上。作者的关键洞察是,同类工具几何虽变,但真正起作用的“有效部位”接触规律相对稳定,因此提出 SCFields,把视觉语义与工具表面的稠密外部接触概率、力方向/大小统一到 3D 点云里,并用“仿真预训练+少量真实伪标注对齐”缓解触觉 sim2real。实验在刮擦、蜡笔绘画和削皮上实现对未见工具的零样本泛化,整体显著强于纯视觉和原始触觉基线;如削皮任务中未见工具平均削皮长度达 4.52cm,基线约 1cm 左右。

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation figure
ICLR 20262026-02-14

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Flow Matching

Flow Matching机器人学习

本文针对流匹配策略虽能建模多峰动作、却仍依赖多步采样而带来在线训练和闭环控制延迟的问题,提出MVP:直接学习“平均速度场”,把高斯噪声一步映射为动作;并用IVC在训练中补上平均速度ODE缺失的边界条件,提升学习精度与表达性。结合best-of-N的generate-and-select后,MVP在Robomimic与OGBench多个机器人操作任务上取得SOTA成功率,同时显著加快训练和单步推理。

MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer figure
arXiv2026-02-14

MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer

数据需求量大

数据需求量大泛化跨本体

这篇工作针对 VLA 在新机器人上迁移时受制于运动学差异、私有适配模块容量有限和少样本数据昂贵的问题,提出先把不同本体的执行轨迹离散成与机器人无关的“动作母题”,再用进度感知对齐、跨本体对抗约束和轻量预测器,把母题注入 flow-matching 策略生成目标机器人动作。核心洞察是先迁移可复用的时空行为结构,再做本体相关控制落地。实验显示其在少样本跨本体迁移上仿真提升 6.5%、真实提升 43.7%,但母题学习仍依赖多本体异构数据,数据成本并未被根本消除。

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation figure
arXiv2026-02-14

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

Flow Matching

Flow Matching机器人学习操作

论文针对扩散/流匹配操作策略推理慢、难以支持高频闭环控制的问题,先指出MeanFlow在机器人动作生成中虽能一步粗定位,但因分布失配而精度不足,且多步推理也难补救。为此提出HybridFlow:单模型先做MeanFlow全局跳转,再用ReNoise把状态拉回训练分布,最后切到ReFlow做局部修正,以3阶段实现仅2次前向。实机上相较16步Diffusion Policy,其成功率提升15–25%,时延由152ms降至19ms(约52Hz),OOD抓取和布料折叠分别达70.0%与66.3%,但文中也承认ReNoise系数α仍需按任务调参。

Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation figure
arXiv2026-02-14

Hierarchical Audio-Visual-Proprioceptive Fusion for Precise Robotic Manipulation

音频

音频感知机器人学习操作

该文关注机器人操作中视觉与本体感觉难以可靠判断接触状态的问题,认为音频虽稀疏且突发,却携带关键接触动态,因此不应与其他模态被平等地“平铺融合”。方法上提出分层音视本体融合:先用音频分别调制视觉和本体表征,再通过带音频直连的交互模块建模高阶跨模态关系,并接入扩散策略直接输出连续动作。实机倒液和开柜实验表明,其精度与泛化均优于单模态及现有多模态融合方法,但文中也指出当音频稀少或与任务无关时收益有限。

HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models figure
arXiv2026-02-14

HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models

VLA

VLA机器人学习

HBVLA针对VLA难以上1比特后训练量化的问题:闭环控制里微小量化误差会沿长时序累积成动作失败。论文的关键洞察是,不同模块量化敏感度不同,且传统Hessian会被视觉异常值和token数量失衡误导;为此用策略感知Hessian识别关键权重,并对非关键权重做稀疏正交变换后在Haar域分组二值化。在LIBERO上量化OpenVLA-OFT仍保留92.2%性能,在SimplerEnv上量化CogAct保留93.6%,真实机器人测试也仅小幅下降。

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution figure
arXiv2026-02-13

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

辅助任务

辅助任务VLA感知机器人学习操作

论文针对大参数VLA在真实机器人上推理延迟高、动作块衔接生硬的问题,提出Xiaomi-Robotics-0:先用跨本体机器人轨迹与视觉语言数据联合预训练,尽量保留底层VLM的语义能力;再通过带动作前缀的异步训练、Λ形注意力掩码和推理时序对齐,减少模型只“抄前一步”而忽视感知的倾向,让连续控制更平滑且更具反应性。实验中其在LIBERO、SimplerEnv、CALVIN上均达SOTA,并在双臂拆乐高、叠毛巾任务上用消费级GPU实现高成功率与更高吞吐。

Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control figure
arXiv2026-02-13

Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control

辅助任务

辅助任务VLA机器人学习

论文指出,VLM虽具常识与感知能力,但现有层级机器人系统只用粗粒度任务语言连接VLM与VLA,导致高层推理难以真正约束低层动作。作者提出Steerable Policies,用可扩展合成标注把VLA训练成可理解子任务、原子运动、像素点/轨迹及其组合指令的低层策略,并分别用微调高层推理器和现成VLM做层级控制。在真实Bridge WidowX操作中,该方法在泛化与长时序任务上均优于已有推理型VLA和VLM层级基线。

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies figure
ICRA 20262026-02-13

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies

任务规划

任务规划安全机器人学习操作

面向动态环境中的机械臂操作,论文指出纯学习策略虽能从示教中泛化任务,但难以解释且缺乏严格安全保证,纯优化又依赖手工目标并欠缺灵活性。SafeFlowMPC将条件流匹配生成的期望轨迹与在线次优MPC投影结合,在每次流更新后拉回安全流形,并通过安全终端约束保证全程约束满足。作者在KUKA 7自由度平台上完成两类抓取和动态人机交接三项真实实验,结果表明其具备实时可用性,且整体优于基线方法。

RynnBrain: Open Embodied Foundation Models figure
arXiv2026-02-13

RynnBrain: Open Embodied Foundation Models

任务规划

任务规划多模态推理基础模型

论文针对现有具身系统中“通用VLM懂语义但不懂物理、动作模型接地气却欠泛化”的割裂,提出开放式时空基础模型RynnBrain:把第一视角视频理解、跨帧/跨轨迹空间定位、文本—空间交错推理,以及显式输出物体、可供性、区域与轨迹的物理规划统一起来。作者报告其在20个具身基准和8个通用视觉基准上明显优于现有具身“脑”模型,并能高效迁移到导航、操作规划和VLA等下游任务。

Learning Native Continuation for Action Chunking Flow Policies figure
arXiv2026-02-13

Learning Native Continuation for Action Chunking Flow Policies

Flow Matching

Flow Matching机器人学习

论文针对动作分块VLA在块边界因推理延迟与策略多模态性产生跳变、犹豫的问题,提出把续接能力在训练中“学进”策略的Legato。其核心是用按时间步衰减的动作—噪声混合作为去噪起点,并重塑flow matching速度场,使每一步引导下的训练与推理动力学一致,再通过随机日程条件适配不同延迟和可控平滑度。五个真实机器人操作任务上,Legato较RTC更少伪多模态切换,轨迹平滑性提升约10%,任务完成时间也缩短约10%。

Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos figure
arXiv2026-02-13

Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos

抓取

抓取视频规划机器人学习操作

该文关注“仅凭人类视频学习抓取操作”的关键难点:视频能提供抓后运动信号,却难指导非人形夹爪学会与任务相容的抓取。作者提出 PSI,将策略模块化为抓取与抓后执行,并在仿真中对“候选抓取—视频提取的6DoF物体轨迹”成对筛选,既过滤跟踪错误或机器人不可执行的轨迹,又自动生成抓取适配标签来训练抓取得分模型。实机实验表明,在完全不使用机器人示教数据的前提下,PSI能以较高样本效率学到更稳健的精细操作,明显优于直接套用通用抓取生成器的模块化基线。

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning figure
arXiv2026-02-13

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

VLA

VLA触觉接触丰富机器人学习操作

论文关注VLA在插接、擦拭、可变形物体操作等接触丰富任务中易被高熵视觉/语言主导、难以稳定利用力反馈的问题。CRAFT的关键做法是在微调早期用变分信息瓶颈压制视觉语言表征,配合课程学习让策略先依赖力信号、再逐步恢复全模态输入,并用主从遥操作采集同步视觉-语言-力数据。文中称其在5个真实任务及RDT、π0等架构上提升成功率,并对未见物体和任务变体有更好泛化,但摘要未充分说明具体增益幅度。

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models figure
arXiv2026-02-13

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

模仿学习

模仿学习强化学习VLA触觉机器人学习

该文针对现有 sim-real 协同训练把仿真仅当作静态示范、难以利用闭环交互且易受分布偏移影响的问题,提出 RL-Co:先用真实+仿真示范做 SFT 热启动,再在仿真中用强化学习优化,并加入真实数据监督损失作为锚点以缓解遗忘。作者在 4 个真实桌面操作任务、两类 VLA(OpenVLA 与 π0.5)上验证其相对真实微调和 SFT 协同训练均更优,真实成功率最高分别提升 24% 和 20%,同时泛化与真实数据效率也更好。

When would Vision-Proprioception Policies Fail in Robotic Manipulation? figure
arXiv2026-02-12

When would Vision-Proprioception Policies Fail in Robotic Manipulation?

Vision-Action

Vision-Action机器人学习操作

本文试图解释“加入本体感觉为何有时反而让机器人操作泛化变差”。作者用按时间段切换策略的干预实验发现,失败主要出现在需要重新定位目标的运动过渡阶段:联合策略训练时会偏向更易降损的本体信号,导致视觉分支被压制。为此提出GAP,先用本体序列估计各时刻属于过渡阶段的概率,再在这些时刻下调本体分支梯度。实验显示,原始视觉-本体策略在部分设置下平均比纯视觉差15.8%,而GAP在仿真与真实、单臂与双臂、常规策略与VLA上都能稳定提升成功率。

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning figure
ICRA 20262026-02-12

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

触觉

触觉感知机器人学习

该文关注视觉主导的操作策略在遮挡、透明物体和自遮挡场景下易失效,而现有视触融合又常停留在特征对齐或直接拼接,未充分利用两种模态的互补性。ViTaS的关键做法是用软融合对比学习在跨模态中构造更合理的正负样本,并结合CVAE从融合表征重建视觉观测,以同时强化对齐与补全能力。实验在12个仿真任务和3个真实任务中均优于多种视触基线;但给定信息未说明具体提升幅度,增益拆分主要依赖消融结论。

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model figure
arXiv2026-02-12

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作针对真实机器人在线采样昂贵、现有世界模型又因示范数据缺少失败案例而过于乐观的问题,提出 VLAW:先用少量真实策略 rollout(含失败轨迹)把动作条件视频世界模型校准到更符合接触动力学,再在模型内大规模生成并用视觉语言奖励筛选合成轨迹,以稳定的监督式更新反哺 VLA。DROID 实验中,该方法较基线策略绝对成功率提升 39.2%,仅加入世界模型生成数据也额外带来 11.6% 提升。

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning figure
ICLR 20262026-02-12

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

任务规划

任务规划多模态推理感知操作

这篇工作关注机器人操作中“失败难以预枚举、但解释标注又昂贵”的矛盾,目标是不只判断是否失败,还能给出开放式原因解释。作者提出 ARMOR,将失败检测与语言推理做成按轮次迭代的多任务自修正过程,并用大量稀疏二值标签配合少量稠密推理标注训练,推理时再基于自确定性从多条 refinement 轨迹中选最可信结果。文中在仿真与真实场景均报告 SOTA:失败检测最高提升 30%,推理匹配分数最高翻倍,说明其比封闭集故障分类更能处理细粒度、组合式失效。

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment figure
arXiv2026-02-12

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

VLA

VLA机器人学习

论文针对VLA常见的“语言意图—动作执行”错位,以及单纯扩大策略预训练收益有限的问题,主张把更多算力放到测试时验证。其核心洞察是:同时扩展指令改写数与动作采样数,比只扩其中一项更能提升候选多样性;据此提出对比式验证器CoVer和分层管线CoVer-VLA,在部署时筛选最匹配的高层提示与低层动作块。结果上,SIMPLER域内/域外分别提升22%和13%,真实实验进一步提升45%,PolaRiS上的任务进度和成功率也提升14%和9%。

Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control figure
arXiv2026-02-12

Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control

Latent Learning

Latent LearningDiffusion Policy机器人学习

论文认为,机器人精细操作的瓶颈不只在数据规模或策略容量,更在于主流判别式视觉表征追求语义不变性,难以对毫米级位姿变化给出可预测响应。作者将冻结扩散模型的几何先验蒸馏到确定性的多尺度 S2-FPN,并结合 DROID 预训练,以保留接触相关几何细节,同时避免扩散特征的随机性、延迟和微调漂移。在 RoboCasa 上其平均成功率达 0.49,高于 DIFT 的 0.38 和 CLIP/DINO 类基线的 0.27,且在 18/24 个任务上最佳;文中还报告其在 LIBERO-10 上优于 VLA。

LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion figure
RSS 20262026-02-12

LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

VLA

VLALatent Learning机器人学习

该文针对机器人基础模型过度依赖高质量行为克隆、难以利用低质轨迹和无动作视频中的可迁移动力学知识的问题,提出LDA-1B:在结构化DINO潜空间中统一学习策略、动力学与视觉预测,并配合EI-30k这一3万小时异构具身数据集,让不同质量数据分工训练。实验显示其在接触密集、灵巧手和长时程任务上相对π0.5最高提升21%、48%、23%,且微调时利用30%通常会被丢弃的低质量数据还能再增10%;但部分增益可能也来自scaling/data。

JEPA-VLA: Video Predictive Embedding is Needed for VLA Models figure
arXiv2026-02-12

JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

视频规划

视频规划VLALatent Learning机器人学习

论文指出,现有VLA泛化差、样本效率低,关键瓶颈不只在策略头,而在静态图像预训练表征既难保留操作所需的精确环境状态,也缺少对成功执行过程的时序“策略先验”。为此作者引入视频预测表征V-JEPA 2,并提出可插拔的JEPA-VLA,将其自适应接入现有VLA;文中还用状态回归与未来状态预测分析支撑这一洞察。结果显示,该方法在LIBERO、LIBERO-plus、RoboTwin2.0及真实机器人上均带来明显提升,主要体现在更好的泛化与样本效率。

HoloBrain-0 Technical Report figure
arXiv2026-02-12

HoloBrain-0 Technical Report

3D 表征

3D 表征VLA机器人学习操作

论文针对现有VLA在跨机器人泛化、3D空间理解和低时延部署上的瓶颈,提出HoloBrain-0:把多视角相机参数、深度与URDF运动链显式注入策略,用3D空间增强和关节图注意力统一异构本体,并配合“预训练+后训练”、测试驱动采集及RoboOrchard基础设施。结果上,其在RoboTwin 2.0、LIBERO、GenieSim等仿真基准达到SOTA,在真实长程双臂操作上也表现强,0.2B模型已可逼近更大基线并支持端侧低延迟运行。

GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning figure
arXiv2026-02-12

GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning

强化学习

强化学习辅助任务VLA触觉世界模型感知机器人学习

论文指出,传统VLA只看当前观测,做长时序操作时缺乏前瞻性,因此将视频世界模型的未来预测能力引入策略学习。GigaBrain-0.5M*在10k+小时操作预训练VLA上提出RAMP,用世界模型预测的未来状态与价值作为动作条件,并结合人类在环回放做持续训练。结果显示其在叠衣、装箱、做咖啡等任务上较RECAP约提升30%,长程执行更稳定;但增益有多少来自世界模型而非额外回放/持续训练,文中未充分说明。

ForeAct: Steering Your VLA with Efficient Visual Foresight Planningg figure
CVPR 20262026-02-12

ForeAct: Steering Your VLA with Efficient Visual Foresight Planningg

任务规划

任务规划辅助任务VLA世界模型感知机器人学习

针对VLA在开放环境中难把高层语言落到可执行动作、尤其多步任务易失败的问题,ForeAct把“先想象再执行”做成外接规划器:先由VLM拆子任务,再由在百万跨平台轨迹上预训练的图像世界模型生成下一步应看到的场景,并将其与子任务一并输入现成VLA,无需改结构,单步预测约0.33秒。在11个真实多步任务上,其平均成功率达87.4%,较π0提升40.9个百分点;但增益中有多少来自视觉前瞻、多少来自大规模预训练数据,文中未充分拆解。

Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes figure
ICRA 20262026-02-12

Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes

抓取

抓取3D 表征感知操作

本文针对稀疏视角、重遮挡杂乱场景下语言指令抓取中3D实例分割不稳、交互后还需重建的问题,提出 Clutt3R-Seg:不再一味修补噪声2D掩码,而是用层级实例树做跨视角分组与条件替换,抑制过分割/欠分割,并用单张交互后图像维持实例一致性。其在合成、真实与实机上均优于现有方法,最难 heavy-clutter 序列 AP@25 达 61.66,比基线高 2.2 倍以上,4 视角也比 8 视角的 MaskClustering 高 2 倍多。

YOR: Your Own Mobile Manipulator for Generalizable Robotics figure
arXiv2026-02-11

YOR: Your Own Mobile Manipulator for Generalizable Robotics

移动操作

移动操作泛化操作

这篇工作针对现有移动操作平台要么昂贵封闭、要么单臂或底盘受限、难以支撑大规模家庭场景研究的问题,提出一种更实用的低成本形态:全向底盘、伸缩升降柱与双6DoF柔顺机械臂的组合,在约9250美元成本下兼顾机动性、垂直工作空间和双臂协同。结果上,作者主要通过集成测试验证了全身协调控制、双臂操作和自主导航的可用性;但题目中的“generalizable”更多体现为平台可复现与可扩展,学习层面的泛化增益文中未充分说明。

Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning figure
arXiv2026-02-11

Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning

强化学习

强化学习VLA触觉泛化机器人学习

这篇工作针对VLA在下游适配时依赖大量示范且易灾难性遗忘的问题,提出LifeLong-RFT,用无需在线环境反馈或预训练奖励模型的强化微调替代纯SFT;其关键是在动作块级别引入多维过程奖励,联合离散动作一致性、连续轨迹对齐和输出格式合法性来优化策略。实验显示该方法在SimplerEnv、LIBERO和真实任务上均优于SFT,LIBERO持续学习平均成功率提升22%,且只用20%新任务数据即可适配;但具体增益来源是否部分来自训练规模或数据配比,文中未充分说明。

Scaling World Model for Hierarchical Manipulation Policies figure
arXiv2026-02-11

Scaling World Model for Hierarchical Manipulation Policies

辅助任务

辅助任务VLA世界模型感知机器人学习操作

论文针对VLA在真实机器人数据稀缺、长时程操作和OOD场景下易失效的问题,提出分层框架VISTA:先用大规模跨本体预训练世界模型把任务拆成“文本子任务+关键目标图像”,再由低层GoalVLA依据当前观测跟随这些视觉里程碑执行。核心洞察是,稀疏但物理一致的目标图像比纯文本子目标更能提供空间约束,也比长视频预测更稳。实机仅用约2小时、5个物体数据后,可泛化到21个未见物体,新场景成功率由14%升至69%;但增益里世界模型与数据scaling各自贡献,文中未充分说明。

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation figure
arXiv2026-02-11

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

视频规划

视频规划辅助任务VLA世界模型感知机器人学习操作

这篇工作针对指令驱动机器人常见的“能理解指令、却难预见动作后果”问题,提出 Say, Dream, and Act:先筛选并适配强视频世界模型,再用潜空间对抗蒸馏把未来视频预测压到少步生成,并把压缩成关键帧的想象轨迹与真实观测一起送入动作模型,用于纠正空间偏差。实验表明,该方法在具身一致性、空间指代、交互成功率和任务完成率上均明显优于现有基线,尤其更适合长时程操作任务。

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation figure
arXiv2026-02-11

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

跨本体

跨本体基础模型操作数据集/Benchmark

面向机器人在真实家庭长尾场景中的泛化评测,本文指出现有基准在场景、物体和长时程任务覆盖上都太小,单靠真实实验也难以系统比较。作者提出开放生态 MolmoSpaces,将23万+室内环境、13万物体、4200万抓取标注、跨 MuJoCo/Isaac/ManiSkill 的工具链以及8项零样本基准统一起来,用于跨本体导航与操作。结果显示该基准与真实成功率高度相关(R=0.96),还能区分新旧策略代际差异,并暴露提示措辞、初始关节和相机遮挡等脆弱性。

LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer figure
arXiv2026-02-11

LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer

泛化

泛化跨本体基础模型

这篇工作针对一个老问题:现有多本体 VLA 虽然看过很多机器人数据,但一换夹爪、相机位姿或新机械臂就常需重训,作者将原因归结为动作监督与预训练 VLM 语言分布错位。LAP 的核心是把底层末端动作模板化为自然语言,再配合轻量 diffusion action expert 做连续控制,在无需本体专用 tokenizer、结构设计或额外标注的前提下保留可迁移语义表征。结果上,LAP-3B 在未见机器人上的零样本成功率平均超过 50%,较此前最强 VLA 约翻倍(约高 30 个点),且微调所需数据和步数更少。

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model figure
arXiv2026-02-11

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

任务规划

任务规划辅助任务VLA世界模型感知机器人学习操作

这篇工作针对端到端VLA在长程操作中易因目标歧义与误差累积而失效、而传统TAMP又缺少视觉落地的问题,提出分层世界模型H-WM:上层用微调LLM预测满足逻辑约束的动作与符号状态序列,下层结合当前观测、动作和逻辑状态生成潜在视觉子目标,把符号规划转成感知可执行的中间监督。摘要称其在多种VLA控制策略上都提升了长时序任务的执行稳健性与通用性,但文中未充分说明具体提升幅度,增益来源是否主要来自模型设计而非数据或scale也不够清楚。

Flow-Enabled Generalization to Human Demonstrations in Few-Shot Imitation Learning figure
ICRA 20262026-02-11

Flow-Enabled Generalization to Human Demonstrations in Few-Shot Imitation Learning

模仿学习

数据需求量大模仿学习数据采集泛化

这篇工作针对模仿学习高度依赖机器人示教、采集成本高的问题,尝试用少量机器人示教结合人类视频实现跨形体泛化。作者提出SFCrP:先用SFCr预测场景中任意点轨迹,补足仅看物体流或手/机械臂流难以表达交互的问题,再用“流+局部裁剪点云”策略并配合点云随机遮蔽,降低扩散策略对训练场景的过拟合。实验证明,在真实折衣、开抽屉、抓碗等任务上,该方法用30段人类视频和10条机器人示教即可优于基线,并能泛化到仅在人类视频中出现过的位置与实例变化。

AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models figure
arXiv2026-02-11

AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models

3D 表征

3D 表征VLA数据增强机器人学习

这篇工作针对现有 VLA 多继承 2D VLM、在抓取避障和空间关系判断上缺少显式 3D 几何的问题,提出 AugVLA-3D:用单目深度模型 VGGT 从普通 RGB 恢复点云,再经 PointNet 提取 3D 特征,并用一个轻量的 Action Assistant 以动作先验约束这些深度特征,减少与原有动作头的不一致。其关键价值是在不依赖 LiDAR 或额外 3D 标注的前提下复用大规模 2D 数据;实验称其在几何歧义场景中的感知、动作预测准确率、泛化性和鲁棒性都有提升,但公开摘要未给出具体增益幅度。

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning figure
arXiv2026-02-11

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

VLA

VLA基础模型语言条件机器人学习操作

这篇工作面向“one-brain, many-forms”的通用操作难题,认为瓶颈在于跨机器人数据碎片化、表示不统一,以及现有VLA把动作当作高维去噪目标而导致训练与执行低效。为此作者先整合6个公开数据集构建含600万轨迹、9500小时的UniACT,再提出动作流形学习AML,直接预测连续可行动作序列,并用双流感知融合VLM语义与可插拔3D模块信息。结果上,统一预训练提升跨平台泛化,AML改善解码速度与策略稳定性,3D注入和特征交互带来可叠加增益;但摘要未给出具体提升幅度,判断基于公开摘要/项目页。

VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model figure
arXiv2026-02-10

VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

Affordance

Affordance3D 表征视频规划人机交互语言条件数据集/Benchmark

这篇工作针对现有3D affordance学习多依赖图像或语言、缺少交互时序与因果线索的问题,提出从人-物交互视频中定位三维可操作区域的新任务,并构建含38K视频、22K点云的VIDA数据集。方法VideoAfford把视频MLLM的交互理解迁移到3D分割中,结合潜在动作编码器提取动态先验与spatial-aware损失增强空间推理。论文称其在分布内/外及开放词汇设定下优于已有方法,但具体提升幅度在给定材料中未充分说明,判断基于公开摘要/项目页。

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model figure
arXiv2026-02-10

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

VLA

VLALatent Learning世界模型机器人学习

这篇工作针对视频预训练的VLA常把“潜在动作”学成像素变化编码、因而容易受外观偏差、相机运动和未来信息泄漏干扰的问题,提出VLA-JEPA:用JEPA式无泄漏潜状态预测替代像素重建,目标分支只把未来帧编码成监督信号,学生分支仅看当前观测,从而更聚焦动作相关的状态转移,并把流程简化为“JEPA预训练+动作头微调”两阶段。论文称其在LIBERO、LIBERO-Plus、SimplerEnv及真实机器人操作上均取得更好的泛化与鲁棒性,但这里未给出具体增益数值。

UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking figure
arXiv2026-02-10

UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking

基础操作

基础操作触觉数据生成操作数据集/Benchmark

这篇工作针对接触密集操作中“视觉不够、真实触觉数据又贵且难采、缺少统一评测”的瓶颈,提出 UniVTAC:一个支持三类视触觉传感器的统一仿真平台,同时提供可控数据合成、带多重监督的视触觉编码器预训练,以及包含8个任务的Benchmark。实验显示其表征接入后基准平均成功率提升17.1%,真实机器人提升25%;但从公开摘要看,增益可能主要来自大规模仿真数据与预训练,二者贡献拆分文中未充分说明。

TriPilot-FF: Coordinated Whole-Body Teleoperation with Force Feedback figure
arXiv2026-02-10

TriPilot-FF: Coordinated Whole-Body Teleoperation with Force Feedback

触觉

移动操作触觉数据采集遥操作

这篇工作针对移动双臂机器人遥操作中“底盘、双臂、避障与接触”同时耦合、而现有界面又过度依赖手部控制的问题,提出TriPilot-FF:把脚踏板变成连续底盘控制通道,并用低成本激光雷达生成与行进方向相关的阻力反馈,在不显式接管控制器的情况下把操作者引向更避障的动作;同时结合双臂力反射与可操作性提示,提醒何时该重定位底盘。实验表明它能支持更长时程、需要精确底盘移动和双臂协同的任务,并且把遥操作中的力/扭矩信号并入ACT后,模仿学习表现进一步提升。

Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments figure
arXiv2026-02-10

Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments

VLA

VLA应用

论文聚焦科学实验机器人中的长程复合操作:VLA虽能完成训练见过的原子任务,但在任务重排后常因相邻步骤间的“状态鸿沟”而卡住。Sci-VLA把LLM代理作为仅在推理期介入的插件,显式推断两原子任务之间缺失的过渡动作并生成机器人执行代码,无需再训练即可把原子能力串成复合流程。作者在数字孪生的3/5/8步任务上报告原子任务平均成功率提升约42%,并展示了从仿真到真实实验室的迁移性,但动作安全性与推理时延文中仍未完全解决。

Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows figure
arXiv2026-02-10

Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows

灵巧操作

灵巧操作操作

这篇工作针对真实灵巧操作微调时交互预算很小、动作分布又强多峰的问题:扩散策略难以做保守的似然约束更新,而逐步 critic 又与 action chunk 执行错配。作者提出 SERNF,用可精确求似然的条件 normalizing flow 生成整段动作,并用 action-chunked critic 直接评估动作序列,以提升训练稳定性和长时程 credit assignment。实验在真实机器人剪刀取出并剪胶带、手内旋转立方体两项任务上显示,其比常见基线更稳定且更省样本地完成适应。

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation figure
ICLR 20262026-02-10

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation

辅助任务

辅助任务VLA感知机器人学习操作

论文针对机器人VLA普遍缺少与动作时序对齐的中间监督、导致“先规划后执行”难以落地的问题,提出RoboInter套件:用半自动工具在23万段、571个场景上构建含10余类逐帧中间表征的标注库,并配套空间/时序VQA基准和可模块化或端到端训练的RoboInter-VLA。实验表明,这些标注能提升VLM的具身推理与定位能力,并在开环、闭环操作中带来性能和泛化增益;但文中未充分说明具体提升幅度,增益也可能部分来自数据规模扩大。

Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction figure
arXiv2026-02-10

Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction

任务规划

任务规划3D 表征操作

这篇工作针对深度相机在透明、反光物体上噪声大、而现有前馈重建又缺少操作所需米制精度的问题,提出Robo3R:从RGB与机器人状态一次前向同时预测局部几何、相对位姿和全局相似变换,并用masked point head与关键点PnP细化外参,把多视角点云对齐到机器人规范坐标系。实验表明其重建质量优于现有方法和深度相机,并提升模仿学习、sim2real抓取与无碰规划;但模型设计与4M合成数据各自带来的增益文中未充分拆解。

Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization figure
arXiv2026-02-10

Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization

VLA

VLA感知机器人学习

论文关注一个关键问题:VLA里“数据越多越好”的扩展规律,在机器人这种机体、传感器和动作空间高度异构的场景下是否仍成立。作者基于VLM+flow matching搭建受控消融框架,并提出分组盲测集成协议以减少真机评测偏差。主要发现是,跨机体训练首先依赖物理对齐,统一到末端执行器相对动作表示最稳健;而异构数据简单混合常带来负迁移,传感器dropout、多阶段微调等常见正则化也未稳定增益,说明VLA性能未必主要来自无差别地scale data。

Preference Aligned Visuomotor Diffusion Policies for Deformable Object Manipulation figure
arXiv2026-02-10

Preference Aligned Visuomotor Diffusion Policies for Deformable Object Manipulation

可变形物体

可变形物体Diffusion Policy操作

论文关注可变形物体操作中常被忽视的用户偏好问题:同样是叠衣服,用户可能希望不同折叠顺序与风格,而这类偏好难以口头描述、示教又昂贵。作者从预训练视觉运动 diffusion policy 出发,提出把 RPO 的相对对比加权与 KTO 的二值反馈训练结合的 RKO,用少量偏好示范将策略对齐到目标风格。真实世界裤子、袖子和 T 恤折叠实验表明,偏好对齐方法整体优于普通 diffusion policy 微调,其中 RKO 在成功率与样本效率上最好,并更能保留预训练知识。

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation figure
arXiv2026-02-10

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

3D 表征

3D 表征世界模型机器人学习操作

这篇工作针对现有机器人世界模型多停留在单视角2D预测、难以恢复完整3D时空几何,且由“想象的未来”反推动作时逆动力学本身病态的问题,提出 MVISTA-4D:从单视角 RGBD 生成任意视角、跨视角与跨模态一致的4D未来,并把整段动作压缩为轨迹潜变量,在测试时通过反向传播优化该潜变量,再用残差逆动力学校正为可执行控制。文中还采集了14个任务的真机多视角数据,并报告在3个数据集上的4D生成与下游操作均优于强基线;但给定片段未充分说明具体量化增益有多大。

Learning Force-Regulated Manipulation with a Low-Cost Tactile-Force-Controlled Gripper figure
arXiv2026-02-10

Learning Force-Regulated Manipulation with a Low-Cost Tactile-Force-Controlled Gripper

抓取

抓取触觉机器人学习操作

论文聚焦日常脆弱物体操作中“夹到多宽”不如“施加多大力”更直接的问题:相似外观但尺寸或软硬度略变时,位置控制的稳定夹宽变化很大,而稳定受力范围更一致。为此作者提出约150美元、0.45–45N的TF-Gripper及其遥操作采集装置,并设计RETAF,将末端位姿预测与抓取力调节解耦,让腕部图像和触觉以30Hz反应式调力。五个真实任务结果表明,直接力控优于位置控,触觉对稳健调力必不可少,RETAF也能在不同基策略上持续提升成功率与抓取稳定性。

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos figure
arXiv2026-02-10

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

灵巧操作

灵巧操作视频规划双臂操作

该工作针对双臂灵巧手真实数据昂贵、难以规模化的问题,尝试把单目人类操作视频自动转成机器人训练数据。核心是四阶段管线:近公制4D手物重建、动作中心的子任务分解与双臂调度、基于力闭合的抓取与轨迹合成,以及面向零样本部署的多层数据增强。文中称可利用互联网或生成视频覆盖工具使用、长时序和精细操作,并实现零样本真机泛化;但给定材料未充分说明具体量化提升与增益来源,判断基于公开摘要与首页片段。

CAPER: Constrained and Procedural Reasoning for Robotic Scientific Experiments figure
arXiv2026-02-10

CAPER: Constrained and Procedural Reasoning for Robotic Scientific Experiments

操作

操作应用

针对科研实验机器人中长时程操作既要严格遵守实验流程、又常缺少示教且错误不可逆的问题,CAPER的核心洞察是不要继续强化端到端VLA,而应把程序性推理、感知落地和低层控制强制解耦:先由LLM在显式约束下生成合法子任务序列,再用多模态预测与VLM完成子任务落地,最后以少示教强化学习处理物理不确定性。实验表明,它在科学工作流基准和公开长程操作数据集上都提升了任务成功率与流程正确性,且在低数据、长时程场景收益更明显。

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation figure
arXiv2026-02-10

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

可变形物体

可变形物体VLA泛化机器人学习操作

论文针对现有VLA将语言规划与视觉预见割裂建模、在长时程多阶段操作中易失效的问题,提出BagelVLA:在统一Transformer里交错生成文本子计划、未来关键帧和连续动作,并用RFG以当前观测为结构先验做单步去噪,低延迟提取可指导控制的预测视觉特征。结合通用多模态与机器人混合数据的两阶段训练后,模型在仿真和真实任务上均明显优于基线,尤其在未见指令、复杂摆放和多阶段推理场景更稳;但整体提升的精确幅度在给定片段中未充分说明。

χ0: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies figure
arXiv2026-02-09

χ0: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

可变形物体

可变形物体VLA安全操作

论文聚焦长时程可变形物体操作中“看似学会、落地不稳”的问题,认为关键瓶颈不只是数据和算力不足,而是示教分布、策略归纳偏置与真实执行分布之间的不一致会在多阶段任务中不断累积误差。为此提出χ0:用模型算术融合不同示教子分布,用阶段感知优势估计稳定提供进度信号,并结合DAgger、时空增强与时间分块平滑缩小训练到部署鸿沟。在双臂衣物展平、折叠和悬挂任务上,仅用20小时数据和8张A100,较π0.5成功率提升近250%,且可连续自主运行24小时。

TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation figure
arXiv2026-02-09

TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation

强化学习

强化学习VLA触觉机器人学习操作

论文聚焦真实机器人中VLA在线强化学习探索效率低、且有效探索空间受SFT示教分布强约束的问题。其核心洞察是:若不先扩展SFT支持范围,真实世界RL即使有人类介入也难进入OOD区域。为此,TwinRL用手机视频快速重建数字孪生,在SFT阶段合成并对齐更多轨迹扩展探索空间,再先在孪生中并行RL并筛选易失败但信息量高的构型,定向指导真实机器人HiL探索。四个操作任务上,方法在分布内外都接近100%成功率,较已有真实世界RL方法收敛提速至少30%,平均约20分钟。

Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning figure
arXiv2026-02-09

Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作针对 VLA 中“推理不等于有效控制”的瓶颈:固定模板常把可见物体、计划、可供性等信息全部输入,反而淹没真正决定动作的线索。作者提出 R&B-EnCoRe,将具身推理视为潜变量,用重要性加权变分推断按“对专家动作预测的信息增益”自监督筛选并蒸馏推理轨迹,无需额外奖励、验证器或人工标注。在操作、腿足导航和自动驾驶上,分别取得 28% 成功率提升、101% 导航分数提升和 21% 碰撞率下降,且推理更短、更聚焦。

STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction figure
arXiv2026-02-09

STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction

Transformer Policy

Transformer Policy机器人学习

论文针对扩散式机器人策略虽动作质量高、但迭代去噪过慢难以支撑高频闭环控制的问题,提出STEP:用轻量级时空一致性预测器结合当前观测与前一时刻动作生成接近目标分布的warm start,再以速度感知扰动注入缓解真实执行停滞,并给出局部收缩性分析。实验覆盖9个仿真与2个真实任务,2步采样下相对BRIDGER和DDIM平均成功率分别提升21.6%和27.5%,且平均执行时长可降59%。

Mimic Intent, Not Just Trajectories figure
arXiv2026-02-09

Mimic Intent, Not Just Trajectories

机器人学习

机器人学习

论文指出,现有 VLA/模仿学习往往只拟合整段动作轨迹,缺少对“为何这样做”的建模,因此在环境扰动和技能迁移上容易失效。MINT 用 DCT 频域多尺度动作 token 化,将低频全局结构压成 Intent token、将高频残差交给 Execution tokens,并以逐尺度自回归完成从意图到执行的生成,还可通过注入单次示范的意图 token 做 one-shot 迁移。实验表明其在 LIBERO、MetaWorld、CALVIN、LIBERO-Plus 和真机上均优于强基线,扰动鲁棒性最高提升约15%,单次迁移提升约60%,真机较 π0.5 提升29%。

Informative Object-centric Next Best View for Object-aware 3D Gaussian Splatting in Cluttered Scenes figure
ICRA 20262026-02-09

Informative Object-centric Next Best View for Object-aware 3D Gaussian Splatting in Cluttered Scenes

抓取

抓取3D 表征对象中心操作

这篇工作面向抓取场景中遮挡严重、单视角观测不完整的问题,指出现有基于3DGS的NBV大多只看几何不确定性,容易反复观察已看清区域,且难以服务目标物体操作。作者将实例掩码蒸馏为每个高斯的one-hot对象向量,用其构造置信度加权的信息增益,既推动对欠探索区域的主动观察,也可切换为围绕指定目标的对象中心视角规划。实验显示其深度误差在合成数据上最高下降77.14%,在GraspNet上下降34.10%,若只针对目标物体做NBV还能再降25.60%,并在真实机器人抓取中验证有效。

Dexterous Manipulation Policies from RGB Human Videos via 4D Hand-Object Trajectory Reconstruction figure
arXiv2026-02-09

Dexterous Manipulation Policies from RGB Human Videos via 4D Hand-Object Trajectory Reconstruction

灵巧操作

灵巧操作3D 表征视频规划操作

这篇工作针对灵巧手训练长期依赖遥操作、可穿戴设备和机器人示教、难以规模化采集数据的问题,提出 VIDEOMANIP:从单目 RGB 人类视频中显式重建 4D 手—物体轨迹并重定向到机器人,再用接触优化、交互中心抓取建模和单视频合成多演示来提高物理可行性与泛化。结果上,Inspire Hand 在 20 个物体抓取上成功率达 70.25%,LEAP Hand 在 7 个真实操作任务上平均成功率 62.86%,比纯重定向基线高 15.87%。

DexFormer: Cross-Embodied Dexterous Manipulation via History-Conditioned Transformer figure
arXiv2026-02-09

DexFormer: Cross-Embodied Dexterous Manipulation via History-Conditioned Transformer

灵巧操作

灵巧操作Transformer Policy操作

针对灵巧手因运动学与接触动力学差异而常需为每种手型单独训练策略的问题,DexFormer提出基于历史观测—动作序列的Transformer策略,用时序上下文在线隐式识别手部形态与动力学,在共享动作空间内直接输出适配控制,无需显式形态编码、手工重定向或按手型设计独立解码头。结合程序化手型随机化与大规模RL训练,单一策略在仿真中优于GRU/LSTM基线,并能零样本迁移到Leap、Allegro、Rapid及真实平台,但在更高自由度手型上仍有一定性能下降。

Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models figure
arXiv2026-02-09

Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models

机器人学习

机器人学习

这篇工作针对通用机器人依赖语言提示的范式:语言对接触与空间关系过于抽象,难以支撑稳健操作。作者提出CAP,用三维接触锚点而非文本来条件化策略,并将抓取、开门、关门拆成可组合的 utility models,配合 hindsight 接触标注和轻量仿真 EgoGym 做 real-to-sim 迭代。仅用23小时示教,CAP就在新场景、新物体和新机体上零样本完成三类基础操作,较SOTA VLA平均提升56%;但重试机制与任务分解各自贡献文中未充分说明。

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control figure
ICRA 20262026-02-09

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

空中操作

空中操作感知操作

面向真实场景中的空中接触操作,本文针对现有系统过度依赖MoCap、只能做粗粒度位置控制的问题,提出一套纯机载感知—控制闭环:在接触发生时为VIO加入接触一致性因子以抑制漂移,并用IBVS配合力—运动混合控制,减少感知与控制耦合、同时稳住法向接触力和切向运动。实验表明,该系统无需外部定位即可稳定接近目标并保持接触,接触方向速度估计漂移降低66.01%。

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning figure
arXiv2026-02-08

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

辅助任务

辅助任务VLALatent Learning机器人学习

这篇工作针对现有VLA在简单与复杂操作上都使用固定计算深度、而CoT式推理又慢且占内存的问题,提出RD-VLA:把“思考”从文本或动作输出空间移到潜变量空间,用权重共享的循环动作头反复细化表示,并结合TBPTT训练与基于潜变量收敛的自适应停止,在常数内存下按样本分配测试时算力。实验表明,4次迭代可把部分任务成功率从0%提升到90%以上,在LIBERO上达93.0%,且较以往推理式VLA推理最高快80倍。

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI figure
arXiv2026-02-08

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

VLA

VLA机器人学习

该文针对真实世界在线策略学习中“机器人难复位、异构硬件难统一、云边通信受限、长时训练易中断”的痛点,核心洞察是这首先是系统问题而不只是算法问题。作者提出USER,将机器人与GPU统一抽象为可发现、可调度资源,并配合自适应云边通信、持久化缓存式回放缓冲区和全异步训练流水线,统一支持模仿学习、强化学习以及CNN/生成式/VLA策略。实验表明其可稳定支撑多机器人、异构机械臂、云边协同大模型和长期在线训练;但具体量化增益在给定材料中未充分说明。

VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation figure
arXiv2026-02-07

VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation

VLA

数据需求量大VLA数据筛选泛化机器人学习

该工作针对少样本 VLA 适配中“语义对了但几何上差一点就失败”的问题,认为瓶颈主要不在理解而在近似动作的几何歧义,并将适配改写为“先生成、再价值筛选”。方法上用微调后的 VLA 高召回地产生 action chunk,再用 Q-Chunk-Former 评估长时回报,并通过 EGR 显式拉开 near-miss 候选的价值差距。文中称其在 LIBERO 的少样本与分布偏移测试中均优于 SFT 和常规离线 RL,成功率与鲁棒性更好,但给定材料未充分说明具体提升幅度。

Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning figure
arXiv2026-02-07

Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning

模仿学习

模仿学习强化学习触觉机器人学习

论文指出,离线RL中常见的BC正则虽能抑制OOD动作,但当数据动作本身次优时,会把策略持续拉回行为分布,形成“会模仿但难超越”的性能上限。为此作者提出PAR:依据Q函数局部上升方向,用目标策略生成的候选动作替换BC监督目标,并结合价值不确定性感知的近端约束控制偏移。理论分析、连续bandit和多个离线RL基准实验表明,PAR能稳定提升TD3+BC及多类BC正则方法,并让基础TD3+BC逼近SOTA。

Differentiate-and-Inject: Enhancing VLAs via Functional Differentiation Induced by In-Parameter Structural Reasoning figure
arXiv2026-02-07

Differentiate-and-Inject: Enhancing VLAs via Functional Differentiation Induced by In-Parameter Structural Reasoning

Affordance

Affordance辅助任务VLA感知机器人学习

论文关注现有VLA在长时程操作中把任务级推理与低层控制纠缠在一起,导致提示分解不稳定、泛化受限的问题。作者提出iSTAR,将由VLM从执行视频蒸馏出的动态场景图知识注入参数,在同一VLA骨干内显式分化出结构化概念推理与动作生成两种功能,用子任务语义约束后续控制且无需外部规划器。结果上,它在多种操作基准上比基于提示和纯端到端VLA更可靠、成功率更高;但给定材料未说明具体提升幅度。

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy figure
arXiv2026-02-06

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

视频规划

视频规划辅助任务VLA世界模型感知机器人学习

这项工作针对视频世界模型虽能生成逼真画面、却常把错误动作“脑补”为成功,因而难以支撑 VLA 的 RL 后训练。作者提出 World-VLA-Loop:用可联合预测未来观测与奖励的 state-aware 视频世界模型充当虚拟环境,并借助含 near-success 轨迹的 SANS 数据与策略失败回放反复校正模型,再在其中闭环优化 VLA。仿真和真实机器人实验表明,两轮联合优化后真实成功率提升 36.7%,且物理交互需求更低;但各模块增益拆分文中未充分说明。

Think Proprioceptively: Embodied Visual Reasoning for VLA Manipulation figure
arXiv2026-02-06

Think Proprioceptively: Embodied Visual Reasoning for VLA Manipulation

VLA

VLA语言条件感知机器人学习操作

现有VLA多在动作头阶段才注入本体感觉,难让机器人状态参与指令理解和视觉关注。本文提出ThinkProprio,把关节/夹爪状态离散成文本token并在输入端与语言早融合,用“指令+本体感觉”联合筛选视觉token;消融显示这种文本化优于MLP投影,保留约15%视觉token仍接近全量性能。在CALVIN上Avg Len从4.44升至4.55,在LIBERO均值达97.3%,推理延迟由52ms降到22ms;但实机结果仅属初步验证。

SURE: Safe Uncertainty-Aware Robot-Environment Interaction using Trajectory Optimization figure
arXiv2026-02-06

SURE: Safe Uncertainty-Aware Robot-Environment Interaction using Trajectory Optimization

任务规划

任务规划人机交互安全数据集/Benchmark

论文针对接触任务里“何时发生碰撞/接触”常因感知误差和建模偏差而不确定、且MPC重规划难以覆盖毫秒级切换的问题,提出SURE:在轨迹优化中为可能的碰撞前状态生成多条分支,并让它们在碰撞后重新汇合到共享末段,从而兼顾鲁棒性与计算量。实验中,小车倒立摆在未知墙位置下成功率平均提升21.6%,机械臂接鸡蛋成功率提升40%;但计算开销随分支规模如何扩展,文中未充分说明。

RAPID: Reconfigurable, Adaptive Platform for Iterative Design figure
arXiv2026-02-06

RAPID: Reconfigurable, Adaptive Platform for Iterative Design

基础操作

基础操作操作

这篇工作针对机器人操作研究中“换一个夹爪或传感器就得重新装配、改配置、重启系统”的高迭代成本,提出全栈可重构平台RAPID:硬件上用免工具快锁和模块化末端执行器,把手持采集与机器人部署统一起来;软件上从USB热插拔事件生成Physical Mask,显式表示当前在线模态,用于自动配置、时间对齐和缺失模态下的优雅降级。系统层实验表明,其多模态配置准备时间相比传统流程缩短约两个数量级,并能在传感器运行时热拔出后继续执行策略;但文中更强调迭代效率与鲁棒性,对具体任务成功率提升未充分说明。

MultiGraspNet: A Multitask 3D Vision Model for Multi-gripper Robotic Grasping figure
arXiv2026-02-06

MultiGraspNet: A Multitask 3D Vision Model for Multi-gripper Robotic Grasping

抓取

抓取3D 表征操作

该文针对单夹具抓取泛化差、双臂多夹具成本高的问题,提出面向单臂多末端执行器的 MultiGraspNet:用共享3D点云表征联合预测平行夹爪与吸盘的抓取可行区域,再由夹具专属精炼头输出各自6DoF抓取位姿,核心洞察是跨抓取模态共享几何线索可提升杂乱场景适应性。实验表明其在基准上可与单任务模型竞争,真实系统中相对吸盘基线对已见/新物体分别多抓取16%和32%,但各模块增益来源文中未充分说明。

LIBERO-X: Robustness Litmus for Vision-Language-Action Models figure
arXiv2026-02-06

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

基础操作

基础操作VLA泛化安全操作数据集/Benchmark

现有 VLA 操作基准常因训练与测试分布过近、扰动维度单一且彼此独立,而高估模型的泛化与鲁棒性。LIBERO-X 围绕空间泛化、目标识别和指令理解,设计了五级递进评测,并配套人类遥操作采集的高多样训练集,使单一场景可对应多任务、多轨迹。实验表明,代表性 VLA 在叠加空间、拓扑、干扰物体与语义指令变化后成功率显著下滑,暴露出场景理解和指令落地仍是核心瓶颈。

Beyond the Majority: Long-tail Imitation Learning for Robotic Manipulation figure
ICRA 20262026-02-06

Beyond the Majority: Long-tail Imitation Learning for Robotic Manipulation

模仿学习

模仿学习VLA泛化机器人学习操作

这篇工作聚焦通用机器人模仿学习中的长尾示范分布:头部任务数据多、尾部任务数据少,导致策略泛化时对尾部操作明显失效。作者在 LIBERO 长尾基准上发现,重采样等传统长尾方法几乎无效,根因在于尾部样本稀缺会削弱策略对精确空间关系的学习。为此提出 APA,在不依赖外部示范的情况下,把头部任务中成功的“接近阶段”轨迹嫁接到尾部对象上,生成高质量训练样本。仿真与真实世界共 16 个任务的实验表明,APA 能显著提升尾部任务成功率,同时基本不牺牲头部任务表现。

Action Hallucination in Generative Visual-Language-Action Models figure
arXiv2026-02-06

Action Hallucination in Generative Visual-Language-Action Models

VLA

VLA安全感知机器人学习

针对VLA虽具泛化能力却仍会生成穿物体、碰撞或无法达成目标的动作这一安全问题,文中把“动作幻觉”归因于模型结构与机器人可行行为几何之间的失配:连续且连通的潜变量生成头,很难同时覆盖离散多模态路径、接触任务所需高精度,以及长时域规划中的稀有成功。论文主要给出拓扑、精度、时域三类障碍的理论下界与权衡,说明幻觉并非只靠加数据或放大模型就能消失,并分析测试时验证为何需结合自适应搜索才更可靠。

RoboPaint: From Human Demonstration to Any Robot and Any View figure
arXiv2026-02-05

RoboPaint: From Human Demonstration to Any Robot and Any View

模仿学习

模仿学习数据采集数据增强

这篇工作针对灵巧操作中高质量机器人示教难以靠遥操作低成本扩展的问题,提出一条 Real-Sim-Real 管线:先采集带多视角视觉、手套关节和触觉的人类演示,再用几何与力约束结合的 Dex-Tactile 重定向把人手动作映射到不同机器人灵巧手,并在重建场景与 Isaac Sim 中渲染成可训练数据。实验上,重定向轨迹在10类任务的实机复现成功率为84%,仅用生成数据训练的 Pi0.5 在抓放、推动、倾倒三类任务平均成功率达80%;但相对传统遥操作的增益来源不清,可能主要来自 scaling / data。

RL-VLA3: Reinforcement Learning VLA Accelerating via Full Asynchronism figure
arXiv2026-02-05

RL-VLA3: Reinforcement Learning VLA Accelerating via Full Asynchronism

强化学习

强化学习VLA触觉机器人学习

这篇工作指出,现有 VLA 强化学习沿用 LLM 式同步流水线,把整段 rollout 当作整体处理,但机器人仿真器延迟大且波动强,导致采样、推理和训练彼此等待。RL-VLA3 的核心是将 Simulator、Generator、Trainer 彻底解耦,并用细粒度环境分片与动态批处理实现全异步交互。结果显示,在不同仿真器、VLA 和 RL 算法上,吞吐最高提升 85.2%,样本效率基本不变,并可从 8 扩展到 256 张 GPU;其增益看起来主要来自系统层并行而非算法改进。

MobileManiBench: Simplifying Model Verification for Mobile Manipulation figure
arXiv2026-02-05

MobileManiBench: Simplifying Model Verification for Mobile Manipulation

操作

移动操作操作数据集/Benchmark

这篇工作针对现有VLA高度依赖昂贵遥操作数据、且多局限于静态桌面场景,难以快速验证移动操作、新传感器和新机器人形态的问题,提出仿真优先的MobileManiBench:在Isaac Sim中结合强化学习自动生成带语言、多视角RGB-D-分割和状态动作标注的数据,覆盖2种移动机器人、630个物体、5类技能、100个场景和30万轨迹。实验基于该平台比较了多种VLA与作者模型,表明它适合做受控的模态、具身与架构验证,但具体领先幅度及增益是否主要来自scaling/data,文中未充分说明。

Viewpoint Matters: Dynamically Optimizing Viewpoints with Masked Autoencoder for Visual Manipulation figure
arXiv2026-02-04

Viewpoint Matters: Dynamically Optimizing Viewpoints with Masked Autoencoder for Visual Manipulation

Vision-Action

Vision-Action感知机器人学习操作

论文针对模仿学习操作中固定单机位易遮挡、固定多机位又常引入冗余信息的问题,提出将“看哪里”纳入策略本身:利用预训练多视角MAE的完整编解码表征,在每个动作时间块结合当前视觉与动作历史预测下一最有信息量的视角,且不需要人工标注最优机位。实验表明,这种主动视角选择能明显提升单相机操作表现,部分任务甚至超过固定多相机方案。

VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models figure
arXiv2026-02-04

VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models

辅助任务

辅助任务VLA感知机器人学习

论文关注VLA扩展到动作空间后常见的“视觉—动作失配”,即策略对当前图像依赖不足。作者提出用“视觉条件性”度量动作分布对视觉扰动的敏感度,并发现成功轨迹通常强于失败轨迹。基于这一洞察,VISTA先在带像素轨迹标注的跟踪任务上做离线偏好优化,再通过潜空间蒸馏把视觉对齐迁移到指令跟随微调,在不改结构、也不新增采集数据的情况下,将OpenVLA在LIBERO上的平均成功率提升3.15%,并把OpenVLA-OFT在CALVIN ABC→D上的平均完成数从3.87提升到4.02。

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models figure
arXiv2026-02-04

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

VLA

VLA安全机器人学习

针对现有VLA测试时增强依赖额外验证器、多次前向且只改动作解码、难以处理感知歧义的问题,SCALE提出一种无需再训练的推理策略:用由输出logits计算的“自不确定性”同时调节动作采样温度和下一步视觉注意温度,高不确定时扩大感知与执行探索,低不确定时收缩为近贪心控制。实验中,它在LIBERO上将OpenVLA平均成功率从75.7%提到81.5%、π0-FAST从91.2%提到93.0%,并在仿真与真实机器人OOD设置下普遍优于现有TTS方法,同时保持单次前向效率。

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models figure
arXiv2026-02-04

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models

VLA

VLA机器人学习

该文针对连续动作VLA长期依赖MSE逐点回归、却忽视整条轨迹误差分布结构的问题,提出将最小误差熵引入训练,设计轨迹级T-MEE及两种加权变体,并与MSE联合优化,使动作误差更集中、对离群点更稳健。文中还从理论上解释了其通过误差间相互作用重塑误差几何且异常样本影响有界。实验在LIBERO、SimplerEnv和真实机器人上显示,该方法在常规、few-shot、噪声及中度不均衡数据下普遍提升成功率,训练开销几乎不变,推理无额外成本。

OAT: Ordered Action Tokenization figure
arXiv2026-02-04

OAT: Ordered Action Tokenization

机器人学习

机器人学习

这篇工作针对自回归机器人策略在连续动作上缺少合适离散表示的问题,指出现有分桶或潜变量方法难以同时兼顾压缩率、可解码性与符合 next-token 预测的因果顺序。OAT 用带 register 的 Transformer、FSQ 和 nested dropout 学出有序动作 token,使任意前缀都能解码为有效动作,从而支持按算力逐步细化的 anytime 推理。文中在 20 多个任务、4 个仿真基准及真实场景中报告其整体优于既有 tokenization 与 diffusion 基线。

GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning figure
ICRA 20262026-02-04

GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning

抓取

抓取操作

这篇工作针对语言引导抓取在杂乱、遮挡场景中常依赖检测—分割—抓取多阶段流水线、跨模态融合不足且深度利用低效的问题,提出端到端 GeoLanG:在 CLIP 式共享表征上,用 DGGM 将深度转成几何先验注入注意力,并以 ADCI 自适应整合多层视觉特征,提升语义对齐与空间推理。文中称其在 OCID-VLG、仿真和真实机器人上均优于现有方法,在遮挡、低纹理和歧义指令下更稳健;但摘要未给出具体提升幅度,判断主要基于公开摘要。

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning figure
arXiv2026-02-04

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

任务规划

任务规划3D 表征VLA泛化机器人学习

论文针对端到端VLA零样本泛化弱、依赖大量真机数据且难以做长时域3D操作的问题,提出分层GeneralVLA:先用VLM+SAM定位场景可供性交互关键点,再结合深度、知识库与3DAgent生成末端执行器3D轨迹,最后由3D感知低层策略/HGM完成精细抓取,且无需真实机器人数据或人工示范。实验显示其在14个任务上的轨迹生成明显优于VoxPoser,并且用其自动生成示范训练出的BC策略也强于人工示范及多种自动数据来源;不过文中也承认VLM的精确3D位姿感知仍有限。

Differentiable Inverse Graphics for Zero-shot Scene Reconstruction and Robot Grasping figure
arXiv2026-02-04

Differentiable Inverse Graphics for Zero-shot Scene Reconstruction and Robot Grasping

抓取

抓取任务规划3D 表征

论文针对机器人在陌生场景中感知并抓取新物体时,现有方法高度依赖大规模3D训练、多视角采集和测试时构模且缺乏可解释性的痛点,提出一种可微逆图形/神经图形框架:结合SAM等基础模型与物理可微渲染,通过鲁棒椭球初始化和逐级约束优化,从单张RGBD与框提示估计网格、6D位姿、材质和光照,无需额外3D数据或测试时采样。结果上,它在标准无模型few-shot位姿基准上优于现有方法,并在真实零样本抓取中验证了重建质量;但具体提升幅度在给定片段中未充分说明。

Capturing Visual Environment Structure Correlates with Control Performance figure
ICLR 20262026-02-04

Capturing Visual Environment Structure Correlates with Control Performance

Latent Learning

Latent Learning感知机器人学习数据集/Benchmark

论文关注机器人策略开发中视觉表征选择必须依赖昂贵策略rollout的问题,提出借助仿真器可直接获得的世界真值状态,统一探测预训练编码器能否从图像恢复几何、物体结构、材质等环境潜在状态,并以此作为表征优劣的代理。作者在MetaWorld、RoboCasa和SimplerEnv上比较多类backbone,发现该全状态预测精度与下游控制成功率在不同环境和学习设定下都高度相关,显著优于分割等既有代理,也说明“编码可控的物理状态”可能比只学外观更关键。

Act, Sense, Act: Learning Non-Markovian Active Perception Strategies from Large-Scale Egocentric Human Data figure
arXiv2026-02-04

Act, Sense, Act: Learning Non-Markovian Active Perception Strategies from Large-Scale Egocentric Human Data

人形操作

人形操作视频规划VLA基础模型感知操作

论文针对现有 VLA 将感知视为被动输入、难以处理遮挡与探索性操作的问题,试图让机器人学会“先行动获取信息,再据此决策”的主动感知。作者将主动感知形式化为由信息增益和决策分支驱动的非马尔可夫过程,并提出 CoMe-VLA:把大规模人类第一视角数据与机器人数据对齐到统一自我中心动作空间,再结合认知辅助头和视觉/本体双轨记忆,支持子任务切换与长时上下文保持。在轮式人形平台上,该方法在多类长程主动感知任务中表现出更强鲁棒性与适应性,并降低了对机器人专属示教数据的依赖。

When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens figure
ICRA 20262026-02-03

When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

VLA

VLA安全感知机器人学习操作

该文关注VLA在下游微调中容易被投毒植入后门,导致机器人在带触发器时执行危险操作,而现有防御要么不了解多模态后门机理、要么需高成本重训。作者的关键洞察是:后门主要在视觉编码深层“劫持”注意力,并让触发token嵌入在干净流形附近形成紧簇。基于此提出测试时防御Bera,先在潜空间定位异常token,再结合深层注意力掩蔽并重建无触发图像,无需改动或重训VLA。多平台多任务实验表明其明显降低攻击成功率,同时较好保持正常性能并恢复安全行为。

VLS: Steering Pretrained Robot Policies via Vision-Language Models figure
arXiv2026-02-03

VLS: Steering Pretrained Robot Policies via Vision-Language Models

任务规划

任务规划程序化规划

该文关注预训练扩散/flow-matching机器人策略在轻微场景、摆放位置或指令变化下容易失效的问题,认为瓶颈不在技能缺失,而在模仿学习把动作生成绑死在训练分布上。作者提出无需再训练的VLS,在测试时用视觉语言模型把观测与语言转成可微轨迹奖励,直接引导冻结策略的去噪采样,从而按OOD约束重组已有运动技能。实验中,VLS在CALVIN上最高提升31%、在LIBERO-PRO上提升13%,并在Franka实机上展示了对空间与语义扰动的适应性。

RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization figure
arXiv2026-02-03

RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

VLA

VLA泛化跨本体语言条件机器人学习

这篇工作针对现有VLA受限于机器人数据稀缺、连续动作建模与预训练VLM离散知识不匹配,以及换机器人就需重收数据微调的问题,提出RDT2:基于7B Qwen2.5-VL的三阶段训练框架,先用RVQ离散化动作做交叉熵预训练,再用flow matching学习连续动作,最后蒸馏成单步策略以满足实时控制。结合其重设计UMI采集的1万小时以上跨家庭数据,模型实现了对新物体、场景、指令和新本体的零样本泛化,并在灵巧、长程和动态任务上优于π0-FAST、π0.5;但整体增益可能主要来自模型与数据的共同scaling。

QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization figure
ICLR 20262026-02-03

QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

VLA

VLA机器人学习

论文指出,直接套用LLM常见的统一比特量化到VLA并不合适,因为机器人闭环控制里很小的动作偏差也会在长时任务中累积成失败。QVLA的关键洞察是“通道不等价”:它直接在动作空间衡量每个通道被量化到0/2/4/8/16比特后的敏感度,再用全局贪心策略分配比特,把量化和0-bit剪枝统一起来。在LIBERO上,OpenVLA-OFT量化后仅需29.2%原始显存,仍保留98.9%原始性能并获得1.49倍加速,相对SmoothQuant任务表现提升22.6%。

MVP-LAM: Learning Action-Centric Latent Action via Cross-Viewpoint Reconstruction figure
arXiv2026-02-03

MVP-LAM: Learning Action-Centric Latent Action via Cross-Viewpoint Reconstruction

3D 表征

3D 表征VLALatent Learning机器人学习

论文关注无动作标注视频学习 latent action 时易把相机视角变化当成“动作”的问题,导致伪标签和真实控制信号脱节。MVP-LAM 的关键做法是用时间同步的多视角视频做跨视角重建:让一个视角推断出的离散 latent action 去预测另一视角的未来,从训练目标上压制视角特有线索、强化动作相关信息。结果上,它在 Bridge V2 上提升了 latent action 与真实动作的互信息、线性动作预测和 OOD 泛化,并在 SIMPLER、LIBERO 等基准中带来更好的 VLA 下游操作表现。

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement figure
arXiv2026-02-03

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

VLA

VLA泛化机器人学习

本文针对VLA在长时序任务中“看得短、跑得慢”的问题:多帧拼接会因注意力二次复杂度导致上下文爆炸,而逐步推理又延迟高。作者基于“轨迹中大量视觉信息跨时刻近乎不变”的洞察,提出SD-VLA,将图像token拆为多级静态/动态部分,只保留一份静态token并结合可学习recache gate复用其KV cache,从而兼顾长时记忆与推理效率。结果上,该方法在新建LIBERO-Memory上成功率绝对提升39.8%,在SimplerEnv上提升约4%,推理加速2.26×。

AffordanceGrasp-R1:Leveraging Reasoning-Based Affordance Segmentation with Reinforcement Learning for Robotic Grasping figure
arXiv2026-02-03

AffordanceGrasp-R1:Leveraging Reasoning-Based Affordance Segmentation with Reinforcement Learning for Robotic Grasping

抓取

抓取Affordance强化学习触觉感知操作

该文针对语言驱动抓取中“看懂哪里能抓”这一环节,指出现有VLM既缺少将3D几何与任务意图对齐的结构化推理,也常因先裁剪点云再生成抓取而丢失全局上下文。为此,作者提出AffordanceGrasp-R1:先用高质量CoT数据冷启动,再用强化学习增强空间推断;同时让MLLM输出框和点,再由SAM2生成可供性掩码,并在全场景点云上生成抓取候选后用掩码筛选。实验显示其在RAGNet各子集上达到SOTA,真实机器人零样本抓取在简单/困难指令下成功率为80%/72%。

World-Gymnast: Training Robots with Reinforcement Learning in a World Model figure
ICLRW 20262026-02-02

World-Gymnast: Training Robots with Reinforcement Learning in a World Model

强化学习

强化学习VLA触觉世界模型机器人学习

论文针对真实机器人试错成本高、示教数据覆盖有限及软件仿真的 sim-to-real gap,提出 World-Gymnast:让 VLA 策略在动作条件视频世界模型中“想象”执行,再用 VLM/GPT-4o 对轨迹是否完成任务打分,并以强化学习微调。核心洞察是直接在由真实数据学出的可视环境里优化策略,还能从任意初始帧训练、做测试时适应与迭代改进。Bridge/AutoEval 上其相对 SFT 最高提升 18 倍、相对 SIMPLER 最高约 2 倍,但并非所有任务都占优。

Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy figure
ICRA 20262026-02-02

Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy

泛化

泛化双臂感知操作数据集/Benchmark

论文动机是头部主相机在类人双臂操作中常被遮挡,作者将其进一步概括为“完成任务所需信息缺失”,据此提出探索式与聚焦式操作(EFM)问题。核心创新是建立含4类10任务的EFM-10基准,并提出双臂主动感知策略:让非操作臂提供腕部主动视角、操作臂提供力觉,再配套采集1810条BAPData示教。模仿学习实验表明,主动视角在全部任务上都能明显提升成功率,力觉尤其有利于精细接触操作,且精细操作时视角最好同时看到执行器末端而非只看手持物体。

SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation figure
arXiv2026-02-02

SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

可变形物体

可变形物体3D 表征Sim2Real操作数据集/Benchmark

面向布料等可变形物体,真实到仿真的难点在于形变同时受机器人动作、接触和环境效应驱动,现有物理先验或纯数据驱动方法都难兼顾可控性、长时稳定性与泛化。SoMA用层次化3D Gaussian splats表征物体,在统一潜空间中耦合机器人关节动作、机器人/环境作用力,并结合多分辨率训练与遮挡感知监督学习长时动力学。实验表明其在真实机器人重模拟和未见操作泛化上较现有方法约提升20%,还能较稳定地模拟长时程布料折叠;对增益具体来自模型设计还是数据规模的判断基于公开摘要/项目页。

RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation figure
arXiv2026-02-02

RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation

灵巧操作

灵巧操作强化学习触觉操作

这篇论文针对生成式模仿学习策略在部署时泛化不足、而直接用RL微调又易破坏预训练结构的问题,提出RFS:不改主流匹配策略参数,而是联合学习潜变量噪声转向与动作仿射残差,把全局行为探索和局部精细纠错结合起来。实验显示,RFS在多指抓取、推抓、装箱、堆叠和倾倒等任务上比DPPO、IQL及纯残差/纯噪声调制更稳定、成功率更高,并能迁移到真实机器人上做数据高效微调。

Language Movement Primitives: Grounding Language Models in Robot Motion figure
arXiv2026-02-02

Language Movement Primitives: Grounding Language Models in Robot Motion

模仿学习

模仿学习机器人学习

这篇工作针对“语言模型会规划、却难把语义落到机器人连续运动控制上”的断层,提出 Language Movement Primitives:让 VLM先做场景理解与子任务分解,再直接生成DMP的少量可解释参数,把自然语言语义落到稳定、连续的轨迹上。核心洞察是DMP既保留控制收敛性,又提供足够紧凑的参数空间供VLM推理。作者在20个真实桌面操作任务上实现零样本执行,成功率80%,显著高于最佳基线31%。

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos figure
arXiv2026-02-02

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

人形操作

人形操作视频规划泛化人机交互应用

论文针对人形机器人交互技能受限于真实数据稀缺、且RL常依赖任务级奖励设计的问题,提出 HumanX。其关键洞察是,比起从单目视频精确重建人-物交互,更重要的是用物理先验合成“可执行、可增广”的机器人交互轨迹;再配合统一模仿学习框架 XMimic,从单段人类视频学到可泛化技能且无需任务特定奖励。系统在篮球、足球、羽毛球、搬运和对抗5类场景共获得10种技能,并零样本迁移到 Unitree G1,泛化成功率较已有方法提升超过8倍。

GSR: Learning Structured Reasoning for Embodied Manipulation figure
arXiv2026-02-02

GSR: Learning Structured Reasoning for Embodied Manipulation

任务规划

任务规划多模态推理操作

论文针对具身操作在长时序任务中容易把任务逻辑与视觉变化混在一起、因而难以保持空间与因果一致性的问题,提出GSR:把具身决策建立在语义落地的场景图状态转移上,显式推理动作前提、后果与目标满足,并配套构建Manip-Cognition-1.6M联合监督世界理解、目标解释和动作规划。实验称其在RLBench、LIBERO、GSR-benchmark及真实机器人上优于提示式基线,零样本泛化和长程成功率更好,但摘要未拆解增益中方法与数据规模各自贡献,判断基于公开摘要。

From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models figure
ICASSP 20262026-02-02

From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models

VLA

VLA安全机器人学习

论文针对VLA在细粒度操作中常出现“抓不准”和“做完不停”两类失效,提出免训练的外挂式框架VLA-SCT:先用轨迹效率、姿态稳定性与平滑性评估早期动作质量,再基于视觉相似的历史成功样本做在线扰动校正,并通过视觉特征匹配判断任务终止。文中称其在LIBERO各数据集上都提升了成功率、减少超时并提高推理效率,但具体增益幅度文中未充分说明。

FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation figure
ICRA 20262026-02-02

FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation

VLA

VLA触觉接触丰富机器人学习操作

这篇工作针对VLA在插接、按压等接触丰富任务中仅靠视觉难以感知接触状态、而力传感器又昂贵脆弱的问题,提出FD-VLA:训练时用真实力信号监督Force Distillation Module,从视觉与机器人状态预测“力token”,推理时再注入预训练VLM,实现免传感器的力感知推理,并在VLM前增加力-视觉-状态融合。实物实验表明其在多种接触任务上优于无力信息、直接用原始力传感器等基线,甚至蒸馏力优于真实测力,但这一增益来源文中未充分说明。

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act figure
arXiv2026-02-02

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

基础操作

基础操作任务规划操作数据集/Benchmark

这项工作针对现有VLM机器人评测过度依赖仿真、特权状态或特定场景,难以判断其在真实开放环境中长时闭环操作能力的问题,提出可复现、模型无关的实机平台AgenticLab,把感知、任务分解、执行、验证与重规划串成统一流程,并配套开放世界操作基准。实测表明,离线VQA里看不出的多步grounding失稳、遮挡与场景变化下识别错误、空间推理不足,会显著拖累操作成功率;带动作检查的组合式管线整体强于单一VLM基线和微调VLA,但具体增益来源仍有部分不清。

A Closed-Form Geometric Retargeting Solver for Upper Body Humanoid Robot Teleoperation figure
arXiv2026-02-02

A Closed-Form Geometric Retargeting Solver for Upper Body Humanoid Robot Teleoperation

人形操作

人形操作数据采集遥操作

论文针对人形双臂遥操作中的重定向瓶颈:手端位姿IK在7DoF手臂上易出现冗余摆动、奇异位姿和延迟,而基于关键点的优化法又太慢。作者将问题改写为上臂与前臂方向对齐,只用肩-肘-腕关键点提出闭式几何求解器SEW-Mimic,可在不同人机尺度下直接求关节角。实验显示其在普通CPU上单臂约3kHz,速度和姿态相似度优于基线,初步用户研究也表明遥操作任务成功率更高;对策略学习增益的具体来源文中未充分说明。

UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors figure
arXiv2026-02-01

UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors

触觉

触觉Latent Learning机器人学习操作

论文关注异构触觉传感器在原理、外形和材料差异下难以共享力感知模型、每换传感器都需重采数据和重训的问题。UniForce 的关键做法是利用双指准静态受力平衡构造无外部 F/T 标注的跨传感器配对数据,并联合学习“触觉到力”的逆模型与“力到触觉”的前向重建,把视觉式与非视觉式触觉统一到共享潜在力空间。实验表明它在 GelSight、TacTip、uSkin 上提升了跨传感器力估计,并能在擦拭任务中实现下游头部仅用单一传感器训练、其余传感器零样本迁移;但方法仍依赖准静态平衡假设。

StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating figure
arXiv2026-02-01

StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating

辅助任务

辅助任务VLA机器人学习

本文针对长时程操作中VLA把高层推理和低层控制绑在一起、导致每步都重复解码而延迟高且目标不稳的问题,提出双系统 StreamVLA:只在检测到子任务切换时生成文本子目标和“完成态”想象图像,并把该完成态作为与执行速度无关的稳定目标锚点,其余时刻锁定高层意图、直接驱动 Flow Matching 动作头。实验显示其在 LIBERO 上成功率达98.5%,约72%时间步可跳过重推理,延迟较全量推理基线下降48%,且在真实干扰场景中恢复更稳健。

Offline Discovery of Interpretable Skills from Multi-Task Trajectories figure
arXiv2026-02-01

Offline Discovery of Interpretable Skills from Multi-Task Trajectories

泛化

泛化

论文关注在无奖励、无子任务标注的离线多任务长轨迹中,如何自动挖掘可复用且可解释的操作技能。LOKI的关键做法是先用弱任务标签约束的EVQ-VAE做粗粒度宏分段,再以自监督时序模型和迭代聚类细化边界,最后据此训练带终止条件的option层级策略。在D4RL Kitchen上其成功率优于常见HIL基线,且发现的技能与人类直觉较一致,能被重组去完成未见新任务;但验证主要集中在Kitchen,跨场景泛化增益文中未充分说明。

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models figure
ICML 20262026-02-01

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models

VLA

VLALatent Learning机器人学习

这篇工作针对VLA里显式CoT虽有助于长程操作、却因文本或离散视觉token过长而拖慢控制,并与连续感知和动作空间不匹配的问题,提出LaRA-VLA。其核心洞察是CoT的作用在于提供中间结构,而不必以可见文本呈现,因此把文本推理与未来视觉目标共同内化为连续潜变量,在潜空间统一完成推理、预测和动作条件化,并通过从显式多模态CoT到潜推理再到动作生成的课程式训练完成迁移。实验显示,该方法在仿真与真实机器人长时程操作上均优于现有VLA,并将相对显式CoT方法的推理延迟最高降低90%。

KAN We Flow? Advancing Robotic Manipulation with 3D Flow Matching via KAN & RWKV figure
arXiv2026-02-01

KAN We Flow? Advancing Robotic Manipulation with 3D Flow Matching via KAN & RWKV

3D 表征

3D 表征Flow Matching机器人学习操作

这篇工作针对扩散/流匹配操作策略虽能建模复杂动作、却仍依赖大UNet导致部署昂贵的问题,提出面向3D操作的轻量级 KAN-We-Flow:用RWKV做时序与通道混合传播任务上下文,再以GroupKAN进行按组样条式非线性校准,并加入ACR约束预测轨迹终点与专家动作一致,减少一步生成时的漂移。实验显示其在Adroit、Meta-World和DexArt上取得SOTA成功率,同时参数降至33.6M、较DP3/FlowPolicy减少86.8%,推理约8–12ms,可支持实时控制。

Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs figure
arXiv2026-02-01

Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs

VLA

VLA安全感知机器人学习

论文关注VLA在真实部署中常被忽视的“传感器级图像损坏”问题:不同于可通过换视角缓解的物理遮挡,死像素、噪声和镜头污渍会在进入策略前直接破坏视觉信号。作者提出可插拔的CRT,在VLA前端先做图像恢复,并用对抗式目标训练,避免重训底层大模型。实验显示,π0.5与SmolVLA在损坏下成功率可从约90%跌到2%,接入CRT后在LIBERO和Meta-World上大体恢复到接近干净输入;但SmolVLA对重建带来的分布偏移更敏感,且真实机器人效果文中未充分说明。

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation figure
arXiv2026-02-01

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation

VLA

VLA机器人学习操作

论文关注机器人数据覆盖不足导致VLA操作泛化受限的问题,通过在统一架构下系统比较5类协同训练数据与单/多阶段策略,给出“哪些外部数据真正有用”的经验地图。核心结论是:标准视觉-语言数据、机器人/人类轨迹的密集语言标注以及跨本体机器人数据能稳定提升分布偏移、未见任务和语言跟随表现,且组合后有累积增益并利于长时程灵巧任务微调;相反,离散动作token和显式CoT条件化基本无显著收益,纯机器人训练还会削弱骨干VLM的视语理解能力。

UniMorphGrasp: Diffusion Model with Morphology-Awareness for Cross-Embodiment Dexterous Grasp Generation figure
arXiv2026-01-31

UniMorphGrasp: Diffusion Model with Morphology-Awareness for Cross-Embodiment Dexterous Grasp Generation

抓取

抓取灵巧操作Diffusion Policy跨本体操作

这篇工作针对灵巧手形态差异大、现有抓取生成方法多依赖特定手型且难泛化到未见本体的问题,提出 UniMorphGrasp:先把不同机器手的抓取映射到统一的人形规范手姿空间,再将从 URDF 提取的手部运动学图结构与物体点云共同作为条件输入扩散模型,并用基于运动学树层级的关节监督损失约束生成。文中报告其在三个基准上达到 SOTA,并在手指数目、拓扑和长度变化等未见形态上表现出较强零样本泛化。

SA-VLA: Spatially-Aware Flow-Matching for Vision-Language-Action Reinforcement Learning figure
arXiv2026-01-31

SA-VLA: Spatially-Aware Flow-Matching for Vision-Language-Action Reinforcement Learning

强化学习

强化学习VLA触觉机器人学习

这篇论文关注流匹配VLA在用RL微调后,遇到视角变化、遮挡和杂乱场景时容易丢失预训练的空间归纳偏置、转而依赖短视视觉线索的问题。SA-VLA的核心是让表征、奖励与探索都对齐任务几何:将隐式空间token与视觉token融合,并结合反映几何进展的分阶段稠密奖励和SCAN空间条件退火探索来稳住策略更新。实验显示,仅空间融合就在LIBERO-PLUS零样本扰动集上提升2.25%,其中视角扰动提升3.83%;同时作者报告RL微调更稳定、空间泛化更强,但完整总增益在给定材料中未充分说明。

Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching figure
arXiv2026-01-31

Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching

VLA

VLA感知机器人学习

这篇工作针对VLA在连续控制中每步都重算整帧视觉、难以满足实时部署的问题,把“加速”从基于启发式的token缓存改写为可学习的任务策略优化。其核心是LAC:用轻量的缓存token选择器和缓存比例预测器,结合光流估计场景动态,并通过可微松弛做端到端训练,使模型按任务需要决定哪些视觉token复用、哪些重算。实验中该方法在LIBERO、SIMPLER和真实机器人上均优于规则式缓存/剪枝,壁钟推理最高加速1.76倍,LIBERO平均成功率从75.0%升至76.9%,真实任务提升5个百分点。

Inject Once Survive Later: Backdooring Vision-Language-Action Models to Persist Through Downstream Fine-tuning figure
arXiv2026-01-31

Inject Once Survive Later: Backdooring Vision-Language-Action Models to Persist Through Downstream Fine-tuning

VLA

VLA安全机器人学习

论文关注一个更现实的VLA安全威胁:攻击者只能在基座模型分发前下毒,而用户后续用干净数据微调通常会把后门洗掉。INFUSE的关键洞察是,不同模块对下游微调的敏感性差异很大;作者用参数变化、梯度敏感度和激活漂移筛出“微调不敏感”模块,只在这些稳定模块中注入后门并冻结其余部分,从而让触发行为跨微调保留。实验显示,用户微调后其攻击成功率在LIBERO、SimplerEnv和真实机器人上仍达95.3%、91.7%和79.8%,显著高于BadVLA,同时干净任务性能接近标准模型。

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots figure
arXiv2026-01-31

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

VLA

VLA基础模型语言条件机器人学习

本文针对VLA落地时常见的异构数据、动作空间不统一以及行为克隆难以支撑长时程任务的问题,提出五阶段训练的Green-VLA:先用网页多模态预训练建立语义/物理先验,再结合DataQA与时序对齐清洗3000小时示教,并用具身无关的统一动作接口、OOD/进度预测和JPM引导,把同一策略迁移到人形与机械臂。结果显示其在BRIDGE、CALVIN及实机上具备跨构型泛化,RL对齐进一步提升成功率、鲁棒性和长程效率,但摘要未给出具体提升幅度。

Environment-Aware Adaptive Pruning with Interleaved Inference Orchestration for Vision-Language-Action Models figure
arXiv2026-01-31

Environment-Aware Adaptive Pruning with Interleaved Inference Orchestration for Vision-Language-Action Models

VLA

VLA机器人学习数据集/Benchmark

这篇工作关注VLA在实时操作中因骨干模型过大而产生的推理延迟,指出最优剪枝模式会随环境变化而漂移,静态剪枝和固定间隔动态剪枝都难兼顾适应性与开销。作者提出免训练、可插拔的EcoVLA:用结合历史与当前视觉特征的EAP做时序一致的通道级自适应剪枝,再用I²O把剪枝并行塞进推理中的FLOPs空隙以掩蔽额外延迟。在OpenVLA、π0.5、CogACT及仿真/真机实验中,方法最高提速1.60×且成功率仅降0.4%,结合token pruning可达2.18×、仅降0.5%;但跨硬件实现复杂度文中未充分说明。

ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation figure
arXiv2026-01-31

ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation

视频规划

视频规划VLALatent Learning机器人学习操作

这篇论文的出发点是:机器人遥操作数据昂贵且难扩展,而人类操作视频更丰富,但缺少动作标注,现有基于VQ-VAE的潜在动作学习又容易走“外观重建”捷径,把背景和外观误当动作。ConLA的关键做法是在离散化前引入对比式解耦,利用动作类别先验和时间顺序/逆序线索,把运动动态从视觉内容中分离出来,再用于VLA预训练和少量机器人数据微调。实验显示其在SimplerEnv上比LAPA高12.5%,真实机器人测试提升15.9%,且仅用人类视频预训练就比机器人轨迹预训练高1.1%。

CLAMP: Contrastive Learning f or 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining figure
arXiv2026-01-31

CLAMP: Contrastive Learning f or 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

3D 表征

3D 表征Latent Learning基础模型机器人学习操作

这篇论文针对机器人操作中常用2D视觉预训练难以表达精细操控所需3D空间关系的问题,提出CLAMP:先将RGB-D和相机外参融合成点云,再重渲染为含depth+xyz的多视角观测,并加入动态腕部视角,用图像—动作—文本对比学习联合预训练表征,同时并行预训练Diffusion Policy作微调初始化。文中还指出只预训练编码器不够,策略初始化也很关键。结果上,CLAMP在少量示教下显著提升样本效率与成功率,并在6个仿真和5个真实任务上优于现有方法。

Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds figure
arXiv2026-01-31

Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds

3D 表征

3D 表征VLA安全机器人学习

论文针对2D VLA在小物体、遮挡和视角变化下空间理解脆弱的问题,发现把视觉输入显式提升为点云,比仅注入深度或空间先验更能补足2D表征。Any3D-VLA将仿真器、传感器和模型估计三类点云统一到可插拔训练流程中,经点云压缩、预训练点编码与2D特征对齐融合,学习跨域3D表示。实机零样本准确率最高62.5%,比最佳基线高29.2个百分点,少量真机微调后最高93.3%,且对噪声和尺度偏置更稳健;但部分增益也可能来自混合RGBD数据扩充,结构与数据贡献拆分文中未充分说明。

Vision-Language Models Unlock Task-Centric Latent Actions figure
arXiv2026-01-30

Vision-Language Models Unlock Task-Centric Latent Actions

VLA

VLALatent Learning机器人学习

本文针对潜在动作模型在含动作相关干扰的视频中易把背景噪声误编码为动作、从而削弱从观察学习效果的问题,提出利用可提示的视觉语言模型,按任务描述提取“关注机器人与目标、忽略干扰”的无监督表征,并将其作为LAM训练目标。大规模比较显示,不同VLM的表征质量和提示鲁棒性差异很大,且新模型未必优于旧模型,也明显强于DINOv2、CLIP等表征;在Distracting MetaWorld上,该方法将下游成功率最高提升约6倍,并优于OTTER和UniVLA。

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation figure
arXiv2026-01-30

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

任务规划

任务规划3D 表征泛化感知操作

这篇工作聚焦机器人操作里“训练视角有效、换相机就失灵”的问题,目标是在单视角推理条件下仍学到稳健的3D空间理解。GEM3D先用单视角RGB-D编码体素特征,再通过粗到细点云重建结合多视角监督的前馈式3D Gaussian Splatting学习完整几何与细节纹理,随后用多步蒸馏把预训练到的3D知识转入策略网络而非直接微调。在12个RLBench任务上平均成功率较SOTA提升12.7%,中等/大视角偏移下成功率仅下降22.0%/29.7%,明显小于基线的41.6%/51.5%。

FlyAware: Inertia-Aware Aerial Manipulation via Vision-Based Estimation and Post-Grasp Adaptation figure
arXiv2026-01-30

FlyAware: Inertia-Aware Aerial Manipulation via Vision-Based Estimation and Post-Grasp Adaptation

抓取

抓取空中操作感知操作

这篇工作针对空中机械臂抓取后因载荷和构型变化导致惯量突变、传统仅靠抓后辨识收敛慢而难以稳飞的问题,提出仿人的两阶段方案:抓前用RGB-D+文本的视觉语言模块预估目标质量与转动惯量,抓后再用力反馈快速修正,并据此进行惯量感知增益调度控制。实机结果显示平均2秒内惯量估计误差低于3%,位置和姿态跟踪RMSE分别改善43%和30%,还能完成抓取放置与5m/s扰动运输任务。

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation figure
arXiv2026-01-30

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

模仿学习

模仿学习Latent LearningFlow Matching机器人学习操作

这篇工作针对机器人长时程操作里“扩散策略太慢、原始动作空间的 flow policy 又易抖动失稳”的矛盾,提出在连续潜在动作轨迹空间做 flow matching:先把整段动作编码成时间连贯的 latent 轨迹,再学习显式潜在流,并结合点云几何条件与执行时的腕部图像调制,从而把全局运动结构与低层控制噪声解耦。仿真和真机结果表明,该方法接近单步推理,相比原始动作空间 flow 基线最高提升 93.7% 轨迹平滑度、25 个百分点任务成功率,且明显快于扩散策略。

CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control figure
ICASSP 20262026-01-30

CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control

VLA

VLALatent Learning基础模型机器人学习

这篇工作针对VLA预训练过度依赖大规模动作标注的问题,尝试仅用视频-文本对学习可控的连续潜在动作。CARE将潜在动作学习并入VLM预训练,用编码器-双解码器联合做下一帧特征重建与关键点轨迹预测,强调动作驱动的位移变化,以缓解离散码本误差和“shortcut learning”。结果表明其在多项仿真操作任务上优于已有无标签方法,成功率与语义可解释性更好,但实验主要限于仿真,且相对动作标签预训练仍有差距。

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation figure
arXiv2026-01-29

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

Latent Learning

Latent Learning泛化对象中心机器人学习操作

本文关注机器人操作在光照、纹理和干扰物变化下容易失效的问题,认为常见全局/稠密视觉特征会混淆任务相关与无关信息。作者将基于 Slot Attention 的对象中心表征引入策略学习,把场景压缩为少量“对象槽”,在保留操控所需结构的同时过滤噪声,并系统比较七类表征在 METAWORLD、LIBERO 和真实任务中的表现。结果表明,这类表征在训练效果与分布外泛化上整体优于全局和稠密特征,且机器人视频预训练还能进一步放大优势。

PocketDP3: Efficient Pocket-Scale 3D Visuomotor Policy figure
arXiv2026-01-29

PocketDP3: Efficient Pocket-Scale 3D Visuomotor Policy

3D 表征

3D 表征Diffusion Policy机器人学习

本文指出3D扩散操作策略存在结构失衡:点云编码器已很轻量且输出紧凑语义,但后端仍沿用庞大条件U-Net,造成参数与时延浪费。作者提出PocketDP3,用MLP-Mixer式Diffusion Mixer替代解码器,在时间和通道维高效融合条件信息,并在无需蒸馏或一致性训练下实现两步采样。其在RoboTwin2.0、Adroit、MetaWorld及真实机实验中以不到既有方法1%的参数达到或超过SOTA,但两步推理几乎无损的增益来源文中未充分说明。

MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts figure
arXiv2026-01-29

MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts

模仿学习

模仿学习机器人学习应用

针对微创手术中示教稀缺、视野受限且要求高安全可预测性,论文在轻量级ACT策略上叠加受监督的MoE,用手术阶段标签训练门控,让不同专家分别处理抓取、保持、牵拉等子过程,从而更稳定地学习长时程操作。在肠道抓取与牵拉协作任务中,该方法仅用不足150段、仅依赖双目内镜图像的示教就明显优于标准ACT,而通用VLA几乎学不会;同时在新抓取点、弱光、遮挡和未见视角下更稳健,并可零样本迁移到离体猪组织,另给出活体猪手术的初步定性验证。

LingBot-VA: Causal World Modeling for Robot Control figure
arXiv2026-01-29

LingBot-VA: Causal World Modeling for Robot Control

辅助任务

辅助任务VLA世界模型感知机器人学习

论文动机是现有VLA多将当前观测直接映射为动作,缺少对环境演化的因果建模,导致长时程闭环控制中易漂移、记忆不足且难以及时响应扰动。LingBot-VA把视频预测与动作解码交错到同一自回归序列中,用MoT共享潜空间与KV cache维持长期上下文,再结合部分去噪和异步执行降低推理时延。实验表明它在仿真与真实任务上整体优于现有方法,尤其在长程、精细操作和少样本后训练上更强,但具体增益有多少来自模型设计、多少来自数据与规模,文中未充分说明。

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation figure
arXiv2026-01-29

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

VLA

VLA机器人学习操作

论文指出,VLA做动态物体操作的主要瓶颈不是“看不懂”,而是推理延迟造成的感知—执行时间错位。为此,DynamicVLA采用0.4B紧凑架构、连续推理和LAAS动作流机制,让推理与执行重叠并跳过过时动作,同时构建DOM基准与自动采集流程(20万仿真、2千真实)。实验表明,它在仿真和16项真机任务中显著提升响应速度、动态适应、感知与泛化表现。

Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies figure
ICLR 20262026-01-29

Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies

Diffusion Policy

Diffusion Policy机器人学习操作

这篇工作针对扩散策略在多任务操作中往往依赖更大模型和更多示教、导致实时性与成本难以接受的问题,提出SMP:在局部白化的动作空间里学习随状态变化的正交技能基,并用具有时间黏性的路由在每步只激活少量相关专家,从而把动作分解为可复用、阶段稳定的技能组合。仿真与真实双臂多任务及迁移实验表明,SMP在成功率上优于强扩散基线,同时显著降低推理开销与采样延迟,并支持更快适应新任务。

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation figure
arXiv2026-01-29

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

空中操作

空中操作VLA操作

这项工作针对现有VLA几乎都面向地面平台、难以处理空中操作中的浮动底座耦合、三维机动与长时序任务的问题,提出首个面向空中操作的AIR-VLA基准:在Isaac Sim中构建物理仿真环境,并发布3000条人工遥操作多模态演示数据,覆盖飞行基座控制、物体/空间理解、语义推理和长程规划。判断基于公开摘要/项目页,实验结论是主流VLA/VLM已能部分迁移到空中系统,但在无人机机动、机械臂协同控制和高层规划上仍有明显边界,且具体增益来源与量化提升文中未充分说明。

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation figure
arXiv2026-01-28

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

VLA

VLA触觉机器人学习操作

这篇工作针对现有VLA只会“看”不会“感觉”、在插接与滑移等接触密集操作中容易失效的问题,引入高分辨率触觉图像,并用分层空间对齐把指尖触觉、腕部视角和第三人称视角统一到同一表征,再通过预测未来触觉的世界模型做“Think-Dream-Act”式动作修正。文中还结合数字孪生仿真与真实采集构建混合触觉数据集,在多项接触密集任务上优于现有VLA,成功率最高95%;但增益里模型设计与大规模数据各自贡献文中未充分说明。

TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement figure
arXiv2026-01-28

TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement

可变形物体

可变形物体Affordance安全操作

论文关注可变形物体在复杂纹理下“语义指令—实际抓取点”难对齐的问题,尤其是预测越界导致打滑、功能区碎片化导致决策犹豫。TRACER把高层任务分解为树状可供性 CoT,并结合边界约束细化与交互收敛流,将受纹理噪声干扰的离散响应收拢为物理一致的操作区域。在 Fine-AGDDO15 上相对基线提升 KLD 4.8%、SIM 7.5%、NSS 4.3%,真实机器人上抽纸和衣物整理成功率分别达 70% 与 60%。

Shallow-π: Knowledge Distillation for Flow-based VLAs figure
arXiv2026-01-28

Shallow-π: Knowledge Distillation for Flow-based VLAs

VLA

VLA机器人学习

这篇工作针对流式/扩散式VLA难以上边缘端实时部署的问题,指出相比token裁剪,真正拖慢推理的是需反复去噪的深层动作头,而且按相似度做动态跳层在不同噪声步上并不稳健。Shallow-π因此把π类模型的VLM骨干和动作头同时从18层压到6层,并结合真值速度监督、教师轨迹/速度蒸馏与只约束动作到视觉语言跨注意力的中层蒸馏。结果是在标准操作基准上成功率绝对下降不到1%,推理速度提升超过2倍,并在Jetson Orin/Thor多平台实机上接近10Hz运行。

Learning From a Steady Hand: A Weakly Supervised Agent for Robot Assistance under Microscopy figure
arXiv2026-01-28

Learning From a Steady Hand: A Weakly Supervised Agent for Robot Assistance under Microscopy

机器人学习

机器人学习应用

面向显微镜下卵母细胞/胚胎等微操作,论文要解决透明、可更换移液管难标注、难校准、深度难观测的问题。其核心思路是把操作者在steady-hand模式下的短时“热身”拖动轨迹当作弱监督信号,同时学习3D尖端观测、手眼标定与误差预算,再用导纳控制完成共享自主伺服。实验显示最差测试子集横向闭环精度约49微米、深度95%置信界不超过291微米,且在8人被试中将NASA-TLX总体负担较基线降低77.1%。

HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models figure
ICASSP 20262026-01-28

HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models

VLA

VLA语言条件机器人学习

论文指出,现有VLA直接微调预训练VLM并在欧氏空间做视觉—语言对齐,容易破坏机器人任务中的层级语义,学到背景颜色等伪相关。HMVLA将图文特征投到双曲空间,用蕴含约束建模层级关系,并结合稀疏门控MoE做自适应多模态融合后再预测动作。在LIBERO及其重构数据上,该方法在任务准确率和跨域泛化上优于基线,对新指令和未见物体更稳;但公开片段未给出具体提升数值,双曲表示与MoE各自贡献文中未充分说明。

Demonstration-Free Robotic Control via LLM Agents figure
arXiv2026-01-28

Demonstration-Free Robotic Control via LLM Agents

任务规划

任务规划几何约束规划模仿学习语言条件操作

论文关注VLA操控虽强却依赖示教、微调且易受分布偏移影响的问题,提出FAEA:几乎不改造机器人专用流水线,而是把通用LLM Agent SDK直接接到仿真控制与状态查询工具上,用类似“写代码—执行—报错—修正”的迭代推理来试错操控。其核心洞察是,对以任务级、审慎规划为主的操作任务,通用前沿Agent已可替代部分示教学习范式;在特权状态输入下,LIBERO、ManiSkill3、MetaWorld成功率达84.9%、85.7%、96%,一次人工反馈后LIBERO升至88.2%,接近少量示教VLA但无需示教或微调。

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation figure
arXiv2026-01-27

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

数据需求量大

数据需求量大泛化跨本体操作

这篇工作针对真实机器人数据昂贵、单用仿真受 sim2real 视觉差距、单用人类示范受本体差距限制的问题,提出 SimHum:不强行做复杂对齐,而把仿真中的可执行机器人动作当作运动学先验,把人类视频中的真实观测当作视觉先验,通过模块化扩散策略联合预训练,再保留可迁移模块用少量真机数据微调。在4个真实任务上,同等采集预算下较基线最高提升40%,仅80条真实数据时OOD成功率达62.5%,是 real-only 的7.1倍。

Real-Time Robot Execution with Masked Action Chunking figure
ICLR 20262026-01-27

Real-Time Robot Execution with Masked Action Chunking

VLA

VLA机器人学习

这篇工作面向机器人异步推理下的实时执行:边执行边预测虽能避免控制空转,但作者指出性能下降不只源于相邻动作块的边界断裂,更来自已执行子动作与当前观测错位造成的“块内不一致”,说明仅靠测试时平滑边界并不够。为此提出REMAC,用 masked action chunking 在预训练策略上学习纠偏,并以保留前缀的采样增强跨块连续性,且不增加额外时延。实验覆盖12个仿真任务和3个真实场景,在不同延迟下都表现出更高完成率、更快任务执行和更平滑控制。

PALM: Enhanced Generalizability for Local Visuomotor Policies via Perception Alignment figure
RA-L 20262026-01-27

PALM: Enhanced Generalizability for Local Visuomotor Policies via Perception Alignment

泛化

泛化感知

这篇工作针对图像行为克隆在训练域外易失效、且工作空间、视角和机器人本体变化常被分开处理的问题,抓住“局部交互动作分布在OOD前后更稳定”这一洞察,把操作策略拆成全局接近与局部精操两部分;其中局部策略仅通过输入预处理增强泛化:对第三人称图像做TCP中心裁剪,并去除绝对(x,y)、改用相机坐标系下的末端姿态表示,从而对齐视觉与本体感觉。实验显示其OOD性能下降在仿真/真实中分别控制到8%/24%,明显优于基线的45%/77%。

Just in time Informed Trees: Manipulability-Aware Asymptotically Optimized Motion Planning figure
TMECH 20252026-01-27

Just in time Informed Trees: Manipulability-Aware Asymptotically Optimized Motion Planning

任务规划

任务规划模仿学习机器人学习

针对高维机械臂在复杂障碍中难以快速找到可行解、且最短路径常把系统推向奇异位形或自碰的问题,论文在EIT*上提出JIT*:按需扩展边连接,并在瓶颈或高碰撞区域自适应加密采样,减少无效重采样;同时把可操作度与轨迹代价做动态权衡,并显式纳入自碰检查。结果显示,它在R4到R16规划以及单臂、双臂操作任务中,都比传统采样规划器更快得到初始解且收敛到更优路径。

AC2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation figure
arXiv2026-01-27

AC2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation

VLA

VLA机器人学习操作

这篇工作针对VLA在机器人闭环控制中每步都需重跑大视觉语言骨干、导致时延高和控制频率受限的问题,提出AC²-VLA:不再只按视觉复杂度省算力,而是根据动作上下文分配计算。其核心是用轻量路由器结合当前观测、语言指令和历史动作,统一控制跨时刻特征复用、视觉token裁剪和网络层跳过,并以动作引导自蒸馏尽量保持稠密策略行为。实验显示,其在操作基准上可将FLOPs降至基线的29.4%,最高加速1.79倍,同时任务成功率基本持平。

Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods figure
arXiv2026-01-26

Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods

操作

操作数据集/Benchmark

本文针对机器人操作评测仍停留在“是否成功”的二元指标、既看不出动作是否平滑安全,也难确认结果究竟来自自主策略还是人工遥操作的问题,提出由 Eval-Actions 与 AutoEval 组成的可信评测框架:前者汇集约13k条、覆盖150余任务的人类与 VA/VLA 策略轨迹并显式纳入失败样本,配套专家评分、排序偏好和 CoT 标注;后者结合时空聚合与运动学矫正做细粒度质量评估,并用 GRPO 增强推理。实验显示其与人工评分的 SRCC 达 0.81/0.84,来源鉴别准确率达 99.6%。

TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion figure
arXiv2026-01-26

TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion

视频规划

视频规划Vision-Action机器人学习

这篇工作关注世界模型虽能生成“未来视频”,却难把像素级计划落到可执行机器人动作上,且基于物体状态跟踪的方法在遮挡、快运动和柔性物体场景下不稳。作者提出 TC-IDM,把生成视频中的工具轨迹作为中间表示:先分割并恢复工具的 3D/6DoF 点云轨迹,再用解耦动作头分别预测机械臂运动与工具控制,从而提升视角不变性和跨任务泛化。实机上其平均成功率为 61.11%,简单任务 77.7%,零样本柔性物体任务 38.46%,优于端到端 VLA 和其他 IDM 基线。

LingBot-VLA: A Pragmatic VLA Foundation Model figure
arXiv2026-01-26

LingBot-VLA: A Pragmatic VLA Foundation Model

3D 表征

3D 表征VLA基础模型机器人学习

该文针对VLA在真实机器人上“随数据规模是否持续变强”缺少实证、且训练评测成本高的问题,提出LingBot-VLA:用9种双臂平台约2万小时真实数据预训练,并配套统一动作空间与高吞吐训练代码。其关键洞察是成功率随数据从3000增至20000小时仍持续提升、未见饱和;在3个平台、100任务、每任务130次评测中显著优于对手,8卡吞吐达261 samples/s。就公开信息看,增益来源更可能主要是scaling/data,结构性创新文中未充分说明。

ExoGS: A 4D Real-to-Sim-to-Real Framework for Scalable Manipulation Data Collection figure
arXiv2026-01-26

ExoGS: A 4D Real-to-Sim-to-Real Framework for Scalable Manipulation Data Collection

数据需求量大

数据需求量大数据采集数据生成Sim2Real操作

这篇工作针对操作模仿学习高度依赖高质量示教、而纯仿真难以生成真实接触交互且传统R2S2R多只迁移静态场景的问题,提出无机器人参与的4D实到仿到实框架ExoGS。其关键洞察是用与目标机器人同构的被动外骨骼AirExo-3直接采集人类示教,再把机器人、物体和环境重建为可编辑的3D Gaussian Splatting资产,做几何一致的交互回放与大规模增广,并用Mask Adapter注入实例语义以缓解视觉域偏移。实验表明它相较遥操作基线提升了数据效率与泛化,但具体增益幅度在给定片段中未充分说明。

DeFM: Learning Foundation Representations from Depth for Robotics figure
arXiv2026-01-26

DeFM: Learning Foundation Representations from Depth for Robotics

四足操作

四足操作任务规划多模态推理操作

论文针对机器人高度依赖深度传感器、却长期缺少通用深度预训练编码器的问题,提出 DeFM:在 6000 万深度图上用 DINO 风格自蒸馏训练,并设计保留尺度与距离信息的度量感知输入归一化,使深度表征不仅学几何,也涌现出可迁移语义;随后再蒸馏成轻量 CNN/ViT 便于部署。结果上,它在深度分类、分割、导航、运动与操作任务上普遍优于把 RGB 基础模型硬迁到深度域或从零训练的基线,并展现较强 sim-to-real 泛化;但各项增益有多少来自数据规模与 scaling,文中未充分说明。

PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation figure
arXiv2026-01-25

PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation

3D 表征

3D 表征VLA双臂感知机器人学习操作

这篇工作针对双臂操作在遮挡、杂乱和视角变化下泛化差的问题,指出现有VLA常把多视角token直接拼接、再用全局语言条件,导致3D空间一致性和指令落地都偏弱。PEAfowl用逐token深度分布预测、可微3D提升和跨视角局部邻域聚合做几何引导融合,并以Perceiver式“文本作查询”替代粗粒度条件,同时用仅训练期的深度蒸馏缓解廉价深度噪声且不增加推理开销。在RoboTwin 2.0域随机化设置下,其成功率比最强基线高23个百分点,真实双臂实验也表现出更稳的sim-to-real迁移和蒸馏收益。

Masked Depth Modeling for Spatial Perception figure
arXiv2026-01-25

Masked Depth Modeling for Spatial Perception

任务规划

任务规划多模态推理感知

论文针对RGB-D相机在反光、无纹理等场景下深度缺失和失真严重、难以支撑机器人空间感知的问题,把传感器“坏深度”视为可利用的自然掩码而非噪声;据此提出以完整RGB为条件的 Masked Depth Modeling,在同一框架下统一深度补全与单目尺度深度,并配套 3M 真实/仿真 RGB-D 数据自动筛选流水线。实验显示其深度精度与像素覆盖率超过部分高端 RGB-D 相机,还能提升3D跟踪和灵巧抓取,对透明、反光物体更稳;但增益中数据规模与模型设计各占多少,文中未充分说明。

Mirage2Matter: A Physically Grounded Gaussian World Model from Video figure
arXiv2026-01-24

Mirage2Matter: A Physically Grounded Gaussian World Model from Video

3D 表征

3D 表征视频规划世界模型机器人学习

论文针对机器人操作受限于真实交互数据昂贵、现有仿真又存在视觉与物理鸿沟的问题,提出 Mirage2Matter:仅用多视角视频重建场景和物体的 3DGS 外观,再结合生成式碰撞几何代理、机器人视角标定与尺度对齐,把可编辑的照片级世界模型接入物理仿真。结果表明,仅靠该框架生成的数据训练的 VLA 能在多种真实操作任务上零样本迁移,部分表现可比甚至超过真实数据训练;但给定片段未充分说明具体指标与增益来源,判断基于公开摘要/论文片段。

EquiForm: Noise-Robust SE(3)-Equivariant Policy Learning from 3D Point Clouds figure
arXiv2026-01-24

EquiForm: Noise-Robust SE(3)-Equivariant Policy Learning from 3D Point Clouds

3D 表征

3D 表征泛化安全机器人学习

这篇工作关注一个常被忽视的瓶颈:点云模仿学习虽然有几何表征优势,但在深度噪声、遮挡和位姿扰动下会破坏 SE(3) 等变性,导致策略失稳、跨场景泛化下降。EquiForm 的核心是先形式化分析噪声如何造成等变偏差,再结合几何去噪模块与对比式等变对齐损失,让表征在刚体变换和噪声扰动下都保持一致,并可接到扩散等生成式策略后端。实验在 16 个仿真任务和 4 个真实任务上分别平均提升 17.2% 和 28.1%,表明其对噪声鲁棒性和空间泛化都有明显改进。

EMPM: Embodied MPM for Modeling and Simulation of Deformable Objects figure
arXiv2026-01-24

EMPM: Embodied MPM for Modeling and Simulation of Deformable Objects

可变形物体

可变形物体操作

论文关注一个核心难点:现有可变形物体模型常把连续介质简化成弹簧-质点,或依赖大量数据,导致对面团、绳索、面包等复杂材料的物理行为建模不准且泛化差。EMPM把多视角RGB-D重建、3D Gaussian外观表示与可微MPM仿真结合,在真实观测与仿真轨迹/渲染误差上反向优化杨氏模量、泊松比等材料参数,并支持在线更新。实验表明,该方法在弹性与弹塑性对象上的预测和跟踪均优于弹簧-质点基线,也展示了面向机器人操作规划的潜力,但在线效果仍受遮挡下点跟踪质量限制。

ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance figure
arXiv2026-01-23

ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

辅助任务

辅助任务VLA机器人学习

论文聚焦VLA在机器人操作中的“假完成”问题:策略过度依赖本体状态推进,而忽视视觉上已出现的掉落、干扰物替换或场景重排等失败信号。作者一方面构建了首个False-Completion基准,另一方面提出ReViP,借助外部VLM提取任务阶段感知的视觉线索,并通过特征级调制动态重平衡视觉与本体感觉。实验显示其在该基准上较π0提升26%,且在LIBERO、RoboTwin 2.0和真实场景中都更能减少假完成并提升成功率。

ConceptACT: Episode-Level Concepts for Sample-Efficient Robotic Imitation Learning figure
arXiv2026-01-23

ConceptACT: Episode-Level Concepts for Sample-Efficient Robotic Imitation Learning

模仿学习

模仿学习Transformer Policy机器人学习操作

论文针对ACT类模仿学习只看低层传感与动作、忽略示范者对任务语义理解的问题,提出ConceptACT:在训练阶段为整段示范加入回合级概念标注,并在ACT编码器末层引入概念感知交叉注意力与对齐监督,把颜色、形状、空间关系和任务约束等语义真正融入策略学习;部署时则无需额外语义输入。两项带逻辑约束的抓取放置任务表明,它比标准ACT收敛更快、样本效率更高,也明显优于把概念仅作为辅助预测或语言条件的做法。

A Multimodal Data Collection Framework for Dialogue-Driven Assistive Robotics to Clarify Ambiguities: A Wizard-of-Oz Pilot Study figure
arXiv2026-01-23

A Multimodal Data Collection Framework for Dialogue-Driven Assistive Robotics to Clarify Ambiguities: A Wizard-of-Oz Pilot Study

数据采集

数据采集遥操作操作

这篇工作针对助残轮椅+机械臂系统缺少真实“对话澄清歧义”数据、使自然语言控制难以落地的问题,提出两房间 Wizard-of-Oz 采集框架:用 VR 遥操作一体化控制轮椅与机械臂,在开门、开抽屉、饮水、喂食、清洁五类任务中同步记录 RGB-D、语音、IMU、末端位姿和全身关节状态。试点阶段从5名参与者采集53次试验,基于运动平滑性和问卷结果表明数据质量可用、能覆盖多种歧义并支持较自然的多轮交互;但规模仍小,模型增益文中未充分说明,后续价值可能主要来自 scaling / data。

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance figure
arXiv2026-01-22

IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

任务规划

任务规划多模态推理Affordance遥操作感知

本文针对VLA把2D图像patch展平成1D token后,物体边界与局部空间关系被冲淡、影响精细操作的问题,提出无需训练的IVRA:直接利用模型自带视觉编码器中的patch亲和力,在推理时注入LLM中间层,重加权视觉token,恢复实例级几何结构。实验表明它可作为LLaRA、OpenVLA、FLOWER的即插即用增强,在VIMA低数据设定平均提升4.2%,在LIBERO上也稳定增益,最高从96.3%升至97.1%,并在真实机器人任务上有效。

DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models figure
arXiv2026-01-22

DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models

VLA

VLA机器人学习

这篇工作针对VLA在机器人操作中常把注意力错误分配到任务无关图像区域、进而干扰动作生成的问题,提出可插拔的DTP:先用指令与图像token交互估计重要区域,再结合每步动作注意力,按阈值τ剪掉非重要区域中注意力异常高的token,在不改模型结构、也不增加输入的前提下纠正视觉关注。SIMPLER实验显示,它在SpatialVLA、Nora、UniVLA等Transformer式VLA上都能稳定提升相对任务成功率,并观察到无关区域注意力越多,成功率越低。

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning figure
arXiv2026-01-22

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

任务规划

任务规划视频规划辅助任务VLA世界模型感知机器人学习

这篇工作关注如何把大规模预训练视频模型中的时空动态与隐式物理先验,低成本迁移到机器人控制,而不再依赖额外动作模块或多阶段训练。Cosmos Policy在不改基础架构的前提下,将动作、未来观测和价值统一编码为视频扩散过程中的潜变量帧,只用目标平台示教做单阶段微调,并在测试时通过采样候选动作、预测未来状态并按价值排序来规划。结果上,它在LIBERO和RoboCasa分别达到98.5%和67.1%,真实双臂任务平均93.6%,规划后在两项困难实机任务上又平均提升12.5%。

LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries figure
arXiv2026-01-21

LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

VLA

VLA触觉Latent Learning机器人学习

论文指出,现有VLA常因目标驱动数据里“场景几乎决定指令”而学到视觉捷径,语言对动作的约束被弱化,导致多任务和OOD泛化差。LangForce用可学习的Latent Action Queries把策略分解为仅视觉先验与语言条件后验两支,并通过最大化条件PMI/似然比,显式惩罚忽略语言的动作选择,且无需新增数据。实验在SimplerEnv、RoboCasa、LIBERO及部分真实抓放任务上均优于基线;其中SimplerEnv的OOD增益文中不同位置报告为8.8%或11.3%。

HumanoidVLM: Vision-Language-Guided Impedance Control for Contact-Rich Humanoid Manipulation figure
HRI 20262026-01-21

HumanoidVLM: Vision-Language-Guided Impedance Control for Contact-Rich Humanoid Manipulation

人形操作

人形操作任务规划语言条件接触丰富操作

论文关注人形机器人在接触丰富操作中仍依赖人工整定阻抗与夹爪参数,难随物体和任务变化自适应。作者提出HumanoidVLM:先用第一视角图像经VLM判断任务,再用FAISS/RAG从人工验证的小型库中检索笛卡尔刚度、阻尼和抓取角,并驱动任务空间阻抗控制。14个视觉场景检索准确率93%,实机z轴误差约1–3.5 cm;但数据库仅覆盖9类任务,整体更像可行性验证而非充分鲁棒性评测。

DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning figure
arXiv2026-01-21

DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning

抓取

抓取灵巧操作操作

按给定正文判断,这里实际总结的是CADGrasp而非标题中的DextER。论文针对杂乱堆叠场景中单视角点云不完整、灵巧手高自由度且易与周围物体碰撞的问题,提出两阶段抓取生成框架:先预测与场景解耦、同时编码接触与碰撞约束的稀疏IBS,再结合占据扩散、体素级条件引导和力闭合筛选来优化抓取姿态。仿真中在670个场景、1300余物体及真实实验上,相比基线更能减少碰撞并保持较高成功率,但给定片段未充分说明统一量化增益。

CADGrasp: Learning Contact and Collision Aware General Dexterous Grasping in Cluttered Scenes figure
NeurIPS 20252026-01-21

CADGrasp: Learning Contact and Collision Aware General Dexterous Grasping in Cluttered Scenes

抓取

抓取灵巧操作操作

面向杂乱场景中灵巧手抓取受遮挡、自由度高且易与邻近物体碰撞的问题,CADGrasp不再直接从单视角点云回归抓取姿态,而是先预测与完整场景几何解耦的稀疏IBS中间表示,把手—场景接触与碰撞关系编码进优化目标;再结合占据扩散、体素级条件引导、力闭合筛选和基于能量的排序优化姿态。仿真中在670个场景、1300余物体及真实实验上,方法显著降低碰撞,同时保持较高抓取成功率与跨物体泛化能力。

A Brain-inspired Embodied Intelligence for Fluid and Fast Reflexive Robotics Control figure
arXiv2026-01-21

A Brain-inspired Embodied Intelligence for Fluid and Fast Reflexive Robotics Control

机器人学习

机器人学习操作

针对现有VLA在高频控制中存在时间盲、动作抖动、缺乏本体感觉且反应迟缓的问题,论文提出仿生分层的 NeuroVLA:将控制拆为“皮层”语义规划、“小脑”基于高频本体反馈的增益调节与稳定,以及“脊髓”SNN 的事件驱动执行和安全反射。仿真与实机实验表明,它在多项操作任务上优于现有VLA,运动 jerk 降幅超75%,碰撞反射延迟低于20ms,神经形态芯片功耗约0.4W,并可用数百条样本完成微调。

UNCLE-Grasp: Uncertainty-Aware Grasping of Leaf-Occluded Strawberries figure
arXiv2026-01-20

UNCLE-Grasp: Uncertainty-Aware Grasping of Leaf-Occluded Strawberries

抓取

抓取安全应用

这篇工作针对草莓采摘中叶片遮挡带来的几何歧义:单视角点云下,基于单一补全形状直接规划抓取,常会在被遮挡一侧失效。作者的核心思路是用带 MC Dropout 的点云补全生成多种可能形状,再用力闭合等物理约束汇总候选抓取在多种补全上的可行性,并以 LCB 做“抓取或放弃”的对象级风险决策。判断基于公开摘要/文中片段,该方法在仿真和真实机器人上都优于确定性基线,尤其能在重遮挡时更可靠地主动弃抓;但具体提升幅度文中片段未充分说明。

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers figure
arXiv2026-01-20

TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

VLA

VLATransformer Policy基础模型语言条件机器人学习

论文针对VLA在机器人微调时会破坏预训练VLM语义空间、导致通用视觉理解灾难性遗忘的问题,提出TwinBrainVLA:用冻结的“左脑”保留通用知识、可训练的“右脑”学习本体状态与控制,并通过非对称Mixture-of-Transformers让右脑按需查询左脑语义,再交给flow-matching动作专家输出连续控制。实验表明其在SimplerEnv、RoboCasa及部分真机任务上优于基线,但公开片段未充分说明具体提升幅度与增益来源。

SilentDrift: Exploiting Action Chunking for Stealthy Backdoor Attacks on Vision-Language-Action Models figure
arXiv2026-01-20

SilentDrift: Exploiting Action Chunking for Stealthy Backdoor Attacks on Vision-Language-Action Models

VLA

VLA安全机器人学习

这篇工作关注VLA在安全关键机器人中的后门风险,指出现有攻击常因轨迹突变而易被发现,而动作分块与delta pose的组合会形成块内视觉开环,使微小偏移在执行中累积成显著漂移。基于此,作者提出SilentDrift,用具备C2连续性的Smootherstep扰动和只污染接近关键帧的策略,把失败伪装成自然的“差一点成功”。在LIBERO上,其投毒率低于2%时攻击成功率达93.2%,同时干净任务成功率保持95.3%。

Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects figure
arXiv2026-01-20

Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects

可变形物体

可变形物体触觉感知操作非学习控制

针对电缆等线状可变形物体在遮挡、杂乱和光照变化下仅靠视觉难以获得完整形状的问题,本文提出一种主动视触觉重建框架:先用SAM2与Florence2分割并抽取骨架、端点和可见点云,再把端点作为触觉探索起点,沿线梯度式搜索被遮挡段,并以拓扑保持融合和B样条补全全局形状。实机在单/多电缆、倾斜平面和自交场景下都能在大面积遮挡时完成较完整的3D重建,但文中未充分说明相对纯视觉基线的定量增益来源。

A General One-Shot Multimodal Active Perception Framework for Robotic Manipulation: Learning to Predict Optimal Viewpoint figure
arXiv2026-01-20

A General One-Shot Multimodal Active Perception Framework for Robotic Manipulation: Learning to Predict Optimal Viewpoint

抓取

抓取感知操作

论文针对现有主动感知常依赖多轮视角搜索、时间和运动开销大且难跨任务复用的问题,提出一种“一次重看”的通用框架:把“什么视角好”的任务相关评价函数与预测网络解耦,在仿真中系统采样候选视角并结合 domain randomization 自动构造训练数据,再用跨注意力融合多模态信息,直接回归相机位姿调整。作者在受视角约束的抓取场景中验证,该方法能显著提升抓取表现,真实实验成功率接近翻倍,且无需额外微调即可完成 sim-to-real 迁移。

ForeDiffusion: Foresight-Conditioned Diffusion Policy via Future View Construction for Robot Manipulation figure
AAAI 20262026-01-19

ForeDiffusion: Foresight-Conditioned Diffusion Policy via Future View Construction for Robot Manipulation

3D 表征

3D 表征Diffusion Policy机器人学习操作

这篇工作针对机器人长时序、接触密集操作中扩散策略成功率明显下滑的问题,指出症结不只在动作生成,而在于条件信息和训练目标都过于“短视”:模型只看短期观测、又仅靠去噪损失训练,容易累积误差并在抓取阶段偏移。ForeDiffusion通过从当前观测构造并预测未来视图表征,将其注入每一步去噪过程,同时加入未来观测一致性损失,实现前瞻式纠偏。在 Adroit 和 MetaWorld 上其整体平均成功率达 80%,复杂任务相对主流扩散基线提升 23%,且跨任务表现更稳定。

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization figure
arXiv2026-01-19

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

VLA

VLA泛化跨本体机器人学习

这篇工作针对VLA难以跨机器人本体迁移、且单一平台数据稀缺的问题,提出把人类操作轨迹视为物理交互“母语”的人本学习范式,并用统一动作空间对齐人手与30种机器人控制,使低资源平台能借助人类和高资源机器人数据迁移技能,再结合MoF、保持流形的门控和异步分块控制,兼顾共享运动先验与本体差异。从公开摘要看,其依托3.5万小时UniHand-2.0预训练,在LIBERO上达98.9%、RoboCasa上53.9%,并以同一检查点在5种真实机器人上完成多任务;但结构改进相对scaling/data各自贡献多大,文中未充分说明。

ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models figure
arXiv2026-01-18

ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models

任务规划

任务规划视频规划强化学习世界模型

这篇工作针对视频世界模型“看起来对、但物理和任务逻辑不对”的问题,提出 ReWorld,用强化学习把生成视频同时对齐到物理真实性、任务完成度、具身合理性和视觉质量。核心是基于约23.5万偏好样本训练四维分层奖励模型 HERO,并用可计算的 HERO-FPO 去后训练 flow-based 世界模型。实验称四项指标提升约15%–25%,相对基线人类偏好率超85%;但判断主要基于论文摘要与首页片段,具体增益来源是否部分来自数据规模仍未充分拆解。

Learning Diverse Skills for Behavior Models with Mixture of Experts figure
arXiv2026-01-18

Learning Diverse Skills for Behavior Models with Mixture of Experts

VLA

VLA语言条件机器人学习

这篇工作针对多任务机器人模仿学习中单一策略易出现任务干扰与动作“平均化”的问题,提出 Di-BM:用 MoE 将复杂操作拆成可复用原始技能,并以 EBM 显式建模各专家偏好的观测分布,再由可学习路由自动分配样本,使专家在不同观测子空间专门化。实验表明,它在多项真实机器人操作任务上优于现有基线,路由可视化也显示专家会在长时序不同阶段切换;预训练后迁移到新任务时,微调所需数据更少。不过文中主要验证于 Diffusion Policy,扩展到更大规模 VLA 的增益仍待说明。

X-Distill: Cross-Architecture Vision Distillation for Visuomotor Learning figure
arXiv2026-01-16

X-Distill: Cross-Architecture Vision Distillation for Visuomotor Learning

Vision-Action

Vision-Action机器人学习

论文针对机器人示教数据稀缺下,ViT泛化强但难优化、CNN样本效率高却语义先验弱的矛盾,提出X-Distill:先在ImageNet上将冻结的DINOv2特征以MSE离线蒸馏到ResNet-18,再与扩散策略端到端微调。文中在34个仿真任务和5个真实任务上、仅用每任务10到25条示教,即稳定优于从头训练ResNet、直接微调DINOv2,甚至超过依赖点云特权观测的3D策略和更大的VLA模型,说明跨架构视觉蒸馏能显著提升低数据操作学习。

The Great March 100: 100 Detail-oriented Tasks for Evaluating Embodied AI Agents figure
arXiv2026-01-16

The Great March 100: 100 Detail-oriented Tasks for Evaluating Embodied AI Agents

基础操作

基础操作双臂操作数据集/Benchmark

这篇工作针对现有机器人数据集与评测过度集中在“抓取—放置”等高频动作、难以公平区分方法能力的问题,提出 GM-100:基于物理常识、低层操作 affordance 及人—物交互原语系统设计的 100 个细粒度长尾任务,并在两个机器人平台采集轨迹进行基线评测。结果表明这些任务既可执行也足够有挑战,能有效拉开当前 VLA 模型表现;但文中未充分说明具体数据规模、最强基线和量化增益细节。

Skill-Aware Diffusion for Generalizable Robotic Manipulation figure
arXiv2026-01-16

Skill-Aware Diffusion for Generalizable Robotic Manipulation

Diffusion Policy

Diffusion Policy泛化机器人学习操作

这篇工作针对机器人模仿学习在新物体、新场景中强依赖任务级数据、泛化差的问题,抓住“同一技能下不同任务共享相似运动模式”这一洞察,提出 SADiff:用可学习技能 token 编码多模态输入,以技能约束扩散生成面向物体的2D运动流,并结合技能检索得到的轨迹先验,将2D流更稳地映射为可执行3D动作;同时构建了面向技能评测的 IsaacSkill 数据集。实验表明,该方法在仿真、真实场景及零样本 sim-to-real 中都取得了更好的跨任务泛化与执行稳定性。

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models figure
CVPR 20262026-01-16

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

辅助任务

辅助任务VLA机器人学习

这篇工作针对VLA把视觉/语言表征直接映射为低层动作时存在的“语义—运动学鸿沟”:语言子任务或目标图像等中间推理都过于间接。作者提出在动作空间里“思考”的ACoT-VLA,用EAR生成粗粒度参考轨迹、IAR提取隐式动作先验,共同条件化动作头。文中称其在真实机器人和三个仿真基准上均优于现有方法并达到SOTA,但给定材料里各模块的具体增益拆解仍未充分说明。

In-the-Wild Compliant Manipulation with UMI-FT figure
arXiv2026-01-15

In-the-Wild Compliant Manipulation with UMI-FT

数据采集

数据采集遥操作操作

这篇工作针对 in-the-wild 示教里“能录动作、难录用力”的瓶颈:仅靠视觉和位姿难以学会接触任务中的力度调节,而商用腕部力传感器又昂贵、笨重且脆弱。作者在 UMI 手持采集器两指集成低成本六轴 CoinFT,联合 RGB、深度与位姿记录指级外部接触力和内部夹持力,并训练可输出位姿目标、夹持力与刚度的自适应顺应策略。在擦白板、串西葫芦和灯泡插入三类任务中,方法比缺少力觉或顺应控制的基线更稳定,能更可靠地调节接触力与抓取力。

Future Optical Flow Prediction Improves Robot Control & Video Generation figure
arXiv2026-01-15

Future Optical Flow Prediction Improves Robot Control & Video Generation

视频规划

视频规划触觉感知机器人学习

这篇工作关注一个关键问题:机器人控制和视频生成真正需要的是“未来怎么动”,但从噪声很大的网页视频中学习可泛化的稠密运动预测很难。作者提出 FOFPred,把 VLM 的语言/视觉理解与扩散模型的像素级生成结合起来,预测经相机运动补偿的未来光流,再分别接策略头和视频头用于操控与生成。结果上,它在 CALVIN 长时程操控上达到 4.48 平均完成长度,在 RoboTwin 以 68.6% 超过 VPP 的 61.8%,并在 SSv2 文生视频上全面优于 CogVideoX;但部分增益可能也来自大规模数据与强预训练。

SyncTwin: Fast Digital Twin Construction and Synchronization for Safe Robotic Grasping figure
arXiv2026-01-14

SyncTwin: Fast Digital Twin Construction and Synchronization for Safe Robotic Grasping

抓取

抓取安全操作

这篇工作针对真实抓取中单视角遮挡与场景动态变化会让仿真规划和现实状态脱节、从而引发碰撞的问题,提出 SyncTwin:离线用仅 RGB 的 VGGT 快速重建并分割物体资产库,在线再用 RGB-D 分割与 colored-ICP 持续校准物体位姿,把较完整的几何同步进仿真做闭环安全规划。论文称其在动态与遮挡场景下提升了抓取成功率和运动安全性,且3D资产构建更高效,但所给片段未展示关键量化增益,具体收益来源文中未充分说明,以上判断基于公开摘要与片段。

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets figure
arXiv2026-01-14

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

泛化

泛化Sim2Real安全感知数据集/Benchmark

论文针对固定相机采集的机器人示范在部署时易因视角变化失效、而真实多视角数据又稀缺的问题,提出用简单数字孪生生成多视角仿真观测,再通过 MANGO 做 sim2real 翻译。其关键是分割条件 InfoNCE、改造的 PatchNCE 与强正则判别器,以避免翻译结果坍缩回训练视角并保持几何一致。实验表明,只需少量固定视角真机数据,MANGO 就能合成未见真实视角,在部分真实桌面操作中将偏移视角成功率提升 40 多个百分点,且计算成本远低于扩散方案,但文中也承认并非所有真实任务都优于更大模型。

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning figure
CVPR 20262026-01-14

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

任务规划

任务规划VLALatent Learning机器人学习

这篇工作针对推理型VLA虽能提升泛化、却因显式CoT过长而难以满足机器人实时控制的问题,提出Fast-ThinkAct:把文本与视觉规划蒸馏为“可语言化”的紧凑潜在推理,并用偏好引导蒸馏结合操作轨迹对齐,将高质量教师推理压缩后再连接到底层动作策略。实验表明,它相对现有推理VLA将推理时延最高降低89.3%(约9.3倍加速),同时保持或提升长时程规划、少样本适应和失败恢复能力。

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion figure
arXiv2026-01-14

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

VLA

VLA泛化机器人学习

这篇工作针对VLA在顺序学习新操作时易因反复微调而灾难性遗忘、且回放旧数据和任务标签在真实部署中常不可得的问题,提出CLARE:冻结预训练主干,只在部分层按特征新颖度自适应扩展轻量适配器,并用基于自编码器的路由在推理时自动激活最合适模块,无需任务ID。文中在LIBERO和5个真实机器人任务上表明,CLARE以每任务约2%的参数增量获得更强的新任务学习能力,同时显著减轻遗忘,效果超过多种持续学习基线,甚至优于部分带样本回放的方法。

CEI: A Unified Interface for Cross-Embodiment Visuomotor Policy Learning in 3D Space figure
RA-L 20262026-01-14

CEI: A Unified Interface for Cross-Embodiment Visuomotor Policy Learning in 3D Space

3D 表征

3D 表征泛化跨本体机器人学习

这篇工作针对大规模操作数据偏向少数机械臂和两指夹爪、导致策略难迁移到灵巧手等异构本体的问题,提出统一的跨本体接口 CEI。其核心洞察是不同末端在三维空间中存在可迁移的“功能相似性”,作者用 Directional Chamfer Distance 度量这种相似性,再通过梯度优化对齐轨迹并合成目标机器人的点云观测与动作。实验中,CEI将 Franka 数据迁移到仿真中16种本体、3个任务,并在真实世界实现 UR5+夹爪与 UR5+Xhand 间6个任务的双向迁移,平均迁移比率为82.4%,还展示了空间泛化和多模态运动生成能力。

On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning figure
arXiv2026-01-13

On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning

强化学习

强化学习VLA触觉泛化机器人学习

这篇工作关注VLA在真实部署中一旦遇到环境变化或分布偏移就难以调整、传统重训又不现实的问题。作者提出TT-VLA,在推理阶段利用环境反馈与逐步任务进展构造稠密奖励,对已有SFT/RL训练的VLA做在线小步强化学习更新,并尽量保留原有策略先验。论文称该方法在仿真和真实机器人、动态未见场景中提升了成功率、稳定性与适应性;但具体增益有多少来自奖励设计、多少来自测试时更新,判断主要基于公开摘要。

Learning from Demonstrations via Capability-Aware Goal Sampling figure
NeurIPS 20252026-01-13

Learning from Demonstrations via Capability-Aware Goal Sampling

模仿学习

模仿学习机器人学习

这篇工作聚焦长时程、稀疏奖励机器人任务中“直接模仿容易因微小偏差累积而崩溃,分布匹配又缺乏阶段性探索引导”的问题,提出 Cago:把示范轨迹当作路线图,持续估计智能体当前沿示范能到达的边界,并优先采样“略高于现有能力”的中间状态作为目标,驱动目标条件策略先到该点再继续前探,同时学习目标预测器以便测试时自动推断终点。实验显示,Cago 在多种目标条件任务上相较现有示范学习基线显著提升样本效率与最终任务表现,优势在长时程任务中更明显。

Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation figure
arXiv2026-01-13

Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation

人形操作

人形操作泛化操作

这篇工作针对人形操作中“语义理解正确却几何落地失败”以及示教稀缺下策略学习低效的问题,提出RGMP-S:前端以长时程几何先验技能选择器把2D形状与空间约束注入VLM,提升抓取/捏取等技能选择的可执行性;后端用递归自适应脉冲网络建模机器人—物体时空交互,缓解少样本过拟合。文中在ManiSkill和三种真实机器人上都优于基线,并报告相对Diffusion Policy约19%的性能提升和5倍数据效率。

FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models figure
arXiv2026-01-13

FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models

抓取

抓取灵巧操作AffordanceDiffusion Policy操作

这篇工作针对灵巧手抓取中“抓哪里”和“怎么抓”常被割裂、且依赖大量硬件特定抓取数据的问题,提出FSAG:从人类演示视频中借助冻结的Stable Diffusion提取手指级可供性,并与深度几何融合成指尖接触目标,再把该先验写入抓取优化,显式约束各手指靠近对应区域。结果表明,它无需机器人抓取数据也能生成更稳定、符合人类直觉的多接触抓取,并泛化到未见物体实例、姿态变化和不同灵巧手构型。

ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation figure
arXiv2026-01-13

ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation

3D 表征

3D 表征VLA感知机器人学习操作

这篇工作针对现有 VLA 多依赖固定或腕载视角、在遮挡与精细操作中难以主动获取关键信息的问题,把主动感知引入 3D VLA。方法上采用粗到细两阶段:先用点云多视角投影定位任务关键 3D 区域,再围绕该区域主动选取遮挡更少、任务相关性更高的视角,并进行 3D zoom-in 提升局部分辨率,从而改进精确动作预测。实验中其在 RLBench 平均成功率达 91.8%,COLOSSEUM 达 78.3%,在 GemBench 也优于已有方法,并完成了真实机器人迁移。

Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions figure
arXiv2026-01-12

Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions

视频规划

视频规划操作应用综述

该综述的动机是传统语言抽象与物理仿真难以细致表达并高保真模拟机器人—环境交互,尤其是可变形物体。文中核心洞察是把视频生成模型视为具身世界模型,系统梳理其在模仿学习数据生成与动作预测、强化学习动力学与奖励建模、视觉规划和策略评测中的作用;主要结果是总结其可降低真实采集与在线评测成本、提升规划表达力,但当前仍受指令跟随差、物理幻觉、安全与训练/推理成本高等限制。判断基于公开摘要/项目页。

PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation figure
CVPR 20262026-01-11

PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation

Affordance

AffordanceVLA泛化机器人学习操作

论文针对VLA在长程多步操作中常见的重复、漏步和过早结束,认为根因是缺少任务相关的交互线索与子任务进度跟踪。PALM先预测面向未来的结构化affordance潜变量(对象、接触、放置、运动),再用扩散策略联合生成动作与连续进度值,从而更稳地完成子任务切换。实验中其在LIBERO-LONG达91.8%,CALVIN ABC→D平均长度提升12.5%,真实场景三类泛化设置约为基线2倍;但增益里额外数据和人工标注各占多少,文中未充分说明。

CulinaryCut-VLAP: A Vision-Language-Action-Physics Framework for Food Cutting via a Force-Aware Material Point Method figure
arXiv2026-01-10

CulinaryCut-VLAP: A Vision-Language-Action-Physics Framework for Food Cutting via a Force-Aware Material Point Method

VLA

VLA触觉泛化机器人学习

针对食材切割中形变、断裂与接触力强非线性导致真实采集难扩展的问题,论文提出 CulinaryCut-VLAP,把 ManiSkill 机器人仿真与力感知 MLS-MPM 切割物理场耦合,生成含多视角图像、语言指令、连续轨迹及力/位姿标签的数据,并用 LLM 扩写指令与轨迹增强。主要结果是构建了一个同时支持语言、连续动作和力监督的切割基准,仿真还通过力时序和切面质量做了部分 sim2real 验证,但相对现有 VLA 的量化增益文中未充分说明,更多显示现有模型在定量 grounding 与泛化上仍明显不足。

TOSC: Task-Oriented Shape Completion for Open-World Dexterous Grasp Generation from Partial Point Clouds figure
AAAI 20262026-01-09

TOSC: Task-Oriented Shape Completion for Open-World Dexterous Grasp Generation from Partial Point Clouds

抓取

抓取灵巧操作3D 表征操作

论文针对开放世界物体在严重遮挡下,先做通用补全再抓取常会把接触区域补错,导致任务导向灵巧抓取失效。其核心洞察是:抓取所需的形状补全不必追求完整几何,而应由下游操作任务显式引导,只重点恢复潜在接触区域。方法上先借助预训练基础模型生成多个任务导向补全候选,再用3D判别式自编码器筛选并全局优化,最后由FlowGrasp生成抓取。实验显示,相比SOTA,抓取位移和Chamfer Distance分别提升16.17%和55.26%,对严重缺失、开放类别与新任务也更稳健。

Assembling Solar Panels by Dual Robot Arms Towards Full Autonomous Lunar Base Construction figure
arXiv2026-01-09

Assembling Solar Panels by Dual Robot Arms Towards Full Autonomous Lunar Base Construction

应用

应用

面向月球基地早期需要机器人就地搭建供电设施的场景,论文以双臂自主装配太阳能板为目标,核心做法是把定向框YOLO与深度估计求6D位姿、用最小状态NMPC完成搬运避碰,再在插接阶段切换阻抗/力控制,并结合专用主动—被动连接器硬件处理接触不确定性。实物样机实验表明,两机械臂可对任意摆放面板完成定位、抓取、抬升和连接;但文中对成功率、基线对比及增益来源未充分说明,深度噪声仍是主要瓶颈。

UniBiDex: A Unified Teleoperation Framework for Robotic Bimanual Dexterous Manipulation figure
ROBIO 20252026-01-08

UniBiDex: A Unified Teleoperation Framework for Robotic Bimanual Dexterous Manipulation

灵巧操作

灵巧操作数据采集双臂遥操作操作

这篇工作针对双臂灵巧遥操作中输入设备割裂、逆解失效、自碰撞和奇异位形频发,导致接触丰富任务难以稳定采集高质量示教的问题,提出UniBiDex:把VR与主从臂接入同一控制栈,用统一运动学和零空间双臂优化处理协同与安全约束,并用关节电流估计接触力做触觉回传。在4名用户、80次厨房整理长程任务中,它相较朴素VR和1:1主从映射取得更高成功率、更平滑轨迹和更强鲁棒性。

RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation figure
arXiv2026-01-08

RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

视频规划

视频规划数据采集数据增强感知操作

这篇工作针对真实机器人操作数据难以在多环境中大规模采集、而现有生成式增强又缺少多视角与时序一致性的瓶颈,提出 RoboVIP:在保留原动作轨迹的前提下,用多视角视频修复式扩散模型重绘背景与台面,并以示例图像而非仅文本作为“视觉身份”条件;同时结合夹爪状态做动作导向分割,并自动构建大规模身份池。文中在 BridgeV2 上扩增 12K 轨迹训练 π0/Octo、以及 100 条真实轨迹训练 Diffusion Policy,仿真和真机成功率均稳定提升,但增益有多少来自更强生成模型或单纯更多数据,文中未充分拆解。

Plenoptic Video Generation figure
CVPR 20262026-01-08

Plenoptic Video Generation

任务规划

任务规划视频规划

论文针对相机可控视频重渲染在多视角场景中容易出现幻觉区域不同步、几何错位和长时程误差累积的问题,提出 PlenopticDreamer:将已生成的视频-相机对存入记忆库,基于 3D 视场重叠检索相关上下文,并以自回归的 multi-in-single-out 方式生成新视角;再结合渐进式上下文扩展、自条件训练和长视频条件化,增强跨视角时空一致性。实验表明其在 Basic 和 Agibot 上优于现有方法,在视角同步、画质和相机控制精度上更好,并支持机器人头视角到夹爪视角等变换。

LaST0: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model figure
ICML 20262026-01-08

LaST0: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

3D 表征

3D 表征VLALatent Learning机器人学习操作

这篇工作针对显式文本/未来图像式 CoT-VLA 在机器人操作中推理延迟高、且语言空间难表达细粒度物理状态的问题,提出 LaST0:在 2D视觉、3D几何和本体感觉上构建跨时间的潜在时空 CoT,并用 MoT 双系统把低频推理专家与高频动作专家解耦协同。论文称其在 10 个真实任务上相对已有 SOTA 在桌面、移动和灵巧手场景平均成功率分别提升 13%、14%、14%,且较显式 CoT VLA 推理提速 14 倍;但增益中模型规模与数据规模的相对贡献文中未充分说明。

Intent at a Glance: Gaze-Guided Robotic Manipulation via Foundation Models figure
RSSW 20252026-01-08

Intent at a Glance: Gaze-Guided Robotic Manipulation via Foundation Models

基础模型

基础模型机器人学习操作

面向辅助护理中手柄、触屏等接口对行动受限者不够自然且负担较高的问题,论文提出GAMMA:将头戴眼动的注视点映射到机器人视角,并结合视觉/视觉语言基础模型,把“看向哪里”推断为“想做什么”,再自动完成技能选择、抓取位姿和参数设定,实现无需任务特训的零样本操作。桌面浇花、杂乱取物、做咖啡等实验表明,其交互耗时不到面板式凝视基线的一半、用户负担更低,但参与者仍更偏好基线,因为更有直接控制感。

Generate, Transfer, Adapt: Learning Functional Dexterous Grasping from a Single Human Demonstration figure
arXiv2026-01-08

Generate, Transfer, Adapt: Learning Functional Dexterous Grasping from a Single Human Demonstration

抓取

抓取灵巧操作Affordance模仿学习数据采集操作

本文针对灵巧功能抓取受限于标注数据稀缺、模型只看几何而忽视功能语义的问题,提出 CorDex:从单个人类示范出发,经“生成-迁移-适配”的对应关系数据引擎合成同类新物体、转移接触并在仿真中优化,再用融合 RGB 语义与点云几何的局部—全局网络预测抓取。其自动生成 1100 万对样本,在 9 类、两种机器人上验证,对未见真实物体取得 69% 成功率,明显优于现有方法。

Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test figure
arXiv2026-01-07

Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test

视频规划

视频规划世界模型操作数据集/Benchmark

面向具身世界模型缺少统一、真正反映机器人可执行性的评测,本文提出 WoW-World-Eval:基于609条操作数据,从感知、规划、预测、泛化、执行五维度设计22个指标,并引入人类2AFC与IDM两类图灵测试,强调“视频像真”不等于“可行动”。结果显示综合分与人偏好相关性超0.93,但现有模型长时程规划仅17.27、物理一致性最高68.02,IDM真实执行多接近0%,仅WoW达40.74%,说明生成视频与真实机器人世界仍有明显鸿沟。

UNIC: Learning Unified Multimodal Extrinsic Contact Estimation figure
arXiv2026-01-07

UNIC: Learning Unified Multimodal Extrinsic Contact Estimation

触觉

触觉机器人学习

这篇工作针对接触密集操作中“物体与环境外部接触”难以泛化估计的问题,指出现有方法常依赖预设接触类型、固定抓取或相机标定,难落地到开放场景。UNIC的关键是把接触统一表示为相机坐标系下的场景affordance map,并将点云、触觉、力/力矩和末端姿态做带随机mask的多模态融合,因此无需物体先验和相机标定,也能表示多物体接触链。实验显示其在未见接触位置上平均Chamfer误差为9.6 mm,对未见物体、模态缺失和动态视角也较稳健。

State Backdoor: Towards Stealthy Real-world Poisoning Attack on Vision-Language-Action Model in State Space figure
arXiv2026-01-07

State Backdoor: Towards Stealthy Real-world Poisoning Attack on Vision-Language-Action Model in State Space

VLA

VLAMamba Policy安全机器人学习

这篇论文关注真实机器人中VLA后门攻击的落地问题:以往依赖可见视觉触发物,受光照、视角和摆放变化影响大,既不稳也不够隐蔽。作者提出把机械臂初始关节状态当作触发器,并用偏好引导遗传算法在黑盒条件下搜索“足够小但有效”的状态偏移,兼顾隐蔽性与攻击成功率。实验在5个代表性VLA模型和5个真实任务上验证,攻击成功率超过90%,对正常任务性能影响很小,且对fine-pruning、图像压缩等经典防御仍然有效。

Stable Language Guidance for Vision-Language-Action Models figure
arXiv2026-01-07

Stable Language Guidance for Vision-Language-Action Models

辅助任务

辅助任务VLA机器人学习

本文聚焦VLA在同义改写、遮蔽和分布外指令下容易“看图行事”、忽略语言语义的问题,并将其归因为指令表达流形稀疏与视觉可供性先验过强。为此作者提出RSS:训练时用LLM扩展同一意图的多种表述做蒙特卡洛语法积分,推理时以残差可供性引导减去无条件视觉先验,显式提纯语言对动作的因果影响。实验表明,该方法在多种操作基准和对抗性语言扰动下显著提升鲁棒性与语义落地,并达到SOTA;但面对过于含糊的指令会更保守,甚至不动作。

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation figure
arXiv2026-01-07

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

3D 表征

3D 表征世界模型感知机器人学习操作

这篇工作面向野外非结构化操作中“看一眼就预判动作后果”的需求,试图让机器人仅凭少量RGB-D观测和低层动作预测场景未来。其关键洞察是把场景状态与机器人动作统一为共享3D空间中的点流,用夹爪/机器人几何而非关节指令来条件化世界模型,从而支持跨形态学习;同时构建了约200万轨迹、500小时的真机与仿真数据,增益可能也主要来自scaling与数据。实验显示模型可在约0.1秒内预测,并结合MPC让单个预训练模型在真实Franka上完成推拽、可变形体、铰接物和工具使用等任务,无需示教或后训练。

CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos figure
arXiv2026-01-07

CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

视频规划

视频规划VLALatent Learning基础模型机器人学习

这篇工作针对VLA受限于机器人数据稀缺、而现有潜在动作模型又容易把背景变化等视觉噪声当成技能的问题,提出CLAP,用对比学习把人类视频中的状态转移对齐到由机器人轨迹得到的、量化且可执行的潜在动作码本,从而让“看视频学动作”真正落到机器人控制上。在此基础上,作者分别构建了擅长指令跟随与新物体泛化的CLAP-NTP,以及面向高频精细操作的CLAP-RF,并用KM缓解微调遗忘。实验显示其整体显著优于强基线,能把人类视频技能迁移到机器人,且在布料折叠、礼品包装等任务上超过π0。

VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models figure
arXiv2026-01-06

VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models

VLA

VLA语言条件机器人学习

论文针对一个常被忽略的问题:通用VLM选型与能力强弱,究竟能否转化为更好的机器人控制。作者提出仅增添不足1%参数的VLM4VLA,把不同VLM以统一接口接成VLA做公平比较。结果表明,VLM预训练整体优于从零训练,但通用基准分数和定向具身任务微调都难预测下游操作效果;真正瓶颈主要在视觉编码器,向视觉端注入控制相关监督可稳定提升。结论主要来自三项仿真基准,文中未充分说明真实机器人表现。

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models figure
arXiv2026-01-06

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对VLA虽具备广泛泛化、却难在真实部署中快速获得任务熟练度的问题,指出瓶颈不只在算法,而在离线、单机、任务专用的后训练范式无法及时利用on-policy纠错。作者提出SOP闭环系统,让机器人群持续回传交互数据与人工干预到云端集中学习,并异步下发新策略;该框架对算法基本无关,可接HG-DAgger或RECAP,并以单一共享策略联合多任务、尽量保留通用性。实机结果显示,在叠衣、装箱、补货等任务上,SOP相对非SOP基线常有2倍以上成功率提升,数小时即可见效,且随机器人数量近线性扩展并可稳定运行36小时以上。

Learning to Act Robustly with View-Invariant Latent Actions figure
arXiv2026-01-06

Learning to Act Robustly with View-Invariant Latent Actions

Latent Learning

Latent Learning泛化安全

这篇工作针对视觉操作策略对相机视角轻微变化就容易失效的问题,提出关键洞察:不必在整幅图像特征上强行学习视角不变性,而应只对与控制相关的“场景变化/动力学”建模。VILA先用逆/前向动力学学习压缩的潜在动作,再借助真实动作序列做加权对比和结构对齐,把不同视角下对应同一运动的潜在动作拉近,并用预测潜在动作的策略作为下游编码器。仿真与真实机器人结果表明,它在未见视角泛化和新任务适应上都明显优于基线,消融也支持主要增益来自动作引导对齐。

Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation figure
arXiv2026-01-06

Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation

抓取

抓取灵巧操作触觉Sim2Real操作

论文针对灵巧手在接触丰富场景中难以把仿真策略直接落地的问题,提出“触觉+关节力矩”的 sim2real 强化学习框架:用并行运动学构建高频稠密触觉仿真,用电流到力矩标定替代手部力矩传感,并建模回程间隙、力矩-转速饱和等执行器非理想性。策略完全在仿真中训练后,可零样本部署到五指灵巧手,完成可指令式抓取力跟踪与手内重定向,且无需真机微调;但摘要未充分说明各模块分别带来的定量增益。

Vision-Based Early Fault Diagnosis and Self-Recovery for Strawberry Harvesting Robots figure
arXiv2026-01-05

Vision-Based Early Fault Diagnosis and Self-Recovery for Strawberry Harvesting Robots

感知

感知应用

这篇工作针对草莓采摘机器人中感知任务割裂、夹爪与果实错位、空抓和滑落频发的问题,提出“视觉诊断+自恢复”闭环:用SRR-Net统一检测、分割与成熟度估计,再结合目标—夹爪相对误差补偿,以及末端微型相机上的MobileNetV3与LSTM,分别实现早期空抓判断和滑落预测。实验显示模型达163 FPS、成熟度MAE为0.035,定位误差降至3.12/4.11 mm,滑落后二次摘取恢复成功率81.25%,采摘周期也明显缩短;但整体增益有多少来自框架设计而非数据构造,文中未充分说明。

Learning Diffusion Policy from Primitive Skills for Robot Manipulation figure
AAAI 20262026-01-05

Learning Diffusion Policy from Primitive Skills for Robot Manipulation

Diffusion Policy

Diffusion Policy机器人学习操作

论文指出,现有语言条件扩散策略把“抓起并放入”这类全局指令直接映射为短时控制,容易出现语义粒度与动作层级不匹配,导致动作偏差。作者提出SDP:将操作分解为8个跨任务可复用原语技能,借助视觉语言模型提取离散状态与指令表征,再由轻量路由器为每个时刻选技能,并用技能条件化、动态调节FFN的单技能扩散策略生成低层动作。结果显示,SDP在两个仿真基准和真实机器人上均优于现有方法,同时提升了多任务泛化与行为可解释性。

InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation figure
arXiv2026-01-05

InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

辅助任务

辅助任务VLA世界模型感知机器人学习操作

这篇工作针对现有VLA“懂语义但不懂物理”、纯视频世界模型又缺少语义支撑且易受预测误差影响的问题,提出InternVLA-A1:用统一的Mixture-of-Transformers将场景理解、未来视觉预见和动作执行耦合起来,并联合真实机器人、仿真轨迹与人类视频训练,以提升动态场景下的操控鲁棒性。实验中其在12项真实任务和RoboTwin 2.0上均超过π0.5,静态任务提升4.4%,动态任务提升26.7%,仿真提升2.6%。

Genie Sim 3.0 : A High-Fidelity Comprehensive Simulation Platform for Humanoid Robot figure
arXiv2026-01-05

Genie Sim 3.0 : A High-Fidelity Comprehensive Simulation Platform for Humanoid Robot

人形操作

人形操作操作数据集/Benchmark

该工作针对人形操作中真实数据采集昂贵、评测难扩展且现有模拟器碎片化、保真不足的问题,提出统一仿真平台 Genie Sim 3.0:用 LLM 从自然语言生成并多维泛化高保真场景,再结合 LLM 生成评测任务、VLM 自动打分,形成数据采集与闭环评测流程。论文称将开源 5140 个资产、覆盖 200+ 任务的 1 万小时合成数据和 10 万评测场景,并验证了较强零样本 sim-to-real;但具体增益来源与提升幅度文中未充分说明,判断基于公开摘要/项目页。

CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding figure
arXiv2026-01-05

CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding

VLA

VLA安全机器人学习

论文动机是现有机器人失败检测多在事后补救,错过了操作崩溃前的纠偏窗口。CycleVLA基于“失败常发生在子任务切换处”的洞察,让VLA显式预测子任务进度与停止时机,在临近完成时调用VLM预判是否会失败并决定回退到前序子任务,再用MBR解码从多次采样中选更稳的重试动作。实验表明它能提升已充分训练和欠训练VLA的成功率,且MBR作为零样本test-time scaling有效;但文中未给出真实机器人结果。

Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manipulation figure
CVPR 20262026-01-04

Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manipulation

辅助任务

辅助任务VLA感知机器人学习操作

论文针对长程机器人操作中语言指代含糊、场景拥挤和多步交互易失稳的问题,提出把计划意图从隐变量中“画出来”:用由框、点、箭头组成的 Visual Sketch 显式连接语言、场景几何与低层动作,并在 See-Think-Sketch-Act 闭环中按 token 自适应切换推理、改图和执行。实验显示,该方法在仿真与真实任务上整体优于 π0、OpenVLA-OFT 等基线,如真实 Tidy Table 为 52.0%(基线最高 36.0%)、Pick&Place 为 67.0%,且人工修正草图后还能进一步提升到 75.0% 和 85.5%。

Value Vision-Language-Action Planning & Search figure
arXiv2026-01-02

Value Vision-Language-Action Planning & Search

任务规划

任务规划VLA机器人学习

这篇工作针对VLA在分布外状态下因行为克隆而脆弱、且现有VLAPS仅靠策略先验引导MCTS、纠错依赖大量探索的问题,提出V-VLAPS:在冻结的Octo骨干上,用其潜表示训练轻量MLP价值头,将状态价值并入树搜索打分,显式把搜索推向高回报分支。作者在LIBERO上报告成功率提升超过5个百分点,同时平均仿真次数下降5%–15%,说明价值估计既提升规划质量,也提高了搜索效率。

RoboReward: General-Purpose Vision-Language Reward Models for Robotics figure
arXiv2026-01-02

RoboReward: General-Purpose Vision-Language Reward Models for Robotics

任务规划

任务规划多模态推理强化学习感知操作

论文聚焦真实机器人强化学习中“奖励难得且脆弱”的瓶颈:人工标注成本高,手工奖励又难泛化。作者基于 OXE 与 RoboArena 构建 RoboReward,并用反事实重标注和时间截断,从成功演示中合成失败、擦边失败与部分进展样本,把奖励建模为更适合 RL 的粗粒度进度分数。结果显示,22 个现有 VLM 没有一个能稳定胜任该任务,而专门训练的 RoboReward 4B/8B 在短时程任务奖励判断上超过更大模型;8B 用于真机 RL 时也优于 Gemini Robotics-ER 1.5,并缩小了与人工奖励的差距。

Replaceable Bit-based Gripper for Picking Cluttered Food Items figure
RA-L 20262026-01-01

Replaceable Bit-based Gripper for Picking Cluttered Food Items

抓取

抓取泛化应用

面向便当自动装盒中“难抓且要定量”的散乱食品,本文提出一种以硬件为中心的可更换 bit 夹爪:在主动皮带上集成面向不同食材的专用附件,并用被动式皮带组件快换机构在食材间迅速切换。其核心思路是把抓取稳定性与定量投放能力更多交给几何结构和皮带运动,而非为每种食物单独训练模型。实验在鲑鱼卵与意面上实现了定重量投放,准确率分别超过95%和80%,并展示了较快换装与较广食材适应性。

Tactile Beyond Pixels: Multisensory Touch Representations for Robot Manipulation figure
CoRL 202520256-06-17

Tactile Beyond Pixels: Multisensory Touch Representations for Robot Manipulation

触觉

触觉机器人学习操作

针对机器人操作中触觉研究长期偏重单一触觉图像、难以利用振动、压力和运动等互补信号的问题,论文提出Sparsh-X:用自监督预训练和带瓶颈注意力的Transformer,将Digit 360的图像、音频、IMU与压力融合成统一触觉表征。其核心洞察是,多模态触觉能在不同时间与空间尺度编码物体和接触的物理属性,并可直接服务于策略学习。实验表明,相比端到端触觉图像基线,成功率提升63%,触觉恢复物体状态的鲁棒性提升90%,物性判别准确率提升48%;但各模态具体增益来源仍不完全清楚。

VLA-RAIL: A Real-Time Asynchronous Inference Linker for VLA Models and Robots figure
arXiv2025-12-31

VLA-RAIL: A Real-Time Asynchronous Inference Linker for VLA Models and Robots

VLA

VLA机器人学习

这篇论文关注VLA在真实机器人部署中的一个常被低估的问题:动作以chunk生成后,受推理时延、观测异步和预测噪声影响,机器人在chunk切换处容易抖动、停顿,导致很多系统不得不降速运行。作者提出VLA-RAIL,用客户端-服务器式异步中间件解耦模型与机器人,并通过块内多项式轨迹平滑和块间时间对齐/融合,显式保证位置、速度、加速度连续。实验在仿真与真实操作中表明其能显著减小抖动、提升执行速度和任务成功率,但文中未充分说明不同模块各自贡献的精确增益。

RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence figure
arXiv2025-12-31

RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence

泛化

移动操作泛化双臂操作数据集/Benchmark

这篇工作针对现有机器人模仿学习缺少大规模真实双臂、移动与触觉数据,导致长时程任务和跨本体泛化不足的问题,提出 RoboMIND 2.0:覆盖6种机器人、31万条轨迹、739个任务的多模态双臂移动操作数据集,并配套数字孪生仿真数据与分层 MIND-2 控制框架。实验显示,其在6种平台上优于多种单任务与 VLA 基线,触觉和真仿混训均带来稳定提升;但性能增益有多少来自模型设计、多少来自数据 scaling,文中未充分说明。

Resolving State Ambiguity in Robot Manipulation via Adaptive Working Memory Recoding figure
arXiv2025-12-31

Resolving State Ambiguity in Robot Manipulation via Adaptive Working Memory Recoding

VLA

VLA语言条件机器人学习操作

针对机器人操作中“同一观测对应多条合理轨迹”导致的状态歧义,本文提出带自适应工作记忆的视觉-语言-动作策略PAM,将当前帧的动作原语与用于时序判别的上下文分开编码,再用覆盖不同时间范围的 context router 把长历史压缩为可检索记忆,并用历史重建辅助约束这一瓶颈。结果显示,PAM将历史窗扩展到300帧、约10秒且仍保持20Hz以上推理速度,在7个自设计真实任务上优于对比方法,在 Libero-Long 上也有竞争力。

Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow figure
ICRA 20262025-12-31

Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

3D 表征

3D 表征视频规划感知机器人学习操作

论文针对视频生成模型虽能想象合理交互、却难直接转成机器人低层动作的“具身鸿沟”,提出用3D物体流作为中间接口:先由文本条件视频生成任务演示,再结合深度估计与点跟踪重建物体3D运动,把操作转成目标轨迹跟踪,并用轨迹优化或强化学习落地控制。仿真与真机结果表明,该方法在仅给RGB-D和语言、无任务示教下,能零样本完成刚体、关节体、可变形和颗粒物操作,并优于光流或刚体位姿等中间表示基线。

Coordinated Humanoid Manipulation with Choice Policies figure
arXiv2025-12-31

Coordinated Humanoid Manipulation with Choice Policies

人形操作

人形操作数据采集遥操作操作

这篇论文针对人形机器人在真实场景中头、手、腿难以稳定协同、且示教数据又天然多峰的问题,提出一套模块化VR遥操作系统,把手眼协同、抓取原语、末端跟踪和行走拆开,以更高效地采集高质量演示;再用 Choice Policy 在单次前向中生成多个候选动作并学习打分,兼顾实时性与多模态建模。实机在洗碗机装载和擦白板两类长时任务上都优于 diffusion policy 和标准行为克隆,消融还表明手眼协同是关键因素,但策略结构与数据采集各自带来的增益边界文中未充分说明。

Antagonistic Bowden-Cable Actuation of a Lightweight Robotic Hand: Toward Dexterous Manipulation for Payload Constrained Humanoids figure
arXiv2025-12-31

Antagonistic Bowden-Cable Actuation of a Lightweight Robotic Hand: Toward Dexterous Manipulation for Payload Constrained Humanoids

灵巧操作

灵巧操作可变形物体人形操作操作

这篇工作针对人形机器人手部常见的“高自由度、高力输出”与“轻量化、腕部兼容性”难以兼得的问题,提出一种基于鲍登线的对抗驱动手:将电机远置到躯干,并把滚动接触关节与单电机对抗腱路结合,在尽量不引入线长偏差的前提下实现每关节驱动,减少远端质量和多电机同步需求。实验表明,该手在1:1人手尺度下实现20自由度,手部本体仅236g,指尖力超过18N,可稳定完成多类Cutkosky抓握并举起超过自身百倍质量的负载。

Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training figure
arXiv2025-12-30

Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training

任务规划

任务规划多模态推理VLA基础模型语言条件机器人学习操作

论文聚焦VLA在开放环境中“推理强”与“控制准”难兼得的问题:仅靠大VLM能泛化但易脆弱,仅有精细控制又难适应新场景。作者提出ERIQ,用6K+机器人操作问答把具身推理与执行解耦评测,并发现推理能力与端到端泛化显著正相关;同时提出基于flow matching的离散动作tokenizer FACT,把连续控制压成可自回归建模的离散序列且尽量保持轨迹重建精度。由此构建的GenieReasoner在ERIQ和真实机器人任务上均优于连续动作及已有离散动作基线,但判断基于公开摘要/项目页,统一建模之外的数据或规模贡献未充分拆解。

Real-world Reinforcement Learning from Suboptimal Interventions figure
arXiv2025-12-30

Real-world Reinforcement Learning from Suboptimal Interventions

强化学习

强化学习RL+IL触觉机器人学习

这篇工作关注真实机器人在线强化学习里“人类干预并不总是最优”的问题:如果不加区分地混合人类与机器人数据,会继承RL的低样本效率;若过度模仿干预,又会被次优示范限制上限。作者提出 SiLRI,将训练建模为按状态施加约束的RL,用人类干预的熵/不确定性决定约束强弱,并学习状态级拉格朗日乘子,使策略在低熵状态更贴近人类、在高熵状态更多依赖RL优化。实机8项任务结果表明,相比 HIL-SERL,它达到90%成功率的时间至少缩短50%,且在长时序操作上实现100%成功率。

GR-Dexter Technical Report figure
arXiv2025-12-30

GR-Dexter Technical Report

灵巧操作

灵巧操作操作

这篇报告的动机是把已在夹爪机器人上有效的VLA泛化操作推进到56自由度双臂灵巧手平台,但高自由度动作空间、手物遮挡和真机示教成本使其难以扩展。作者的核心创新是硬件-模型-数据一体化:设计21自由度ByteDexter V2手,配套VR+数据手套双手遥操作采集,并联合机器人示教、视觉语言、跨具身与人类手部轨迹训练策略。实机结果显示,系统能完成长时程日常操作,并在未见物体和未见指令上更稳健;不过各模块分别带来多少增益,文中未充分说明,可能主要来自scaling/data。

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling figure
arXiv2025-12-29

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

视频规划

视频规划世界模型应用

这项工作针对手术机器人缺少“视频+运动学”配对数据、难以训练VLA策略的问题,提出先用带文本标注的SATA手术视频集训练Cosmos-H-Surgical世界模型,再用逆动力学模型给合成视频补出伪运动学,从海量无标签手术视频间接构造训练数据。作者称在真实机器人针拾取与交接任务上,合成数据联合真实示教明显优于仅用真实数据,并降低轨迹预测误差;但具体提升幅度在给定片段中未充分说明,增益也可能部分来自数据扩增与scaling。

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation figure
CVPR 20262025-12-29

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

任务规划

任务规划多模态推理强化学习操作

论文聚焦真实机器人强化学习中“奖励难设计”的瓶颈:现有过程奖励模型既缺少步骤感知,又受单视角遮挡影响,直接用稠密奖励还会落入改变最优策略的“语义陷阱”。作者提出Robo-Dopamine,以基于3400+小时多视角数据训练的通用奖励模型GRM做细粒度进度判断,并用策略不变的奖励塑形驱动在线RL。实验称其奖励评估准确率达92.8%、VOC为0.953,单条示教适配新任务后仅150次交互即可把成功率从接近0提升到95%;但增益也可能部分来自大规模数据scaling。

Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation figure
arXiv2025-12-29

Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation

触觉

触觉接触丰富机器人学习操作

这篇工作针对VLA在插拔、形变操作等接触丰富任务中“看得见却感觉不到”的缺陷,提出DreamTacVLA:将高分辨率触觉视作微观视觉,与腕部视角和第三人称视角做层级空间对齐,再用触觉世界模型预测未来触感,在“Think-Dream-Act”两遍决策里先给出草案动作、再依据想象到的接触后果修正控制。实验显示其在多项接触任务上优于现有VLA,成功率最高达95%;但判断基于公开摘要/片段,各模块增益来源是否主要来自更大规模混合触觉数据,文中未充分说明。

Act2Goal: From World Model To General Goal-conditioned Policy figure
arXiv2025-12-29

Act2Goal: From World Model To General Goal-conditioned Policy

视频规划

视频规划Vision-Action世界模型机器人学习

该工作针对视觉目标条件策略在长程操作中只做单步动作预测、缺少任务进度建模而易在分布外场景失效的问题,提出将目标条件世界模型与低层控制端到端结合:先生成通向目标的中间视觉轨迹,再用MSTH把轨迹拆成近端稠密帧和远端稀疏帧,通过交叉注意力同时兼顾局部闭环纠错与全局一致性,并结合HER式目标重标注与LoRA做无奖励在线适配。公开摘要称其在真实机器人困难OOD任务上可在数分钟内把成功率从30%提升到90%,但各模块增益来源在摘录中未充分说明,判断基于公开摘要/项目页。

Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives figure
arXiv2025-12-28

Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives

任务规划

任务规划基础模型操作综述

面向基础模型推动下机器人操作方法迅速分化、缺乏统一分析框架的问题,本文以“高层规划—低层控制”二层抽象重组文献:前者把语言、代码、运动、可供性与3D表征都视为规划介质,后者按输入建模、潜变量学习和策略学习梳理IL/RL及VLA等方法。主要结果是给出一套较系统的综述分类,并归纳出可扩展性、数据效率、多模态物理交互与安全等关键挑战;因属综述,定量增益与方法优劣比较文中未充分说明。

VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models figure
arXiv2025-12-27

VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models

基础操作

基础操作VLA泛化操作数据集/Benchmark

这项工作针对现有VLA评测难以定位能力边界与失效模式、且常忽视安全与结构外推的问题,提出开源基准VLA-Arena:用任务结构、语言指令和视觉观测三条正交难度轴系统构造170个基础操作任务,并采用只在L0训练、在L0-L2及W/V扰动上测试的设定分离泛化与鲁棒性。实验表明,当前VLA更像记忆训练分布而非真正泛化,对语言和视觉扰动的鲁棒性不对称,且在安全约束和长时程技能组合上明显不足;判断基于公开摘要/项目页。

ParaMaP: Parallel Mapping and Collision-free Motion Planning for Reactive Robot Manipulation figure
arXiv2025-12-27

ParaMaP: Parallel Mapping and Collision-free Motion Planning for Reactive Robot Manipulation

基础操作

基础操作任务规划操作非学习控制

针对未知环境中感知持续更新导致机械臂需频繁重规划、传统距离场建图与规划链路延迟高的问题,ParaMaP将GPU并行建图与采样式MPC紧耦合:用gather-then-transform的EDT和机器人掩膜更新避免把机械臂自身误判为障碍,并在SMPC中联合距离场避碰、动态约束与SE(3)李代数位姿误差以加快收敛。仿真和7自由度真实实验表明,该方法能在杂乱、动态、先验未知场景中实现实时、高频、无碰重规划;但具体量化增益在给定片段中未充分说明。

Emergence of Human to Robot Transfer in Vision-Language-Action Models figure
arXiv2025-12-27

Emergence of Human to Robot Transfer in Vision-Language-Action Models

VLA

VLA泛化机器人学习

论文关注一个关键问题:机器人VLA虽需要海量多样数据,但人类视频虽易获取,却很难与机器人动作做手工对齐。作者提出一种几乎不做显式对齐的共训练方案,把人类当作另一种embodiment,用3D手部轨迹和子任务语言与机器人数据联合微调;核心洞察是,只有当机器人预训练在场景、任务和机体上足够多样时,人到机迁移才会“涌现”,因为模型学到了与embodiment无关的表征。在仅见于人类数据的未见场景、物体和任务语义测试中,加入人类数据可使泛化表现接近翻倍。

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone figure
arXiv2025-12-27

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

VLA

VLADiffusion Policy语言条件机器人学习

该工作针对自回归VLM/VLA按序生成带来的长时程规划弱、误差累积和控制效率受限,提出以扩散语言模型为骨干的Dream-VL与Dream-VLA。其关键洞察是双向掩码扩散更适合视觉-语言全局信息融合,也天然支持动作分块与并行生成,因此下游机器人微调收敛更快。结果上,Dream-VL通用能力接近顶级开源AR-VLM且在规划任务更强;Dream-VLA在LIBERO达97.2%,在SimplerEnv-Bridge/Fractal达71.4%/60.5%,超过π0和GR00T-N1。

Clutter-Resistant Vision-Language-Action Models through Object-Centric and Geometry Grounding figure
arXiv2025-12-27

Clutter-Resistant Vision-Language-Action Models through Object-Centric and Geometry Grounding

辅助任务

辅助任务VLA对象中心感知机器人学习

本文指出,现有端到端VLA把感知与控制绑在一起按动作目标优化,容易削弱语言到目标物体的稳定对齐,因此在目标缺失、干扰物、背景变化和未见物体下会乱抓。作者提出OBEYED-VLA,在预训练VLA前加入冻结的感知模块,用VLM做多视角对象中心定位,再用深度/几何表征压制外观偏差;下游策略只用无杂乱的单物体示教微调。真实UR10e桌面实验中,该方法在四类困难场景均明显优于强基线,消融表明语义grounding与几何grounding都是关键。

StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision figure
arXiv2025-12-26

StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision

3D 表征

3D 表征VLA机器人学习

这篇工作针对现有VLA多依赖单目RGB、空间感知弱,而深度、腕部相机或多相机方案又存在噪声、遮挡和部署复杂的问题,主张用更接近人类双目知觉的立体视觉补足几何信息。其关键不在于直接喂入双目图像,而是分别用FoundationStereo提取几何特征、用PrismaticVLM保留语义,再通过几何-语义特征融合模块对齐,并加入聚焦夹爪—物体交互区域的深度估计辅助任务。实验称在双目设定下整体成功率较基线提升33%,在高精度操作和相机位姿变化下也更稳健。

UniTacHand: Unified Spatio-Tactile Representation for Human to Robotic Hand Skill Transfer figure
arXiv2025-12-24

UniTacHand: Unified Spatio-Tactile Representation for Human to Robotic Hand Skill Transfer

触觉

触觉Latent Learning机器人学习操作

论文针对遮挡接触操作中视觉不可靠、真实机器人触觉数据又难采集的问题,提出 UniTacHand:先把人手手套与灵巧手机器人的触觉信号统一投影到 MANO 手模型的 UV 表面,再结合手部姿态用对比学习对齐到共享潜空间。作者报告仅需 10 分钟人机配对数据,就能把仅由人类示教学到的触觉策略零样本迁移到真实机器人,并对未见物体泛化;若再混合少量机器人示教,数据效率和任务表现还会进一步提升。

Tracing Energy Flow: Learning Tactile-based Grasping Force Control to Prevent Slippage in Dynamic Object Interaction figure
RA-L 20252025-12-24

Tracing Energy Flow: Learning Tactile-based Grasping Force Control to Prevent Slippage in Dynamic Object Interaction

抓取

抓取灵巧操作触觉人机交互接触丰富操作非学习控制

这篇工作针对动态抓取中多点滚动接触、物体质量或表面未知且视觉不可靠时,机器人难以仅靠触觉调节握力、防止滑移的问题,提出将被抓物体抽象为“虚拟能量容器”,用指尖输入功率与物体保留能量变化的不一致作为无监督的滑移稳定性信号,再结合模型式学习与概率MPC在线优化握力。仿真和硬件实验表明,该方法可在数分钟内从零学会控制,减少滑移并延长多种运动—物体组合下的抓持时长,且无需外部传感或先验物体知识。

Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation figure
arXiv2025-12-24

Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation

抓取

抓取感知操作

这篇工作针对语言引导抓取中“语言只在单一阶段浅层融合、难把指令细粒度对齐到抓取位姿”的问题,提出LGGD:以粗到细范式把CLIP视觉/文本特征贯穿编码、上采样和预测阶段,结合双向跨模态融合、语言条件动态卷积头与末端细化模块,同时联合指代分割与稠密抓取预测。结果上,方法在OCID-VLG与Grasp-Anything++上超过已有语言抓取基线,并在KUKA真实机器人上完成指令条件抓取;但其增益也可能部分来自更大训练数据,具体占比文中未充分说明。

LoLA: Long Horizon Latent Action Learning for General Robot Manipulation figure
arXiv2025-12-23

LoLA: Long Horizon Latent Action Learning for General Robot Manipulation

VLA

VLALatent Learning机器人学习操作

LoLA针对现有VLA多偏单帧、难以处理长时序操作中状态跟踪、动作连贯性和分布漂移的问题,提出联合建模多视角历史观测与机器人本体感觉,并用SALR把视觉-语言表征重映射到具物理尺度约束的“具身锚定”潜空间,再以可学习掩码过滤无关噪声。论文报告其在SIMPLER、LIBERO及Franka/Aloha真实任务上均明显优于π0,且长程操作优势更突出;但判断基于公开摘要,增益中历史建模与预训练数据规模各自贡献文中未充分说明。

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting figure
arXiv2025-12-23

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

VLA

VLA感知机器人学习

这篇工作针对VLA只能理解“杯子”这类类别语义、难以在同类物体中识别“我的杯子”的问题,提出无需训练的VAP:把少量参考图当作视觉记忆,先用开放词汇检测与嵌入匹配锁定目标,再通过高亮掩码和改写指令把实例级线索注入冻结策略。作者还构建了两套仿真与一套真实台面基准;判断基于公开摘要/项目页,VAP在成功率和选对目标上稳定优于通用策略及token学习基线,但具体增益数值文中片段未充分说明。

Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation figure
arXiv2025-12-23

Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

VLA

移动操作VLA机器人学习操作

这篇工作针对现有 VLA 中大 VLM 与动作专家同步运行、导致全身机器人控制频率被慢推理拖累的问题,提出异步快慢双通路 DuoCore-FS:慢通路低频做语义与高层动作推理,快通路结合实时视觉和本体状态高频输出连续全身动作,并用潜表示缓冲区与全身动作 tokenizer 在端到端训练下衔接两者。文中称其可支持 3B VLM 并实现 30Hz 动作块生成,速度约为同量级既有模型 3 倍,真实机器人实验中的任务成功率和响应性也更好;但具体增益来源的拆解判断基于公开摘要。

Vision-Language-Policy Model for Dynamic Robot Task Planning figure
arXiv2025-12-22

Vision-Language-Policy Model for Dynamic Robot Task Planning

任务规划

任务规划多模态推理

论文针对非结构化环境下机器人难以把自然语言、高层任务推理与低层控制打通,且执行中遇到新指令时难以及时改计划的问题,提出VLP框架:在微调后的视觉语言模型上结合工作记忆与预定义动作/感知API,输出可解释的分层行为策略并在线重规划。作者在ANYmal+Z1和HSR上完成抓放、递交、抽屉/垃圾等任务,规划可行率约90%,成功率多在70%—84%,跨平台与动态改目标场景也优于基线;但增益有多少来自模型本身、多少来自真实数据微调和API工程,文中未充分说明。

TwinAligner: Visual-Dynamic Alignment Empowers Physics-aware Real2Sim2Real for Robotic Manipulation figure
arXiv2025-12-22

TwinAligner: Visual-Dynamic Alignment Empowers Physics-aware Real2Sim2Real for Robotic Manipulation

泛化

泛化Sim2Real感知操作

这篇工作针对机器人学习过度依赖昂贵真机数据、而现有Real2Sim2Real往往只补视觉不补物理的问题,提出TwinAligner:把可编辑3DGS与SDF网格结合,同时对齐物体、场景和机器人的视角与像素级外观,再用真实交互轨迹做无梯度动力学辨识,对齐关节状态和物体点云演化。实验表明,它能构建更可信的数字孪生环境,使仿真训练策略零样本迁移到真实操作,并提高仿真与真机性能的一致性。

Translating Flow to Policy via Hindsight Online Imitation figure
ICLR 20262025-12-22

Translating Flow to Policy via Hindsight Online Imitation

模仿学习

模仿学习感知机器人学习

这篇工作针对分层机器人中的落地瓶颈:高层虽能从无动作视频学到点流计划,但低层常因机器人数据稀缺而难以稳定执行。HinFlow 的关键洞察是让机器人在线自练,并把轨迹实际达到的结果事后重标为目标,把失败尝试也转成监督信号来持续训练 flow 条件模仿策略,而非依赖视觉奖励强化学习或解析控制。实验中,它在 7 个操作任务上用 80K 交互步达到 84.0% 平均成功率,较最强基线提升 1.45×、较初始策略超 2×,且在真实机器人与跨 embodiment 视频迁移中也有效,但仍需少量域内动作示范初始化。

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface figure
CVPR 20262025-12-22

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

3D 表征

3D 表征模仿学习泛化Sim2Real操作

论文针对机器人操作中“为空间泛化反复采集示范太贵”的瓶颈,提出 Real2Edit2Real:用多视角RGB先做米制3D重建,再在点云中编辑物体与轨迹,并通过深度一致的位姿校正把3D修改转成可靠控制信号,最后以深度为主条件生成多视角新视频示范。四个真实任务上,仅用1–5条源示范扩增出的数据训练,效果可匹敌或超过50条真实示范,数据效率提升约10–50倍,并支持高度与纹理编辑。

REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation figure
arXiv2025-12-22

REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation

基础操作

基础操作泛化Sim2Real操作数据集/Benchmark

这篇工作针对VLA机器人泛化评测昂贵、难复现且真实世界难以系统覆盖扰动的问题,提出REALM:一个强调高保真视觉和控制对齐的真机到仿真基准,用15类扰动、7种单臂操作技能和3500多个物体系统测试泛化,并以近800组真实/仿真配对轨迹验证仿真结果与真机表现强相关。基于该基准评测π0、π0-FAST和GR00T N1.5后,作者发现当前模型在多数扰动下的鲁棒性和任务完成率仍明显不足;具体性能改进来源文中未充分说明,判断主要基于公开摘要与项目页。

OMP: One-step Meanflow Policy with Directional Alignment figure
arXiv2025-12-22

OMP: One-step Meanflow Policy with Directional Alignment

Flow Matching

Flow Matching机器人学习

该文针对机器人生成式策略里“扩散精度高但推理慢、流方法快但训练约束重”的矛盾,指出MeanFlow直接用于操作会出现谱偏置、低速精细动作下的梯度饥饿,以及JVP带来的高显存问题。OMP通过方向对齐把速度方向学习与幅值解耦,并用DDE近似JVP降低训练内存,在保持单步推理的同时提升精细控制。文中在Adroit、Meta-World及部分真实任务上报告了比MP1、FlowPolicy等更高成功率和轨迹精度,优势在高精度任务上更明显。

STORM: Search-Guided Generative World Models for Robotic Manipulation figure
arXiv2025-12-20

STORM: Search-Guided Generative World Models for Robotic Manipulation

辅助任务

辅助任务VLA世界模型感知机器人学习操作

针对现有VLA把操作推理交给语言模块或抽象潜空间、难以保留接触与时空细节的问题,STORM提出“先预测再行动”:先由扩散式VLA生成多样候选动作,再用带奖励监督的视频世界模型显式预演未来视觉结果,并结合MCTS做前瞻搜索与重规划。其关键洞察是把规划建立在可见的视觉rollout上,而非语言或潜变量推理。论文在SimplerEnv上取得51.0%平均成功率,超过CogACT的47.9%,且FVD下降超75%,失败恢复更强。

Learning Semantic Atomic Skills for Multi-Task Robotic Manipulation figure
arXiv2025-12-20

Learning Semantic Atomic Skills for Multi-Task Robotic Manipulation

VLA

VLA语言条件机器人学习操作

这篇论文针对多任务模仿学习中示范噪声、多峰行为,以及固定窗口切技能导致边界含糊、难跨任务复用的问题,提出 AtomSkill。方法先用夹爪状态关键帧切出可变长原子技能,再结合视觉语言模型标注和对比学习,得到兼顾语义一致性与时间连贯性的技能库;执行时同时预测技能终点 keypose 与短时动作,用于更稳地衔接长程操作。实验显示其在 RLBench 六任务上达到 0.68 ATP / 67.2% SR,且真实三任务平均 ATP 为 0.60,优于 ACT、DP、VQ-BeT 和 QueST。

AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation figure
arXiv2025-12-20

AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation

模仿学习

模仿学习数据采集数据生成操作

面向铰接物体操作中真实示范昂贵且覆盖不足的问题,AOMGen试图把“一次真实采集”扩展成可训练的大规模数据:它基于单次扫描和示范,用3DGS重建场景,并借助真实机械臂轨迹恢复物理一致的关节运动,再将操作迁移到同类新物体并改变视角、外观和初始位姿,生成与动作、关节、接触状态对齐的多视角数据。实验显示,用这些数据微调VLA后,成功率从0%升至88.7%,且在未见物体与布局上测试;但增益有多少来自更真实的物理约束、多少来自数据规模扩张,文中未充分说明。

Vidarc: Embodied Video Diffusion Model for Closed-loop Control figure
arXiv2025-12-19

Vidarc: Embodied Video Diffusion Model for Closed-loop Control

视频规划

视频规划辅助任务VLADiffusion Policy世界模型感知机器人学习

这篇工作针对视频世界模型用于机械臂控制时的两大痛点:闭环推理太慢、对机器人本体动力学缺乏约束。Vidarc把自回归视频扩散与掩码逆动力学结合,用动作相关掩码构造具身感知的扩散损失,并借助KV cache把实时环境反馈重灌入生成过程,实现低延迟闭环纠错。在约100万跨平台轨迹上预训练后,其真实部署成功率较Vidar和Pi0.5分别提升17%和15%,延迟下降91%,对未见平台和扰动也更稳。

Unifying Deep Predicate Invention with Pre-trained Foundation Models figure
arXiv2025-12-19

Unifying Deep Predicate Invention with Pre-trained Foundation Models

任务规划

任务规划多模态推理基础模型

面向长时程机器人操作,难点在于如何从连续感知中学出可规划的符号谓词;纯大模型自顶向下方法缺少数据落地且依赖提示,纯示教自底向上又搜索低效。UniPred把两者合成一个双层闭环:用LLM提出谓词效应假设,再用基于视觉基础模型特征的神经分类器从低层数据学习并反向修正假设,同时区分基础谓词与派生谓词,以支持超出STRIPS的规划建模。其在5个仿真和1个真实机器人域中,相比自顶向下方法成功率提升2至4倍,相比自底向上学习速度快3至4倍。

SurgiPose: Estimating Surgical Tool Kinematics from Monocular Video for Surgical Robot Learning figure
IROS 20252025-12-19

SurgiPose: Estimating Surgical Tool Kinematics from Monocular Video for Surgical Robot Learning

视频规划

视频规划感知机器人学习应用

这篇工作针对临床和网上单目手术视频只有图像、缺少机器人运动学,难以直接用于模仿学习的问题,提出 SurgiPose:先用 SAM2 分割并做粗位姿初始化,再用可微渲染逐帧“渲染—比对”优化,联合恢复器械的 6DoF 位姿与关节角。作者在 dVRK 的组织提拉和持针任务上表明,用估计运动学训练的策略与真值训练效果接近;重建平均位移误差约 9.7/12.0 mm,对应成功率约 70%/60%,说明单目视频有潜力转成大规模手术学习数据。

Robotic VLA Benefits from Joint Learning with Motion Image Diffusion figure
arXiv2025-12-19

Robotic VLA Benefits from Joint Learning with Motion Image Diffusion

辅助任务

辅助任务VLADiffusion Policy感知机器人学习操作

论文指出现有VLA多依赖专家轨迹模仿,缺少对未来运动的显式推理,因而限制了泛化与动作选择。作者在标准VLA上加入与动作头共享骨干的扩散式运动头,用光流运动图而非未来帧作辅助监督,联合学习场景动态与控制表示,同时保持测试时推理路径和时延不变。实验中该方法将π系VLA在LIBERO提升到97.5%,在RoboTwin提升到58.0%,真实场景相对提升23%,说明显式运动监督能有效增强操作策略。

Mitty: Diffusion-based Human-to-Robot Video Generation figure
arXiv2025-12-19

Mitty: Diffusion-based Human-to-Robot Video Generation

任务规划

任务规划视频规划Diffusion Policy

这项工作针对人类演示到机器人执行通常依赖关键点或轨迹等中间表示、易丢失时序细节并累积误差的问题,提出基于预训练视频扩散模型的 Mitty,直接将人类演示视频压缩为条件 token,并用双向注意力在去噪过程中生成机器人执行视频,同时用自动合成人机配对数据缓解数据稀缺。在 Human2Robot 和 EPIC-Kitchens 上,其任务成功率、人工偏好和整体生成质量优于现有视频编辑/渲染基线,并能泛化到未见环境;但增益有多少来自模型 scaling 与合成数据,文中未充分说明,且尚未打通真实控制闭环。

Kinematics-Aware Diffusion Policy with Consistent 3D Observation and Action Space for Whole-Arm Robotic Manipulation figure
arXiv2025-12-19

Kinematics-Aware Diffusion Policy with Consistent 3D Observation and Action Space for Whole-Arm Robotic Manipulation

3D 表征

3D 表征Diffusion Policy机器人学习操作

这篇工作针对整臂操作中只学末端位姿不够、而直接学关节动作又要隐式吃下复杂运动学、导致样本效率和空间泛化差的问题,提出 KADP:把机械臂状态与动作都表示为臂体上的一组3D节点,与点云观测和任务空间对齐,并在扩散生成过程中注入关节—节点运动学约束,再用全身逆运动学求执行命令。文中在8个RLBench仿真和4个真实任务上报告其相对关节或末端表示基线有更高成功率和更强空间泛化。

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning figure
arXiv2025-12-19

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

数据需求量大

数据需求量大数据采集数据生成Sim2Real机器人学习

这篇工作针对机器人策略学习长期受限于真实交互数据昂贵、任务设计与示教生成仍需大量人工的问题,提出 AnyTask:把 LLM/VLM、海量并行 GPU 仿真和三类示教代理(规划型 ViPR、RL 型 ViPR-Eureka、混合型 ViPR-RL)串成从任务描述、场景/代码生成到数据采集与回放训练的自动化流水线。作者用纯仿真生成数据训练行为克隆策略,并在真实机器人上零样本完成抓放、开抽屉、推动和长时序操作,平均成功率为 44%;但整体增益可能主要来自 scaling 与数据量,三类代理各自贡献边界文中未充分说明。

VERM: Leveraging Foundation Models to Create a Virtual Eye for Efficient 3D Robotic Manipulation figure
RA-L 20252025-12-18

VERM: Leveraging Foundation Models to Create a Virtual Eye for Efficient 3D Robotic Manipulation

3D 表征

3D 表征VLA基础模型机器人学习操作

这篇工作针对多固定相机3D操作中视角冗余大、遮挡多、训练和推理开销高的问题,提出 VERM:借助 GPT-4o 等基础模型从多视角 RGB-D 重建点云中推断任务自适应的“虚拟眼”视角,再以单张虚拟图像驱动策略,并结合深度感知模块与按需触发的动态粗到细缩放来补足3D定位和精细对准。RLBench 与真实实验中,该方法超过既有方法,并将训练与推理分别加速 1.89× 和 1.54×。

Single-View Shape Completion for Robotic Grasping in Clutter figure
arXiv2025-12-18

Single-View Shape Completion for Robotic Grasping in Clutter

抓取

抓取操作

论文针对单视角、杂乱遮挡下可见几何残缺导致抓取易碰撞或抓空的问题,提出“分割—扩散补全—抓取生成”的模块化流程:先用开放词汇分割提取目标,再对任意姿态的局部点云做类别级扩散式三维形状补全,并将完整形状送入6-DoF抓取网络。真实机器人家居杂乱场景中,平均抓取成功率由56.7%提升到80%,较不做补全高23个百分点,较ZeroGrasp高约19个百分点,但仍需按类别训练且整条链路约4–5秒。

ReinforceGen: Hybrid Skill Policies with Automated Data Generation and Reinforcement Learning figure
arXiv2025-12-18

ReinforceGen: Hybrid Skill Policies with Automated Data Generation and Reinforcement Learning

强化学习

强化学习RL+IL触觉数据生成基础模型机器人学习

论文针对长时序、接触丰富操作中“示教成本高、纯RL难探索、纯IL又受少量示范质量上限约束”的问题,提出 ReinforceGen:先将任务拆成局部技能并用运动规划串联,只需10条人类示范生成大规模离线数据训练混合策略,再用在线蒸馏、因果筛选与残差RL微调技能、目标位姿和终止判断,部署时还能重规划以降低泛化负担。其在 Robosuite 最高随机重置设置下各任务成功率达80%,较前作近乎翻倍,微调平均带来89%的性能提升。

Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning figure
arXiv2025-12-18

Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning

强化学习

强化学习触觉基础模型机器人学习

论文关注一个常被忽视的问题:用于RL微调的预训练策略,是否本身就是好的初始化。作者指出标准BC在示范稀疏区域会过度自信,难以覆盖示范者可能采取的动作,导致后续RL拿不到足够有信息量的奖励信号。为此提出Posterior Behavioral Cloning,以纯监督学习拟合“给定示范数据后示范者行为的后验分布”,在数据密集区接近BC、在不确定区域主动保留更高动作熵。理论上它保证预训练性能不差于BC且更有利于微调,实验在仿真和真实机器人操控中都显著提升了RL微调的样本效率与最终表现。

PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies figure
arXiv2025-12-18

PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies

泛化

泛化Sim2Real基础模型

这篇工作聚焦通用机器人策略难以做大规模、可复现真实评测的问题,提出 PolaRiS:用 2–5 分钟真实场景视频经高斯泼溅与几何重建生成可交互仿真环境,再配合少量仿真数据共训练,主要用于对齐视觉表征而非学习新任务,从而支持未见场景的零样本评测。配对实验显示,其仿真分数与真实性能的平均相关系数达 0.9,与 RoboArena 排名相关达 0.98,明显强于传统仿真基准。

ManiLong-Shot: Interaction-Aware One-Shot Imitation Learning for Long-Horizon Manipulation figure
AAAI 20262025-12-18

ManiLong-Shot: Interaction-Aware One-Shot Imitation Learning for Long-Horizon Manipulation

模仿学习

模仿学习泛化人机交互操作

这项工作针对单次示教模仿学习难以扩展到多阶段操作的问题,提出 ManiLong-Shot:不再直接跟踪长轨迹,而是按接触前、抓取、接触后等物理交互事件把任务切成原语,再用 VLM 或规则完成分段,并在每段预测可跨场景复用的不变交互区域、建立示教与当前观测的对应来求末端位姿。仿真中仅用10个短任务训练即可泛化到20个未见长时序任务,较SOTA相对提升22.8%,并在3个真实机器人任务上验证了鲁棒性。

GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation figure
CVPR 20262025-12-18

GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation

3D 表征

3D 表征VLA机器人学习操作

这篇工作针对现有 VLA 偏反应式、主要在 2D 观测上决策,因而在精细操作中缺乏稳定 3D 推理的问题,在连续动作策略上加入两类只在训练期使用的先验:一是预测机械臂未来多步 3D 关键点轨迹,二是用 3D Gaussian 预测未来工作空间几何,并沿预测轨迹做精细化建模。这样既强化时空几何约束,又避免推理时昂贵的 3D 解码。实验显示其在 RoboCasa Human-50、LIBERO 和真实机器人任务上均优于强基线,且在几何要求高、空间关系复杂的场景中提升更明显。

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs figure
arXiv2025-12-17

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

视频规划

视频规划辅助任务VLA泛化世界模型感知机器人学习

论文指出,传统VLA虽有语义先验,但预训练停留在静态图文,缺少物理因果与时序动态,因而不得不依赖大量昂贵机器人示教去同时学习“动力学+控制”。mimic-video据此提出Video-Action Model:冻结大规模视频生成骨干,在潜在空间先形成视觉动作计划,再用基于flow matching的逆动力学解码器输出低层控制,从而把多模态规划与控制解耦。实验显示其在仿真和真实世界、单臂到双臂灵巧操作上达到SOTA,相比传统VLA样本效率提升10倍、收敛速度提升2倍。

MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training figure
arXiv2025-12-17

MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training

模仿学习

模仿学习VLA泛化人机交互基础模型语言条件机器人学习

该文针对真实机器人示教稀缺、而人类视频与仿真机器人数据又存在视角外观和形态错配,提出 MiVLA:先用左右手坐标系与运动学规则把人手和机械臂动作双向对齐,再做“互相模仿”预训练,让模型根据一种本体的演示去预测本体轨迹并生成另一种本体行为,从而把人类数据的真实场景先验与仿真数据的操作多样性合到同一 VLA 中。文中在 ARX、PiPer、LocoMan 上相对 π0/π0.5/H-RDT 取得仿真 25% 和真机 14% 的成功率提升,但各模块增益来源文中未充分说明。

Large Video Planner Enables Generalizable Robot Control figure
arXiv2025-12-17

Large Video Planner Enables Generalizable Robot Control

任务规划

任务规划视频规划泛化

论文的动机是:基于MLLM的VLA受限于机器人动作数据稀缺,跨任务与新场景泛化不足。作者改以视频作为机器人基础模型的主模态,构建14B的Large Video Planner,用互联网级人类与机器人视频预训练,根据单帧观测和文本指令生成未来视频计划,再经4D重建与动作重定向提取可执行控制。文中在第三方自由命题任务和真实机器人实验中展示了零样本执行,说明其任务级泛化与指令跟随较强,但增益可能也部分来自scaling和数据规模。

ISS Policy: Scalable Diffusion Policy with Implicit Scene Supervision figure
arXiv2025-12-17

ISS Policy: Scalable Diffusion Policy with Implicit Scene Supervision

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作针对视觉模仿学习过度依赖2D外观、缺少3D几何约束而导致训练效率低和泛化差的问题,提出以单视角深度转点云为输入的DiT扩散策略,并在训练中加入隐式场景监督,让模型预测未来点云特征以约束几何演化一致性。结果上,它在MetaWorld和Adroit上达到SOTA,真实机器人实验也显示出较强鲁棒性与泛化;但判断主要基于公开摘要,具体增益分解文中片段未充分说明。

CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion figure
arXiv2025-12-17

CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion

视频规划

视频规划辅助任务VLADiffusion Policy世界模型感知机器人学习操作

这项工作针对机器人视频世界模型常缺少配套动作标注、导致生成视频难直接用于策略学习的问题,提出 CoVAR:在预训练视频扩散模型旁并联独立动作 DiT,并用为视频与动作分别设置 Q/K/V 的 Bridge Attention 做跨模态对齐,再加动作细化模块把粗动作变成可执行控制。文中称其在多个公开基准和真实机器人精细抓取数据上同时提升了视频生成质量与动作精度,显著优于两阶段和联合生成基线;但具体增益来源在给定材料中未充分说明。

EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models figure
arXiv2025-12-16

EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

VLA

VLA泛化机器人学习数据集/Benchmark

这篇工作针对VLA依赖大量示教、SFT容易死记轨迹且部署时难以纠错的问题,提出EVOLVE-VLA,让策略在测试时通过与环境交互继续学习。核心洞察不是追求完美奖励,而是用学习到的进度估计替代不可得的oracle reward,并以累积式进度平滑和渐进式时域扩展来压制噪声、稳定在线强化学习。LIBERO上其长时程任务提升8.6%,1-shot提升22.0%,未见任务且无任务示教时成功率达20.8%(纯SFT为0%),还出现了纠错与新策略。

World Models Can Leverage Human Videos for Dexterous Manipulation figure
arXiv2025-12-15

World Models Can Leverage Human Videos for Dexterous Manipulation

灵巧操作

灵巧操作视频规划世界模型操作

这篇工作针对灵巧操作世界模型常因动作表征过粗、又缺少大规模灵巧机器人数据而难以学到细致手物接触动力学的问题,提出DexWM:用第一视角视频提取的3D手指关键点与相机位姿差作为动作,并加入手部一致性损失,强调仅预测视觉特征不足以约束精细手型。模型在900多小时人类与非灵巧机器人视频上预训练后,配合约4小时探索式仿真微调,可在Franka+Allegro上对未见抓取、放置、到达任务实现零样本规划,平均比Diffusion Policy高50%以上,真实抓取成功率达83%,但严格说增益也可能部分来自大规模数据与模型scaling。

VIPA-VLA: Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos figure
CVPR 20262025-12-15

VIPA-VLA: Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

3D 表征

3D 表征视频规划VLA基础模型感知机器人学习

本文针对现有VLA以2D视觉驱动3D操作、导致感知与动作落地脱节的问题,提出基于人类演示视频的空间感知预训练范式:利用Hand3D中提取的3D视觉关系与手部3D轨迹,分两阶段把2D语义特征对齐到3D空间和动作先验,并通过双编码器VIPA-VLA迁移到机器人控制。实验显示其在LIBERO上单视角平均92.4%、双视角96.8%,单视角优于公开对比方法、双视角接近最优,但增益也可能部分来自额外人类视频数据。

Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning figure
arXiv2025-12-15

Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning

抓取

抓取灵巧操作Affordance模仿学习强化学习触觉操作

这篇工作关注的不只是“抓得住”,而是为下游操作选择合适抓法;难点在于功能目标难定义、灵巧手多任务RL探索成本高且仿真到现实迁移困难。作者将功能抓取拆成抓取部位affordance与抓取风格style,并把问题改写为基于单条示范的一步“示范编辑”RL:策略只预测手腕位姿变换和手型修正,显著缩小搜索空间。实验在3200个物体上取得优于基线的成功率、部位命中率和风格多样性,多手型总体成功率超77%,RGB蒸馏后零样本实机达71%,接入VLM按指令抓取为64.4%。

OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning figure
arXiv2025-12-15

OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning

数据增强

数据增强跨本体基础模型机器人学习数据集/Benchmark

这篇工作针对 OXE 数据中机器人本体分布严重失衡、为每种新硬件重采示教成本过高的问题,提出 AugE-Toolkit,把已有轨迹通过改进的 cross-painting 与运动学约束批量增强为 9 种机械臂/夹爪版本,并构建 440 万条轨迹的 OXE-AugE。核心洞察是显式增加本体多样性,可迫使策略更关注夹爪与物体的几何关系而非机械臂外观。实验显示其不仅提升已增强和未见本体的泛化,也让 OpenVLA、π0 在真实 4 项任务上的未见机器人-夹爪组合成功率提升 24%–45%;但增益有多少来自增强方法本身、多少来自单纯 scaling/data,文中未充分说明。

Motus: A Unified Latent Action World Model figure
arXiv2025-12-15

Motus: A Unified Latent Action World Model

辅助任务

辅助任务VLALatent Learning世界模型感知机器人学习

这篇工作针对机器人理解、世界建模与控制长期割裂、难以利用异构无动作标注视频的问题,提出统一潜动作世界模型 Motus:用 MoT/Tri-model Joint Attention 把理解、视频生成和动作专家接到同一骨干上,再用类似 UniDiffuser 的调度器在 VLA、世界模型、IDM 等模式间切换,并借助光流学习可跨本体迁移的 latent action。实验中其在仿真相对 X-VLA 提升15%、相对 π0.5 提升45%,真实双臂任务提升11%~48%;但判断基于公开摘要/项目页,增益也可能部分来自大规模数据与三阶段预训练。

Autonomously Unweaving Multiple Cables Using Visual Feedback figure
arXiv2025-12-13

Autonomously Unweaving Multiple Cables Using Visual Feedback

可变形物体

可变形物体感知操作非学习控制

论文聚焦于比“单线解结”更少被研究的多线缆解交织问题:在多根线缆一端固定、松散铺放且可由颜色区分的设定下,机器人需借助腕部RGB-D视觉逐步消除线间交叉。核心做法是用同时编码拓扑与几何信息的线缆图表示状态,并结合考虑拉直与弯折效应的确定性状态转移模型,在“消交叉”和“重分布”两类非学习动作原语之间进行优化选择。实验在电线和鞋带上达到99%的状态识别率与平均84%的解交织成功率。

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges figure
arXiv2025-12-12

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

VLA

VLA综述

本文的动机是:VLA论文与数据集爆发式增长,但现有综述多按部件罗列方法、把关键难题放在结尾,难以支持研究者从入门到选题的连续学习。作者的核心洞察是用“模块—里程碑—挑战”的路径重构VLA版图,并把表征/世界建模、执行与规划、泛化与持续适应、安全可解释性、数据与评测五大问题置于中心。主要结果是一份系统路线图,梳理各方向代表方法、权衡与未来机会;这是一篇综述而非统一基准实验,定量增益文中未充分说明。

WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control figure
ICLR 20262025-12-11

WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control

人形操作

移动操作人形操作VLALatent Learning操作

该文针对人形机器人“大范围移动后再稳定操作”受限于示教数据稀缺和低层行走控制不准的问题,提出 WholeBodyVLA:先用统一潜变量学习把无动作标注的第一视角视频转成离散潜动作,并分别建模移动与操作知识,再用面向移动操作的离散指令 RL 策略精确执行前进、转身、下蹲等动作。系统在 AgiBot X2 上实现端到端大空间移动操作,真实机表现较基线提升 21.3%,并展示出跨任务泛化与扩展性。

Iterative Compositional Data Generation for Robot Control figure
arXiv2025-12-11

Iterative Compositional Data Generation for Robot Control

数据采集

数据采集数据生成

面向多机器人、多物体操作里“任务组合爆炸而示教采集昂贵”的瓶颈,论文把状态转移按机器人、物体、障碍和目标四类语义因子拆分,提出带因子化分词器与注意力交互的组合式扩散Transformer,并用“生成数据—离线强化学习验证—回灌再训练”的闭环持续扩充未见任务数据。在 CompoSuite 上,它较整体式和手工组合基线有更强零样本泛化,最终几乎解出全部保留任务,同时学到的组合结构也不完全等同人工先验。

Evaluating Gemini Robotics Policies in a Veo World Simulator figure
arXiv2025-12-11

Evaluating Gemini Robotics Policies in a Veo World Simulator

任务规划

任务规划视频规划操作数据集/Benchmark

论文针对通用机器人策略难以靠真机大规模评测其泛化与安全的问题,提出基于 Veo 的视频世界模拟器:在前沿视频模型上加入机器人动作条件、多视角一致生成,并结合图像编辑与多视角补全,低成本合成新物体、背景和干扰物等 OOD/安全场景。作者在双臂平台5个任务、8个 Gemini 策略检查点和1600+真机试验中表明,该系统能较准确预测常规与 OOD 条件下的相对性能排序、区分不同泛化轴的退化,并发现潜在物理/语义不安全行为;但具体误差与增益来源文中未充分说明。

Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models figure
arXiv2025-12-10

Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models

VLA

VLA数据筛选机器人学习

这篇工作针对VLA在实时机器人操作中因视觉token冗余而推理慢、且现有压缩方法常依赖额外训练或跨帧缓存的问题,提出仅基于当前观测的免训练TEAM-VLA。其关键洞察是图文相似度给出的前景线索很稀疏,因此先围绕高相似种子做卷积式区域扩张,并补入少量随机上下文,再在深层依据动作相关性保留关键token、将其余token做软双边合并。LIBERO实验表明它能提升推理速度,同时任务成功率基本持平甚至略优于全量模型;但给定材料未充分说明具体加速倍数与增益来源。

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation figure
arXiv2025-12-10

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

触觉

触觉Latent Learning感知机器人学习操作

面向机器人操作中“接触前缺少近场信息、接触后又易被遮挡”的感知断层,论文提出 TacThru 透明皮肤传感器与 TacThru-UMI 学习框架,在同一传感器中同时获得视觉、接近觉与触觉,并用 keyline marker、持续照明和高效跟踪提升开放环境下的触觉鲁棒性,再以 Transformer-Diffusion Policy 融合多模态信号。五项真实任务平均成功率达 85.5%,明显优于纯触觉 66.3% 和纯视觉 55.4%,对薄软物体检测和精密插入尤其有效。

Safe Learning for Contact-Rich Robot Tasks: A Survey from Classical Learning-Based Methods to Safe Foundation Models figure
arXiv2025-12-10

Safe Learning for Contact-Rich Robot Tasks: A Survey from Classical Learning-Based Methods to Safe Foundation Models

安全

安全基础模型接触丰富机器人学习操作综述非学习控制

面对装配、插入、切割等接触丰富操作中由不确定接触动力学和真实部署损伤风险带来的瓶颈,本文从“训练期安全探索—部署期安全执行”统一重构该领域,系统串联约束/风险敏感强化学习、不确定性感知建模、控制屏障函数与安全盾,并进一步讨论其如何迁移到VLM/VLA机器人基础模型。作为综述,其主要结果是给出一套面向接触任务的安全分类、评测缺口与未来方向,指出语言约束与多模态安全信号是新机会,但高保真失败数据稀缺和物理落地评测仍是核心难题;判断基于公开摘要/项目页。

One-Shot Real-World Demonstration Synthesis for Scalable Bimanual Manipulation figure
arXiv2025-12-10

One-Shot Real-World Demonstration Synthesis for Scalable Bimanual Manipulation

模仿学习

模仿学习数据采集数据生成双臂操作

这篇工作针对双臂模仿学习高度依赖遥操作、而仿真合成又有 sim-to-real gap 的数据瓶颈,提出 BiDemoSyn:从一次真实示范中拆出“稳定的双臂协同块”和“随物体几何/位姿变化的可调部分”,再结合视觉对齐与轻量轨迹优化,在不依赖仿真的情况下批量生成接触丰富且物理可行的示范。实验在 6 个真实双臂任务上显示,用其合成数据训练的策略对新位姿和新形状泛化更强,显著优于强基线,并支持 few-shot 扩展和零样本跨平台迁移;但增益是否主要来自 scaling / data,文中未充分说明。

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models figure
CVPR 20262025-12-10

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

辅助任务

辅助任务VLA感知机器人学习

论文指出现有VLA多按马尔可夫假设只看当前观测,长程操作时容易出现“时间短视”,而堆叠历史帧又带来像素冗余和推理开销。HiF-VLA的核心洞察是用运动表征而非原始图像承载时序信息:以过去运动作为 hindsight 先验,结合当前观测与指令做 foresight 推演,并通过受 hindsight 调制的联合专家同时生成未来运动与动作,实现“边想边做”的长程控制。实验上,它在 LIBERO-Long、CALVIN ABC-D 和真实机器人长程任务上均优于强基线,同时几乎不增加推理时延。

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos figure
CVPRW 20252025-12-10

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

任务规划

任务规划视频规划人机交互

这篇工作针对机器人操作数据难采、而海量人类交互视频难直接用于学习的矛盾,提出无配对数据的人到机器人视频翻译框架 H2R-Grounder。其关键洞察是用统一的 H2Rep 表征跨越形态差异:先抹除人/机器人,再以末端执行器的二维位置与朝向标记作为条件,让微调后的 Wan2.2 学会把机械臂“生成回场景”而非生硬贴图。实验表明,它在运动一致性、物理接触合理性和时序连贯性上明显优于渲染式与通用视频编辑基线,但当前主要支持单手到单臂、且输出受 Franka 形态限制。

GLaD: Geometric Latent Distillation for Vision-Language-Action Models figure
arXiv2025-12-10

GLaD: Geometric Latent Distillation for Vision-Language-Action Models

VLA

VLALatent Learning机器人学习

这篇工作针对现有VLA多依赖RGB语义特征、缺乏3D空间理解,导致操作中难以稳定处理位置关系与外观变化的问题,提出GLaD:在预训练时不只给视觉编码器蒸馏几何信息,而是用冻结的VGGT将视觉token对应的LLM隐状态对齐到几何特征,把几何先验直接注入动作决策表征。在相同Bridge预训练数据下,GLaD在LIBERO平均成功率达94.1%,超过UniVLA的92.5%,并在LIBERO-PRO物体扰动上显著更稳健,如GOAL任务81%对62%。

VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer figure
arXiv2025-12-09

VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer

VLA

VLA安全机器人学习

这篇论文针对VLA在非结构化操作中虽能跟随指令、却缺乏硬安全保证,遇到障碍物易发生碰撞的问题,提出可即插即用且无需重训练的VLSA架构AEGIS:先用视觉语言推理、开放词汇检测和深度信息识别并定位需规避物体,再用基于控制屏障函数的QP安全层在风险出现时最小化修正原始动作,从而尽量保留任务意图并提供理论安全保证。作者还构建了SafeLIBERO基准;在32个场景、1600回合上,避障率提升59.16%,任务成功率提升17.25%。

Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging figure
ICLR 20262025-12-09

Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging

VLA

VLA安全机器人学习

论文关注通用VLA机器人策略在少量示教微调时易过拟合新任务、并遗忘原有通用能力的问题。其核心洞察是,先在目标任务上微调,再将微调前后的参数按系数插值合并(RETAIN),即可把基座策略的泛化性与新技能专长折中到同一模型中。实验表明,该法在真实与仿真中对未见物体、位置和视角的成功率显著提升,真实机器人相对最佳既有微调平均约高40%,同时较好保留通用任务能力并支持持续并入新技能;但其增益来源文中未充分说明,且仍需调合并系数。

OSMO: Open-Source Tactile Glove for Human-to-Robot Skill Transfer figure
arXiv2025-12-09

OSMO: Open-Source Tactile Glove for Human-to-Robot Skill Transfer

触觉

触觉遥操作机器人学习

这篇工作针对“人类视频示教缺少接触力信息、难以迁移到接触密集操作”的问题,提出开源触觉手套 OSMO:在指尖与掌部布置12个三轴磁触觉单元,并通过双磁力计差分与 MuMetal 屏蔽抑制串扰;更关键的是让人和机器人共用同一手套接口,尽量缩小视觉与触觉具身差。作者在需要持续压紧的擦拭任务上仅用人类示教训练策略、无需任何真实机器人数据,即在真机上达到72%成功率,优于纯视觉基线,主要减少了接触丢失和压力不足等失败。

Mind to Hand: Purposeful Robotic Control via Embodied Reasoning figure
arXiv2025-12-09

Mind to Hand: Purposeful Robotic Control via Embodied Reasoning

辅助任务

辅助任务VLA感知机器人学习操作

论文针对现有VLA在自然语言指令下缺少显式推理、泛化与可解释性不足的问题,提出把“思维”接到“手”上的Lumo-1:先用具身视觉语言数据继续强化规划与空间理解,再与跨形态机器人数据联合训练动作预测,并加入带推理轨迹的动作学习、空间动作tokenizer和RL对齐推理—控制。实机实验中,它在抓放、长时序和灵巧操作上超过π0/π0.5,并能泛化到新物体与环境;但各模块增益是否主要来自数据与scaling,文中未充分说明。

Learning Robot Manipulation from Audio World Models figure
arXiv2025-12-09

Learning Robot Manipulation from Audio World Models

音频

音频世界模型机器人学习操作

这篇工作针对仅靠视觉难以判断操作进展的场景,如倒水时液位变化不明显,主张机器人不仅要“听见”当前声音,还要预测未来声音。方法上先用音频自编码器学习频谱潜表示,再以 latent flow matching 生成未来音频,并将当前/预测音频与图像一起送入策略网络;其核心洞察是,真正有用的不是简单多模态输入,而是对节奏、音高等未来音频状态的准确建模。作者称该方法在真实倒水和仿真钢琴任务上优于不做前瞻预测的基线,但文中片段未充分说明具体数值与增益来源。

Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model figure
arXiv2025-12-09

Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model

任务规划

任务规划几何约束规划世界模型操作

这篇工作针对基于视频生成的世界模型在长时程操作中易产生物理幻觉、难满足碰撞与几何约束的问题,提出 EToT:先将真实场景重建为可交互数字孪生,再用“先验分枝+反思分枝”的树搜索,让 VLM 在模拟器中预演、诊断失败并修正计划。核心洞察是把高层任务规划绑定到具身物理世界模型,而非依赖静态观察或单一路径分解。实验表明,它在短程和长程桌面操作任务上均优于基线,尤其更能处理多阶段约束与失败恢复。

See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations figure
arXiv2025-12-08

See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations

视频规划

视频规划模仿学习VLA泛化机器人学习

这篇工作针对现有VLA难以泛化到训练分布外任务的问题,提出ViVLA,让机器人在测试时仅看一次专家视频就学习新操作。方法上,它把示范视频与机器人当前观测联合建模,引入细粒度动作推理、时序定位、跨 embodiment 的潜在动作统一表征,以及并行解码;同时构建了约89.3万条专家—代理配对数据,增益可能也部分来自数据 scaling。实验显示其在未见 LIBERO 任务上提升超30%,跨 embodiment 视频仍超35%,真实场景未见任务提升超38%。

Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation figure
arXiv2025-12-08

Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation

3D 表征

3D 表征Diffusion Policy机器人学习

现有扩散机器人策略往往只把观测当作去噪条件,采样仍从高斯噪声开始,导致感知与控制耦合不足。BridgePolicy把3D点云和机器人状态经跨模态融合与语义对齐后,直接写入扩散桥的SDE轨迹,让动作从“观测先验”而非随机噪声生成。文中报告其在3个基准的52个仿真任务及5个真实任务上持续优于DP、DP3、FlowPolicy等方法,显示这种观测内嵌式生成能提升控制精度与稳定性。

SINRL: Socially Integrated Navigation with Reinforcement Learning using Spiking Neural Networks figure
RA-L 20252025-12-08

SINRL: Socially Integrated Navigation with Reinforcement Learning using Spiking Neural Networks

强化学习

强化学习触觉机器人学习

面向拥挤人类环境中的移动机器人,作者关注两难:既要学到符合社会规范、能随人类行为自适应的导航策略,又希望推理链路可落到低功耗神经形态硬件。文中提出SINRL,用SNN actor+ANN critic的混合PPO,并设计带时间维的脉冲特征提取器编码多行人交互;其中SD神经元训练稳定性优于CUBA。实验表明其社会适应与导航能力优于既有socially aware/integrated方法,推理能耗估计降低约1.69个数量级,但能耗增益主要基于估算,硬件实测文中未充分说明。

Delay-Aware Diffusion Policy: Bridging the Observation-Execution Gap in Dynamic Tasks figure
arXiv2025-12-08

Delay-Aware Diffusion Policy: Bridging the Observation-Execution Gap in Dynamic Tasks

Diffusion Policy

Diffusion Policy机器人学习

机器人从观测到动作生效往往有数十到数百毫秒推理延迟,零延迟假设在乒乓等快速交互任务里会让策略总是慢半拍。本文提出 DA-DP:先将按零延迟采集的示教轨迹修正为延迟补偿后的执行轨迹,再把实测延迟作为条件输入策略,使其面向执行时刻的未来状态出动作。实验显示,该方法在多任务、多机器人和多种延迟设置下都比不感知延迟的扩散策略更稳健,成功率随延迟增大下降更慢,并对更大的分布外延迟保持更好表现。

Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation figure
CVPR 20262025-12-08

Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation

Affordance

Affordance3D 表征VLA机器人学习操作

论文针对 VLA 在分布外操作中容易沿训练记忆轨迹行动、忽视目标新位置的“记忆陷阱”,提出插件式 AFI:用 3D 空间可供性场在本体感觉信号下检测陷阱,将末端回退到高可供性区域,生成中间航点,并按累计可供性重排 VLA 候选轨迹,以不重训方式补上显式几何约束。结果上,AFI 在实机上对 π0/π0.5 平均提升 23.5%,在 LIBERO-Pro 上提升 20.2%,主要增强了 OOD 鲁棒性。

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators figure
NeurIPS 20252025-12-07

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

视频规划

视频规划辅助任务VLA泛化世界模型感知机器人学习操作

这篇工作针对现有VLA主要依赖视觉语言理解模型、对新任务和新物体泛化不足的问题,尝试把大规模视频生成模型直接改造成机器人操作器。核心做法是用多模态Diffusion Transformer联合预测动作序列和执行后的未来视频,并给出一个关键洞察:生成的“视觉想象”越贴近真实结果,动作通常越可靠、成功率越高。实验显示它不仅在域内任务上有效,还能迁移其他机体的技能并处理未见物体;但具体增益有多少来自联合预测、多少来自视频预训练规模,文中拆解仍有限。

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty figure
arXiv2025-12-05

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

任务规划

任务规划视频规划安全世界模型

论文针对机器人视频世界模型会“编未来”却不知道自己何时不可靠的问题,提出C3:用严格适当评分规则同时训练生成正确性与置信度,在潜空间做连续尺度、子patch级不确定性估计,再解码成可解释的RGB热图。结果显示其在Bridge、DROID及真实机器人上能给出较校准的置信度,误差越大处不确定性越高,并能有效检测分布外状态与动作,从而为更安全的视频规划提供依据。

Training-Time Action Conditioning for Efficient Real-Time Chunking figure
arXiv2025-12-05

Training-Time Action Conditioning for Efficient Real-Time Chunking

Transformer Policy

Transformer Policy机器人学习

这篇工作针对RTC虽能异步输出动作块、却依赖推理时 inpainting 带来额外延迟的问题,提出把“延迟补偿”前移到训练阶段:训练中显式模拟推理延迟,直接用已提交的动作前缀条件化后续动作,并通过按 token 设置流匹配时间步、前缀无噪声输入和后缀损失掩码实现,无需改机器人运行时。结果上,仿真中该方法在较大推理延迟下优于原RTC;在 π0.6 的搭箱子和做咖啡实机任务上,任务表现与速度至少持平且计算更省,但文中未充分说明精确增益幅度。

SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models figure
arXiv2025-12-05

SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models

任务规划

任务规划几何约束规划

论文针对VLM会“说”不会“懂物理”,在精细操作中常提出语义合理却会翻倒、滑移的动作。SIMPACT的关键是在测试时由单张RGB-D图自动搭建刚体/可变形多物理仿真,把仿真rollout作为VLM上下文,让其反复提案、预测后果并修正计划,且无需额外训练。文中称该方法在7个真实世界操作任务上达到SOTA并优于通用操作模型;但公开摘要与片段对任务数有5/7不一致,判断基于公开摘要/项目页。

HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies figure
arXiv2025-12-05

HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies

VLA

VLA泛化基础模型语言条件机器人学习

面向跨机器人、跨动作空间与传感配置的数据异构性,HiMoE-VLA试图解决现有VLA把不同示教简单混训后难迁移、泛化差的问题。其关键做法是在动作模块中引入分层专家结构:浅层AS-MoE先按动作空间分治,邻近层HB-MoE再吸收机体、状态与传感差异,中间Transformer汇聚为共享表征,并配合对比式正则与flow matching训练。论文报告在OXE/ALOHA预训练后,模型在CALVIN、LIBERO及xArm、ALOHA真机上均优于现有VLA基线,对新物体、环境、机器人和任务的适应更稳健。

Correspondence-Oriented Imitation Learning: Flexible Visuomotor Control with 3D Conditioning figure
arXiv2025-12-05

Correspondence-Oriented Imitation Learning: Flexible Visuomotor Control with 3D Conditioning

3D 表征

3D 表征模仿学习Vision-Action机器人学习

这篇工作针对目标图像、语言或2D flow难以稳定落地到精细操作、且现有3D flow常依赖手工控制器和稠密标注的问题,提出 COIL:用场景点云上少量到大量、短时到长时的3D关键点对应关系来描述任务,再用时空注意力策略把观测与任务规格对齐,并通过仿真示范加 hindsight relabeling 自监督训练。实验中它在真实世界的放置、扫动、折叠任务上都明显优于末端轨迹和2D flow基线,在稀疏与稠密规格下都保持较强零样本泛化。

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale figure
arXiv2025-12-04

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

人形操作

人形操作任务规划视频规划

这篇工作针对人形机器人训练数据稀缺、现有“给第一视角视频贴机械臂”方法难以处理第三人称全身动作与遮挡的问题,把 Wan 2.2 改造成视频到视频的人类到人形机器人翻译模型,并用 Unreal Engine 合成 17+ 小时成对人类/人形视频做 LoRA 微调。随后作者将 60 小时 Ego-Exo4D 转成 360 万帧 Optimus 视频;用户研究中其运动一致性获 69% 最佳、具身正确性获 62.1% 最佳。但文中未充分说明这些生成数据对下游 VLA/世界模型的真实增益,收益可能主要来自 scaling / data。

Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops figure
arXiv2025-12-04

Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops

VLA

VLA操作应用

面向报废台式机中RAM、CPU等关键部件的自动拆解,作者针对传统感知—规划—操作流水线泛化差、误差累积的问题,采集UR5e示教数据并微调OpenVLA与OpenVLA-OFT,评估VLA在RAM拆卸和CPU卡扣解锁中的可行性。结果表明,VLA能完成若干前期步骤,但在需要精确定位与接触操作的关键子任务上易失败;加入简单规则控制后可完成全流程,说明当前VLA更适合提供高层引导,而难以独立承担精细拆解。

STARE-VLA: Progressive Stage-Aware Reinforcement for Fine-Tuning Vision-Language-Action Models figure
arXiv2025-12-04

STARE-VLA: Progressive Stage-Aware Reinforcement for Fine-Tuning Vision-Language-Action Models

强化学习

强化学习VLA触觉机器人学习

这篇工作的出发点是:把长时程机器人动作像语言序列一样做整轨迹优化,会导致信用分配过粗,尤其在抓取、放置等难阶段训练不稳。作者提出规则式 StARe,将轨迹按接近、抓取、搬运、放置等语义阶段切分,并为各阶段计算代价与稠密奖励,进一步形成离线的 StA-TPO、在线的 StA-PPO,以及 SFT→偏好→交互的 IPI 串行微调流程。在 SimplerEnv 和 ManiSkill3 上分别达到 98.0% 和 96.4% 成功率,说明阶段感知监督对长时程操作是有效的。

Open-Ended Goal Inference through Actions and Language for Human-Robot Collaboration figure
HRI 20262025-12-04

Open-Ended Goal Inference through Actions and Language for Human-Robot Collaboration

人机交互

多智能体/多机器人人机交互

面向开放目标的人机协作,人的意图常常含糊、难以完整表达,且未必落在机器人预设目标库中,单看动作或单靠语言都容易误判。本文提出BALI,在滚动规划树中双向耦合语言偏好与已观测动作,并用“信息增益—打断代价”权衡决定何时追问澄清,从而边推断目标边选择支持性动作。协作烹饪的仿真与初步真实实验显示,BALI较语言-only、动作-only和GOOD预测更稳定、收敛更快、错误更少,并在开放集和闭集设定下都取得更高目标识别准确率。

MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Manipulation figure
arXiv2025-12-04

MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Manipulation

数据需求量大

数据需求量大数据采集数据增强泛化操作

论文指出,机器人模仿学习的关键瓶颈不只是数据规模不足,更在于传统采集里每条演示只覆盖一个静态空间配置,导致策略往往只在训练点附近有效。MOVE 的核心思路是在演示采集时主动让可动物体、目标位姿和相机持续运动,把单条轨迹变成对连续空间的密集采样,相当于把空间增强前移到数据采集阶段。结果上,MOVE 在 Meta-World 上把平均成功率从 22.2% 提升到 39.1%,部分任务数据效率提升 2–5 倍;真实环境中 35k 步即可达到 23.3%,显著高于静态同预算的 3.3%,并追平静态 75k 步。

Hoi! -- A Multimodal Dataset for Force-Grounded, Cross-View Articulated Manipulation figure
arXiv2025-12-04

Hoi! -- A Multimodal Dataset for Force-Grounded, Cross-View Articulated Manipulation

视频规划

视频规划触觉操作数据集/Benchmark

针对人类视频偏长时程、机器人数据偏短技能,导致视角、具身与力觉迁移难以系统研究,Hoi!围绕铰接家具操作构建了多模态数据集:以手、腕部相机手、UMI夹爪和带力/触觉的Hoi!夹爪四种执行体,同步采集跨视角RGB-D、位姿、力觉、触觉及操作前后3D扫描,并标注关节参数与状态变化。数据覆盖3048段序列、381个物体、38个场景;基准结果显示现有铰接估计和视觉/触觉力预测方法在真实野外场景上明显掉点,说明跨具身物理理解仍是主要瓶颈。

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization figure
ICLR 20262025-12-04

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization

VLA

VLA语言条件机器人学习

这篇工作聚焦自回归 VLA 的核心瓶颈:动作 token 化常在重建保真度、压缩率与推理速度之间互相牵制,也难兼顾跨任务和跨本体泛化。作者提出 FASTer,把动作序列按时间与物理语义做二维分组并编码成单通道“动作图像”,再用 Transformer+残差 VQ 结合时域/频域重建学习高压缩 token;策略端进一步采用分块自回归解码和轻量 action expert,减少生成深度并增强语言到控制的对齐。实验在 4 个真机和 4 个仿真平台上表明,其在重建质量、token 利用率、推理速度和任务成功率上均超过已有 VLA。

FALCON: Actively Decoupled Visuomotor Policies for Loco-Manipulation with Foundation-Model-Based Coordination figure
arXiv2025-12-04

FALCON: Actively Decoupled Visuomotor Policies for Loco-Manipulation with Foundation-Model-Based Coordination

四足操作

移动操作多智能体/多机器人四足操作VLA操作

这篇工作针对四足移动操作中单一全身策略难同时兼顾行走稳定性与精细抓取、且易受异构观测干扰的问题,提出把底盘运动与机械臂操作主动解耦为两个扩散策略,再用冻结的视觉语言基础模型生成共享语义表征来恢复协调,并加入基于阶段文本的进度预测与跨子系统对比约束。论文在两类长程移动操作任务上优于集中式和分散式基线,对分布外场景也更稳健;但各模块各自带来的增益在给定材料中未充分说明,判断基于公开摘要/项目页。

Bridging Simulation and Reality: Cross-Domain Transfer with Semantic 2D Gaussian Splatting figure
arXiv2025-12-04

Bridging Simulation and Reality: Cross-Domain Transfer with Semantic 2D Gaussian Splatting

3D 表征

3D 表征泛化

这篇工作针对仿真到现实操作中视觉外观、背景杂波和视角变化带来的域差距,提出把策略输入从原始RGB改成“对象中心、跨域不变”的空间语义特征。核心方法S2GS用多视角2D语义场经特征级Gaussian splatting融合到统一3D空间,并用语义过滤去掉无关背景,再送入Diffusion Policy。文中在ManiSkill2训练并部署到真实机器人后,相比传统视觉输入表现出更强、更稳定的sim-to-real泛化,但摘要未充分说明各模块的独立增益。

ResponsibleRobotBench: Benchmarking Responsible Robot Manipulation using Multi-modal Large Language Models figure
CVPR 20252025-12-03

ResponsibleRobotBench: Benchmarking Responsible Robot Manipulation using Multi-modal Large Language Models

基础操作

基础操作任务规划语言条件操作数据集/Benchmark

这篇工作针对现有机器人操作研究更关注任务完成、却缺少对安全性与“负责任行为”系统评测的问题,提出 ResponsibleRobotBench。其核心创新是构建覆盖电气、火/化学和人相关风险的23个多阶段操作任务,并统一支持技能、位姿、代码等动作表示,配套 success、safety、safe success 等指标与可复现实验框架,用于分析风险识别、安全规划、纠错和必要时求助人类的能力。主要结果是提供了一个可做跨任务、跨风险、跨模型比较的标准基座,但判断基于公开摘要/项目页,具体最强基线与增益来源文中未充分说明。

PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention figure
arXiv2025-12-03

PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention

VLA

VLA语言条件感知机器人学习

该文关注现有VLA在操作中常出现绕路、抖动和动作反复的问题,作者将其归因于模型对整幅图像近乎均匀的感知,难以持续盯住目标区域与末端执行器。为此提出PosA-VLA,用末端位姿条件化的双锚点注意力,把交互时刻的任务相关区域和每步的末端位置投成2D监督,引导视觉特征聚焦关键区域,且不依赖分割或目标定位等额外模块。实验显示其在多种操作基准上成功率更高、轨迹更平滑、步数更少、推理更快,并在干扰物、光照和长时任务下保持较强泛化。

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guided Grasp Semantics, Taxonomy and Functional Affordance figure
arXiv2025-12-03

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guided Grasp Semantics, Taxonomy and Functional Affordance

抓取

抓取灵巧操作Affordance操作综述

面向灵巧手抓取中“能抓稳”但难以按语义、抓型和功能意图可控生成的问题,OmniDexVLG把抓取分类、接触语义与功能可供性统一建模:先用 OmniDexDataGen 合成具抓型、接触和 affordance 标注的多样数据,再用 OmniDexReasoner 结合多智能体、RAG 与 CoT 生成任务语义,最后训练视觉-语言抓取模型按自然语言细粒度生成手型。文中称其在仿真与真实实验中均优于现有方法,尤其提升抓取多样性、语义一致性和功能区域覆盖;但具体增益有多少来自更大数据与更强标注流程,判断基于公开摘要/项目页。

ContactRL: Safe Reinforcement Learning based Motion Planning for Contact based Human Robot Collaboration figure
arXiv2025-12-03

ContactRL: Safe Reinforcement Learning based Motion Planning for Contact based Human Robot Collaboration

灵巧操作

多智能体/多机器人灵巧操作任务规划强化学习触觉人机交互安全操作

面向从人手掌直接取小物体这类“必须接触、但又要安全”的协作场景,本文指出传统安全规划常把接触视为失败,难以处理低接触力与任务效率的权衡。作者提出 ContactRL:训练时将法向接触力直接写入强化学习奖励,部署时再叠加基于动能的 eCBF 安全屏障,把策略学习与安全保证解耦。结果上,仿真任务成功率为 87.7%、安全违规率仅 0.2%,优于约束式 RL 基线;UR3e 真实实验覆盖 12 名参与者、360 次交接,接触力始终低于 10N。

AdaPower: Specializing World Foundation Models for Predictive Manipulation figure
arXiv2025-12-03

AdaPower: Specializing World Foundation Models for Predictive Manipulation

辅助任务

辅助任务VLA世界模型基础模型感知机器人学习操作

这篇工作关注通用世界基础模型在机器人操作中“会生成”却“不够可控”的问题:它们能预测逼真的视觉未来,但难为精细操控提供动作条件下的准确动力学。AdaPower的核心思路不是再造合成数据并重训策略,而是以轻量方式把WFM适配成操作专用世界模型;其中TS-TTT在测试时做时空自监督校正以应对分布偏移,MP用记忆机制缓解长时滚动误差,再与预训练VLA结合进MPC筛选动作。文中称在LIBERO上无需重训策略即可将成功率提升41%以上,同时保持较好的计算效率与泛化。

Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling figure
arXiv2025-12-02

Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling

视频规划

视频规划Diffusion Policy机器人学习操作

这篇工作关注现有基于视频扩散模型的机器人策略大多直接喂入原始特征,却没有显式利用其中跨帧稳定的空间结构与运动一致性。作者先分析VDM潜表示在头部/腕部相机下对前景与运动更稳健,再用Sobel提取前景边界、用FFT提取时序运动,并以“慢速VDM感知系统2+快速DiT动作系统1”的异步双系统驱动控制。在12个RoboTwin仿真任务和6个ALOHA真机任务上,平均成功率分别比先前SOTA高约8.9%和21.7%。

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling figure
arXiv2025-12-02

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling

VLA

VLA泛化机器人学习数据集/Benchmark

本文针对VLA在新视角、光照和背景扰动下性能骤降的问题,提出其瓶颈主要不在高层决策或动作建模,而在视觉编码器的空间表征失配。基于这一洞察,作者设计一次性轻量适配:FTM用约4K参数对视觉token做全局仿射调制,FLA再以低秩方式微调ViT内部线性层,并构建Libero-V评测。结果显示,Libero视角泛化成功率可由48.5%提升到87.1%,FLA达90.8%,以4.7M参数逼近LoRA、参数量约降99倍。

Steering Vision--Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach figure
arXiv2025-12-02

Steering Vision--Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

VLA

VLA机器人学习

论文关注生成式VLA在下游微调后仍对推理噪声极敏感的问题,作者将其归因于预训练与示教数据残留的冗余动作模态导致的分布偏移。为此提出TACO,在测试时对同一观测采样多个动作块,用轻量伪计数CFN验证器选择更贴近成功数据支撑集的动作,以“反探索”方式约束推理而不改模型参数。实验称其在RoboTwin2.0、Robotwin、LIBERO、SimplerEnv及双臂实机上显著提升成功率与稳定性,且延迟可控;但具体分任务增益文中未充分说明。

PerFACT: Motion Policy with LLM-Powered Dataset Synthesis and Fusion Action-Chunking Transformers figure
arXiv2025-12-02

PerFACT: Motion Policy with LLM-Powered Dataset Synthesis and Fusion Action-Chunking Transformers

Transformer Policy

Transformer Policy语言条件机器人学习数据集/Benchmark

这篇工作针对神经运动规划依赖小规模、人工设计工作空间而导致分布外泛化差、且多模态信息常被简单拼接的问题,提出 PerFACT:一方面用 LLM 驱动的 MotionGeneralizer 生成语义可行的多样场景并收集 350 万条轨迹,另一方面用融合式 ACT/瓶颈 Transformer 的 MπNetsFusion 显式建模机器人状态、目标与障碍等模态交互。实验称其相对采样式和现有神经规划器分别快 4.47 倍和 3.2 倍;但增益究竟来自架构还是大规模合成数据,文中未充分说明。

Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols figure
CVPR 20262025-12-02

Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols

任务规划

任务规划多模态推理感知操作

这篇工作针对VLA在真实操作中常因分布外情况失败、而现有失败数据又多来自仿真、难以泛化的问题,提出ViFailback:用可绘制的视觉符号同时完成失败标注与纠错提示,把真实失败视频转成可训练的VQA数据和评测基准,并训练ViFailback-8B生成文字加符号化恢复建议。基于5202条真实轨迹和5.8万条问答,模型在11项失败推理任务上优于多种开源/闭源VLM,接入VLA后真实机器人失败恢复平均提升22.2%;但增益究竟更多来自符号设计还是真实数据规模,文中未充分说明。

TabletopGen: Instance-Level Interactive 3D Tabletop Scene Generation from Text or Single Image figure
arXiv2025-12-01

TabletopGen: Instance-Level Interactive 3D Tabletop Scene Generation from Text or Single Image

3D 表征

3D 表征操作数据集/Benchmark

面向机器人操作所需的高保真、可交互桌面场景,TabletopGen试图解决现有文本/单图3D生成在小物体密集布局、遮挡补全和物理可用性上的不足。其关键做法是按实例分割并补全2D目标、逐物体重建3D,再用两阶段位姿尺度对齐——DRO优化旋转,TSA结合俯视图与常识尺寸先验估计平移和尺度——最终组装成无穿插的仿真场景。实验显示其在视觉质量、布局准确性和物理合理性上优于ACDC、Gen3DSR、MIDI,碰撞率接近为零。

Real-World Reinforcement Learning of Active Perception Behaviors figure
NeurIPS 20252025-12-01

Real-World Reinforcement Learning of Active Perception Behaviors

强化学习

强化学习触觉基础模型感知机器人学习

机器人在部分可观测操作中常需先“找信息”再执行,但纯模仿难以提供自然演示,标准RL在真机上又过于低效。本文提出AAWR:在POMDP下仅于训练期给价值函数/评论家接入目标检测、分割等特权传感器,用其估计优势并对受限观测策略做加权行为克隆,再结合少量次优演示和粗初始化开展离线到在线学习。结果显示,该方法在3台机器人、8个操作任务上稳定学到搜索与交互式感知行为,整体优于既有方法,并能把通用机器人策略适配到严重遮挡场景。

Much Ado About Noising: Dispelling the Myths of Generative Robotic Control figure
ICLR 20262025-12-01

Much Ado About Noising: Dispelling the Myths of Generative Robotic Control

Diffusion Policy

Diffusion Policy机器人学习操作

这篇工作围绕“生成式控制策略为何在机器人模仿学习中常胜过回归策略”这一问题,系统拆解其三类要素:分布学习、噪声注入和带中间监督的迭代计算。作者在28个行为克隆基准上发现,性能优势并不主要来自多峰动作分布建模或更强表达性,而关键在于“适度随机性+受监督迭代”这一组合;据此提出仅两步的最小迭代策略MIP,在状态、图像和点云任务上基本追平flow,并常优于蒸馏式捷径模型。

ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation figure
arXiv2025-12-01

ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation

辅助任务

辅助任务VLA泛化世界模型感知机器人学习操作

这篇工作针对现有VLA在乐高搭建、物体重排等“已知目标态但步骤未知”的长程操作中,难以同时做好高层规划与精细控制的问题,提出统一式ManualVLA:先由规划专家从目标图像生成含子目标图、位置提示和文本说明的多模态“操作手册”,再通过ManualCoT与跨任务共享注意力把显式步骤和隐式表征传给动作专家执行;同时用基于3D Gaussian Splatting的数字孪生自动合成手册数据。实机上其在LEGO与重排任务的平均成功率比分层SOTA高32%。

M3A Policy: Mutable Material Manipulation Augmentation Policy through Photometric Re-rendering figure
arXiv2025-12-01

M3A Policy: Mutable Material Manipulation Augmentation Policy through Photometric Re-rendering

数据采集

数据采集数据增强操作

这篇工作针对机器人操作对材质变化很敏感、而真实示教采集昂贵且仿真材质存在 sim-to-real 偏差的问题,提出 M3A:从少量甚至单条真实示教出发,基于计算摄影与光传输对目标物体做物理一致的材质重渲染,生成跨玻璃、金属等多材质的高逼真示教数据,从而将操作技能与表面外观解耦,并配套构建多材质 M3 基准。实验表明,该方法在三项真实任务上的平均成功率提升 58.03%,对未见材质也表现出零样本泛化能力。

Learning Dexterous Manipulation Skills from Imperfect Simulations figure
ICRA 20262025-12-01

Learning Dexterous Manipulation Skills from Imperfect Simulations

灵巧操作

灵巧操作操作

这篇工作针对灵巧操作中“仿真难以还原螺纹接触与触觉、纯遥操作又难高效采集手部数据”的瓶颈,提出 DexScrew:先在简化物体/关节模型上用强化学习学出可迁移的手指旋转步态,再把该技能作为遥操作原语采集真实触觉与本体感觉示范,最后训练触觉行为克隆策略。结果在拧螺丝和螺母紧固上明显优于直接 sim-to-real,并能泛化到未见几何和外部扰动;具体数值增益摘要未给出。

IGen: Scalable Data Generation for Robot Learning from Open-World Images figure
arXiv2025-12-01

IGen: Scalable Data Generation for Robot Learning from Open-World Images

数据需求量大

数据需求量大数据采集数据生成机器人学习

面向通用机器人策略对大规模示教数据的需求,IGen试图绕开高成本、场景受限的真机采集,把开放世界图片变成可执行的操作数据。其关键做法是先从单张图重建可操作的3D场景与关键点,再用VLM把文本指令规划为SE(3)末端轨迹,并基于点云刚体运动合成时序观测,无需显式仿真器。实验表明,仅用IGen生成数据训练的策略在真实操作上可达到接近真实数据训练的效果,但各模块增益来源文中未充分说明。

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation figure
arXiv2025-12-01

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

灵巧操作

灵巧操作VLA机器人学习操作

这篇工作聚焦一个现实痛点:在穿鞋带这类长时程、毫米级精度、软体交互任务中,人类示教常含犹豫与失误,直接行为克隆会把噪声一并学进去,且离线训练与部署时的平滑/滚动控制存在错配。GR-RL的关键做法是把稀疏奖励下离线RL学到的分布式Q值当作“任务进度”来筛除劣质片段,再结合双臂形态对称增强与在线RL微调噪声预测器。实验中,其鞋带穿多孔成功率从基线GR-3的45.7%依次提升到61.6%、72.7%,最终达到83.3%。

EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI figure
AAAI 20262025-12-01

EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI

Flow Matching

Flow Matching机器人学习

这篇工作针对生成式机器人策略的两类瓶颈:示教数据需求高、在线采样太慢。作者将等变性引入 Flow Matching,并证明在各向同性高斯先验和等变速度场下,动作分布可保持几何等变,从而更好利用环境对称性、提升小样本泛化;同时提出对流轨迹二阶导的加速度正则,并用只依赖条件轨迹的 FABO 代理损失实现可训练近似。实验在 MimicGen 12 个操作任务上显示,有限数据下其成功率可比或更优,推理速度较 EquiDiff 提升 19.9–56.1 倍。

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models figure
arXiv2025-12-01

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

VLA

VLAFlow Matching安全机器人学习

这篇工作针对基于flow matching的VLA在分布偏移和长程多步操作中易失稳的问题,提出DiG-Flow:把观测嵌入与动作嵌入的分布差异(默认用Wasserstein/切片Wasserstein)当作语义对齐信号,用单调门控和轻量残差在flow matching前修正观测表示,而不改动原有流路径或目标向量场。文中给出训练目标下降与推理迭代收敛的理论分析,并在仿真、真实机器人和高自由度任务上以很小开销稳定提升成功率,增益在长时序、少数据和扰动场景下更明显。

DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models figure
arXiv2025-11-31

DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models

辅助任务

辅助任务VLA机器人学习

作者聚焦一个关键问题:CoT 到底能否真正提升 VLA 的操作决策,而不是只增加文本开销与推理时延。文中通过消融提出两条必要条件:推理文本与连续动作必须解码对齐,且推理过程必须经由结果奖励与任务成功形成因果对齐;据此设计了“语言自回归、动作并行”的混合注意力解码器,以及 SFT+RL 两阶段训练。该方法在 LIBERO、LIBERO-Plus 和 RoboTwin 2.0 上分别达到 97.0%、79.0% 和 59.3%,其中 RoboTwin 超过最强基线 21.7 个点,并在真实机器人上验证。

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference figure
arXiv2025-11-30

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

VLA

VLA机器人学习

这篇工作关注VLA落地时“推理等动作、动作等推理”带来的卡顿与慢反应,指出异步推理虽能连续控制,但会因推理延迟造成预测区间与真实执行区间错位。VLASH的关键做法是在推理时用上一段动作将机器人状态前滚到未来执行时刻,让策略对未来状态感知,无需改模型结构或增加运行开销。实验显示,它在真实系统上相对同步推理最高提速2.03倍、反应时延最多降低17.4倍且精度不损失,在仿真中较朴素异步最高提升30.5%,并支持乒乓球和打地鼠等高动态任务。

Transforming Monolithic Foundation Models into Embodied Multi-Agent Architectures for Human-Robot Collaboration figure
arXiv2025-11-30

Transforming Monolithic Foundation Models into Embodied Multi-Agent Architectures for Human-Robot Collaboration

人机交互

多智能体/多机器人人机交互基础模型

论文的动机是,单体式基础模型难以胜任真实服务机器人中的分布式、长时程且多人参与的工作流:VLM偏语义理解,VLA虽能反应式操控,却缺持续记忆、验证反思和主动协作。作者提出 InteractGen,将感知、依赖感知规划、决策与验证、失败反思和人类委派拆成闭环多智能体,并把人视为可动态调度的代理。系统在异构机器人团队上进行了三个月开放部署,报告称任务成功率、适应性和人机协作均有提升;但给定材料未充分说明具体量化幅度及增益究竟主要来自架构还是模型/数据。

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead figure
arXiv2025-11-30

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

VLA

VLA机器人学习

针对小型VLA虽快但空间时序理解弱、而引入3D/4D常依赖大模型或额外分支过重的问题,SwiftVLA用预训练4D几何Transformer加时间缓存从2D视频提取4D线索,并以Fusion Tokens和末端轨迹预测强化2D/4D融合,再通过随机遮挡重建把4D知识蒸馏进轻量VLM,使推理时可去掉4D支路。实验显示其优于轻量基线,并接近最高7倍更大模型;在边缘设备上快18倍、显存降12倍且性能相近。

SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds figure
NeurIPS 20252025-11-30

SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds

数据集/Benchmark

数据集/Benchmark

该工作针对现有模拟器在物理真实性、社会规则建模和对LLM/VLM原生支持上的不足,提出基于Unreal Engine 5 的 SimWorld:一方面用程序化生成与语言驱动场景编辑构建开放、逼真的物理—社会环境,另一方面提供多模态观测、开放词汇动作和高低层动作分解接口,用于长时程智能体训练与评测。文中以多智能体配送任务测试 GPT-4o 等模型,结果主要显示不同模型在协作、竞争和规划上的推理模式与局限差异;摘要未充分说明统一量化增益,判断基于公开摘要/项目页。

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer figure
arXiv2025-11-30

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

人形操作

人形操作Sim2Real操作

论文把“仅靠 RGB 的人形机器人开门”当作高难度全身移动操作基准,针对感知、接触与平衡强耦合下的 sim2real 泛化问题,提出 teacher-student-bootstrap 三阶段框架:先用特权状态教师策略和分阶段重置稳定长时程探索,再用 DAgger 蒸馏到 RGB 学生,并用 GRPO 缓解部分可观测导致的闭环漂移,同时在 IsaacLab 中大规模随机化门体物理与外观。纯仿真训练后,策略可零样本适应多种真实门型,实机成功率 83%,且完成时间比同控制栈下的人类遥操作快 23.1%–31.7%。

MM-ACT: Learn from Multimodal Parallel Generation to Act figure
CVPR 20262025-11-30

MM-ACT: Learn from Multimodal Parallel Generation to Act

辅助任务

辅助任务VLA机器人学习

这篇工作针对现有VLA常见的两难:基于VLM的方法语义理解强但缺少物理动态建模,世界模型又偏预测而弱于任务规划,且混合式/自回归解码还会带来训练复杂或动作推理慢。MM-ACT将文本、图像、动作统一到共享离散token空间,用双向注意力做并行生成,其中文本/图像采用re-mask解码、动作用单步并行解码,并通过共享上下文联合监督子任务规划、未来图像预测和动作学习。实验中在LIBERO、Franka、RoboTwin2.0上分别达到96.3%、72.0%和52.38%,跨模态联合学习带来额外9.25%提升。

CycleManip: Enabling Cyclic Task Manipulation via Effective Historical Perception and Understanding figure
CVPR 20262025-11-30

CycleManip: Enabling Cyclic Task Manipulation via Effective Historical Perception and Understanding

辅助任务

辅助任务VLA感知机器人学习操作

本文关注机器人“做几次再停”的循环操作,如摇瓶、敲钉;这类任务因跨周期观测高度相似,短时窗模仿学习常分不清该继续还是终止,且此前也缺少成体系数据与评测。CycleManip的核心是把“看更久”和“看懂进度”分开处理:对高成本视觉做稀疏历史采样、对低成本本体感觉做密集采样,并加入循环阶段/任务进度辅助预测,在不明显增加开销下强化历史建模。文中还构建了循环操作基准与自动评估,并在仿真和真实机器人上取得更高成功率,且可即插即用到VLA,覆盖夹爪、灵巧手和人形平台。

MILE: A Mechanically Isomorphic Exoskeleton Data Collection System with Fingertip Visuotactile Sensing for Dexterous Manipulation figure
arXiv2025-11-29

MILE: A Mechanically Isomorphic Exoskeleton Data Collection System with Fingertip Visuotactile Sensing for Dexterous Manipulation

灵巧操作

灵巧操作触觉数据采集遥操作操作

这篇工作针对灵巧操作模仿学习缺少高保真示教数据、现有遥操作依赖复杂重定向且缺少指尖触觉的问题,提出从人手、外骨骼到机器人手机械同构的 MILE 系统,用一对一关节映射配合紧凑指尖视觉触觉模块,直接采集 RGB-D、关节与触觉多模态示教数据。实验表明其关节平均角误差为0.41°,遥操作成功率平均提升64%,在接触密集任务中加入触觉后又较纯视觉策略平均提升25%。

World Simulation with Video Foundation Models for Physical AI figure
arXiv2025-11-28

World Simulation with Video Foundation Models for Physical AI

任务规划

任务规划视频规划基础模型

论文面向机器人与自动驾驶中真实世界训练慢、贵且有风险的问题,尝试用视频基础世界模型充当可闭环仿真的安全替身。核心做法是以 flow matching 统一 Text/Image/Video2World,并引入面向 Physical AI 的 VLM 做更细粒度文本 grounding,再结合 2 亿视频数据筛选与 RL 后训练;同时提出用于 Sim2Real/Real2Real 的 Transfer2.5。结果上,相比前代其视频质量、指令对齐和长时程生成更强,Transfer2.5 还在更小模型下提升保真度,但具体量化增益来源文中未充分拆解,可能也受 scaling 与数据影响。

RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video figure
arXiv2025-11-28

RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video

视频规划

视频规划操作数据集/Benchmark

面向机器人在视频中因多形态、背景混淆、关节结构复杂和快速形变而难以稳定分割的问题,RobotSeg在SAM 2上加入结构增强记忆关联、自动机器人提示生成和仅首帧监督的一致性训练,并配套构建含2812段视频、13.8万帧的VRS数据集。论文称其在图像与视频机器人分割上优于现有方法、支持机械臂、夹爪和整机的细粒度分割,但具体增益来源与失效场景判断基于公开摘要/项目页,文中未充分说明。

Obstruction reasoning for robotic grasping figure
arXiv2025-11-28

Obstruction reasoning for robotic grasping

抓取

抓取任务规划多模态推理操作

论文关注杂乱场景抓取中“先移开什么才能拿到目标”这一被现有VLM忽视的问题。作者提出UNOGrasp,将从目标物体出发的遮挡关系建成有向图,并结合遮挡率、接触点等视觉线索,通过SFT加基于可验证奖励的RFT学习多步清障顺序;同时构建含10万余条遮挡路径的UNOBench。实验显示,其在UNOBench上平均精度达78.2%,并在合成、真实场景及实验室机器人测试中整体优于Qwen2.5-VL和Gemini Robotics-ER 1.5,实验室实抓成功率约50%。

LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models figure
arXiv2025-11-28

LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models

VLA

VLALatent Learning机器人学习

论文针对现有潜在动作学习过度依赖视频重建、缺少任务指令与物理先验,导致跨机器人本体迁移差的问题,提出LatBot:以指令和多帧为输入学习通用潜在动作,将其解耦为运动/场景token,并联合预测未来画面与动作序列,再通过蒸馏把这种物理感知的潜在动作注入VLA。结果显示其在SIMPLER、LIBERO及真实Franka平台上优于现有方法,且每个任务仅用10条真实轨迹就完成5项挑战任务,少样本迁移能力突出。

Automated Generation of MDPs Using Logic Programming and LLMs for Robotic Applications figure
RA-L 20252025-11-28

Automated Generation of MDPs Using Logic Programming and LLMs for Robotic Applications

任务规划

任务规划程序化规划语言条件操作应用

面向人机协作中高不确定、却常只以自然语言描述的任务场景,作者试图降低手工构建MDP的门槛,并避免纯LLM规划缺乏可解释性与可靠性的问题。方法上,他们让LLM先把文本转成可检查的Prolog知识库,再经可达性分析自动生成MDP,并用Storm求最优策略导出状态—动作表。三类交互场景实验表明,该流程能以较少人工得到可执行策略,但知识库仍需专家核验,动作概率也未完全自动化。

Visual-Geometry Diffusion Policy: Robust Generalization via Complementarity-Aware Multimodal Fusion figure
arXiv2025-11-27

Visual-Geometry Diffusion Policy: Robust Generalization via Complementarity-Aware Multimodal Fusion

3D 表征

3D 表征Diffusion Policy泛化安全感知机器人学习

这篇工作针对模仿学习策略在光照、视角和工作区变化下易对单一视觉线索过拟合、泛化差的问题,提出 VGDP:用互补性感知融合模块联合 RGB 与点云,并通过“整模态 dropout”强制策略均衡依赖两种模态。文中的关键洞察是,鲁棒性提升主要来自这种互补约束,跨注意力更多只是轻量交互层。在 18 个仿真和 4 个真实任务上,VGDP 相比 7 个基线平均提升 39.1%,在视觉扰动和空间扰动下分别再高 41.5% 与 15.2%。

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations figure
arXiv2025-11-27

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations

模仿学习

数据需求量大模仿学习VLA泛化机器人学习

机器人任务在相同语言指令下仍受相机位姿、光照、抓取角度等物理因素影响,通用LoRA却对所有任务一刀切微调,缺乏针对性。本文提出Robotic Steering,用少量示教先做注意力头归因:以各头激活对动作的k-NN预测能力筛出任务相关头,再只微调这些头对应的查询与MLP。Franka实机结果显示,该法整体匹配或优于全头LoRA,参数量降约96%,且在光照、物体属性和场景变化下更稳健。

Improving Robotic Manipulation Robustness via NICE Scene Surgery figure
arXiv2025-11-27

Improving Robotic Manipulation Robustness via NICE Scene Surgery

数据采集

数据采集数据增强安全操作

这篇工作针对机器人模仿学习在真实环境里容易被视觉干扰物误导、进而影响成功率与安全性的问题,提出 NICE:不改策略结构,而是直接在已有演示图像上用生成式编辑和 LLM 对非目标物做替换、换纹理或移除,尽量保持空间关系与动作标签一致,并且无需额外采集机器人数据或依赖仿真器。结果表明,其增益主要来自数据扩增:拥挤场景下可供性预测准确率提升超20%,操作成功率平均提升11%,目标混淆率下降6%,碰撞率下降7%。

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action figure
arXiv2025-11-27

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

辅助任务

辅助任务VLA泛化机器人学习

本文针对通用VLA在引入推理数据后常出现“动作退化”的问题,认为根因在于冗余、低熵的具身推理会干扰动作学习,且推理与控制缺少差异化监督。为此,DualVLA在数据和损失层面做部分解耦:先用运动学线索与事件变化双层裁剪推理片段,再用动作教师与推理教师对不同数据域做自适应蒸馏,并提出VLA Score细分评测。实验显示其在SimplerEnv平均成功率为61.0,在8个多模态基准上均分65.4,动作执行与多模态理解的平衡更好。

CAPE: Context-Aware Diffusion Policy Via Proximal Mode Expansion for Collision Avoidance figure
arXiv2025-11-27

CAPE: Context-Aware Diffusion Policy Via Proximal Mode Expansion for Collision Avoidance

3D 表征

3D 表征Diffusion Policy机器人学习

该文针对扩散策略做机器人避障时既依赖大规模含障碍示范、又容易在未见障碍上因引导过强或过弱而失效的问题,提出 CAPE:先执行一小段轨迹,再把剩余轨迹重噪声化为“近邻先验”,结合碰撞代价迭代引导去噪,逐步扩展到更安全的轨迹模态,同时保持目标一致性。其关键价值是即便只用无障碍轨迹训练,也能在未见杂乱场景中获得更好泛化;仿真和真实实验成功率相对现有方法最高分别提升 26% 和 80%。

Beyond Success: Refining Elegant Robot Manipulation from Mixed-Quality Data via Just-in-Time Intervention figure
arXiv2025-11-27

Beyond Success: Refining Elegant Robot Manipulation from Mixed-Quality Data via Just-in-Time Intervention

VLA

VLA机器人学习操作

论文关注VLA从混合质量示教中学到“会做但做得不稳、不优雅”的问题,认为关键差异在于释放时机、姿态对齐、避碰等隐式任务约束是否被满足。为此作者提出LIBERO-Elegant基准,并用离线Cal-QL训练独立的Elegance Critic,在推理时通过JITI只在关键决策时刻介入重选动作,无需改动或重训底座策略。结果显示,该方法在LIBERO-Elegant和真实机器人操作中提升了Elegant Success Rate,对未见任务也有一定泛化。

ℰ_0: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion figure
arXiv2025-11-26

ℰ_0: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion

VLA

VLADiffusion Policy泛化语言条件机器人学习

论文认为,现有VLA泛化差且动作不够细稳,不只是模型能力不足,而是动作本身具有多峰性、需适配VLM的离散token推理,并受真实机器人有限控制分辨率约束。为此作者提出E0,将动作量化为token并用Tweedie离散扩散逐步去噪,既避免mask式离散扩散的分布失配,又支持更细粒度、可执行的控制,并结合球面视角扰动提升相机变化鲁棒性。实验在LIBERO、VLABench、ManiSkill和真实Franka上覆盖14个环境,平均领先强基线10.7%。

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models figure
CVPR 20262025-11-26

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

VLA

VLA安全机器人学习

论文聚焦VLA机器人的现实安全风险:现有对抗贴片往往只对单一模型有效,到了黑盒、微调变体和仿真到真实场景就明显失效。作者提出UPA-RFAS,在共享特征空间中学习单个通用物理贴片,结合L1特征偏移与排斥式InfoNCE提升跨模型迁移性,再用“样本级隐形扰动内层最小化、通用贴片外层最大化”的鲁棒优化,以及注意力主导和语义错配两种VLA特定损失来误导策略。实验表明该方法可跨模型、任务、视角和真实执行稳定转移,揭示了VLA机器人的实际物理攻击面。

TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos figure
CVPR 20262025-11-26

TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos

3D 表征

3D 表征视频规划跨本体世界模型感知机器人学习

面向新机器人和新场景只有少量示教时,论文关注如何真正利用大量人类与异构机器人视频,而非继续依赖同平台数据。核心洞察是把跨本体操作统一到场景中心的3D“轨迹空间”,直接预测物体与末端执行器的几何运动,避开像素生成;并用TraceForge把异构视频转成可训练的3D轨迹。基于12.3万视频、180万三元组预训练后,模型仅用5个目标机器人视频就在4项任务上达80%成功率,仅用5个手持手机人类视频也有67.5%,且推理快50–600倍,但增益可能也部分来自大规模数据。

Sampling-Based Optimization with Parallelized Physics Simulator for Bimanual Manipulation figure
arXiv2025-11-26

Sampling-Based Optimization with Parallelized Physics Simulator for Bimanual Manipulation

基础操作

基础操作双臂操作数据集/Benchmark非学习控制

针对双臂操作中端到端学习在新场景和障碍环境下泛化差、接触变化难处理的问题,本文转向基于物理仿真的采样优化:以 GPU 并行 MuJoCo 作为世界模型,在 MPPI 中嵌入二次规划,并结合任务特定代价函数,生成平滑且 jerk 受限的双臂轨迹,从而能依据当前障碍与物体状态在线重规划。实验在更难的 PerAct2 变体上完成带障碍运球、托盘搬运等长时程任务,论文报告在普通 GPU 上可实时运行,并实现了仿真到现实迁移。

MarketGen: A Scalable Simulation Platform with Auto-Generated Embodied Supermarket Environments figure
CVPR 20262025-11-26

MarketGen: A Scalable Simulation Platform with Auto-Generated Embodied Supermarket Environments

数据集/Benchmark

数据集/Benchmark

针对现有具身仿真多停留在家庭或桌面、难覆盖超市这类长时程商业场景的问题,MarketGen提出可扩展的超市场景自动生成平台:用代理规划结合PCG,支持文本与参考图输入,配合1100+商品和100+可参数化设施资产,生成结构化且较真实的门店;同时定义收银台卸货和货架间取货两项基准。结果上,作者展示了模块化代理评测与仿真到真实迁移,但公开材料未充分说明统一量化增益,收益可能主要来自场景与数据规模扩展。

Kinematics-Aware Multi-Policy Reinforcement Learning for Force-Capable Humanoid Loco-Manipulation figure
arXiv2025-11-26

Kinematics-Aware Multi-Policy Reinforcement Learning for Force-Capable Humanoid Loco-Manipulation

人形操作

移动操作人形操作强化学习触觉操作

这篇工作面向工业场景中“既要走、又要稳、还要主动施力”的人形移动操作难题,指出现有方法多偏重灵巧操作或被动抗扰,难处理高载荷下的上下肢耦合。作者提出三阶段解耦强化学习框架:用带运动学先验的启发式奖励训练上肢、用基于目标力的课程学习训练下肢主动施力,并用delta-command补偿行走引起的末端竖直漂移。Unitree G1在仿真和实机中实现了边走边搬4kg物体,以及推拉总载荷112.8kg手推车;但各模块增益拆分文中未充分说明。

From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings figure
arXiv2025-11-26

From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

VLA

VLALatent Learning基础模型感知应用

这篇工作针对工业场景中 VLA 预训练缺少大规模动作标注数据的问题,提出一条全无监督的数据整理链路:先用轻量运动 tokenizer 把视频运动压到潜在动作空间,再以“Latent Action Energy”配合带滞回的在线检测器切分连续视频,输出动作片段及其潜在动作序列。实验表明该方法在公开基准和电机装配数据上能较稳定找出关键工序,后续聚类与 VLM 评估也显示片段具有一定语义一致性;但文中片段未充分给出相对基线的具体数值优势。

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction figure
arXiv2025-11-26

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

任务规划

任务规划视频规划人机交互世界模型

论文关注一个核心问题:主要依赖被动图文训练的VLM,是否真正具备由交互产生的具身认知。ENACT把这一问题转成第一视角交互下的世界建模评测,用POMDP与场景图变化自动生成前向/逆向两类序列重排VQA,避免视频生成评价的干扰,并在BEHAVIOR中构造8972个长时程家庭任务样本。结果显示,当前前沿VLM与人类存在明显差距,且交互步长越长差距越大;模型普遍更擅长由观察反推动作,而不擅长预测动作后的视觉演化,并暴露出右手偏好和人类相机视角偏置。

Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models figure
arXiv2025-11-26

Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models

VLA

VLA安全机器人学习

针对VLA现有攻击依赖端到端训练、补丁显眼且成本高的问题,本文提出ADVLA:在灰盒设定下不直接优化动作输出,而是对视觉编码器投影到文本空间的特征施加扰动,并用注意力引导的梯度加权、Top-K稀疏掩码和关键patch损失三种策略,把扰动集中到敏感区域。结果显示在L∞=4/255下,仅修改不到10%的patch即可把攻击成功率推近100%,单步约0.06秒;但跨模型或真实环境下的稳健性文中未充分说明。

Unifying Perception and Action: A Hybrid-Modality Pipeline with Implicit Visual Chain-of-Thought for Robotic Action Generation figure
arXiv2025-11-25

Unifying Perception and Action: A Hybrid-Modality Pipeline with Implicit Visual Chain-of-Thought for Robotic Action Generation

辅助任务

辅助任务VLA感知机器人学习操作

这篇工作针对现有VLA把未来视觉预测与动作生成分开建模时,常因像素表征与低层控制存在模态鸿沟、且两类目标相互竞争而训练不稳的问题,提出VITA:用共享离散码本对齐视频动态与动作轨迹,让VLM生成的同一串token同时解码为未来帧和动作,把“隐式视觉CoT”内化为运动规划偏置,并在推理时去掉视觉分支以降低时延。实验显示其在CALVIN、LIBERO、SimplerEnv上分别提升14.5%、9.6%、12.1%,六个真实任务平均成功率达80.5%。

ShapeForce: Low-Cost Soft Robotic Wrist for Contact-Rich Manipulation figure
ICRA 20262025-11-25

ShapeForce: Low-Cost Soft Robotic Wrist for Contact-Rich Manipulation

软体机器人

软体机器人触觉接触丰富操作

针对接触丰富操作中六轴力矩传感器昂贵、易损、难普及的问题,论文提出低成本软体手腕 ShapeForce:利用顺应性内核在受力时的形变,由腕部 RGB 相机结合标记位姿跟踪生成六维“类力”信号。其关键洞察是许多操作更依赖接触变化趋势而非精确力值,因此系统无需标定和专用电子学。实验覆盖插接、旋拧、装配、擦拭和迷宫探索,在经典搜索控制与学习策略下都明显优于无接触反馈基线,整体表现接近六轴力矩传感器,但成本和部署门槛显著更低。

Safe and Stable Neural Network Dynamical Systems for Robot Motion Planning figure
arXiv2025-11-25

Safe and Stable Neural Network Dynamical Systems for Robot Motion Planning

任务规划

任务规划安全

这篇工作针对示教学习常只保证收敛、却忽略障碍安全,且在线改写轨迹会偏离示教并增加实时计算负担的问题,提出离线的 S²-NNDS:用神经动力系统同时拟合示教,并联合学习 Lyapunov 稳定证书与 barrier 安全证书,再用 split conformal prediction 给出概率化验证。实验在 LASA 2D/3D 轨迹和 Franka Panda 示教上表明,该方法即使面对含不安全示教,也能学出稳定避障运动,对障碍布局限制更少,性能与 ABC-DS 竞争。

Reinforcing Action Policies by Prophesying figure
arXiv2025-11-25

Reinforcing Action Policies by Prophesying

VLA

VLA机器人学习操作

论文针对VLA主要依赖模仿学习、遇到分布偏移易失效,而真实机器人RL成本高、传统仿真又难迁移的问题,提出将动作到视频的世界模型Prophet作为可few-shot适配的“想象仿真器”,并设计面向flow动作头的FA-GRPO与FlowScale来稳定后训练。实验报告在公开基准上成功率提升5–17%,在真实机器人上提升24–30%;但这些增益中有多少来自算法本身、多少来自31M+异构数据预训练,文中未充分说明。

OVAL-Grasp: Open-Vocabulary Affordance Localization for Task Oriented Grasping figure
ISER 20252025-11-25

OVAL-Grasp: Open-Vocabulary Affordance Localization for Task Oriented Grasping

抓取

抓取Affordance操作

论文针对任务导向抓取中“该抓哪里”常被视觉部件、遮挡和新物体难倒的问题,提出免训练的 OVAL-Grasp:先用 LLM 按任务拆解应抓/应避部件,再由 VLM 做开放词汇部件分割,并将结果转成热力图重排抓取候选。其关键洞察是把语义部件定位与几何抓取解耦。在 Fetch 上对 20 个家居物体、每物 3 个任务实验中,部件识别率达 95%,正确抓到可操作区域 78.3%,遮挡场景部件选择成功率 80%,整体优于 ShapeGrasp 与 GraspGPT,但仍是开环系统,失败后缺乏重识别与重抓取能力。

MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization figure
arXiv2025-11-25

MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization

VLA

VLA泛化机器人学习

这篇工作关注VLA在机器人数据上微调后容易遗忘预训练VLM的视觉与语义先验、导致分布外泛化下降的问题。作者先系统比较不同冻结配置,得到一个经验性洞察:早期视觉模块应更强地贴近预训练权重,而更靠近动作输出的语言层需要更大适应空间;据此提出MAPS,用线性调度按模块逐步放松“接近预训练参数”的约束,不增添额外参数或数据。该方法在MiniVLA、OpenVLA及SimplerEnv、CALVIN、LIBERO和Franka实机上同时提升ID与OOD表现,最高约+30%。

GigaWorld-0: World Models as Data Engine to Empower Embodied AI figure
arXiv2025-11-25

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

辅助任务

辅助任务VLA数据生成世界模型感知机器人学习

该工作针对机器人真实交互数据昂贵、覆盖不足且难以支撑VLA泛化的问题,把世界模型明确定位为“数据引擎”。其核心是联合可控视频生成与3D/物理建模:前者扩展外观、视角和动作语义,后者用3DGS、可微系统辨识与可执行规划约束几何和物理一致性,并以FP8稀疏训练提升规模化生成效率。结果显示,基于其合成数据训练的VLA无需真实训练交互也能提升实体机器人任务成功率与泛化,但具体增益拆解文中未充分说明,可能主要来自scaling/data。

Gated Uncertainty-Aware Runtime Dual Invariants for Neural Signal-Controlled Robotics figure
NeurIPS 20252025-11-25

Gated Uncertainty-Aware Runtime Dual Invariants for Neural Signal-Controlled Robotics

安全

安全操作

论文关注脑电直接驱动辅助机器人时,解码器在噪声、漂移和置信度失准下易把错误意图转成危险动作的问题。其核心是GUARDIAN:把校准后的意图分布、熵/伪迹/振荡三类生理不变量,与PDDL目标落地和可达性、状态转移等逻辑不变量结合,在运行时以保守门控拦截执行。实验在BNCI2014上即使解码准确率仅27–46%,仍取得94–97%安全率、约1.7倍更有效干预和亚毫秒延迟;但结果主要基于离线数据与模拟噪声,真实闭环用户体验文中未充分说明。

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy figure
NeurIPS 20252025-11-25

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy

数据采集

数据采集数据筛选

论文的动机是现有扩散/流式机器人策略在每个控制周期都使用固定推理预算,导致简单子任务算力浪费、精细操作又可能算得不够。作者以随机插值统一扩散与流策略,并借助人工标注难度数据训练 CNN/VLM 分类器,按当前观测动态选择积分步数、求解器和 ODE/SDE 模式;其关键洞察是不同任务乃至不同阶段的最优计算配置并不一致,步数更多也未必更好。仿真结果显示,该方法在多种操作任务上可将总计算时间降低 2.6–4.4 倍,同时基本保持与固定最大计算基线相当的成功率。

ACE-F: A Cross Embodiment Foldable System with Force Feedback for Dexterous Teleoperation figure
arXiv2025-11-25

ACE-F: A Cross Embodiment Foldable System with Force Feedback for Dexterous Teleoperation

灵巧操作

灵巧操作触觉数据采集跨本体遥操作

这篇工作面向遥操作数据采集中的三大瓶颈:现有系统往往缺少力反馈、难以跨本体迁移、且硬件笨重不便部署。ACE-F的关键思路是用可折叠3自由度主手臂负责位置、IMU/手套负责姿态,再结合增强IK与PD+逆动力学软控制,实现对不同机器人末端的统一重定向;更有意思的是,它不依赖额外力传感器,而把从臂末端“目标-实际”位置偏差解释为虚拟力反馈。文中实验声称该系统在仿真与真实多平台上都更易上手,并在接触丰富任务中优于无力反馈方案,但提供片段未充分说明具体量化增益。

SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control figure
arXiv2025-11-24

SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control

人形操作

移动操作人形操作操作

这项工作针对现有人形语言控制依赖遥操作或“文本到动作再到控制”的模块化链路、语义与物理执行容易脱节的问题,提出SENTINEL:直接将语言指令和本体感觉映射为低层全身动作,不经过中间动作表征;训练上先用仿真WBC跟踪人类动作构建语言—动作数据,再用flow matching生成动作块,并以残差强化学习抑制开环漂移、提升真机适配。实验显示其在仿真和真实人形上都能稳定完成移动与复杂全身动作,零样本sim-to-real和语义对齐优于基线;不过增益中模型设计与数据规模各自贡献,文中未充分说明。

Robot-Powered Data Flywheels: Deploying Robots in the Wild for Continual Data Collection and Foundation Model Adaptation figure
arXiv2025-11-24

Robot-Powered Data Flywheels: Deploying Robots in the Wild for Continual Data Collection and Foundation Model Adaptation

数据需求量大

数据需求量大数据采集数据生成基础模型

现有基础模型受限于互联网预训练数据,在遮挡、低清晰度和多语文本等“最后一公里”真实场景中往往失效。本文提出“机器人驱动数据飞轮”,把机器人从模型使用者变成数据生产者:让移动操作机器人在东亚图书馆执行盘点,并利用馆藏目录自动标注采集到的货架图像,再回流微调VLM。两周部署扫描2103个书架后,图书识别准确率由32.0%升至71.8%,英语/中文OCR由24.8%/30.8%升至46.6%/38.0%,并节省约18.7小时人工。

Rethinking Intermediate Representation for VLM-based Robot Manipulation figure
arXiv2025-11-24

Rethinking Intermediate Representation for VLM-based Robot Manipulation

任务规划

任务规划多模态推理Affordance语言条件操作

本文针对VLM机器人操作中间表示的核心矛盾:高层技能词易被模型理解却难扩展到新任务,底层几何/约束表示更泛化却难以稳定生成,提出受上下文无关文法启发的SEAM,将表示拆成语义操作词表与可组合语法,并配合RAG式少样本开放词汇分割来定位可操作部件。作者还提出“动作泛化性”和“VLM可理解性”两项评测;在8个真实任务中,SEAM平均成功率较OmniManip提升约15个百分点,分割推理速度也更快。

Mixture of Horizons in Action Chunking figure
arXiv2025-11-24

Mixture of Horizons in Action Chunking

Transformer Policy

Transformer Policy机器人学习

论文关注VLA/ACT类策略中动作块长度(horizon)难以统一设定的问题:长horizon利于长程规划,却损伤细粒度控制;短horizon则相反。为此作者提出MoH,将同一动作块按多种horizon重排后共享Transformer并行预测,再用轻量门控融合,并在推理时用跨horizon一致性自适应截断可执行动作。实验表明,该方法在π0、π0.5和πreg上均带来稳定增益,π0.5在LIBERO混合任务仅30k迭代即达99%平均成功率,动态推理还在保持优势性能下将吞吐提升到基线的2.5倍。

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent figure
CVPR 20262025-11-24

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

VLA

VLA基础模型机器人学习

论文针对VLA专家在多技能合并时几乎失效的问题,指出根因不只在合并算法,而在于任务微调后VLM中的LoRA方向严重分化,以及动作专家因自注意力形成跨层任务耦合,难以模块化重组。为此,MergeVLA用任务掩码实现稀疏LoRA激活,并将动作专家改为仅交叉注意力,再配合测试时任务路由选择对应掩码和专家头。在LIBERO、LIBERO-Plus、RoboTwin和SO101实机上,混合任务成功率分别达90.2%、62.5%、70.7%和90.0%,接近或超过单任务专家。

Learning Massively Multitask World Models for Continuous Control figure
arXiv2025-11-24

Learning Massively Multitask World Models for Continuous Control

世界模型

世界模型机器人学习

这篇工作针对连续控制中“在线RL难以扩展到通用多任务”的疑问,提出200任务、10领域的MMBench,并在TD-MPC2上发展出语言条件世界模型Newt:先用演示做模型化预训练,再跨任务联合在线优化,并加入动作监督与更快训练流水线。结果显示,Newt在200任务平均性能和数据效率上优于PPO、FastTD3等强基线,还表现出较强开环控制与对未见任务的快速微调能力;但在Atari、Box2D等域提升有限,部分增益也可能来自更大规模数据与预训练。

Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories figure
arXiv2025-11-24

Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories

VLA

VLA触觉基础模型机器人学习

这篇工作关注VLA预训练数据难以靠人类遥操作规模化获取,且标准RL虽能自动采集数据,却常塌缩到单一执行套路,难以支撑泛化。作者提出三阶段DLR:先从人类演示中发现潜在行为模式,再学习模式条件策略,并在稀疏成功奖励下分别强化各模式,以保持多策略共存。LIBERO上,DLR生成的轨迹覆盖更广、同任务能学出多种高成功解;用这些数据预训练的VLA在未见下游任务上优于同规模常规RL数据,并表现出更好的随数据量扩展趋势。

Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation figure
arXiv2025-11-24

Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation

VLA

VLA数据筛选感知机器人学习操作

该工作针对VLA在机器人操作中因视觉token冗余带来的高延迟问题,指出传统剪枝缺少任务感知,容易丢掉与指令相关的关键目标与细节。作者提出由语言指令调制的双路径压缩器:STC提炼全局任务语义,SRC保留局部空间拓扑,用“重构紧凑token”替代硬剪枝。在LIBERO上,方法以97.3%的竞争性成功率将FLOPs降低59%、视觉token压缩到3倍以上,并在双臂实机上验证了仿真到现实迁移能力。

AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention figure
CVPR 20262025-11-24

AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention

VLA

VLA感知机器人学习

这篇工作指出,主流VLA把每帧独立处理,等于默认机器人操控满足MDP,但真实操作常受遮挡、内部状态不可见等部分可观测性影响,必须利用历史。作者据此将VLA改写为POMDP视角,用循环状态近似任务历史上的belief,并提出AVA模块按“指令+执行历史”动态重加权当前视觉token,让模型主动关注更关键区域。文中称其在LIBERO、CALVIN上达到SOTA,并可迁移到真实双臂操作;但具体增益拆解与是否部分来自模型/数据规模,基于公开摘要判断仍未充分说明。

Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video figure
arXiv2025-11-23

Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video

软体机器人

软体机器人视频规划感知操作数据集/Benchmark

这篇工作针对软体连续体机器人从视频学习动力学时“易训练但难解释”的矛盾,提出可插拔的ABCD解码器,把每个潜变量精确对应到图像区域并过滤静态背景;再与二维潜在振子网络结合成VON,把质量、耦合刚度和驱动力等机械量直接叠加到图像上,得到无需先验建模的低维可解释动力学。实验在单段和双段机器人视频上表明,ABCD显著提升多步预测精度,双段场景中Koopman与振子模型误差分别降低5.8倍和3.5倍,且VON还能自动发现链式振子结构,显示出面向后续控制的潜力。

RoboArmGS: High-Quality Robotic Arm Splatting via Bézier Curve Refinement figure
arXiv2025-11-22

RoboArmGS: High-Quality Robotic Arm Splatting via Bézier Curve Refinement

任务规划

任务规划3D 表征操作

这篇工作关注从单目视频构建可控、逼真的机械臂数字资产时,理想URDF运动与真实执行存在偏差,导致3DGS绑定后出现漂浮和纹理错位。作者将高斯结构化绑定到机器人网格面片上,再用可学习贝塞尔曲线细化每个关节的运动残差,把前向运动学先验与真实观测对齐。结合新建的RoboArm4D数据集,RoboArmGS在新视角与新位姿合成上优于通用4D重建和纯FK基线,但文中摘要片段未给出具体数值增益。

Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting figure
ICRA 20262025-11-22

Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting

任务规划

任务规划3D 表征模仿学习

针对静态或腕部相机在遮挡、夹爪自遮挡和视角变化下易偏离训练分布的问题,本文提出 Observer Actor:在双臂系统中动态决定“观察者—执行者”角色,由观察臂仅凭稀疏三视图重建测试时 3DGS,并在虚拟空间搜索更接近示范且遮挡更小的相机位姿,再让执行臂按该视图做模仿学习。作者将其接到轨迹迁移与行为克隆上,较静态相机基线成功率分别提升 145%/233% 与 75%/143%(无/有遮挡),说明主动选视角比固定观测更关键。

L1 Sample Flow for Efficient Visuomotor Learning figure
arXiv2025-11-22

L1 Sample Flow for Efficient Visuomotor Learning

Flow Matching

Flow Matching机器人学习

论文关注扩散/flow matching虽能建模多峰动作分布但训练、推理慢,而直接L1回归虽快却易模式塌缩。作者将v-prediction flow matching改写为sample-prediction,并提出两步式L1 Flow:先用一次ODE积分从噪声得到粗动作以保留多模态,再用一次L1预测重建精确动作,把神经函数评估降到2次。结果显示其在MimicGen、RoboMimic、PushT及一项真实任务上兼顾训练效率、推理速度和总体性能,真实部署推理约快10–70倍;但增益究竟更多来自建模改写还是具体实现,文中片段未充分说明。

EchoVLA: Robotic Vision-Language-Action Model with Synergistic Declarative Memory for Mobile Manipulation figure
arXiv2025-11-22

EchoVLA: Robotic Vision-Language-Action Model with Synergistic Declarative Memory for Mobile Manipulation

移动操作

移动操作VLA操作

这篇工作针对现有VLA多依赖当前观测、难以在移动操作中同时维护空间上下文与任务进度的问题,提出EchoVLA:将体素化场景记忆与时间索引的情节记忆分开存取,并以粗细粒度注意力融合后驱动底盘/机械臂扩散策略;另用MoMani自动生成训练轨迹。仿真中其两类任务成功率达0.52和0.31,较π0.5提升0.20和0.11,真实7×7米场地达0.44,但架构与数据各自贡献文中未充分说明。

Continually Evolving Skill Knowledge in Vision Language Action Model figure
arXiv2025-11-22

Continually Evolving Skill Knowledge in Vision Language Action Model

VLA

VLA泛化机器人学习

这篇工作关注VLA在持续模仿学习中常见的遗忘与扩展成本:现有方法常靠加适配器、外部模块或较大回放,难以扩到大模型。作者提出不增参数的Stellar VLA,用狄利克雷过程构造可自演化的任务/技能知识空间,并以知识关系和Top-K语义嵌入引导MoE专家路由,在共享与专精间平衡。LIBERO和双臂真实机器人实验表明,它在仅1%数据回放下优于多种VLA/CIL基线,TS-Stellar对层级操作尤其有效。

ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models figure
arXiv2025-11-22

ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对VLA在机器人部署中算力和时延过高、现有效率方法又常忽视“视觉语言表征逐层转成动作”这一过程的问题,提出ActDistill:用图结构封装教师模型的分层动作演化,再训练带动态路由的轻量学生按动作需求选择关键层,推理时仅执行被选中的层。实验称其在具身基准上可保持或超过原模型性能,同时把计算量降低50%以上、最高加速1.67倍;但摘要未充分拆解增益究竟来自蒸馏、路由还是教师规模。

VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation figure
arXiv2025-11-21

VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

3D 表征

3D 表征VLA机器人学习操作

这篇工作针对现有2D/3D VLA虽能提升空间精度、却仍常出现停顿、抖动和时序不连贯的问题,提出把“时间”显式并入机器人操作建模:一方面将3D位置与1D时间组成4D视觉表示,并通过交叉注意力注入视频特征;另一方面在动作中加入Δt等时序变量,让LLM做时空联合规划。文中在LIBERO及零样本任务上报告4D模型整体优于2D/3D基线,成功率更高、完成时间更短,且轨迹更平滑稳定。

Stable Offline Hand-Eye Calibration for any Robot with Just One Mark figure
arXiv2025-11-21

Stable Offline Hand-Eye Calibration for any Robot with Just One Mark

任务规划

任务规划3D 表征

这项工作面向跨机器人学习中“同一动作在不同平台语义不一致”的问题,指出关节角、末端位姿和增量动作都受本体坐标系与夹爪定义影响,核心做法是用相机外参把异构动作统一到相机坐标系下的标准化 TCP 位姿,并提出无需训练、与机器人无关的离线标注流程 CalibAll:先用末端单标记点的时序 PnP 做稳健初始化,再用可微渲染精修外参。作者在 4 类机器人、16 个数据集上生成约 9.7 万段标定数据,仿真与真机预训练均优于基线;但判断主要基于公开摘要与片段,题目与正文内容略有不一致。

SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding figure
arXiv2025-11-21

SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding

3D 表征

3D 表征模仿学习VLA机器人学习

论文指出现有机器人基础模型大多建立在只擅长2D理解的VLM上,缺少操作所需的3D空间推理,因此不得不依赖昂贵的大规模机器人示范去隐式学习几何。SPEAR-1的核心思路是先用带3D标注的非机器人2D图像训练SPEAR-VLM,让模型能从单张图像预测物体3D坐标与3D框,再接入动作专家学习控制。结果上,它在24个Open X-Embodiment数据集约4500万帧上训练后,在Franka和WidowX的零样本新环境评测中优于π0-FAST、接近或匹配π0.5,同时所需机器人示范数据约少20倍。

SM2ITH: Safe Mobile Manipulation with Interactive Human Prediction via Task-Hierarchical Bilevel Model Predictive Control figure
arXiv2025-11-21

SM2ITH: Safe Mobile Manipulation with Interactive Human Prediction via Task-Hierarchical Bilevel Model Predictive Control

安全

移动操作安全操作

面向人机共享空间中的移动操作,作者指出现有分层MPC多假设静态环境,而开环人体预测又易保守甚至停滞。SM2ITH将严格任务优先级的HTMPC与双层交互式人体预测结合,把人类对机器人动作的ORCA响应嵌入控制,并用控制障碍函数约束接近危险状态的速度,从而统一处理底盘导航、机械臂操作与避人安全。两台平台上的多组实验表明,它比加权和控制及开环/纯反应式预测更能兼顾任务完成效率、路径质量和人际安全距离,在高人流和对抗行为下也更稳健。

RynnVLA-002: A Unified Vision-Language-Action and World Model figure
arXiv2025-11-21

RynnVLA-002: A Unified Vision-Language-Action and World Model

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作针对传统VLA只会“出动作”却不显式建模动作动力学、也缺少对未来和物理的想象,而世界模型又难直接产出控制的问题,提出统一的RynnVLA-002:在同一LLM中联合图像、文本与动作建模,让世界模型预测未来视觉、VLA负责动作生成,并用动作注意力掩码缓解离散动作自回归误差,再加连续Action Transformer头提升泛化与速度。结果上,模型在LIBERO无预训练达到97.4%成功率,实机LeRobot中引入世界模型后总体成功率提升50%。

METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model figure
arXiv2025-11-21

METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model

灵巧操作

灵巧操作视频规划VLA操作

论文针对灵巧操作中动作标注数据稀缺、遥操作采集昂贵,以及人类视频与机器人在视觉外观和动作空间上存在鸿沟的问题,提出 METIS:先构建统一动作空间的多源第一视角数据集 EgoAtlas,再以离散化的 motion-aware dynamics 提炼手部运动监督,并把语言推理与动作生成放入同一 VLA 框架。实机六项任务中其平均成功率最高,对未见背景、物体、光照、杂乱环境和新构型也更稳;从论文描述看,增益主要来自多源预训练数据与运动表征设计的结合。

H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation figure
AAAI 20262025-11-21

H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation

VLA

VLA人机交互语言条件机器人学习操作

该工作针对统一视频-动作预测在机器人操作中常见的“无目标约束、观测与动作耦合松散”问题,提出分层框架 H-GAR:先预测目标观测与粗粒度动作路径,再由 GOS 合成目标对齐的中间观测、由带历史动作记忆的 IAAR 将粗动作细化为时序一致的控制。其核心洞察是让“未来会看到什么”和“接下来怎么做”在同一目标锚点下循环校正。论文称其在仿真与真实机器人任务上均达到 SOTA,但给定材料未展示具体指标,增益来源是否部分来自数据或规模扩展仍文中未充分说明。

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models figure
arXiv2025-11-20

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models

VLA

VLA安全机器人学习

面向机器人VLA在真实部署中可能遭遇的提示操控、视觉扰动与跨模态错配,论文提出统一评测/攻击框架VLA-Fool,在白盒和黑盒下联合施加文本、图像及语义对齐破坏,并把GCG扩展到面向VLA的语义空间以自动生成更具误导性的提示。基于LIBERO上微调OpenVLA的实验显示,细微扰动即可显著偏转动作,各类设置失败率普遍超过60%,长程任务最高达100%,说明当前VLA的多模态对齐相当脆弱。

VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference figure
arXiv2025-11-20

VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference

VLA

VLA感知机器人学习

该文关注VLA部署时连续视觉流带来的高推理开销,指出直接套用VLM的语义型token pruning会偏向保留语义线索、丢掉动作生成所需细节,因为VLA同时包含“语义理解+低层执行”两套需求。为此作者提出免训练、可插拔的VLA-Pruner,用prefill注意力衡量语义重要性,并用时间平滑估计decode注意力来刻画动作重要性,再以“并集保留+去冗余”选择token。实验显示其在多种VLA和任务上优于现有剪枝/缓存方法,最高约1.99×加速且操控性能基本不降,在高剪枝率下仍较稳健。

The Role of Consequential and Functional Sound in Human-Robot Interaction: Toward Audio Augmented Reality Interfaces figure
arXiv2025-11-20

The Role of Consequential and Functional Sound in Human-Robot Interaction: Toward Audio Augmented Reality Interfaces

Affordance

多智能体/多机器人Affordance音频数据增强人机交互

针对机器人操作噪声与设计性声音在共址人机协作中研究不足,尤其音频AR如何兼顾信息传达与社会接受性,本文以Kinova Gen3开展三阶段线下混合方法实验:复核操作噪声的感知影响、测量工作空间内空间音频定位能力,并在交接任务中比较自然声、功能声与AAR提示。结果表明,该机械臂的操作噪声并未显著拉低用户评价;侧向空间音频易定位而正前方较难;AAR提示既能传达任务信息,也能提升机器人温暖感并降低不适。

Safe and Optimal Variable Impedance Control via Certified Reinforcement Learning figure
arXiv2025-11-20

Safe and Optimal Variable Impedance Control via Certified Reinforcement Learning

强化学习

强化学习触觉安全

针对用强化学习同时学习DMP轨迹与可变阻抗时,时变刚度/阻尼易引发不稳定和不安全探索的问题,论文提出C-GMS:把策略搜索限制在满足Lyapunov稳定条件和执行器约束的“认证流形”上,用松弛变量与Cholesky参数化直接生成稳定增益日程,因此无需奖励惩罚或事后安全过滤。仿真与实机结果表明,它在经由via-point的任务中比无约束PI2更平滑、碰撞风险更低,并在有界建模误差下仍保证跟踪误差有界;但文中也说明其稳定性分析目前主要适用于自由空间。

Pelican-VL 1.0: Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization figure
arXiv2025-11-20

Pelican-VL 1.0: Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization

人形操作

人形操作任务规划多模态推理语言条件

论文针对具身智能受限于真实数据稀缺、离线模仿学习数据效率低且缺乏持续自我改进机制,提出DPPO“刻意练习”训练框架:在RL中用难度感知采样和停滞判据暴露弱点,再由教师模型生成针对性解答,进入SFT做弱项强化,并将两者统一到偏好学习视角。基于Qwen2.5-VL训练的Pelican-VL 1.0 72B较基座提升20.3%,较开源100B级模型高10.6%;但教师模型与数据规模各自贡献占比文中未充分说明。

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight figure
arXiv2025-11-20

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

辅助任务

辅助任务VLA世界模型感知机器人学习

该工作针对VLA仅靠稀疏动作监督、直接预测高维未来视觉又训练昂贵且会挤占语言理解能力的问题,提出 Mantis:将视觉前瞻从主干解耦,用 meta queries 与 DiT 头在当前视觉残差条件下做下一状态预测,使查询隐式学到“潜在动作”来辅助显式控制。结果上,模型在 LIBERO 微调后达到 96.7% 成功率且收敛更快,真实机器人上在指令跟随、未见指令泛化和推理上优于 π0.5,ATE 还可将推理次数降约 50%。

MagBotSim: Physics-Based Simulation and Reinforcement Learning Environments for Magnetic Robotics figure
arXiv2025-11-20

MagBotSim: Physics-Based Simulation and Reinforcement Learning Environments for Magnetic Robotics

强化学习

强化学习触觉操作数据集/Benchmark

面向磁悬浮产线研究长期偏重运输、缺少可支持操控算法与强化学习开发的通用物理仿真这一缺口,论文将 MagLev 系统抽象为多机器人群体,提出 MagBotSim,提供基于物理的轨迹规划与物体操控环境、Gymnasium/PettingZoo 接口及配套基准。结果表明,仿真中训练的策略可无需额外训练或校准迁移到真实系统,且在笔记本上可扩展到约 1000 个 mover;但各基准上的量化优势与增益来源文中未充分说明。

LAOF: Robust Latent Action Learning with Optical Flow Constraints figure
CVPR 20262025-11-20

LAOF: Robust Latent Action Learning with Optical Flow Constraints

Latent Learning

Latent Learning安全感知机器人学习

这篇工作针对大规模视频中的潜在动作学习容易被背景运动、无关物体变化等干扰误导,而真实动作标签又极其稀缺的问题,引入由预训练光流模型生成的伪标签,把“潜在动作→光流”的专用解码约束直接加到表示学习中,用像素级运动信号把潜在动作锚定到物理运动而非外观变化。结果表明,该约束显著提升训练稳定性与下游效果,在LIBERO模仿学习和PROCGEN强化学习上优于LAPO/LAOM;即使无动作监督,也可匹敌或超过使用1%动作标签的监督方法,并在标签比例增至10%时仍有收益。

InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy figure
arXiv2025-11-20

InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy

数据采集

数据采集数据生成基础模型操作

这篇工作针对真实机器人预训练数据昂贵且封闭、社区难以系统研究 VLA 数据规律的问题,提出高保真合成数据集 InternData-A1 和全自动、解耦、可组合的仿真生成流水线,把多机型、多场景、多技能及刚体、关节体、可变形、流体操作统一到长程任务中。核心洞察是,当仿真在规模、任务覆盖以及物理/视觉保真度上同时提升时,纯合成数据也能支撑通用策略预训练。用与 π0 相同架构训练后,模型在 49 个仿真、5 个真实和 4 个长程灵巧任务上接近官方 π0,并优于部分开源数据集,且部分任务零样本 sim-to-real 成功率超过 50%。

FT-NCFM: An Influence-Aware Data Distillation Framework for Efficient VLA Models figure
AAAI 20262025-11-20

FT-NCFM: An Influence-Aware Data Distillation Framework for Efficient VLA Models

VLA

VLA数据采集数据筛选

这篇工作针对VLA训练过度依赖海量、冗余且价值不均数据的问题,转向数据层优化而非压缩模型:先用FT引擎结合影响函数因果归因与仿真器中的“最小反例”对比验证,为样本估值,再用NCFM按权重生成模型无关、可复用的高信息密度coreset。实验显示,仅用5%蒸馏数据即可达到全量训练85%—90%的成功率,同时将训练时间降低80%以上。

EvoVLA: Self-Evolving Vision-Language-Action Model figure
arXiv2025-11-20

EvoVLA: Self-Evolving Vision-Language-Action Model

VLA

VLA泛化机器人学习

EvoVLA针对长时序机器人操作中常见的“阶段幻觉”:策略借助粗糙进度信号看似推进任务,却未真正完成。其核心是把自监督强化学习做成“阶段对齐”的稠密反馈:用SAR抑制视觉捷径,用基于夹爪-物体相对位姿的POE替代像素新奇度,并配合长程记忆稳定多阶段决策。在Discoverse-L上,平均成功率达69.2%,较OpenVLA-OFT提升10.2个百分点,样本效率提升1.5倍,幻觉率从38.5%降至14.8%,真实机器人上也达到54.6%。

DynaMimicGen: A Data Generation Framework for Robot Learning of Dynamic Tasks figure
arXiv2025-11-20

DynaMimicGen: A Data Generation Framework for Robot Learning of Dynamic Tasks

数据采集

数据采集数据生成机器人学习操作

这篇工作针对动态操作任务中人工示范采集昂贵、而现有 MimicGen 类数据增强多默认场景静态的问题,提出 DynaMimicGen:在只需极少、甚至单条人类示范的前提下,先把轨迹切成物体中心子任务,再用 DMP 在绝对笛卡尔空间生成平滑且任务一致、并能随物体位姿、机器人状态和场景几何在线调整的轨迹。实验表明,用其合成数据训练的模仿学习策略在堆叠方块、把杯子放入抽屉等长时程接触任务上、面对动态扰动时优于基线;但增益究竟更多来自在线适配还是更大合成数据规模,文中未充分拆解。

Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations figure
arXiv2025-11-20

Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations

模仿学习

模仿学习数据采集遥操作操作

论文针对灵巧手学习长期受制于人机形态差异、野外视频缺少可靠3D操作线索的问题,提出AINA:用Aria Gen 2眼镜在自然环境采集第一视角演示,并把手部关键点、立体深度和物体点云统一到3D点式表示中训练闭环策略。方法无需机器人数据、在线修正、强化学习或仿真,只需在部署场景额外录制一次人类演示,即可在9个日常任务上直接部署,并优于既有人到机学习方法,平均采集成本约15分钟。

Bi-AQUA: Bilateral Control-Based Imitation Learning for Underwater Robot Arms via Lighting-Aware Action Chunking with Transformers figure
arXiv2025-11-20

Bi-AQUA: Bilateral Control-Based Imitation Learning for Underwater Robot Arms via Lighting-Aware Action Chunking with Transformers

水下操作

水下操作模仿学习Transformer Policy操作

论文针对水下光照频繁变化、散射和色衰导致视觉策略易漂移,而现有模仿学习又缺少力反馈或显式光照建模的问题,提出 Bi-AQUA:在双边控制式 Bi-ACT 上加入面向光照的 Transformer 动作分块,用无标注 Lighting Encoder、FiLM 调制和 lighting token 同时适配感知与动作生成。实机水下抓放、关抽屉和拔销实验中,它在已见、未见及动态光照下均优于不建模光照的双边基线;但各模块增益来源判断基于公开摘要/节选,文中未充分说明。

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation figure
arXiv2025-11-19

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

人形操作

移动操作人形操作Sim2Real感知操作

论文针对人形机器人缺少基于机载感知的自主长时程移动操作能力,提出 VIRAL:先用特权状态的 RL 教师在预训练 WBC 之上学习步行、放置、抓取等,再把策略蒸馏为仅依赖 RGB 与本体感觉的学生。其关键洞察是,想让视觉 sim2real 真正可用,除了 delta 动作、示范初始化外,更重要的是把训练与渲染扩展到数十张 GPU,并结合大规模视觉随机化和手部/相机真机对齐。最终策略在 Unitree G1 上无需真实微调即可零样本部署,连续完成 54 轮移动操作,并在场景与空间变化下保持接近专家遥操作的表现。

UltraDP: Generalizable Carotid Ultrasound Scanning with Force-Aware Diffusion Policy figure
IROS 20252025-11-19

UltraDP: Generalizable Carotid Ultrasound Scanning with Force-Aware Diffusion Policy

触觉

触觉音频Diffusion Policy泛化应用

这篇工作面向颈动脉超声机器人在不同体型与解剖差异、以及人机接触约束下难以泛化的问题,提出UltraDP:用扩散策略融合超声图、腕部相机、接触力/力矩和探头位姿,并加入“动脉居中”引导模块与混合力—阻抗控制,把多模态决策和安全接触一起纳入。作者还构建了21名志愿者、210次扫描、46万样本的数据集;在未见受试者横断面扫描上成功率达95%,且优于规则法和行为克隆,但增益有多少来自方法设计、多少来自数据规模,文中未充分拆分。

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models figure
arXiv2025-11-19

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对VLA在机器人操作中对专家演示依赖重、且RL阶段只有成败二值奖励、失败轨迹被浪费的问题,提出SRPO:把同一批次里模型自己生成的成功轨迹当作“自参照”,再用世界模型的潜在表示度量行为进度,为失败尝试分配过程式奖励,从而不再依赖额外演示或手工奖励。文中报告在LIBERO上仅200个RL step就把成功率从48.9%提到99.2%,相对提升103%,在LIBERO-Plus上鲁棒性提升167%;但判断基于公开摘要/项目页,增益来源的细粒度消融未充分说明。

I've Changed My Mind: Robots Adapting to Changing Human Goals during Collaboration figure
RA-L 20252025-11-19

I've Changed My Mind: Robots Adapting to Changing Human Goals during Collaboration

人机交互

多智能体/多机器人人机交互

论文关注协作中人类会临时改主意、且不同目标常共享前序动作,导致把目标识别当一次性推断的机器人难以及时调整。其关键做法是同时维护多条候选动作历史,用策略库检验何时发生目标切换,再重估哪些过去动作仍然相关,并用滚动时域规划选择既能帮忙、又能诱发“区分性动作”的机器人行为,从而在无显式沟通下更快澄清新目标。在最多30种菜谱的协作烹饪仿真与实机实验中,该方法比递归贝叶斯、CDP和信息增益基线更快重新锁定切换后的目标,并缩短任务完成时间、提升协作效率。

Eq.Bot: Enhance Robotic Manipulation Learning via Group Equivariant Canonicalization figure
arXiv2025-11-19

Eq.Bot: Enhance Robotic Manipulation Learning via Group Equivariant Canonicalization

泛化

泛化操作

这篇工作针对机器人操作模型在视角变化、平移旋转下几何一致性差、往往依赖改骨干网络才能引入等变性的瓶颈,提出与模型解耦的 Eq.Bot:先用基于 SE(2) 群论的规范化模块把观测映射到“标准姿态”,再调用原策略预测,并将动作变回原坐标系,从而不给 CLIPort、OpenVLA-OFT 改结构也能提升空间泛化。实验中,CLIPort 在 pack-unseen-box 上成功率由 62.4% 升至 93.6%,多项任务最高提升约 50%,OpenVLA-OFT 在 LIBERO 上也稳定受益。

An Alignment-Based Approach to Learning Motions from Demonstrations figure
RA-L 20252025-11-19

An Alignment-Based Approach to Learning Motions from Demonstrations

模仿学习

模仿学习机器人学习

这篇工作针对示教学习中的两难:时间无关方法难表示自交或重叠轨迹,时间相关方法在受扰后又容易按“时钟”跳回原路径。作者提出CALM,用机器人已执行的部分轨迹持续对齐到示教簇的均值轨迹,并结合可处理对齐突变的HMM和聚类选择当前应跟随的模态,因此既能表达重叠轨迹,也能在扰动后顺滑续接甚至切换到更匹配的示教簇。结果上,CALM在2D数据集和7自由度机器人三个任务中都缓解了两类方法的典型缺陷,但具体定量增益在给定片段中未充分说明。

π*0.6: a VLA That Learns From Experience figure
arXiv2025-11-18

π*0.6: a VLA That Learns From Experience

VLA

VLA机器人学习

这篇工作关注VLA落地后如何像人一样“边做边学”,解决纯模仿学习易累积误差、难在真实任务中持续提效的问题。其核心是RECAP:用价值函数估计动作优势,并把优势作为条件训练整套VLA,把示教、自主试错和远程人工纠偏统一进可迭代的离线RL流程。实验中,π*0.6在真实家居/工业场景完成叠衣、装盒和做咖啡;最难任务吞吐提升超2倍、失败率约减半,但系统仍依赖人工奖励、干预与重置。

Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion figure
arXiv2025-11-18

Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion

VLA

VLADiffusion Policy机器人学习

这篇工作针对预训练VLA在下游部署中常因动作采样失配而失效、而微调又依赖昂贵示教的问题,提出无需再训练的推理时转向框架VLA-Pilot:先用多模态大模型经EPS-CoT从任务上下文推理可执行的奖励/目标,再用Evolutionary Diffusion对VLA采样动作做“评分+进化”优化,并结合执行后反思闭环修正。文中在两种机器人、六个真实操作任务上报告离线VLA成功率明显提升并增强跨任务、跨本体零样本泛化,但统一量化增幅文中未充分说明,判断基于公开摘要/项目页。

NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards figure
arXiv2025-11-18

NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

强化学习

强化学习VLA世界模型机器人学习

论文针对VLA在跨机体与真实环境中可靠性、泛化不足的问题,在预训练NORA上引入与自回归骨干协同训练的flow-matching动作专家,并用动作条件世界模型奖励结合真值动作偏差奖励生成偏好对,再以DPO做后训练。作者的核心判断是,flow-matching不只提速,还能改善多步动作规划;两类奖励则以目标达成与稳定参考互补缓解噪声。实验显示,NORA-1.5在SimplerEnv、LIBERO和Galaxea A1真实机器人上均优于NORA及多种基线,DPO还能进一步提升成功率并降低干扰率。

Masked IRL: LLM-Guided Reward Disambiguation from Demonstrations and Language figure
arXiv2025-11-18

Masked IRL: LLM-Guided Reward Disambiguation from Demonstrations and Language

模仿学习

模仿学习强化学习触觉语言条件机器人学习

该工作针对IRL在少量示教下易把轨迹中的偶然相关误当成真实偏好、导致奖励过拟合和泛化差的问题,提出Masked IRL:把“示教告诉机器人怎么做”与“语言说明什么重要”结合起来,用LLM从指令推断状态相关性掩码,并通过掩码损失强制奖励对无关状态不敏感;当指令含糊时,再结合示教做语义澄清。仿真和7DoF真实机械臂实验表明,该方法相对已有语言条件IRL最高提升约15%,且最多可用4.7倍更少的示教获得更好的样本效率、泛化和抗歧义能力。

HMC: Learning Heterogeneous Meta-Control for Contact-Rich Loco-Manipulation figure
RSSW 20252025-11-18

HMC: Learning Heterogeneous Meta-Control for Contact-Rich Loco-Manipulation

人形操作

移动操作人形操作接触丰富操作

论文针对人形移动操作中纯位置控制在擦拭、开门开抽屉等接触丰富任务里易振荡、受载荷变化影响大的问题,提出HMC:在底层用HMC-Controller把位置、阻抗和力位混合控制连续融合到扭矩空间,在高层用类似MoE的HMC-Policy按任务阶段软路由不同控制模态,并联合利用大量位置演示与少量力感知示教。真实人形实验中,其在桌面擦拭、抽屉开启等任务上较基线取得超过50%的相对提升,且切换更平滑、交互更稳定。

Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning figure
AAAI 20262025-11-18

Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning

VLA

VLA语言条件机器人学习

论文针对语言条件行为克隆在长时序操作中易出现误差累积、动作不连续和语义—物理错位的问题,提出 CCoL:用 Neural ODE 在潜空间连续共学习视觉、语言与本体状态,并以双向交叉注意力把语言目标逐步锚定到视觉运动表征,从而生成更平滑、更贴合语义的控制轨迹。实验中其在三类仿真基准平均相对提升 8.0%,双臂插接任务最高提升 19.2%,7-DoF 实机在未见和噪声物体状态下也表现出更强泛化。

AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models figure
arXiv2025-11-18

AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models

VLA

VLAFlow Matching机器人学习

这篇工作针对基于Flow Matching的VLA普遍采用同步、统一去噪时间表,导致长时程操作中早期动作误差易连锁放大的问题,提出AsyncVLA:先用SFM生成连续动作,再用置信度评估器找出低置信token,并通过异步FM以非均匀时间步选择性重生成,利用高置信动作作为上下文实现自纠。统一训练还让同一模型兼容SFM与AFM并更好复用KV-cache。实验显示其在仿真和真实机器人操控上更数据高效、具备自纠能力且整体优于现有方法;具体提升幅度在给定片段中未充分说明。

ZeroDexGrasp: Zero-Shot Task-Oriented Dexterous Grasp Synthesis with Prompt-Based Multi-Stage Semantic Reasoning figure
arXiv2025-11-17

ZeroDexGrasp: Zero-Shot Task-Oriented Dexterous Grasp Synthesis with Prompt-Based Multi-Stage Semantic Reasoning

抓取

抓取灵巧操作操作

这篇工作针对任务导向灵巧抓取依赖标注、难泛化到开放集物体与自然语言任务的问题,提出 ZeroDexGrasp:先把高层语义离散成接触区域、手型、相对位置与旋转等中间表示,借助多模态大模型的多阶段提示推理生成初始抓取,再用接触引导优化补足物理可行性。其关键洞察是手的全局属性更多由任务语义决定,而关节细节可由几何优化细化。实验称其在未见类别和复杂任务上实现高质量零样本抓取,但摘要未充分说明具体量化增益。

Force-Aware 3D Contact Modeling for Stable Grasp Generation figure
AAAI 20262025-11-17

Force-Aware 3D Contact Modeling for Stable Grasp Generation

抓取

抓取灵巧操作3D 表征触觉操作

论文针对现有接触式抓取大多只看几何、忽略接触力而导致抓取不稳的问题,提出力感知3D接触建模:把法向接触力离散编码进接触表示,并将稳定性写成物体加速度最小化约束,用预测力挑出关键接触点来初始化和引导手部位姿优化;同时用仿真为通用物体自动标注力。实验在GRAB和HO3D上显示稳定性明显提升、对新物体也能泛化,且几何合理性与多样性基本保持,但摘要称约20%增益、正文又写30%+,具体统计口径文中未充分说明。

DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping figure
ICRA 20262025-11-17

DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping

抓取

抓取模仿学习Diffusion PolicySim2Real机器人学习操作

这篇工作针对深度相机空洞与噪声造成的 sim2real 落差:在仿真中学到的深度抓取策略迁移到真实机器人时性能会明显下降。作者提出 DiffuDepGrasp,用扩散式深度生成器从少量非配对真实 RGB-D 学习传感器噪声分布,再通过噪声嫁接把噪声注入仿真真值深度且尽量保留几何尺度,并将特权状态教师策略蒸馏为仅依赖原始深度输入的学生策略,因此部署时没有额外感知计算开销。实机 12 类物体零样本抓取平均成功率达到 95.7%,对未见物体也表现出较强泛化。

RoboAfford++: A Generative AI-Enhanced Dataset for Multimodal Affordance Learning in Robotic Manipulation and Navigation figure
IROSW 20252025-11-16

RoboAfford++: A Generative AI-Enhanced Dataset for Multimodal Affordance Learning in Robotic Manipulation and Navigation

Affordance

Affordance操作数据集/Benchmark

面向机器人在操作与导航中“会理解指令却难落到具体抓点、放置区和可通行空位”的问题,论文提出RoboAfford++:用生成式AI增强构建统一物体可供性与空间可供性的数据集(约87万图、200万QA),并配套338条人工标注评测,覆盖目标识别、功能部件定位与空闲空间定位。实验表明现有VLM在细粒度可供性推理上存在明显短板,基于该数据微调后在操作与导航场景均有显著提升,但增益来源是否主要来自数据规模/合成增强,文中未充分拆解。

AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models figure
arXiv2025-11-15

AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models

VLA

VLA安全机器人学习数据集/Benchmark

该工作针对VLA安全评测缺乏统一框架、不同动作tokenizer导致攻击难复现且多数研究停留在仿真的问题,提出覆盖数据构建、训练与推理全流程的AttackVLA。文中关键洞察是:现有攻击多只能让机器人失控或停滞,几乎不能稳定诱导精确的长时程目标动作;为此作者提出带视觉/文本触发的定向后门BackdoorVLA。实验在4个LIBERO基准、3类VLA和真实Franka机械臂上验证,定向攻击平均成功率58.4%,仿真中在OpenVLA/SpatialVLA/π0-fast上约为76%/52%/43%,真实机上π0-fast达50%,部分任务可到100%。

Scalable Policy Evaluation with Video World Models figure
arXiv2025-11-14

Scalable Policy Evaluation with Video World Models

任务规划

任务规划视频规划世界模型

论文针对通用机器人操作策略评测昂贵、难复现且真机测试有安全风险的问题,提出用动作条件视频生成模型充当世界模型:在预训练视频扩散模型中注入动作标记,让策略在生成环境中展开轨迹,再用VLM自动判断任务是否完成。结果显示,该流程在策略排序和预测回报与真实表现的相关性上已具可用性;但作者也指出,更多数据主要提升动作跟随,物体永久性与刚体交互等物理一致性仍是主要瓶颈,而大规模预训练能明显改善生成的物理合理性。

Sashimi-Bot: Autonomous Tri-manual Advanced Manipulation and Cutting of Deformable Objects figure
arXiv2025-11-14

Sashimi-Bot: Autonomous Tri-manual Advanced Manipulation and Cutting of Deformable Objects

可变形物体

可变形物体操作

针对三文鱼鱼柳这类柔软、湿滑且个体差异大的可变形物体,论文提出三臂协作的 Sashimi-Bot,把非抓取整形、持刀切片、切中稳定和筷子取片串成全自主流程;核心在于结合视觉与高分辨率触觉反馈,用 DRL 实现整形的零样本 sim-to-real,并用刀身触觉分类与视觉伺服提升切割和取片鲁棒性。文中给出分模块消融和整机刺身制备实验,表明系统可用通用机械臂、普通厨刀和筷子完成从任意初态到摆盘的操作,但公开片段未充分说明统一成功率与各模块增益占比。

Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective figure
AAAI 20262025-11-14

Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective

VLA

VLA语言条件对象中心机器人学习操作

论文指出现有VLA多默认马尔可夫假设、只看当前帧,因而在相似物体、遮挡和重复操作中难以利用“对象历史”。为此作者一方面提出面向对象级POMDP记忆的LIBERO-Mem,另一方面提出Embodied-SlotSSM,用持续slot身份、状态空间建模和关系编码器维护时序记忆并辅助动作解码。实验显示该方法在LIBERO-Mem及通用任务上能作为可扩展基线并提升长时依赖下的动作预测,但文中未充分说明精确增益来源,且部分结果基于oracle支持实现。

Humanoid Whole-Body Badminton via Multi-Stage Reinforcement Learning figure
arXiv2025-11-14

Humanoid Whole-Body Badminton via Multi-Stage Reinforcement Learning

人形操作

移动操作人形操作强化学习触觉应用

论文聚焦人形机器人在羽毛球这类“亚秒级、强气动不确定”的动态交互中,如何把步法、平衡与挥拍真正耦合起来,而非把移动和击球分开做。其核心是一个不依赖动作先验或示教的三阶段强化学习流程,先学步法,再学带姿态约束的精准挥拍,最后去掉过多运动正则,直接按击球效果细化;同时还比较了基于EKF落点预测与无显式预测的反应式策略。结果上,仿真中两台机器人最长连续对打21拍,实机可与发球机和人对打,回球速度最高19.1 m/s,平均落点距离约4米。

Dexterous Manipulation Transfer via Progressive Kinematic-Dynamic Alignment figure
AAAI 20262025-11-14

Dexterous Manipulation Transfer via Progressive Kinematic-Dynamic Alignment

抓取

抓取灵巧操作操作

针对多指灵巧手实机采集难、数据稀缺的问题,论文提出PKDA:只用人手操作视频,先做运动学匹配生成手指主控制轨迹,再以残差强化学习配合动作空间缩放和拇指引导预抓取去修正手物接触动力学,最后依据物体运动规划腕部以保留操作语义。在MuJoCo中跨Adroit、Allegro、Leap及多任务评测,平均迁移成功率73%,且比基线更快;但对动态多接触变化的能力文中未充分说明。

AdaptPNP: Integrating Prehensile and Non-Prehensile Skills for Adaptive Robotic Manipulation figure
arXiv2025-11-14

AdaptPNP: Integrating Prehensile and Non-Prehensile Skills for Adaptive Robotic Manipulation

操作

操作应用

这项工作针对仅靠抓取难以完成的家庭操作场景,关注机器人何时该推、拨、旋转,何时该抓,并如何把两类动作串成可执行多步计划。AdaptPNP用VLM先生成抓取/非抓取混合技能骨架,再借助数字孪生预测并筛选每一步的6D目标物体位姿,结合执行反馈闭环重规划。文中在仿真和真实世界8类混合任务上均优于强化学习、MPC、分层VLM规划和端到端VLA基线,但各模块相对增益来源是否主要来自模型规模,文中未充分说明。

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation figure
AAAI 20262025-11-13

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

VLA

VLA机器人学习操作

该文针对VLA在真实操作中常见的视觉冗余与指令-视觉对齐过浅问题,提出SemanticVLA:先对SigLIP和DINOv2做语义引导的双路剪枝,保留任务相关语义与几何信息,再进行层次化跨编码器融合,并用语义条件动作耦合替代直接DoF回归。判断基于公开摘要/项目页,其在LIBERO上较OpenVLA成功率提升21.1%,训练成本和推理时延分别降至约1/3与1/2.7,但各模块具体增益来源仍未充分说明。

RoboBenchMart: Benchmarking Robots in Retail Environment figure
arXiv2025-11-13

RoboBenchMart: Benchmarking Robots in Retail Environment

操作

移动操作操作数据集/Benchmark应用

这篇工作瞄准零售暗仓自动化这一近中期落地场景,指出现有机器人操作基准大多停留在桌面设定,难覆盖密集货架、多层摆放与移动抓取耦合的真实难点。RoboBenchMart的核心创新是把程序化门店布局与商品陈列生成、基于运动规划和强化学习的轨迹采样、评测工具和基线模型整合成开放基准。实验表明当前SOTA通用模型连常见拣选和补货任务都难稳定完成;但具体指标、最好基线及增益来源在给定材料中未充分说明。

Phantom Menace: Exploring and Enhancing the Robustness of VLA Models against Physical Sensor Attacks figure
AAAI 20262025-11-13

Phantom Menace: Exploring and Enhancing the Robustness of VLA Models against Physical Sensor Attacks

VLA

VLA安全机器人学习

面向VLA机器人强依赖相机与麦克风感知、但现有安全研究多停留在数字扰动的缺口,本文首次系统研究物理传感器攻击,提出“Real-Sim-Real”框架,将6类相机攻击和2类麦克风攻击在仿真中自动建模并回到真实机器人验证。实验表明,不同任务和架构的VLA普遍脆弱,可导致掉落、碰撞、误抓和异常运动;进一步用混入攻击数据的对抗训练提升鲁棒性,在干净数据上仅约3%退化,中等强度攻击下部分OpenVLA提升最高约60%。

OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer figure
CVPR 20262025-11-13

OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer

3D 表征

3D 表征VLATransformer Policy感知机器人学习

这篇工作针对现有3D基础模型大多只依赖RGB、难以稳定利用深度和相机内外参的问题,提出OmniVGGT。其核心洞察是几何信息不应硬拼接进预训练表征,而要通过轻量GeoAdapter与零初始化卷积渐进注入,再配合随机模态子集训练,使模型在测试时可接受任意数量与组合的辅助几何输入。实验显示,它在单目/多视角深度、MVS和位姿估计上优于已有多模态方法,RGB-only也达到SOTA,并以近似VGGT的速度进一步提升VLA机器人操作表现。

Learning a Thousand Tasks in a Day figure
SR 20252025-11-13

Learning a Thousand Tasks in a Day

泛化

泛化

论文针对机器人模仿学习每个任务常需数百次示教、难以扩展到大规模日常操作的问题,提出把操作轨迹拆成“对齐+交互”两阶段,并在测试时通过语言与几何检索整段示教,形成MT3。基于3450次分析实验和2200次规模化评测,作者发现:在每任务少于10次示教时,分解式方法相对单体BC可带来约一个数量级的数据效率提升,且检索在两阶段都更利于新物体泛化;据此系统能以单次示教学习1000个任务,但示教更充足或任务更多时,单体BC的扩展趋势反而更好。

Audio-VLA: Adding Contact Audio Perception to Vision-Language-Action Model for Robotic Manipulation figure
arXiv2025-11-13

Audio-VLA: Adding Contact Audio Perception to Vision-Language-Action Model for Robotic Manipulation

VLA

VLA音频感知机器人学习操作

面向只靠视觉的VLA难以感知接触事件与操作动态、在遮挡或接触密集任务中易误判的问题,本文提出Audio-VLA,将接触音频纳入视觉-语言-动作框架:用AudioCLIP编码接触声并与视觉特征共同对齐到Llama2,还在LIBERO和RLBench中加入基于碰撞的音频仿真,并提出衡量过程感知能力的TCR指标。实验表明,该方法在LIBERO、RLBench及两项真实任务上均优于纯视觉基线,接触密集场景提升更明显,真实环境成功率至少提升3倍。

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues figure
arXiv2025-11-13

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Latent Learning

Latent Learning安全遥操作感知机器人学习

论文关注预训练视觉表征虽能提升数据效率,却也会把背景和语义干扰一并编码进策略,导致机器人在光照、背景或干扰物变化下容易失效。作者不微调PVR、也不依赖昂贵数据增强,而是在特征池化处加入轻量可训练的AFA,用交叉注意力从局部特征中聚合任务相关线索,并指出注意力是否集中在关键区域及其熵可作为OOD鲁棒性的预测信号。仿真与真实双平台、14种PVR实验表明,AFA在扰动场景下显著优于常见池化,部分任务的OOD成功率可提升到约3倍。

A Study on Enhancing the Generalization Ability of Visuomotor Policies via Data Augmentation figure
arXiv2025-11-13

A Study on Enhancing the Generalization Ability of Visuomotor Policies via Data Augmentation

数据采集

数据采集数据增强泛化

这篇工作针对现有机器人模仿学习数据增强过度关注“轨迹增广”、难以应对相机视角、光照、纹理和台面高度变化导致的泛化不足,系统研究了哪些场景因素真正影响视觉运动策略。作者在少量人类示教基础上,自动生成同时包含轨迹、视觉与跨本体随机化的数据集。实验表明,上述随机化因素都会影响策略泛化,任意一种增强都能带来提升,而更丰富的轨迹对弥合视觉域差尤其关键;在低成本机械臂上也验证了零样本sim-to-real迁移改善。

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models figure
ICLR 20262025-11-12

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

辅助任务

辅助任务VLA世界模型感知机器人学习

该文针对VLA主要依赖模仿学习、难以从失败中恢复,而真机强化学习又样本代价过高的问题,提出WMPO:以像素空间、动作条件的视频世界模型充当“想象环境”,再结合策略行为对齐、片段级自回归生成和轻量奖励模型,使VLA能在不接触真实环境时进行on-policy GRPO。实验称其在仿真与真机上都比直接基于真实交互或离线轨迹的RL更省样本、表现更强,并出现自纠错、泛化和持续学习能力。

UMIGen: A Unified Framework for Egocentric Point Cloud Generation and Cross-Embodiment Robotic Imitation Learning figure
arXiv2025-11-12

UMIGen: A Unified Framework for Egocentric Point Cloud Generation and Cross-Embodiment Robotic Imitation Learning

3D 表征

数据需求量大3D 表征视频规划模仿学习泛化跨本体操作

这篇工作针对机器人模仿学习既依赖大量示范、又缺少低成本自我视角3D采集方案的问题,提出 UMIGen:一方面用无需视觉SLAM的手持 Cloud-UMI 同步记录点云与动作,另一方面在 DemoGen 式数据生成中加入视场感知优化,只保留腕部相机可见点,使合成观测更贴近真实执行。仿真与实机表明,少量示范可扩增出可跨 6/7DoF 本体直接迁移的数据,腕视角策略性能接近全局视角;但实机提升的具体幅度与增益来源文中未充分说明,可能部分来自 scaling / data。

ScaleADFG: Affordance-based Dexterous Functional Grasping via Scalable Dataset figure
RA-L 20252025-11-12

ScaleADFG: Affordance-based Dexterous Functional Grasping via Scalable Dataset

抓取

抓取灵巧操作Affordance操作数据集/Benchmark

这篇工作瞄准灵巧功能抓取中“数据难做、尺度难泛化”的问题:以人手示教构建数据既费力,又会把人手与机器人手尺寸不匹配的偏置带入工具抓取。作者提出 ScaleADFG,用预训练模型从网络图像自动生成3D资产并检索物体/手部 affordance,再通过基于affordance的优化合成功能抓取,构建含5类物体、每类千级形状与15种尺度的数据集,并训练无需后优化的轻量单阶段网络。仿真和实机结果显示其在不同尺度上的抓取稳定性、多样性和零样本迁移更好,但判断基于公开摘要/项目页,具体增益来源可能主要来自 scaling / data。

SPIDER: Scalable Physics-Informed Dexterous Retargeting figure
arXiv2025-11-12

SPIDER: Scalable Physics-Informed Dexterous Retargeting

灵巧操作

灵巧操作操作非学习控制

这篇工作针对人类演示数据丰富、但因人体与机器人在形态和动力学上的差异、且缺少接触力信息而难以直接迁移的问题,提出 SPIDER:把人类轨迹作为任务结构与目标提示,再用并行物理采样结合课程式虚拟接触引导,修正接触序列并保证动力学可行性,还可进一步做轨迹稳健化与增广。实验表明,它在6个数据集、9种灵巧手/人形机器人上较标准采样成功率提升18%,相对RL式重定向快10倍,并生成了240万帧可用于后续策略学习的可执行数据。

RGMP: Recurrent Geometric-prior Multimodal Policy for Generalizable Humanoid Robot Manipulation figure
arXiv2025-11-12

RGMP: Recurrent Geometric-prior Multimodal Policy for Generalizable Humanoid Robot Manipulation

人形操作

人形操作泛化操作

这篇工作针对人形机器人操作过度依赖大规模示教、在陌生场景中缺少几何推理而导致技能选择和动作泛化不稳的问题,提出RGMP,把“先做什么”的几何语义决策与“怎么做”的数据高效控制联合起来:前者用带几何先验的技能选择器对齐物体形状/位置与语言指令,后者用递归高斯网络建模机器人—物体多尺度空间关系,以少量示教生成动作。文中在类人机器人和桌面双臂平台上报告87%泛化成功率、相对Diffusion Policy约5倍数据效率,但各模块增益拆解与提升来源文中未充分说明。

MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation figure
arXiv2025-11-12

MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation

VLA

VLA数据增强机器人学习操作

这篇工作针对VLA在长时程操作中只依赖当前观测、无法显式调用示范经验而容易中途偏航的问题,提出MAP-VLA:先将历史示范按任务阶段切分,并通过提示调优压缩成可学习的软提示记忆库;执行时再按轨迹相似度检索相关阶段记忆与示范动作,用提示集成增强冻结VLA的动作生成。论文称其在仿真长程任务上最高提升7个百分点、真实机器人上提升25个百分点,但增益究竟来自检索、提示设计还是数据条件,文中未充分说明。

IFG: Internet-Scale Guidance for Functional Grasping Generation figure
arXiv2025-11-12

IFG: Internet-Scale Guidance for Functional Grasping Generation

抓取

抓取灵巧操作Affordance操作

这篇工作针对一个关键缺口:VLM能大致看懂“该抓哪里”,却缺少灵巧手控制所需的3D几何;传统合成抓取又常在物体表面盲目采样,难以对准把手、按钮等功能区域。IFG的核心做法是先用互联网规模视觉模型定位任务相关部位,再以此引导仿真中的力闭合优化生成抓取,并蒸馏成可直接处理点云的扩散模型,实现无人工示教的实时预测。文中结果表明其抓取更自然、在杂乱场景更稳,图示中对难抓物体的平均成功率由6.7%提升到17.2%。

ViPRA: Video Prediction for Robot Actions figure
NeurIPS 20252025-11-11

ViPRA: Video Prediction for Robot Actions

视频规划

视频规划VLALatent Learning机器人学习

这项工作针对机器人学习高度依赖带动作标注示教、而海量人类/遥操作视频又无动作标签的问题,提出把视频预测预训练转成控制策略:先从无标注视频中学习“运动中心”的潜在动作,并与未来帧联合预测,再用带分块的flow-matching解码器,仅凭100–200条示教把潜在动作映射为机器人连续控制,从而兼顾跨具身泛化与最高22Hz的平滑低层控制。实验在SIMPLER上提升16%,真实操作任务平均提升13%;但各模块增益来源文中未充分拆解。

SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment figure
ICRA 20262025-11-11

SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment

Flow Matching

Flow Matching机器人学习

这篇工作针对整流流/重流策略虽能把视觉模仿学习推到一步采样、却会在反复蒸馏后产生“当前观测—生成动作”错配并累积控制误差的问题,提出 SeFA:利用专家示范对重流生成动作做选择性对齐,只纠正有害偏差、尽量保留多峰动作分布,从而兼顾观测一致性与单步推理效率。实验覆盖 66 个仿真任务和多项真实操作,整体成功率优于 Diffusion Policy、AdaFlow 等基线,推理时延降低约 98.7%。

SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories figure
AAAI 20262025-11-11

SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories

模仿学习

模仿学习安全机器人学习

这篇论文关注离线模仿学习里“没有逐步安全代价标注、又不能在线试错”时如何学出安全策略:现实中更容易拿到少量“非偏好/危险轨迹”和大量混合未标注数据。SafeMIL 的关键做法是把风险代价学习改写为多实例学习,用轨迹包学习状态-动作级风险分数,再按累计风险对未标注轨迹加权筛出更可能安全的行为做行为克隆。实验在 DSRL 多个约束控制与导航任务上显示,其在基本不损失回报的情况下显著降低成本,整体安全指标中位数优于最强基线约 3.7 倍。

LLM-GROP: Visually Grounded Robot Task and Motion Planning with Large Language Models figure
IJRR 20252025-11-11

LLM-GROP: Visually Grounded Robot Task and Motion Planning with Large Language Models

任务规划

任务规划语言条件感知

这篇工作针对服务机器人在“摆餐桌”这类目标欠指明的多物体移动操作中,既要理解常识又要保证导航与抓取可行的问题,提出 LLM-GROP:先用 LLM 生成刀叉、餐盘等物体的符号空间关系,再映射为可执行的几何约束,并结合视觉学习的底座站位选择,把语义布局与移动操作的 TAMP 联合起来。仿真和真实机器人实验表明,它在主观布置质量上优于基线、累计动作代价相近或更低,真实场景重排成功率为 84.4%,但整体表现仍弱于熟练人类服务员。

HardFlow: Hard-Constrained Sampling for Flow-Matching Models via Trajectory Optimization figure
ICLRW 20262025-11-11

HardFlow: Hard-Constrained Sampling for Flow-Matching Models via Trajectory Optimization

任务规划

任务规划Flow Matching机器人学习

论文关注流匹配模型在机器人规划等场景中必须严格满足终端约束的问题:现有逐步投影方法把整个采样路径都限制在可行域,过于保守,常牺牲样本质量。HardFlow将受约束采样重写为轨迹优化,只在终态施加硬约束,把对速度场的扰动视作控制输入,并加入控制代价以减小分布偏移,再利用流匹配结构和MPC式代理把原本难解的问题高效求解。实验显示,它在机器人规划、PDE边界控制和图像编辑中较投影基线同时提升约束满足率与样本质量。

SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation figure
arXiv2025-11-10

SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation

VLA

VLA机器人学习操作

论文指出现有VLA依赖密集视觉token,物体与背景信息纠缠,计算开销大且难以解释;仅做对象中心建模又缺少抓手—物体等关键关系。为此作者构建带框、掩码和时序跟踪标注的LIBERO+,并提出SlotVLA:先用slot attention筛出任务相关物体,再显式编码物体及其关系用于动作解码。实验显示,该方法以远少于密集基线的token、约3–4×更低FLOPs取得有竞争力的泛化与成功率,但在复杂、长时程和拥挤场景仍受限。

Robot Learning from a Physical World Model figure
arXiv2025-11-10

Robot Learning from a Physical World Model

任务规划

任务规划3D 表征Sim2Real世界模型机器人学习

论文针对“生成视频看起来合理、机器人却执行不准”的问题,认为症结在于像素级模仿缺少物理可行性。PhysWorld先由单张RGB-D图像和语言指令生成任务视频,再从单目视频重建可交互的3D物理场景,并用对象中心的残差强化学习把视觉演示转成可执行动作,无需真实机器人示教。10个真实操作任务上其平均成功率达82%,高于RIGVid的67%;抓取失败由18%降至3%、跟踪失败由5%降至0%,但单目重建仍带来约7%的重建误差。

How Do VLAs Effe ctively Inherit from VLMs? figure
arXiv2025-11-10

How Do VLAs Effe ctively Inherit from VLMs?

VLA

VLA语言条件机器人学习

这篇论文关注VLA虽依赖VLM先验,却缺少“究竟如何继承”这一问题的可控验证。作者提出GrinningFace表情符号桌面操作基准,在仿真和真实机器人上用“按指令把物块放到对应emoji”来解耦视觉语义先验与运动技能。结果显示:全参微调易灾难性遗忘,单调动作头会欠拟合,LoRA是折中但增益有限;协同训练与潜在动作预测更有效,离散动作更差,更大更杂的预训练数据也能提升泛化。

HDCNet: A Hybrid Depth Completion Network for Grasping Transparent and Reflective Objects figure
arXiv2025-11-10

HDCNet: A Hybrid Depth Completion Network for Grasping Transparent and Reflective Objects

抓取

抓取操作

针对透明/反光物体会导致RGB-D传感器深度大面积缺失、进而影响抓取的问题,HDCNet将Transformer、CNN与Mamba结合用于深度补全:前端采用双分支编码器提取模态特征,浅层做轻量融合,瓶颈处再用Transformer-Mamba混合模块整合高层语义与全局上下文。论文称其在多个公开数据集上达到SOTA,并在机器人抓取实验中将透明/反光物体抓取成功率最高提升60%;但从当前公开信息看,抓取系统细节及各模块增益来源仍未充分说明。

CAVER: Curious Audiovisual Exploring Robot figure
arXiv2025-11-10

CAVER: Curious Audiovisual Exploring Robot

音频

音频感知机器人学习

这项工作关注机器人如何通过主动敲击物体,把“外观—声音”关联学出来,从而支持材料判断和仅凭声音的模仿操作。CAVER的核心是将可装在平行夹爪上的3D打印敲击末端、融合局部与全局视觉及音频特征的KNN表征,以及基于不确定性的好奇心探索结合起来,让机器人优先采样视觉上更陌生的区域。实验表明,它比多种探索基线更高效地获得声学知识,并在材料分类、旋律模仿和动作识别上分别达到87%、66%和42%准确率,且动作识别高于27%的人类基线。

Real Garment Benchmark (RGBench): A Comprehensive Benchmark for Robotic Garment Manipulation featuring a High-Fidelity Scalable Simulator figure
AAAI 20262025-11-09

Real Garment Benchmark (RGBench): A Comprehensive Benchmark for Robotic Garment Manipulation featuring a High-Fidelity Scalable Simulator

可变形物体

可变形物体操作数据集/Benchmark

这项工作针对服装操作长期受限于布料仿真不真实、真实评测数据稀缺,导致 sim-to-real gap 难以系统量化的问题,提出 RGBench:既提供 6000 余个带物性参数的服装网格与真实机器人抓取、抖展、折叠数据,也发布高保真且可扩展的 GarmentDynamics 仿真器和统一评测协议,为策略学习提供更可靠基座。实验显示其相较现有布料仿真器误差降低约 20%、速度达 3 倍;但这些增益分别来自材料测量、碰撞处理还是 GPU 加速,文中未充分拆解。

TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models figure
ICLR 20262025-11-07

TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models

VLA

数据需求量大VLA语言条件双臂机器人学习操作

针对公开机器人数据多为单臂、双臂VLA往往依赖大量专有双臂数据的问题,TwinVLA将两个预训练单臂VLA复制并通过joint attention与MoE进行轻量协调,只复制VLM骨干,把双臂控制视为两套臂级先验的组合而非单体跨构型建模。在真实与仿真双臂任务上,它无需双臂预训练,仅用约800小时单臂数据预训练和50条目标任务示教,即可超过同量级单体RDT-1B,并逼近依赖更大专有双臂数据与算力的π0,体现出明显的数据与计算效率优势。

MoE-DP: An MoE-Enhanced Diffusion Policy for Robust Long-Horizon Robotic Manipulation with Skill Decomposition and Failure Recovery figure
ICRA 20262025-11-07

MoE-DP: An MoE-Enhanced Diffusion Policy for Robust Long-Horizon Robotic Manipulation with Skill Decomposition and Failure Recovery

Diffusion Policy

Diffusion Policy安全机器人学习操作

这篇论文针对扩散策略在长时序、多阶段操作中缺乏阶段感知、子任务失败后容易级联崩溃的问题,在视觉编码器与扩散策略之间插入 MoE 层,让不同专家按任务阶段动态接管,从而把接近、抓取、放置等技能显式分解出来,并可在推理时重排子任务。实验称其在6个长程仿真任务的受扰场景下平均相对成功率提升36%,真实机器人也有明显增益;但恢复机制究竟来自显式失败检测还是主要来自更强的表示/容量,文中未充分说明。

Let Me Show You: Learning by Retrieving from Egocentric Video for Robotic Manipulation figure
IROS 20252025-11-07

Let Me Show You: Learning by Retrieving from Egocentric Video for Robotic Manipulation

视频规划

视频规划数据采集数据检索操作

这篇工作针对机器人操控数据昂贵、长尾任务难靠纯机器人示教覆盖的问题,尝试让机器人像人一样“看视频学操作”。核心是提出 RfV:先按语言指令从第一视角人类视频库检索相关示范,再离线抽取更贴近控制的中层信息,如物体可供性掩码和手部运动轨迹,并在训练与测试时共同注入策略生成器。文中称该方法在多种仿真与真实操控任务上优于常规基线、对未见场景泛化更好,但具体提升幅度与增益来源在给定片段中未充分说明。

EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation figure
arXiv2025-11-07

EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation

基础操作

基础操作VLA操作

论文针对VLA落地受限于昂贵机械臂、且在杂乱或新场景中易失效的问题,提出一套低成本全栈方案:约300美元的6自由度机械臂,配合同时预测离散与连续动作的统一模型,并用二者分歧估计不确定性,通过AdaHorizon动态调整动作块长度以在线重规划。结果上,其真实世界分布内与分布外任务分别较已有方法平均提升49%和34.9%,LIBERO上则接近但未超过最佳基线;不过文中对增益究竟来自模型设计、集成策略还是数据流程,拆分得还不够充分。

X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations figure
arXiv2025-11-06

X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations

模仿学习

模仿学习Diffusion Policy数据采集泛化跨本体

这篇工作要解决“人类演示易采集,但与机器人本体差异大,直接共训会学到不可执行动作”的问题。作者把人类动作视为机器人动作的“带本体噪声”版本,在扩散策略训练中先用分类器判断人机动作在不同加噪步是否已不可区分,只在超过该阈值时利用人类数据做去噪监督,从而保留任务意图、避免把不符合机器人动力学和接触方式的细节学进去。5个真实操作任务上,X-Diffusion平均成功率比朴素共训和人工过滤高16%。

Unified Multimodal Diffusion Forcing for Forceful Manipulation figure
arXiv2025-11-06

Unified Multimodal Diffusion Forcing for Forceful Manipulation

3D 表征

3D 表征触觉Diffusion Policy机器人学习操作

论文针对接触密集、需用力操作中传统模仿学习只学“观测到动作”映射、难刻画视觉/力觉/动作/奖励耦合且对缺失或噪声模态不稳的问题,提出统一的 Multimodal Diffusion Forcing:用按“时间×模态”采样的连续噪声矩阵做部分掩码,在潜空间重建多模态轨迹,并可引入训练期特权全点云,学习跨时序与跨模态依赖。同一模型因此可灵活做策略、动力学预测和异常检测;在5个仿真与真实任务上,性能与专用方法相当,噪声观测下通常更鲁棒。

Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions figure
ICRA 20262025-11-06

Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions

3D 表征

3D 表征VLASim2Real人机交互机器人学习

这项工作针对机器人策略真实评测昂贵、难复现且软体交互尤其难模拟的问题,提出一个 real-to-sim 评测框架:从真实视频重建软体数字孪生,结合 3D Gaussian Splatting 的照片级渲染、位置/颜色自动对齐和基于 PhysTwin 的可变形动力学,在 Gym 接口中回放真实训练出的策略。实验在玩偶装箱、绳索穿绕和 T-block 推动上显示,仿真成功率与真实世界结果高度相关(文中称 r>0.9),且物理优化与颜色对齐是缩小评测偏差的关键。

ReGen: Generative Robot Simulation via Inverse Design figure
ICLR 20252025-11-06

ReGen: Generative Robot Simulation via Inverse Design

操作

移动操作操作数据集/Benchmark

这篇工作针对机器人仿真长期依赖人工搭建、难以高效做策略验证与数据增强的问题,提出 ReGen:不再从文字直接生成任务,而是从机器人已表现出的轨迹/目标及文本描述,反向设计出可能诱发该行为的场景。其关键创新是用 LLM 扩展事件—实体—属性的因果图,再编译成可执行符号程序驱动 CARLA/PyBullet,并支持反事实、认知状态和传感异常推理。文中在自动驾驶与操作上表明,该方法能以较高成功率生成更丰富、更复杂、更可控的角落案例,并产出更难的视觉语言动作数据;但摘要未充分说明具体量化提升,以及增益主要来自方法设计还是 scaling/data。

Isaac Lab: A GPU-Accelerated Simulation Framework for Multi-Modal Robot Learning figure
arXiv2025-11-06

Isaac Lab: A GPU-Accelerated Simulation Framework for Multi-Modal Robot Learning

跨本体

跨本体机器人学习数据集/Benchmark

针对真实机器人数据采集昂贵且高风险、现有仿真工具链碎片化且难支撑大规模多模态学习的问题,Isaac Lab作为 Isaac Gym 的后继框架,把 GPU 并行物理、RTX 渲染与模块化环境设计统一起来,并集成执行器模型、多频传感器、示教数据采集、域随机化及强化/模仿学习流程。主要结果是其已展示于全身控制、跨本体移动和接触丰富操作等任务,并支持多 GPU/多节点扩展,但统一基准上的量化增益文中未充分说明,判断基于公开摘要/项目页。

GraspView: Active Perception Scoring and Best-View Optimization for Robotic Grasping in Cluttered Environments figure
arXiv2025-11-06

GraspView: Active Perception Scoring and Best-View Optimization for Robotic Grasping in Cluttered Environments

抓取

抓取感知操作数据集/Benchmark

面向遮挡严重、透明/反光物体和近距离深度失效导致抓取不稳的问题,GraspView尝试摆脱RGB-D,提出仅用RGB的杂乱场景抓取流程:先用VGGT从单视角初始化并融合多视角重建全局点云,再以“渲染候选视角+VLM评分”主动选择下一最佳观察位姿,并通过机器人运动学做在线尺度对齐,最后结合GraspNet执行全局最佳视角抓取。判断基于公开摘要/项目页,其在桌面多物体实验中优于RGB-D与单视角RGB基线,尤其在重遮挡、近场和透明物体上更明显,但具体提升幅度与各模块增益来源文中未充分说明。

GraSP-VLA: Graph-based Symbolic Action Representation for Long-Horizon Planning with VLA Policies figure
arXiv2025-11-06

GraSP-VLA: Graph-based Symbolic Action Representation for Long-Horizon Planning with VLA Policies

抓取

抓取任务规划VLA机器人学习

论文针对端到端VLA缺少高层规划、长时程任务性能明显下降,以及传统AML依赖人工定义谓词、泛化差的问题,提出GraSP-VLA:以场景图生成和多目标跟踪构建跨时间的多层连续场景图,自动抽取PDDL动作模型,并把任务在线分解为可由预训练原子VLA策略执行的序列。结果显示,它能在DAHLIA真实视频中无显式先验生成规划域,真实机器人上两技能串联成功率约从0.2提升到0.6;但文中也承认主要瓶颈仍是关系预测误差,部分增益可能来自任务分解。

ForeRobo: Unlocking Infinite Simulation Data for 3D Goal-driven Robotic Manipulation figure
arXiv2025-11-06

ForeRobo: Unlocking Infinite Simulation Data for 3D Goal-driven Robotic Manipulation

任务规划

任务规划几何约束规划3D 表征操作

论文关注仿真中学到的操作策略难以零样本迁移、端到端低层策略又不够可解释的问题,提出将“目标状态生成”和经典控制解耦的 ForeRobo:先用 LLM 与 ForeGen 自动提出任务、构造场景并扩展近乎无限的仿真数据,再由 ForeFormer按指令预测场景中每个点的3D目标位置,交给规划控制执行。文中报告其在多类刚体与关节体任务上较现有状态生成方法平均提升56.32%,并在20余个真实任务中实现零样本 sim-to-real,平均成功率79.28%。

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment figure
CVPR 20262025-11-06

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

VLA

VLA机器人学习

这篇工作针对现有VLA参数大、依赖大规模机器人预训练且端到端微调易破坏视觉语言语义空间的问题,提出仅0.77B参数的Evo-1:以原生多模态VLM为骨干,配合跨调制扩散Transformer和机器人状态融合模块,并用两阶段训练逐步对齐感知与动作以尽量保留语义表示。结果上,它在不做机器人数据预训练下,Meta-World、RoboTwin、LIBERO分别达80.6%、37.8%、94.8%,真实场景成功率78%,同时推理频率和显存占用更优。

Source-Free Bistable Fluidic Gripper for Size-Selective and Stiffness-Adaptive Grasping figure
arXiv2025-11-05

Source-Free Bistable Fluidic Gripper for Size-Selective and Stiffness-Adaptive Grasping

抓取

抓取基础操作操作

针对传统流体软抓手依赖外部泵源、难以长期自治的问题,本文提出一种封闭式双稳态液压抓手:由一个感知腔和两个抓取腔构成,物体接触后通过内部液体重分配触发侧向腔体跃迁,无需持续供能即可保持抓取,并借助液压反馈对不同刚度目标被动调节夹持压力。仿真与实验证明其在固定夹距4 mm和10 mm下能筛选特定尺寸目标并完成抓取,但文中未充分说明其相对常规供压方案的系统级效率与负载优势。

Learning-based Cooperative Robotic Paper Wrapping: A Unified Control Policy with Residual Force Control figure
arXiv2025-11-05

Learning-based Cooperative Robotic Paper Wrapping: A Unified Control Policy with Residual Force Control

强化学习

强化学习触觉接触丰富机器人学习操作

论文面向人机协作礼品包装这一长时程、接触丰富的纸张操作任务,动机是仓储与零售中的最终包装环节仍难自动化,因为纸张易起皱、易撕裂,还要求折叠与压痕阶段的细粒度力控制。作者提出分层框架:上层用LLM将自然语言协作指令转成子任务序列,下层以显式子任务ID扩展ACT,形成统一策略START建模整段时序,再用残差强化学习在线修正笛卡尔位姿与顺应参数。实机成功率达97%,但各组件分别带来多少增益文中未充分说明。

Development of the Bioinspired Tendon-Driven DexHand 021 with Proprioceptive Compliance Control figure
RA-L 20252025-11-05

Development of the Bioinspired Tendon-Driven DexHand 021 with Proprioceptive Compliance Control

灵巧操作

灵巧操作操作

这篇论文面向灵巧手长期存在的矛盾:想接近人手的自由度与顺应性,却受重量、线缆寿命和全手触觉布线复杂度限制。作者提出1 kg级腱驱五指手DexHand 021,将12个主动+7个被动自由度与类肌肉电机-拉索模型、基于本体力估计的导纳控制结合,用关节力矩估计部分替代密集触觉。实验显示其单指承载超10 N、指尖重复精度小于1 mm、力估计误差约0.15–0.19 N,相比PID抓取平均关节负载降31.19%,并完成33种GRASP手型及多种精细操作任务。

XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations figure
arXiv2025-11-04

XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations

VLA

VLALatent Learning机器人学习

论文针对现有VLA难以从高维观测稳定生成精细低层动作、且跨机器人与人类演示数据存在异构鸿沟的问题,提出XR-1:先用双分支VQ-VAE学习同时编码视觉动态与机器人运动的离散统一视觉-运动码UVMC,再以三阶段训练把该中间表征注入VLM,作为观测到动作之间的桥梁并对齐跨 embodiment 数据。作者在6种机器人、123个任务、1.4万余次真实rollout上报告优于π0.5、π0、RDT、UniVLA和GR00T-N1.5,并在新物体、背景扰动和光照变化下保持较强泛化;但增益有多少来自UVMC而非更大数据/训练规模,首页信息仍难完全拆清。

TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System figure
arXiv2025-11-04

TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

人形操作

人形操作数据采集遥操作

针对人形机器人缺少既能全身控制、又便携可扩展的数据采集框架的问题,TWIST2用PICO4U无动捕VR与自制约250美元的2自由度颈部,实现单人、免校准的全身遥操作和第一视角采集,并用“高层扩散策略+低层运动跟踪”的分层控制学习视觉到全身关节命令。文中展示了叠/展毛巾、过门搬运等长程技能,15–20分钟可采约100条演示且成功率接近100%,并学出了自主的全身抓放与踢击策略。

LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation figure
arXiv2025-11-04

LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation

任务规划

任务规划多模态推理操作

论文指出现有机器人操作多停留在单向“语言到动作”,缺少“看动作再解释”的能力,因而泛化和自监督潜力受限。LACY将L2A、A2L与语言一致性校验L2C统一到单一VLM中,并用低置信样本触发的数据增广形成自我改进闭环。在仿真与真实抓放任务上,其平均成功率较基线提升56.46%;但增益中各模块分别贡献文中未充分说明,且L2C对目标指代与定位错误的过滤仍有限。

Dexterous Robotic Piano Playing at Scale figure
arXiv2025-11-04

Dexterous Robotic Piano Playing at Scale

灵巧操作

灵巧操作操作应用

论文把双手机器人弹钢琴视为检验灵巧操作的高维、强接触、高速控制任务,目标是摆脱以往对人工指法标注和示范的依赖。其关键在于将指法分配建模为最优传输以自动生成训练信号,再训练2000多个单曲RL专家,用DAgger式重标注构建更高状态多样性的RP1M++,并以流匹配Transformer学习统一策略。结果得到OmniPianist,可演奏近千首曲目,未见歌曲平均F1为0.55,OT指法几乎追平人工标注且仅增约3%算时;但多曲目增益可能主要来自scaling/data,文中对真实硬件泛化边界未充分说明。

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process figure
ICLR 20262025-11-03

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

VLA

VLADiffusion Policy语言条件机器人学习

这篇工作针对统一VLA里未来图像生成与动作预测常由外部专家或分离流程处理、导致视觉前瞻难以真正指导控制的问题,提出UD-VLA与联合离散去噪JD3P,在统一视觉/动作token空间中配合混合注意力与两阶段训练,同步迭代去噪图像和动作,让动作在多步未来视觉约束下逐步细化。实验在CALVIN、LIBERO和SimplerEnv上取得SOTA,推理速度比自回归方法快约4倍,真实机器人任务成功率也超过80%。

Scaling Cross-Embodiment World Models for Dexterous Manipulation figure
arXiv2025-11-03

Scaling Cross-Embodiment World Models for Dexterous Manipulation

灵巧操作

灵巧操作跨本体世界模型操作非学习控制

论文关注跨本体灵巧操作中动作空间和运动学不一致导致的数据共享与迁移困难,核心洞察是可迁移的不是关节动作本身,而是与本体无关的环境动力学。作者将人手、机器手和物体统一表示为3D粒子,把动作定义为粒子位移,并用图世界模型结合MPC在统一粒子空间做预测与规划。结果表明,训练覆盖的手型越多,对未见本体泛化越好;仿真机器人数据与真人数据联合训练优于单独训练,并能迁移到6-DoF Ability Hand和12-DoF XHand完成刚体与可变形物体操作,增益看起来主要来自scaling与混合数据。

RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models figure
arXiv2025-11-03

RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models

强化学习

强化学习VLA触觉安全机器人学习

这篇工作针对VLA在真实部署中容易被观测噪声、传感误差和执行扰动击穿,而现有RL后训练只追求奖励、忽视鲁棒性的痛点,提出RobustVLA。其关键洞察是把观测扰动下的性能退化与策略Jacobian敏感性、把动作扰动下的退化与更新平滑性联系起来,并在在线RL中加入Jacobian正则和动作平滑约束。实验显示,它在多种LIBERO扰动设置下整体优于RIPT-VLA等基线,动作噪声平均成功率54.8%对50.5%,联合扰动下课程版达82.1%,且OOD迁移更稳。

PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model figure
ICLR 20262025-11-03

PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model

辅助任务

辅助任务VLA感知机器人学习

这篇工作针对现有 VLA 主要停留在图像级理解、且过度依赖文本指令,导致机器人在复杂场景中定位和操作不够精细的问题,提出 PixelVLA:在 VLA 骨干上加入视觉提示感知编码器与多尺度像素感知编码器,并通过两阶段自动标注流程构建 Pixel-160K,把点、线、区域和掩码等视觉提示及像素级监督引入动作学习。实验显示,其在三项基准上相对 OpenVLA 的成功率提升 10.1%–28.7%,而预训练成本仅约为后者的 1.5%。

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation figure
ICRA 20262025-11-03

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

VLA

VLA感知机器人学习操作

这篇工作针对现有VLA几乎只依赖RGB、难以利用温度、遮挡后目标和声源等非可见线索的问题,提出OmniVLA。其关键洞察是把红外、毫米波和麦克风阵列信号统一转成与RGB语义分割结果对齐的“传感器掩膜图像”,从而复用RGB预训练VLA的视觉编码器,只需轻量投影层就能更高效地接入多传感器信息。实机在冷饮抓取、隔箱找物、寻声找手机等任务上平均成功率达84%,相比纯RGB和原始传感器输入基线分别提升59%和28%,且数据效率与泛化更好。

Embodiment Transfer Learning for Vision-Language-Action Models figure
arXiv2025-11-03

Embodiment Transfer Learning for Vision-Language-Action Models

辅助任务

辅助任务VLA跨本体机器人学习

论文针对现有自回归VLA主要基于单臂数据预训练、迁移到多机器人时易出现动作分布失配甚至token数量错误的问题,提出ET-VLA:先用合成双臂数据做持续预训练(SCP)以适应新本体和动作序列长度,再用具身Graph-of-Thought把子任务组织成图,显式区分各机械臂的功能与协作顺序。方法在仿真和三种真实双臂平台上验证,六个真实任务上较OpenVLA提升53.2%以上,UR5e场景成功率约为其9倍。

EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning figure
ICLR 20262025-11-03

EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning

任务规划

任务规划多模态推理触觉机器人学习

这篇工作针对长时程机器人操作里“语言负责拆解任务、视觉负责想象中间目标”却常被分开建模、导致规划不一致的问题,提出统一的视觉—语言规划器EVLP,在同一自回归框架中同时生成动作文本和子目标图像;核心做法是结合SigLIP与离散图像token的双塔视觉模块、前向/逆向动力学预训练,以及用强化式监督微调强调动作与生成图像的空间逻辑而非像素细节。文中称其在多项复杂操作任务上优于基线,提升了指令执行准确率和任务成功率,但摘要片段未给出具体提升幅度。

Contact Map Transfer with Conditional Diffusion Model for Generalizable Dexterous Grasp Generation figure
NeurIPS 20252025-11-03

Contact Map Transfer with Conditional Diffusion Model for Generalizable Dexterous Grasp Generation

抓取

抓取灵巧操作Diffusion Policy泛化操作

这篇工作针对灵巧抓取中“解析法稳定但慢、生成法高效却难泛化”的矛盾,提出基于模板迁移的条件扩散框架:不直接预测手型,而是把抓取建模为对象接触图迁移,并用双重映射与级联生成联合转移接触图、部位图和方向图,最后通过稳健优化恢复抓取姿态。实验表明,它在未见物体、任务乃至类别上都能生成更稳定且符合任务意图的抓取,同时兼顾效率;但摘要未给出具体量化增益。

AERMANI-VLM: Structured Prompting and Reasoning for Aerial Manipulation with Vision Language Models figure
arXiv2025-11-03

AERMANI-VLM: Structured Prompting and Reasoning for Aerial Manipulation with Vision Language Models

空中操作

空中操作语言条件操作

面向空中机械臂,直接让VLM输出动作容易出现幻觉、时序不稳且不满足飞行安全约束。AERMANI-VLM的核心是把“高层推理”和“低层控制”解耦:用结构化提示词和显式推理轨迹约束预训练VLM,只负责从离散的飞行安全技能库中选技能,因此无需任务微调也更可解释。文中在仿真与真机多步抓取放置任务上展示了对未见指令、物体和环境的泛化,但摘要片段未给出具体量化增益,判断基于公开摘要/片段。

GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies figure
NeurIPS 20252025-11-02

GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies

多智能体/多机器人

多智能体/多机器人3D 表征Diffusion Policy机器人学习

本文针对多机器人协作中“局部视角便于精细操控、全局视角利于协同”难以兼得的问题,提出 GauDP:先从分散的多视角 RGB 观测重建共享的 3D Gaussian 场,再按各智能体当前视角选择性分发相关 3D 属性,并与局部像素级特征融合进 diffusion policy,部署时仍仅需 RGB。RoboFactory 多臂实验表明,它显著优于现有纯图像模仿学习方法,性能接近点云驱动的 3D Diffusion Policy,且在智能体数量增加时更具可扩展性。

iFlyBot-VLA Technical Report figure
arXiv2025-11-01

iFlyBot-VLA Technical Report

VLA

VLALatent Learning机器人学习

这篇工作针对VLA在机器人轨迹上端到端训练时容易削弱VLM感知与推理、又难兼顾精细连续控制的问题,提出先用人类与机器人操作视频学习潜在动作,再以“潜在意图+结构化离散动作”双层监督联合训练VLM和flow动作专家,并混入通用QA与空间QA数据维持3D理解。文中称其在LIBERO Franka上优于基线、在真实双臂任务上也有竞争力,但摘要未给出关键数值,增益有多少来自更大数据与数据配比仍不清楚。

Improving Robustness to Out-of-Distribution States in Imitation Learning via Deep Koopman-Boosted Diffusion Policy figure
T-RO 20252025-11-01

Improving Robustness to Out-of-Distribution States in Imitation Learning via Deep Koopman-Boosted Diffusion Policy

模仿学习

模仿学习Diffusion Policy泛化安全机器人学习

这篇工作针对扩散式模仿学习在分布外状态下易因过度依赖本体感觉而忽视视觉目标、从而卡住或振荡的问题,提出 D3P:以视觉分支负责任务进度判断和失败恢复,以视觉-本体融合分支负责精细操作,并用 Deep Koopman 强化视觉时序建模,再根据测试时生成损失作为置信度聚合重叠动作块。实验显示,其在 6 个 RLBench 任务上平均提升 14.6%,在 3 个真实机器人任务上提升 15.0%。

RoboCOIN: An Open-Sourced Bimanual Robotic Data COllection for INtegrated Manipulation figure
-2025-11

RoboCOIN: An Open-Sourced Bimanual Robotic Data COllection for INtegrated Manipulation

数据采集

数据采集双臂操作数据集/Benchmark

这项工作针对双臂操作数据长期受平台异构、规模不足且缺少过程结构标注的瓶颈,开源了 RoboCOIN:一个由人遥操作采集、覆盖15种机器人平台、421项任务、18万余条示教的多本体双臂数据集。其核心创新是轨迹级、片段级、帧级的分层能力金字塔,以及用 CoRobot/RTML 实现质检、自动标注和统一管理。实验表明这些结构化信息可在多种模型与机器人上稳定提升学习效果,但文中片段未充分说明具体增益幅度,提升也可能部分来自更大规模数据。

EmbodiedCoder: Parameterized Embodied Mobile Manipulation via Modern Coding Model figure
arXiv2025-109-07

EmbodiedCoder: Parameterized Embodied Mobile Manipulation via Modern Coding Model

移动操作

移动操作任务规划程序化规划操作

这篇工作针对移动操作系统常依赖大规模数据或固定技能库、难以处理开门开抽屉等细致交互的问题,提出训练自由的 EmbodiedCoder:先将目标点云用代码参数化为带功能约束的几何体,再由代码合成满足接触、障碍与运动学约束的操作轨迹并采样执行,把高层语言规划直接落到可解释的机器人程序上。论文称其在真实移动机器人长时任务中对新物体和新环境更稳健,但给定材料未见完整量化结果,具体提升幅度文中未充分说明。

Whole-Body Proprioceptive Morphing: A Modular Soft Gripper for Robust Cross-Scale Grasping figure
RoboSoft 20262025-10-31

Whole-Body Proprioceptive Morphing: A Modular Soft Gripper for Robust Cross-Scale Grasping

抓取

移动操作抓取软体机器人安全操作

论文针对传统刚性或软体夹爪虽具柔顺性却受固定整体形态限制、难以跨尺度稳定抓取的问题,提出“全身本体感知形变”模块化软夹爪:以可自感知的气动掌部和手指模块分布式协同,在闭环压力与弯曲反馈下重构整体拓扑和外形,再完成局部包覆抓取。实验表明,该设计可在约10倍尺度范围内适应标准与不规则物体,扩大抓取包络,并支持多物体抓取和内部钩挂等传统设计难以实现的操作。

Learning Generalizable Visuomotor Policy through Dynamics-Alignment figure
arXiv2025-10-31

Learning Generalizable Visuomotor Policy through Dynamics-Alignment

Flow Matching

Flow Matching泛化机器人学习

本文针对行为克隆在分布外场景中易过拟合、而视频预测方法又因不建模动作条件而依赖超大专家数据的问题,提出 DAP:用专家与随机轨迹学习显式动作条件动力学,并在 flow matching 生成动作时让策略与动力学共享中间流样本、相互纠偏,使策略能依据预测后果自我修正。文中在4个真实机器人操作任务上报告平均75%成功率,较最优基线提升12.5个百分点,在视觉干扰和光照变化等 OOD 设置下也提升约10个百分点。

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations figure
arXiv2025-10-31

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

视频规划

移动操作视频规划模仿学习数据采集泛化操作

这篇工作针对第一视角人类示教到机器人操作中的“具身鸿沟”:人会主动转头搜寻并配合双手操作,固定相机机器人因此在视角分布上严重失配。EgoMI用同步头手轨迹采集装置结合整身重定向学习,并提出SPARKS从历史头部画面中选关键帧补足空间记忆,缓解快速视角切换导致的上下文丢失。实机双臂半人形实验中,显式建模头部运动与记忆优于无头或无记忆基线,在零机器人数据、无视觉增强下实现迁移;如记忆任务成功率31/40,对比21/40。

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities figure
arXiv2025-10-31

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

机器人学习

机器人学习

论文针对扩散策略在机器人模仿学习中计算开销大、依赖噪声调度且在分布偏移下易误差累积的问题,提出 EBT-Policy:用基于 Transformer 的显式能量函数对动作轨迹打分,并通过带正则的能量最小化、能量缩放的 Langevin/MCMC 与加速梯度采样动作,把能量同时作为不确定性和动态算力分配信号。实验显示其在仿真与真实任务上整体优于 Diffusion Policy,部分任务仅需 2 步推理即可达到接近或更高成功率,在 robomimic 的 Square/Tool Hang 上最高提升约 24%,还出现了无需重试数据的零样本失败恢复行为。

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model figure
arXiv2025-10-31

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

辅助任务

辅助任务VLADiffusion Policy数据增强世界模型感知机器人学习

这篇工作针对VLA引入世界模型时“动作低维平滑、未来视觉高维结构化”而难以联合预测的问题,提出DUST:用双流扩散Transformer分别建模动作与视觉token,并通过共享注意力做双向交互,避免强行塞进统一潜空间;训练上对两种模态独立加噪并用解耦flow matching,推理时再异步采样、让视觉比动作更高频去噪。实验显示其在RoboCasa、GR-1上较基线最高提升6%,测试时scaling再带来2–5%增益,Franka真实任务成功率提升13%,且能利用BridgeV2无动作视频预训练迁移。

A Step Toward World Models: A Survey on Robotic Manipulation figure
arXiv2025-10-31

A Step Toward World Models: A Survey on Robotic Manipulation

世界模型

世界模型操作综述

论文的动机是:机器人若想在复杂、动态、不确定环境中完成操作,不能只靠反应式控制或模仿,而需要可预测、可规划的内部世界表示。其核心洞察是不先强行定义“世界模型”,而是回到机器人操作文献,按能力而非标签梳理相关方法,系统归纳隐式建模、潜在动力学、视频生成等范式,并提炼感知、预测、想象、交互等核心组件。主要结果是形成一套面向操作任务的分类与能力框架,说明世界模型在决策支持和训练促进中的作用,同时总结数据、长时程推理、时空一致性、泛化、物理认知与记忆等瓶颈;作为综述,新的定量增益与统一评测结论文中未充分说明。

SpikeATac: A Multimodal Tactile Finger with Taxelized Dynamic Sensing for Dexterous Manipulation figure
ICRA 20262025-10-30

SpikeATac: A Multimodal Tactile Finger with Taxelized Dynamic Sensing for Dexterous Manipulation

灵巧操作

灵巧操作触觉机器人学习操作

这篇工作针对机器人手难以同时获得高时效动态触觉与稳定静态压力、因而既难快速停手又难操作易碎物的问题,提出 SpikeATac 多模态触觉手指:在类手指曲面上集成 16-taxel、4 kHz 的 PVDF 动态阵列和 7 个电容压力单元,并配合模仿学习与基于人类反馈、触觉奖励的强化学习做力调节。实验表明,它能比电容或力传感更早感知轻触,实现更快更轻的易碎物抓取,并在四指手上完成此前少见的易碎物体手内重定向操作。

Self-Improving Vision-Language-Action Models with Data Generation via Residual RL figure
ICLR 20262025-10-30

Self-Improving Vision-Language-Action Models with Data Generation via Residual RL

VLA

VLA数据生成机器人学习

该文针对VLA后训练过度依赖昂贵人工示教、且人类轨迹与策略真实部署状态分布错位的问题,提出PLD:先冻结通用VLA并用轻量残差RL专家接管其失败状态,再用面向部署分布的混合rollout收集带恢复行为的成功轨迹,最后蒸馏回基座模型做SFT。实验中,PLD在LIBERO达到约99%成功率,在SimplerEnv较基线提升超50%,并在Franka与YAM真实机器人任务上实现100%成功,同时对未见任务仍保留一定泛化。

Running VLAs at Real-time Speed figure
arXiv2025-10-30

Running VLAs at Real-time Speed

VLA

VLA机器人学习

论文动机是解决大参数VLA虽有泛化能力、却因百毫秒级延迟难以胜任动态机器人操作的问题。作者的核心洞察是,瓶颈主要在推理部署而非模型本身,因此围绕π0做系统级加速:用CUDA Graph去掉CPU发射开销,再配合计算图重写、层/QKV融合及内核与内存布局优化,并提出VLM 30Hz、AE最高480Hz的全流式控制框架。在单张RTX 4090上,双视角延迟降到27.3ms,落笔抓取实机成功率达100%;但更复杂任务上的泛化文中未充分说明。

Hybrid Consistency Policy: Decoupling Multi-Modal Diversity and Real-Time Efficiency in Robotic Manipulation figure
arXiv2025-10-30

Hybrid Consistency Policy: Decoupling Multi-Modal Diversity and Real-Time Efficiency in Robotic Manipulation

Diffusion Policy

Diffusion Policy机器人学习操作

这篇论文针对机器人扩散策略“多模态强但采样慢、快速一致性蒸馏又易模式塌缩”的矛盾,提出 Hybrid Consistency Policy。其核心洞察是用一个自适应切换时刻把“随机分叉保留多模态”和“一步生成提升实时性”解耦:先做短程 SDE 采样形成行为分支,再通过时间变化的一致性蒸馏一步跳到最终动作。实验显示,25 步 SDE+1 步跳跃已接近 80 步 DDPM 教师的成功率与模式覆盖,真机时延从 0.54s 降到 0.17s,最高约提速 68%。

Human-in-the-loop Online Rejection Sampling for Robotic Manipulation figure
arXiv2025-10-30

Human-in-the-loop Online Rejection Sampling for Robotic Manipulation

RL+IL

RL+IL基础模型机器人学习操作

这篇论文针对VLA在真实机器人操作中后训练的两难:纯IL容易因分布外状态和误差累积失效,纯RL又受Q值估计不准、只监督最终动作而训练不稳。作者提出Hi-ORS,用在线拒绝采样仅保留正回报轨迹,并以回报加权的监督目标训练中间推理步骤,同时把人类在线纠错纳入异步训练框架以学习恢复行为。在3个真实任务、2种机器人本体上,该方法可在约1.5小时实机训练内把π0适配到接触丰富操作,效果和样本效率均明显优于RL与IL基线。

End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection figure
arXiv2025-10-30

End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection

灵巧操作

灵巧操作VLA数据采集数据增强人机交互遥操作操作

论文聚焦灵巧臂手 VLA 训练里高质量示教稀缺的问题:纯人工遥操作负担过重,自动规划又易产生僵硬且分布失真的动作。作者提出共享自治框架,让人用 VR 负责机械臂宏观运动,触觉/视觉驱动的 DexGrasp-VLA 接管手部微操,并用 Arm-Hand Feature Enhancement 显式建模臂手共享与专属表征,结合纠错式接管持续补数据。实验称在 50 余个物体含未见实例上成功率约 90%,且明显降低人工负担;但结构模块相对数据采集改进的独立增益来源,文中未充分说明。

Emu3.5: Native Multimodal Models are World Learners figure
arXiv2025-10-30

Emu3.5: Native Multimodal Models are World Learners

任务规划

任务规划视频规划

论文关注现有多模态模型难以从长时序视频—语言经验中学习一致的世界动态,因而难支撑开放场景规划与操作。作者提出原生多模态世界模型Emu3.5,用统一 next-token 目标在超10T交错视频文本上端到端预训练,并结合多模态奖励RL与DiDA并行解码,将图像推理加速约20倍。结果显示其在图像生成/编辑上接近 Gemini 2.5 Flash Image,在交错生成、世界探索和具身操作评测上更优,说明增益可能主要来自大规模视频数据与统一训练范式。

Co-Evolving Latent Action World Models figure
arXiv2025-10-30

Co-Evolving Latent Action World Models

任务规划

任务规划视频规划Latent Learning世界模型

这篇工作针对把预训练视频生成模型改造成可控世界模型时,两阶段“先学潜在动作、再训世界模型”存在的重复建模和动作空间僵化问题,提出 CoLA-World:用世界模型直接替代 LAM 中的前向动力学,并先冻结世界模型、仅用其梯度预热 IDM 以完成表示对齐,避免联合训练塌缩,进而实现两者的共同进化。实验在第一视角与机器人操作视频上显示,其视频预测质量和下游视觉规划达到或优于两阶段方法,同时提升了可控性与数据效率。

πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models figure
arXiv2025-10-29

πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对流式 VLA(如 π0/π0.5)难以直接做在线强化学习的问题:flow matching 难以计算动作对数似然,且 ODE 去噪过程缺少探索性。作者提出 πRL,用 Flow-Noise 将去噪离散成可精确求似然的 MDP,并用 Flow-SDE 把 ODE 随机化为双层 MDP,进而支持 PPO 微调。文中称其在多项基准的分布内与分布外评测中都明显优于 SFT,例如图示 LIBERO-Long 从 43.9% 提升到 94.0%,但更细的增益来源文中未充分说明。

Sim-to-Real Gentle Manipulation of Deformable and Fragile Objects with Stress-Guided Reinforcement Learning figure
arXiv2025-10-29

Sim-to-Real Gentle Manipulation of Deformable and Fragile Objects with Stress-Guided Reinforcement Learning

可变形物体

可变形物体强化学习触觉Sim2Real操作

论文聚焦可变形、易碎物体操作中“完成任务”和“避免压坏”难以兼顾的问题,目标是摆脱精确物体模型、触觉传感器和专用夹爪的依赖。核心洞察是把仿真中可计算的内部应力当作物理先验,加入仅基于RGB-D点云的强化学习奖励,并结合离线示范与“刚体替身→软物体”的课程学习来稳定训练。最终策略可从仿真零样本迁移到真实豆腐抓取和推动,在完成任务的同时较普通RL将施加应力降低36.5%;但跨更多物体的泛化文中未充分说明。

NanoVLA: Routing Decoupled Vision-Language Understanding for Nano-sized Generalist Robotic Policies figure
arXiv2025-10-29

NanoVLA: Routing Decoupled Vision-Language Understanding for Nano-sized Generalist Robotic Policies

VLA

VLA基础模型机器人学习操作

这篇论文聚焦VLA在Jetson Orin Nano等边缘设备上难落地的问题:现有方案推理开销大、长时序控制易发抖,且固定大骨干对简单任务常属过度计算。NanoVLA的核心是将视觉—语言融合后置以缓存指令表征,并结合“长规划、短执行”的动作分块和按任务复杂度切换轻重骨干的动态路由。实验中,它以约98%更少参数实现最高52倍边端加速,并在LIBERO和LeRobot实机任务上达到或超过OpenVLA等基线的成功率。

GET-USE: Learning Generalized Tool Usage for Bimanual Mobile Manipulation via Simulated Embodiment Extensions figure
IROS 20252025-10-29

GET-USE: Learning Generalized Tool Usage for Bimanual Mobile Manipulation via Simulated Embodiment Extensions

跨本体

移动操作跨本体双臂操作应用

针对机器人在缺少标准工具、且需从多种日常物体中挑选“最能凑合”的工具这一难题,GET-USE把工具使用建模为机器人本体的临时扩展:先在仿真中用强化学习为腕部逐步生成块状末端执行器,从成功形状中学习任务所需的几何偏好,再蒸馏为基于深度图的工具选择、抓取与使用策略,零样本迁移到真实22自由度双臂移动平台。在倾倒、清扫和勾取三类任务上,其成功率较现有方法提升30%到60%。

PFEA: An LLM-based High-Level Natural Language Planning and Feedback Embodied Agent for Human-Centered AI figure
arXiv2025-10-28

PFEA: An LLM-based High-Level Natural Language Planning and Feedback Embodied Agent for Human-Centered AI

任务规划

任务规划语言条件

面向人机协作中机器人难以在新环境里按高层自然语言在线规划、执行并纠错的问题,PFEA把语音交互、视觉场景感知规划、指令转换和任务反馈评估串成闭环,使机器人能结合当前物体布局分解步骤、执行后验证目标状态并在失败时重规划。该系统以免训练方式连接大模型与真实机械臂,在仿真和真实场景、含无提示任务的多类桌面操作中,相比仅用LLM+CLIP的方案平均任务成功率提升28%。

Learning Parameterized Skills from Demonstrations figure
NeurIPS 20252025-10-28

Learning Parameterized Skills from Demonstrations

模仿学习

模仿学习Latent Learning机器人学习

论文关注离散技能泛化差、连续潜变量又难解释的问题,尝试直接从多任务示范中发现“离散技能+连续参数”的可复用操作。DEPS用三层层级策略联合学习技能选择、参数生成与底层动作,并借助时间变分推断、按技能预测参数和一维状态压缩的信息瓶颈抑制潜变量退化。结果显示其在LIBERO和MetaWorld上优于多任务与技能学习基线,对未见任务的小样本微调泛化更强,还能学到如抓取位置可控的可解释技能。

Language-Conditioned Representations and Mixture-of-Experts Policy for Robust Multi-Task Robotic Manipulation figure
arXiv2025-10-28

Language-Conditioned Representations and Mixture-of-Experts Policy for Robust Multi-Task Robotic Manipulation

VLA

VLA安全语言条件机器人学习操作

这篇工作针对多任务模仿学习里“相似观测却需不同动作”带来的感知歧义与共享网络梯度冲突,提出轻量级语言条件框架:先用LCVR将高分辨率全局/局部视觉特征与指令做跨注意力融合,得到更能区分任务意图的表征;再用带MDN专家的稀疏MoE扩散策略并结合梯度调制,让不同任务动作分布分而治之。实机五任务上,LCVR分别把ACT和DP成功率提升33.75%与25%,完整方法平均成功率达79%,较Σ-agent高21%。

DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation figure
NeurIPS 20252025-10-28

DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation

3D 表征

3D 表征Latent Learning机器人学习操作

面向机器人操作中真实数据稀缺、现有方法往往把2D语义预训练与动态建模割裂的问题,DynaRend提出基于多视角RGB-D视频的 masked future rendering:先将点云投到 triplane,再结合语言同时做遮蔽重建与未来预测,并用可微体渲染联合监督RGB、深度和语义,从统一3D隐空间中学习几何、任务语义与未来动态。实验显示,该表征在RLBench、Colosseum及5个真实机器人任务上均提升成功率,并对物体颜色、尺寸和光照扰动更稳健。

BLM1: A Boundless Large Model for Cross-Space, Cross-Task, and Cross-Embodiment Learning figure
arXiv2025-10-28

BLM1: A Boundless Large Model for Cross-Space, Cross-Task, and Cross-Embodiment Learning

任务规划

任务规划多模态推理跨本体

这篇工作针对现有 MLLM 难从数字世界迁移到真实机器人、VLA 会控制但高层推理弱、ELLM 又多停留在数字空间的问题,提出统一的 BLM1:先在数字具身语料中给 MLLM 注入空间与任务知识,再用“意图桥”在冻结主干下训练策略模块,把高层语义迁到四种本体的控制上,并配套四种机器人、六类任务示教集。结果上,单一模型在数字与物理基准分别约提升 6% 和 3%,但增益有多少来自更多数据或 scaling,现有片段未充分说明。

Adaptive-twist Soft Finger Mechanism for Grasping by Wrapping figure
RA-L 20252025-10-28

Adaptive-twist Soft Finger Mechanism for Grasping by Wrapping

抓取

抓取软体机器人操作

面向蔬菜工厂中从密集堆放物体间挑出单个目标的需求,论文提出一种单驱动软体手指:低压时可在面内与面外自适应扭转,便于深入不规则缝隙;升压后通过自锁式变刚度外骨骼抑制接触切向柔顺性,把驱动力更有效转成法向包裹力,实现“包裹式抓取”。作者用有限元确定关键结构参数,实验显示机构在1.5 MPa下可提供1.2 Nm抗弯矩、压力控制时间常数约0.3 s,三指手可稳定抓取3 kg物体,并成功从一箱密集卷心菜中取出单颗,优于既有液压软手。

A Humanoid Visual-Tactile-Action Dataset for Contact-Rich Manipulation figure
arXiv2025-10-28

A Humanoid Visual-Tactile-Action Dataset for Contact-Rich Manipulation

人形操作

人形操作触觉接触丰富感知操作数据集/Benchmark

面向真实接触丰富操作中软体物体受力变化难、现有数据集又偏刚体和低分辨触觉的问题,论文构建了首个人形机器人视觉—触觉—动作数据集:通过遥操作采集毛巾、海绵在强弱压力下的10.19万帧多模态数据,并比较2124维稠密触觉与42维稀疏表示。结果表明软体操作的触觉分布会随时间和压力显著变化,稠密触觉更能刻画复杂接触;但模仿学习测试增益较小、优化仍困难,增益来源不清。

RobotArena: Scalable Robot Benchmarking via Real-to-Sim Translation figure
ICLR 20262025-10-27

RobotArena: Scalable Robot Benchmarking via Real-to-Sim Translation

基础操作

基础操作Sim2Real操作数据集/Benchmark

论文针对真实机器人评测昂贵、低速、难复现且依赖人工判分的问题,提出RobotArena∞:把真实示教视频自动翻译成可批量生成的仿真数字孪生,并结合VLM打分、众包两两偏好比较与环境扰动,形成可扩展的VLA基准。结果显示其已在约100个场景、数百种扰动和8500+偏好对上评测6个模型;当前VLA对数据分布和场景变化都很敏感,但模型相对排序较稳定。判断基于公开摘要/项目页。

OmniDexGrasp: Generalizable Dexterous Grasping via Foundation Model and Force Feedback figure
arXiv2025-10-27

OmniDexGrasp: Generalizable Dexterous Grasping via Foundation Model and Force Feedback

抓取

抓取灵巧操作触觉泛化基础模型操作

这篇工作针对语义灵巧抓取数据稀缺、现有方法难泛化到新物体、任务和手型的问题,提出先让基础生成模型按语言、掩码或示例图生成“人手抓取图”,再通过手物重建、姿态迁移与力反馈控制转成可执行机器人动作,以弥合模型常识与物理执行之间的落差。实验称其在仿真和真实机器人上支持多种提示、多类抓取任务和不同灵巧手,并可扩展到操作任务;但当前公开摘要/片段未充分说明具体量化提升与增益来源。

ManiDP: Manipulability-Aware Diffusion Policy for Posture-Dependent Bimanual Manipulation figure
IROS 20252025-10-27

ManiDP: Manipulability-Aware Diffusion Policy for Posture-Dependent Bimanual Manipulation

Diffusion Policy

Diffusion Policy双臂机器人学习操作

这篇工作针对双臂扩散策略只学轨迹、不学姿态相关任务特征的问题,指出很多操作成败取决于双臂是否在特定方向上具备合适的力/速度可操作性。作者提出ManiDP,把对称与非对称任务的双臂可操作椭球分别建模为绝对/相对可操作性,并在SPD流形上学习专家姿态先验,再用其引导扩散采样生成更符合任务要求的双臂动作。六个真实任务中,平均成功率较基线提升39.33%,任务兼容性提高0.45。

Dexbotic: Open-Source Vision-Language-Action Toolbox figure
arXiv2025-10-27

Dexbotic: Open-Source Vision-Language-Action Toolbox

VLA

VLA机器人学习

这篇工作针对VLA研究中代码库分散、数据格式不统一、不同策略难以公平复现和比较的问题,提出开源工具箱Dexbotic。其核心是把各类VLA统一抽象为VLM+动作专家两层,并配套Dexdata数据格式、基于Exp脚本的实验框架及更强的预训练底座,支持π0、OFT、CogACT等操作/导航策略的一站式训练与部署。文中宣称新底座在SimplerEnv、CALVIN和部分真实机器人任务上带来明显提升,但给定材料未见完整量化结果,增益来源也可能部分来自更强VLM/LLM与数据或scaling。

A Survey on Efficient Vision-Language-Action Models figure
arXiv2025-10-27

A Survey on Efficient Vision-Language-Action Models

VLA

VLA综述

该综述的动机是,基础VLA虽展现出通用操作潜力,却长期受推理延迟高、训练算力昂贵和机器人数据采集低效所限,难以真正部署到边缘机器人。文中核心贡献是首次围绕“模型—训练—数据”全链路提出高效VLA统一分类框架,系统梳理架构/压缩、高效预训练与后训练、以及仿真、自驱和数据增强等路线。其主要结果是补上了该方向缺少系统地图的空白,并总结应用、挑战与未来方向;但作为综述,文中未充分说明各方法在统一基准下的可比量化增益。

ACG: Action Coherence Guidance for Flow-based VLA models figure
ICRA 20262025-10-25

ACG: Action Coherence Guidance for Flow-based VLA models

VLA

VLAFlow Matching机器人学习操作

论文关注流匹配VLA在模仿含抖动、停顿的人类演示后,常在动作块内部产生不连贯控制,导致精细操作失稳与轨迹漂移。ACG的关键做法是在测试时把部分自注意力替换为恒等注意力,人为构造“时序不连贯”向量场,再沿其反方向引导采样,从而无需再训练地提升动作一致性。实验中它优于平滑、集成和CFG,在RoboCasa、DexMimicGen及真实SO-101上均提高成功率,如按钮按压+23.1%、插入+11.8%、真实抓放+28.8%。

VITRA: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos figure
arXiv2025-10-24

VITRA: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos

灵巧操作

灵巧操作视频规划VLA基础模型操作

论文出发点是灵巧操作VLA缺少大规模、低成本且多样的真实机器人数据。VITRA把无标注第一视角人手活动视频视作机器人末端执行器示范,自动完成3D手/相机轨迹恢复、基于运动速度的原子动作切分,并用VLM生成语言标签,从而构建约100万条、2600万帧的手部VLA预训练集。结果表明,预训练模型在未见场景上具备较强零样本动作预测能力,少量真实机器人数据微调后任务成功率和新物体泛化进一步提升;其增益看起来也可能主要来自scaling与数据覆盖面的扩大。

Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising figure
NeurIPS 20252025-10-24

Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising

Diffusion Policy

Diffusion Policy机器人学习操作

论文关注扩散策略在机器人控制中推理步数多、延迟高的问题。作者的关键洞察是:把图像生成中的采样启发式直接迁到低维、结构化的动作分布,会因 clipping 造成中间态分布外,并且机器人任务往往更受益于减少注入噪声。基于此,文中在不重训模型的前提下提出遗传去噪,用种群采样与 OoD 风险评分筛选更“在分布内”的去噪轨迹。方法在 D4RL/Robomimic 的 14 个操作任务上以 2–5 次 NFE 即可达到或超过基线,最高提升约 20%,稳定性也更好。

Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning figure
NeurIPS 20252025-10-24

Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning

任务规划

任务规划程序化规划

这篇工作针对 Code-as-Policies 在动态、部分可观测环境中常因观测缺失而生成不落地代码、导致机器人任务失败的问题,提出 NESYRO:把符号验证与交互式验证递归结合,在执行前静态检查代码逻辑与前置条件,并生成安全的探索代码主动补全关键观测,从而把“未接地”的计划变成可执行方案。论文在 RLBench 和真实机器人任务上相比基线 Code-as-Policies 将成功率提升 46.2%,任务相关动作可执行率超过 86.8%。

Generalizable Hierarchical Skill Learning via Object-Centric Representation figure
RA-L 20262025-10-24

Generalizable Hierarchical Skill Learning via Object-Centric Representation

3D 表征

3D 表征VLA泛化对象中心机器人学习

这项工作针对端到端 VLA 在机器人数据稀缺时难以学出稳健且可泛化视觉运动映射的问题,提出分层框架 GSL:高层 VLM 预测“技能—对象”对,训练时再借助基础模型把演示分解为在对象坐标系下表达的规范化技能与轨迹,让低层学习可迁移的操作原语。这样把语义规划与局部控制解耦后,仿真中每任务仅 3 条演示就比使用约 30 倍数据训练的基线在未见任务上高 15.5%,真实实验也超过了用 10 倍数据的基线。

Enhancing Tactile-based Reinforcement Learning for Robotic Control figure
NeurIPS 20252025-10-24

Enhancing Tactile-based Reinforcement Learning for Robotic Control

强化学习

强化学习触觉基础模型机器人学习操作

论文针对机器人操作仍依赖视觉/特权状态、而触觉强化学习效果不稳定的问题,指出症结在于二值接触信号稀疏且不连续,端到端RL容易学不到有效触觉表征。作者在仅用本体感觉与17路二值触觉的设定下,引入四类自监督目标并将辅助记忆与on-policy数据解耦,其中前向动力学目标效果最好。RoTO基准实验表明,触觉对手物解耦运动等场景尤其关键,并在Bounce与Baoding等复杂接触任务上实现超人水平灵巧操作。

SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing figure
NeurIPS D&B 20252025-10-23

SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing

数据集/Benchmark

数据集/Benchmark

针对真实机器人缝合长期缺少可复现数据、统一基准和精度指标,SutureBot在dVRK上构建了覆盖取针、穿刺、打结的端到端缝合基准,并发布1890条高保真示教。其核心做法是把用户指定的进/出针点作为目标条件,与高层任务预测和低层策略联合建模,显式优化落点精度;相较仅任务条件基线,定位精度提升59%–74%,并给出π0、GR00T N1、OpenVLA-OFT、ACT等VLA模型的基线评测。不过文中摘要未充分说明完整端到端成功率。

PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning figure
NeurIPS 20252025-10-23

PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning

3D 表征

3D 表征模仿学习VLA语言条件机器人学习

这项工作针对机器人模仿学习中“RGB有语义却缺几何、点云有几何却常因FPS/KNN下采样丢细节”的矛盾,提出 PointMapPolicy:将点云表示成与图像对齐的规则二维点图,并在扩散策略中用 xLSTM 融合点图与 RGB,既保留多视角三维结构与坐标关系,又能直接复用成熟视觉编码器。文中报告其在 RoboCasa、CALVIN 和真实机器人实验中优于 RGB、深度图及传统点云基线,在 CALVIN 从零训练设定下达到 SOTA,且训练和推理效率更高。

NeuralTouch: Neural Descriptors for Precise Sim-to-Real Tactile Robot Control figure
arXiv2025-10-23

NeuralTouch: Neural Descriptors for Precise Sim-to-Real Tactile Robot Control

触觉

触觉Sim2Real机器人学习

该文针对仅靠视觉NDF抓取易受标定误差、点云缺失和物体差异影响,难以达到精确接触,而纯触觉策略又常依赖预定义接触几何的问题,提出NeuralTouch:先用NDF生成可泛化的粗抓取位姿,再以神经描述子为条件训练6DoF触觉强化学习策略,通过轻触交互细调手爪姿态,无需显式指定接触类型。仿真消融和零样本实机迁移显示,其在插拔与开瓶盖等高精度任务上较基线更准、更稳,但文中片段未充分说明具体提升幅度与增益拆解。

MemER: Scaling Up Memory for Robot Control via Experience Retrieval figure
ICLR 20262025-10-23

MemER: Scaling Up Memory for Robot Control via Experience Retrieval

VLA

VLA数据检索机器人学习

这篇工作针对机器人策略缺乏长时记忆、直接输入长视频历史既昂贵又易受协变量偏移影响的问题,提出分层式 MemER:高层 VLM 在线从经验中挑选并追踪与任务相关的关键帧,形成紧凑记忆,再结合最近观测生成文本子任务,交给底层 VLA 执行动作。作者用约50条示教和少量语言标注微调 Qwen2.5-VL-7B 与 π0.5,在三个需数分钟回忆的真实长程操作任务上优于既有方法。

MR-UBi: Mixed Reality-Based Underwater Robot Arm Teleoperation System with Reaction Torque Indicator via Bilateral Contro figure
arXiv2025-10-23

MR-UBi: Mixed Reality-Based Underwater Robot Arm Teleoperation System with Reaction Torque Indicator via Bilateral Contro

水下操作

水下操作数据采集遥操作操作

面向水下遥操作中因水动力扰动和低能见度导致的力觉模糊、抓取力难控问题,作者提出MR-UBi:在低成本3自由度双边遥操作机械臂上,将反作用扭矩以MR头显内的条形长度与颜色叠加显示,使视觉提示与力反馈协同帮助操作者调节夹持。16人实验表明,相比仅双边控制基线,该系统在搬运和抓放不同刚度物体时显著提高处于最佳扭矩区间的时间,减少欠抓与过抓,并提升SUS、降低NASA-TLX负担。

GSWorld: Closed-Loop Photo-Realistic Simulation Suite for Robotic Manipulation figure
ICRA 20262025-10-23

GSWorld: Closed-Loop Photo-Realistic Simulation Suite for Robotic Manipulation

基础操作

基础操作操作数据集/Benchmark

这项工作针对操控策略开发中“仿真动作空间对齐但视觉失真、真实数据逼真却昂贵且难复现”的矛盾,提出闭环仿真套件 GSWorld:用 3D Gaussian Splatting 与物理引擎结合,并设计 GSDF 资产格式,把重建出的真实场景、机器人 URDF、碰撞与材质统一到可训练、可评测、可回放纠错的数字孪生中。文中构建了含 3 种机器人和 40 余物体的资产库,并展示了零样本 sim2real 模仿学习、视觉 RL、DAgger 纠错采集和可复现实验基准;但具体相对基线增益来源不清,判断基于公开摘要/项目页。

FieldGen: From Teleoperated Pre-Manipulation Trajectories to Field-Guided Data Generation figure
arXiv2025-10-23

FieldGen: From Teleoperated Pre-Manipulation Trajectories to Field-Guided Data Generation

数据采集

数据采集数据生成操作

这篇工作针对真实机器人操作数据采集中“规模、多样性、质量”难兼得的问题:仿真有 sim-to-real gap,纯遥操作又昂贵且轨迹易模式化。FieldGen 的核心洞察是把任务拆成可容忍轨迹变化的预操作阶段与必须精确接触的精细操作阶段,用少量人工示教提取关键操纵位姿,再构建预操作吸引场自动生成大量收敛到成功配置的多样轨迹,并加入带质量标签的 FieldGen-Reward。实验称其较遥操作基线带来更高成功率与稳定性,同时显著减少长期采集的人力,但具体提升幅度此处未充分说明。

EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence figure
arXiv2025-10-23

EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence

任务规划

任务规划多模态推理

针对现有具身智能规划模型与机器人需求脱节、性能与时延难兼顾、且多依赖离线指标评测的问题,EmbodiedBrain在Qwen2.5-VL上构建7B/32B视觉-语言基座,引入面向智能体的数据结构,并用SFT+Step-GRPO把历史步骤作为引导前缀强化长时程任务规划,同时配套生成式奖励模型和新的端到端仿真基准。论文称其在通用、规划和仿真三类14+基准上均达SOTA,但具体增益拆解文中未充分说明,可能部分来自scaling/data,判断基于公开摘要/项目页。

Dual Control Reference Generation for Optimal Pick-and-Place Execution under Payload Uncertainty figure
arXiv2025-10-23

Dual Control Reference Generation for Optimal Pick-and-Place Execution under Payload Uncertainty

基础操作

基础操作安全操作非学习控制

面向抓取后载荷质量与惯量未知造成的模型失配、放置精度下降和安全风险,本文将抓取放置中的“边执行边辨识”表述为双重控制,并在预设含在线自适应的反馈结构下设计参考轨迹:一类直接优化参数不确定性下的期望任务代价,另一类最小化最优性损失,用闭环敏感度与 Fisher 信息挑选对控制真正有用的激励。文中在抓取放置任务中表明,该设计比名义轨迹能更快收敛参数、减小目标偏差,并保持稳定高效控制。

Using Temperature Sampling to Effectively Train Robot Learning Policies on Imbalanced Datasets figure
arXiv2025-10-22

Using Temperature Sampling to Effectively Train Robot Learning Policies on Imbalanced Datasets

数据采集

数据采集数据筛选机器人学习数据集/Benchmark

论文关注机器人多任务数据中“动作原语”分布失衡:不同任务名称虽不同,底层物理动作常高度重复,导致策略容量被高频技能占满、低资源技能学不好。作者提出按任务数据量做温度采样,并用从τ=1升到5的余弦升温,让模型先借高资源任务学通用表征、后期再强调稀缺任务。实验覆盖玩具任务、RoboCasa、LIBERO、基础模型微调和Franka实机,结果显示低资源任务成功率显著提升,且基本不牺牲高资源任务表现。

Semantic World Models figure
arXiv2025-10-22

Semantic World Models

世界模型

世界模型语言条件机器人学习

论文认为,像素级未来帧重建与机器人规划目标并不一致,真正需要的是预测动作后任务相关的语义结果。作者把世界模型改写成“给定当前图像、动作序列和语言问题,回答未来会怎样”的VQA任务,用VLM在图像-动作-文本数据上微调成语义世界模型,并配合采样或梯度规划做测试时策略改进。在LangTable和OGBench上,该方法对新场景泛化更好,优于重建式世界模型和离线RL;但增益有多少来自语义建模、多少来自VLM预训练与oracle生成QA监督,文中未充分拆解。

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes figure
arXiv2025-10-22

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes

Affordance

Affordance操作数据集/Benchmark

面向机器人越来越常见的多相机输入、而现有VLM评测仍偏单视角的问题,本文提出MV-RoboBench:基于真实操作演示构建的1.7k人工标注QA基准,覆盖空间理解与机器人执行共8个子任务,专门检验模型跨视角整合信息的能力。结果显示主流开源/闭源VLM与人类仍有明显差距,许多模型接近随机;同时,多视角中的空间能力与执行能力正相关,而单视角空间基准上的高分并不能可靠迁移到机器人操作场景。

Learning Affordances at Inference-Time for Vision-Language-Action Models figure
arXiv2025-10-22

Learning Affordances at Inference-Time for Vision-Language-Action Models

Affordance

AffordanceVLA机器人学习

这篇工作针对现有VLA多为“一次性执行”、任务失败后难以按上下文调整策略的问题,提出LITEN:在推理时把高层VLM与低层VLA闭环连接,在“规划执行—视频评估反思”两阶段迭代中,将过往尝试作为上下文,让系统逐步学会该策略的可供性与能力边界,无需额外训练。实验在DROID Franka长时序操作任务上表明,LITEN能依据失败经验生成更高可供性的子任务指令,并优于未针对真实机器人非结构化轨迹设计的推理时学习基线;摘要未充分说明具体提升幅度。

GigaBrain-0: A World Model-Powered Vision-Language-Action Model figure
arXiv2025-10-22

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

辅助任务

辅助任务VLA世界模型感知机器人学习

该工作针对VLA训练过度依赖昂贵真实机器人数据、扩展性与泛化受限的问题,提出用世界模型批量生成多类辅助数据训练GigaBrain-0,并结合RGBD输入与具身CoT监督,增强对三维几何、物体状态和长程任务的建模。实验称其在灵巧操作、长时序和移动操作上,以及外观、摆放和视角变化下均优于基线;但判断基于公开摘要/项目页,各模块的独立增益来源仍未充分说明,可能部分主要来自数据规模与多样性提升。

GRASPLAT: Enabling Dexterous Grasping through Novel View Synthesis figure
arXiv2025-10-22

GRASPLAT: Enabling Dexterous Grasping through Novel View Synthesis

抓取

抓取灵巧操作操作

这篇工作针对灵巧手抓取常依赖完整3D扫描、而单RGB方法又缺少几何约束、易发生手物碰撞的问题,提出GRASPLAT:训练时用3D Gaussian Splatting合成真实手物交互的新视角,并将可动MANO手模型接入渲染,通过光度重投影损失按“分析—合成”思路反向优化手部关节预测,使模型在推理时仅凭RGB也能利用隐式3D一致性。作者还构建了基于GraspXL的合成数据;在合成与真实数据上,相比现有图像抓取方法,成功率最高提升36.9%。

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting figure
arXiv2025-10-21

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

音频

音频人机交互机器人学习

这项工作针对现有VLA机器人多按“单轮指令—顺序执行”运行、难以边看边听边说边动且不易被实时打断的问题,提出VITA-E:以主动/待命双模型并行处理当前任务与新语音输入,并让VLM生成[ACT]、[HALT]等控制token直接驱动系统状态切换。人形机器人实验证明其能稳定实现说话与操作并发,并在紧急停止和语音打断上取得很高成功率;但公开摘要未给出更细的时延和消融分解。

MoTVLA: A Vision-Language-Action Model with Unified Fast-Slow Reasoning figure
arXiv2025-10-21

MoTVLA: A Vision-Language-Action Model with Unified Fast-Slow Reasoning

VLA

VLA语言条件机器人学习

这篇工作针对现有VLA在机器人中要么缺少显式推理导致语言可控性弱、要么引入链式推理后推理延迟过高的问题,提出MoTVLA:用共享全局注意力的MoT结构把预训练VLM的慢推理与面向机器人运动分解的快推理统一起来,并以快推理结果条件化扩散策略生成连续动作。实验显示,它在NLP基准、ManiSkill仿真和真实操作中同时提升了推理效率、语言可控性与操作表现。

MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation figure
ICLR 20262025-10-21

MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation

数据需求量大

移动操作数据需求量大模仿学习数据采集数据生成双臂操作

这篇工作针对双臂移动操作示教采集成本高、人工需同时遥操作底盘与双臂的瓶颈,提出 MoMaGen:把演示生成统一为带硬/软约束的优化问题,在场景随机化后联合规划基座、双臂与相机视角,核心是同时处理“够得着”和“看得见”这两个以往方法难兼顾的问题。实验在4个多步家务任务、强随机化与障碍场景下表明,它能生成更高多样性、成功率和可见性更好的数据;由此带来的增益看起来主要来自数据多样性,甚至单个源示教也能训练出有效策略,再用40条真实示教即可完成上机微调。

RESample: A Robust Data Augmentation Framework via Exploratory Sampling for Robotic Manipulation figure
arXiv2025-10-20

RESample: A Robust Data Augmentation Framework via Exploratory Sampling for Robotic Manipulation

数据需求量大

数据需求量大数据采集数据增强安全操作

这篇工作针对模仿学习训练的VLA过度依赖成功示范、数据覆盖窄,导致部署时一旦进入分布外状态就难以恢复的问题,提出RESample。其核心洞察是很多OOD状态并非无效,而是专家流形中的低覆盖区域;因此用轻量Coverage Function估计覆盖密度,并在策略rollout中定向探索、筛选可恢复轨迹做数据增广,以较少新增样本补齐恢复行为。实验称在LIBERO和真实机器人任务上,仅增加10%–20%数据即可带来约12%的成功率提升。

Learning to Design Soft Hands using Reward Models figure
ICRA 20262025-10-20

Learning to Design Soft Hands using Reward Models

软体机器人

软体机器人强化学习操作

这篇工作针对软体手在顺应性与功能性间难以兼顾、且联合设计受制于高维搜索与昂贵仿真的问题,提出 CEM-RM:利用预采集的遥操作抓取数据在仿真中训练奖励模型,作为交叉熵搜索的快速评估器,联合优化手指长度、厚度、腱线路径和安装位姿。结果显示,在保持优化质量的同时,设计评估次数较纯优化减少一半以上,3D 打印实机在多类困难物体上的抓取成功率与承载能力也优于均匀基线和不带奖励模型的优化方案。

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors figure
ICLR 20262025-10-20

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

3D 表征

3D 表征VLA机器人学习

论文针对现有VLA依赖2D编码、在真实3D操作中缺乏稳定空间推理与跨模态适应的问题,提出FALCON:利用空间基础模型从RGB提取更强3D token,并将其注入动作头而非VLM主干,以尽量保留原有视觉—语言对齐;同时可按需融合深度或位姿,且无需重训或改结构。实验显示其在3个仿真基准和11个真实任务上整体优于现有方法,在杂乱场景、空间指令、物体尺度与高度变化下更稳健。

Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey figure
arXiv2025-10-20

Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey

VLA

VLA操作综述

这篇综述的动机是:现有VLA虽提升机器人泛化,但大模型视觉骨干、动作解码与训练开销过高,难以满足移动操作平台的实时与端侧部署需求,而且VLM压缩方法并不能直接迁移到受时序一致性和物理可靠性约束的VLA。文中核心贡献是首次从模型架构、感知特征、动作生成、训练/推理四个维度系统整理高效VLA路线,并串联RT-1、RT-2到OpenVLA等演进脉络。主要结果是归纳了代表方法的优劣与未来方向,如双系统设计、时序特征复用和更高效的动作生成,但统一定量评测与增益来源文中未充分说明,判断基于公开摘要/项目页。

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots figure
NeurIPSW 20252025-10-20

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots

软体机器人

软体机器人VLA跨本体操作

面向人机共处场景,现有VLA几乎只在刚性机械臂上验证,难以兼顾泛化与接触安全。本文将OpenVLA-OFT与π0部署到自研软体连续臂Embuddy,提出从遥操作采集、数据标准化到定向微调的跨本体迁移流程,并开源软体示范数据。实验显示,现成策略因运动学与动力学失配基本失效,但经针对性微调后,软体机器人在抓放与近人喂食等任务上可达到接近UR5的成功率;同时π0在刚体上泛化更强,OpenVLA-OFT在软体平台微调后更优,具体增益来源文中未充分拆解。

End-to-end Listen, Look, Speak and Act figure
ICLR 20262025-10-19

End-to-end Listen, Look, Speak and Act

音频

音频机器人学习

论文针对现有对话模型“会听会说不会做”、VLA“会做但听不懂也说不出”的割裂,提出端到端全双工机器人模型ELLSA。其核心是SA-MoE:让语音专家与动作专家分工处理不同模态,再用统一自注意力在流式交错时序中融合视觉、语音、文本和动作,降低模态干扰并支持边说边做。实验表明,它在语音交互与机器人操作基准上基本追平专用模型,同时支持轮换、拒绝缺陷指令、动作打断和情境问答等此前难以实现的交互。

Self-Supervised Multisensory Pretraining for Contact-Rich Robot Reinforcement Learning figure
EWRL 20252025-10-18

Self-Supervised Multisensory Pretraining for Contact-Rich Robot Reinforcement Learning

强化学习

强化学习触觉Latent Learning基础模型接触丰富机器人学习

面向接触丰富操作中视觉、力觉与本体感觉的重要性会随阶段切换、且RL易受噪声和动力学变化干扰的问题,论文提出MSDP:先以掩码自编码预训练Transformer,只凭部分传感器嵌入重建多模态观测,学习跨模态预测与融合;再用非对称actor-critic,critic通过交叉注意力从冻结表征中提取任务相关动态特征,actor仅接收稳定池化表示。实验显示其在仿真与真机多任务中更快收敛、对传感器噪声和物体动力学变化更稳健,真机约6000次交互内即可达到高成功率。

MoS-VLA: A Vision-Language-Action Model with One-Shot Skill Adaptation figure
arXiv2025-10-18

MoS-VLA: A Vision-Language-Action Model with One-Shot Skill Adaptation

VLA

VLA泛化机器人学习

这篇工作针对VLA在新环境、新机体和新任务上常需昂贵微调、开箱即用却易失效的问题,提出MoS-VLA:将操作策略表示为少量可学习技能基函数的线性组合,预训练时构造结构化技能空间,测试时只需1条专家轨迹,通过最小化L1动作误差的凸优化直接求出技能系数,无需梯度更新。结果上,它在5个未见数据集上都降低了动作预测误差,并在仿真与Franka真机未见场景中,将预训练OpenVLA的0%成功率提升到70%–100%。

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification figure
ICRA 20262025-10-18

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

VLA

VLA机器人学习

本文关注推理型VLA常见的“会说不会做”问题:模型虽能生成正确文本计划,但低层动作在长时程和OOD场景下常偏离计划。作者提出免训练的运行时校准方法,在每次子计划执行前从同一策略采样多条动作序列,用并行仿真预测结果,再由现成VLM按与当前文本计划的一致性打分并选择执行,从而把动作多样性变成优势。实验显示,该方法在ID任务上提升约8%,在行为组合和多种语义/视觉OOD测试中最高优于基线15%,最难视角变化场景成功率达45%。

VO-DP: Semantic-Geometric Adaptive Diffusion Policy for Vision-Only Robotic Manipulation figure
arXiv2025-10-17

VO-DP: Semantic-Geometric Adaptive Diffusion Policy for Vision-Only Robotic Manipulation

3D 表征

3D 表征Diffusion Policy机器人学习操作

该文针对机器人操作中过度依赖点云/深度、纯RGB方法表征不足的问题,提出单目RGB扩散策略VO-DP:利用VGGT中间层提取DINOv2语义特征与交替注意力几何特征,经跨注意力自适应融合并用CNN压缩后送入策略头。结果上,仿真平均成功率64.6%,与DP3的64.0%相当且显著高于DP的34.8%;真实任务87.9%,超过DP3的67.5%和DP的11.2%,且对颜色、尺寸、背景、光照变化更稳健。但增益有多少来自更强预训练视觉模型、而非策略结构本身,文中未充分说明。

NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly? figure
arXiv2025-10-17

NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly?

基础操作

基础操作VLA机器人学习操作数据集/Benchmark

这篇论文针对VLA机器人常用“任务是否完成”指标过于粗糙、且数据与接口碎片化导致难以复现和公平比较的问题,提出面向单臂操作的NEBULA生态:一方面用“能力测试+压力测试”的双轴评测拆解感知、语言、空间推理与控制等子能力,并系统考察光照、措辞、动态扰动等鲁棒性;另一方面统一API与聚合数据格式,支持跨数据集训练和对比。基准结果表明,现有强VLA在空间推理和动态适应上仍明显脆弱,这些短板往往会被传统成功率掩盖。

Exploring Conditions for Diffusion models in Robotic Control figure
arXiv2025-10-17

Exploring Conditions for Diffusion models in Robotic Control

Diffusion Policy

Diffusion Policy机器人学习操作

本文关注把预训练文生图扩散模型用于机器人控制时,为什么视觉任务里常见的文本提示在控制中几乎无效,甚至拖后腿:训练域与机器人环境存在落差,且控制更依赖逐帧、细粒度状态信息。为此作者提出 ORCA,用可学习的任务提示替代文本提示,并加入由视觉编码器生成的逐帧视觉提示,在不微调扩散模型下端到端学到任务自适应表征。方法在 MetaWorld、DMC、Adroit 上达到 96.3/92.5/90.4,显著优于空提示和文本提示基线,并宣称超过 VC-1。

Cosmos-Surg-dVRK: World Foundation Model-based Automated Online Evaluation of Surgical Robot Policy Learning figure
arXiv2025-10-17

Cosmos-Surg-dVRK: World Foundation Model-based Automated Online Evaluation of Surgical Robot Policy Learning

基础模型

基础模型遥操作机器人学习应用

这篇工作针对 dVRK 手术策略评测昂贵、耗时且难复现的问题,把 Cosmos 世界基础模型微调为面向手术的动作条件模拟器 Cosmos-Surg-dVRK,并结合视频分类器实现策略 rollout 后的自动成败判定;其关键洞察是直接从手术数据学习机器人—软组织交互,减少传统仿真对显式运动学和手工物理参数的依赖。台面缝合垫任务中,自动评测与真实机器人成功率相关性较强(Pearson r=0.756),分类器与人工标注一致性也较好;离体猪胆囊切除结果目前仅属初步验证,泛化边界文中未充分说明。

VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via Simulation Fine-Tuning figure
CoRL 20252025-10-16

VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via Simulation Fine-Tuning

触觉

触觉双臂机器人学习应用

这篇工作针对双臂精密装配中“示教昂贵且纯模仿难学到接触期反复试探”的问题,提出 VT-Refine:先用少量真实视觉-触觉示教训练扩散策略,再迁入带 GPU 并行触觉仿真的数字孪生中做强化学习微调。核心洞察是选用更易准确仿真的压阻式法向力触觉,并以统一的点式视觉/触觉表示缩小 sim-to-real 差距。实验在 5 个双臂装配任务上显示,微调后在仿真和真实世界的成功率与鲁棒性均提升,但具体增益幅度在摘要中未充分说明。

VLA2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation figure
arXiv2025-10-16

VLA2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

VLA

VLA泛化操作

这篇工作针对VLA在训练集外物体概念上容易失效的问题,提出VLA²:不靠继续堆数据重训模型,而是把OpenVLA放进具身代理框架中,先用规划器拆解指令,再结合网页检索、目标检测、场景记忆和验证器,把“陌生概念”转成可执行的目标线索,并通过掩码图像增强目标对齐。作者还基于LIBERO构建了三档泛化基准;在最难的未见概念设置下,相比独立OpenVLA成功率提升44.2%,自定义环境平均提升20.2%,且域内任务无退化,但文中未做真实机器人验证。

Restoring Noisy Demonstration for Imitation Learning With Diffusion Models figure
TNNLS 20252025-10-16

Restoring Noisy Demonstration for Imitation Learning With Diffusion Models

模仿学习

模仿学习Diffusion Policy数据采集数据增强

论文针对模仿学习常默认专家演示“干净无误”、但真实离线数据往往混有人为失误和传感/控制噪声的问题,提出DMDR框架:先用自编码器表征结合LOF筛出较干净样本,再训练“状态条件下修复动作、动作条件下修复状态”的双条件扩散模型恢复噪声转移,最后与干净子集合并训练BC、IBC或Diffusion Policy。核心洞察是不直接丢弃脏数据,而是先过滤再修复以提升数据利用率;实验在机械臂、灵巧手和运动控制任务上显示,其在不同噪声类型与强度下都稳定优于现有基线。

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning figure
arXiv2025-10-16

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

强化学习

强化学习RL+IL触觉基础模型机器人学习操作

作者要解决的是:示教式策略受人类操作上限限制,而直接在真机上做强化学习又慢且风险高。RL-100的关键做法是把扩散策略的模仿预训练、迭代式离线RL和少量在线RL统一到同一个 clipped PPO 目标中,在去噪过程中稳定优化,并用一致性蒸馏把多步扩散压缩成一步控制器以满足高频部署。文中在8个真实机器人操作任务上报告1000/1000成功,完成时间达到或超过熟练遥操作员,在环境与动力学变化下零样本约90%成功,并实现约7小时商场榨汁零故障部署。

QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models figure
arXiv2025-10-16

QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models

3D 表征

3D 表征VLA机器人学习

这篇工作针对VLA在精细操作中“语义理解强、几何推理弱”,以及直接注入3D特征易破坏预训练对齐的问题,提出QDepth-VLA:不做像素级深度回归,而由独立Depth Expert预测经VQ-VAE编码的量化深度token,把深度作为辅助监督学习更稳健的3D表征,同时减少噪声监督和对主干语义能力的干扰。实验显示其在Simpler和LIBERO上相对open π0平均成功率分别提升6.1%和7.7%,真实机器人任务提升10.0%。

Open TeleDex: A Hardware-Agnostic Teleoperation System for Imitation Learning based Dexterous Manipulation figure
arXiv2025-10-16

Open TeleDex: A Hardware-Agnostic Teleoperation System for Imitation Learning based Dexterous Manipulation

灵巧操作

灵巧操作模仿学习数据采集遥操作操作

论文针对模仿学习中示范数据采集受制于硬件异构、跨平台迁移成本高的问题,提出 ROS2 原生的 Open TeleDex,将感知、控制与数据采集、硬件三层解耦,统一接入任意外设、机械臂和灵巧手,并用从“逐点映射”转向“功能性生成”的手姿态重定向优化跨形态适配。主要结果是系统可在多种主从设备上实现稳定遥操作和同步多模态数据采集,但具体量化提升与增益来源文中未充分说明。

Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning figure
arXiv2025-10-16

Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

VLA

VLA语言条件机器人学习

论文针对VLA扩容的两难:从零训练代价高、机器人数据稀缺,而传统MoE在控制任务中又容易出现“负载均衡伤性能”或“专家塌缩”。作者提出AdaMoE,在继承预训练稠密VLA权重的基础上,把动作分支FFN替换为稀疏MoE,并用独立scale adapter将“专家选择”与“贡献权重”解耦,让多个专家协同而非单一垄断。结果相对π0在LIBERO提升1.8%、RoboTwin提升9.3%,真实机器人平均提升21.5%;但仅据公开摘要,增益有多少来自解耦而非单纯scaling,仍未充分说明。

ViTacGen: Robotic Pushing with Vision-to-Touch Generation figure
RA-L 20252025-10-15

ViTacGen: Robotic Pushing with Vision-to-Touch Generation

触觉

触觉感知机器人学习操作

这篇工作针对机器人推操作里“纯视觉难以感知细微接触动力学、真实触觉传感器又昂贵脆弱且存在校准与跨传感器差异”的问题,提出 ViTacGen。其核心洞察是先用 VT-Gen 从视觉序列生成标准化的触觉接触深度图,再由 VT-Con 将视觉与生成触觉融合,并结合对比学习训练强化学习策略,从而在没有真实高分辨率触觉传感器的情况下仍利用触觉先验,并支持仅视觉系统的零样本部署。仿真和真实实验中,该方法整体优于基线,成功率最高达到 86%。

VLA-0: Building State-of-the-Art VLAs with Zero Modification figure
arXiv2025-10-15

VLA-0: Building State-of-the-Art VLAs with Zero Modification

VLA

VLA语言条件机器人学习

该文关注一个基本问题:VLA 是否真需要改词表、加动作头或定制结构,才能把 VLM 变成机器人策略。作者提出 VLA-0,直接把连续动作写成数字文本,让原生 VLM 端到端生成动作,并辅以训练时动作文本随机遮蔽、测试时历史预测集成。结果显示其在 LIBERO 上超过同等机器人数据训练的 OpenVLA-OFT、SmolVLA 等,且在未做大规模机器人预训练时也优于 π0、GR00T-N1、MolmoAct,并在真实机器上胜过 SmolVLA;但增益中模型规模或数据配比的具体贡献,文中片段未充分说明。

Tactile-Conditioned Diffusion Policy for Force-Aware Robotic Manipulation figure
arXiv2025-10-15

Tactile-Conditioned Diffusion Policy for Force-Aware Robotic Manipulation

触觉

触觉Diffusion Policy机器人学习操作

论文针对接触密集操作中“能感知接触却不能直接控力”的缺口:以往模仿学习多把触觉当附加观测,抓取力只是夹爪命令的副产物,难稳妥处理易碎、可变形或需持续调力的任务。FARM将GelSight/FEATS估计的高维力分布同时用于观测与动作空间,扩散策略联合预测位姿、夹宽和目标夹持力,并以宽度/力双模控制执行。在植物插入、摘葡萄和拧螺丝三项真实任务中,其成功率整体优于仅视觉、触觉感知但不显式控力、或仅力控制等基线,且用力过程更接近人类示范。

Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models figure
arXiv2025-10-15

Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models

VLA

VLA安全机器人学习

这篇工作关注VLA机器人在真实部署中的安全风险:相机视野内一块可打印补丁就可能诱导连续错误动作。作者提出与具体模型和机械臂解耦的EDPA,只需访问编码器,通过破坏视觉—文本语义对齐并拉大干净/攻击表征差异来构造补丁;同时用对抗微调让视觉编码器对干净与受扰图像输出接近表征。LIBERO上,EDPA显著提高OpenVLA、OpenVLA-OFT和π0的任务失败率,所提防御能明显缓解退化;文中还猜测脆弱性部分来自视觉编码器对机械臂外观的过拟合,但这一解释仍属假设。

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models figure
arXiv2025-10-15

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

基础操作

基础操作VLA泛化安全操作数据集/Benchmark

论文动机是质疑VLA在LIBERO等基准上的高成功率是否真的代表可靠泛化。作者提出LIBERO-Plus,在物体布局、相机视角、机器人初态、语言、光照、背景和噪声七个维度施加受控扰动,系统诊断多种SOTA模型。结果表明当前VLA对视角与初态极其脆弱,轻微变化即可让成功率从约95%跌到30%以下;相反语言改写影响很小,进一步分析显示模型常忽略指令,说明高分更多反映对固定线索的过拟合,而非稳健的多模态理解。

InternVLA-M1/ST4VLA: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy figure
ICLR 20262025-10-15

InternVLA-M1/ST4VLA: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

VLA

VLA基础模型语言条件机器人学习操作

论文针对现有VLA能懂指令却难把“空间关系”稳定转成机器人动作的问题,提出以空间grounding为桥梁的两阶段框架:先用230万级空间推理数据学习“在哪里操作”,再用空间提示引导动作后训练学习“如何操作”。结果上,它相对无空间引导版本在Google Robot、WidowX、LIBERO分别提升14.6%、17%、4.3%,合成数据又把200类拾放任务平均提升6.2%;真实拥挤抓放提升7.3%,未见物体与新布局达20.6%,但部分增益可能也来自数据与规模扩展。

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning figure
arXiv2025-10-15

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

3D 表征

3D 表征VLA机器人学习

论文指出现有VLA继承了VLM强语义但弱空间推理的缺陷,做精细抓取、避碰等任务时常失效,而单靠大规模动作数据预训练效率低且仍难补足3D理解。DepthVLA的关键做法是把预训练深度专家与VLM、动作专家放入共享注意力的MoT框架中端到端协同,让语义与几何线索同时服务控制,并保留分专家预训练的可扩展性。实验中其真实场景任务进度达78.5%(基线65.0%),LIBERO为94.9%(93.6%),Simpler为74.8%(58.8%)。

T(R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping figure
ICRA 20262025-10-14

T(R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping

抓取

抓取灵巧操作Diffusion Policy跨本体操作

面向灵巧手抓取中高维控制困难、现有机器人中心或物体中心表示难以同时兼顾跨本体泛化与实时性的痛点,本文提出T(R,O) Grasp:以连接物体patch和手部link的T(R,O)图统一编码二者空间变换关系,再用图扩散模型结合高效IK进行有条件/无条件抓取生成,替代D(R,O)里耗显存的点对点建模。实验表明其在多种灵巧手上达到94.83%平均成功率、0.21秒推理延迟和41 grasp/s吞吐,成功率与效率均显著优于基线,并可支持闭环操作。

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model figure
ICLR 20262025-10-14

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

3D 表征

3D 表征VLA机器人学习

这篇工作针对现有 VLA 多继承自仅用 2D 数据预训练的 VLM,导致视觉 token 缺乏可支撑精细操作的空间结构、在 3D 场景中动作不准的问题,先用 depth probing 证明其中间表征深度信息不足,再提出 Spatial Forcing:训练时把 VLA 的中间视觉嵌入对齐到预训练 3D 基础模型 VGGT 生成的几何表征,用隐式监督补上空间理解,而不必依赖深度相机、点云或深度估计器。实验表明它在仿真和真实机器人任务上都超过 2D/3D 基线,训练最高快 3.8 倍,且数据效率更好。

Robot Learning: A Tutorial figure
arXiv2025-10-14

Robot Learning: A Tutorial

机器人学习

机器人学习

这篇教程的动机是:仅靠经典模型与控制难以应对真实世界中非结构化、接触复杂的机器人任务,而开放数据与大模型让数据驱动方法开始可落地。文中的核心洞察不是提出单一新算法,而是把经典机器人学、强化学习、模仿学习中的ACT/扩散策略,以及VLA等通用策略放进同一实践框架,并用lerobot、LeRobotDataset和推理优化串起来。其主要结果是给出一套较完整、可复现的学习型机器人路线图与代码示例;文中未充分说明相对现有方法的统一增益,判断更偏教程与工程整合价值。

Learning to Grasp Anything by Playing with Random Toys figure
arXiv2025-10-14

Learning to Grasp Anything by Playing with Random Toys

抓取

抓取灵巧操作操作

论文针对抓取策略难以泛化到新物体的问题,借鉴“先玩简单玩具再迁移”的思路,只用球、长方体、圆柱和环四类几何元件随机拼装并3D打印训练物体。核心洞察是,泛化关键不只是数据量,而是用 DetPool 提取目标物体中心的视觉表征、压制背景干扰。模型在250个玩具、1500条示教上训练后,可零样本抓取64个YCB真实物体,真实成功率67%,超过依赖更多域内数据的 OpenVLA-OFT 和 π0-FAST,且性能随示教数和玩具多样性增加而提升。

Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking figure
NeurIPS 20252025-10-14

Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking

模仿学习

模仿学习Diffusion Policy机器人学习

论文针对扩散式行为克隆在开环执行中易因随机采样出错、且对扰动反应迟缓,而闭环重规划又会破坏时序一致性的矛盾,提出 SGAC:用基于过去观测的负向自引导在去噪时压缩动作分布、提升动作保真并带来一定前瞻性,再用自适应 chunking 只在反应性收益大于一致性代价时重规划动作序列。文中在多种仿真与真实操作任务上报告,相比 vanilla Diffusion Policy 成功率提升 23.25%,较 BID 提升 12.27%,同时计算开销降至约 1/16。

Fast Visuomotor Policy for Robotic Manipulation figure
arXiv2025-10-14

Fast Visuomotor Policy for Robotic Manipulation

机器人学习

机器人学习操作

这篇工作针对扩散策略虽能建模多峰连续动作、却因多步去噪难以满足高频控制的问题,提出 Energy Policy:用 energy score 直接监督动作分布,并以简单的 energy MLP 配合并行解码,在单次前向中采样连续多模态动作。实验显示其在 Robomimic、MimicGen、PushT 及真实任务上成功率可比或优于现有方法,相对 CARP 推理快 2.3~7 倍,但各组件增益拆分文中未充分说明。

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning figure
arXiv2025-10-14

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

任务规划

任务规划多模态推理强化学习触觉语言条件

针对小型VLM做具身智能时缺少环境知识、视觉落地和长时程规划能力,而大模型又部署昂贵,ERA提出两阶段训练:先用轨迹增强、环境锚定、外部知识三类具身先验补齐基础能力,再用带自摘要、稠密奖励和turn级策略优化的在线RL缓解长序列、稀疏奖励与训练不稳。结果上,ERA-3B在EB-ALFRED和EB-Manipulation分别达到65.2%和48.3%,相对GPT-4o提升8.4%和19.4%,并具备对未见任务的泛化。

Automated Behavior Planning for Fruit Tree Pruning via Redundant Robot Manipulators: Addressing the Behavior Planning Challenge figure
RAM 20252025-10-14

Automated Behavior Planning for Fruit Tree Pruning via Redundant Robot Manipulators: Addressing the Behavior Planning Challenge

任务规划

任务规划操作应用

面向苹果树修剪中“看得见却进不去”的操控瓶颈,论文把重点从感知转向行为规划,指出低成功率源于枝条遮挡下的狭窄可行空间,并系统利用末端接近角度的笛卡尔冗余与机械臂关节冗余,结合树木几何重建、两阶段接近/剪切动作和整体式规划。作者在真实果园数据与实体Franka平台上验证,该方案较单一姿态或局部控制基线显著提高修剪成功率,但求解更慢,且增益在建模精度与规划层次间的具体来源文中未充分说明。

Actron3D: Learning Actionable Neural Functions from Videos for Transferable Robotic Manipulation figure
ICRA 20262025-10-14

Actron3D: Learning Actionable Neural Functions from Videos for Transferable Robotic Manipulation

3D 表征

3D 表征视频规划感知机器人学习操作

这项工作针对现有从人类视频迁移操作技能的方法缺少显式3D grounding、难稳健推断接触与夹爪姿态、遇到视角和实例变化易失效的问题,提出将少量单目、未标定RGB视频蒸馏为以对象为中心的 Neural Affordance Function,把几何、外观与可供性压入轻量神经函数,并在部署时通过检索加粗到细可微对齐优化生成6-DoF动作。仿真和真实机器人13项任务上,该方法每个任务仅需2–3段演示视频,平均成功率较基线提升14.9个百分点。

XGrasp: Gripper-Aware Grasp Detection with Multi-Gripper Data Generation figure
arXiv2025-10-13

XGrasp: Gripper-Aware Grasp Detection with Multi-Gripper Data Generation

抓取

抓取数据生成感知操作

这项工作针对抓取检测普遍依赖单一夹爪、换夹爪就要重训或优化的问题,提出 XGrasp:先把现有单夹爪数据集自动扩展为多夹爪标注,并用“夹爪形状掩码+闭合轨迹”两通道表示夹爪;再以 GPP/AWP 两阶段结构分离抓取点与角度/宽度预测,并在 AWP 中用质量感知对比学习构建与夹爪解耦的表征空间,从而实现对新夹爪的零样本泛化。文中结果称其在多种夹爪上同时优于已有夹爪感知方法的抓取成功率和推理速度。

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning figure
ICLR 20262025-10-13

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

辅助任务

辅助任务VLA机器人学习

该工作针对“上游VLM会推理、下游VLA要控制”之间脱节的问题,提出Vlaser及Vlaser-6M数据引擎,把空间推理、指代定位、任务规划与仿真交互数据纳入统一训练范式,并系统分析不同VLM初始化对策略学习的影响。其关键洞察是:通用具身推理能力的提升未必直接转化为控制增益,反而机器人域内标注/仿真数据更能加速收敛并提高成功率。结果上,Vlaser在多项具身推理基准上达到SOTA,在WidowX上刷新结果、在Google Robot上具竞争力;文中未做真实机器人实验。

Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey figure
arXiv2025-10-13

Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey

操作

操作综述

面向机器人操作中感知、规划、控制长期割裂,且任务、机体与数据资源高度碎片化的问题,本文尝试建立统一理解框架。其核心洞察是:将高层规划扩展到语言、代码、运动、可供性和3D表示,将低层学习控制按输入建模、潜变量学习与策略学习重组,并首次系统梳理数据采集/利用及环境、任务、跨本体泛化等瓶颈。主要结果是形成覆盖平台、任务、数据集、方法与应用的完整 taxonomy 和资源索引;作为综述,文中未充分说明统一框架的实证增益,判断基于公开摘要/目录。

TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models figure
arXiv2025-10-13

TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models

VLA

VLA安全机器人学习

论文关注VLA在真实部署中的安全风险:相比已有任务劫持式后门,更危险的是在关键时刻精确操纵可复用底层动作。文中实际提出的方法名为DropVLA,通过少量投毒和面向动作块微调的窗口一致重标注,在黑盒流水线下把视觉触发器绑定到open-gripper等动作。其在OpenVLA-7B/LIBERO上仅0.31%投毒即可达到98.67%–99.83%攻击成功率,同时保持98.50%–99.17%干净任务性能,并在跨套件与Franka实机上验证了视觉触发的鲁棒性,但文本触发效果明显不稳定。

RoVer: Robot Reward Model as Test-Time Verifier for Vision-Language-Action Model figure
arXiv2025-10-13

RoVer: Robot Reward Model as Test-Time Verifier for Vision-Language-Action Model

强化学习

强化学习VLA机器人学习

论文的出发点是:VLA继续靠扩模型、扩数据提效在机器人上成本过高,而实际执行又常因随机解码和长程脆弱性导致成功率波动。RoVer提出一种即插即用的测试时扩展框架,为冻结VLA外挂过程奖励模型,同时给候选动作打分并预测6D细化方向,再结合共享感知缓存做并行扩展与重排。实验显示,它无需改模型权重或追加训练,就能在多类操作任务和不同策略上稳定提升成功率,且候选预算越大收益通常越明显,推理也更高效。

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation figure
arXiv2025-10-13

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

泛化

泛化Sim2Real安全语言条件操作

这篇工作针对仿真训练的操作策略在真实世界中难以适配精细动力学、尤其受质心和质量分布变化影响的问题,提出Phys2Real:先用3D Gaussian Splatting重建可仿真的对象,再用VLM给出质心等物理参数先验,并结合交互历史通过不确定性感知的集成估计在线融合更新,让RL策略直接条件于可解释物理量而非平均化鲁棒行为。实验在T形块与锤子平面推动上,相比域随机化,底部配重T块成功率由79%升至100%,顶部配重由23%升至57%,锤子任务平均完成时间快15%。

ManiAgent: An Agentic Framework for General Robotic Manipulation figure
arXiv2025-10-13

ManiAgent: An Agentic Framework for General Robotic Manipulation

抓取

抓取操作

该文针对VLA对高质量示教数据依赖强、在复杂推理与长时程规划上能力不足的问题,提出免训练的 ManiAgent:用多智能体把机器人操作拆成场景感知、意图推理/子任务分解和控制执行三段,并加入参数化动作缓存提升效率。实验显示其在 SimplerEnv 上成功率达 86.8%(显著高于 CogACT 的 51.3%),真实抓放任务为 95.8%;结合强 VLM 时复杂多步推理任务可达 100%,但这部分增益来源文中未充分说明。

HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data figure
NeurIPS 20252025-10-13

HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data

Latent Learning

Latent Learning机器人学习操作

这篇工作针对机器人操作策略在新物体、障碍和环境变化下易依赖表面特征、泛化不足的问题,提出 HiMaCon:从无标注多模态示范中自监督发现分层“操作概念”。其核心是把跨模态相关性学习与多时间尺度未来预测结合起来,学到兼顾即时动作与长程子目标的潜变量,并通过联合预测方式注入策略学习。结果表明该表示在仿真与真实机器人上都能提升成功率和跨场景适应性,且学到的概念簇接近可解释的操作原语;但给定片段中未充分说明具体提升幅度。

DemoHLM: From One Demonstration to Generalizable Humanoid Loco-Manipulation figure
RA-L 20262025-10-13

DemoHLM: From One Demonstration to Generalizable Humanoid Loco-Manipulation

人形操作

移动操作人形操作模仿学习泛化操作

针对人形机器人移动操作常依赖任务特定设计或昂贵真机示教、难以泛化的问题,DemoHLM提出分层方案:底层用强化学习训练通用全身控制器,上层把一次仿真VR示教拆成行走、预操作、操作三阶段并重写回放,自动合成大量成功轨迹,再用视觉闭环模仿学习策略。结果表明合成数据越多性能越好;方法在Unitree G1上零样本迁移到10个任务,在空间扰动下仍接近仿真表现,增益可能主要来自数据生成与scaling。

UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning figure
arXiv2025-10-12

UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning

辅助任务

辅助任务VLALatent Learning世界模型感知机器人学习

论文针对现有VLA要么偏重视觉语言语义、要么偏重生成式动态建模,难以同时获得任务理解与动作泛化的问题,提出把离散语义表征和连续未来视觉表征统一学习的两阶段框架:先用超100万教学操作视频与具身QA做理解/世界模型预训练,再在机器人数据上联合未来特征预测和动作token学习。结果上,方法在Simpler仿真中较SOTA提升9%,在真实世界OOD任务中提升12%;但给定材料里标题与方法名(UniCoD/UniJEPA)不一致,部分增益也可能主要来自数据与scaling,判断基于公开摘要/项目页。

Population-Coded Spiking Neural Networks for High-Dimensional Robotic Control figure
arXiv2025-10-12

Population-Coded Spiking Neural Networks for High-Dimensional Robotic Control

机器人学习

机器人学习操作

面向机器人高维连续控制中“算得动但耗不起”的问题,论文将群体编码的脉冲神经网络与DRL结合,提出PopSAN脉冲actor,用神经元群体表征观测并以梯度法学习策略,尝试在连续动作空间兼顾控制能力与低功耗。在Isaac Gym的PixMC/Franka操作任务上,其表现与ANN策略大体相当,抓取放置中的手指跟踪和目标高度保持较稳,同时报告最高96.1%的能耗节省;但从给定材料看,能耗统计口径与增益来源未充分说明。

High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting figure
RA-L 20252025-10-12

High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting

3D 表征

3D 表征数据生成泛化Sim2Real操作

这篇论文针对真实机器人操作数据采集昂贵、而现有 Real2Sim2Real 方法虽逼真却缺少可交互物理性的瓶颈,提出 RoboSimGS:把多视角真实图像重建为“3DGS 静态背景+mesh 可交互物体”的混合仿真场景,并用多模态大模型自动推断物体材质参数与关节/滑轨等运动结构,再配合场景增强生成训练数据。结果表明,仅用该仿真数据训练的策略即可在多类操作任务上实现 zero-shot sim2real,同时还能提升现有方法的性能与泛化;但各模块具体增益来源文中未充分说明。

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model figure
ICLR 20262025-10-11

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

VLA

VLATransformer Policy跨本体语言条件机器人学习

论文针对跨机器人本体预训练中的异构性问题:不同硬件、相机设置和任务分布会破坏VLA共享表示。X-VLA的核心是为每个数据源/本体引入少量可学习soft prompt,在标准Transformer结合flow matching的简洁架构中尽早注入硬件先验,并用两阶段适配把新机器人迁移主要转化为提示学习。其0.9B模型在6个仿真基准和3个真实机器人上取得SOTA,仅调1%参数就在LIBERO达93%、Simpler-WidowX达54%;但各增益来源文中未充分说明,部分提升可能也来自数据配方与scaling。

Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models figure
arXiv2025-10-11

Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models

强化学习

强化学习VLA触觉机器人学习

本文针对基于flow-matching的VLA(如π0)难以直接用PPO类在线强化学习微调的问题:其策略比值需显式似然与ODE/Jacobian计算,代价过高。作者提出FPO,把条件flow-matching目标的逐样本变化重写为无似然策略比值,并结合潜空间结构化信用分配、裁剪目标、多步潜变量探索和Q集成,实现稳定在线微调。实验中,π0-FPO在LIBERO、LIBERO-Long上分别达87.2%和65.3%,在ALOHA-sim上成功率超过基线1.5倍。

Integration of the TIAGo Robot into Isaac Sim with Mecanum Drive Modeling and Learned S-Curve Velocity Profiles figure
CASE 20252025-10-11

Integration of the TIAGo Robot into Isaac Sim with Mecanum Drive Modeling and Learned S-Curve Velocity Profiles

移动操作

移动操作操作

这项工作针对TIAGo++ Omni长期缺少 Isaac Sim 模型、且麦克纳姆底盘与原车闭源控制器难以逼真复现的问题,完成了整机仿真集成,并提出物理精确和轻量速度两种底盘模型,再用少量真实轨迹训练小型网络拟合车轮的S形加速曲线。文中的关键洞察是四轮应保持按比例加速,否则斜向运动会出现漂移;结果上,该集成能较好复现纯平移与旋转行为,轻量模型更适合强化学习等高吞吐场景,但复合方向运动仍有可见偏差,代码已公开。

Dejavu: Post-Deployment Learning for Embodied Agents via Experience Feedback figure
arXiv2025-10-11

Dejavu: Post-Deployment Learning for Embodied Agents via Experience Feedback

VLA

VLA数据采集数据检索机器人学习

这篇工作针对VLA机器人一旦部署就因主干冻结而难以继续学习的问题,提出Dejavu:不改基座策略权重,而是维护一个持续增长的经验库,按视觉-语言相似性检索过往执行片段,再由EFN输出动作残差进行修正,并用“当前后继观测是否接近检索经验的后继状态”作为稠密奖励训练。实验显示,它在LIBERO、OpenVLA/UniVLA/GO-1及真实机器人上普遍提升成功率、适应性与鲁棒性,增益核心在于部署后的经验复用。

Ctrl-World: A Controllable Generative World Model for Robot Manipulation figure
ICLR 20262025-10-11

Ctrl-World: A Controllable Generative World Model for Robot Manipulation

世界模型

世界模型机器人学习操作

论文针对通用机器人策略在陌生物体和新指令上评估昂贵、改进又依赖专家纠错数据的瓶颈,提出可与策略闭环交互的生成式世界模型Ctrl-World。其核心是联合多视角预测(含腕部相机)、逐帧动作条件控制和位姿条件记忆检索,以提升接触操作中的可控性与长时一致性。模型在DROID上训练后,可在新场景与新机位生成20秒以上连贯轨迹,并能在无需真实机器人试跑的情况下较准确排序策略表现;再用想象空间合成成功轨迹做监督微调,可将策略成功率提升44.7%。

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation figure
arXiv2025-10-10

iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation

世界模型

世界模型感知机器人学习操作

这篇工作关注现有机器人世界模型多停留在RGB视频预测、缺少3D几何与空间推理,因而难以稳定模拟操作过程。作者提出iMoWM,在动作条件下自回归预测RGB、深度和机械臂掩码,并用MMTokenizer将多模态压缩为统一token,以复用预训练VideoGPT并控制计算开销。摘要与项目页显示,它在视频预测、模仿学习和基于模型强化学习上优于现有方法,但具体增益来源与量化细节文中未充分说明。

VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation figure
arXiv2025-10-10

VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation

VLA

VLA机器人学习

机器人VLA常需从头学习动作,训练昂贵;现有路线还常忽略机器人状态,或把VLM仅当视觉语言特征提取器。VITA-VLA的核心是把小型动作专家蒸馏进VLM:只增设action token与状态编码器,先将VLM隐状态对齐到教师动作空间并复用其预训练动作解码器,再选择性微调语言模型和动作模块。结果上,LIBERO/LIBERO-LONG分别达97.3%和93.5%,真实五项任务达82.0%,明显优于先前VLA与教师Seer;但训练效率提升对应的具体算力节省文中未充分说明。

Placeit! A Framework for Learning Robot Object Placement Skills figure
arXiv2025-10-10

Placeit! A Framework for Learning Robot Object Placement Skills

抓取

抓取操作非学习控制

这篇工作关注“放置”这一比抓取更缺数据、也更依赖人工标注与规则设计的基础操作难题。作者提出 Placeit!:给定待放物体和支撑物体的网格,在物理仿真中用质量—多样性进化搜索替代手工几何启发式,自动发现桌面放置、堆叠、悬挂、插入等多种稳定姿态,并用扰动随机化区分稳定解与伪稳定解。实验表明,它在多场景下生成有效且多样放置姿态的能力显著优于现有方法,基于该框架的抓放流程在 120 次真实部署中取得约 90% 成功率。

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs figure
arXiv2025-10-10

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Affordance

Affordance语言条件数据集/Benchmark

面向具身智能,作者认为机器人若缺乏对物理工具的识别、机理理解与临时造工具能力,就难以完成真实世界任务。为此提出首个面向MLLM物理工具理解的VQA基准PhysToolBench,含1000+图文样本,并按工具识别、工具理解、工具创造三层递进评测,还细分相似工具选择、多工具组合与可用性判断等情形。对32个闭源、开源及VLA相关模型的测试显示,最佳成绩也不足63%,显著落后于人类90%+,暴露出长尾识别、可供性幻觉和视觉推理不足等关键短板。

PLEXUS Hand: Lightweight Four-Motor Prosthetic Hand Enabling Precision-Lateral Dexterous Manipulation figure
ICORR 20252025-10-10

PLEXUS Hand: Lightweight Four-Motor Prosthetic Hand Enabling Precision-Lateral Dexterous Manipulation

灵巧操作

灵巧操作操作

这篇工作面向日常使用的电动假手:现有方案要么只能做静态抓握,要么为实现手内操作而依赖多电机或占空间机构,导致过重、外置电机易受损。作者的关键洞察是利用单轴拇指并优化其CM关节轴位置,在仅4个内置电机、311克重量下同时保留五种基础手型,并实现精细抓握与侧向抓握之间的手内重定向。实验中其对5–30 mm圆柱和棱柱的重定向成功率达90–100%,还演示了印章盖章、USB插入和螺丝刀旋转等任务。

Goal-oriented Backdoor Attack against Vision-Language-Action Models via Physical Objects figure
arXiv2025-10-10

Goal-oriented Backdoor Attack against Vision-Language-Action Models via Physical Objects

VLA

VLA安全机器人学习

论文关注VLA训练高度依赖未充分筛选数据所带来的现实安全风险:攻击者即使拿不到模型,也可仅通过向训练集混入带“物理物体触发器”的少量演示,让机器人平时正常、见到触发器时执行预设目标动作。其核心贡献是提出面向目标的后门攻击GoBA,构建BadLIBERO并设计“无动作/尝试/成功”三级评测。实验显示触发时后门目标成功率达97%,干净输入性能几乎零下降;同时文中发现动作轨迹与触发器颜色更关键,而尺寸影响反而较小。

Glovity: Learning Dexterous Contact-Rich Manipulation via Spatial Wrench Feedback Teleoperation System figure
arXiv2025-10-10

Glovity: Learning Dexterous Contact-Rich Manipulation via Spatial Wrench Feedback Teleoperation System

灵巧操作

灵巧操作数据采集接触丰富遥操作操作

这篇工作针对接触丰富灵巧操作中“仅靠视觉遥操作难以感知受力、人与机器人手部结构差异又会降低示教质量”的问题,提出低成本可穿戴系统 Glovity:在手腕侧提供空间力/力矩反馈,在手套指尖加入霍尔传感校准,并将扳手信号纳入模仿学习。实验显示,力反馈把翻书成功率从48%提升到78%、完成时间缩短25%,指尖校准显著改善薄物体抓取,结合 DP-R3M 后还能完成自适应翻页和受力感知交接。

Failure Prediction at Runtime for Generative Robot Policies figure
NeurIPS 20252025-10-10

Failure Prediction at Runtime for Generative Robot Policies

模仿学习

模仿学习安全机器人学习

本文关注生成式模仿学习策略在部署时因分布移位和动作误差累积而突然失效、且现实中又难以收集失败样本的问题。作者提出FIPER,核心洞察是“将要失败”往往同时表现为观测嵌入持续偏离训练分布,以及策略采样出的动作块熵持续升高;二者再用少量成功轨迹做保形校准并联合告警。基于5个仿真和真实环境的结果,FIPER比仅看OOD或外部监控的基线更少把良性新奇场景误报为失败,并能更早、更准地预警。

Cross-Sensor Touch Generation figure
CoRL 20252025-10-10

Cross-Sensor Touch Generation

触觉

触觉泛化机器人学习

论文聚焦触觉传感器形态差异大、模型强绑定单一硬件而难泛化的问题。作者的关键洞察是,不同视触觉传感器虽成像机制不同,但共享接触几何与形状信息,因此可把一种传感器的原始触觉信号生成成另一种。文中提出依赖配对数据的扩散式 Touch2Touch,以及以深度为中介、无需配对数据的 T2D2。实验表明,两者都能把在 Soft Bubble、GelSlim、DIGIT 上训练的下游模型迁移到其他传感器;其中 T2T 保真度和位姿估计更强,T2D2 更灵活但精细几何与精密任务表现稍弱。

Trajectory Conditioned Cross-embodiment Skill Transfer figure
arXiv2025-10-09

Trajectory Conditioned Cross-embodiment Skill Transfer

泛化

泛化跨本体

这篇工作针对“看人做事、让机器人直接学会”的跨本体迁移难题:人体与机械臂在形态和运动学上差异很大,现有方法常依赖配对数据、奖励设计或显式对齐。TrajSkill 的关键洞察是将人类演示压缩为稀疏光流轨迹,用更去形态化的运动表示保留任务动态,再结合视觉与文本先生成时序一致的机器人操作视频,再映射为可执行动作。仿真中其 FVD/KVD 分别下降 39.6% 和 36.6%,跨本体成功率最高提升 16.7%,并在真实厨房任务中验证了有效性。

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation figure
arXiv2025-10-09

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

3D 表征

3D 表征数据采集数据生成数据增强操作

这篇工作针对机器人操作中最耗数据的空间泛化:为覆盖物体摆放、机器人底座和视角变化,模仿学习常需反复重采演示。R2RGen提出不依赖仿真器和渲染的 real-to-real 3D 数据生成,直接增强点云观测—动作对:先统一到共享3D空间,再以对象组回溯式增广同时编辑物体与机器人位置,并用相机感知后处理修正遮挡/缺失。实验表明其显著提升数据效率,并能适配移动操作与腕部/外部相机;但摘要未充分说明具体量化增益。

Point and Go: Intuitive Reference Frame Reallocation in Mode Switching for Assistive Robotics figure
ICRA 20252025-10-09

Point and Go: Intuitive Reference Frame Reallocation in Mode Switching for Assistive Robotics

操作

操作应用

该文针对轮椅机械臂用户通常只有2~3自由度输入、而传统笛卡尔模式切换又参考系不直观、平移与转动割裂,导致认知负担高和频繁切模的问题,提出Point-and-Go:通过手腕“扫掠”先指向再沿水平轴前进,把末端执行器变成动态平移参考;同时重定义更一致的旋转坐标系,并在旋转模式中加入位置控制以提升精调稳定性。三项任务用户研究显示,相比笛卡尔切模,完成时间、停顿和切模次数分别下降31%、41%和33%,主观偏好也显著更好。

NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos figure
ICRA 20262025-10-09

NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos

3D 表征

3D 表征视频规划感知机器人学习操作

这篇工作针对机器人零样本操作仍依赖同构示教或机器人专属数据的问题,提出先让视频生成模型“想象”任务完成过程,再用深度估计、3D点跟踪和目标定位蒸馏出可执行的3D物体流;刚体/关节物体据此求相对位姿并做抓取与轨迹优化,柔性物体则把该流作为粒子动力学规划目标。作者在Franka与Spot上验证了刚体、关节体和柔性任务,无需示教或具身微调即可零样本执行,成功率优于无示教方法,也超过用10–30个示教训练的策略基线。

Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation figure
arXiv2025-10-09

Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation

人形操作

人形操作操作数据集/Benchmark

这项工作针对现有人形操作数据集多聚焦机械臂、缺少下肢参与、人机交互与统一评测的问题,提出 Humanoid Everyday:基于高效人监督遥操作采集的开放场景人形数据集,覆盖 7 大类、260 个任务、10.3k 轨迹和 300 多万帧,包含 RGB、深度、LiDAR、触觉与语言标注,并配套云端标准化评测平台。论文还对代表性策略学习方法做了跨任务分析,指出不同类别下的优势与局限;但文中未充分说明具体性能增益来源,可能主要来自 scaling / data,判断基于公开摘要/项目页。

Geometry-aware Policy Imitation figure
ICLR 20262025-10-09

Geometry-aware Policy Imitation

任务规划

任务规划几何约束规划模仿学习机器人学习

这篇工作针对扩散式模仿学习虽能表达多模态、但推理开销大且分布外易失稳的问题,提出 GPI:不再把示教当作离散状态—动作样本,而是视为状态空间中的几何曲线,并由距离场导出“沿示教推进”和“向示教吸引”两类流,在可控子空间直接合成非参数策略。其关键洞察是将度量学习与策略生成解耦,从而更易组合新示教、保留多模态。仿真与 Franka、Aloha 真机结果表明,GPI 成功率高于扩散策略,推理约快 20 倍、内存更低且对扰动更稳健。

FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset figure
arXiv2025-10-09

FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset

基础模型

基础模型操作数据集/Benchmark

面向现有操作数据集依赖遥操作、难以规模化且跨机器人复用受限的问题,论文提出 FastUMI-100K:基于硬件解耦的 FastUMI 采集体系,以腕部鱼眼视角、末端状态和文本标注对齐采集单臂/双臂长时程示范,覆盖 54 类家居任务、10万+轨迹和数百物体。实验表明该数据可支撑多种基线取得较高成功率,说明其对真实复杂操作有用;但相对既有数据集的具体增益来源可能主要来自 scaling / data,文中未充分说明,这一判断基于公开摘要/项目页。

Differentiable Particle Optimization for Fast Sequential Manipulation figure
arXiv2025-10-09

Differentiable Particle Optimization for Fast Sequential Manipulation

基础操作

基础操作操作非学习控制

论文针对顺序抓取放置中“放置满足几何约束但整段运动仍不可行”以及 CPU-GPU 往返导致难以实时规划的问题,提出 SPaSM:在给定动作骨架下,将采样、约束评估和梯度优化端到端编译为 GPU CUDA 内核,先大规模粒子搜索放置,再联合优化放置与机器人关节轨迹,而非分层解耦。实验显示其在拥挤基准上可实现毫秒级求解、100% 成功率,并较 cuTAMP 提速约 4000 倍。

DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation figure
arXiv2025-10-09

DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation

Flow Matching

Flow Matching机器人学习操作

这篇工作针对一步式流匹配操控策略虽快却易发生表征塌缩、难区分相似视觉状态,从而在精细抓取中失效的问题,在 MeanFlow 中加入跨中间层的 dispersive regularization,在不增添额外模块和专门训练流程的前提下拉开 batch 内嵌入分布,兼顾单步生成效率与多模态动作表达。RoboMimic 上其推理约 0.07s,较基线快 20–40 倍,成功率提升约 10–20 个百分点,Lift 达到 99%,并在 Franka Panda 实机验证了 sim2real 可迁移性;增益细节判断基于公开摘要与论文片段。

DEAS: DEtached value learning with Action Sequence for Scalable Offline RL figure
ICLR 20262025-10-09

DEAS: DEtached value learning with Action Sequence for Scalable Offline RL

强化学习

强化学习触觉基础模型机器人学习

该文针对离线强化学习在长时序机器人任务中难以规划、且把动作序列直接用于 actor-critic 会放大价值高估的问题,提出 DEAS:把连续动作作为时序扩展动作输入 critic 以缩短有效规划时域,再用 detached value learning 将 critic 与策略解耦,偏向数据集内高回报动作,并结合分布式价值学习提升多步训练稳定性。实验显示,它在 OGBench 的 30 个长程任务上稳定优于基线,并能提升预测动作序列的 VLA 在 RoboCasa 厨房仿真和真实操作中的表现。

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation figure
arXiv2025-10-08

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

视频规划

视频规划世界模型感知机器人学习操作

这篇工作针对机器人数据中第三人称视角丰富、腕部视角稀缺,导致VLA难以学到细粒度手物交互的问题,提出WristWorld:先基于扩展VGGT、wrist head与SPC损失重建几何一致的腕部相机位姿和4D点云,再用结合投影条件与锚视角语义的扩散视频模型生成时序连贯的腕视角视频。其在Droid、CALVIN和Franka Panda上取得更好的空间一致性与生成质量,并在CALVIN将平均任务完成长度提升3.81%,弥合42.4%的anchor-wrist性能差距。

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications figure
IEEE Access 20252025-10-08

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

VLA

VLA操作应用综述

这篇综述的动机是回答VLA如何真正从“会看会说”走向机器人真实操作与部署。文中核心贡献不是提出新模型,而是给出面向落地的全栈框架与分类:明确将VLA限定为由视觉和语言直接生成控制动作的系统,并系统梳理架构演进、模态处理、训练范式、数据采集、公开数据集、增强方法、机器人平台与评测。主要结论是当前瓶颈集中在三模态数据稀缺、具身差异和算力约束;作为综述,文中未给出统一实验增益,实践价值主要体现在整合已有证据并形成部署建议。

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics figure
arXiv2025-10-08

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

任务规划

任务规划多模态推理操作

这篇工作针对现有VLM在机器人中往往只会做“左/右、可达”等定性空间判断、难以真正利用深度和相机标定完成厘米级几何计算的问题,提出TIGeR,把模型从直接回归答案改成先识别几何需求,再生成可执行代码并调用外部工具完成3D框恢复、位姿与距离计算及空间可放置性验证;同时构建含30万条工具调用轨迹的TIGeR-300K,并采用SFT加分层奖励RFT训练。文中报告其在几何推理基准上达到SOTA,并在真实机器人操作中实现厘米级精度。

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training figure
arXiv2025-10-08

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

VLA

VLA机器人学习

这篇工作针对VLA结合RL训练长期缺少统一比较平台、且仿真、推理与训练争抢GPU导致扩展性差的问题,提出RLinf-VLA:用统一接口打通OpenVLA等模型、PPO/GRPO和LIBERO、ManiSkill、RoboTwin,并为GPU并行仿真设计混合细粒度流水线分配。作为一篇偏系统基础设施论文,它报告1.61–1.88倍训练加速,并在多基准上带来约20%–85%性能提升,单模型在LIBERO和ManiSkill分别达98.11%与97.66%,但性能增益中系统优化与训练配方各自贡献文中未充分说明。

AVO: Amortized Value Optimization for Contact Mode Switching in Multi-Finger Manipulation figure
arXiv2025-10-08

AVO: Amortized Value Optimization for Contact Mode Switching in Multi-Finger Manipulation

灵巧操作

灵巧操作操作非学习控制

这篇工作针对多指灵巧操作中接触模式切换后各子任务独立优化、既难兼顾后续可操作性又计算昂贵的问题,提出 AVO:离线学习价值函数集成,并在每个规划步把未来长时域代价及其梯度并入轨迹优化,为重抓与转动等模式切换提供跨阶段引导,而不只是做轨迹初始化。仿真和真机螺丝刀抓取/拧转实验表明,AVO 在计算预算减半时仍优于不使用价值函数的轨迹优化,低预算版本甚至超过多种高预算基线;但目前主要验证单一任务与接触序列,泛化性文中未充分说明。

What You Don't Know Can Hurt You: How Well do Latent Safety Filters Understand Partially Observable Safety Constraints? figure
arXiv2025-10-07

What You Don't Know Can Hurt You: How Well do Latent Safety Filters Understand Partially Observable Safety Constraints?

Latent Learning

Latent Learning安全

论文关注潜在空间安全过滤器在部分可观测约束下是否真的“懂安全”:若训练和部署仅依赖RGB,温度这类安全关键变量可能根本没被编码,控制器就会出现短视行为,只是避开“看到失败”而非真正阻止失败。作者提出用观测与安全标签的互信息衡量约束可观测性,并在训练期加入IR等多模态监督、部署时仍只用RGB来塑形潜变量。仿真与Franka防止蜡过热实验表明,该策略能更早干预并减少过热,但在根本不可观测时仍可能偏保守。

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments figure
arXiv2025-10-07

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

抓取

抓取操作数据集/Benchmark应用

面向温室等受控环境中无自然风、熊蜂受限且人工授粉成本高的问题,论文提出一套视觉引导的机器人授粉框架:先用末端RGB-D重建植株并做3D骨架化,在主茎上规划避障的7-DoF抓取位姿;再结合离散弹性杆模型预测不同激振参数对花朵运动的影响,用仿真指导抓取位置与振动策略选择。实验表明主茎抓取成功率达92.5%,说明该系统能较安全地完成精确授粉并减少花器损伤风险。

Vi-TacMan: Articulated Object Manipulation via Vision and Touch figure
ICRA 20262025-10-07

Vi-TacMan: Articulated Object Manipulation via Vision and Touch

任务规划

任务规划3D 表征触觉操作

针对仅靠视觉推断关节运动在陌生物体上易失准、仅靠触觉又依赖良好初始化的问题,Vi-TacMan将两者分层结合:视觉先在点云上分出可动/可持部件并给出抓取与粗交互方向,触觉控制再用接触反馈在线修正,无需显式运动学模型;其中表面法向先验与vMF方向分布用于处理几何约束和不确定性。实验在5万余次仿真及真实物体上显示其跨类别泛化更稳,检测mAP达0.86,整体显著优于基线(p<0.0001)。

Verifier-free Test-Time Sampling for Vision Language Action Models figure
ICLR 20262025-10-07

Verifier-free Test-Time Sampling for Vision Language Action Models

VLA

VLA机器人学习

这篇工作针对VLA在抓取、放置等高精度操作中受限于单次贪心推理、而现有 test-time scaling 又依赖额外训练外部 verifier 的问题,提出 MG-Select:测试时并行采样多个动作,再用同一 VLA 在随机遮蔽状态与语言条件下生成的高不确定性参考分布,计算候选动作与其的 KL 散度作为置信度做 Best-of-N 选择,并通过条件 dropout 联合学习条件/无条件分布。实验中,其在真实机器人同分布与 OOD 任务上分别提升 28% 和 35%,在仅 30 条示范训练的 RoboCasa 抓放任务上取得 168% 相对增益。

VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation figure
arXiv2025-10-07

VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation

抓取

抓取基础模型感知操作

这篇工作针对语言驱动抓取方法要么缺少推理与泛化、要么依赖复杂模块流水线,且现有抓取基础模型过度依赖对话和语义、在杂乱多物体场景视觉理解不足的问题,提出 VCoT-Grasp:先根据指令定位目标框,再裁剪放大关键区域并多轮回馈给模型生成抓取,从“用图像思考”而非只“用语言思考”。作者还构建了含16.7万合成图、136万抓取和400余真实图像的数据集。实验称其在数据集和真实机器人上提升成功率,并更好泛化到未见物体、背景和干扰物,但具体增益数值在给定材料中未充分说明。

MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption figure
arXiv2025-10-07

MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption

VLA

VLA泛化机器人学习

论文针对VLA后训练仍依赖逐任务微调、计算昂贵且直接混入异构辅助任务会因视角与动作空间分布不一致而训练不稳的问题,提出与骨干无关的MetaVLA:用结合ANP思想的轻量上下文库/元学习模块做上下文感知元协同训练,把多目标任务并入一次训练,并更稳地利用辅助任务提升泛化。LIBERO上其单模型覆盖四个suite,较OpenVLA平均成功率提升4.4%,长时程任务最高提升8.0%,训练步数由240K降至75K、GPU时长降约76%,推理额外开销很小。

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation figure
arXiv2025-10-07

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation

抓取

抓取模仿学习操作

这篇工作针对透明物体因折射/反射导致深度失真、现有方法又多停留在短程抓取且依赖类别先验的问题,提出 DeLTa:把单次人类示范视频解析成4D手物交互与6D轨迹,再结合深度重建、透明物体姿态估计和VLM任务规划,将自然语言指令转成单臂机器人可执行的长时序操作,并把示范迁移到新透明物体而无需额外训练。判断基于公开摘要/项目页,实验称其在精确、长时程透明物体操作上显著优于已有方法,但具体数值与各模块增益来源文中片段未充分说明。

Cross-Embodiment Dexterous Hand Articulation Generation via Morphology-Aware Learning figure
arXiv2025-10-07

Cross-Embodiment Dexterous Hand Articulation Generation via Morphology-Aware Learning

抓取

抓取灵巧操作跨本体操作

这篇工作针对灵巧手抓取普遍依赖按手型单独训练或后续优化、难以跨本体泛化且推理慢的问题,提出 MachaGrasp:从手的 URDF 提取形态表征与手专属 eigengrasp 基,在低维空间直接回归关节协同幅值,并用强调指尖相关运动的运动学感知损失约束生成。结果是在三种已见手、未见物体上平均成功率 91.9%,单次推理小于 0.4 秒;对未见手少样本适配后仿真达 85.6%,真实机器人达 87%。

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing figure
ICLR 20262025-10-06

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Latent Learning

Latent LearningTransformer Policy机器人学习

这篇工作针对单一视觉基础模型在不同机器人任务上各有所长、统一蒸馏后又难按任务灵活取用的问题,提出 VER:先将多个 VFM 蒸馏为由视觉专家组成的专家库,再只微调不足 0.4% 参数的路由器,按 patch 与层级动态选择任务相关专家,并用 Curriculum Top-K Annealing 提升路由探索和选择精度。实验显示,VER 在 17 个机器人任务及多种策略头上取得 SOTA,同时能抑制背景等无关区域的异常高范数特征,使表征更集中于操作关键区域。

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation figure
arXiv2025-10-06

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

Latent Learning

Latent Learning泛化机器人学习

论文针对机器人状态表征“高维冗余、低维失真”的矛盾,提出StaMo:用轻量编码器和预训练DiT将单帧图像无监督压缩为2个token,并发现相邻状态差即可形成可解码执行的潜在动作,从而绕开视频时序建模。该表示可直接接入VLA做世界建模,在LIBERO和真实机器人上分别提升约11.6%和31%,协同训练也优于既有潜在动作方法约10.4%;但增益有多少来自预训练生成先验与数据规模,文中未充分拆解,且摘要数字有11.6/14.3、31/30的不一致。

MobRT: A Digital Twin-Based Framework for Scalable Learning in Mobile Manipulation figure
arXiv2025-10-06

MobRT: A Digital Twin-Based Framework for Scalable Learning in Mobile Manipulation

移动操作

移动操作操作

针对移动操作中示教数据难采集、底盘与机械臂协同复杂且现有仿真多局限于桌面任务的问题,MobRT提出基于数字孪生的可扩展学习框架,在开门/抽屉和移动抓放两类任务中结合虚拟运动学控制与全身运动规划,自动生成连贯、物理一致的示教并建立多基线评测。结果显示,生成轨迹数量与成功率明显正相关,约300条仿真示教配合20条真实示教即可实现较稳健的sim-to-real;但具体增益拆分文中未充分说明,可能主要来自scaling / data。

HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks figure
arXiv2025-10-06

HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks

VLA

VLA机器人学习

论文针对VLA虽有较强泛化能力却推理极慢、难以支持高频操作的问题,提出HyperVLA:用超网络根据语言指令和初始图像在回合开始时生成小型任务专属策略,后续每步只运行该紧凑基网络,而非整套巨型VLA。为稳定训练,方法结合预训练视觉骨干、HN归一化和线性MSE动作头。在OXE等评测中,它在零样本泛化与少样本适应上达到相当或更优成功率;相比OpenVLA,测试时激活参数减少90倍、推理加速120倍。

ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context figure
arXiv2025-10-05

ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context

VLA

VLA机器人学习

机器人操作常受遮挡、长时序依赖等部分可观测问题影响,但多帧行为克隆以往常出现收益不稳定甚至退化。本文的关键洞察是,真正带来多帧收益的不是简单堆帧,而是VLM预训练赋予VLA的时序理解能力;据此提出ContextVLA,在VLM中间层把历史观测压缩为单个context token,仅保留当前帧细粒度token来生成动作。实验中,它稳定优于单帧VLA,并接近完整多帧训练效果且更高效,如π0在Simpler-WidowX上由41.8%升至56.2%,真实PnP Twice由25%升至65%。

NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation figure
arXiv2025-10-04

NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation

辅助任务

辅助任务VLA泛化感知机器人学习操作

论文聚焦VLA在机器人微调中因密集低层动作监督而产生的灾难性遗忘与泛化退化。NoTVLA将示教压缩为稀疏、具语义的末端执行器关键路点,并结合2D视觉锚点、深度与确定性反解器重建连续控制,把高层语义决策和低层执行解耦。结果显示,它在多任务、语义OOD、视角/深度扰动和零样本场景中优于或接近pi0及单任务专家,同时计算量低一个数量级且无需腕部相机;判断基于给定摘要与片段。

LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization figure
arXiv2025-10-04

LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization

基础操作

基础操作VLA泛化安全操作数据集/Benchmark

这篇工作针对 LIBERO 训练与评测任务高度重合、容易把“记住动作模板”误判为泛化能力的问题,提出可插拔基准 LIBERO-PRO,在操作物体、初始状态、任务指令和环境四个维度加入合理扰动并支持组合测试。核心洞察是:不少 VLA 模型在换物体、改位置、删目标或打乱指令后仍输出近乎相同轨迹。结果上,OpenVLA、pi0/0.5 等在标准 LIBERO 可超 90%,但在更一般化设置下常跌到接近 0%,说明现有评测明显高估了真实理解与感知能力;判断基于公开摘要/项目页,部分扰动构造细节文中未充分说明。

EmbodiSwap for Zero-Shot Robot Imitation Learning figure
arXiv2025-10-04

EmbodiSwap for Zero-Shot Robot Imitation Learning

模仿学习

数据需求量大模仿学习泛化

论文关注机器人示教数据昂贵且难扩展,而互联网第一视角人类视频虽丰富却存在人机形态鸿沟。作者提出 EmbodiSwap,用手部重建、去人修复和深度感知渲染把人手替换为目标机器人,并结合 V-JEPA 学习闭环末端轨迹预测。真实测试中,零样本在5类操作上成功率达82%,优于仅30条示教微调的 π0 以及用同合成数据训练的 π0;但增益究竟更多来自合成数据还是 V-JEPA 预训练,文中未充分说明。

Warm-Starting Optimization-Based Motion Planning for Robotic Manipulators via Point Cloud-Conditioned Flow Matching figure
arXiv2025-10-03

Warm-Starting Optimization-Based Motion Planning for Robotic Manipulators via Point Cloud-Conditioned Flow Matching

任务规划

任务规划3D 表征Flow Matching机器人学习操作非学习控制

论文针对动态拥挤场景下机械臂轨迹优化易受初始化影响、线性或采样初值又慢又易陷局部极小的问题,提出以单视角点云为条件的Flow Matching生成器,在仅需少量生成步的情况下输出多个多样且近优的轨迹种子,用于热启动GPU加速优化,并避免依赖已知障碍物模型。UR5e仿真表明,该初始化器单独就有较高可行率,还能显著提升后端优化成功率、减少迭代次数,并对未见环境保持较好泛化;但具体时延收益的来源是否主要来自更少生成步或工程实现,文中未充分说明。

Flow with the Force Field: Learning 3D Compliant Flow Matching Policies from Force and Demonstration-Guided Simulation Data figure
arXiv2025-10-03

Flow with the Force Field: Learning 3D Compliant Flow Matching Policies from Force and Demonstration-Guided Simulation Data

3D 表征

3D 表征模仿学习触觉Flow Matching机器人学习

针对持续接触操作中视觉策略常忽略顺应性、既易产生过大接触力又依赖大量真机数据的问题,论文提出从单条仿真人类演示出发,用力引导轨迹调制与Laplacian编辑合成带触觉数据,再训练以点云、末端位姿和力为输入、输出位姿与阻抗参数的3D Flow Matching策略,并用状态—速度场结合被动阻抗控制安全执行。其在Franka上零样本完成翻块和双臂搬运,完整方法明显优于去掉力或顺应输出的基线,同时降低能量注入与接触失败。

VLA-R1: Enhancing Reasoning in Vision-Language-Action Models figure
arXiv2025-10-02

VLA-R1: Enhancing Reasoning in Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对现有VLA常直接输出动作、缺少对可供性与几何关系的逐步推理,且后训练奖励薄弱,导致歧义指令和跨域场景下易失败。作者将CoT数据监督与RLVR后训练结合,构建VLA-CoT-13K,并用GRPO配合区域对齐、轨迹一致性和格式三类可验证奖励,同时优化推理与执行。结果上,VLA-R1在域内可供性IoU达36.51、较基线提升17.78%,轨迹误差降17.25%,真实机器人上的可供性感知/轨迹执行成功率为62.5%/75%,且OOD泛化更强。

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation figure
CoRLW 20252025-10-02

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation

数据需求量大

数据需求量大泛化操作

这篇工作针对长程操作里“模仿学习反应快但缺少可组合泛化、TAMP能规划却难实时纠错”的矛盾,提出SymSkill:从无标注、未分段示教中联合学习谓词、算子与DS技能,用对象相对位姿聚类形成符号,并仅在离线阶段借助VLM选参考物体,在线通过符号规划、顺序重排和技能/符号两级恢复实现实时执行。结果上,RoboCasa中12个单步任务成功率达85%,且无需额外数据即可组合多步任务;真实Franka仅用5分钟play数据学到11个算子并完成12步目标驱动操作。

LangGrasp: Leveraging Fine-Tuned LLMs for Language Interactive Robot Grasping with Ambiguous Instructions figure
IROS 20252025-10-02

LangGrasp: Leveraging Fine-Tuned LLMs for Language Interactive Robot Grasping with Ambiguous Instructions

抓取

抓取语言条件操作

这篇工作针对语言驱动抓取难以处理含隐含意图的模糊指令、且多停留在物体级抓取的问题,提出 LangGrasp:用微调 LLM 结合多轮对话与场景感知输出结构化任务,再借助 2D 部件分割引导点云定位,把抓取从“抓哪个物体”推进到“抓物体哪个部位”。桌面与柜体实验表明,该方法能更稳定地解析模糊指令并生成物体级到部件级的 6-DoF 抓取位姿;但给定材料未展示清晰量化指标,具体增益来源仍需结合正文判断。

FailSafe: Reasoning and Recovery from Failures in Vision-Language-Action Models figure
arXiv2025-10-02

FailSafe: Reasoning and Recovery from Failures in Vision-Language-Action Models

VLA

VLA安全机器人学习

这篇工作针对 VLA 主要依赖干净演示轨迹、执行中一旦抓取偏移或机械臂卡住就难以自救的问题,提出 FailSafe:在模拟器里向任意操作任务自动注入平移、旋转和 no-op 等失败,并通过校验生成可直接执行的 7DoF 恢复动作,而不只给文本解释。基于该数据微调的 FailSafe-VLM 可作为外部助手帮助 pi0-FAST、OpenVLA、OpenVLA-OFT 在 ManiSkill 多任务上平均性能最高提升 22.6%,且对视角、空间布局、物体和机械臂具备一定泛化。

Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning figure
arXiv2025-10-02

Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning

泛化

泛化感知机器人学习

这篇工作针对模仿学习策略在训练时依赖固定第三人称视角、部署时一换相机位姿就失效的问题,主张不要让策略在数据稀缺条件下“顺带”猜相机,而应显式输入相机外参。方法上用逐像素Plücker射线嵌入对RGB策略做相机条件化,可接入ACT、Diffusion Policy和SmolVLA。作者在RoboSuite/ManiSkill六个固定—随机化配对任务及真实机器人上发现,不带外参的策略常偷用静态背景推断视角,场景几何或机位一变就崩;加入外参后跨视角泛化明显提升,并能实现无需深度的稳健控制。

Contrastive Representation Regularization for Vision-Language-Action Models figure
arXiv2025-10-02

Contrastive Representation Regularization for Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对 VLA 直接继承预训练 VLM 表征、却对动作与本体状态不够敏感的问题,提出 RS-CL:用机器人 proprioception 的相对距离作为软监督,在动作预测损失外加入对比式表征正则,并配合表征级的 view cutoff 增强,使嵌入更贴近控制相关结构且几乎不改原训练流程。实验显示其在 RoboCasa-Kitchen 的 pick-and-place 成功率由 30.8% 提升到 41.5%,真实机器人任务由 45.0% 升至 58.3%,在不同示教规模下也有稳定增益。

ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations figure
arXiv2025-10-02

ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations

模仿学习

模仿学习数据采集遥操作感知操作

这篇工作针对机器人操作数据难规模化、且现有腕部或第三人称视角难应对遮挡、长时序和精细双臂任务的问题,提出 ActiveUMI:用可穿戴 VR 遥操作背包和与机器人末端精确对齐的控制器采集 robot-free 人类演示,并把操作者头部运动映射到机器人头部相机,显式学习“看哪里”和“怎么操作”的耦合。仅用该数据训练的策略在 6 个双臂任务上平均成功率达 70%,相对腕视角和第三人称基线分别提升 44% 和 38%,在新物体新环境下仍有 56%;但这些增益有多少来自主动感知、多少来自更好的数据对齐与采集方式,文中未充分拆分。

ARMADA: Autonomous Online Failure Detection and Human Shared Control Empower Scalable Real-world Deployment and Adaptation figure
IROSW 20252025-10-02

ARMADA: Autonomous Online Failure Detection and Human Shared Control Empower Scalable Real-world Deployment and Adaptation

模仿学习

模仿学习感知机器人学习

这篇工作针对模仿学习策略落地时域内数据不足、且传统人机协同需一人盯一机的问题,提出ARMADA:用FLOAT基于策略嵌入与最优传输做在线轨迹匹配,自动判别失败并只在必要时请求人工接管,从而支持多机器人并行rollout与后训练。四个真实任务上,FLOAT平均准确率近95%,较已有方法高20%以上;多轮适应后任务成功率提升超4倍、人工干预率降至一半以下。

A Recipe for Efficient Sim-to-Real Transfer in Manipulation with Online Imitation-Pretrained World Models figure
arXiv2025-10-02

A Recipe for Efficient Sim-to-Real Transfer in Manipulation with Online Imitation-Pretrained World Models

模仿学习

模仿学习泛化Sim2Real世界模型操作

这篇工作关注一个很实际但常被回避的设定:真实专家示范很少、仿真和现实都没有奖励信号时,纯离线模仿学习会因覆盖不足而过拟合,并在少样本微调后明显退化。作者的关键做法是在仿真中先用世界模型做在线模仿预训练,并借助区分专家与交互轨迹的CDRED奖励扩大状态覆盖,再用少量真实示范离线微调;核心洞察是,增益主要来自在线探索带来的覆盖与鲁棒性提升。实验中其在6个sim-to-sim环境和3个sim-to-real任务上,相比离线模仿基线成功率分别至少提升31.7%和23.3%。

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators figure
arXiv2025-10-01

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

强化学习

强化学习VLA触觉机器人学习数据集/Benchmark

本文针对VLA主要依赖模仿学习、在分布偏移下易累积误差且真实机器人RL成本高的问题,提出VLA-RFT:先用真实交互数据训练世界模型作为可控模拟器,再将策略动作滚动为未来视觉轨迹,并与达成目标的参考轨迹比较,构造可验证的稠密奖励,用GRPO对VLA做强化微调。结果显示其仅需不到400步微调便超过强监督基线,且比传统模拟器RL更高效,在扰动场景下也能保持更稳健的执行。

RTFF: Random-to-Target Fabric Flattening Policy using Dual-Arm Manipulator figure
arXiv2025-10-01

RTFF: Random-to-Target Fabric Flattening Policy using Dual-Arm Manipulator

可变形物体

可变形物体双臂操作

这篇工作面向服装制造中布料因褶皱、遮挡和高自由度变形而难以被准确铺平对齐的问题,提出随机到目标布料铺平策略RTFF:先用带模板网格表征的模仿学习策略MACT做粗对齐与抓点选择,再切换视觉伺服完成精对齐。关键洞察是用保持顶点对应关系的网格同时表达目标、预测褶皱几何并支撑IL/VS切换。作者在真实双臂系统上展示了对不同目标的零样本对齐及跨面料、尺度泛化,但摘要未充分说明相对基线的具体数值增益来源。

Prometheus: Universal, Open-Source Mocap-Based Teleoperation System with Force Feedback for Dataset Collection in Robot Learning figure
arXiv2025-10-01

Prometheus: Universal, Open-Source Mocap-Based Teleoperation System with Force Feedback for Dataset Collection in Robot Learning

触觉

触觉数据采集遥操作机器人学习数据集/Benchmark

这项工作针对基于动捕的遥操作在抓取时缺乏力觉、示教者和策略都易过度施力的问题,提出一套低成本开源系统:用HTC Vive Tracker做手部跟踪,通过逆运动学控制机械臂,并以自制手持力反馈控制器配合带嵌入力传感器的定制夹爪手指,把夹持压缩力实时回传给操作者。其核心洞察是用覆盖末端整面的柔性受力分布机构来保护传感器并提供更可用的抓取反馈,而不是停留在简单振动提示。实验表明,力反馈可提升任务成功率,适合用于大规模模仿学习数据采集。

Hybrid Training for Vision-Language-Action Models figure
CoRLW 20252025-10-01

Hybrid Training for Vision-Language-Action Models

辅助任务

辅助任务VLA机器人学习

论文针对机器人VLA中“先想再做”的CoT虽能提升成功率、却会显著拖慢长时序操控推理的问题,提出Hybrid Training:训练时把思维轨迹作为辅助监督,与动作联合建模,并用模态变量统一支持act/think/follow三种模式。核心洞察是性能增益更多来自训练期对环境与任务表征的内化,而不一定要求测试时显式生成CoT。仿真中的ClevrSkills、LIBERO及真实xArm 6实验表明,HyT在保持接近标准VLA推理速度的同时,取得接近ECoT的提升,并在真实OOD任务上优于OpenVLA。

How Well do Diffusion Policies Learn Kinematic Constraint Manifolds? figure
arXiv2025-10-01

How Well do Diffusion Policies Learn Kinematic Constraint Manifolds?

Diffusion Policy

Diffusion Policy机器人学习

论文关注一个常被任务成功率掩盖的问题:扩散策略是否真的学到了双臂操作中的运动学约束流形,而不只是靠底层控制“兜底”。作者在双臂搬箱任务中,通过锁定夹爪相对位姿采集严格在流形上的示教,再人为注入不同程度的离流形扰动,并把评估重点放在策略动作预测而非执行轨迹上,以分离控制器与接触因素。结果表明,扩散策略通常只学到约束的粗略近似;数据更少或质量更差都会明显削弱约束满足与任务成功,而流形曲率与性能的关系文中结论不充分,硬件实验基本复现了这一趋势。

HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy figure
ICLR 20262025-10-01

HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy

VLA

VLA机器人学习

论文指出现有VLA多按单帧观测预测动作,难以处理遮挡、步骤依赖等历史相关操作,而直接拼接多帧又计算和显存开销很大。HAMLET以可插拔微调方式引入经时间对比学习初始化的moment token,并用轻量记忆模块跨时刻聚合关键信息,把现成VLA变成历史感知策略。在GR00T N1.5上,真实历史依赖任务成功率达76.4%,较基线提升47.2%;RoboCasa由64.1%升至66.4%,LIBERO由95.6%升至97.6%。

From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment figure
arXiv2025-10-01

From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment

泛化

泛化跨本体操作

这篇工作针对机器人操作高度依赖昂贵遥操作数据、而人手视频又难直接迁移到机械臂的问题,提出 Traj2Action:把“手/夹爪末端的3D轨迹”作为跨本体中间表示,先联合人类与机器人数据生成粗粒度轨迹计划,再用协同去噪在其条件下补全机器人专属动作,如姿态与夹爪开合。核心洞察是用轨迹承接高层运动意图,而非直接对齐人手姿态。实机 Franka 实验中,短/长时程任务相对 π0 分别最高提升 27% 和 22.25%,且人类数据规模越大效果越好,并可替代部分机器人示教数据。

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition figure
ICLR 20262025-10-01

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Diffusion Policy

Diffusion Policy感知机器人学习

这篇工作针对扩散/流匹配机器人策略受限于交互数据昂贵、继续训练成本高的问题,提出测试时分布级组合GPC:不改动基座模型,只把多个预训练策略的score做凸组合,并搜索任务相关权重,从而把VA、VLA及不同视觉模态策略即插即用地拼成更强策略。文中理论上论证单步目标可优于任一父策略,实验在Robomimic、PushT、RoboTwin和真实机器人上都稳定超过单模型,且有时还能超过最佳父策略。

AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation figure
arXiv2025-10-01

AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation

Affordance

Affordance数据筛选泛化感知机器人学习操作

这篇工作关注机器人操作中“看得太多反而学不好”的问题:稠密图像/点云既算力重,又容易把背景、光照和实例外观混进策略;已有关键点方法则常依赖人工规则或与任务强绑定。AFFORD2ACT用语言条件的affordance先验先定位可交互区域,再从单张图像蒸馏少量语义2D关键点,并结合跨实例对应与带门控的Transformer按操作阶段动态重加权,形成仅38维、无需本体感觉的轻量状态。实机六项任务中,其训练约15分钟即可部署,在未见物体、新类别、背景变化和干扰物下取得82%成功率。

dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought figure
arXiv2025-09-30

dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought

辅助任务

辅助任务VLADiffusion Policy世界模型感知机器人学习

这篇工作针对现有VLA把视觉/语言数据与动作分开训练易产生梯度冲突、且自回归架构难同时兼顾图像生成与控制的问题,提出基于离散扩散的dVLA,在统一目标下联合重建子目标图像、文本推理和动作,把多模态CoT直接变成策略学习信号,并用prefix mask与KV cache缓解扩散推理开销。实验上其在LIBERO达到96.4%平均成功率并刷新SOTA,在Franka真机多任务尤其多步bin-picking上也表现稳定,同时推理可加速约2倍。

VLA Model Post-Training via Action-Chunked PPO and Self Behavior Cloning figure
arXiv2025-09-30

VLA Model Post-Training via Action-Chunked PPO and Self Behavior Cloning

模仿学习

模仿学习VLA机器人学习

针对VLA模型后训练中奖励稀疏、直接用RL不稳定且高质量示范昂贵的问题,论文提出把连续低层动作打包为action chunk来做PPO,以提升时序一致性和有效反馈密度,并用动态示范池吸收智能体自生成的高质量成功轨迹,结合自行为克隆损失与在线调节的RL/BC权重稳定训练。在MetaWorld上,该方法仅用10条初始示范启动,就优于用100条示范做监督微调,成功率达0.93、平均42.17步完成;但各模块的独立增益来源,文中未充分说明。

TacRefineNet: Tactile-Only Grasp Refinement Between Arbitrary In-Hand Object Poses figure
arXiv2025-09-30

TacRefineNet: Tactile-Only Grasp Refinement Between Arbitrary In-Hand Object Poses

抓取

抓取灵巧操作触觉感知操作

本文聚焦灵巧抓取“最后一厘米”误差:上游视觉或规划虽能给出目标位姿,真正执行时仍常因微小偏差影响后续装配。TacRefineNet将问题改写为“当前触觉图—目标触觉图”的多指触觉对齐,用多分支网络融合三指触觉与本体感觉,迭代预测6DoF腕部修正,并以触觉仿真预训练加少量真机微调缓解 sim-to-real。实验表明,它仅靠触觉就能把已知物体从任意手内初始位姿调整到目标位姿,达到毫米级精度;但对更广泛未知物体的泛化边界文中未充分说明。

RoboPilot: Generalizable Dynamic Robotic Manipulation with Dual-thinking Modes figure
arXiv2025-09-30

RoboPilot: Generalizable Dynamic Robotic Manipulation with Dual-thinking Modes

任务规划

任务规划程序化规划泛化操作

面向复杂长时程操作中“先规划一次就执行到底”导致的失误累积与环境变化适应差,RoboPilot提出双思维闭环框架:用动作原语把高层任务分解与底层参数生成解耦,在简单场景走快速模式,在复杂场景引入CoT慢思考,并结合执行监控与环境反馈持续重规划。作者还构建含10类21项任务的RoboPilot-Bench,覆盖不可行目标识别和失败恢复;实验显示其成功率较现有方法提升25.9%,且工业机器人实机部署验证了动态场景鲁棒性。

Reinforced Embodied Planning with Verifiable Reward for Real-World Robotic Manipulation figure
arXiv2025-09-30

Reinforced Embodied Planning with Verifiable Reward for Real-World Robotic Manipulation

任务规划

任务规划强化学习触觉操作

这篇工作针对真实世界长程操作中,VLM既缺少带多步计划的顺序数据、又缺少可解释可验证训练奖励的问题,提出REVER:先把原子技能演示自动整理成视觉-指令-计划数据,再用“技能语法校验+与真值技能序列的有序二分匹配”构造可验证奖励,强化出既能生成高层计划、又能逐步判断当前步骤是否完成的RoboFarseer。结果上,它在开放式规划上较强基线提升超40%,真实长程任务成功率较无规划器的底层控制提高约60%;但增益究竟更多来自RL还是数据构建,文中未充分说明,判断基于公开摘要/项目页。

Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding figure
arXiv2025-09-30

Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding

Affordance

Affordance感知数据集/Benchmark

这篇工作针对现有具身推理评测过度依赖选择题或语言规划、难以检验模型能否把推理结果落到图像中可执行位置的问题,提出 PIO 基准,将能力分解为目标定位、任务驱动指点和视觉轨迹预测三阶段,并在家居、厨房、驾驶、机械臂四类场景提供 600+ 人工像素级标注。实验显示,GPT-4o 等通用强模型在精细 visual grounding 上不如部分开源或专门训练模型,而 S3 轨迹预测对多数模型都显著更难,说明 affordance 理解与视觉规划仍是当前主要短板。

MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation figure
ICRA 20262025-09-30

MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation

3D 表征

3D 表征辅助任务VLA机器人学习操作

现有 VLA 多依赖 2D 图像与语言,难以建模操作中的空间几何、接触反馈和物理动态,尤其在复杂接触任务上受限。MLA 的关键做法是把 LLM 前部直接当作感知模块,通过 2D 图像、3D 点云与触觉 token 的位置对应做无编码器对齐,并在训练后期加入未来多传感器生成,让模型同时预测图像、点云和触觉以强化物理世界表征。该方法仅在训练时增加目标,不影响推理效率,在真实复杂任务上相对此前最优 2D/3D VLA 分别提升 12% 和 24%,且对未见配置泛化更好。

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies figure
NeurIPS 20252025-09-30

Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies

Diffusion Policy

Diffusion Policy感知机器人学习

这篇工作针对模仿学习中“感知先编码、动作再生成”的静态解耦问题,认为动作生成过程中的中间反馈也应反过来修正观测表征。作者在 Diffusion Policy 上提出 DP-AG:先用变分推断建模含不确定性的潜在观测,再用由噪声预测 VJP 驱动的动作引导 SDE 迭代更新潜变量,并配合循环一致对比损失把潜在演化与动作去噪绑定成闭环。实验中,它在 Push-T、Dynamic Push-T 和真实 UR5 操作任务上都优于基线,仿真成功率约提升 6%/13%,真实机成功率至少高 23%,动作平滑度约改善 60%。

World-Env: Leveraging World Model as a Virtual Environment for VLA Post-Training figure
CVPR 20262025-09-29

World-Env: Leveraging World Model as a Virtual Environment for VLA Post-Training

VLA

VLA世界模型机器人学习数据集/Benchmark

这篇工作针对VLA在少样本下高度依赖示范、而真实机器人RL又难重置且有风险的问题,提出把世界模型当作后训练虚拟环境。其核心是结合VGGT几何特征的物理一致世界模拟器,用于按动作生成未来观测,再配合VLM反射器提供稠密奖励与任务完成终止信号,减少成功后的冗余动作。文中在LIBERO操作任务上称每个任务仅5条专家示范也能明显优于纯模仿基线,但摘要片段未给出精确提升幅度,增益中世界模型与奖励设计的相对贡献仍需看全文表格判断。

U-DiT Policy: U-shaped Diffusion Transformers for Robotic Manipulation figure
arXiv2025-09-29

U-DiT Policy: U-shaped Diffusion Transformers for Robotic Manipulation

Diffusion Policy

Diffusion PolicyTransformer Policy机器人学习操作

该文针对DP-U在机器人扩散策略中全局时序建模弱、卷积易过平滑,而纯Transformer版又丢失U形多尺度融合的问题,提出U-DiT:把Transformer嵌入U-shaped扩散骨干,并结合非对称解码器、AdaLN和双向注意力掩码,在保留层级特征融合的同时增强长程依赖与细粒度动作表达。其在12个RLBench任务上平均优于基线约10%,同等参数下较AdaLN式DP-T高6%,4个真实任务较DP-U平均提升22.5%,且在干扰物与光照变化下更稳健。

SRMP: Search-Based Robot Motion Planning Library figure
arXiv2025-09-29

SRMP: Search-Based Robot Motion Planning Library

基础操作

基础操作任务规划操作数据集/Benchmark

这项工作针对采样式规划器在工业协作和学习数据采集里轨迹波动大、难复现的问题,提出基于图搜索的操作规划库 SRMP,用具备完备性和次优界保证的搜索算法替代常见采样法,并以 C++/Python、MoveIt 插件和多仿真器接口统一单臂与多机器人规划,这也是其最突出的系统创新。实验显示,相比 OMPL,SRMP 在抓取、货架搬运等任务中能以相近时间生成更一致、可解释的轨迹,并扩展到多臂场景;但具体增益来源更像搜索范式与工程集成,文中未充分拆解。

SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation figure
ICLR 20262025-09-29

SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

强化学习

强化学习泛化操作

论文针对长时程、接触丰富、含可形变物体的操作任务中“示范数量增加但质量不稳”这一瓶颈,指出仅靠扩数据不够,关键在于稳定刻画多阶段任务进度。SARM用少量自然语言子任务标注,把变长视频示范转成“阶段+细粒度进度”监督,避免按帧索引打标的脆弱性;再用RA-BC依据奖励估计筛选并重加权示范。真实T恤折叠实验中,展平/揉皱初态成功率达83%/67%,明显高于普通BC的8%/0%,且对分布外场景更稳。

PhysiAgent: An Embodied Agent Framework in Physical World figure
arXiv2025-09-29

PhysiAgent: An Embodied Agent Framework in Physical World

任务规划

任务规划

这篇工作针对现有VLM+VLA系统多为“VLM规划、VLA执行”的刚性串联,导致对机器人真实能力估计不足、难以在物理环境中稳健泛化的问题,提出训练无关的PhysiAgent:用规划器、监控器、反思器、记忆和轻量工具箱构成闭环,让VLM依据VLA实时执行反馈持续调整子任务分解与工具调用。作者在真实桌面操作中报告任务成功率显著提升,并保持可接受运行频率,但文中片段未充分说明具体提升幅度与各模块增益来源。

Parallel Heuristic Search as Inference for Actor-Critic Reinforcement Learning Models figure
arXiv2025-09-29

Parallel Heuristic Search as Inference for Actor-Critic Reinforcement Learning Models

强化学习

强化学习触觉机器人学习

这篇工作针对 actor-critic 强化学习在部署时通常只做单步 rollout、缺乏前瞻与回溯,因而在复杂操作和分布外场景泛化差的问题,提出 PACHS:把已训练 SAC 的 actor 当作连续动作生成器、critic 当作 cost-to-go 启发式,在推理阶段做并行 best-first 搜索,无需改策略或重训。实验在机械臂避障与推 T 接触操作中表明,该方法能把在无障碍环境训练出的策略更稳健地迁移到更复杂场景,并提升搜索效率;但给定片段未充分说明具体数值增益分别来自搜索还是并行化。

MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation figure
arXiv2025-09-29

MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation

机器人学习

机器人学习操作

这篇论文针对生成式机器人策略虽能表达多模态行为、却普遍需要大量示范的问题,提出MSG:先分别学习多个以对象局部坐标系为中心的策略流,再只在推理时把各流变换到世界坐标并按精度加权组合,借几何结构提升小样本泛化,且不依赖特定生成模型。仿真与真机结果显示,它在仅5条示范下仍能学到高质量操作,相比单流方法性能最高提升89%,示范与训练成本可降约95%,并支持零样本物体实例迁移。

IA-VLA: Input Augmentation for Vision-Language-Action models in Settings with Semantically Complex Tasks figure
arXiv2025-09-29

IA-VLA: Input Augmentation for Vision-Language-Action models in Settings with Semantically Complex Tasks

辅助任务

辅助任务VLA数据增强感知机器人学习

论文关注VLA在“多个外观相同物体+相对位置语言指令”场景下的语义理解瓶颈:为满足控制频率,VLA往往无法使用足够大的语言模型。IA-VLA把语义解析前移给更强的VLM,在初始帧上结合分割、数字标注与掩码高亮定位任务相关物体,并将掩码跟踪到后续时刻、可选简化指令。在三类重复物体场景和1290次评测中,增强版整体优于基线,尤其对需外推出未见语义组合的指令提升最明显,但剩余失败多数仍来自执行/抓取而非语义选择。

From Code to Action: Hierarchical Learning of Diffusion-VLM Policies figure
CoRLW 20252025-09-29

From Code to Action: Hierarchical Learning of Diffusion-VLM Policies

Diffusion Policy

Diffusion Policy语言条件机器人学习

这篇工作针对机器人模仿学习在长时序操作中数据稀缺、泛化差的问题,提出把开源机器人 API 不只当执行器,还当作结构化监督来源:用代码轨迹里的子任务函数自动产标签,由 VLM 生成可执行子程序,再交给以代码为条件的扩散策略学习低层控制,并用记忆机制处理状态依赖与非马尔可夫任务。实验表明,在 ClevrSkills 上该分层方法优于扁平策略及仅语言条件基线,长时序任务的组合泛化更好,也能将高层规划与低层控制分开评估。

Fidelity-Aware Data Composition for Robust Robot Generalization figure
arXiv2025-09-29

Fidelity-Aware Data Composition for Robust Robot Generalization

数据采集

数据采集数据增强泛化安全

论文关注机器人策略在视觉同质数据上容易学到背景、纹理等“捷径”,从而在分布外环境甚至安全相关场景中失效。作者的核心洞察不是一味增加合成数据,而是按“信息保真度”来决定真实/合成数据的配比:提出CIFT,用特征空间几何构造保真度代理并寻找混合训练的“退相干点”,再结合MVAug生成多视角、可控扰动数据。实验显示,该方法在π0和Diffusion Policy上将OOD成功率提升逾54%,对光照、干扰物、背景和纹理变化的鲁棒性显著增强。

Emergent World Representations in OpenVLA figure
arXiv2025-09-29

Emergent World Representations in OpenVLA

VLA

VLA机器人学习

这篇工作关注一个关键问题:以行为克隆/策略式RL训练的OpenVLA虽未显式学习环境动力学,内部是否仍形成了“世界模型”。作者用状态嵌入差分表示转移向量,并比较中间层激活与原始嵌入经探针后对转移的可恢复性,尽量排除“只是探针学会了转移”的解释。结果显示激活对状态转移的预测显著优于基线(总体p<0.0001),世界表征主要出现在中层,早期checkpoint更弱;其增益可能主要来自scaling/data。

CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations figure
ICRA 20262025-09-29

CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations

抓取

抓取灵巧操作人形操作跨本体操作

这篇工作针对跨本体灵巧抓取中“新手型要重采数据、纯物理优化又缺少人类式运动学先验”的瓶颈,提出 CEDex:先用基于人手接触数据训练的 CVAE 生成类人接触表示,再通过拓扑合并把人手部位对齐到任意机器人手,并结合 SDF 与物理约束做抓取优化。作者还构建了含50万物体、4类手型、2000万抓取的数据集;在 Barrett、Allegro、Shadow 上平均成功率达 88.7%、多样性 0.512 rad,整体优于现有方法。

Annotation-Free One-Shot Imitation Learning for Multi-Step Manipulation Tasks figure
arXiv2025-09-29

Annotation-Free One-Shot Imitation Learning for Multi-Step Manipulation Tasks

模仿学习

数据需求量大模仿学习泛化操作

这篇工作针对单次模仿学习在长时程、多步骤操作中仍常依赖人工分段、关键帧标注或额外训练的问题,提出一种无标注流程:用预训练VLM自动把单次示教拆成子任务并选取瓶颈帧,再通过腕部相机视觉对齐后回放相对轨迹。实验中其在4个多步骤任务上平均成功率为82.5%,在4个单步骤任务上达90%,整体优于或不逊于需更多示教或人工标注的基线,但执行阶段仍偏开环,失败恢复能力有限。

AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation figure
arXiv2025-09-29

AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation

基础模型

移动操作基础模型操作数据集/Benchmark

这项工作针对现有机器人数据多停留在桌面操作、缺少接触感知和长时序结构,难支撑家庭场景移动操作的问题,提出AIRoA MoMa数据集。其核心在于同步采集RGB、关节/内部状态与腕部六轴力矩,并提供“子目标+原子动作”的两层标注和显式失败样例,便于分层学习与误差分析。首版包含25,469条HSR真实轨迹、约94小时,覆盖7类主任务和40多个子任务,并按LeRobot v2.1标准发布;但文中未充分说明基于该数据训练后的定量性能增益。

Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress figure
ICRA 20262025-09-28

Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress

强化学习

强化学习触觉轨迹生成感知机器人学习

论文关注不同于抓取、开合等刚体位姿操控的“物体状态变化”任务,如压泥、涂抹、切片;这类任务的进展发生在物体表面/内部区域,而非位置变化,因此仅靠RGB观测和稀疏成功奖励很难学习。SPARTA的核心洞察是把过程表示为“可操作区域→已变换区域”的空间推进分割图,并同时将其用作策略输入和稠密进度奖励,从而统一支持无示教、无仿真的在线强化学习与轻量贪心控制。真实机器人在3类任务、10种物体上仅用1.5–3小时训练,就显著优于稀疏奖励和视觉目标条件基线。

HeLoM: Hierarchical Learning for Whole-Body Loco-Manipulation in Hexapod Robot figure
ICLR 20262025-09-28

HeLoM: Hierarchical Learning for Whole-Body Loco-Manipulation in Hexapod Robot

四足操作

移动操作四足操作操作

论文针对重物或形状不规则物体推动时“既要持续施力又要保持稳定”的难题,提出六足机器人分层强化学习框架 HeLoM:高层规划双前足推挤行为与目标物姿态,低层协调全身关节并重分配接触力,让后足稳态支撑和推进。策略在仿真训练后可零微调上真机,能把不同尺寸、物性未知的箱体稳定推到指定位置和朝向;但性能提升究竟多少来自层级设计、多少来自六足形态冗余,文中未充分说明。

Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints figure
ICLR 20262025-09-28

Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints

3D 表征

3D 表征泛化感知机器人学习操作

本文针对粗到细3D操作策略虽具样本效率和操作精度、却难泛化到新指令与环境变化的问题,提出CLAP:先用VLM将任务分解为逐步语言子技能并与3D关键点对齐,再通过面向3D关键点的专门微调和融合RGB-D的3D-aware表征进行精细动作预测,从而提升组合泛化与物体变化鲁棒性。在GemBench上,它仅用1/5训练轨迹就比SOTA高12%平均成功率,真实机器人上每任务10个示范也能泛化到新指令和新环境。

GES-UniGrasp: A Two-Stage Dexterous Grasping Strategy With Geometry-Based Expert Selection figure
arXiv2025-09-28

GES-UniGrasp: A Two-Stage Dexterous Grasping Strategy With Geometry-Based Expert Selection

抓取

抓取灵巧操作数据筛选操作

论文针对现有灵巧手抓取虽能成功但姿态不自然、单一策略泛化差的问题,提出先“接触引导生成抓姿”、再“按几何选专家执行”的两阶段框架:构建含773个物体的ContactGrasp数据集,用接触点生成、重定向与避碰优化合成人形预抓取/抓取姿态,再用基于形状聚类和门控网络的多专家策略完成闭环抓取。仿真中训练/测试成功率达99.4%/96.3%,单物体抓姿生成约5秒;但真实机器人部署仍未验证,增益中数据与专家选择各自贡献文中未充分说明。

Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models figure
CoRL 20252025-09-28

Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models

辅助任务

辅助任务VLA感知机器人学习

论文指出现有VLA将图像切成大量patch再送入LLM,视觉token过多是训练成本高的关键瓶颈。作者提出Oat-VLA,核心洞察是操作时真正重要的是任务相关物体与机器人末端执行器,因此用对象中心token压缩场景、再保留抓手附近的agent中心token,在复用OpenVLA预训练知识的同时,把224×224输入从256个视觉token降到16个。实验显示其在LIBERO上收敛至少快2倍且成功率不降反升,真实抓放任务也优于OpenVLA,但结果主要验证于单臂场景。

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation figure
NeurIPS 20252025-09-28

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

数据需求量大

数据需求量大灵巧操作数据采集数据生成操作

这篇工作针对灵巧操作中“高质量、多样化示范极难采集”的瓶颈,提出 DexFlyWheel:把少量人类示范视为行为先验,而非仅做轨迹回放,再用模仿学习、残差强化学习、策略 rollout 和环境/位姿增强构成闭环数据飞轮,从单任务单示范持续扩展到新物体与新场景。实验在4个任务上生成超2000条、覆盖500+场景的数据,训练策略在挑战测试集平均成功率81.9%,并经数字孪生迁移到真实双臂任务,抬举成功率78.3%、交接63.3%。

Space Robotics Bench: Robot Learning Beyond Earth figure
CASE 20252025-09-27

Space Robotics Bench: Robot Learning Beyond Earth

机器人学习

机器人学习操作数据集/Benchmark应用

面向太空机器人真实试验昂贵、数据稀缺且现有航天仿真器多偏数字孪生与封闭验证的问题,论文提出开源 Space Robotics Bench,以程序化场景生成、物理/视觉随机化和 GPU 并行仿真构造大规模多样训练分布,并配套跨任务基准与 RL 基线。实验围绕泛化、端到端学习、自适应控制和 sim-to-real 展开,显示现有方法仍有局限,但该框架已实现零样本仿真到真实导航迁移,证明“以多样性而非单一高保真为中心”的路线可行。

Multi-Modal Manipulation via Multi-Modal Policy Consensus figure
arXiv2025-09-27

Multi-Modal Manipulation via Multi-Modal Policy Consensus

机器人学习

机器人学习操作

本文针对多模态操作中“特征拼接”常让视觉压制稀疏但关键的触觉、且传感器增减需整体重训的问题,提出将策略拆成按模态训练的扩散专家,并由路由器在策略/score层学习共识权重来组合动作分布,从而可随任务阶段自适应切换模态,并支持增量接入或移除模态。实验表明,该方法在RLBench多任务以及遮挡抓取、手内勺子重定向、拼图插入等真实任务上均优于拼接基线,尤其在需要多模态推理的场景更明显,同时对物理扰动和传感器腐败更稳健;扰动分析也显示其会从视觉主导动态转向触觉主导。

In-Hand Manipulation of Articulated Tools with Dexterous Robot Hands with Sim-to-Real Transfer figure
arXiv2025-09-27

In-Hand Manipulation of Articulated Tools with Dexterous Robot Hands with Sim-to-Real Transfer

抓取

抓取灵巧操作Sim2Real操作

论文针对灵巧手操作剪刀、钳子等关节工具时,因摩擦、卡滞、回差和复杂接触导致传统 sim2real 策略易脆弱失效的问题,提出三阶段方案:先在仿真中训练带扰动的特权策略并蒸馏为本体感觉基策略,再用硬件示范学习 CATFA,通过交叉注意力融合全手触觉、力/力矩反馈与动作意图,在线修正接触和内力调节。实机在五类工具上显示更高成功率、更强抗扰和对结构相近新工具的泛化,但文中未充分说明硬件示范规模及各模块独立增益。

GLUE: Global-Local Unified Encoding for Imitation Learning via Key-Patch Tracking figure
arXiv2025-09-27

GLUE: Global-Local Unified Encoding for Imitation Learning via Key-Patch Tracking

模仿学习

模仿学习机器人学习

GLUE针对模仿学习在杂乱、遮挡等OOD场景中仅靠全局视觉特征易被无关物体稀释、导致协变量偏移的问题,提出以关键patch为中心的全局—局部统一编码:先用文本引导的检测与跟踪自动选取任务相关patch,再让全局patch通过交叉注意力查询局部patch,并与CLIP全局表征融合,把训练与测试映射到更接近且更具任务信息的特征空间。实验中,它在仿真、真实场景和真实泛化设置下较最强基线分别提升17.6%、36.3%和58.3%,但文中也指出推理较慢、长时程跟踪仍可能失效。

FTACT: Force Torque aware Action Chunking Transformer for Pick-and-Reorient Bottle Task figure
arXiv2025-09-27

FTACT: Force Torque aware Action Chunking Transformer for Pick-and-Reorient Bottle Task

触觉

触觉Transformer Policy机器人学习

论文聚焦零售场景中倒卧瓶子的抓取与扶正:单臂机器人在“顶压重定向”和“放手立瓶”阶段仅靠视觉难以判断接触状态,因而常需人工接管。作者在ACT中加入腕部六维力/力矩输入,与头部/夹爪图像和关节状态端到端融合,提出FTACT,用接触瞬变辅助动作分块决策。实机结果显示,FTACT在训练瓶型上的总成功率为100%(ACT为80%),未见瓶型上为80%(ACT为60%),提升主要集中在press和place阶段;但评测仅限单一任务和较小规模示教数据,泛化边界文中未充分说明。

WoW: Towards a World omniscient World model Through Embodied Interaction figure
arXiv2025-09-26

WoW: Towards a World omniscient World model Through Embodied Interaction

视频规划

视频规划人机交互世界模型感知机器人学习

论文认为,仅靠互联网视频学习缺少“动作—结果”的因果监督,难形成稳定物理直觉,因此在200万条真实机器人交互轨迹上训练14B世界模型WoW。其核心洞察是:模型的物理理解本质上是“合理未来”的概率分布,容易出现随机失稳和物理幻觉,所以再用SOPHIA让VLM充当评审,迭代修正生成计划,并配合逆动力学模型把想象视频落到可执行动作。结果上,WoW在新建WoWBench的人评和自动评测上达到SOTA,并展示了真实机器人闭环操作;但各模块增益是否主要来自scaling/data,判断基于公开摘要,文中未充分说明。

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search figure
ICRA 20262025-09-26

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search

VLA

VLA机器人学习

论文针对VLA只做短视一步动作预测、在长时序操作中易累积偏差的问题,提出可插拔的VLA-Reasoner:在测试时用世界模型展开未来轨迹,并以改造的MCTS结合KDE置信采样和离线价值估计,在较少额外VLA查询下搜索更优动作。结果显示其在LIBERO仿真与真实机器人上均稳定优于原始VLA和部分SOTA方法,但具体提升幅度在给定片段中未充分说明。

Robot Learning from Any Images figure
CoRL 20252025-09-26

Robot Learning from Any Images

泛化

泛化Sim2Real机器人学习

论文针对机器人学习受限于真机数据昂贵、而现有 real-to-sim 依赖多视角与专门采集装置的问题,提出 RoLA:从任意单张野外图像恢复可交互物理场景,并用“物理仿真+视觉融合”而非完整重建渲染来批量生成逼真的示教数据。实验显示其可在 WidowX、Franka 及类人场景中实现单图训练到真机部署,视觉融合显著优于直接渲染,且利用互联网苹果图像预训练能提升少量真机微调后的抓取成功率;不过整体增益可能主要来自 scaling / data,部分模块贡献文中未充分说明。

RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation figure
arXiv2025-09-26

RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation

泛化

泛化感知操作数据集/Benchmark

这篇工作针对现有机器人操作基准只看平均成功率、难以暴露颜色和视角等视觉因素所致系统性偏置的问题,提出了 RoboView-Bias。其核心是用因素隔离与感知公平校验构造 2127 个任务,分别量化单一视觉因素及其交互效应。实验显示,不同范式的 embodied agent 都存在明显视觉偏置,其中相机视角影响最大,模型普遍偏好高饱和颜色,且视角会不对称地放大颜色偏置;加入语义 grounding 层后,在 MOKA 上偏置可下降约 54.5%。

Pixel Motion Diffusion is What We Need for Robot Control figure
CVPR 20262025-09-26

Pixel Motion Diffusion is What We Need for Robot Control

辅助任务

辅助任务VLADiffusion Policy感知机器人学习

论文的动机是:现有VLA要么直接从观测映射到动作,要么先生成未来RGB再反推运动,既计算重也缺少清晰的运动抽象。DAWN将显式的密集像素运动作为高低层控制之间的接口,用两个扩散模型分别建模“运动导演”和“动作专家”,先预测语言条件下的场景动态,再转成可执行动作,兼顾端到端训练、模块化和可解释性。实验显示,它在较小模型和有限数据下于CALVIN达到SOTA,并在MetaWorld及少量微调的真实机器人上取得稳健迁移;不过增益有多少来自预训练组件组合,文中未充分说明。

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations figure
arXiv2025-09-26

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

VLA

VLA安全机器人学习

论文指出现有VLA鲁棒性研究过度聚焦视觉扰动,忽略动作、语言和环境噪声,而系统评测表明动作端其实最脆弱,且视觉鲁棒化不会自然迁移到其他模态。为此作者提出RobustVLA:对会放大flow-matching误差的最坏动作噪声做离线鲁棒优化,并约束语义不变的输入扰动下动作保持一致,再用UCB自动选择最有害扰动训练。在LIBERO的17类四模态扰动上,较π0和OpenVLA分别提升12.6%和10.4%,且比BYOVLA快50.6倍;FR5实机低数据下成功率也明显更高。

MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation figure
arXiv2025-09-26

MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation

任务规划

任务规划视频规划Latent Learning世界模型感知机器人学习

这篇工作针对机器人规划中世界模型表征的两难:像素空间特征保留细节但冗余大、容易干扰动作解码,潜空间特征更强调运动与时序,却会丢失精细操控所需线索。MoWM先分别训练扩散式像素世界模型和潜世界模型,再通过 latent-to-pixel 特征调制与轻量融合,把两类预测表征送入逆动力学动作解码器。结果上,论文报告其在 CALVIN 和真实机器人操作任务上取得更高任务成功率与更强泛化,并给出“latent 更利于捕捉动态、pixel 更利于保留空间细节”的互补性分析。

LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE figure
arXiv2025-09-26

LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE

视频规划

视频规划世界模型感知机器人学习

这篇工作针对机器人视频世界模型长时生成中常见的漂移、时序不一致,以及固定长度分块会切碎完整动作的问题,提出 LongScape:用动作先验按语义自适应切成不同长度片段,在片段内做扩散去噪、片段间做自回归推进,并用上下文感知 MoE 路由不同 DiT 专家处理操控与移动等动态。它在 LIBERO 和 AGIBOT-World 上优于扩散、自回归和混合基线,并可稳定完成 15 次 rollout;但专家路由与分块规则各自带来的增益文中未充分拆清。

EgoDemoGen: Novel Egocentric Demonstration Generation Enables Viewpoint-Robust Manipulation figure
arXiv2025-09-26

EgoDemoGen: Novel Egocentric Demonstration Generation Enables Viewpoint-Robust Manipulation

数据需求量大

数据需求量大视频规划模仿学习数据采集数据生成数据增强安全操作

这篇工作针对模仿学习操控对第一视角变化很脆弱、而穷举采集多视角示范成本过高的问题,指出自我中心视角变化不只是换相机,还会同时改变机器人基座坐标系,因此必须联合迁移动作与生成观测。作者提出 EgoDemoGen:一边做基于技能分段、几何变换和 IK 过滤的轨迹迁移,一边用融合重投影视景与渲染机械臂运动的视频生成器合成新视角示范。在仿真和真机上,策略成功率分别最多提升 24.6%/16.9% 和 16.0%/23.0%。

EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer figure
arXiv2025-09-26

EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer

数据采集

数据采集数据生成数据增强感知操作

这篇工作针对VLA在真实机器人操作中受限于数据采集昂贵、外观覆盖不足而泛化差的问题,提出EMMA:先用DreamTransfer按文本对演示视频做前景、背景和光照编辑,同时保持多视角一致性与几何合理性,再用AdaMix按策略表现自适应重加权困难样本训练。实验称其较已有生成方法在多视角一致性和深度一致性上分别提升42%和24%,真实零样本外观任务成功率较仅用真实数据提高92%,再加AdaMix额外增17%;但生成质量与单纯数据扩张各自贡献,文中未充分说明。

Developing Vision-Language-Action Model from Egocentric Videos figure
arXiv2025-09-26

Developing Vision-Language-Action Model from Egocentric Videos

视频规划

视频规划VLALatent Learning机器人学习

这篇工作针对VLA预训练过度依赖昂贵遥操作和手部姿态标注,探索能否直接利用原始第一视角视频学习机器人动作。作者用EgoScaler从四个大型egocentric数据集提取并自动清洗6DoF物体操作轨迹,构成带文本与显式动作监督的预训练集;其关键洞察是显式物体轨迹比纯latent action更能保留细粒度操作信息。在π0上,该数据让从零训练的成功率提升超20%,表现与同规模真实机器人数据相当,与BridgeData V2混合后还可继续提升;但文中对增益究竟来自轨迹质量还是数据规模的拆解仍不充分。

DemoGrasp: Universal Dexterous Grasping from a Single Demonstration figure
ICLR 20262025-09-26

DemoGrasp: Universal Dexterous Grasping from a Single Demonstration

抓取

抓取灵巧操作模仿学习操作

针对灵巧手通用抓取里高维动作、长时程探索和复杂奖励难以稳定训练的问题,DemoGrasp的关键洞察是:一条成功抓取演示已包含可迁移的接近、合掌与抬升模式,因此把学习目标改为“编辑演示”而非直接控制底层动作。具体做法是让策略仅输出腕部SE(3)变换和手部关节增量,在单步MDP下重放修改后的轨迹,并用“抓取成功+桌面碰撞惩罚”的简单奖励训练。结果上,它在DexGraspNet上达95%,跨多手型和6个未见数据集平均84.6%,实机抓取110个未见物体成功率86.5%,对小薄物体也有效。

DHAGrasp: Synthesizing Affordance-Aware Dual-Hand Grasps with Text Instructions figure
arXiv2025-09-26

DHAGrasp: Synthesizing Affordance-Aware Dual-Hand Grasps with Text Instructions

抓取

抓取灵巧操作Affordance操作

这篇工作针对双手抓取数据稀缺、现有方法又难同时满足物体语义与双手协同的问题,先提出 SymOpt:利用物体与手部对称性把单手抓取镜像成双手候选,再通过优化去除穿模,构建出含802个物体、约130万抓取的大规模数据。随后,DHAGrasp用“接触图+部件图+affordance方向”的双手表征,将文本引导抓取分成 Text2Dir 和 Dir2Grasp 两阶段,从少量带标注对象泛化到大量无标注对象。实验显示其生成结果在语义一致性、多样性、抓取质量和未见物体泛化上均优于强基线。

Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation figure
arXiv2025-09-26

Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation

VLA

VLA机器人学习操作

这篇工作关注VLA在机器人操作中因多视角密集视觉 token 带来的推理开销,核心洞察是不同操作阶段的视觉冗余并不一致:粗动作阶段可更激进剪枝,精细抓取阶段则应保留更多细节。基于此,作者提出 ADP,把文本驱动的 token 筛选与基于近期末端执行器轨迹的动态门控结合,按动作动态自适应切换剪枝与全视觉输入。实验在 LIBERO 和真实场景上表明,该方法在基本保持甚至提升成功率的同时降低 FLOPs 与时延,如 OpenVLA-OFT 约 1.35 倍加速,OpenVLA 成功率最高提升 25.8%。

What Happens Next? Anticipating Future Motion by Generating Point Trajectories figure
ICLR 20262025-09-25

What Happens Next? Anticipating Future Motion by Generating Point Trajectories

感知

感知机器人学习

论文关注机器人与直觉物理中的单帧未来运动预测:只看一张图时,未来往往一图多解。作者不生成视频像素,而是借鉴视频生成架构,用 flow matching 直接生成准密集点轨迹网格,从而显式建模不确定性、全场景交互以及物体持续性/时序一致性。实验表明,该方法在 Kubric、LIBERO、Physion 和 Physics101 上均优于以往轨迹预测器及微调后的视频生成器,运动更合理、刚体保持更好,用户偏好评测中也排名最高。

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models figure
arXiv2025-09-25

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对轻量化VLA虽更易部署、却常因压缩而丢失3D布局和物体关系理解的问题,提出RetoVLA:把ViT里原本用于吸收注意力伪影、通常会被丢弃的Register Tokens回收为全局空间摘要,并通过专门通路注入动作专家。其核心洞察是这些内部token本身就编码了可供规划使用的场景几何信息,因此无需新增参数即可补回空间感知;在7自由度机械臂实机上,平均成功率由50.3%提升到67.4%,较SmolVLA高17.1个百分点。

KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models figure
arXiv2025-09-25

KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models

视频规划

视频规划世界模型感知机器人学习

这篇工作针对机器人世界模型逐帧生成既慢、又容易产生不合物理轨迹的问题,提出 KeyWorld:先依据机器人位姿轨迹中的运动转折提取“运动感知”关键帧,再让 DiT 只生成这些语义和物理上最重要的锚点,最后用轻量 CNN 补全中间帧。核心洞察是把昂贵推理集中在关键状态转移而非所有相邻帧上。LIBERO 上相对逐帧基线加速 5.68×,且视频物理合理性与目标物体操作正确率更高,复杂任务收益更明显。

ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation figure
arXiv2025-09-25

ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation

抓取

抓取泛化操作

本文针对现有端到端/VLA操作策略在实际部署中常出现泛化尚可但精度与可靠性不足的问题,提出以任务可供性为核心的 CoMOK(运动定向关键点链)动作表示,把抓取等操作统一为一串语义关键点的运动,并结合扩散式策略接收视觉与语言输入。其核心洞察是用“带朝向的局部关键点”替代直接预测末端位姿,从而更自然适配不同形状和尺寸物体,并支持多阶段、多模态及可变形物体操作。仿真与真机实验表明方法有效且具备较好泛化,摘要还宣称可达亚厘米精度,但具体提升幅度文中摘要未充分说明。

AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation figure
arXiv2025-09-25

AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation

移动操作

移动操作VLA语言条件操作

这项工作针对现有VLA多停留在房间尺度、缺少空间记忆,难以在未知室内按语言完成移动抓放的问题,提出模块化AnywhereVLA:用任务图把语言指令同时接入SLAM、语义建图、目标驱动探索、接近位姿规划与微调SmolVLA操作头,把经典导航的稳健性和VLA的局部操作泛化结合起来。系统可在Jetson Orin NX与NUC上以10Hz以上实时运行,在多房间实验室静态/有人走动场景下总体成功率为46%;但各模块分别带来多少增益,文中未充分说明。

mindmap: Spatial Memory in Deep Feature Maps for 3D Action Policies figure
CoRLW 20252025-09-24

mindmap: Spatial Memory in Deep Feature Maps for 3D Action Policies

3D 表征

3D 表征机器人学习

这篇论文聚焦机器人操作中的“空间记忆”缺口:当工具、目标箱等关键物体先后进入又离开视野时,仅依赖当前图像的策略很难持续决策。作者把度量-语义3D重建接入3D扩散策略,将历史观测累积为可查询的深度特征地图,并与当前点云共同送入Transformer,在重建空间中直接生成末端执行器轨迹;核心洞察是用按空间聚合的记忆替代固定长度时序缓存。仿真实验显示,它在需要记住场景布局、当前视野无法同时覆盖关键目标的任务上优于无记忆基线,但文中片段未给出具体提升幅度。

RoboSSM: Scalable In-context Imitation Learning via State-Space Models figure
CoRLW 20252025-09-24

RoboSSM: Scalable In-context Imitation Learning via State-Space Models

模仿学习

模仿学习Mamba Policy机器人学习

论文针对ICIL普遍依赖Transformer、测试时一遇到更长演示提示就计算开销大且泛化变差的问题,提出用Longhorn状态空间模型替代注意力主干的RoboSSM,以线性时间建模长上下文示范。LIBERO实验表明,它在未见任务、更多in-context示例和长时程提示下更稳,测试提示可比训练长16倍;但β-scaling等设计的独立增益来源文中未充分说明。

MELEGROS: Monolithic Elephant-inspired Gripper with Optical Sensors figure
Adv. Sci. 20252025-09-24

MELEGROS: Monolithic Elephant-inspired Gripper with Optical Sensors

抓取

抓取软体机器人操作

论文针对软体抓手常因传感、驱动与本体分离而产生机械失配、难以稳定感知与建模的问题,提出仿象鼻末端的单体式抓手MELEGROS:用单一软树脂一次3D打印出晶格本体、5个气动腔和6条光波导传感器,并借助仿真确定传感布局,从结构上尽量解耦触觉与本体感觉。实验表明,该132 g抓手可承载超过自重2倍,完成伸展、弯曲、捏取、舀取及葡萄等易碎物抓取,且原型迭代仅需4轮。

Learning-Based Collaborative Control for Bi-Manual Tactile-Reactive Grasping figure
arXiv2025-09-24

Learning-Based Collaborative Control for Bi-Manual Tactile-Reactive Grasping

抓取

抓取触觉双臂机器人学习操作

论文针对现有单臂触觉抓取在大件、重物及软/易损物体上接触点少、反馈不足而易失稳的问题,提出双臂协同的学习式触觉反应控制框架:利用两枚 GelSight Mini 触觉传感器和共享参数的多智能体MPC,在闭环中根据触觉编码联合调整位姿与夹持力,并在线推断物体刚柔特性与抓取状态。实验显示,该方法在不同尺寸和刚度物体上的稳定抓取成功率优于独立PD与MPC基线,但效率增益的具体来源文中未充分说明。

Large Pre-Trained Models for Bimanual Manipulation in 3D figure
Humanoids 20252025-09-24

Large Pre-Trained Models for Bimanual Manipulation in 3D

人形操作

人形操作3D 表征VLA双臂机器人学习操作

这项工作针对双臂操作既要理解全局场景、又要定位细粒度交互区域,而纯体素几何表示语义不足的问题,提出将预训练 DINOv2 的注意力图视为显著性线索,经多视角投影提升到 3D 体素网格,与 RGB 体素特征融合后直接接入 VoxAct-B 等行为克隆策略,几乎不改下游架构。论文在 RLBench 双臂基准上报告平均 8.2% 的绝对提升和 21.9% 的相对增益;但判断基于公开摘要与首页内容,增益对注意力头选择等因素的来源拆解是否充分,文中未充分说明。

LLM Trainer: Automated Robotic Data Generating via Demonstration Augmentation using LLMs figure
arXiv2025-09-24

LLM Trainer: Automated Robotic Data Generating via Demonstration Augmentation using LLMs

模仿学习

模仿学习数据采集数据生成数据增强语言条件操作

这项工作针对机器人模仿学习中示教采集依赖人工标注与规则工程的瓶颈,提出LLM Trainer:把单条人类示教拆成可复用的离线语义标注与面向新场景的在线关键位姿重定向,再用Thompson sampling优化标注选择。文中称其在多种操作任务上将生成成功率较朴素标注提升2–3倍,并超过专家设计基线;生成数据训练出的IL策略与基线相当,Franka实机示教生成成功率75.8%,与反馈控制集成后成功率达85%。

GraspFactory: A Large Object-Centric Grasping Dataset figure
CoRLW 20252025-09-24

GraspFactory: A Large Object-Centric Grasping Dataset

抓取

抓取对象中心操作数据集/Benchmark

这项工作针对现有抓取数据集对象几何多样性不足、模型遇到新物体泛化差的问题,基于 ABC CAD 库构建了面向对象的 6-DoF 抓取数据集 GraspFactory,并用对跖采样、碰撞筛除与 Isaac Sim 物理扰动验证生成超1.09亿条抓取。用其子集训练扩散抓取模型后,在仿真和真实实验的未见物体上泛化更好,但文中未充分说明相对既有数据集的具体提升幅度,增益可能主要来自 scaling / data。

Generalist Robot Manipulation beyond Action Labeled Data figure
CoRL 20252025-09-24

Generalist Robot Manipulation beyond Action Labeled Data

3D 表征

3D 表征世界模型基础模型感知机器人学习操作

论文针对通用机器人操作过度依赖带动作标签示教、导致数据难扩展和域外泛化差的问题,提出 MotoVLA:先从人类或机器人无动作标注视频中提取手/夹爪的动态3D点云,做未来点云自监督预测,再用少量有标注数据把这种与形体无关的运动表征对齐到机器人动作。实验显示,该方法在真实与仿真中均提升了域内、域外和新任务学习表现,并支持仅凭无动作标签演示实现人到机器人的动作迁移;但给定片段未展开具体增益数值。

FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models figure
arXiv2025-09-24

FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models

VLA

VLA安全机器人学习

本文关注VLA安全里常被忽视的“冻结而非误动作”风险:对抗图像可让机器人持续无响应、忽略后续指令,且因视角不变化而更稳定,也更像正常待机。作者提出FreezeVLA,用“难提示词”内层搜索与外层图像优化的min-max双层框架,生成跨指令可迁移的冻结样本。在3个VLA模型、4个操控基准上平均攻击成功率达76.2%,显著强于基线,并显示单张图像即可跨多提示诱发瘫痪。

D3Grasp: Diverse and Deformable Dexterous Grasping for General Objects figure
arXiv2025-09-24

D3Grasp: Diverse and Deformable Dexterous Grasping for General Objects

抓取

抓取灵巧操作可变形物体操作

这篇工作针对灵巧手在通用、尤其可变形物体上难以同时实现多样、稳定且可落地抓取的问题,提出D3Grasp:以视觉、触觉和本体感觉的统一表征为基础,结合训练时使用特权信息、部署时保持真实传感输入的非对称强化学习,并通过接触丰富、无穿透、运动学可行的训练策略提升对软物体和扰动的适应性。论文称其实机平均成功率达95.1%,在刚体与可变形物体基准上均优于已有方法,但各模块增益来源在给定片段中未充分说明。

Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training figure
arXiv2025-09-24

Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training

模仿学习

模仿学习强化学习VLA触觉Diffusion Policy数据采集机器人学习

针对VLA严重依赖昂贵人类遥操作数据、而传统RL在LIBERO这类长时程稀疏奖励任务上易学出抖动且高方差轨迹,本文提出经稳定化改造的扩散策略优化,用逐步去噪的动作生成同时提升探索能力并隐式约束动作平滑性,再用各任务RL专家自动采集约6k条演示训练通用VLA。在LIBERO 130任务上,仅用该合成数据训练的VLA平均成功率81.9%,较人类数据高5.3个百分点、较高斯RL数据高12.6个百分点,说明更低方差、更一致的轨迹可能比人工示范更适合作为监督信号。

World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation figure
arXiv2025-09-23

World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation

强化学习

强化学习触觉Diffusion Policy世界模型机器人学习操作

这篇工作针对模仿学习受示范数据稀缺限制、真实机器人强化学习成本高且存在安全风险的问题,提出先在多任务数据上预训练扩散世界模型,再在冻结模型内用PPO基于想象轨迹细化策略。核心洞察是把世界模型从测试时规划工具扩展为端到端策略优化器,并为操作任务设计 two-hot 动作编码以更稳地建模高维连续动作。实验显示其相对模仿学习和其他基线在仿真与真实机器人上分别取得约16%和25%的绝对成功率提升,但增益中有多少来自扩散骨干、数据规模或训练配方,文中未充分说明。

VGGT-DP: Generalizable Robot Control via Vision Foundation Models figure
arXiv2025-09-23

VGGT-DP: Generalizable Robot Control via Vision Foundation Models

3D 表征

3D 表征Diffusion Policy泛化基础模型机器人学习

这篇工作针对视觉模仿学习里“策略头很强、视觉编码器太弱”导致空间理解和泛化不足的问题,把3D重建预训练的VGGT接入Diffusion Policy,并用本体感觉引导视觉对齐,再配合逐帧token复用和随机裁剪,在尽量不增加推理负担下强化几何感知与闭环控制。结果上,它在MetaWorld的高精度、长时程任务中优于DP和DP3;但从给定片段看,具体提升幅度及增益有多少来自更大视觉骨干,文中未充分说明,且对视角扰动仍较脆弱。

Self-evolved Imitation Learning in Simulated World figure
arXiv2025-09-23

Self-evolved Imitation Learning in Simulated World

模仿学习

模仿学习数据采集数据检索

这篇工作针对多任务模仿学习在少样本下严重依赖昂贵专家演示的问题,提出SEIL:先用少量演示训练初始策略,再让策略在模拟器中反复试错,把成功轨迹回收为新示范继续迭代。其关键在于用EMA辅助策略与初始物体位姿扰动做双层增广,并用轻量选择器挑出与专家分布互补、低置信度但信息量高的轨迹。LIBERO上它达到few-shot新SOTA,Libero-Long 1-shot由4.6%升至14.6%,8-shot由63.4%升至75.4%。

Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation figure
CoRLW 20252025-09-23

Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation

VLA

VLA语言条件机器人学习操作

这篇论文的动机是,机器人操作常用单一成功率评估,掩盖了长时序任务究竟卡在抓取、倒水还是放置。作者提出 StepEval 蓝图:把“每个子目标的成功向量”作为主要评测对象,用VLM从单/多视角图像或视频后验判定各步是否完成,并把成本、延迟、混淆矩阵仅视为框架调优指标。主要结果更像方法论与系统设计而非新基准;公开材料未充分说明系统性定量提升,因此实际增益与泛化性仍待社区验证。

SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration figure
ICRA 20262025-09-23

SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration

模仿学习

模仿学习Latent Learning机器人学习

针对模仿学习策略易因动作模式坍缩而缺乏探索、随机扰动又会带来危险和抖动的问题,SOE把探索从原始动作空间转到由VIB学习的紧凑潜空间,并约束在“有效动作流形”内采样,作为可插拔模块为现有策略提供更安全、连贯且可人引导的探索,再用新轨迹回流微调策略。仿真与真实机器人实验表明,它在成功率、平滑性和样本效率上均优于已有方法,真实任务单轮自提升平均相对增益达50.8%。

Residual Off-Policy RL for Finetuning Behavior Cloning Policies figure
ICLRW 20262025-09-23

Residual Off-Policy RL for Finetuning Behavior Cloning Policies

模仿学习

模仿学习强化学习触觉机器人学习

这篇工作针对行为克隆虽能学到强视觉运动策略,却受示范质量、采集成本和离线数据收益递减限制,而直接在真实高自由度机器人上做RL又样本低效且不安全的问题,提出ResFiT:冻结任意BC基座为黑盒,仅用离策略RL学习逐步残差修正,并把示范同时用于预训练、critic预热和在线缓冲区,从而在稀疏二值奖励下稳定微调。结果上,它在多项长时程视觉操控任务上达到或接近SOTA,并展示了据文中所述首个在带灵巧手人形机器人上完全真实世界训练成功的RL案例。

ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation figure
ICRA 20262025-09-23

ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

数据需求量大

数据需求量大数据采集数据生成数据增强双臂感知

这篇工作针对双臂模仿学习高度依赖大规模、精确演示数据而真实采集又昂贵缓慢的问题,提出离线增强方法ROPA。其核心洞察是将姿态引导扩散生成迁移到机器人上:用微调的Stable Diffusion按双臂关节/骨架合成第三视角RGB与RGB-D新姿态,并同步生成对应关节动作,再通过接触约束优化保证夹爪与物体关系物理可行。作者在5个仿真和3个真实任务、2625次仿真与300次实机试验中报告,相比仅用原始数据训练的ACT及多种消融,成功率更高。

ManipForce: Force-Guided Policy Learning with Frequency-Aware Representation for Contact-Rich Manipulation figure
ICRA 20262025-09-23

ManipForce: Force-Guided Policy Learning with Frequency-Aware Representation for Contact-Rich Manipulation

触觉

触觉接触丰富机器人学习操作

面向装配、插拔等接触丰富操作中仅靠视觉示教难以恢复接触力的问题,论文提出手持式 ManipForce 采集系统,同时记录双相机 RGB 与高频力/力矩信号,并用 FMT 在扩散策略中以频率/模态感知嵌入和双向跨模态注意力处理 30Hz 视觉与 200Hz 以上力信号的异步融合。实机六项任务平均成功率达 83%,显著优于仅视觉基线,消融表明高频 F/T 与跨模态融合对高精度稳定接触尤为关键。

MV-UMI: A Scalable Multi-View Interface for Cross-Embodiment Learning figure
arXiv2025-09-23

MV-UMI: A Scalable Multi-View Interface for Cross-Embodiment Learning

泛化

泛化跨本体

这篇工作针对手持夹爪采集虽便宜且具跨本体优势、但仅靠腕部第一视角难以覆盖全局场景、导致长时记忆负担和任务泛化受限的问题,提出 MV-UMI:在保留第一视角的同时引入第三视角,并用 SAM-2 分割与图像补全实时移除示教者,缩小“人类示教—机器人部署”的分布差异,也减少对人体运动线索的过拟合。实验与消融表明,在3个需要更强场景理解的任务子步骤上,性能平均提升约47%,说明多视角主要补足了上下文感知而未破坏跨本体迁移。

Imitation-Guided Bimanual Planning for Stable Manipulation under Changing External Forces figure
IROS 20252025-09-23

Imitation-Guided Bimanual Planning for Stable Manipulation under Changing External Forces

基础操作

基础操作任务规划模仿学习触觉双臂操作非学习控制

论文面向切割、钻孔等外力持续变化的双臂操作,关注现有重抓取规划难以随力变化平滑切换单/双手抓取、且常忽视可操作度与关节极限的问题。作者提出模仿引导的分层规划:用运动性能图筛选稳定抓取,在抓取流形交集中做定向重采样与多抓取过渡检查减少冗余换抓,再以模仿学习全局路径结合QP局部优化保证实时避障与可行性。实验表明其在高受力任务中提升了换抓效率和运动性能,但给定材料未充分说明具体量化增益。

Growing with Your Embodied Agent: A Human-in-the-Loop Lifelong Code Generation Framework for Long-Horizon Manipulation Skills figure
arXiv2025-09-23

Growing with Your Embodied Agent: A Human-in-the-Loop Lifelong Code Generation Framework for Long-Horizon Manipulation Skills

任务规划

任务规划程序化规划操作

这篇论文针对LLM生成机器人操作代码在长时程任务中易出错、反馈难沉淀为可复用能力、且容易遗忘旧经验的问题,提出人类在环的终身代码生成框架LYRA。其关键思路是把人工纠错编码成可扩展技能函数,并结合外部记忆、RAG检索与提示机制,在保留旧功能的同时按任务动态复用技能。实验在Ravens、Franka Kitchen、MetaWorld及真实Franka上取得0.93成功率,较基线最高提升27%,纠错轮次效率提升42%,还能稳定完成“搭房子”这类需20多个原语的超长程任务。

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training figure
NeurIPS 20252025-09-23

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

泛化

泛化Sim2Real

该文针对真实机器人示范采集昂贵、简单混合仿真与真实数据又缺少显式对齐,导致 sim2real 泛化受限的问题,提出仿真—真实联合行为克隆框架。核心洞察是,相比只对齐观测分布,更应通过最优传输对齐“观测—动作/任务状态”的联合分布,并以非平衡OT和时间感知采样处理仿真多、真实少的数据失衡,从而学习域不变且动作相关的潜表示。实验在图像与点云操作任务上表明,真实成功率最高提升约30%,还能泛化到只在仿真中出现过的真实场景;但方法主要覆盖视觉域差,动力学差距仍未解决。

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation figure
arXiv2025-09-23

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

Affordance

Affordance泛化Sim2Real感知操作

这篇工作针对端到端模仿学习容易把长时程操作学成任务专用策略、难泛化到新物体和新姿态的问题,提出 FunCanon:先将任务拆成 actor-verb-object 动作原语,再利用视觉语言模型提供的可供性线索,把不同类别物体对齐到共享功能坐标系,以支持轨迹自动迁移和姿态感知的物体中心扩散策略学习。文中称其在仿真中较 SPOT 和 3DA 分别提升 14.6% 与 38.4%,真实实验中也至少提升 14% 与 26%,其中倒水任务收益最大。

Eva-VLA: Evaluating Vision-Language-Action Models's Robustness Under Real-World Physical Variations figure
arXiv2025-09-23

Eva-VLA: Evaluating Vision-Language-Action Models's Robustness Under Real-World Physical Variations

3D 表征

3D 表征VLA安全机器人学习

这篇工作关注VLA在真实部署中对物体姿态、光照和局部遮挡等物理变化缺乏系统鲁棒性评估的问题。作者提出Eva-VLA,把三类物理扰动参数化为连续空间,并用无需梯度的CMA-ES在可复现实验环境中搜索最坏情形,从而以较低真实采集成本暴露脆弱点。结果显示,多种主流VLA在LIBERO上显著失稳,其中OpenVLA在LIBERO-Long三类变化下平均失败率超90%;把这些最坏样本用于对抗训练后,鲁棒性还能进一步提升。

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data figure
CoRL 20252025-09-23

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

视频规划

视频规划模仿学习泛化跨本体

这篇工作关注如何把可规模化采集的第一视角人类操作数据真正转成机器人能力,以缓解遥操作数据昂贵且覆盖有限的问题;难点在于人机在外观、传感和运动学上的跨本体域差。EgoBridge把该问题建模为领域自适应,在人类与机器人协同训练时,用由DTW动作相似度引导的最优传输对齐策略潜变量与动作联合分布,从而既做表征对齐又尽量保留与控制相关的信息。结果是在3个真实单臂/双臂任务上较基线最高提升44%绝对成功率,并能泛化到只在人类数据中出现的新物体、场景和任务。

DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich Manipulation figure
CoRL 20252025-09-23

DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich Manipulation

触觉

触觉接触丰富机器人学习操作

针对现有机器人触觉传感器覆盖率不足、难贴合复杂曲面且更换硬件后读数分布易漂移,导致接触丰富操作难以稳定学习,本文提出高覆盖、可形变贴合的电容式机器人皮肤 DexSkin。其核心洞察是,学习式操作不仅需要灵敏触觉,更需要可局部定位、可校准、可跨传感器复现的输出。作者将其覆盖到夹爪手指几乎全表面,实验表明它能支持笔杆手内重定向、盒子套橡皮筋等模仿学习任务,并通过校准实现模型跨实例迁移,还可用于真实机器人在线强化学习抓取脆弱物体。

BiGraspFormer: End-to-End Bimanual Grasp Transformer figure
arXiv2025-09-23

BiGraspFormer: End-to-End Bimanual Grasp Transformer

抓取

抓取Transformer Policy双臂操作

这篇工作针对双臂抓取中12-DoF搜索空间大、传统“先生成再配对/评分”流水线易引发碰撞和受力失衡的问题,提出可直接从点云生成双臂抓取的端到端Transformer——BiGraspFormer。其核心洞察是先生成多样化单臂抓取,再用Single-Guided Bimanual策略把单抓特征作为条件,通过注意力联合预测双臂位姿与抓取质量,以缩小搜索难度并显式建模协同。结果显示它在仿真和真实实验中都优于现有方法,且推理速度小于0.05秒。

Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation figure
arXiv2025-09-23

Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation

模仿学习

模仿学习VLA语言条件机器人学习

这项工作针对双边控制模仿学习通常“一任务一模型”、难以在接触丰富操作中灵活切换任务的问题,提出 Bi-VLA:将双边遥操作采集的关节角、速度、力矩与图像、自然语言通过 SigLIP 和 FiLM 融合,再用于动作生成,使单一策略能同时依赖视觉与语言完成多任务。真实机器人在两类任务上相比传统双边控制模仿学习取得更高成功率,说明语言能补足仅靠视觉难判别的场景;但摘要未给出具体提升幅度,增益来源仍需更细消融验证。

Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action figure
arXiv2025-09-23

Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

任务规划

任务规划程序化规划Affordance操作

这篇工作针对端到端VLA在复杂指令和新场景中易失效、而传统场景表示又难以直接驱动操作的问题,提出ASP:把开放词汇物体检索、空间关系推理和部件级affordance交互统一成可被LLM调用的场景查询工具,再由技能原语完成抓取、按压、拉拽与导航。核心洞察是许多语言操作都可分解为“找物—判关系—按可供性作用”。实验上,ASP在15个桌面操作任务中与主流VLA对比展现出较强零样本能力,并扩展到房间级移动操作;但文中未充分说明具体增益有多少来自更强感知模块或系统规模。

3D Flow Diffusion Policy: Visuomotor Policy Learning via Generating Flow in 3D Space figure
arXiv2025-09-23

3D Flow Diffusion Policy: Visuomotor Policy Learning via Generating Flow in 3D Space

3D 表征

3D 表征Diffusion PolicyFlow Matching机器人学习

这篇工作针对现有视觉模仿策略常把观测直接压成全局或物体级特征、从而忽略接触操作所需局部运动线索的问题,提出3D FDP:先在场景中采样查询点并预测其时序3D flow,再在统一扩散框架中将该流与观测联合用于动作生成。其核心洞察是把场景级3D流作为中间表征,既刻画夹爪—物体的细粒度交互,也显式建模局部扰动对整体场景的传播。结果上,该方法在MetaWorld 50个任务上取得SOTA,尤其提升中高难任务,并在8个真实机器人接触丰富、非抓取任务中稳定优于基线。

RoboSeek: You Need to Interact with Your Objects figure
arXiv2025-09-22

RoboSeek: You Need to Interact with Your Objects

泛化

泛化Sim2Real

这篇工作针对长时序操作中“只看不碰”导致的感知—控制脱节问题,主张机器人必须通过持续交互来发现和修正物体可供性。RoboSeek用语义关键点构建可迭代更新的 attention space,再结合RL执行器与CEM形成闭环细化,并用3D重建支撑的real2sim2real做迁移。在多平台8个长程任务上平均成功率79%,明显高于不足50%的基线;但各模块分别带来多少增益,给定信息下仍未充分说明。

PrioriTouch: Adapting to User Contact Preferences for Whole-Arm Physical Human-Robot Interaction figure
CoRL 20252025-09-22

PrioriTouch: Adapting to User Contact Preferences for Whole-Arm Physical Human-Robot Interaction

触觉

触觉人机交互应用

这篇工作面向护理场景中的全臂人机接触:机器人常同时碰到人体多个部位,而不同部位对受力的舒适阈值可能冲突,单一控制策略难兼顾。作者提出 PrioriTouch,把“偏好适应”转成多接触控制目标的优先级排序,用 LinUCB-Rank 在线学习排序,再由分层操作空间控制执行,并借助仿真闭环先验证更新以减少直接试错。仿真、真实迷宫和辅助擦浴实验表明,该方法能在维持任务完成的同时更好适应个体偏好;人体实验中 8 人里有 7 人更偏好该方法,主观安全性与舒适度更高。

Prepare Before You Act: Learning From Humans to Rearrange Initial States figure
arXiv2025-09-22

Prepare Before You Act: Learning From Humans to Rearrange Initial States

泛化

泛化跨本体

这篇工作关注模仿学习在分布外初始状态下容易失效的问题:与其硬学会从所有异常摆放直接完成任务,不如先像人一样整理场景。作者提出 ReSET,用人类无动作视频预测何时需要重排、该如何移动物体,再结合机器人 play 数据把这些简化动作映射成机器人原语,先把状态拉回训练分布附近的锚点再执行原策略,体现了人到机器人的跨本体迁移。论文还给出泛化误差上界更小的分析,并在4个真实任务上以相近总数据量优于 Diffusion Policy、π0 和其他基线,少样本下成功率更高。

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies figure
arXiv2025-09-22

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

泛化

泛化机器人学习操作

论文针对操作策略在新物体、杂乱场景和语义变化下易失效的问题,认为症结在于策略被迫同时学习“看哪里、做什么、怎么做”。PEEK把前两者交给微调后的VLM,预测末端执行器2D路径与任务相关掩码,并直接叠加到观测图像上,形成与具体策略解耦的最小中间表示;再配合覆盖20多个数据集、9种机器人形态的自动标注流程训练。在535次真实评测、17类任务变化中,它使仅在仿真训练的3D策略真实成功率提升41.4倍,也让大规模VLA和小型策略获得2到3.5倍零样本增益。

MotionTrans: Human VR Data Enable Motion-Level Learning for Robotic Manipulation Policies figure
arXiv2025-09-22

MotionTrans: Human VR Data Enable Motion-Level Learning for Robotic Manipulation Policies

泛化

泛化跨本体遥操作操作

这篇工作针对真机示教昂贵、机器人策略难以学到新操作轨迹的瓶颈,研究人类VR遥操作数据能否直接提供“运动级”知识。作者提出MotionTrans,把人类演示映射到机器人观测—动作空间,并与多任务机器人数据加权共训练端到端策略;其核心洞察是,人类数据提供任务相关运动先验,机器人数据约束动作保持可执行,较广的相关运动覆盖还能帮助跨本体“插值”出新动作。结果上,联合15个人类任务和15个机器人任务训练后,13个人类任务可迁移到真机,9个任务零样本取得非平凡成功率,少量真机微调时平均成功率再提升约40%。

Learning Dexterous Manipulation with Quantized Hand State figure
arXiv2025-09-22

Learning Dexterous Manipulation with Quantized Hand State

灵巧操作

灵巧操作操作

论文指出,灵巧操作中若把机械臂与高自由度手部动作直接拼接预测,手部维度会主导学习、拖累末端精确定位;但简单把臂手分开预测又会破坏协同。为此作者提出 DQ-RISE:先将手状态量化为少量任务相关模式,再用连续松弛让机械臂与量化手状态联合扩散,从而兼顾手部模式记忆与臂手协调。6 个任务上该方法成功率均为最高,平均达到 85.83%,在开罐等依赖定位和协同受力的任务中优势更明显。

Latent Action Pretraining Through World Modeling figure
arXiv2025-09-22

Latent Action Pretraining Through World Modeling

Latent Learning

Latent Learning世界模型基础模型机器人学习

作者针对VLA依赖昂贵遥操作动作标注、且现有潜在动作方法模型过大难部署的问题,提出LAWM:把模仿学习策略与世界模型解耦结合,用无标签的人类/机器人视频和语言指令自监督预测未来帧,从而学到可迁移的动作chunk潜变量,再仅用下游有标注数据微调策略。文中称该方法与具体架构无关,在LIBERO和真实平台上优于使用真实机器人动作监督预训练及同类潜在动作方法,且可用BAKU、DreamerV3等小模型超过更大的villa-X;但具体增益来源文中未充分说明。

Fast Trajectory Planner with a Reinforcement Learning-based Controller for Robotic Manipulators figure
arXiv2025-09-22

Fast Trajectory Planner with a Reinforcement Learning-based Controller for Robotic Manipulators

任务规划

任务规划强化学习触觉机器人学习操作

这篇工作针对机械臂在拥挤、非结构化环境中仅做任务空间规划不够、而传统方法又常需额外求解运动学/动力学导致速度受限的问题,提出感知规划与学习控制解耦的两级框架:前端用FSA补全场景点云,并结合kinodynamic搜索与B-spline生成任务空间轨迹;后端在关节空间用引入动作集成和策略反馈的PPO做跟踪与避障。实验显示其在仿真到仿真和仿真到真实迁移中提升了到达精度、稳定性与规划效率,可在遮挡环境下实现实时避障与轨迹规划。

Imagine2Act: Leveraging Object-Action Motion Consistency from Imagined Goals for Robotic Manipulation figure
arXiv2025-09-21

Imagine2Act: Leveraging Object-Action Motion Consistency from Imagined Goals for Robotic Manipulation

3D 表征

3D 表征VLA数据增强机器人学习操作

这篇工作针对关系式物体重排中“语义上该怎么放、几何上该怎么对准”难以同时学到的问题,认为仅靠示教或仅把生成目标当附加观测都容易受生成噪声影响。Imagine2Act先按语言指令生成想象目标图像并重建为3D点云,再引入物体—动作一致性学习,用物体SE(3)变化和软位姿监督去约束末端执行器运动。RLBench 7个任务平均成功率0.79,较3D Diffuser Actor等至少提升10%,真实6个高精度任务平均再提升25%。

HOGraspFlow: Exploring Vision-based Generative Grasp Synthesis with Hand-Object Priors and Taxonomy Awareness figure
arXiv2025-09-21

HOGraspFlow: Exploring Vision-based Generative Grasp Synthesis with Hand-Object Priors and Taxonomy Awareness

抓取

抓取灵巧操作感知操作综述

论文针对从野外人手示范迁移到平行夹爪时,传统拇指—食指对齐过于简化、且现有生成抓取依赖目标几何与位姿的问题,提出以可供性为中心的 HOGraspFlow:仅凭单张 RGB 手物交互图像,结合视觉基础特征、接触重建和抓取类型先验,在 SE(3) 上用 flow matching 生成多模态 6D 抓取。其关键洞察是人类抓取意图/分类空间比物体几何更稳定,更适合做跨物体重定向。实验表明其在抓取类型识别、接触精度和分布拟合上优于扩散版与多种基线,真实机器人经轻微深度平移修正后成功率超过83%。

Generalized Momenta-Based Koopman Formalism for Robust Control of Euler-Lagrangian Systems figure
arXiv2025-09-21

Generalized Momenta-Based Koopman Formalism for Robust Control of Euler-Lagrangian Systems

基础操作

基础操作安全操作非学习控制

针对欧拉-拉格朗日机器人在显式位置-速度表述下输入与状态强耦合、往往只能学习训练和控制代价更高的双线性Koopman模型这一问题,本文改用“位置+广义动量”的隐式表述,把已知线性驱动通道与被动非线性动力学分离,只需学习未驱动部分,并设计了可从有驱或无驱数据构造嵌入的两种网络,再结合线性GESO做扰动估计与补偿。仿真和机械臂实验表明,该方法较显式表述的线性/双线性Koopman基线在预测精度、轨迹跟踪、鲁棒性和数据效率上更优。

FILIC: Dual-Loop Force-Guided Imitation Learning with Impedance Torque Control for Contact-Rich Manipulation Tasks figure
arXiv2025-09-21

FILIC: Dual-Loop Force-Guided Imitation Learning with Impedance Torque Control for Contact-Rich Manipulation Tasks

模仿学习

模仿学习触觉接触丰富机器人学习操作

这篇工作针对接触丰富操作中模仿学习偏重位置控制、缺乏显式力感知且腕部力传感器昂贵的问题,提出FILIC:外环用融合视觉与估计末端力的Transformer预测目标位姿,内环用阻抗力矩控制实现顺应执行,并借助关节力矩、雅可比逆映射和数字孪生补偿做无传感器力估计,还设计了触觉/VR反馈提升示教质量。在仿真和真实插入任务上,它明显优于纯视觉和仅用关节力矩的方法,更安全、顺应且适应性更强;但摘要未给出具体提升幅度。

TranTac: Leveraging Transient Tactile Signals for Contact-Rich Robotic Manipulation figure
arXiv2025-09-20

TranTac: Leveraging Transient Tactile Signals for Contact-Rich Robotic Manipulation

触觉

触觉接触丰富机器人学习操作

论文针对钥匙、USB插入这类视觉难以察觉微小错位的接触丰富操作,提出关键不在高密度触觉成像,而在捕捉指尖瞬态触觉。TranTac把单个低成本6轴IMU嵌入夹爪弹性指尖,以高带宽感知微米级平移与扭转变形,再用Transformer和扩散策略融合视觉进行6-DoF纠偏。实验中视触觉策略平均成功率79%,优于纯视觉和末端力/力矩增强;纯触觉错位插入达88%,对未见USB和钥匙仍接近70%,但文中未充分拆解硬件与策略各自的增益来源。

No Need for Real 3D: Fusing 2D Vision with Pseudo 3D Representations for Robotic Manipulation Learning figure
arXiv2025-09-20

No Need for Real 3D: Fusing 2D Vision with Pseudo 3D Representations for Robotic Manipulation Learning

3D 表征

3D 表征机器人学习操作

这篇工作针对机器人操作里“2D图像便宜但缺少空间几何、3D点云效果更好却采集昂贵”的矛盾,提出 NoReal3D:由单目 RGB 估计深度,构造保留拓扑结构的伪点云,并用专门编码器与2D视觉特征动态融合,让现有2D策略即插即用获得更强3D感知。实验在 RLBench、ManiSkill2 和真实场景的20+任务上表明,其相对纯2D方法平均成功率可提升约10%,部分 ACT/DP 设置下接近甚至超过真实点云基线;但增益究竟更多来自伪3D表征还是融合设计,文中未充分说明。

LLM-Guided Task- and Affordance-Level Exploration in Reinforcement Learning figure
arXiv2025-09-20

LLM-Guided Task- and Affordance-Level Exploration in Reinforcement Learning

任务规划

任务规划Affordance强化学习触觉语言条件

判断基于给定摘要与片段,且标题与正文疑似不一致:本文关注VLM作高层、VLA作执行器的刚性串联导致的泛化与落地grounding不足,提出免训练的PhysiAgent,用监控、反思、记忆和轻量工具箱构成闭环脚手架,让VLM依据VLA实时能力反馈动态改写子任务与调用工具。真实桌面操作中其成功率明显提升并出现自反与策略演化,但具体增益幅度文中未充分说明。

SAMPO:Scale-wise Autoregression with Motion PrOmpt for Generative World Models figure
NeurIPS 20252025-09-19

SAMPO:Scale-wise Autoregression with Motion PrOmpt for Generative World Models

任务规划

任务规划视频规划世界模型

这篇论文针对自回归视频世界模型常见的空间结构被栅格化打散、解码慢且难以刻画机器人—物体运动的问题,提出SAMPO:按尺度而非逐token生成未来帧,在时间上做因果预测、在帧内用双向空间注意力进行粗到细并行解码,并结合观测/未来非对称多尺度tokenizer与轨迹感知motion prompt强化动态区域建模。实验表明它在动作条件视频预测和基于模型控制上提升了生成质量与时序一致性,推理速度提高4.4倍;但零样本与scaling收益可能也部分来自更大模型和数据。

Improving Robotic Manipulation with Efficient Geometry-Aware Vision Encoder figure
arXiv2025-09-19

Improving Robotic Manipulation with Efficient Geometry-Aware Vision Encoder

机器人学习

机器人学习操作

论文关注RGB模仿学习常用ResNet/ViT缺少显式三维几何推理,导致需要精确空间对位的操作任务受限。作者的关键做法是把VGGT蒸馏成轻量几何感知编码器eVGGT,并直接替换ACT、DP等策略中的视觉潜表示;核心洞察是,更强的全局3D上下文即使不显式接入控制模块,也能提升策略学习。实验在ManiSkill、RoboTwin及真实机器人上表明,成功率相对常规编码器最高提升6.5%,同时eVGGT比VGGT快近9倍、模型小5倍;但对3D基线收益有限,增益来源文中未充分拆解。

Imagination at Inference: Synthesizing In-Hand Views for Robust Visuomotor Policy Inference figure
arXiv2025-09-19

Imagination at Inference: Synthesizing In-Hand Views for Robust Visuomotor Policy Inference

灵巧操作

灵巧操作视频规划安全世界模型感知机器人学习

这篇工作关注灵巧操作中的部署矛盾:腕部相机常能提升近距离抓取、放置等控制精度,但真实系统里又受成本、布线和机械干涉限制。作者的关键想法是在推理时用经 LoRA 微调的 ZeroNVS,依据外部视角图像和相机相对位姿在线“想象”出 in-hand 视角,并直接补给现有视觉策略,无需加装真实腕部相机或重训策略。仿真与 Unitree Z1 草莓采摘实验表明,该方法能显著弥补缺失腕部视角造成的性能下降,效果接近真实腕部相机;但具体提升幅度在给定材料中未充分说明。

I-FailSense: Towards General Robotic Failure Detection with Vision-Language Models figure
ICRA 20262025-09-19

I-FailSense: Towards General Robotic Failure Detection with Vision-Language Models

任务规划

任务规划多模态推理感知操作

论文关注开放世界语言条件操作中更难的“语义错位失败”:机器人动作本身合理,却与指令语义不一致,而现有VLM更多擅长发现抓取失败、掉落等控制错误。作者从现有操作数据集中自动构造此类失败样本,并提出I-FailSense:先用LoRA后训练基座VLM,再冻结主干,在不同内部层接入轻量FS分类头并做集成仲裁,以显式判断轨迹与指令是否对齐。实验显示其在模拟语义错位检测上约90%准确率,对未见控制错误和新仿真环境也能零样本泛化,在AHA设定上比相关VLM基线高19个点,真实场景少量微调后达74%。

GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation figure
arXiv2025-09-19

GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation

3D 表征

3D 表征VLA机器人学习操作

这篇工作针对机器人操作里“缺少深度传感器时,如何从RGB稳定获得可用于精细控制的3D几何”这一问题,提出GP3。其关键不只是多视角输入,而是把预训练3D重建模型适配为RoboVGGT,并用语言引导的G-FiLM抑制多视角带来的干扰,回应了“视角更多未必更好”的洞察。结果上,GP3在MetaWorld、RLBench和真实机器人上相对最佳基线分别提升11.2%、22.7%和57.5%,且无需预建图、只需少量微调即可迁移。

Compose by Focus: Scene Graph-based Atomic Skills figure
arXiv2025-09-19

Compose by Focus: Scene Graph-based Atomic Skills

3D 表征

3D 表征泛化感知操作

这篇工作关注长时程操作中“技能本身是否易于被组合”,而不只是在高层做任务规划:原子技能若只在干净场景训练,放到多物体杂乱环境时常因视觉分布偏移失效。作者将观测转成只保留任务相关物体及关系的3D场景图,用GNN编码并条件化扩散模仿策略,再配合VLM做任务分解。仿真和真实实验都显示其在多步组合任务、干扰物和障碍场景下明显优于2D/3D扩散策略及预训练基线,真实蔬菜抓取组合成功率约0.97。

exUMI: Extensible Robot Teaching System with Action-aware Task-agnostic Tactile Representation figure
CoRL 20252025-09-18

exUMI: Extensible Robot Teaching System with Action-aware Task-agnostic Tactile Representation

触觉

触觉Latent Learning机器人学习

论文针对触觉机器人学习中“数据难采、有效接触稀疏、演示缺少力反馈”的瓶颈,提出软硬件协同方案:硬件上用 exUMI 以 AR 动捕、磁编码器、模块化视触觉传感和自动标定替代脆弱采集链路;算法上用基于动作条件的未来触觉预测预训练(TPP)学习任务无关潜表示,以建模接触动态。实验证明其真实任务上较传统触觉模仿学习提升超20%,并实现近100%数据可用性;但增益也可能部分来自更大规模的100万帧数据与更稳定采集系统。

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation figure
arXiv2025-09-18

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

模仿学习

模仿学习VLA数据采集语言条件机器人学习操作

论文针对机器人操作数据昂贵稀缺,尝试把海量人类第一视角演示转成VLA先验。核心是两阶段预训练:先在1200万手部操作视频上做语言条件未来帧生成,再联合预测人体关键点轨迹以衔接视觉动态与低层动作,并用ActionVAE压缩动作块表示。随后在相同下游机器人数据上微调时,RynnVLA-001优于GR00T N1.5和Pi0;但实验主要限于单一SO100机械臂与近训练环境,泛化增益文中未充分说明。

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale figure
ICRA 20262025-09-18

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

基础操作

基础操作VLA机器人学习操作数据集/Benchmark

这篇工作针对 VLA/机器人学习中“传统机器人框架偏重、纯模拟器又难顺畅接入真机”的断层,提出轻量级 Robot Control Stack:用分层设计统一 MuJoCo 仿真与真实机器人接口,上层以 Gymnasium/Python 支持数据采集、训练和部署,下层保留 C++ 低层控制,并便于并行化与 sim-to-real。实验表明,RCS 能在多种机器人上完成 Octo、OpenVLA 和 π0 的抓取评测,且混合仿真数据可提升 π0 的真实表现;但具体提升幅度在给定片段中未充分说明。

Learning to Pick: A Visuomotor Policy for Clustered Strawberry Picking figure
TAFE 20262025-09-18

Learning to Pick: A Visuomotor Policy for Clustered Strawberry Picking

应用

应用

论文针对草莓成簇生长、叶片与果梗遮挡严重,传统感知—规划—控制难以稳定抵达萼片上方理想采摘点的问题,提出基于人类示教的4自由度SCARA采摘系统。其核心洞察是利用草莓垂向采摘几何,用低成本4DoF平台配合遥操作采集数据,并在ACT上加入末端位姿辅助损失与神经逆运动学模块,学习细粒度视觉运动策略。实验显示该方法在多种遮挡场景下优于直接ACT,并优于传统流程;但给定材料未充分说明具体成功率数值及增益拆解,增益来源是否主要来自模型改动还是数据/系统设计仍不清楚。

How Good are Foundation Models in Step-by-Step Embodied Reasoning? figure
arXiv2025-09-18

How Good are Foundation Models in Step-by-Step Embodied Reasoning?

Affordance

Affordance泛化基础模型数据集/Benchmark

这篇工作关注一个被现有机器人评测忽视的问题:基础模型在具身场景里是否真的会“按步骤”推理,而不只是猜对下一步动作。作者提出FoMER基准,覆盖10类任务、8种具身形态、1112个样本,并把感知落地与动作推理拆开评测,连同人工标注的推理链一起检查。结果表明,主流多模态大模型常能答对最终动作,但在空间约束、安全性与任务对齐上的推理仍明显不稳,说明当前泛化更多停留在表面匹配;具体增益来源判断基于公开摘要/项目页。

CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human figure
arXiv2025-09-18

CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human

辅助任务

辅助任务VLA机器人学习

这篇工作针对现有VLA常见的三点问题:机器人数据微调后易过拟合、显式推理多停留在“解说”层面、依赖世界模型想象又带来高时延,提出CollabVLA,把VLM反思推理与扩散动作生成放进MoE框架,并用“动作对齐+反思微调”两阶段训练,使机器人在不确定或连续失败时能解释当前判断并主动向人类索取简短文本/视觉提示。实验表明,它基本保留多模态理解能力,在仿真和真实任务中成功率更高,同时相对生成式代理将归一化时间降约2倍、dream次数降约4倍。

Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue figure
arXiv2025-09-18

Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

VLA

VLA语言条件机器人学习

这篇工作针对现有VLA像“单向执行器”一样在真实场景中难以处理含糊指令的问题,提出 Ask-to-Clarify:先用面向协作的VLM进行多轮澄清,再由扩散式动作模型端到端生成低层控制,并用连接模块与两阶段“知识隔离”训练保住提问能力,推理时再靠信号检测器在“发问/执行”间切换。论文称其在8个真实机器人任务上整体优于π0、π0-FAST和OpenVLA-OFT,但各模块增益占比在给定片段中未充分说明。

SeqVLA: Sequential Task Execution for Long-Horizon Manipulation with Completion-Aware Vision-Language-Action Model figure
arXiv2025-09-17

SeqVLA: Sequential Task Execution for Long-Horizon Manipulation with Completion-Aware Vision-Language-Action Model

VLA

VLA泛化机器人学习操作

针对长时程机器人操作里“子任务何时完成、何时切换”缺少内在判据、从而容易出现提前切换或滞留并引发级联失败的问题,SeqVLA在π0基础上加入轻量完成检测头,与动作头共享视觉、语言和动作历史表征,使模型既能生成低层控制,也能自行判断当前子任务结束并推进后续步骤。论文比较了联合/分阶段、冻结/解冻骨干的四种微调方案,结果表明解冻骨干的联合微调最可靠;在7步沙拉装箱和4步糖果装箱任务上,其总体成功率显著超过π0及其他强基线,并基本消除了序列切换相关失败。

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots figure
arXiv2025-09-17

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

泛化

泛化Sim2Real感知操作

论文针对机器人操作长期依赖 RGB、跨外观泛化差,而现成深度相机又噪声重、反光/细长物体易失真的瓶颈,提出相机专属的 Camera Depth Model:用 RGB+原始深度恢复更准确的公制度量深度,并用多相机实采数据结合仿真噪声建模的数据引擎训练。结果显示,CDM 将真实深度拉近到接近仿真精度,更关键的是,仅用干净仿真深度训练的策略无需加噪或真实微调,就能直接迁移到真实机器人长程任务,性能几乎不掉。

MIMIC-D: Multi-modal Imitation for MultI-agent Coordination with Decentralized Diffusion Policies figure
ICRA 20262025-09-17

MIMIC-D: Multi-modal Imitation for MultI-agent Coordination with Decentralized Diffusion Policies

多智能体/多机器人

多智能体/多机器人模仿学习Diffusion Policy机器人学习

这篇工作关注多机器人/人机协作中常见的“多解但必须一致”问题:传统模仿学习在多峰示范上易均值化或塌缩,导致去左/去右这类协同决策失配。MIMIC-D将其建模为联合训练、分散执行的条件扩散策略,让各智能体只凭局部观测独立采样动作,也能学到隐式协调而无需中心规划或显式通信。实验在2/3智能体导航、双臂仿真与真实搬运中均降低碰撞、提升任务成功率,并更好复现专家轨迹分布;硬件双臂搬筐20次成功19次,但文中也指出高度对称场景仍可能出现模式不一致而停滞或碰撞。

LeVR: A Modular VR Teleoperation Framework for Imitation Learning in Dexterous Manipulation figure
arXiv2025-09-17

LeVR: A Modular VR Teleoperation Framework for Imitation Learning in Dexterous Manipulation

灵巧操作

灵巧操作模仿学习数据采集遥操作操作

这项工作针对灵巧操作中“VR遥操作难支持多指手、示教数据又难直接接入LeRobot训练”的瓶颈,提出模块化框架LeVR,并以Franka FER+XHand实现LeFranX,把手部追踪、手臂/手指重定向、数据采集和策略部署串成统一流程。作者公开采集了100条示范;实验表明其遥操作虽仍约比人手直操作慢一倍,但快于Open-Teach基线,并能将ACT/DP在三项任务上分别训到8/10、5/10、4/10和6/10、3/10、1/10成功率,复杂接触任务仍明显受限。

LaVA-Man: Learning Visual Action Representations for Robot Manipulation figure
CoRL 20252025-09-17

LaVA-Man: Learning Visual Action Representations for Robot Manipulation

Latent Learning

Latent Learning感知机器人学习操作

LaVA-Man针对现有语言引导操作常把图文相似度直接映射为动作、因而缺乏“观测—指令—目标状态”因果建模的问题,提出以“根据当前图像和文本重建被遮挡的目标图像”为自监督预训练任务,在无动作标注下学习视觉动作表征;其核心洞察是用目标状态预测替代纯相似度对齐,让表征吸收场景转移语义,并配套构建含180类、3200实例的OOPP数据集补足开放词汇物体先验。实验显示,该表示经少量示范微调后,在5个仿真与真实机器人基准上均优于已有方法。

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model figure
arXiv2025-09-17

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

3D 表征

3D 表征VLA机器人学习

这篇工作针对 VLA 在相机视角变化下容易失效的问题,认为关键瓶颈不在动作解码器,而在视觉编码器缺少稳定的三维几何先验。作者用冻结的预训练几何模型 VGGT 直接替换常规图像编码器,再用轻量投影层把多尺度几何特征接入 BAKU、VQ-BeT 等策略,无需显式 3D 重建或深度输入。结果显示,该方法在 LIBERO 和 CALVIN 上基本不损失原视角性能,同时将未见视角零样本成功率平均提升约 35 和 11 个百分点,且在真实机器人、连续与离散动作空间中都成立。

Dual-Actor Fine-Tuning of VLA Models: A Talk-and-Tweak Human-in-the-Loop Approach figure
arXiv2025-09-17

Dual-Actor Fine-Tuning of VLA Models: A Talk-and-Tweak Human-in-the-Loop Approach

VLA

VLA机器人学习

论文针对预训练VLA在真实复杂、长时序操作中落地困难、且纯演示微调受数据质量限制的问题,提出人类在环的双执行器强化微调框架:主执行器负责稳健多任务动作生成,细化执行器在扩散潜变量/噪声空间中依据“talk-and-tweak”的语言与物理纠正做局部修正,把实时干预转成可学习的语义指令。实机实验中,3个螺栓操作子任务在线微调101分钟后成功率达100%,12步连续长程任务完成率50%,双机器人训练效率最高提升2倍。

StageACT: Stage-Conditioned Imitation for Robust Humanoid Door Opening figure
arXiv2025-09-16

StageACT: Stage-Conditioned Imitation for Robust Humanoid Door Opening

可变形物体

可变形物体人形操作模仿学习安全操作

这篇工作针对人形机器人开门这一长时程、部分可观测任务:门锁是否已开等关键状态不可见,标准行为克隆容易在“拧把手”和“推门”之间产生动作混叠或时序错误。StageACT的核心做法是给底层模仿学习策略额外输入低维任务阶段,并用阶段提示实现回退与恢复,因此无需外部传感器或特权门参数也能更好地区分相似观测下该做什么。真实办公室未见门测试中,成功率达55%,超过最佳基线两倍以上,且完成时间更短。

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning figure
ICLR 20262025-09-16

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

强化学习

强化学习VLA触觉机器人学习

这篇工作针对VLA训练高度依赖昂贵示教轨迹、且在分布偏移下泛化不足的问题,把面向LLM的veRL改造成适用于机器人交互的在线强化学习框架,加入VLA专用轨迹采样、多环境并行渲染、优化损失与探索增强,并观察到RL会诱导出训练数据中未出现的新动作模式“pushcut”。结果上,SimpleVLA-RL在LIBERO达到SOTA,在RoboTwin 1.0/2.0上超过π0;单示教设置下LIBERO-Long成功率由17.3%升至91.7%,且仿真训练能迁移到真实任务并优于仅SFT。

Robust Online Residual Refinement via Koopman-Guided Dynamics Modeling figure
arXiv2025-09-16

Robust Online Residual Refinement via Koopman-Guided Dynamics Modeling

任务规划

任务规划强化学习触觉安全机器人学习

这篇工作针对模仿学习在长时程、高精度装配中易因误差累积失效,而现有残差策略又只会围绕基策略做局部修补的问题,提出 KORR:先用 Koopman 理论把动力学提升到线性时不变潜空间,再用其外推的“想象下一状态”来指导在线残差动作,从而让修正带有全局状态演化信息。实验在长时程家具装配及多种扰动下显示,KORR 相比强基线在成功率、鲁棒性和泛化上更稳定,且优于常规非线性动力学建模;但各模块具体增益分解文中未充分说明。

ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training figure
CoRL 20252025-09-16

ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

Flow Matching

Flow Matching机器人学习操作

针对现有 flow matching 操作策略在高维灵巧动作上推理慢、跨模态融合弱、真实场景泛化不足的问题,ManiFlow把连续时间一致性训练并入 flow matching,用自一致约束“拉直”流轨迹,使策略仅需 1–2 步即可生成精细动作;同时提出 DiT-X,以自适应交叉注意力和 AdaLN-Zero 更细粒度融合视觉、语言与本体信息。实验中其在单任务 2D/3D 分别提升 45.6%/11.0%,多任务提升 31.4%,4 个鲁棒性任务较 π0 高 58%,8 个真实任务相对 3D Diffusion Policy 成功率翻倍以上。

LightVLA: The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning figure
arXiv2025-09-16

LightVLA: The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning

VLA

VLA机器人学习

面向VLA在边缘机器人上因大量视觉token带来的高时延与高算力开销,LightVLA提出一种可微分的自适应视觉token剪枝方法:用指令与视觉交互生成动态查询评估token重要性,并借助Gumbel-Softmax在微调中端到端选择保留项,无需预设固定剪枝比例或新增参数。其核心洞察是视觉稀疏性不仅浪费计算,还会引入噪声分散注意力,因此效率与性能并非必然互斥。在LIBERO上,相比OpenVLA-OFT,FLOPs降低59.1%、时延降低38.2%,成功率提升2.6%。

LLaDA-VLA: Vision Language Diffusion Action Models figure
arXiv2025-09-16

LLaDA-VLA: Vision Language Diffusion Action Models

VLA

VLADiffusion Policy语言条件机器人学习

该文尝试把近年在多模态生成中表现突出的扩散式VLM引入机器人操作,针对其与低层控制存在语义域差、且掩码扩散不擅长生成结构化动作序列的问题,提出LLaDA-VLA:一是把全词表预测收缩为动作特殊token分类,降低适配难度;二是按动作级与token级置信度分层解码,显式建模动作内外依赖。结果上,它在CALVIN、SimplerEnv和WidowX实机上均超过OpenVLA、π0、CogACT等,CALVIN平均长度提升0.74,SimplerEnv平均成功率增51.3%,但增益中预训练规模与数据因素占比文中未充分说明。

Gen2Real: Towards Demo-Free Dexterous Manipulation by Harnessing Generated Video figure
arXiv2025-09-16

Gen2Real: Towards Demo-Free Dexterous Manipulation by Harnessing Generated Video

抓取

抓取灵巧操作视频规划操作

这篇工作针对灵巧手学习严重依赖遥操作或动捕示教、数据昂贵且难覆盖新任务的问题,提出 Gen2Real:把自然语言生成的人手操作视频当作唯一监督,先恢复手—物体耦合轨迹,再用具物理约束的 PIOM 修正伪接触和不稳定运动,最后通过运动重定向与锚点残差 PPO 学到可执行策略。其在仿真抓取中达到 77.3% 成功率,并在真实机器人上完成较连贯抓取;但当前验证似乎主要集中在抓取,向更复杂灵巧操作的泛化文中未充分说明。

Embracing Bulky Objects with Humanoid Robots: Whole-Body Manipulation with Reinforcement Learning figure
arXiv2025-09-16

Embracing Bulky Objects with Humanoid Robots: Whole-Body Manipulation with Reinforcement Learning

人形操作

移动操作人形操作强化学习触觉操作

这篇工作面向人形机器人搬运大体积物体时末端抓取不稳、载荷受限的问题,提出将人类动作先验与神经有符号距离场结合的强化学习框架:前者通过师生蒸馏提供更自然且物理可行的全身动作分布,后者把机器人—物体几何关系连续编码进观测与奖励,帮助手臂和躯干形成稳定多接触“环抱”操作。仿真与真机结果表明,该方法能完成接近、拥抱和运输流程,并对不同尺寸/形状物体及 sim-to-real 迁移更稳健;但公开摘要未充分说明具体量化增益来源,判断主要基于摘要。

Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation figure
ICRA 20262025-09-16

Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation

Flow Matching

Flow Matching机器人学习操作

本文针对机器人中Flow Matching“推理步数越多反而性能下降”的反常现象展开,指出均匀多步积分会过度采样末端时间段,使动作向训练轨迹收缩,并且速度场在t→1时失去局部Lipschitz性而变得不稳定。为此作者提出训练时的U形非均匀时间采样和推理时的Dense-Jump积分,在稳定区细化、接近终点时单步跳过。该方法在Walker2D、Adroit Pen、Humanoid Standup等任务上同时提升单步与多步鲁棒性,相比基线最高增益达23.7%。

TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning figure
ICRA 20262025-09-15

TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning

人形操作

移动操作人形操作VLA操作

面向双足人形VLA缺少高质量全身操作示教、难以快速适配新动作空间的问题,TrajBooster的关键洞察是把双臂末端6D轨迹当作跨形态通用接口:先从轮式人形数据提取轨迹,在仿真中重定向为Unitree G1可执行的全身动作,再用“源视觉/语言+目标动作”的异构三元组进行后预训练,并只需10分钟真机遥操作微调。结果显示其能在G1上完成超越桌面的下蹲、跨高度抓取等任务,鲁棒性、泛化和零样本迁移更强;但具体增益来源文中未充分说明,可能部分来自重定向数据规模。

Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer figure
arXiv2025-09-15

Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer

Diffusion Policy

Diffusion PolicyTransformer Policy泛化跨本体安全操作

这篇工作针对轻量机器人策略在异构本体、多模态输入下训练不稳且难以跨平台泛化的问题,提出 Tenma:用跨本体归一化把不同机器人的状态/动作映射到共享潜空间,再以 Joint State-Time 编码器对齐时序观测,并用更稳定的 DiT 式扩散解码器生成双臂动作。在 Open X-Embodiment 预训练并在四个双臂桌面任务微调后,Tenma 在同算力下分布内平均成功率达 88.95%,显著高于最强基线的 18.12%,在物体和场景变化下也保持较强泛化。

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling figure
ICLR 20262025-09-15

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

视频规划

视频规划世界模型操作数据集/Benchmark

论文针对通用4D世界模型受限于数据稀缺、现有基准动态性和几何标注不足的问题,构建了跨模拟器、机器人、人类与互联网场景的多域多模态数据集OmniWorld,其中自建OmniWorld-Game含9.6万段、1851.5万帧,并提供深度、位姿、文本、光流和前景掩码。作者还建立更具挑战的评测,发现现有SOTA在复杂动态场景明显失效;用该数据微调DUSt3R、CUT3R、AC3D后,深度估计与相机控制视频生成均显著提升,但增益可能主要来自数据规模与标注丰富度。

Inference-stage Adaptation-projection Strategy Adapts Diffusion Policy to Cross-manipulators Scenarios figure
arXiv2025-09-15

Inference-stage Adaptation-projection Strategy Adapts Diffusion Policy to Cross-manipulators Scenarios

Diffusion Policy

Diffusion Policy机器人学习操作

这篇工作针对扩散策略在更换机械臂或夹爪后因TCP偏移、运动学差异和新任务约束而失效的问题,提出仅在推理阶段进行的 adaptation-projection:先将新硬件的几何/状态偏移适配到观测,再把去噪过程改写为带安全与任务约束的轨迹投影优化,从而无需重训即可零样本迁移到跨夹爪、跨机械臂场景。实机在 Franka、Kuka 及多种夹爪上的抓放、推动、倒水任务中均取得较高成功率,但摘要未给出统一量化增益。

Geometric Red-Teaming for Robotic Manipulation figure
CoRL 20252025-09-15

Geometric Red-Teaming for Robotic Manipulation

抓取

抓取Latent Learning机器人学习操作

这篇工作针对机器人操作评测过度依赖分布内基准、难以暴露真实脆弱性的痛点,提出几何红队框架GRT,把对象形状扰动当作黑盒搜索问题:在用户或VLM约束下,用Jacobian场网格变形结合仿真器内无梯度优化,自动生成仍物理合理却能诱发灾难性失败的CrashShapes。作者在插接、抽屉操作和抓取中都显著击穿预训练策略;真实机器人上,成功率可从90%降到22.5%,再用这些反例做blue-teaming微调又可恢复到最高90%,且原始物体性能基本不掉。

AssemMate: Graph-Based LLM for Robotic Assembly Assistance figure
ICRA 20262025-09-15

AssemMate: Graph-Based LLM for Robotic Assembly Assistance

任务规划

任务规划语言条件操作应用

该文针对装配辅助中把领域知识以文本喂给LLM导致上下文冗长、推理不够实时精准的问题,提出 AssemMate:用知识图替代文本注入装配知识,并以自监督GCN编码实体与关系后对齐到LLM,实现面向装配问答的KGQA,再结合视觉增强完成堆叠场景抓取。实验显示其单跳问答准确率82.1%、推理0.48秒,相比基线准确率提升6.4%、速度快3倍、上下文缩短28倍,多跳问答和仿真/实物抓取也有明显优势。

FEWT: Improving Humanoid Robot Perception with Frequency-Enhanced Wavelet-based Transformers figure
arXiv2025-09-14

FEWT: Improving Humanoid Robot Perception with Frequency-Enhanced Wavelet-based Transformers

移动操作

移动操作人形操作Transformer Policy感知机器人学习操作

这篇工作针对人形移动操作中RGB感知表征不稳、ACT类模仿学习对多尺度时空信息利用不足的问题,提出FEWT:在视觉骨干中用FE-EMA把小波分解引入多尺度注意力,联合空间与频域特征;在策略时序建模中加入TS-DWT,并结合底盘IMU与关节状态。结果显示,相比ACT基线,仿真成功率最高提升30%,真实双臂移动操作提升6%–12%,说明频域增强对感知与策略鲁棒性有实际收益。

Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations figure
arXiv2025-09-14

Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

VLA

VLA泛化语言条件机器人学习

论文关注VLA把VLM直接微调到机器人数据后会破坏原有视觉/语言表征,导致对背景变化、干扰物和指令改写明显过拟合。作者提出一套“保留预训练表征”的配方:冻结与可训练双视觉编码器并行、将连续动作转成与语言预训练域对齐的字符串、再和强调空间推理与可供性的图文数据联合训练。仿真与真机实验显示,该方法在视觉扰动、新指令和新环境下更稳健,整体成功率优于OpenVLA、π0等基线。

ImMimic: Cross-Domain Imitation from Human Videos via Mapping and Interpolation figure
CoRL 20252025-09-13

ImMimic: Cross-Domain Imitation from Human Videos via Mapping and Interpolation

视频规划

视频规划模仿学习泛化跨本体

这篇工作针对“人类视频丰富、机器人示教稀缺”但视觉外观、本体结构和物理约束差异过大,导致人到机模仿难以直接迁移的问题,提出跨本体共训练框架 ImMimic。其核心洞察是:重定向后的人手轨迹本身就是有价值的动作监督;在此基础上,用基于动作或视觉的 DTW 对齐人机时序,再用 MixUp 对表征与动作做插值,构造人机之间的中间域来平滑适配。实验在4种末端执行器、4个真实操作任务上表明,方法整体提升了成功率和执行平滑性,且动作距离驱动的映射通常比纯视觉映射更有效。

TASC: Task-Aware Shared Control for Teleoperated Manipulation figure
arXiv2025-09-12

TASC: Task-Aware Shared Control for Teleoperated Manipulation

操作

操作应用

这篇工作针对现有基于手柄/键盘的共享控制难以覆盖日常多步操作、又很难在新物体新任务上泛化的问题,提出 TASC:先用视觉语言模型从 RGB-D 场景构建开放词汇交互图,结合操作者历史运动推断任务级意图,再在抓取和物体交互两阶段分别提供抓取姿态选择与旋转对齐辅助。仿真和真实实验显示,它比纯遥操作和既有共享控制更省输入、完成更快,并能零样本迁移到多种家庭操作;但各模块增益来源文中未充分说明,判断基于公开摘要/论文片段。

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model figure
AAAI 20262025-09-11

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

VLA

VLA机器人学习

这篇工作针对现有VLA常依赖大规模VLM和机器人预训练、因而显存开销高、微调慢、推理吞吐低的问题,转而追问“视觉-语言表征该如何更有效地桥接到动作空间”。作者先系统比较不同VL条件对动作生成的作用,再提出带Bridge Attention的轻量Policy,让模型自主选择并注入更合适的条件。结果是在无机器人数据预训练、仅0.5B骨干下,LIBERO达97.3%,接近并略超7B的OpenVLA-OFT,同时训练显存降至24.7GB,单张消费级GPU约8小时可训练完成,推理吞吐达219.2Hz。

SQAP-VLA: A Synergistic Quantization-Aware Pruning Framework for High-Performance Vision-Language-Action Models figure
arXiv2025-09-11

SQAP-VLA: A Synergistic Quantization-Aware Pruning Framework for High-Performance Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作面向VLA难以上机器人端部署的问题,先指出4比特量化与token剪枝并非简单可叠加:量化会打散并偏移注意力分布,使原本依赖注意力的剪枝准则失效。为此作者提出免训练的协同框架SQAP-VLA,在量化侧用Hadamard变换结合张量级量化改善可剪枝性,在剪枝侧加入极值注意力保留、机械臂相关token保护和空间感知采样。实验表明,该方法在标准VLA上可实现1.93×推理加速,并在基本保持能力的同时,平均成功率最高较原模型提升4.5%。

MimicDroid: In-Context Learning for Humanoid Robot Manipulation from Human Play Videos figure
ICRA 20262025-09-11

MimicDroid: In-Context Learning for Humanoid Robot Manipulation from Human Play Videos

人形操作

人形操作视频规划操作

这篇工作瞄准人形机器人在新物体、新环境下难以靠少量示教快速适应的问题,试图摆脱昂贵且难扩展的遥操作训练数据。MimicDroid 的关键做法是仅用无标注人类 play 视频,通过检索相似操作片段构造 context-target 对进行 Meta-ICL 训练,并把 RGB 估计的人手腕位姿重定向到人形机器人,同时用随机图像块遮挡缓解人机外观差异。实验中,它在作者提出的仿真基准和真实机器人上都优于现有方法,真实成功率接近翻倍,且训练数据从 64k 增至 320k 帧还能再带来约 20% 提升,说明增益可能部分来自数据规模与多样性。

From Power to Precision: Learning Fine-grained Dexterity for Multi-fingered Robotic Hands figure
arXiv2025-09-11

From Power to Precision: Learning Fine-grained Dexterity for Multi-fingered Robotic Hands

灵巧操作

灵巧操作操作

这篇工作针对多指手擅长力量抓取却难做精细捏取、因此精密任务里常被平行夹爪替代的问题,提出控制与硬件联合设计:不重做整只手,只在指尖增加可插拔接触平面,并用神经物理替代模型在大规模仿真中优化几何;控制上在力量/精细模式间切换,把精细操作简化为拇指—食指并行运动。实验中,其仿真到现实的未知物体精细抓取零样本成功率达82.5%,真实面包捏取达93.3%,且未明显牺牲力量抓取能力。

Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration figure
CoRL 20252025-09-11

Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration

灵巧操作

灵巧操作操作

这篇工作针对人手 MoCap 演示有噪声、且人与机器人手存在形态差异,导致传统“重定向—跟踪—残差修正”流程误差累积的问题,提出 Dexplore:把演示当作软参考而非真值,在单环训练中用自适应参考作用域约束强化学习,联合完成重定向与跟踪,再蒸馏为仅依赖单目深度和本体感觉的技能条件生成控制器。文中报告其在多对象灵巧操作上优于 DexTrack 等基线,并完成真实机器人部署;但给定材料未充分说明具体量化增益有多大,部分提升也可能来自 scaling/data。

Boosting Embodied AI Agents through Perception-Generation Disaggregation and Asynchronous Pipeline Execution figure
arXiv2025-09-11

Boosting Embodied AI Agents through Perception-Generation Disaggregation and Asynchronous Pipeline Execution

VLA

VLA感知机器人学习

论文关注具身智能体“思考频率”远低于相机输入和机器人控制频率的问题:传统顺序式感知-生成闭环既浪费GPU,并行化又会带来流间干扰与观测陈旧。Auras的关键洞察是将感知与生成解耦,并通过共享公共上下文和受控异步流水线,让生成阶段尽量使用最新感知结果。实验称其平均吞吐提升2.54倍(自回归3.05倍、扩散2.28倍),同时准确率基本不降,达到顺序基线的102.7%,增益主要来自系统执行重构而非模型本身。

Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration figure
T-RO 20252025-09-10

Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration

抓取

抓取灵巧操作泛化操作

这项工作针对多指手在无视觉、未知物体尤其可变形物体上难以兼顾手指协同与接触力控制的问题,提出可同时用于人手和机器人手的触觉—运动数据手套,以统一图表示编码关节运动与接触力,并用TK-STGN从人类示教中学习感知到动作的时空映射,再通过力—位置混合控制执行。实验表明,该方法在已见/未见物体、随机传感失效与姿态扰动及跨机器人手测试中均优于对比方法,基线成功率约93.3%,扰动下仍达86.7%–92.7%。

Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions figure
CoRL 20252025-09-09

Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions

灵巧操作

灵巧操作强化学习触觉语言条件操作

这项工作针对触觉灵巧手做手内旋转时奖励函数严重依赖专家经验、且高维触觉信号让调参更困难的问题,提出 Text2Touch:通过改进提示工程,让 LLM 在含 70 余个环境变量的场景中自动写出更短、更可解释的触觉奖励,并用教师—学生蒸馏完成仿真到真实迁移。实验显示,在带 TacTip 的 Allegro Hand 上完成多轴、掌心朝上/朝下旋转时,其策略相比人工设计奖励实现了更快的旋转速度和更稳定的抓持,奖励代码还缩短了约一个数量级。

TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models figure
CoRL 20252025-09-09

TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models

VLA

VLA触觉机器人学习

这篇论文针对接触密集操作中仅靠视觉难以判断接触状态、而额外力传感器又增加成本的问题,探索如何把机械臂关节扭矩接入预训练VLA。文中系统比较了扭矩接入的位置与形式,核心发现是:扭矩更适合接到decoder而非encoder,历史扭矩压缩成单个token比多token更稳且效果更好,并通过把未来扭矩预测设为辅助目标,构建统一的动作—扭矩生成模型。实验证明,该设计在10个真实任务、尤其5个接触关键任务上,相比多种强VLA基线取得了稳定提升,并具备跨模型与机器人本体的泛化能力。

RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction figure
CoRL 20252025-09-09

RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction

数据采集

数据采集数据生成机器人学习

这篇论文的出发点是:长时序、接触密集和可形变物体任务里,单纯依赖“成功示范”的模仿学习很快触顶,因为数据几乎不包含失误后的恢复、回退与重试。RaC在常规模仿预训练后,引入人类在线接管数据,要求操作者先把机器人退回熟悉状态,再补上一段纠正动作,并在干预后结束轨迹,从而用更好的数据组成教会策略适应与补救。文中在3个真实双臂任务和1个仿真装配任务上,相比全演示和HG-DAgger以约10倍更少采集时间与样本取得更高成功率,且测试时恢复次数越多,性能近似线性提升。

One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation figure
CoRL 20252025-09-09

One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation

抓取

抓取灵巧操作3D 表征Sim2Real感知操作

面向长尾新物体抓取中“只有一张参考图、没有CAD且尺度未知”的6D位姿难题,论文提出OnePoseViaGen:先由单张图生成带纹理3D网格,再用粗到细对齐同时恢复真实尺度与位姿,并以文本引导的生成式域随机化扩充纹理、微调位姿估计器,缓解生成模型到真实图像的域差。在YCBInEOAT、Toyota-Light、LM-O及真实灵巧手抓取上,方法显著超过现有单次参考基线,图示ADD/ADD-S达81.3/93.1,说明单视图生成3D已能直接支撑精确操作。

Graph-Fused Vision-Language-Action for Policy Reasoning in Multi-Arm Robotic Manipulation figure
IROSW 20252025-09-09

Graph-Fused Vision-Language-Action for Policy Reasoning in Multi-Arm Robotic Manipulation

VLA

VLA音频机器人学习操作

这篇工作针对从人类示教视频学机器人操作时,单纯模仿低层轨迹难以跨对象、空间布局和双臂构型泛化的问题,提出 GF-VLA:先用基于熵的信息论线索从 RGB-D 示教中筛出关键手-物体与物-物交互并构成时序场景图,再与语言条件 VLA 融合,生成可解释的行为树、笛卡尔运动原语和双臂分工策略。实验在四个双臂积木装配任务上达到 95% 以上图准确率、93% 子任务分割、94% 抓取可靠性、89% 放置准确率和 90% 整体成功率,说明其优势在于把结构化交互表示接入任务级推理,而不只是复制轨迹。

Attribute-based Object Grounding and Robot Grasp Detection with Spatial Reasoning figure
Humanoids 20252025-09-09

Attribute-based Object Grounding and Robot Grasp Detection with Spatial Reasoning

抓取

抓取人形操作感知操作

这项工作针对语言驱动抓取在开放式指令、重复物体区分和像素级抓取标注昂贵这三类难点,提出 OGRG:不依赖预对齐视觉语言大模型,而是用双向视觉-语言融合结合深度信息做空间推理,在同一框架中完成目标分割与平面抓取预测,并覆盖全监督 RGS 与仅需单像素抓取标注的弱监督 RGA。实验显示其在两项任务上都超过强基线,RGS 可达 17.59 FPS,且在仿真和真实机器人上都提高了抓取成功率。

F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions figure
arXiv2025-09-08

F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

辅助任务

辅助任务VLA世界模型感知机器人学习操作

论文针对现有VLA多依赖“当前观测→动作”的反应式映射、在动态场景和长程操作中易短视失稳的问题,提出F1:用三专家Mixture-of-Transformer统一语言/视觉理解、未来视觉前瞻生成与控制,并把动作学习改写为由目标条件未来图像驱动的逆动力学;再配合三阶段训练,把预训练MLLM语义能力与世界模型式预测结合。结果上,F1在真实机器人和仿真基准上整体优于现有方法,尤其动态与长程任务的成功率和泛化更强,但摘要未给出关键数值,具体增益来源判断基于公开摘要/项目页。

Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments figure
CoRL 20252025-09-08

Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments

任务规划

任务规划模仿学习Transformer Policy机器人学习操作数据集/Benchmark

论文针对机械臂在动态、部分可观测环境中“既要全局绕障、又要实时反应”的难题:传统规划器全局性强但重规划太慢,局部反应控制虽快却易陷入局部最优。作者提出DRP,将点云条件的Transformer策略IMPACT与局部目标修正模块DCP-RMP结合,并用1000万条cuRobo专家轨迹预训练,再通过学生-教师微调补足静态避障与动力学偏差。结果显示其在仿真和真实场景的拥挤、动态障碍、目标遮挡任务上成功率优于经典与已有神经方法,但提升也可能部分来自大规模数据scaling。

O3Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation figure
CoRL 20252025-09-07

O3Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation

任务规划

任务规划Affordance3D 表征泛化操作

这篇工作针对现有可供性学习大多停留在单物体、二维表征,难以在标注极少时理解倒水、切割这类双物体交互的问题,提出单样本的 O3Afford:先把视觉基础模型的多视角语义蒸馏到点云,再用双向联合注意力同时建模源物体与目标物体的几何—语义关系,并把得到的三维可供性图交给大语言模型生成约束,供优化式操作规划使用。文中报告其在三维物-物可供性定位以及仿真、真实机器人操作上均优于基线,并对未见实例和新类别具有更强泛化。

Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen) figure
arXiv2025-09-07

Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)

3D 表征

3D 表征数据采集数据增强

论文针对全向操作策略往往需要大量示教、而单次腕视角示教只覆盖有限状态的问题,提出 OP-Gen:先用 3D 生成模型从单个示教补全目标物体,再结合锚定轨迹生成可执行的新末端轨迹与新视角图像,自动构造带动作标注的“想象数据集”来训练扩散策略。真实机器人实验表明,在抓取、开抽屉、投垃圾等 6 个任务上,该方法能从远离示教、甚至物体对侧的初始位姿成功执行,显著优于点云和部分 NeRF 增强,并接近完整扫描上界。

Grasp-MPC: Closed-Loop Visual Grasping via Value-Guided Model Predictive Control figure
arXiv2025-09-07

Grasp-MPC: Closed-Loop Visual Grasping via Value-Guided Model Predictive Control

抓取

抓取任务规划感知操作

论文针对杂乱场景中新物体抓取时,开环方法易受抓取位姿误差和物体扰动影响、现有闭环策略又难泛化的问题,提出把视觉价值函数嵌入MPC:先用现成抓取预测与规划到预抓取位姿,再依据由200万条合成成功/失败轨迹学到的价值,在闭环中实时修正并兼顾避碰与平滑。仿真和真实实验中,其成功率相对开环、Diffusion、Transformer和IQL最高提升32.6%与33.3%;但增益有多少来自MPC本身、多少来自大规模数据,文中未充分说明。

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning figure
arXiv2025-09-06

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

VLA

VLA机器人学习

作者观察到VLA连续控制帧的图像高度相似,而现有加速方法多只看当前动作步的局部信息,常在提速有限时带来明显成功率损失。为此,SpecPrune-VLA提出免训练的“动作级+层级”两级裁剪:先复用历史全局注意力并结合当前局部线索筛掉长期不重要的视觉 token,再按层动态更新重要性,并依据末端执行器速度区分粗细动作、调节裁剪强度。在LIBERO与真实机器人上分别取得最高1.57×和1.70×加速,成功率几乎不降。

Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies figure
RLC 20252025-09-06

Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies

强化学习

强化学习触觉轨迹生成数据采集机器人学习

本文关注模型式强化学习中世界模型该依赖离线数据还是在线交互训练:虽然后者成本高,但作者在31个环境用DreamerV3比较Active、Tandem与Passive后发现,纯离线方法常因状态覆盖不足,在测试时进入分布外状态,导致想象轨迹与真实滚动失配,且缺少在线“自纠偏”机制,最终拖累策略学习。核心洞察是数据采集策略比“是否离线”更关键:加入探索数据而非只收专家轨迹,可显著缓解退化;再配合少量固定或自适应在线微调,约用相当于离线数据量6%的额外交互即可接近或恢复在线训练表现。

OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation figure
arXiv2025-09-05

OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation

灵巧操作

灵巧操作视频规划基础模型操作数据集/Benchmark

这项工作针对第一视角操作数据常在“细粒度语言分段”和“灵巧手标注”之间二选一、难以同时支持高层规划与低层控制的问题,整合6个公开数据集构建OpenEgo,统一为相机坐标系下的MANO-21手关键点,并补充带时间戳、与意图对齐的动作原语。数据规模达1107小时、290类任务、600余环境。作者进一步训练语言条件模仿学习策略预测3D手轨迹,证明该数据可用于VLA/灵巧操作学习,但实验仅用0.1%数据,具体增益来源与性能上限文中未充分说明。

Imitation Learning Based on Disentangled Representation Learning of Behavioral Characteristics figure
CoRL 20252025-09-05

Imitation Learning Based on Disentangled Representation Learning of Behavioral Characteristics

模仿学习

模仿学习Latent Learning机器人学习

本文关注机器人在执行过程中如何响应“快一点、用力一点”这类定性修饰指令,因为现有语言结合模仿学习的方法更擅长高层技能选择,难以在线细粒度调节连续动作。作者将演示切成短动作片段,用弱监督修饰标签约束解耦潜变量学习,并结合类似 action chunking 的在线序列预测与加权平滑,实现按指令即时改动作风格。实验在擦拭和抓放任务中表明,该方法能在线调整速度与力度,而传统批式方法难以做到;但具体增益来源与对数据规模的依赖,文中片段未充分说明。

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies figure
CoRL 20252025-09-05

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

VLA

VLAFlow Matching基础模型机器人学习

论文针对现有扩散式VLA参数和算力门槛过高、难以实际部署的问题,提出FLOWER。其核心洞察是不要把容量过多堆在完整VLM上,而是通过中间层融合裁剪30%–50%的VLM层、把中间语义特征送入Flow Transformer,并用面向动作空间的Global-AdaLN再压缩约20%的动作头参数。最终模型仅950M参数、约200 H100 GPU小时完成预训练,在10个基准190项任务上达到与更大VLA相当的表现,并在CALVIN ABC上取得4.53的新SOTA。

Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance figure
CoRL 20252025-09-04

Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

可变形物体

可变形物体Affordance触觉操作

这项工作面向衣物在褶皱、悬空和强遮挡下难以操作的问题,提出双臂视觉-触觉框架:用带分布式损失的稠密对应同时建模衣物对称性与匹配置信度,再结合触觉自监督抓取可供性和反应式状态机,在低置信度时主动延后动作。文中结果表明系统可不依赖先展平或全状态估计,完成折叠与悬挂等任务,并把稠密描述子复用于人类视频示教目标提取;但摘要未充分说明相对基线的具体量化增益。

Planning from Point Clouds over Continuous Actions for Multi-object Rearrangement figure
CoRL 20252025-09-04

Planning from Point Clouds over Continuous Actions for Multi-object Rearrangement

任务规划

任务规划3D 表征

这篇工作针对长时程多物体重排里“符号任务规划依赖人工离散化、纯策略方法又难以处理多步组合决策”的问题,提出SPOT:直接在分割点云上用A*搜索物体级SE(3)变换序列,不显式定义谓词或关系,并用从演示学习的物体建议器、放置建议器和模型偏差估计来压缩连续动作搜索空间。实验显示,它在仿真与真实场景的桌面整理、堆叠和受限装箱中都能生成可执行计划,整体优于3D Diffusion Policy及多种去搜索化消融,且有时还能找到比示范更短的路径。

Long-Horizon Visual Imitation Learning via Plan and Code Reflection figure
arXiv2025-09-04

Long-Horizon Visual Imitation Learning via Plan and Code Reflection

任务规划

任务规划程序化规划模仿学习感知

论文针对现有视觉模仿学习在长时序任务中易出现动作顺序错乱、空间关系误判和幻觉动作的问题,提出LongVIL,将“先规划再生成代码”改为“规划—反思—代码—再反思”的双重校验流程,并配套发布含300段人类演示、最长18步的LongVILBench,用于系统评测时序与空间复杂度。结果上,现有方法在该基准表现较差,而该框架取得更强基线;但文中片段未给出具体提升幅度,增益来源是否主要来自反思机制而非数据或模型规模,文中未充分说明。

Learning Multi-Stage Pick-and-Place with a Legged Mobile Manipulator figure
RA-L 20252025-09-04

Learning Multi-Stage Pick-and-Place with a Legged Mobile Manipulator

四足操作

移动操作四足操作操作

面向四足移动操作中长时程、多技能串联且仅靠腕部机载相机导致的部分可观测难题,本文构建语言指令驱动的多阶段拾放任务,并提出SLIM:先用渐进式策略扩展训练教师策略,缓解长时程RL难以同时学会搜索、抓取与搬运的问题,再通过蒸馏得到可零样本部署的视觉运动学生策略,并结合多项缩小sim-to-real差距的设计。实机400次测试中成功率接近80%,且能在室内外多样场景中泛化,出现重抓取和任务衔接等行为。

FPC-VLA: A Vision-Language-Action Framework with a Supervisor for Failure Prediction and Correction figure
ESWA 20262025-09-04

FPC-VLA: A Vision-Language-Action Framework with a Supervisor for Failure Prediction and Correction

VLA

VLA安全机器人学习

这篇工作针对端到端VLA虽灵活却缺少“预判失败并及时纠偏”机制、在长程操作中容易一错到底的问题,提出FPC-VLA:在主VLA外增加一个基于VLM的监督器,于关键帧判断下一步夹爪动作是否可行,并用自然语言给出方向和幅度修正;再结合无需人工标注的失败纠错数据生成流程与双流动作融合,利用历史预测平滑位姿和夹爪控制。实验显示其在SIMPLER、LIBERO及Xiaomi/ALOHA实机上均优于OpenVLA、Octo等基线,零样本与微调设置下都更稳健。

EMMA: Scaling Mobile Manipulation via Egocentric Human Data figure
arXiv2025-09-04

EMMA: Scaling Mobile Manipulation via Egocentric Human Data

移动操作

移动操作视频规划操作

论文针对移动操作模仿学习受限于昂贵移动遥操作数据这一瓶颈,提出EMMA:把可穿戴第一视角采集的人类全身移动操作数据,与静态机器人操作数据联合训练,通过动作重定向和导航/操作阶段识别,把人类演示迁移到差分底盘双臂机器人上。四个真实任务中,其整体成功率达到或超过基于Mobile ALOHA遥操作数据训练的基线,并能泛化到新场景与新空间布局;性能随人类数据时长增加而提升,但各模块相对增益来源可能主要来自 scaling / data,文中未充分说明。

Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models figure
AAAI 20262025-09-04

Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models

强化学习

强化学习VLA机器人学习

针对VLA流模型在复杂下游操作中仅靠模仿学习、难利用离线数据质量差异而导致动作精度不足的问题,本文提出ARFM,把离线RL后训练转化为对flow loss的自适应重加权:围绕“保留优势信号、控制梯度方差”的偏差-方差权衡,实时用二分法更新scaling,既强化高价值样本又避免权重爆炸。仿真与真机实验表明,该方法比纯IL和现有后训练方案更稳定,在泛化、扰动鲁棒、少样本与持续学习上更优。

U-ARM: Ultra Low-Cost General Teleoperation Interface for Robot Manipulation figure
arXiv2025-09-02

U-ARM: Ultra Low-Cost General Teleoperation Interface for Robot Manipulation

数据采集

数据采集遥操作操作

针对具身智能训练缺少高质量真实操作数据、而现有主从遥操作系统又贵且难适配的问题,U-Arm提出三种3D打印主臂构型与统一控制逻辑,以机械同构覆盖多数商用机械臂,并通过舵机选型、结构重设计及冗余自由度的映射、滤波与标定优化,把6/7自由度成本压到50.5/56.8美元。实验表明其数据采集效率较JoyCon提升39%,任务成功率相当,且已开源硬件、仿真与部分真实数据。

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance figure
ICLR 20262025-09-02

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

VLA

VLALatent Learning机器人学习

这篇工作针对VLA在跨机器人本体与跨任务迁移时动作分布错位、直接微调既耗数据又不稳的问题,提出ATE:先用带反向KL约束的VAE把目标域动作嵌入预训练动作潜空间的已有模态,实现动作空间对齐;再在统一潜空间中为扩散或flow式VLA加入指导信号,显式把生成动作推向目标域。实验表明该方法无需改动原模型结构,在仿真多任务平均成功率最高提升9.8%,真实双臂跨本体场景提升32%。

Robix: A Unified Model for Robot Interaction, Reasoning and Planning figure
arXiv2025-09-01

Robix: A Unified Model for Robot Interaction, Reasoning and Planning

任务规划

任务规划VLA人机交互机器人学习

面向通用机器人在开放环境中既要理解人类指令、又要长程规划并处理打断的需求,Robix把高层认知统一成单一视觉语言模型,将人机对话、链式推理和原子动作生成建模为同一 reasoning-action 序列,并用继续预训练、监督微调和强化学习强化3D空间理解、状态监控与动态重规划。结果上,它在31个相关基准和多类交互任务中整体优于开源及商用基线,Robix-32B在两项OOD交互设定上较Gemini 2.5 Pro高3.0和11.8个百分点;但各项增益有多少来自模型规模或合成数据,文中未充分说明。

Data Retrieval with Importance Weights for Few-Shot Imitation Learning figure
CoRL 20252025-09-01

Data Retrieval with Importance Weights for Few-Shot Imitation Learning

数据需求量大

数据需求量大模仿学习数据采集数据检索

面向少样本模仿学习中“目标演示太少、需要从大规模先验数据补充样本”的问题,论文指出常用的潜空间最近邻检索本质上是目标分布 KDE 的极限近似,因此既方差高、易受噪声影响,又忽略先验数据自身分布而产生偏置。作者提出 IWR,用高斯 KDE 估计目标分布与先验分布的比值作为重要性权重来检索数据,只需小改现有方法。实验显示,它在 LIBERO 上给 SAILOR、Flow Retrieval、Behavior Retrieval 额外带来约 5.8%、4.4%、5.8% 提升,在 Bridge 真实任务上相对 Behavior Retrieval 平均提升约 30% 成功率。

An Effective Trajectory Planning and an Optimized Path Planning for a 6-Degree-of-Freedom Robot Manipulator figure
CASC 20252025-08-31

An Effective Trajectory Planning and an Optimized Path Planning for a 6-Degree-of-Freedom Robot Manipulator

基础操作

基础操作任务规划操作非学习控制

面向6自由度 myCobot 在末端姿态固定、且一路径点常有多组逆解时难以稳定执行的问题,论文提出一套非学习规划流程:先解析求出给定姿态下的可行工作区域,再用等距或带平滑加减速的非等距分段生成轨迹,最后把各经由点的多组关节解构成图,用 Dijkstra 按总关节位移或关节磨损相关代价选出最优解序列。实验表明该方法能有效完成轨迹与路径优化;但具体定量提升和各指标差异的增益来源,文中未充分说明。

TReF-6: Inferring Task-Relevant Frames from a Single Demonstration for One-Shot Skill Generalization figure
CoRL 20252025-08-30

TReF-6: Inferring Task-Relevant Frames from a Single Demonstration for One-Shot Skill Generalization

模仿学习

数据需求量大模仿学习泛化

这篇工作针对单次示教下传统DMP容易只记住起终点、难以保留门铰链转动或沿平面滑动等隐含空间约束的问题,提出TReF-6:先从单条轨迹几何中优化出“影响点”,再结合VLM和Grounded-SAM把它落到场景中的语义实体上,构造6DoF任务坐标系来重参数化技能。论文报告其在仿真和真实机器人操作中都能把一次示教泛化到新物体位姿与配置,并对轨迹噪声较稳健;但几何推断与预训练视觉模块各自带来的增益,文中未充分说明。

NeuralSVCD for Efficient Swept Volume Collision Detection figure
CoRL 20252025-08-30

NeuralSVCD for Efficient Swept Volume Collision Detection

基础操作

基础操作感知操作非学习控制

面向狭窄容差操作中离散碰撞检测易出现“穿隧”、而现有SVCD又常在精度与速度间折中的问题,NeuralSVCD提出基于编码器—解码器的连续碰撞检测:利用“形状局部性”和“时间局部性”,把物体表示为局部几何潜向量,并先用球近似做宽相筛选,再只对可能接触的局部片段与局部线性轨迹解码,从而减少连续的N²比较并适配GPU并行。实验表明其在碰撞检测精度和运行时间上均优于现有网格/球体基线,接入cuRobo后在三类操作任务中也提升了成功率并缩短规划时间。

Mechanistic Interpretability for Steering Vision-Language-Action Models figure
CoRL 20252025-08-30

Mechanistic Interpretability for Steering Vision-Language-Action Models

VLA

VLA机器人学习

这篇论文针对VLA在真实机器人部署中缺乏可解释性与可控性的问题,提出一种机制可解释框架:将Transformer中FFN的值向量/激活投影到token嵌入空间,识别出“快慢、方向”等稀疏语义方向,并在推理时直接注入激活实现行为转向。文中发现VLA内部表征仍以语义概念为主,少于25%的FFN神经元被明显重映射到动作预测;基于这些概念可在无需微调、奖励或环境交互的情况下,对Pi0和OpenVLA实现零样本行为调控,并在LIBERO仿真和UR5实机上验证。

Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-Top Manipulation figure
CoRL 20252025-08-30

Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-Top Manipulation

视频规划

视频规划世界模型感知机器人学习操作

这项工作针对桌面操作中“泛化依赖大量动作标注、部署又常需专门硬件”的矛盾,提出 GVF-TAPE:先用生成式视频模型根据单张侧视 RGB 图像和任务文本想象未来 RGB-D 过程,再用与任务无关的末端执行器位姿估计器从预测帧中解出 6DoF 轨迹,并在闭环中交给低层控制执行。核心洞察是把“视觉规划”和“动作求解”解耦,从而主要依赖大规模视频预训练与随机探索数据,而非专家示范。摘要称其在仿真和真实场景中以更少任务特定数据达到或超过多类基线,但具体增益来源与幅度在给定材料中未充分说明,判断基于公开摘要/项目页。

Galaxea Open-World Dataset and G0 Dual-System VLA Model figure
arXiv2025-08-30

Galaxea Open-World Dataset and G0 Dual-System VLA Model

VLA

VLA机器人学习数据集/Benchmark

面向VLA缺少高质量开放世界机器人数据、导致真实场景泛化不足的问题,论文发布Galaxea数据集:在统一机器人本体上于真实居住/工作环境采集500小时、150类任务、50个场景,并配有子任务级语言标注;同时提出G0双系统,用VLM做低频规划、VLA做高频闭环执行,并采用跨本体预训练→同本体预训练→任务后训练的三级课程。基准测试表明其在桌面操作、few-shot和长程移动操作上更强,关键洞察是同本体预训练贡献最大,而本体差异过大时跨本体预训练甚至可能带来负迁移。

ConceptBot: Enhancing Robot's Autonomy through Task Decomposition with Large Language Models and Knowledge Graph figure
arXiv2025-08-30

ConceptBot: Enhancing Robot's Autonomy through Task Decomposition with Large Language Models and Knowledge Graph

任务规划

任务规划语言条件

该文针对机器人在开放环境中执行语言指令时,常因指令歧义、物体常识缺失而生成不可执行或不安全计划的问题,提出 ConceptBot:将 ConceptNet 检索到的物体属性与任务概念分别注入场景理解、请求消歧和规划模块,并以轻量级 RAG/CAG 在推理时约束 LLM 做可行且风险敏感的任务分解,无需额外微调。实验中其显式任务成功率达 100%,隐式任务 87%(SayCan 为 31%),风险感知任务 76%(15%),SafeAgentBench 总分 80%(次优 46%)。

Dynamics-Compliant Trajectory Diffusion for Super-Nominal Payload Manipulation figure
CoRL 20252025-08-29

Dynamics-Compliant Trajectory Diffusion for Super-Nominal Payload Manipulation

Diffusion Policy

Diffusion Policy机器人学习操作

论文指出,机器人标称载荷通常按最坏工况统一设定,导致大量工作空间被过度保守地闲置。作者提出用扩散策略直接在关节位置、速度和加速度的联合空间生成受载荷条件约束的轨迹,不再先做几何规划再补动力学筛选,把动力学可行性直接学进生成过程。Franka Panda实验表明,超过标称3倍载荷时仍有67.6%工作空间可达,轨迹约10ms生成且可直接执行,但高载荷成功率受训练分布影响,增益来源仍部分依赖数据覆盖。

UltraTac: Integrated Ultrasound-Augmented Visuotactile Sensor for Enhanced Robotic Perception figure
IROS 20252025-08-28

UltraTac: Integrated Ultrasound-Augmented Visuotactile Sensor for Enhanced Robotic Perception

触觉

触觉音频数据增强感知机器人学习操作

这项工作针对视觉触觉传感器只能在接触后观察表面形变、难以感知材料属性和内部信息的问题,提出将超声与视觉触觉同轴集成的 UltraTac,通过共享结构、声学阻抗匹配和基于触觉反馈的模式切换,把近距探测与接触后材质识别放进同一传感器。实验表明其可在 3–8 cm 范围做接近感知,拟合优度在文中不同位置写为 R²=0.90/0.99,材质分类平均 99.2%,15 类纹理-材料联合识别 92.11%,并已用于同时检测容器表面纹理和内部内容。

SimShear: Sim-to-Real Shear-based Tactile Servoing figure
CoRL 20252025-08-28

SimShear: Sim-to-Real Shear-based Tactile Servoing

触觉

触觉Latent LearningSim2Real机器人学习

论文针对刚体触觉仿真难以表达切向剪切、导致现有方法常需运行时 real-to-sim 转换且策略无法利用 shear 的问题,提出 SimShear:用带剪切向量条件的 shPix2pix 将无剪切仿真触觉图像生成带真实形变的图像,再据此训练姿态/剪切估计网络。实验中其图像翻译和姿态/剪切预测均优于 pix2pix 基线,并在双臂触觉跟踪与协同抬举任务中把接触误差控制在 1–2 mm,说明可在不显式模拟剪切动力学下实现 sim-to-real 触觉伺服。

SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes figure
arXiv2025-08-28

SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

抓取

抓取操作

针对动态场景中“可交互提示”和“低时延抓取”难兼得的问题,SPGrasp将SAMv2扩展到视频抓取:用一次语言、框选或点击提示锁定目标,并通过时空记忆库保存历帧视觉特征、抓取掩码与对象指针,再借助跨帧注意力持续跟踪并输出4-DoF抓取,从而避免逐帧重提示并提升时序一致性。实验显示,其在OCID、Jacquard上分别达到90.6%和93.8%,在GraspNet连续跟踪下为92.0%、73.1 ms/帧,较RoG-SAM时延降低58.5%,真实机器人动态抓取成功率为94.8%。

Rapid Mismatch Estimation via Neural Network Informed Variational Inference figure
CoRL 20252025-08-28

Rapid Mismatch Estimation via Neural Network Informed Variational Inference

基础操作

基础操作操作非学习控制

论文针对被动阻抗控制在抓取未知负载时高度依赖精确动力学、失配会破坏安全与任务执行的问题,提出RME:仅用本体感知,先由神经网络给出末端质量/质心失配先验,再用变分推断快速在线收敛并输出不确定度,且与具体控制器解耦。实机7自由度实验表明,其在静态和动态场景下可约400毫秒适应突发负载变化,并在人员挂篮、持续加减重物时保持任务执行与被动性;但人扰动与模型失配的区分文中仍未充分说明。

Learning Primitive Embodied World Models: Towards Scalable Robotic Learning figure
arXiv2025-08-28

Learning Primitive Embodied World Models: Towards Scalable Robotic Learning

视频规划

视频规划世界模型感知机器人学习操作

论文指出,长时域视频世界模型受限于机器人交互数据稀缺、高维且难采,语言到低层动作的细粒度对齐会迅速恶化。作者提出 PEWM,将复杂操作分解为语义不可再分的短时 primitive,只生成短时视频,并结合 VLM 规划器与起终点热图引导实现闭环串联控制。文中称其在仿真和真实机器人上优于模仿学习、VLA 与常规视频扩散/世界模型,具备零样本组合泛化、抗域偏移和约 4 步 12 FPS 推理;但增益究竟来自 primitive 设计还是数据/蒸馏,文中未充分说明。

EO-1: Interleaved Vision-Text-Action Pretraining for General Robot Control figure
arXiv2025-08-28

EO-1: Interleaved Vision-Text-Action Pretraining for General Robot Control

辅助任务

辅助任务VLA基础模型语言条件感知机器人学习操作

论文针对现有VLA常把动作放在输出末端、难以建模“推理—操作”交错依赖的问题,提出EO-1:以统一decoder同时处理图像、文本、视频和连续动作,在同一因果序列中结合文本自回归与动作流匹配训练,并构建含150万条交错QA与机器人轨迹的EO-Data1.5M。结果上,3B的EO-1在多模态推理基准总体44.8分,LIBERO成功率达98.2%,较OpenVLA-OFT高1.1个百分点;但增益有多少来自方法本身、多少来自数据规模与标注质量,文中未充分拆解。

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification figure
NeurIPS 20252025-08-28

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

VLA

VLA机器人学习

这篇工作针对VLA依赖大规模后训练、现有剪枝往往只优化LLM内部计算却破坏从感知到控制语义连续性的问题,提出受人类多模态协同启发的CogVLA:先用EFA-Routing按指令在视觉编码端聚合压缩token,再用LFP-Routing在语言模型内裁掉与任务无关的视觉token,并以CAtten维持跨模态因果关系与动作序列一致性。实验显示其在LIBERO和真实机器人上分别达到97.4%和70.0%成功率,相比OpenVLA训练成本降低2.5倍、推理时延降低2.8倍。

Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation figure
CoRL 20252025-08-27

Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation

VLA

VLA泛化机器人学习操作

这篇工作针对现有VLA多停留在短时序操作、在长程多步任务中容易因技能串联导致子任务衔接失配和误差传播的问题,提出Long-VLA:在保持统一端到端训练的前提下,将每个子任务划分为移动与交互两阶段,并用阶段感知输入掩码分别突出第三视角移动线索和手眼视角操作线索,从而缓解表示漂移、提升跨子任务兼容性。作者还构建了L-CALVIN基准;实验表明该方法在仿真与真实机器人长程操作上都显著优于已有方法,建立了新的基线。

Impedance Primitive-augmented Hierarchical Reinforcement Learning for Sequential Tasks figure
ICRA 20252025-08-27

Impedance Primitive-augmented Hierarchical Reinforcement Learning for Sequential Tasks

强化学习

强化学习触觉数据增强基础模型机器人学习

论文针对长时序接触操作中“能规划但难以柔顺交互”的缺口,提出将阻抗原语融入分层强化学习:高层选择行为原语,低层输出初始阻抗参数,并在执行过程中用自适应刚度控制器动态调节,结合兼顾位置与顺应性的affordance耦合提升探索效率。实验表明,该方法在抓块、开门、推物和表面清洁等任务上,相比现有方法取得更好的学习效率、原语组合性和成功率,并表现出一定的sim2real迁移能力。

HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation figure
CoRLW 20252025-08-27

HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

移动操作

移动操作灵巧操作操作

针对多源人类手部运动难以稳定迁移到双手灵巧移动操作机器人、且现有方法在高维动作空间与真实环境泛化上不足的问题,HERMES提出统一RL框架,把遥操作仿真、mocap和原始视频中的人类动作转成物理可行的机器人行为,并结合基于深度图的端到端sim2real蒸馏与带闭环PnP定位的导航模块,打通自主移动和灵巧操作。实验表明,该方法可由单段参考动作配合RL学到较强泛化策略,在室内外非结构化场景完成多种复杂双臂灵巧移动操作任务,并取得较高成功率与真实机器人落地效果。

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies figure
arXiv2025-08-27

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

VLA

VLADiffusion Policy语言条件机器人学习

论文针对现有VLA要么按固定自回归顺序解码动作、要么把MLP/连续扩散头外挂到VLM外部,导致信息流割裂与训练目标不统一的问题,提出将离散扩散直接用于动作token解码:把动作分箱成chunk,在统一Transformer内用掩码预测、迭代重掩码和“先易后难”的自适应并行细化生成动作,既保留预训练视觉语言先验,也打破左到右瓶颈。实验中其在LIBERO达到96.3%平均成功率,在SimplerEnv-Fractal上视觉匹配71.2%,在Bridge上总体54.2%,整体优于自回归、MLP解码器和连续扩散基线。

Autonomous Aerial Manipulation at Arbitrary Pose in SE(3) with Robust Control and Whole-body Planning figure
IJRR 20252025-08-27

Autonomous Aerial Manipulation at Arbitrary Pose in SE(3) with Robust Control and Whole-body Planning

空中操作

移动操作空中操作任务规划安全感知操作

针对传统空中机械臂因多旋翼欠驱动而难以在大俯仰/横滚下稳定操作的问题,本文面向可任意姿态悬停的全向空中操作平台,提出几何鲁棒 gRITE 基座控制器与“两步式”全身轨迹优化:先规划末端,再联合求解基座 SE(3) 位姿和机械臂关节,以缓解 SO(3) 非欧空间和高维非凸优化带来的实时性与收敛难题。实验证明系统可在障碍附近无碰完成抓取-拉动任务,基座在接近 90° 甚至 180° 俯仰时仍能稳定悬停,并支持 10Hz 以上在线重规划。

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation figure
ICLR 20262025-08-26

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

VLA

VLALatent Learning机器人学习操作

这篇工作针对机器人操作的非马尔可夫性:仅看当前观测的VLA常会在“按钮是否已按下”等长程任务中丢失时间上下文。MemoryVLA借鉴认知科学中的工作记忆与情景记忆分工,构建同时存储低层感知细节与高层语义概括的知觉-认知记忆库,通过历史检索、门控融合和冗余合并,再用记忆条件扩散策略生成动作。在3类机器人、150多个仿真与真实任务上均优于CogACT和π0,例如Bridge提升14.6点、Mikasa-Robo提升11.8点,真实长程任务提升26点。

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation figure
ICCV 20252025-08-25

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

3D 表征

3D 表征强化学习触觉轨迹生成世界模型机器人学习操作

该文针对现有图像世界模型缺少稳定三维几何与物理一致性、而传统3D重建又难以支撑高效策略学习的问题,提出Gaussian World Model:先把观测提升为3D Gaussian,再用3D Gaussian VAE与潜空间DiT预测受动作驱动的未来场景,使其既能做模仿学习表征,也能充当MBRL神经模拟器。论文在3个域31个操作任务及真实Franka抓放20种变体上验证,仿真平均较SOTA提升16.25%,真实机较典型扩散策略提升30%;但这些增益有多少来自更强3D表征、多少来自scaling/data,文中未充分说明。

FlowVLA: Thinking in Motion with a Visual Chain of Thought figure
arXiv2025-08-25

FlowVLA: Thinking in Motion with a Visual Chain of Thought

辅助任务

辅助任务VLA感知机器人学习

该工作针对VLA世界模型直接做下一帧预测时容易陷入“像素拷贝”、缺少显式运动推理且与下游动作学习目标错位的问题,提出Visual CoT:先预测光流,再生成未来帧,以v_t→f_t→v_{t+1}显式建模动力学,并用共享VQ tokenizer把图像与光流统一进同一自回归Transformer。实验显示,这一设计能产生更连贯、更符合物理规律的长时视觉预测,在多项操作基准和真实机器人上取得SOTA,并显著提升策略微调的样本效率。

4D Visual Pre-training for Robot Learning figure
ICCV 20252025-08-24

4D Visual Pre-training for Robot Learning

3D 表征

3D 表征Diffusion Policy世界模型基础模型感知机器人学习

论文针对机器人预训练长期依赖2D图像、难以学到可迁移3D表征,而大规模3D点云数据又稀缺的问题,提出FVP:将预训练定义为“基于历史点云与动作预测下一帧点云”的条件扩散任务,以时序预测而非对比学习或掩码重建来塑造3D表征,并可插拔到多种点云编码器和策略中。实验表明,FVP在12个真实操作任务上将DP3平均成功率提升28%,对DP3/RISE带来15%–55%的绝对增益,并能进一步增强RDT-1B。

RynnEC: Bringing MLLMs into Embodied World figure
arXiv2025-08-23

RynnEC: Bringing MLLMs into Embodied World

任务规划

任务规划多模态推理语言条件

针对现有MLLM在具身场景中只能粗粒度看图、难以用区域精确指代目标且缺乏连续视频空间感知的问题,RynnEC提出以“区域为中心”的视频模型:在VideoLLaMA3上加入区域编码器与掩码解码器,并用第一视角RGB视频自动生成具身认知数据、构建RynnEC-Bench。结果上,它在对象属性理解、分割和空间推理上达到SOTA,整体优于通用与任务专用模型;但各模块的独立增益文中未充分说明,可能部分来自数据规模与多任务联合训练。

ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver figure
AAAI 20262025-08-23

ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

3D 表征

3D 表征辅助任务VLA机器人学习

论文指出现有VLA在动作预测时视觉注意力常呈分散状态,难以稳定锁定被操作目标,尤其影响杂乱场景和长程操作。ReconVLA把“目标注视区域”重建作为隐式grounding辅助任务,用条件于VLA视觉输出的轻量扩散Transformer重建目标区域,逼迫模型学到更细粒度表征,并配合10万+轨迹、200万样本预训练提升泛化。仿真与真实实验都显示其在精细操作和未见物体泛化上优于显式/CoT grounding;但增益有多少来自重建、多少来自额外数据,文中片段未充分说明。

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing figure
arXiv2025-08-23

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

触觉

触觉机器人学习

这篇工作针对现有VLA几乎只依赖视觉与语言、在接触密集操作中缺乏触觉反馈而容易失效的问题,提出OmniVTLA:用预训练视觉ViT与语义对齐的触觉SA-ViT组成双路径触觉编码器,并借助含56个物体、13.5万三模态样本的ObjTac学习跨传感器统一触觉表征。实机抓取放置中,夹爪成功率达96.9%(较基线+21.9%),灵巧手达100%(+6.2%),且轨迹更平滑、耗时更短;但各部分增益是否主要来自新增数据,文中未充分说明。

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey figure
arXiv2025-08-23

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

VLA

VLA语言条件操作综述

面对传统机器人操作在开放环境中泛化差、且相关研究术语与范式分散的问题,本文系统梳理了基于大VLM的VLA模型。其核心洞察是用“单体式/层次式”统一该领域 taxonomy,并细分单系统、双系统以及借助关键点、可供性、子任务等中间表示来解耦规划与执行的路线。主要结果是汇总了与强化学习、免训练优化、人类视频学习、世界模型的结合方式,整理了数据集与基准,并归纳出记忆、4D感知、高效适配、多智能体协作等后续方向;但作为综述,文中未充分说明统一量化增益。

UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation figure
CoRL 20252025-08-21

UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation

抓取

抓取3D 表征Diffusion Policy安全感知操作

这篇工作面向开放世界抓取中“新物体缺少 CAD 模型、单视角重建又易产生幻觉几何”的问题,提出 UnPose:先用预训练多视角扩散模型从单帧 RGB-D 生成物体的 3DGS 先验,并估计像素级认知不确定性,再据此加权融合后续观测、在位姿图中联合优化,从而持续修正未观测区域并保持全局一致。实验表明,它在零样本 6D 位姿估计和 3D 重建质量上都明显优于已有方法,并已验证到真实机器人操作场景中。

Survey of Vision-Language-Action Models for Embodied Manipulation figure
arXiv2025-08-21

Survey of Vision-Language-Action Models for Embodied Manipulation

VLA

VLA操作综述

这篇综述的动机是:传统模块化机器人在开放环境中存在语义理解与物理执行割裂,难以支撑通用具身操作。文中将VLA发展划分为萌芽、探索、快速发展三阶段,并从模型结构、数据、预训练、后训练和评测五个维度重构领域版图,提出预训练四分类、后训练三分类及真实/仿真/世界模型三类评测框架。主要结论是,Transformer仍是主干,多层多模态VLA已成趋势,但性能增益可能主要来自scaling与数据,真实部署仍受数据异构、持续学习和评测鸿沟限制。

LLM3: Large Language Model-based Task and Motion Planning with Motion Failure Reasoning figure
IROS 20242025-08-21

LLM3: Large Language Model-based Task and Motion Planning with Motion Failure Reasoning

任务规划

任务规划语言条件

该文针对传统TAMP依赖人工设计、领域耦合严重的任务—运动接口,提出用预训练LLM充当统一的高低层桥梁:既生成符号动作序列,也给出连续动作参数,并根据运动规划失败反馈迭代改写计划,特别将失败归纳为碰撞和不可达两类以做定向修正。盒装箱仿真表明,这种失败推理能明显提升求解成功率与参数采样、规划效率,相比随机采样更省查询;实体机械臂实验也验证了方法具备现实可用性。

In-Context Iterative Policy Improvement for Dynamic Manipulation figure
CoRL 20252025-08-20

In-Context Iterative Policy Improvement for Dynamic Manipulation

任务规划

任务规划几何约束规划语言条件操作

论文关注动态操作中隐含物理属性难观测、动力学复杂且数据昂贵,导致传统LLM难靠文本或视觉直接推理。作者提出ICPI:把过往交互、策略参数与执行结果编码进提示,让预训练LLM在上下文中学习“策略改进算子”,迭代输出参数修正,无需微调。仿真与真实机器人多任务结果表明,在不超过300条改进样本的低数据条件下,该方法优于仅靠模型内知识、已有ICL基线和贝叶斯优化,但对特征选择较敏感。

GraspQP: Differentiable Optimization of Force Closure for Diverse and Robust Dexterous Grasping figure
CoRL 20252025-08-20

GraspQP: Differentiable Optimization of Force Closure for Diverse and Robust Dexterous Grasping

抓取

抓取灵巧操作触觉安全操作

这篇工作针对灵巧手抓取数据生成常陷入大包裹抓、且可微指标往往忽略摩擦与真实稳定性的问题,提出 GraspQP:将考虑摩擦锥的力闭包写成可微二次规划能量,并结合按全局能量分布动态拒绝梯度步的 MALA* 采样,减少模式坍缩,鼓励捏取和三指精抓等更细粒度构型。文中报告该方法在抓取多样性与最终稳定性上明显优于现有方法,并发布覆盖 DexGraspNet 5700 个物体、5 种手型和 3 类抓取的大规模数据集。

FBI: Learning Dexterous In-hand Manipulation with Dynamic Visuotactile Shortcut Policy figure
arXiv2025-08-20

FBI: Learning Dexterous In-hand Manipulation with Dynamic Visuotactile Shortcut Policy

灵巧操作

灵巧操作触觉操作

针对手内操作中接触动力学复杂、视觉易遮挡且触觉硬件常缺失的问题,论文提出FBI:区别于把多模态静态拼接,它先从相邻点云的运动流中推断潜在触觉,再用Transformer与视觉特征动态融合,并结合单步shortcut/diffusion策略实现实时控制,同时支持有触觉与纯视觉两种模式。五个任务上,FBI仿真平均成功率达64.7%/66.5%,较此前方法高16.6%/18.4%;真实实验为33.5%/35.0%,也明显高于18.5%的基线。

Action-Constrained Imitation Learning figure
ICML 20252025-08-20

Action-Constrained Imitation Learning

模仿学习

模仿学习机器人学习

这篇工作关注“弱执行器向强专家学”的模仿学习:当学习者动作受限而专家动作空间更大时,直接做BC或给策略加投影层,会因无法复现专家动作而造成占用测度失真。作者据此提出ACIL,并用DTWIL先做轨迹对齐:把受约束示范生成转成基于DTW距离的MPC规划,构造与专家状态轨迹相近但动作可行的替代数据,再进行模仿。文中称其在MuJoCo运动、导航和机械臂任务上较多种基线更稳且样本效率更高;增益有多少来自对齐本身而非数据再生成,判断主要基于公开摘要/首页片段。

Sim-to-Real Dynamic Object Manipulation on Conveyor Systems via Optimization Path Shaping figure
arXiv2025-08-19

Sim-to-Real Dynamic Object Manipulation on Conveyor Systems via Optimization Path Shaping

3D 表征

3D 表征Sim2Real机器人学习操作

面向传送带动态操作中真实示教稀缺、传统方案依赖场景专门化设计的问题,论文构建了可自动生成示教的仿真环境,并尝试仅靠仿真完成 sim2real。其核心洞察是抓取决策更依赖跨域稳定的几何而非外观,因此提出以 RGB-D 彩色点云为输入的 GEM,用外观噪声退火塑造优化路径,并将控制解耦为跟踪与交互两类动作。实验表明该方法可泛化到背景、机器人本体、运动速度和物体几何变化,在真实食堂零测试场景数据下完成超 1 万次餐具回收,成功率达 97.2%。

MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence figure
CoRL 20252025-08-19

MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence

Affordance

Affordance视频规划模仿学习机器人学习操作

这篇工作试图回答:机器人能否像人一样,只看一次人类示范就学会工具操作,并把技能迁移到外形差异很大的同功能新工具上,从而减少昂贵的遥操作数据采集。其核心创新是不再依赖几何/外观相似性做对应,而是用功能点、抓取点和中心点构成“功能坐标系”,去抽象跨工具共享的时空操作模式,再据此完成对齐与轨迹生成。实验显示,MimicFunc可由单个RGB-D人类视频泛化到多种新工具、空间布局、具身和环境,并能进一步生成rollout用于训练视觉运动策略。

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation figure
ICLR 20262025-08-19

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

任务规划

任务规划多模态推理触觉操作

论文针对机器人泛化中的“看见到做到”鸿沟——既缺少具身数据,又难跨本体迁移——提出把 pointing 作为与机器人形态无关的中间表示,将指代定位、空间区域、功能部位和视觉轨迹四类能力统一到同一VLM接口中,并用 Embodied-Points-200K 与两阶段RFT处理“同一任务存在多种合法指点答案”的难题。结果上,3B的 Embodied-R1 在11个空间/指点基准上达到SOTA,零样本在 SIMPLEREnv 成功率56.2%,在8个真实 XArm 任务上为87.5%,较强基线提升62%,且对光照、背景等视觉扰动更稳健。

Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy figure
AAAI 20262025-08-18

Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy

VLA

VLA感知机器人学习

这篇工作指出VLA常把视觉观测放在相机空间、动作却监督在机器人基座空间,导致多视角数据下感知—动作错位、跨机位泛化差。OC-VLA用相机外参把末端执行器位姿转到相机坐标系作为统一预测目标,是一种可插拔、几乎不改架构的标签重定义策略。仿真与真实机器人实验表明,它能加快收敛、提高任务成功率,并改善未见视角下的泛化;但当前给出的材料未充分说明各基线的具体量化提升与增益拆分。

Self-Guided Action Diffusion figure
RSSW 20252025-08-17

Self-Guided Action Diffusion

Diffusion Policy

Diffusion Policy机器人学习

这篇工作针对扩散机器人策略在 action chunk 间难保一致、而双向解码又会随采样数增加而推理过慢的问题,提出 Self-GAD:在每个扩散去噪步利用上一段已选动作作为先验,对当前动作样本施加加权梯度引导,动态平衡复用先验与继续探索。仿真结果表明,它在几乎不增加推理成本下可逼近最优解码,紧采样预算下在动态操作任务中成功率最高提升约70%,单样本设置相对随机采样平均提升约71%。

Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search figure
arXiv2025-08-17

Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search

任务规划

任务规划强化学习VLA触觉机器人学习

这项工作针对预训练VLA在零样本、分布外操作中容易短视决策、出现脆弱或不安全失败的问题,提出VLAPS:把VLA输出当作动作先验和时序动作块提议器,嵌入基于环境模型的MCTS搜索,在推理时用有限计算做前瞻规划。实验在LIBERO上显示,相比直接执行VLA,成功率最高提升67个百分点,小模型也可逼近更大模型表现;但对不完美世界模型和真实机器人迁移,文中未充分说明。

Bimanual Robot-Assisted Dressing: A Spherical Coordinate-Based Strategy for Tight-Fitting Garments figure
IROS 20252025-08-17

Bimanual Robot-Assisted Dressing: A Spherical Coordinate-Based Strategy for Tight-Fitting Garments

可变形物体

可变形物体双臂应用

论文针对紧身衣物袖窿更窄、穿戴中刚度逐步下降、单臂机器人容易卡住的难点,提出双臂协同穿衣策略。核心创新是构建穿衣球坐标系,将方位角作为双臂协同的任务相关特征,并结合肘部角度用GMM/GMR从示教中生成适配不同手臂姿态的轨迹。实验表明该方法能在多种姿态下更稳定地完成紧身衣物穿戴,但文中片段未充分给出相对基线的具体量化增益。

OmniD: Generalizable Robot Manipulation Policy via Image-Based BEV Representation figure
arXiv2025-08-16

OmniD: Generalizable Robot Manipulation Policy via Image-Based BEV Representation

3D 表征

3D 表征Diffusion Policy泛化机器人学习操作

本文针对图像式操作策略易记住固定机位与背景、点云方案又依赖深度和精确标定的问题,提出 OmniD:将多视角单目 RGB 通过可变形注意力的 OFG 融合为统一 BEV,再在该隐式 3D 表征上用扩散策略生成动作,从而突出任务相关区域并抑制视角噪声。论文称其在仿真与实物上均优于基线,ID/OOD/少样本平均增益约为 9–11%、17–33.8%、83–84%;但文中不同段落的数字略有出入,增益是否主要来自表示改进而非训练设定,文中未充分说明。

Fully Spiking Actor-Critic Neural Network for Robotic Manipulation figure
arXiv2025-08-16

Fully Spiking Actor-Critic Neural Network for Robotic Manipulation

机器人学习

机器人学习操作

面向机器人操作中高维控制难、奖励稀疏且部署受算力与能耗限制的问题,论文提出全脉冲Actor-Critic:用仅含输入层和输出层的浅层SNN替代常规网络,并结合按时间进度划分的课程PPO、两阶段动态奖励和优化观测空间,学习9自由度机械臂的到达与抓取。Isaac Gym实验表明,该方法在训练稳定性、成功率和任务表现上优于常规PPO及同深度ANN,同时理论推断的推理能耗降低一个数量级以上;但能耗优势主要来自建模估计,真实硬件上的收益文中未充分说明。

TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models figure
AAAI 20262025-08-15

TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models

VLA

VLA机器人学习

该文针对VLA逐帧独立编码、忽视操作视频强时序冗余且易受光照和模糊噪声干扰的问题,提出无需训练的TTF:用灰度像素差与注意力语义相关性双重检测,按patch在当前token与历史token间做硬融合,并以关键帧重算抑制误差累积。它可直接接入OpenVLA和VLA-Cache,在LIBERO平均提升4.0个百分点、SimplerEnv相对提升4.8%、真实机器人提升8.7%,且表明有选择地复用Query矩阵不仅未伤性能,反而可能带来更优时序建模与缓存效率。

Robot Policy Evaluation for Sim-to-Real Transfer: A Benchmarking Perspective figure
RSSW 20252025-08-14

Robot Policy Evaluation for Sim-to-Real Transfer: A Benchmarking Perspective

泛化

泛化Sim2Real数据集/Benchmark

本文针对机器人通用操作评测长期停留在仿真内、难反映真实部署表现的问题,从 benchmark 角度提出一套 Sim2Real 评估配方:用高保真仿真缩小视觉鸿沟,按 T1-T4 任务复杂度和光照、视角等扰动系统考察鲁棒性,并用成功率、轨迹差异及仿真-真实对齐指标量化可迁移性。主要结果更像基准设计与指标体系,初步落地于 IsaacLab;文中未充分说明大规模真实实验、最终对齐效果及具体增益。

MLM: Learning Multi-task Loco-Manipulation Whole-Body Control for Quadruped Robot with Arm figure
arXiv2025-08-14

MLM: Learning Multi-task Loco-Manipulation Whole-Body Control for Quadruped Robot with Arm

四足操作

移动操作四足操作人形操作操作

这篇工作针对带臂四足机器人难以用单一策略兼顾多种移动操作的问题,把任务统一为末端执行器6D轨迹跟踪,并用真实采集的轨迹库加自适应课程采样来缓解多任务训练失衡;同时提出轨迹-速度预测网络,仅凭历史观测补全未来轨迹和机体速度,提升远距离移动与近距离操作间的执行稳定性。结果上,方法在仿真消融中验证有效,并在Go2+Aibot平台实现多任务全身控制的零样本迁移,但各模块增益的精确来源除消融外文中未充分说明。

Leveraging OS-Level Primitives for Robotic Action Management figure
arXiv2025-08-14

Leveraging OS-Level Primitives for Robotic Action Management

VLA

VLA机器人学习操作

这篇工作不再只从模型结构或数据规模上补 VLA 的短板,而是针对训练数据不足导致的泛化差、动作效率低,提出从操作系统层管理机器人动作。其核心洞察是把连续动作片段视作类似线程时间片的“action slice”,并据此设计 AMS:用动作异常实现即时中断防止错误传播,用动作上下文复用 KV cache/隐状态减少重复推理,用动作回放复用相似环境中的成功经验。仿真与真机结果表明,长程任务成功率提升约 7~24 倍,端到端执行时间减少 29%~74%,且基本无需重新训练模型。

KDPE: A Kernel Density Estimation Strategy for Diffusion Policy Trajectory Selection figure
CoRL 20252025-08-14

KDPE: A Kernel Density Estimation Strategy for Diffusion Policy Trajectory Selection

Diffusion Policy

Diffusion Policy数据筛选机器人学习操作

论文关注 Diffusion Policy 在执行时会因随机去噪和训练离群点产生异常轨迹、把机器人带出示范分布的问题。KDPE 的核心是同一观测下并行采样多条轨迹,再用结合末端位置、姿态与夹爪状态的流形感知 KDE 估计最后一步动作密度,选取最高密度对应轨迹,属于低额外开销的推理时筛选。实验在 7 个仿真任务和 3 个 Franka 真机任务上表明,其成功率整体优于原始 DP,在低质量示范、需高精度和视觉扰动场景下更稳。

GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning figure
ICCV 20252025-08-14

GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning

强化学习

强化学习触觉Flow Matching对象中心感知机器人学习

这篇工作针对视频生成辅助机器人强化学习时易受生成伪影影响、缺少环境反馈且难处理精细接触操作的问题,提出 GenFlowRL:不直接用生成视频做奖励,而是用跨载体演示训练对象中心 flow 生成模型,将生成的关键点运动轨迹转成稠密奖励,并与稀疏状态奖励结合来学习闭环策略。实验在 10 个仿真操作任务和真实机器人跨载体评测中表明,该方法收敛更快,整体优于基于 flow 的模仿学习和视频引导 RL,细粒度操作的稳健性与泛化性更好。

3D FlowMatch Actor: Unified 3D Policy for Single- and Dual-Arm Manipulation figure
arXiv2025-08-14

3D FlowMatch Actor: Unified 3D Policy for Single- and Dual-Arm Manipulation

3D 表征

3D 表征Flow Matching双臂机器人学习操作

这篇工作针对双臂操作中已有3D扩散策略训练慢、推理仅0.5Hz而难落地的问题,将3D Diffuser Actor统一扩展到单双臂,并以Flow Matching替代DDPM,把去噪步数从100步降到5步,同时配合更快采样、精简相机、注意力与数据流水线优化,直接预测稠密末端轨迹。结果上,3DFA在PerAct2达到85.1%成功率,比次优高41.4个百分点,训练由21天缩至16小时、推理升至18.2Hz,并在RLBench-74单臂任务上刷新SOTA。

Reactive Model Predictive Contouring Control for Robot Manipulators figure
IROS 20252025-08-13

Reactive Model Predictive Contouring Control for Robot Manipulators

基础操作

基础操作操作非学习控制

针对机械臂路径跟随在动态避障时常因时间参数化而偏离参考路径、且难同时满足奇异位形、自碰和安全约束的问题,论文提出以路径参数驱动的RMPCC,将控制屏障函数统一纳入MPC以处理外部碰撞、自碰与奇异性,并用基于雅可比的线性化和Gauss-Newton近似加速求解。仿真与7自由度真实实验表明,该方法可在100Hz下应对动态障碍,保持较低轮廓误差和加速度,求解速度约比现有方法快10倍。

Physical Autoregressive Model for Robotic Manipulation without Action Pretraining figure
arXiv2025-08-13

Physical Autoregressive Model for Robotic Manipulation without Action Pretraining

世界模型

世界模型基础模型机器人学习操作

论文针对机器人操作示教数据稀缺、动作预训练昂贵的问题,尝试把自回归视频模型中的“世界知识”直接迁移到控制。其核心是提出 PAR:将图像帧与动作合成 physical token,自回归建模机器人与环境的联合演化,并用基于 DiT 的连续解码与带逆运动学含义的因果掩码,减少离散量化误差、提升动作与视频的一致性。ManiSkill 上,PAR 在 PushCube 达到 100% 成功率,其他任务与动作预训练基线大致相当,但未超过最强方法。

Masquerade: Learning from In-the-wild Human Videos using Data-Editing figure
ICRA 20262025-08-13

Masquerade: Learning from In-the-wild Human Videos using Data-Editing

视频规划

视频规划数据采集数据增强

机器人操作受限于真实演示稀缺,而野外人类视频虽海量却存在明显的人机形态鸿沟。Masquerade的核心洞察是先做数据编辑而非直接混训:估计手部3D姿态、去除人臂,再叠加沿轨迹运动的双臂机器人,把人类视频“机器人化”,并用未来2D机器人关键点预测持续约束视觉表征,再与少量真实机器人示范联合训练扩散策略。结果是在3个双臂长程厨房任务、每任务3个未见场景中,零样本泛化较基线提升约5到6倍。

CaRoBio: 3D Cable Routing with a Bio-inspired Gripper Fingernail figure
arXiv2025-08-13

CaRoBio: 3D Cable Routing with a Bio-inspired Gripper Fingernail

抓取

抓取基础操作可变形物体3D 表征操作

这篇工作针对传统两指夹爪在线缆布线中易打滑、过挤压、且反复抓放效率低的问题,提出受鹰爪启发的“指甲”式夹爪改造,把依赖摩擦的夹持转为带几何钩挂的受力,并利用夹爪行程—接触力耦合实现松抓/紧抓两种模式;在此基础上结合RGBD感知、线缆节点预处理与运动基元规划,实现单次抓取的端到端3D布线。实验称其在多种线缆和槽位配置下显著优于同等感知条件的pick-and-place,但文中未充分说明具体提升幅度。

BEAVR: Bimanual, multi-Embodiment, Accessible, Virtual Reality Teleoperation System for Robots figure
ICCR 20252025-08-13

BEAVR: Bimanual, multi-Embodiment, Accessible, Virtual Reality Teleoperation System for Robots

数据采集

数据采集跨本体双臂遥操作

论文针对现有机器人遥操作系统被特定硬件、私有数据格式和训练链路割裂的问题,提出开源的 BEAVR,用统一 VR 界面把双臂跨本体控制、示教采集与策略学习串成一条链路。其关键在于模块化 detector/operator/interface 设计、零拷贝流式传输与异步 think-act 控制,并将多模态示教直接记录为 LeRobot 格式。结果显示系统可覆盖从 7DoF 机械臂到全身人形体,在普通网络下端到端时延不超过 35ms,并已兼容 ACT、DiffusionPolicy 和 SmolVLA;但各任务成功率细节在给定片段中未充分说明。

Towards Safe Imitation Learning via Potential Field-Guided Flow Matching figure
IROS 20252025-08-12

Towards Safe Imitation Learning via Potential Field-Guided Flow Matching

模仿学习

模仿学习Flow Matching安全机器人学习

这篇工作针对 Flow Matching 模仿学习虽高效却缺乏安全约束、在含障碍环境中易碰撞的问题,提出 PF2MP:从同一批成功示教中一边学习任务策略,一边用密度估计提取与障碍相关的势场,并在推理时用该势场调制流场,从而把“会做任务”和“避开危险”结合起来。实验在仿真与真实机器人、任务空间和关节空间控制上都显示,相比基线能显著降低碰撞率,同时基本保持任务成功率,但方法对势场权重较敏感,且目前主要验证于静态障碍场景。

Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors figure
AAAI 20262025-08-12

Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

抓取

抓取灵巧操作人形操作Affordance操作

论文的出发点是:现有灵巧抓取多追求“抓稳并抬起”,却忽视接触位置是否符合物体功能、姿态是否类人,因而难服务后续操作。AffordDex用两阶段训练把人手运动先验与可供性约束结合起来:先用大规模人手轨迹预训练,再以残差模块适配具体物体,并通过负向可供性分割显式避开刀刃等不当接触区,辅以教师-学生蒸馏提升纯视觉策略。结果显示其在已见、未见实例和新类别上都优于UniDexGrasp系方法,且抓取更类人、更符合功能;但我看到的片段未给出详细数值增益。

T2S: Tokenized Skill Scaling for Lifelong Imitation Learning figure
arXiv2025-08-12

T2S: Tokenized Skill Scaling for Lifelong Imitation Learning

模仿学习

模仿学习泛化

这篇工作针对终身模仿学习里“学新技能会遗忘旧技能、而固定模型又容易容量饱和”的矛盾,提出T2S:把Transformer中的参数映射改写为输入与可学习token的交互,并建立可按语言描述检索的token池,把跨任务可复用知识表示为“原子技能”token。这样新任务主要通过激活共享token并少量增添新token来学习,兼顾扩展性与抗遗忘。在LIBERO三套任务上,其平均NBT仅1.0%、FWT达77.7%,终身学习阶段平均只需训练约8%的token。

SegDAC: Visual Generalization in Reinforcement Learning via Dynamic Object Tokens figure
arXiv2025-08-12

SegDAC: Visual Generalization in Reinforcement Learning via Dynamic Object Tokens

强化学习

强化学习触觉泛化基础模型感知机器人学习

为解决像素级视觉强化学习在测试时遇到纹理、光照、颜色变化就显著失效的问题,SegDAC把输入改为由文本引导分割得到的可变长对象 token 集合,并用带分段位置编码的 Transformer actor-critic 直接学习策略,避免固定 slot、重建损失和辅助目标。消融表明“保留对象空间位置”和“支持变长 token”都不可缺;在 8 个 ManiSkill3 任务、12 类视觉扰动上,相比已有方法在易/中/难设置分别提升 15%/66%/88%,且样本效率接近 DrQ-v2。

Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation figure
arXiv2025-08-12

Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation

任务规划

任务规划人机交互操作

针对长时程协作操作里现有方法常假设固定计划、单向对话和人类始终配合,本文提出 MICoBot,将自然语言混合主动对话与分层任务规划结合:上层根据对话生成协作策略,中层结合仿真预训练的机器人可供性模型和对人类帮忙概率的估计分配步骤,下层执行动作或回应。18名受试者实机实验表明,其任务成功率从LLM基线的28%提升到78%,且78%用户更偏好该系统。

GeoVLA: Empowering 3D Representations in Vision-Language-Action Models figure
arXiv2025-08-12

GeoVLA: Empowering 3D Representations in Vision-Language-Action Models

3D 表征

3D 表征VLA机器人学习

这篇工作针对现有 VLA 主要吃 2D RGB、缺少深度与几何先验,因而在空间感知、视角变化和尺寸/高度变化下容易失稳的问题,提出 GeoVLA:不改坏预训练 VLM 对齐关系,而是并行加入深度转点云分支,用 PEN 提取 3D 表征,再由带模态专属专家的 3DAE 端到端融合视觉语言与几何信息生成连续动作。结果上,它在 LIBERO 比 OpenVLA-OFT 高 2.4%,在 ManiSkill2 比 Dita 高 11%,真实 8 个任务平均成功率 86.3%,较 π0 提升 28.8%,并在高度、尺度和视角变化下更稳健。

Point2Act: Efficient 3D Distillation of Multimodal LLMs for Zero-Shot Context-Aware Grasping figure
arXiv2025-08-11

Point2Act: Efficient 3D Distillation of Multimodal LLMs for Zero-Shot Context-Aware Grasping

抓取

抓取3D 表征语言条件操作

这项工作针对现有语言驱动3D抓取依赖高维特征场、重建慢且对复杂组合描述只能给出模糊2D响应的问题,提出先让MLLM在多视角图像上直接指出任务相关2D点,再蒸馏并聚合成单通道3D相关性场,从而更稳健地处理遮挡、视角变化和细粒度部件/空间语义。实机四个杂乱场景、20条自然语言指令中,其RGB设定下对象/部件/提起成功率达98%/93%/73%,明显优于LERF-TOGO与F3RM,整条从采集到抓取位姿生成的流程耗时16.5秒。

PCHands: PCA-based Hand Pose Synergy Representation on Manipulators with N-DoF figure
Humanoids 20252025-08-11

PCHands: PCA-based Hand Pose Synergy Representation on Manipulators with N-DoF

人形操作

人形操作Latent Learning感知机器人学习操作

这篇工作针对不同形态、不同自由度机械手难以共享数据与策略的问题,提出 PCHands:先用基于锚点的统一手型描述 ADF 表达 2 指夹爪到 5 指灵巧手,再结合 CVAE、末端帧 ICP 对齐和 PCA,学习可变长度的跨平台手部协同潜变量,且首个主成分对应通用“张手”模式。实验显示,它在 5 个灵巧操作 RL 任务上比关节空间基线收敛更快、更稳定,并支持跨机械手示教迁移与一定真实部署能力,但性能增益中各模块的具体贡献文中未充分说明。

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks figure
AAAI 20262025-08-11

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

四足操作

四足操作操作数据集/Benchmark

这篇工作针对开放世界长时程移动操作中“语言规划多停留在桌面场景、复杂物体布局下泛化不足、机动性与末端精度难兼顾”的瓶颈,提出 ODYSSEY:用视觉语言模型驱动的分层规划,在自中心感知下把长指令拆成可执行步骤,并用强化学习的四足全身策略统一越障行走与操控,还构建了首个长时程移动操作 benchmark。结果表明系统可在室内外、多地形任务中实现 sim2real 并保持较强泛化和鲁棒性,但摘要未充分说明具体量化增益来源。

Improving Continuous Grasp Force Decoding from EEG with Time-Frequency Regressors and Premotor-Parietal Network Integration figure
TSMC 20252025-08-11

Improving Continuous Grasp Force Decoding from EEG with Time-Frequency Regressors and Premotor-Parietal Network Integration

抓取

抓取触觉机器人学习

论文针对 EEG 连续抓取力解码精度不足、现有方法过度堆模型而忽视力控制神经机制的问题,提出 EEGForceMap:围绕前运动—顶叶网络做通道与独立成分筛选,并提取 ERP、PSD、ERDS 三类时频特征,再结合线性、非线性和深度回归器预测抓取力。在 WAY-EEG-GAL 的 12 名受试者上,个体内/跨个体 R² 分别达到 0.815/0.785,较已有方法提升 61.7%/55.7%;但数据来自运动执行,向运动想象与康复场景的迁移性文中未充分说明。

GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions figure
AAAI 20262025-08-11

GraphCoT-VLA: A 3D Spatial-Aware Reasoning Vision-Language-Action Model for Robotic Manipulation with Ambiguous Instructions

3D 表征

3D 表征VLA机器人学习操作

面向真实操作中“帮我做道辣味河鲜”这类含糊指令,现有VLA既难依据场景状态做重规划,也缺少对机器人—物体三维关系的显式建模。GraphCoT-VLA把结构化CoT与可实时更新的3D Pose-Object图结合,将场景理解、子任务分解、失败反馈和对未来物体/动作的想象接入端到端控制,并用dropout式混合推理兼顾时延。文中称其在多项真实机器人任务上较基线取得更高成功率和更快响应,但摘要未给出充分量化细节,增益来源判断基于公开摘要。

Fail2Progress: Learning from Real-World Robot Failures with Stein Variational Inference figure
CoRL 20252025-08-11

Fail2Progress: Learning from Real-World Robot Failures with Stein Variational Inference

数据采集

数据采集数据生成

这篇工作针对长时程操作中的技能效果模型一遇到分布外场景就会反复失败、而单次真实失败又不足以直接改好模型的问题,提出 Fail2Progress:先区分符号预测错误与 Sim2Real 缺口,再用 Stein 变分推断并行生成与失败相似且信息增益高的低保真仿真样本,对模型进行定向微调。大规模仿真和真实移动操作实验表明,该方法在多物体搬运、受限货架整理和桌面整理上均优于六个基线,真实成功率约80%,但仍未达到完全可靠。

Constraint-Preserving Data Generation for Visuomotor Policy Learning figure
CoRL 20252025-08-11

Constraint-Preserving Data Generation for Visuomotor Policy Learning

数据采集

数据采集数据生成机器人学习

论文聚焦机器人操作中示教数据昂贵、现有自动扩增多只能处理物体位姿而难适应形状变化的问题。其核心是提出 CP-Gen:把单条专家轨迹拆成自由运动与技能段,并把技能写成“机器人或抓持物体关键点跟踪相对任务物体定义的参考轨迹”约束,据此在采样新几何与新位姿后重求可行关节轨迹并生成示教。基于这些数据训练的闭环视觉运动策略在16个仿真和4个真实任务上平均成功率达77%,优于最佳基线的50%,并实现零样本 sim-to-real 迁移。

COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning figure
CoRL 20252025-08-11

COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning

数据需求量大

数据需求量大数据采集数据增强数据检索机器人学习

论文针对少样本模仿学习中“从大库里挑哪些演示来补数据”这一瓶颈:单一视觉、运动或语言相似度常会检索到语义不符的数据,造成负迁移。COLLAGE 的关键洞察是不同任务依赖的检索线索不同,因此先用多种启发式各自取子集,再依据“用该子集训练的参考策略对目标少量演示的动作似然”自适应赋权,并在训练中做重要性采样融合。其在 LIBERO 10 个任务和 6 个实机任务上均优于检索与多任务基线,文中报告相对最佳基线提升 11.2%/57.4%(绝对口径为 5.1%/16.6%)。

AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies figure
CoRL 20252025-08-11

AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies

感知

感知机器人学习

论文针对现有视觉运动策略虽能从RGB学动作,却缺少末端执行器与物体关系的显式空间锚定,导致对位和抓取不稳。AimBot 的关键做法是不改策略结构,只用深度、相机外参和末端位姿在多视角图像上叠加“瞄准线+准星”,把夹爪位置、朝向与目标表面的关系直接写进像素空间,开销小于1ms。实验表明,它在仿真和真实机器人上都能稳定提升多种VLA/visuomotor policy,尤其对依赖精确空间对齐和长时序操作的任务增益更明显。

AgentWorld: An Interactive Simulation Platform for Scene Construction and Mobile Robotic Manipulation figure
CoRL 20252025-08-11

AgentWorld: An Interactive Simulation Platform for Scene Construction and Mobile Robotic Manipulation

跨本体

跨本体操作数据集/Benchmark

这篇工作针对现有具身仿真常把场景生成、移动操作与数据采集割裂的问题,提出 AgentWorld,将程序化家庭场景构建(布局生成、语义摆放、材质与物理配置)和支持轮式底盘、类人行走的双模遥操作统一到一个平台,并据此构建含150个场景、9000+资产、4种机器人本体、1000+轨迹的数据集。实验以 BC、ACT、Diffusion Policy 和 π0 进行模仿学习,表明其可训练从基础抓放到多阶段家务任务的策略,并在少量真实数据微调后实现一定 sim-to-real,但纯仿真长时任务迁移仍未完全解决。

AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning figure
ICCV 20252025-08-11

AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning

VLA

VLA遥操作感知机器人学习操作

该工作针对视觉机器人操作中机器人多模态数据昂贵且稀缺、现有大规模预训练又与操作任务不匹配或只做隐式视频建模的问题,提出AR-VRM:先在Ego4D上用手部关键点预训练VLM显式学习人类动作,再在微调时检索相似人类视频,并学习“手关键点—机械臂部件”的类比映射来指导动作预测。其在CALVIN上取得SOTA,10%训练数据下成功率由40.0%升至45.6%,未见场景由61.2%升至65.9%;真实机器人也更优,但具体增益文中未充分说明。

Multimodal Spiking Neural Network for Space Robotic Manipulation figure
arXiv2025-08-10

Multimodal Spiking Neural Network for Space Robotic Manipulation

机器人学习

机器人学习操作

面向空间站壁挂机械臂在微重力下易受漂移与转动扰动、且机载算力和能耗受限的操作场景,论文提出多模态脉冲神经网络策略:将几何状态、指尖触觉力与语义线索统一编码,并结合“双通道、三阶段”课程强化学习,使策略从目标接近、接触抓取逐步过渡到稳定提举。Isaac Gym仿真表明,该方法在抓取和提举成功率及训练稳定性上均优于ANN基线,解析能耗估计约降低65.7%;但各模态与课程设计的独立增益来源文中未充分说明。

Collision-Free Trajectory Planning and control of Robotic Manipulator using Energy-Based Artificial Potential Field (E-APF) figure
arXiv2025-08-10

Collision-Free Trajectory Planning and control of Robotic Manipulator using Energy-Based Artificial Potential Field (E-APF)

基础操作

基础操作任务规划操作非学习控制

这篇工作针对传统人工势场在拥挤场景中易陷入局部极小、靠近障碍时产生振荡,且难同时兼顾轨迹平滑与执行时间的问题,提出把位置与速度共同写入机械能势函数的 E-APF,并结合在速度、加速度约束下联合最小化 jerk 与时间的轨迹优化,再用计算力矩控制跟踪。作者在 7 自由度 Kinova Gen3 和 3 个障碍的仿真中得到无碰撞、较平滑、无明显振荡的轨迹,但硬件验证、动态障碍设置及相对基线的增益来源文中未充分说明。

A Hybrid Force-Position Strategy for Shape Control of Deformable Linear Objects With Graph Attention Networks figure
SMC 20252025-08-10

A Hybrid Force-Position Strategy for Shape Control of Deformable Linear Objects With Graph Attention Networks

可变形物体

可变形物体触觉操作非学习控制

针对线缆、导丝等可变形线状物体因自由度高、动力学非线性强且欠驱动而难以稳定整形的问题,论文提出力—位置混合控制:先在固定端受力空间规划状态轨迹,再转成位置路标交由MPC跟踪;其中动力学预测采用含显式动作编码、属性提取和图注意力处理器的EA-PE-GAT模型。仿真与实物实验表明,该方法在形状控制的效率、稳定性和预测精度上优于对比方法,尤其面向较大变形更有效,但公开片段未充分说明具体量化增益。

DexFruit: Dexterous Manipulation and Gaussian Splatting Inspection of Fruit figure
RA-L 20262025-08-09

DexFruit: Dexterous Manipulation and Gaussian Splatting Inspection of Fruit

灵巧操作

灵巧操作3D 表征操作

面向草莓等软水果在采后搬运中“既要抓稳又不能压伤”的矛盾,DexFruit把光学触觉传感接入扩散式模仿学习,在通用平行夹爪上学习更轻柔的抓取;同时提出 FruitSplat,将普通 webcam 视频中的果体与瘀伤 2D 分割蒸馏到 3D Gaussian Splatting,用低成本方式量化操作后损伤。作者在草莓、番茄和黑莓上进行了 630 余次实验,报告 92% 抓取成功率、困难果实成功率最高提升 31%,可视瘀伤下降约 15%;摘要中“20%”与首页数字不一致,增益来源仍待正文核对。

Towards Balanced Behavior Cloning from Imbalanced Datasets figure
arXiv2025-08-08

Towards Balanced Behavior Cloning from Imbalanced Datasets

模仿学习

模仿学习数据采集数据筛选数据集/Benchmark

论文关注机器人模仿学习中演示数据天然长尾、子任务频次不均的问题:标准BC把每个状态动作对等权,因而会系统性偏向高频行为。作者将数据视为多个子策略的混合,从理论上证明这种失衡会导向失衡策略,并分析重加权效果取决于行为难度与期望精度,进一步提出元梯度的数据重平衡方法。实验表明,在不增加采集数据的前提下,重加权普遍提升下游模仿学习与稀有行为泛化,但具体增益幅度在给定片段中未充分说明。

Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation figure
CoRL 20252025-08-08

Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

数据采集

数据采集数据增强数据筛选基础模型数据集/Benchmark

论文想回答一个关键问题:为什么 OXE 这类百万级机器人数据并未带来预期中的跨分布泛化。作者指出瓶颈不只是数据量,而是捷径学习:策略会把视角、背景、纹理等无关因素当成动作线索,这主要由子数据集内部多样性过低、子数据集之间分布割裂共同诱发。基于对 OXE 的特征分析、理论推导和可控实验,文中提出数据采集应提升子集内多样性并增加关键因素重叠;在无法重采数据时,定向机器人数据增强也能在 SIMPLER 和真实环境中减轻 π0 等模型的捷径行为并提升泛化。

Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution figure
NeurIPS 20252025-08-08

Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution

模仿学习

模仿学习Latent Learning安全机器人学习

这篇工作针对行为克隆在机器人操作中易受协变量偏移影响、轻微偏离就会滚雪球式失败的问题,提出 LPB:把专家演示在表征空间中的分布视为隐式“安全边界”,将高保真模仿与 OOD 恢复解耦为仅用专家数据训练的扩散策略和用专家加策略 rollout 训练的潜在动力学模型,并在测试时通过预测未来潜状态、最小化其到专家流形的距离来把动作“拉回分布内”。仿真与真实机器人实验表明,在不依赖人工纠错或额外标注下,LPB 用更少示范即可获得更强鲁棒性,并在扰动场景下优于或匹配基线。

Real-time Iteration Scheme for Diffusion Policy figure
IROS 20252025-08-07

Real-time Iteration Scheme for Diffusion Policy

Diffusion Policy

Diffusion Policy机器人学习

这篇工作针对扩散策略推理慢、必须等整段动作执行后再预测而难以用于高频控制的问题,提出 RTI-DP:将上一时刻预测的动作序列平移后作为下一次去噪的 warm start,只做少量截断去噪,并用 scaling 处理抓取等离散动作;核心洞察是机器人动作在时间上通常连续且变化有界,因此好初始化可替代从纯噪声完整采样。仿真实验表明,该方法无需重训或蒸馏即可显著缩短推理时间,整体表现与全步去噪的 Diffusion Policy 接近,但真实机器人上的增益文中未充分说明。

Learning to See and Act: Task-Aware View Planning for Robotic Manipulation figure
CVPR 20262025-08-07

Learning to See and Act: Task-Aware View Planning for Robotic Manipulation

任务规划

任务规划3D 表征VLA机器人学习操作

这篇工作针对VLA操控中固定机位易遮挡、共享视觉编码器易产生多任务干扰的问题,提出TVVE:先基于重建场景学习任务相关的虚拟视角规划,并在伪环境中训练多视角探索策略,再用TaskMoE按指令、场景与任务动态路由视觉专家,提升对关键目标和操作状态的可见性与任务特化表征。实验表明,该方法在RLBench、作者构建的OOD基准RLBench-OG及真实机器人上都比强基线有更高成功率,对视觉扰动、相机位姿变化和未见指令更稳健。

Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control figure
IF 20262025-08-07

Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control

辅助任务

辅助任务VLA感知机器人学习操作

该文针对现有 VLA 和模仿学习难以把高层语义推理落到精细双臂操作、对物体布局和手臂配置泛化差的问题,提出 GF-VLA:先用香农信息/互信息从人类 RGB-D 示范中筛出任务相关手与物体,构建时序场景图,再与语言条件 Transformer 融合,生成可解释行为树、笛卡尔动作及跨手抓手分配策略。公开摘要显示,其图构建准确率超95%、子任务分割93%,双臂抓取/放置/整体成功率分别达94%/89%/90%,但各模块独立增益来源仍文中未充分说明,判断基于公开摘要。

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation figure
ICLR 20262025-08-07

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

世界模型

世界模型机器人学习操作

论文针对机器人操作中数据采集、训练和评测彼此割裂、迭代慢且难复现的问题,提出统一的视频生成世界模型平台GE:以指令条件扩散模型GE-Base学习多视角时空语义表征,再用轻量GE-Act将潜变量解码为动作,并通过GE-Sim与EWMBench把闭环仿真和评测纳入同一框架。实验称其可在200ms内生成54步力矩轨迹,在AgiBot G1及未见过的Dual Franka、Agilex平台上仅用1小时示教适配就优于若干专用基线;但性能提升有多少来自统一架构、多少来自约3000小时/百万轨迹数据,文中未充分说明。

A Vision-Based Collision Sensing Method for Stable Circular Object Grasping with A Soft Gripper System figure
arXiv2025-08-07

A Vision-Based Collision Sensing Method for Stable Circular Object Grasping with A Soft Gripper System

抓取

抓取软体机器人感知操作

面向圆形物体因曲面与接触面积小而在操作中易受外部碰撞导致失稳的问题,论文设计了带掌心鱼眼相机的三指气动软夹爪,把手指形变和被抓物体纳入同一视野,并结合像素级形变分析与碰撞富集抓取策略,在无显式深度的情况下完成定位并估计碰撞方向与强度。实机实验表明,该系统可近乎瞬时响应外扰,并在闪避测试中较准确地引导机械臂脱离碰撞区域,从而提升圆形物体抓取稳定性。

UniFucGrasp: Human-Hand-Inspired Unified Functional Grasp Annotation Strategy and Dataset for Diverse Dexterous Hands figure
RA-L 20252025-08-05

UniFucGrasp: Human-Hand-Inspired Unified Functional Grasp Annotation Strategy and Dataset for Diverse Dexterous Hands

抓取

抓取灵巧操作Affordance数据集/Benchmark

论文针对现有灵巧抓取数据集偏重稳定抓取、且多依赖昂贵 ShadowHand、难覆盖功能抓取的问题,提出以人手为中介的统一标注框架,把人手关键点/关节到异构机械手的映射写成稀疏矩阵优化,并结合力闭合约束生成更像人、兼顾任务语义与稳定性的抓取;据此构建首个多手型功能抓取数据集 UniFucGrasp,含1108个物体、21类、10万余标注。仿真与真实任务表明其提升了功能操作成功率、抓取稳定性和跨手型泛化,但具体增益幅度在给定材料中未充分说明。

DiWA: Diffusion Policy Adaptation with World Models figure
CoRL 20252025-08-05

DiWA: Diffusion Policy Adaptation with World Models

Diffusion Policy

Diffusion Policy世界模型机器人学习

针对扩散策略用强化学习微调时奖励难沿长去噪链传播、且在线机器人交互代价高的问题,DiWA用少量离线 play 数据先训练并冻结世界模型,再在其潜空间中做 imagined rollout,把去噪过程写成 Dream Diffusion MDP,以完全离线的策略梯度完成适配。结果上,它在 CALVIN 的 8 个任务上均提升表现,并将真实交互需求相对 DPPO 等在线方法降到低几个数量级。

ActionSink: Toward Precise Robot Manipulation with Dynamic Integration of Action Flow figure
arXiv2025-08-05

ActionSink: Toward Precise Robot Manipulation with Dynamic Integration of Action Flow

感知

感知机器人学习操作

论文针对语言驱动操作中“高维观测到低维动作”映射不准、低层控制成为瓶颈的问题,提出ActionSink:把机器人动作重表述为由动作引起的自监督“动作流”,再通过粗到细匹配器迭代检索与去噪,并结合带工作记忆池的动态集成模块,将历史动作流与当前直接估计融合以校正动作。实验中其在LIBERO上达到68%平均成功率,较已有SOTA提升7.9%,在长时程LIBERO-Long上也接近提升8%。

ScrewSplat: An End-to-End Method for Articulated Object Recognition figure
CoRL 20252025-08-04

ScrewSplat: An End-to-End Method for Articulated Object Recognition

任务规划

任务规划3D 表征

论文针对现有可动体识别常依赖已知关节数/类型、深度输入和多阶段流程的问题,提出仅用多视角RGB的端到端方法 ScrewSplat。其关键是把螺旋理论与3D Gaussian Splatting结合,用螺旋轴置信度和高斯的软部件分配,把关节类型、数量与部件分割转成可微联合优化,从而同时恢复几何、运动部件和关节轴。实验表明,该方法在单关节和多关节物体上的几何与运动学识别优于先前方法,并能基于恢复模型实现零样本文本引导操控,但文中也指出其对高自由度物体和超参数β较敏感。

RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models figure
CoRL 20252025-08-04

RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对预训练VLA虽有一定零样本能力、却难像LLM那样通过少量示例快速教会新任务的问题,提出RICL:在不改模型架构的前提下,对现成VLA做后训练,使其能从10–20条新任务演示中检索关键片段并放入上下文,以RAG+ICL方式临场适应。作者将其注入π0-FAST后,在未见物体、新动作和新场景操控上,相比原模型显著提升,且无需参数更新;若再用同批演示微调,成功率还会进一步提高。

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents figure
ICCVW 20252025-08-04

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

任务规划

任务规划程序化规划

这篇工作针对语言生成机器人程序常停留在“一次写对”、缺少执行中监测与纠错的问题,提出 HyCodePolicy:先将指令分解为层级子目标并结合几何操作原语生成代码,再在仿真执行中融合符号日志与 VLM 检查点观察来定位失败原因并定向修补程序。其关键洞察是把策略代码视为可被感知验证、诊断和迭代演化的对象,而非静态计划。在 RoboTwin 上,任务成功率分别由 47.4% 升至 63.9%、62.1% 升至 71.3%,平均收敛迭代由 2.42 降至 1.76。

CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning figure
arXiv2025-08-04

CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning

强化学习

强化学习VLA触觉机器人学习

该文针对VLA用强化学习微调时样本效率低、与动作分块不兼容且真实机器人训练不稳的问题,主张用离线RL替代在线/测试时RL。其核心是提出Chunked RL,把TD/Q学习扩展到动作chunk上,并结合“全参模仿学习迁移骨干+分块离线RL优化策略”的两阶段CO-RFT,在仅30–60条示范下完成从夹爪到灵巧手/新工作空间的适配。实机结果显示,相比监督微调成功率提升57%、周期时间降低22.3%,未见位置上仍有44.3%成功率,但各模块增益拆分文中未充分说明。

VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation figure
ICRA 20262025-08-03

VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation

Flow Matching

Flow Matching机器人学习操作

这篇工作针对流匹配策略虽比扩散更快,却在机器人操作中容易把多峰动作“平均化”,从而在任务选择和避障轨迹上出现犹豫或失败的问题,提出 VFP:先用变分潜变量做模式识别,再以流匹配生成该模式下的动作,并结合 Kantorovich 最优传输做分布级对齐、用 MoE 解码器促进专家分工。论文在 41 个仿真任务和 3 个真机任务上验证,仿真中相对标准流式基线平均提升 49%,高多模态场景最高达 94%,同时保持较快推理和较小模型规模。

Learning to Perform Low-Contact Autonomous Nasotracheal Intubation by Recurrent Action-Confidence Chunking with Transformer figure
IROS 20252025-08-03

Learning to Perform Low-Contact Autonomous Nasotracheal Intubation by Recurrent Action-Confidence Chunking with Transformer

Transformer Policy

Transformer Policy应用

论文面向经鼻气管插管中交叉感染风险高、刚性导管易致黏膜损伤,且现有机器人多只解决内镜导航、未覆盖真正高风险的导管推进阶段的问题,提出自主NTI系统:一方面用嵌入力传感器的假体做安全评估和数据过滤,另一方面提出RACCT,在ACT上加入导管分割、动作—置信度联合输出与循环结构,以处理部分视觉缺失和复杂接触。实验中其成功率与医生相当,但平均峰值插入力降低66%,并全面优于ACT;不过各改动的独立增益来源文中未充分说明。

CLASS: Contrastive Learning via Action Sequence Supervision for Robot Manipulation figure
CoRL 20252025-08-03

CLASS: Contrastive Learning via Action Sequence Supervision for Robot Manipulation

机器人学习

机器人学习操作

这篇论文针对行为克隆在异构示教数据上容易记住单条演示、遇到视角或外观变化就失效的问题,提出 CLASS:先用 DTW 度量未来动作序列相似性,再以相似度加权的 soft InfoNCE 做监督对比学习,把会导向相近后续行为的观测拉近,从而学到更稳健、可组合的操作表征。实验覆盖 5 个仿真和 3 个真实任务,单靠表征做检索控制已具竞争力;在显著视觉偏移下,用 CLASS 预训练的 Diffusion Policy 平均成功率达 75%,其余基线普遍不具竞争力。

Physically-based Lighting Augmentation for Robotic Manipulation figure
arXiv2025-08-02

Physically-based Lighting Augmentation for Robotic Manipulation

数据增强

数据增强泛化操作

论文关注一个被低估但很致命的问题:真实机器人示教采集昂贵,而策略对光照变化又极其脆弱。作者提出 RoLight,用单帧逆渲染先分解场景几何与材质,再做基于物理的重打光,并微调 Stable Video Diffusion 将首帧光照一致地传播到整段示教,从而低成本合成新光照数据。实机在6种未见光照、两项任务共1000次评测中,模仿学习性能提升38.75%;但验证主要限于固定视角和少量任务,广泛泛化仍需更多证据。

Video Generators are Robot Policies figure
arXiv2025-08-01

Video Generators are Robot Policies

视频规划

视频规划世界模型感知机器人学习

论文针对视觉运动策略在分布外场景泛化差、又高度依赖昂贵示教数据的问题,提出 Video Policy:用视频扩散模型先生成机器人执行任务的未来视频,再由小型动作扩散头从其中间特征解码动作并端到端联合训练。核心洞察是,只要生成的视频足够正确,真正承载策略的是视频模型本身,动作头更像执行接口,因此还能吸收无动作视频数据。实验表明其在仿真和真实机器人上都比传统行为克隆更省样本,并更能泛化到新物体、背景和任务。

On-Device Diffusion Transformer Policy for Efficient Robot Manipulation figure
ICCV 20252025-08-01

On-Device Diffusion Transformer Policy for Efficient Robot Manipulation

Diffusion Policy

Diffusion PolicyTransformer Policy机器人学习操作

这篇工作面向移动机器人等算力受限平台上扩散策略难以实时部署的问题,先分析指出主要瓶颈在去噪网络和多步采样,再提出 LightDP,将可恢复性导向的统一剪枝—重训练与一致性蒸馏结合,同时压缩去噪器并减少采样步数。实验表明其在 PushT、Robomimic、CALVIN 和 LIBERO 上可在移动设备实现实时动作预测,并显著降低内存与延迟,真实机器人效果也接近强基线;但具体提速倍数和各模块增益来源在给定材料中未充分说明。

HannesImitation: Grasping with the Hannes Prosthetic Hand via Imitation Learning figure
IROS 20252025-08-01

HannesImitation: Grasping with the Hannes Prosthetic Hand via Imitation Learning

抓取

抓取灵巧操作模仿学习操作

论文针对传统肌电假手在多自由度控制下认知负担高、而基于规则或标注的视觉方法又难覆盖非结构化抓取的问题,提出基于模仿学习的 HannesImitation:构建首个假手抓取演示数据集,并用单一扩散策略结合掌心相机与本体感知,直接学习腕部旋转和手部闭合的协同控制。实机在桌面、货架和人手递交三类任务共450次试验中总体成功率达79.3%,其中递交场景为89.3%,且在非结构化环境中优于基于分割的视觉伺服基线。

villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models figure
ICLR 20262025-07-31

villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

VLA

VLALatent Learning机器人学习

本文的动机是:现有VLA中的潜在动作多靠视觉重建学习,容易忽略夹爪开合、末端旋转等像素变化小却对控制关键的运动,因而难以跨本体迁移。villa-X在LAM中加入预测未来本体状态与动作的proprio-FDM做物理接地,并用联合扩散把潜在动作专家与机器人动作专家耦合,让后者显式条件于前者。实验显示其在SIMPLER和两套真实机器人上优于已有方法,并能零样本生成跨本体潜在计划;但这部分能力可能也受scaling/data影响,文中拆分未充分说明。

XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation figure
arXiv2025-07-31

XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation

数据采集

数据采集遥操作操作

这项工作面向 VLA 训练对大规模高质量机器人示教数据的需求,试图解决现有遥操作在跨设备兼容、部署复杂和延迟较高上的瓶颈。XRoboToolkit以 OpenXR 统一 XR 侧接口,结合低延迟双目视频回传、90Hz 多模态追踪、QP 逆运动学和灵巧手重定向,把头显、手柄与手部追踪较顺畅地映射到机械臂、移动操作机器人和仿真环境。论文在 UR5、ARX R5、Galaxea R1-Lite、Shadow Hand 与 MuJoCo 上验证了精细操作,并展示用采集数据训练出的 VLA 具备较稳健的自主执行能力;但文中未充分说明相对基线的量化增益及其来源。

Policy Learning from Large Vision-Language Model Feedback without Reward Modeling figure
IROS 20252025-07-31

Policy Learning from Large Vision-Language Model Feedback without Reward Modeling

强化学习

强化学习数据采集数据筛选机器人学习

该文针对离线机器人强化学习仍依赖人工奖励、而VLM做奖励建模又易放大幻觉与误差传播的问题,提出PLARE:仅给自然语言任务描述和无标注轨迹,让VLM比较两段视觉轨迹优劣,再用对比式偏好学习直接训练策略,绕开显式奖励模型。文中在MetaWorld和实体机器人操作上达到或超过现有VLM奖励生成方法,但真实任务仍较简单,具体增益有多少来自方法本身而非数据/VLM规模,文中未充分说明。

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation figure
AAAI 20262025-07-31

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

Flow Matching

Flow Matching双臂机器人学习操作

该工作针对机器人高质量示教数据稀缺、且跨本体机器人预训练受形态与动作空间不统一限制的问题,提出H-RDT:先在大规模第一视角人类操作视频及3D手姿上预训练,再通过模块化动作编码器/解码器迁移到双臂机器人,并用flow matching的2B扩散Transformer建模复杂动作分布。实验表明其在仿真和真实场景、单任务/多任务及少样本设定下均优于从零训练、Pi0和RDT,相对从零训练成功率分别提升13.9%和40.5%;但增益可能也部分来自更大规模人类数据预训练。

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance figure
EMNLP 20252025-07-30

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance

VLA

VLA机器人学习

论文针对VLA受大参数VLM骨干和自回归动作解码拖慢推理的问题,首次将投机解码引入机器人动作生成。作者发现直接套用LLM式SD几乎无明显收益,核心原因是动作token更难预测且贪心验证过严,因此提出Spec-VLA,用动作token表征的相对距离来放宽接受条件,在不重训目标VLA的前提下把平均接受长度从2.10提升到2.94,较OpenVLA获得1.22到1.42倍加速,同时任务成功率基本不受影响。

Improving Generalization Ability of Robotic Imitation Learning by Resolving Causal Confusion in Observations figure
arXiv2025-07-30

Improving Generalization Ability of Robotic Imitation Learning by Resolving Causal Confusion in Observations

模仿学习

模仿学习Transformer Policy泛化机器人学习操作

论文指出,机器人模仿学习泛化差的重要原因是“因果混淆”:策略把背景、无关物体等伪相关线索当成动作依据,遇到轻微域偏移就失效。作者提出 Causal-ACT,把因果结构学习嵌入 ACT/Transformer 策略,并从理论上说明不必先学到可分解表征,也能通过对策略干预和候选图优化筛出与动作真正相关的视觉特征。在 Mujoco 的 ALOHA 双臂操作实验中,当训练环境含无关特征、测试时将其移除时,该方法显著优于原始 ACT,且达到或超过域随机化而无需额外示教数据。

Retrieve-Augmented Generation for Speeding up Diffusion Policy without Additional Training figure
arXiv2025-07-29

Retrieve-Augmented Generation for Speeding up Diffusion Policy without Additional Training

Diffusion Policy

Diffusion Policy数据采集数据增强数据检索

论文针对扩散策略采样步数多、推理慢、难以用于实时控制的问题,提出无需额外训练的RAGDP:先用原DP编码器把观测-动作演示建成向量库,推理时检索相似观测对应的专家动作,把它作为中间去噪“跳点”,以更少步数完成采样,并兼容VP/VE扩散模型及DPM++等快速采样器。实验表明其在4到20倍加速下的速度-精度权衡优于基线;20倍时DDPM基线仅保留约16%的原始性能,RAGDP可达约64%,相对CP也高约7%到12%。

MoDeSuite: Robot Learning Task Suite for Benchmarking Mobile Manipulation with Deformable Objects figure
RA-L 20252025-07-29

MoDeSuite: Robot Learning Task Suite for Benchmarking Mobile Manipulation with Deformable Objects

可变形物体

移动操作可变形物体机器人学习操作数据集/Benchmark

针对现有基准多聚焦刚体移动操作或固定机械臂可变形物操作、难以系统评测“移动底盘+机械臂”协同处理可变形物的问题,论文提出 MoDeSuite:首个面向机器人学习的移动可变形物操作任务套件,含 8 个任务,覆盖弹性与塑性物体、轮式与腿式平台,并支持多种观测与动作空间。作者用两类强化学习和两类模仿学习方法做了仿真基准,并将策略直接部署到 Spot 展示一定 sim-to-real 可行性;但文中未充分说明各方法的具体量化差距与增益来源。

FMimic: Foundation Models are Fine-grained Action Learners from Human Videos figure
IJRR 20252025-07-28

FMimic: Foundation Models are Fine-grained Action Learners from Human Videos

任务规划

任务规划多模态推理Affordance视频规划基础模型

FMimic针对现有VLM模仿学习只会产出高层计划、落地仍依赖预定义运动原语,因而难泛化且难做精细操作的问题,提出把人类视频先转成“人-物交互运动”,再用关键点/航点与层级约束直接学习细粒度动作,并通过关键点迁移、迭代比较和接触式优化适配新场景与高精度任务。结果上,单视频已有效,5段视频时显著优于基线,在RLBench多任务、真实操作中分别提升超39%和29%,高精度与长时程任务提升超34%和47%。

Ag2x2: Robust Agent-Agnostic Visual Representations for Zero-Shot Bimanual Manipulation figure
IROS 20252025-07-26

Ag2x2: Robust Agent-Agnostic Visual Representations for Zero-Shot Bimanual Manipulation

强化学习

强化学习触觉安全基础模型双臂感知机器人学习操作

针对双臂操作既依赖专家奖励或演示、又缺少可迁移协同表征的问题,Ag2x2从人类视频中学习“与执行体无关但保留手位置信息”的视觉表示,把物体状态与双手运动模式联合编码,再用该表征驱动强化学习,并可进一步服务模仿学习。在Bi-DexHands与PerAct2的13个任务上,其零样本平均成功率达73.5%,超过多种基线,甚至高于部分使用专家设计奖励训练的策略,在绳索等可变形任务上也表现突出。

Evaluating the Pre-Dressing Step: Unfolding Medical Garments Via Imitation Learning figure
IROS 20252025-07-24

Evaluating the Pre-Dressing Step: Unfolding Medical Garments Via Imitation Learning

灵巧操作

灵巧操作可变形物体模仿学习操作

论文关注辅助穿衣前常被忽略的“预穿衣”步骤:医用罩袍通常以折叠态存放,若不能先稳定展开,后续穿戴很难可靠进行。作者将这一问题形式化为从折叠态到可穿态的过渡,用模仿学习的DMP学习甩动、抖动、扭转等操作原语,并用视觉分类器判别闭合、部分展开和完全展开。实验显示,对已整理过的罩袍,各原语大多一次即可奏效,扭转最好;但对新拆封罩袍,高动态动作效果明显变差,单一原语难以完全展开,和低速/准静态动作组合后才更能改善开口。文中对跨衣物泛化未充分说明。

VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback figure
arXiv2025-07-23

VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback

VLA

VLA触觉机器人学习

该文针对现有VLA只依赖视觉与语言、难以处理接触密集操作中“看不出”的硬度、纹理与接触状态,提出无需微调底座VLA的VLA-Touch:在规划层用预训练触觉-语言模型把触觉转成语义描述,帮助VLM更新操作指令;在控制层用基于扩散的动作细化器结合视觉与低维触觉修正VLA动作。真实机器人实验表明,规划效率最高提升40%,操作成功率最高提升35%,双层触觉也明显优于只在规划或只在控制阶段使用触觉。

Towards Human-level Intelligence via Human-like Whole-Body Manipulation figure
arXiv2025-07-23

Towards Human-level Intelligence via Human-like Whole-Body Manipulation

人形操作

移动操作人形操作操作

这篇工作面向“让机器人像人一样通过全身操作学习日常技能”的动机,试图同时解决硬件能力、示教采集和整身策略学习三件事。作者提出 Astribot Suite:以缆驱双臂+躯干+移动底盘的人形平台,配合 VR 全身遥操作,并用 DuoCore-WB 在 RGB 观测下学习以末端执行器自我中心增量动作为核心的策略,再用 RTG 平滑执行。实验展示其可完成送饮料、收纳猫粮、整理鞋子、扔玩具等六类长程、双手、动态任务;但文中片段未充分说明统一量化对比和各设计的独立增益来源。

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation figure
ICLR 20262025-07-23

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

VLA

VLA语言条件机器人学习操作

这篇工作针对现有VLA在“会理解”与“会操作”之间常需取舍、且动作微调易遗忘原有多模态能力的问题,提出 InstructVLA:把动作生成视为指令跟随的一部分,先用潜在动作查询做动作预训练,再用 MoE 适配在通用VLM语料与65万条VLA-IT交互数据上联合调优,使文本推理与闭环控制可切换协同。结果上,它在 SimplerEnv 上较 SpatialVLA 提升33%,在新建的80任务 SimplerEnv-Instruct 上较微调 OpenVLA 提升96%、较 GPT-4o 辅助动作专家提升29%;但部分增益可能也来自数据规模与联合训练,细致归因文中未充分说明。

Federated Learning for Large-Scale Cloud Robotic Manipulation: Opportunities and Challenges figure
ICMLC 20252025-07-23

Federated Learning for Large-Scale Cloud Robotic Manipulation: Opportunities and Challenges

基础模型

多智能体/多机器人基础模型操作综述

本文针对单机器人在操作任务中数据采集慢、算力受限且数据难共享的问题,讨论联邦学习如何与云—边—端机器人结合,使机器人集群在不上传原始数据的前提下协同训练操作模型。核心洞察是需同时从集中式/去中心化架构、统计与系统异构、通信时延、能耗、安全与信任等维度统一设计云端操作系统。作为综述,其主要结果是梳理该交叉领域的系统框架与研究议程,如聚类FL、联邦大模型、互操作与负责式FL;文中未充分说明统一实验增益或新算法效果。

ERMV: Editing 4D Robotic Multi-view images to enhance embodied agentss figure
arXiv2025-07-23

ERMV: Editing 4D Robotic Multi-view images to enhance embodied agentss

视频规划

视频规划世界模型感知机器人学习操作

这篇工作针对机器人模仿学习高度依赖昂贵的4D多视角时序图像、导致VLA泛化受限的问题,提出ERMV,把“单帧编辑+机器人状态条件”扩展为整段多视角序列增强。其关键在于用EMA-Attn处理运动带来的像素偏移与极线约束、用稀疏时空模块在低算力下扩大编辑窗口,并借助MLLM反馈干预抑制长时误差累积。实验表明,增强后的数据可提升仿真与真实场景中VLA的鲁棒性、泛化和sim-to-real效果,但具体增益幅度在给定片段中未充分说明,判断基于公开摘要。

Confidence Calibration in Vision-Language-Action Models figure
arXiv2025-07-23

Confidence Calibration in Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作关注机器人不仅要会做,还要知道自己多大概率做成;作者首次系统评估VLA的置信度校准,发现任务成功率高并不必然意味着置信度可靠,且校准误差会随执行时刻和动作维度变化。基于此提出指令改写集成与按动作维度的Platt scaling,在3个LIBERO套件、3类VLA上平均将ECE降低20%以上;但结论目前主要来自仿真,真实机器人上的效果文中未充分说明。

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning figure
NeurIPS 20252025-07-22

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

任务规划

任务规划VLA触觉Latent Learning感知机器人学习

这篇工作针对现有VLA端到端从图文直接预测动作、缺少显式推理而难以做长时程规划和环境变化适应的问题,提出 ThinkAct:先让多模态LLM在“目标完成度+轨迹一致性”的视觉奖励下经RL生成具身计划,再把计划压缩为视觉潜变量来条件化下游动作策略。实验表明它在具身推理与机器人操作基准上展现出少样本适应、长程规划和失败后自纠正能力;图示称10-shot LIBERO较OpenVLA提升25.1%,但具体增益来源的拆分文中未充分说明。

Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots figure
arXiv2025-07-22

Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots

VLA

VLA安全感知机器人学习

本文指出VLA机器人若只看任务成功率,会掩盖碰撞、掉落和反复重规划等低质量执行,因此提出面向操作任务的8个不确定性指标和5个质量指标,并对3个VLA模型在4项任务中的908次成功执行进行专家分级标注。结果表明,多项指标与人工判断呈中到强相关,部分指标在缺少可靠oracle时也能区分失败轨迹的质量;同时还揭示π0虽成功率不低,但执行质量明显弱于SpatialVLA。

Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers figure
arXiv2025-07-21

Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers

Transformer Policy

Transformer Policy安全机器人学习

论文动机是现有模仿学习常把整幅图像均匀送入ViT,既算力昂贵又易受背景干扰,而人类操作更依赖注视驱动的中央凹视觉。作者提出GIAVA,用VR同步采集眼动、视角控制与双臂示教,并将注视点用于ViT的中央凹式patch划分,比较“先看后做”的两阶段方案与端到端联合预测。实验表明,该方法在保持或提升部分高精度任务成功率的同时,将视觉token/计算量降约94%,训练提速7倍、推理提速3倍,且对干扰更鲁棒;但性能增益的具体机制文中未充分说明。

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos figure
ICML 20262025-07-21

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

灵巧操作

灵巧操作视频规划VLA基础模型操作

这篇工作针对灵巧操作VLA长期受限于遥操作/仿真数据规模小、泛化差的问题,主张把人手当作“基础操纵器”,先从大规模人类视频学习视觉—语言—动作,再迁移到机器人。核心是物理指令微调:结合物理空间对齐、分部级运动token化,以及整合mocap、VR和RGB视频的UniHand数据管线。公开摘要显示,模型在手部轨迹生成、指令跟随和真实机器人操作上均有提升,并随模型与数据规模继续受益;但具体增益幅度文中片段未充分说明,判断基于公开摘要/项目页。

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper figure
RSSW 20252025-07-20

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper

抓取

抓取触觉机器人学习操作

该文针对“野外”手持示教多依赖视觉、难以处理遮挡与细粒度接触控制的问题,提出便携式视觉-触觉夹爪:在软指上集成柔性压阻触觉阵列与鱼眼相机,并采集约260万对多模态数据。方法上用带交叉注意力的掩码重建预训练,既融合视觉与触觉又保留模态差异,使表征更聚焦真实接触区域。实验显示,在试管抓取插入、移液等精细操作中,该表征能提升样本效率、成功率和抗外界扰动能力,优于仅视觉或简单拼接融合。

Sensor-Space Based Robust Kinematic Control of Redundant Soft Manipulator by Learning figure
arXiv2025-07-19

Sensor-Space Based Robust Kinematic Control of Redundant Soft Manipulator by Learning

软体机器人

软体机器人安全操作

这篇工作针对冗余软体机械臂在未知载荷下易形变、逆运动学又容易把部分气动腔推到饱和,且在狭窄环境中难兼顾可达性与精度的问题,提出SS-ILKC:在传感器空间而非显式模型空间学习控制,并结合开放空间的多目标强化学习、受限空间的稀疏示范GAIL,以及预处理的sim-to-real校准来获得可零样本部署的策略。实验表明,该方法在气动软臂上能在未知载荷和受限空间下实现较准确的轨迹跟踪与物体操作,但摘要未充分说明相对基线的定量增益。

BT-TL-DMPs: A Novel Robot TAMP Framework Combining Behavior Tree, Temporal Logic and Dynamical Movement Primitives figure
arXiv2025-07-19

BT-TL-DMPs: A Novel Robot TAMP Framework Combining Behavior Tree, Temporal Logic and Dynamical Movement Primitives

泛化

泛化

这篇工作针对示教学习在长时程、多阶段操作中,难把高层任务约束稳定传到低层运动、因此难泛化到新环境的问题,提出BT-TL-DMPs:用STL形式化任务与时空约束并自动生成具反应性的行为树,再把STL约束直接融入DMP forcing term优化,在满足约束的同时尽量保留示教得到的动力学特征。仿真和真实机器人长程操作表明,该方法能处理避障、经点、空间与速度限制;但文中未充分说明相对强基线的量化增益来源。

GR-3 Technical Report figure
arXiv2025-07-18

GR-3 Technical Report

VLA

VLA语言条件机器人学习

面向通用机器人在新物体、新环境和长时灵巧任务上泛化不足、示教成本高的问题,GR-3把预训练VLM与基于flow matching的动作生成器结合,并联合网页视觉语言数据、机器人轨迹和少量VR人类轨迹训练,以提升抽象指令理解与低成本迁移能力。实机在泛化抓放、收桌和布料操作中整体优于π0,且对新物体可用每类仅10条人类轨迹完成适配。

EdgeVLA: Efficient Vision-Language-Action Models figure
arXiv2025-07-18

EdgeVLA: Efficient Vision-Language-Action Models

VLA

VLA机器人学习

这篇工作针对 OpenVLA 一类模型难以在 Jetson 等边缘硬件上实时部署的问题,提出 EdgeVLA:在保留 VLM 预训练范式的同时,把末端执行器动作从自回归逐 token 生成改为一次性联合预测,并用 Qwen2-0.5B 这类小语言模型替代大 LLM,配合 SigLIP 与 DINOv2 视觉编码器,将总规模压到约 10 亿参数。文中报告推理速度提升约 6–7 倍、内存占用更低,BridgeData V2 和 OpenX 上训练曲线接近更大的 OpenVLA,但证据主要还是早期训练特性,真实机器人泛化与增益来源文中未充分说明。

Vidar: Generalist Bimanual Manipulation via Foundation Video Diffusion Models figure
arXiv2025-07-17

Vidar: Generalist Bimanual Manipulation via Foundation Video Diffusion Models

视频规划

视频规划Diffusion Policy世界模型基础模型双臂感知机器人学习操作

这篇工作针对双臂操作迁移到新机器人时示教昂贵、端到端像素到动作策略又容易受视角和背景变化干扰的问题,提出将控制拆成“先生成可执行视频,再由动作适配器解码”的 Vidar:用互联网预训练视频扩散模型作先验,在75万条跨三种真实平台的多视角轨迹上做具身持续预训练,并用无需像素标注的 MIDM 学习动作相关掩码来抑制干扰、对齐新机体动作空间。结果是在未见平台上仅用约20分钟示教就超过现有方法,并泛化到新任务、背景和相机布局。

DEMONSTRATE: Zero-shot Language to Robotic Control via Multi-task Demonstration Learning figure
arXiv2025-07-17

DEMONSTRATE: Zero-shot Language to Robotic Control via Multi-task Demonstration Learning

任务规划

任务规划模仿学习操作

这篇工作针对语言驱动机器人控制过度依赖工程师编写 in-context 提示、且执行前难以判断 LLM 幻觉的问题,提出 DEMONSTRATE:不让 LLM 直接生成优化控制问题,而是把任务文本嵌入映射到由逆最优控制从少量机器人示教中学得的代价与约束特征,并用多任务表示学习按构造保证示例任务与目标任务相似,从而实现零样本语言到 MPC 的映射。摘要与片段显示,该方法在桌面操作的仿真与真实机械臂实验中有效,并支持执行前异常评估,但具体性能提升有多少、增益主要来自哪一环,文中片段未充分说明。

The Developments and Challenges towards Dexterous and Embodied Robotic Manipulation: A Survey figure
arXiv2025-07-16

The Developments and Challenges towards Dexterous and Embodied Robotic Manipulation: A Survey

灵巧操作

灵巧操作操作综述

这篇综述的动机是:尽管机械手与具身智能快速发展,机器人灵巧操作仍受高自由度控制困难、数据稀缺和真实交互复杂性制约。文中将机器人操作演进归纳为机械编程、闭环控制和具身智能三阶段,并系统梳理仿真、人示教、遥操作三类数据获取范式,以及模仿学习和强化学习框架。其主要结论是,当前瓶颈集中在多指高质量数据不足、静态学习鲁棒性弱、端到端泛化差,并据此提出触觉遥操作、人类在环和混合决策是后续重点方向。

EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos figure
arXiv2025-07-16

EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos

人形操作

人形操作视频规划VLA操作

这项工作针对机器人示教数据昂贵、难以覆盖复杂双手操作的问题,提出先用第一视角人类视频训练VLA预测人手腕与手部动作,再通过逆运动学和手部重定向映射到人形机器人,并用少量机器人示教微调成策略。作者还构建了含12个任务的Ego Humanoid Manipulation Benchmark。实验显示其在短程与长程双手操作上均优于专用/通用基线,且跨视角与空间位置泛化更好,但具体增益幅度文中未充分说明,可能主要来自更大的人类视频数据规模与多样性。

Object-Centric Mobile Manipulation through SAM2-Guided Perception and Imitation Learning figure
NeurIPS 20252025-07-15

Object-Centric Mobile Manipulation through SAM2-Guided Perception and Imitation Learning

移动操作

移动操作模仿学习对象中心感知操作

论文聚焦移动操作里导航与操作解耦带来的“朝向误差”:底盘接近位姿稍有偏差,模仿学习策略就会机械复现错误动作。作者用SAM2分割目标物和机器人前缘,构造对象—机器人中心表示,并通过gating接入ACT,让策略显式利用相对朝向信息。实机抓放/堆叠实验中,在0°、45°训练角度及22.5°未见角度上,成功率由ACT的70/90/20%提升到100/100/100%,但任务较单一,SAM2与多头动作结构各自带来的增益文中未充分说明。

Enhancing Autonomous Manipulator Control with Human-in-loop for Uncertain Assembly Environments figure
CASE 20252025-07-15

Enhancing Autonomous Manipulator Control with Human-in-loop for Uncertain Assembly Environments

操作

操作数据集/Benchmark应用

面向月面极区塔式太阳能板部署中强弱光交替、松软地形下陷和载荷变化带来的操控失效风险,论文提出自治机械臂与人在环协同框架,将ArUco视觉定位、自适应阈值、力/力矩反馈、数字孪生和单轴顺序运动规划结合。实验表明系统在实验室沙坑中实现100%垂直部署,并在JAXA类月场地发现多轴联动会放大偏移、诱发下陷与锁止失效;改用顺序规划并保留人工接管后稳定性更好,但整体定量增益文中未充分说明。

Vision Language Action Models in Robotic Manipulation: A Systematic Review figure
arXiv2025-07-14

Vision Language Action Models in Robotic Manipulation: A Systematic Review

VLA

VLA操作综述

这篇综述的动机是VLA在机器人操作中发展过快,但架构、数据与仿真平台缺少统一整理,难以判断通用策略真正受益于什么。作者系统梳理了102个VLA、26个基础数据集和12个仿真平台,提出按语义丰富度与多模态对齐度刻画数据、并结合任务复杂度、模态多样性和规模进行比较。主要结论是当前数据版图仍有空白,真实部署仍受可扩展预训练、模块化设计和稳健对齐限制;作为综述,文中未充分说明统一实验增益,结果主要来自文献归纳而非单一基准。

MP1: Mean Flow Tames Policy Learning in 1-step for Robotic Manipulation figure
AAAI 20262025-07-14

MP1: Mean Flow Tames Policy Learning in 1-step for Robotic Manipulation

Flow Matching

Flow Matching机器人学习操作

这篇工作针对机器人操作中“扩散策略效果好但推理慢、Flow方法虽快却常依赖一致性约束”的矛盾,首次把MeanFlow引入3D点云条件策略学习,直接学习区间平均速度,从而用1步前向生成动作轨迹,并避免ODE求解误差;再结合CFG与只在训练时生效的Dispersive Loss,增强轨迹可控性和少样本泛化。实验显示其在Adroit、Meta-World及真实场景中平均成功率分别超过DP3和FlowPolicy 10.2%与7.3%,推理仅6.8ms。

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge figure
NeurIPS 20252025-07-13

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

3D 表征

3D 表征辅助任务VLA机器人学习

这篇工作针对现有VLA把“预测”做成未来图像生成、既冗余又缺少3D与语义先验的问题,提出DreamVLA:不再重建整帧,而是先“做梦”与操作最相关的世界知识——动态区域、深度和DINO/SAM语义,再用分块结构化注意力防止不同知识串扰,并结合扩散式Transformer生成动作。实验上其在CALVIN ABC-D达到4.44平均任务长度,真实机器人成功率76.7%;消融还表明主要增益来自动态区域预测,深度或语义单独使用甚至可能退化。

Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization figure
arXiv2025-07-12

Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization

VLA

VLA触觉泛化机器人学习

这篇工作针对现有VLA擅长“做什么”却难把语义落实为接触中的精细施力这一缺口,提出将视觉、语言、动作与触觉深度融合的Tactile-VLA,并用位置-力混合控制器把“轻轻拿”“用力擦”等语言意图转成可执行的目标力;进一步加入基于触觉反馈的CoT推理来诊断失败并重规划。核心洞察是VLM本身已隐含物理交互常识,只需少量示范把它与触觉传感器连起来,就能在触觉指令跟随、常识性施力和失败后自适应修正上实现跨对象、零样本泛化并优于标准VLA基线,但摘要未充分说明具体量化增益。

Learning Robust Motion Skills via Critical Adversarial Attacks for Humanoid Robots figure
arXiv2025-07-11

Learning Robust Motion Skills via Critical Adversarial Attacks for Humanoid Robots

人形操作

人形操作安全操作

针对人形机器人强化学习控制在长时运行中易受传感/执行噪声和现实扰动影响、导致 sim2real 后稳定性不足的问题,论文提出 SA2RT:在攻击预算约束下学习选择性对抗策略,只对最脆弱的状态与动作施加稀疏扰动,并与运动策略交替优化,避免传统随机扰动把策略训练得过于保守。在 Unitree G1 的感知行走和全身轨迹跟踪中,该方法将复杂地形通过成功率提升约40%,轨迹误差降低约32%,并明显改善长时移动与跟踪稳定性。

CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations figure
arXiv2025-07-11

CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations

3D 表征

3D 表征机器人学习操作

这篇工作针对机器人策略常借助2D基础模型却难以获得稳定3D空间感知、且跨相机视角泛化差的问题,提出CL3R:用点云MAE做3D重建学习几何结构,再以对比学习把点云特征对齐到CLIP等2D基础模型,并通过统一坐标系与多视角点云随机融合缓解视角歧义。文中在MetaWorld、RLBench和真实任务上分别达到81.7%、82.0%和80%,高于对比方法的76.8%、77.0%和61%;增益中各部分占比判断基于公开摘要与首页片段,仍待全文细节验证。

Behavioral Exploration: Learning to Explore via In-Context Adaptation figure
ICML 20252025-07-11

Behavioral Exploration: Learning to Explore via In-Context Adaptation

模仿学习

模仿学习机器人学习

论文关注机器人在新场景中如何像人一样用少量尝试完成有目标的探索,而非依赖随机试错和缓慢在线梯度更新。作者提出 Behavioral Exploration:在离线专家演示上训练长上下文生成策略,将过去观测历史与“覆盖度/探索性”作为条件,使策略在推理时能基于已尝试行为切换到新的、仍属专家分布内的动作。实验表明,该方法在仿真行走、操作和真实机器人抓取中普遍优于标准BC与RL探索基线,真实场景成功率约提升40%,平均少需约2次尝试。

Reinforcement Learning with Action Chunking figure
NeurIPS 20252025-07-10

Reinforcement Learning with Action Chunking

强化学习

强化学习触觉Transformer Policy机器人学习

本文关注离线到在线强化学习在长时程、稀疏奖励机器人操作中“有离线数据却难以形成高效探索策略”的问题。其关键洞察是:最终策略虽可马尔可夫化,但探索阶段更需要时序扩展、连贯的动作技能,因此作者把TD学习直接放到动作块空间,令策略一次生成多步动作、价值函数评估整段动作,并结合行为先验实现更连贯的探索与无偏n步回传。实验显示,QC及其变体在OGBench等6个长程操作任务上同时提升离线性能和在线样本效率,整体优于先前离线到在线RL方法。

EXPO: Stable Reinforcement Learning with Expressive Policies figure
arXiv2025-07-10

EXPO: Stable Reinforcement Learning with Expressive Policies

强化学习

强化学习触觉机器人学习

这篇工作关注在已有离线数据的前提下,如何用在线强化学习稳定微调扩散、flow-matching 等高表达力机器人策略;核心难点是长去噪链让基于 Q 值的梯度难以稳定回传。EXPO 的关键洞察是不直接优化表达式基策略的价值,而是让大基策略继续用更稳定的模仿目标训练,再用一个轻量高斯“编辑策略”对采样动作做局部修正,并在原动作与编辑动作中按 Q 值在线选优,同时用于交互和 TD 备份。文中在 4 个领域、12 个任务上报告平均 2–3 倍的样本效率提升。

Token Bottleneck: One Token to Remember Dynamics figure
NeurIPS 20252025-07-09

Token Bottleneck: One Token to Remember Dynamics

Latent Learning

Latent Learning机器人学习

面向机器人操控这类连续场景理解任务,作者指出现有 MAE 或时序对应方法往往只能学到整帧语义或局部匹配,对“状态压缩+动态建模”都不够,因而对操控增益有限。ToBo 的核心是把参考帧强行压成单个 bottleneck token,再仅用极少目标帧 patch 作为提示去预测后续帧,迫使表征同时保留关键信息并编码时间演化。实验显示,它在视频标签传播、仿真操控/运动和真实机器人迁移上都明显超过静态与动态预训练基线,且在不同模型规模下收益稳定。

Spatial-Temporal Aware Visuomotor Diffusion Policy Learning figure
ICCV 20252025-07-09

Spatial-Temporal Aware Visuomotor Diffusion Policy Learning

3D 表征

3D 表征Diffusion Policy机器人学习

这篇论文针对扩散式模仿学习过度依赖轨迹克隆、难以真正理解场景3D结构与交互时序的问题,提出DP4:从单视角RGB-D重建当前3D Gaussian世界模型,并在训练时结合动作条件预测未来3D场景,把这种3D/4D结构化感知作为扩散策略的条件,而不是只拟合历史动作。实验在17个仿真任务173个变体和3个真实任务上均优于基线,Adroit、DexArt、RLBench成功率分别提升16.4%、14%、6.45%,真实任务平均提升8.6%。

Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic figure
arXiv2025-07-09

Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic

任务规划

任务规划强化学习触觉机器人学习

这篇工作针对学习型MPC常依赖手工代价、且用梯度法或CEM/MPPI规划时容易塌缩到单一解的问题,提出Q-SVMPC:将规划表述为轨迹层面的后验推断,用RL学到的策略作先验、soft Q值作“最优性”似然,并用SVGD对多条候选轨迹做非参数更新;其关键洞察是用soft Q把SAC式价值学习与多模态轨迹优化连接起来。实验显示,它在导航、机械臂操作和真实采果中相较传统MPC、无模型RL及多种学习型MPC更稳、更省样本且更鲁棒。

Goal-Oriented Skill Abstraction for Offline Multi-Task Reinforcement Learning figure
ICML 20252025-07-09

Goal-Oriented Skill Abstraction for Offline Multi-Task Reinforcement Learning

强化学习

强化学习触觉基础模型机器人学习

这篇论文针对离线多任务强化学习中“任务混合数据丰富但跨任务知识难共享”的问题,提出 GO-Skill。其核心洞察是次优轨迹里也包含可迁移的技能片段,因此先用面向目标的状态差表示提取可复用技能,再以向量量化构建离散技能库,并用技能增强缓解通用技能与任务特定技能的数据失衡,最后通过分层策略按技能而非原子动作决策。作者在 MetaWorld 多个机器人操作任务上报告其优于现有离线 MTRL 基线,但具体提升幅度在给定材料中未充分说明。

Is Diversity All You Need for Scalable Robotic Manipulation? figure
T-RO 20262025-07-08

Is Diversity All You Need for Scalable Robotic Manipulation?

数据采集

数据采集数据筛选操作

本文针对机器人操作数据扩展仍停留在“越多越好”、却不清楚哪种多样性真正有效的问题,系统拆解任务、机体和专家三类数据多样性。核心洞察是:任务多样性比单任务示范量更重要,并呈现稳定幂律扩展;跨机体迁移未必依赖多机体预训练,高质量单机体数据经微调也能有效迁移;专家差异中的速度多峰性反而会干扰学习,因此提出分布去偏。实验显示 GO-1-Pro 在预训练和微调阶段更高效,性能提升约15%,相当于2.5倍预训练数据。

FineGrasp: Towards Robust Grasping for Delicate Objects figure
arXiv2025-07-08

FineGrasp: Towards Robust Grasping for Delicate Objects

抓取

抓取安全操作

FineGrasp聚焦语义抓取链路中的薄弱环节:现有6DoF抓取器常在小物体或物体细小部件上提不出可用抓取姿态,导致整条操作流程失败。其核心思路是把抓取性标签先做实例内归一化,避免小目标监督被大物体压制,并结合多尺度注意力、表面法向先验和新增仿真数据进行sim-to-real混合训练。实验表明它在小物体抓取和语义抓取中有显著提升,但摘要未充分说明具体指标,增益也可能部分来自数据扩充。

Fast Bilateral Teleoperation and Imitation Learning Using Sensorless Force Control via Accurate Dynamics Model figure
arXiv2025-07-08

Fast Bilateral Teleoperation and Imitation Learning Using Sensorless Force Control via Accurate Dynamics Model

模仿学习

模仿学习触觉数据采集接触丰富遥操作

这篇工作针对低成本机械臂常用单边遥操作、缺乏力反馈而难以支撑高速和接触丰富数据采集的问题,提出无力传感器的四通道双边遥操作:将辨识得到的精确非线性动力学与基于扰动观测器的速度/外力估计结合,并从频域解释两者带宽耦合,把观测器调参收敛为单一截止频率。实机结果显示,该系统在高速、接触任务中比单边、对称位置和传统简化模型双边控制更稳更准,且把力信息加入示教可提升多项模仿学习任务成功率,但力输出收益具有任务依赖性。

EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow figure
ICCV 20252025-07-08

EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow

视频规划

视频规划跨本体感知机器人学习操作

这篇工作针对机器人操作过度依赖低层动作标注、且对象中心光流难应对遮挡、柔性物体和几乎无位移操作的问题,提出将学习目标从“物体运动”转为“本体中心流”。其核心洞察是显式利用机器人本体运动学,并结合语言/目标图像对齐与基于URDF的动作求解,把无标签视频中的视觉流映射为可执行控制。在Meta-World和真实场景中,相比已有对象中心方法,其在遮挡、柔性物体和非位移任务上的成功率分别提升62%、45%和80%。

VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting figure
arXiv2025-07-07

VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

VLA

VLA机器人学习

这篇工作针对VLA在机器人操作中动作 token 过多、解码慢且历史预测利用不足的问题,提出 VOTE:训练时用单个 <ACT> 表示整段动作并并行预测未来动作,减少 token 化与逐步解码开销;推理时结合当前与过去轨迹做加权投票选动作。实验显示,其在四个 LIBERO 任务上平均比 OpenVLA 高超 20% 成功率,在 WidowX 上比 CogACT 高 7%,并在 Jetson Orin 上实现 39× 加速与 46Hz 吞吐。

PRISM: Pointcloud Reintegrated Inference via Segmentation and Cross-attention for Manipulation figure
RA-L 20252025-07-07

PRISM: Pointcloud Reintegrated Inference via Segmentation and Cross-attention for Manipulation

3D 表征

3D 表征Diffusion Policy感知机器人学习操作

这篇工作针对杂乱场景和多阶段操作中,整体式2D/3D观测难以聚焦任务相关物体、且机器人状态与点云往往只做简单拼接的问题,提出PRISM:先用DBSCAN将原始点云无监督分成对象簇并提取局部几何,再以关节状态作为查询做跨注意力,最后接扩散策略生成连续动作。论文称每任务仅用100条示范,便在仿真中整体超过2D和3D基线,尤其在物体密集场景更稳;真实机器人增益文中未充分说明。

A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation figure
arXiv2025-07-07

A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation

灵巧操作

灵巧操作VLA操作

这篇工作针对灵巧操作中“大模型是否真因多任务预训练而更强”这一争议,构建了基于 Diffusion Policy 的固定架构 LBM,并用仿真+真实机器人、盲测随机 A/B 与 1800 次受控试验的评测流程来尽量隔离预训练效应。结果表明,预训练后的多任务策略在新任务微调时更省数据、平均成功率和分布外鲁棒性更高,且性能随预训练数据规模与多样性提升而上升;但判断基于公开摘要,增益也可能主要来自 scaling/data,而非架构本身。

Wavelet Policy: Lifting Scheme for Policy Learning in Long-Horizon Tasks figure
ICCV 20252025-07-06

Wavelet Policy: Lifting Scheme for Policy Learning in Long-Horizon Tasks

机器人学习

机器人学习

这篇工作针对长时序机器人策略中误差累积、多模态动作和高精度控制难题,把动作与观测序列视为信号处理问题,提出基于 lifting scheme 的可学习 Wavelet Policy:先做多尺度分解,用低频把握长期动作趋势,再用高频逐步补足细节,以 coarse-to-fine 方式生成动作。文中在5个仿真长时域任务上取得优于或可比基线的结果,并优于固定 Haar/DB2 小波方案,但增益有多少来自网络规模或训练设定,文中未充分说明。

Efficient Learning of A Unified Policy For Whole-body Manipulation and Locomotion Skills figure
IROS 20252025-07-06

Efficient Learning of A Unified Policy For Whole-body Manipulation and Locomotion Skills

四足操作

移动操作四足操作操作

面向四足机械臂全身协同控制中“机身姿态决定机械臂可达空间、纯RL又易陷入局部最优”的难题,论文在PPO框架中显式引入机械臂运动学,并设计基于身体姿态—工作空间映射的物理可行性引导奖励,促使策略更早学会弯腿、下蹲等协同姿态,而非只顾先保平衡。该方法已在X20四足平台与Unitree Z1上完成地面抓取、推车、拍摄等实机任务,表现出更高末端跟踪精度和更自然平滑的全身动作,但具体量化增益文中未充分说明。

RwoR: Generating Robot Demonstrations from Human Hand Collection for Policy Learning without Robot figure
IROS 20252025-07-05

RwoR: Generating Robot Demonstrations from Human Hand Collection for Policy Learning without Robot

视频规划

视频规划模仿学习世界模型感知机器人学习

这篇工作针对模仿学习中示教采集依赖真实机器人和熟练遥操作、而纯人手视频又存在人手到夹爪视觉域差的问题,提出 RwoR:用腕戴 GoPro 采集人手演示,再用基于 200 组人手/UMI 夹爪配对数据训练的扩散生成模型把人手画面转换为机器人夹爪演示,并结合姿态提取恢复对应 SE(3) 动作,从而在无机器人参与采集时训练策略。实验表明,其在多项操作任务上的表现与直接用 UMI 手持夹爪采集数据训练相当,说明生成示教确实可用于策略学习,但泛化仍受生成模型训练对象多样性限制。

Dexterous Teleoperation of 20-DoF ByteDexter Hand via Human Motion Retargeting figure
arXiv2025-07-04

Dexterous Teleoperation of 20-DoF ByteDexter Hand via Human Motion Retargeting

灵巧操作

灵巧操作数据采集遥操作

论文针对高自由度灵巧手难以稳定采集高质量示教、且人手与机器手运动学不匹配会增加遥操作负担的问题,提出20-DoF联杆驱动ByteDexter手,以及基于关键向量优化的手部运动重定向,并与FR3组成27-DoF手臂系统。其新型拇指机构和微秒级传动运动学求解支持约100 Hz实时控制,完成了手内转动、重抓取和九物体化妆台整理等长时任务;但判断基于公开摘要/片段,文中未充分说明相对现有方法的定量增益来源。

cVLA: Towards Efficient Camera-Space VLAs figure
CoRLW 20252025-07-02

cVLA: Towards Efficient Camera-Space VLAs

VLA

VLA语言条件感知机器人学习

该文针对 VLA 训练成本高、真实多模态数据难采和评测依赖真机的问题,提出 cVLA:在 PaliGemma2 上微调,用相机/图像坐标系直接预测末端执行器轨迹关键点,而非低层控制,从而降低训练开销并减弱对具体机器人本体的依赖;同时考察深度输入、裁剪、多候选解码与 beam-search-NMS、示范条件生成。模型主要在仿真数据上训练,并在 DROID、ManiSkill 和真实机器人上验证了可执行性与较强 sim-to-real 迁移,但给定材料未充分说明具体量化增益及其来源。

TypeTele: Releasing Dexterity in Teleoperation by Dexterous Manipulation Types figure
CoRL 20252025-07-02

TypeTele: Releasing Dexterity in Teleoperation by Dexterous Manipulation Types

灵巧操作

灵巧操作数据采集遥操作操作

论文针对灵巧手遥操作过度依赖人手姿态重定向的问题:这类方法既受人类可行动作约束,又因人机形态差异易出现自碰撞、接触不合理和抓取不稳。作者提出 TypeTele,把操作先离散为可扩展的灵巧操作类型库,再用 MLLM 检索当前任务所需类型,并以插值映射将人手动作转为该类型下的机器人控制。实验表明,它能完成部分传统重定向难以实现的任务,并提升真实遥操作成功率、数据采集效率和后续模仿学习策略的鲁棒性;但各模块增益拆解文中未充分说明。

S3D: A Spatial Steerable Surgical Drilling Framework for Robotic Spinal Fixation Procedures figure
IROS 20252025-07-02

S3D: A Spatial Steerable Surgical Drilling Framework for Robotic Spinal Fixation Procedures

3D 表征

3D 表征操作应用

针对脊柱固定中刚性钻具难以按理想椎弓根入路进入高骨密度区域、且既有验证缺少真实解剖约束的问题,S3D将改进的同心管可转向钻孔器与7自由度机械臂、光学跟踪及四阶段标定/配准/导航流程整合,并用可调夹持结构兼容不同椎体层级的刚柔钻具,实现先穿透皮质骨导孔、再在椎体松质骨内执行J形转向钻孔。结果表明,该系统已在含皮质骨与松质骨的脊柱体模上完成平面内和离面实验,验证了更接近真实手术流程的可行性,但给定材料未充分说明相对基线的定量增益。

RoboBrain 2.0 Technical Report figure
arXiv2025-07-02

RoboBrain 2.0 Technical Report

任务规划

任务规划多模态推理

该工作针对具身模型在真实环境中的三类瓶颈——空间关系与可供性理解弱、跨阶段时序建模不足,以及难把复杂指令转成稳定推理链——提出RoboBrain 2.0。其核心思路是用视觉编码器+语言模型的异构架构,结合面向空间/时间任务的数据构建与三阶段训练,把感知、推理和规划统一起来。结果上,32B版本在BLINK-Spatial、RoboSpatial、EgoPlan2、Multi-Robot-Plan等空间与时序基准上领先,并超过多种开源和闭源模型;但各模块的独立增益来源文中未充分说明,可能主要来自scaling与数据。

MoIRA: Modular Instruction Routing Architecture for Multi-Task Robotics figure
Neucom 20262025-07-02

MoIRA: Modular Instruction Routing Architecture for Multi-Task Robotics

VLA

VLA机器人学习操作

论文针对通用VLA与传统MoE在多任务机器人中“泛而不精”、路由与专家强耦合且新增专家常需重训的问题,提出架构无关的MoIRA:用任务与专家的文本描述做外部零样本路由,在独立微调的 Gr00t-N1、π0 LoRA专家间选择策略。实验表明其在GR1和LIBERO上整体优于通才模型、与训练式MoE相当,并对指令扰动较稳健,同时分析了显存占用与切换时延的部署权衡。

MISCGrasp: Leveraging Multiple Integrated Scales and Contrastive Learning for Enhanced Volumetric Grasping figure
IROS 20252025-07-02

MISCGrasp: Leveraging Multiple Integrated Scales and Contrastive Learning for Enhanced Volumetric Grasping

抓取

抓取操作

这篇工作针对现有6-DoF体素抓取多偏向包覆式抓取、难适应尺寸差异大且需要捏取的复杂物体这一问题,提出MISCGrasp:用多尺度特征融合同时保留局部几何细节与整体结构,并通过两级Transformer交互高低层特征,再以多尺度对比学习约束正样本表示一致性;同时基于EGAD构建了更富含power/pinch抓取的数据。仿真和真实桌面清障实验中均优于VGN等基线,在强调捏取的设置下清障率较原始VGN提升25.5%。

AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation figure
NeurIPS 20252025-07-02

AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation

移动操作

移动操作多智能体/多机器人Diffusion PolicyTransformer Policy操作

这篇工作针对端到端移动操作中“底盘一动、手臂就受影响”以及不同阶段对2D语义和3D几何需求不同这两个痛点,提出AC-DiT:先用轻量移动策略头提取底盘运动潜变量,再作为先验条件指导整机动作扩散预测;同时按语言相关性自适应重加权多视角图像与点云,让找物更依赖2D、精操作更依赖3D。文中称其在ManiSkill-HAB等仿真和多项真实任务上优于DP、DP3、RDT、ACT、π0等基线,但公开摘要未充分说明具体提升幅度与增益拆解。

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective figure
arXiv2025-07-02

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

VLA

VLA综述

本文针对VLA研究路线分散、动作表示缺乏统一理解而阻碍系统设计的问题,从“动作token化”视角重构领域版图:将VLA统一为视觉/语言经多级模块逐步生成可执行动作的过程,并归纳语言、代码、可供性、轨迹、目标状态、潜表示、原始动作和推理八类token。主要结论是未来更可能走分层混合架构,而非单一token范式;文中未给出统一实验增益,贡献主要在系统综述、优劣比较及对RL、Agent化、数据/硬件/安全方向的判断。

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers figure
ICCV 20252025-07-01

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

VLA

VLALatent Learning机器人学习

本文关注VLA里固定分箱动作离散化对长时程规划和推理效率的限制,提出卷积残差VQ-VAE动作tokenizer,并用较以往大100倍的真实+合成轨迹渐进训练;其关键洞察是动作轨迹的仿真到真实域差小于视觉/物理模态,因此可借助大规模合成数据扩展tokenizer。接入OpenVLA后,文中报告成功率随合成数据规模近线性提升,推理更快、动作更平滑,真实长时程任务最高提升约30%;但判断基于公开摘要/项目页,增益可能主要来自scaling与数据。

TriVLA: A Unified Triple-System-Based Unified Vision-Language-Action Model for General Robot Control figure
arXiv2025-07-01

TriVLA: A Unified Triple-System-Based Unified Vision-Language-Action Model for General Robot Control

VLA

VLA机器人学习

现有 VLA 往往只看单帧或很短历史,因而在动态环境里容易停留在短视、反应式控制。TriVLA 的关键想法是把“情景世界模型”正式引入机器人操作:用三系统统一架构结合预训练 VLM 的语义对齐、视频扩散模型的时序经验累积与未来演化预测,再由策略网络融合机器人状态生成动作块。论文称其在标准基准和真实操作中均优于基线,推理可达约 36Hz,并提升长时程规划与开放指令理解;但判断基于公开摘要,模块拆分后的增益来源与数据规模贡献文中未充分说明。

SonoGym: High Performance Simulation for Challenging Surgical Tasks with Robotic Ultrasound figure
NeurIPS D&B 20252025-07-01

SonoGym: High Performance Simulation for Challenging Surgical Tasks with Robotic Ultrasound

音频

音频操作应用

这篇工作针对机器人超声在解剖重建与术中引导中缺少高保真、可大规模并行训练环境的问题,提出SonoGym:基于患者CT/分割构建、可并行扩展到数十至数百环境,同时支持物理模型和GAN生成的实时超声仿真,并把导航、重建、手术统一成可用于RL/IL训练与评测的任务,引入安全RL和处理历史依赖奖励的submodular DRL。结果表明多类策略能学到有效行为,但在跨病人、噪声变化和更临床化场景下仍有明显局限;具体增益来源不清,判断基于公开摘要/项目页。

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations figure
ICLR 20262025-07-01

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

任务规划

任务规划视频规划模仿学习操作

论文针对机器人视频模仿依赖昂贵实物示教、互联网视频又存在场景/视角域差的问题,提出把与当前场景和语言指令对齐的生成视频直接当作唯一监督:先用视频扩散模型合成演示,再由VLM自动筛掉不符合任务的样本,并通过6D物体位姿跟踪提取轨迹后重定向到机器人。实机四项操作表明,过滤后的生成视频已可比肩真人演示,且视频质量越高成功率越高;同时明显优于VLM关键点规划以及点跟踪、光流等轨迹提取方案,并能迁移到其他机器人平台。

RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation figure
arXiv2025-07-01

RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation

基础操作

基础操作双臂操作数据集/Benchmark

这篇工作针对机器人操作评测过度依赖“是否成功”、难以区分动作质量与失败结构的问题,提出RoboEval:将双臂操作评测从二元成功率扩展为行为指标与结果指标的统一框架,覆盖效率、协同、安全/稳定性,并提供8个任务、系统化变体和3000余条VR专家演示。在多种SOTA视觉运动策略上的实验表明,这些指标在任务变化下较稳定,与成功率相关,且能区分成功率接近但执行质量不同的策略,并定位阶段性失败模式;判断主要基于公开摘要与项目页。

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning figure
NeurIPS 20252025-07-01

HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning

灵巧操作

灵巧操作人形操作数据生成语言条件双臂操作数据集/Benchmark

针对人形机器人双臂灵巧操作缺少可扩展仿真任务与高质量示教、人工遥操作又成本高的问题,HumanoidGen把手部原子操作、物体/手的空间标注、LLM约束链规划与MCTS推理结合,自动生成场景、成功条件和可执行示教。作者进一步构建含20个任务的HGen-Bench;实验表明其示教生成成功率平均超过50%,多数非超长时域任务超过75%,且生成数据越多,2D/3D diffusion policy越强,但策略增益可能主要来自scaling/data。

Geometry-aware 4D Video Generation for Robot Manipulation figure
ICLR 20262025-07-01

Geometry-aware 4D Video Generation for Robot Manipulation

任务规划

任务规划视频规划操作

这篇工作面向机器人操作中“既要预测未来、又要跨视角保持几何一致”的难题,指出仅做RGB视频生成会导致闪烁、形变和视角不对齐。方法上,它在预训练视频扩散模型上联合预测RGB与4D pointmap,并用跨视角pointmap对齐监督学习共享3D场景表示,因此只需每个视角一张RGB-D、推理时不输入相机位姿,也能生成时空一致的未来视频。实验表明,该方法在仿真和真实数据上比基线更稳定、对齐更好,并能借助现成6DoF跟踪器恢复末端轨迹,在未见视角下提升操作成功率。

Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding figure
arXiv2025-07-01

Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding

3D 表征

3D 表征VLA机器人学习

这篇工作针对现有VLA虽有语义能力却缺少3D空间感、在操作中难以稳定判断远近和相对位置的问题,提出Evo-0:不增加深度传感器、也不显式预测深度,而是用现成视觉几何基础模型从多视角RGB中提取隐式几何特征,再以轻量融合模块注入VLM表征。实验覆盖5个仿真任务、5个真实任务和5类扰动评测,均持续优于OpenVLA等强基线,说明隐式3D先验能有效提升空间操作与鲁棒性。

DexWrist: A Robotic Wrist for Constrained and Dynamic Manipulation figure
arXiv2025-07-01

DexWrist: A Robotic Wrist for Constrained and Dynamic Manipulation

基础操作

基础操作操作

作者认为当前机器人操作的瓶颈不只在手爪,更在笨重、高刚度的腕部:串联腕在狭窄空间里常需带动整臂大幅重定位,也难以稳定处理快速、接触丰富任务。DexWrist的关键做法是把准直驱驱动与解耦并联两自由度腕结合,让俯仰/偏航转动中心共点,并实现电机到自由度一一对应,在低惯量、可回驱的同时降低建模与控制复杂度。实验显示其仿真工作空间提升88%,遥操作示教提速1.3–2.2倍,学习策略成功率相对提升50–76%,自主完成时间缩短3–5倍;但具体增益中硬件与数据因素的占比,判断基于公开摘要/首页片段仍不够清楚。

Interactive Imitation Learning for Dexterous Robotic Manipulation: Challenges and Perspectives -- A Survey figure
arXiv2025-06-30

Interactive Imitation Learning for Dexterous Robotic Manipulation: Challenges and Perspectives -- A Survey

灵巧操作

灵巧操作模仿学习操作综述

这篇综述的动机是:真实灵巧操作受高维手部控制、接触多模态、长时程任务、数据稀缺与协变量偏移共同制约,单靠行为克隆或强化学习都难兼顾样本效率与鲁棒性。文中核心洞察是把“人类在线纠错”的交互式模仿学习视为关键缺口,系统串联灵巧手硬件、RL/IL/混合方法,并分析将其他机器人任务中的人机在环纠错迁移到灵巧操作的路径。主要结果不是提出新SOTA,而是明确指出该方向在灵巧操作中应用仍很少、现有方法边界明显;统一量化增益文中未充分说明。

Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation figure
ICRA 20262025-06-30

Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation

视频规划

视频规划VLA世界模型语言条件对象中心感知机器人学习操作

这篇工作针对VLA在零样本操作中受限于成对指令-视觉-动作数据稀缺、且VLM空间推理不准的问题,提出把对象状态作为高低层解耦接口:先用图像生成式VLM生成目标图像,再从单视角RGB-D中配准出目标物体位姿,驱动免训练的低层控制,并用Reflection-through-Synthesis反复检查和修正目标。文中称其在仿真与真实世界的抓放、清扫、瓶子扶正和关盒等任务上优于MOKA、VoxPoser、MolmoAct,且无需任务微调,但本文提供片段未展示具体增益数值。

ParticleFormer: A 3D Point Cloud World Model for Multi-Object, Multi-Material Robotic Manipulation figure
CoRL 20252025-06-29

ParticleFormer: A 3D Point Cloud World Model for Multi-Object, Multi-Material Robotic Manipulation

3D 表征

3D 表征世界模型机器人学习操作

这篇工作针对现有 3D 操作世界模型依赖粒子图结构、对邻接超参数敏感且常需昂贵 3D 重建,难以处理多物体多材料交互的问题,提出基于 Transformer 的点云世界模型 ParticleFormer,并用 Chamfer 距离与近似 Hausdorff 距离组成的混合监督,直接从真实感知点云学习刚体、可变形体和柔性体的细粒度动力学。文中还扩展了多材料基准;在 6 个仿真和 3 个真实实验中,其预测精度、长时 rollout 误差和基于 MPC 的下游操作表现均优于主流基线。

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics figure
NeurIPS 20252025-06-28

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

任务规划

任务规划多模态推理Affordance操作数据集/Benchmark

论文聚焦机器人在复杂3D场景中难以把空间语言落到精确交互点、尤其缺少多步推理的问题。RoboRefer用独立深度编码器提升空间感知,再以SFT+RFT和度量敏感的过程奖励显式分解推理,并配套构建含20M问答的RefSpatial及新基准。结果上,单步空间理解成功率达89.6%,多步基准平均准确率比Gemini-2.5-Pro高17.4%;但摘要未充分拆分提升究竟更多来自方法还是大规模数据。

RoboPearls: Editable Video Simulation for Robot Manipulation figure
ICCV 20252025-06-28

RoboPearls: Editable Video Simulation for Robot Manipulation

视频规划

视频规划数据采集数据增强操作

这篇工作针对机器人操作中“真实示范采集贵、传统仿真改场景麻烦且仿真到现实鸿沟明显”的瓶颈,提出 RoboPearls:先把演示视频用 3DGS 重建为具时序与语义信息的可编辑照片级仿真,再通过 ISD、3D-NNFM 等模块支持换色、改纹理、插删物体和物理扰动,并用 LLM/VLM 串起自然语言编辑与失败分析闭环数据增强。实验显示其在 Colosseum 各扰动上平均提升 17.5%,在 RLBench 的 Stack Cups 和 Put in Cupboard 上分别提升 16.4 和 23.0,也在真实机器人上表现出更强泛化。

Learning Efficient Robotic Garment Manipulation with Standardization figure
ICML 20252025-06-28

Learning Efficient Robotic Garment Manipulation with Standardization

可变形物体

可变形物体操作

这篇工作针对服装展开方法只追求铺展面积、忽视“标准化摆正”而导致后续折叠困难的问题,提出 APS-Net,将双臂 fling 与 pick-and-place 统一到同一策略中,并用覆盖率、关键点距离和 IoU 构造分解奖励,再配合空间动作掩码与肩部优先的动作优化模块,提高展开效率和姿态对齐。仿真中长袖相对现有方法覆盖率提升 3.9%、IoU 提升 5.2%、KD 降低 0.14;真实折叠成功率达 12/15,且可迁移到裤子和裙子。

Hierarchical Vision-Language Planning for Multi-Step Humanoid Manipulation figure
RSSW 20252025-06-28

Hierarchical Vision-Language Planning for Multi-Step Humanoid Manipulation

人形操作

人形操作任务规划操作

论文针对人形机器人虽能完成单一技能、却难以自主衔接多步操作的问题,提出三层层级框架:底层RL做全身运动跟踪,中层用遥操作数据训练模仿学习技能库,高层由预训练VLM按视觉与文本生成技能序列,并在线监控技能是否完成、触发切换。作者在Unitree G1上验证了“先推开障碍、再搬运袋子”的非抓取式任务,40次真实试验整段成功率73%;但文中片段未充分说明规划、监控与技能策略各自带来的增益占比。

RoboEnvision: A Long-Horizon Video Generation Model for Multi-Task Robot Manipulation figure
arXiv2025-06-27

RoboEnvision: A Long-Horizon Video Generation Model for Multi-Task Robot Manipulation

视频规划

视频规划世界模型感知机器人学习操作

这篇工作针对机器人长时程多任务操作中“短视频自回归外推”易累积误差、物体数量或形状不一致的问题,提出先规划再补全的视频世界模型:先用VLM把高层指令拆成原子子任务,生成与子指令对齐的关键帧,再用扩散模型插帧,并通过语义保持注意力注入首帧特征以稳住几何与语义一致性,最后用轻量策略网络从生成视频回归关节动作。文中称其在两个基准上取得更好的视频质量与时序一致性,并在MuJoCo长时程任务上优于以往策略模型。

WorldVLA: Towards Autoregressive Action World Model figure
arXiv2025-06-26

WorldVLA: Towards Autoregressive Action World Model

辅助任务

辅助任务VLA世界模型感知机器人学习

论文动机是弥合VLA“只输出动作”与世界模型“只预测未来视觉”之间的割裂,提出WorldVLA:将图像、文本、动作统一为共享词表token,在单一自回归框架中同时做动作生成和未来图像预测,让动作理解与环境动力学学习相互促进。作者还指出动作chunk按自回归逐步生成会发生误差累积,并用选择性屏蔽历史动作的attention mask缓解。LIBERO上其抓取成功率较同骨干动作模型提升4%,视频生成FVD较纯世界模型降低10%,mask策略再带来4%到23%的抓取增益;但这些增益与分辨率/预训练规模的相对贡献,文中未充分拆解。

Robotic Manipulation Framework Based on Semantic Keypoints for Packing Shoes of Different Sizes, Shapes, and Softness figure
RAS 20252025-06-26

Robotic Manipulation Framework Based on Semantic Keypoints for Packing Shoes of Different Sizes, Shapes, and Softness

感知

感知机器人学习操作

这篇工作面向物流中鞋类成对装箱这一难题:鞋子形状不规则、可形变且初始朝向任意,单次抓取往往无法直接达到标准装箱位姿。作者的关键做法是用语义关键点结合几何特征推断鞋的尺寸、状态、姿态与操作点,并针对不同状态设计软夹爪重定向原语,额外利用盒边接触与重力实现更快的顶面状态翻转,再由任务规划器联合决定双鞋的转换与放置顺序。实物实验表明该框架在多种鞋型上具有较好的鲁棒性与装箱有效性,但摘录中未充分说明相对基线的具体量化增益。

Knowledge-Driven Imitation Learning: Enabling Generalization Across Diverse Conditions figure
IROS 20252025-06-26

Knowledge-Driven Imitation Learning: Enabling Generalization Across Diverse Conditions

模仿学习

模仿学习泛化机器人学习

这篇工作针对模仿学习在少量示教下容易绑定具体物体、遇到新物体和环境就失效的问题,提出把外部结构语义知识显式注入策略学习:先用语义关键点图构造类别级知识模板,再用兼顾语义相似与结构一致性的粗到细模板匹配,把不同实例对齐到稳定的低维表示上供策略学习。实机三项操作任务中,该方法在新物体、背景和光照变化下都更稳健,并以约四分之一示教数据超过图像式Diffusion Policy。

UniVLA: Unified Vision-Language-Action Model figure
ICLR 20262025-06-24

UniVLA: Unified Vision-Language-Action Model

VLA

VLA语言条件机器人学习

论文针对现有VLA多沿用“先理解图像、再映射动作”的语言中心范式,难以利用视觉中的时序与因果结构,提出UniVLA:把视觉、语言和动作统一离散为共享词表中的token,并以观测—动作交错的自回归序列联合建模,再用视频世界模型后训练吸收环境动态,提升长程策略学习。其在CALVIN、LIBERO和SimplerEnv-Bridge上刷新SOTA,LIBERO平均成功率95.5%,明显高于π0-FAST的85.5%,并展示到ALOHA与自动驾驶的迁移性。

T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with Vision-Language Models figure
arXiv2025-06-24

T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with Vision-Language Models

任务规划

任务规划程序化规划操作

这篇工作针对 VLM 机器人操作里“所有任务都用同一种空间表示提取”的低效与失配问题,提出 T-Rex:让模型按任务阶段和对象需求,自适应选择点、向量或 6D pose 等表示,并用 CoG 逐步落地指令、只在必要时调用更细粒度工具。核心洞察是任务复杂度决定表示类型与粒度,而表示能力越强通常成本越高。文中消融显示该设计将成功率提升到 60.7%,高于去掉 CoG 的 52.1% 和固定提取器的 30.7%/55.0%,同时保持可接受时延,且无需额外训练。

Robotic Perception with a Large Tactile-Vision-Language Model for Physical Property Inference figure
CLAWAR 20252025-06-24

Robotic Perception with a Large Tactile-Vision-Language Model for Physical Property Inference

可变形物体

可变形物体触觉感知机器人学习操作

这项工作面向机器人在接触前后判断物体硬度、弹性和粗糙度的需求,试图弥补纯视觉缺少材料信息、纯触觉又必须接触且观测局部的矛盾。作者将目标图像、触觉序列和语言提示接入 Vicuna 式多模态模型,并用分层特征对齐与按属性设计的结构化提示,把推理拆成识别、材质分析和量化评分。论文在35个多样物体上报告了优于基线的结果和较强零样本泛化,但提示工程与融合结构各自贡献多大,文中未充分说明。

ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model figure
IROS 20252025-06-24

ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model

3D 表征

3D 表征世界模型双臂机器人学习操作

该工作针对双臂操作中两臂与目标物体耦合复杂、单臂版 ManiGaussian 难以建模多体时空动力学的问题,提出 ManiGaussian++:先用任务导向的 Gaussian Splatting 区分执行臂和稳定臂,再以 leader-follower 分层高斯世界模型做未来场景预测,分别建模稳定臂引起的形变及执行臂带来的物理后果。论文报告其在 10 个仿真任务上较现有方法提升 20.2%,在 9 个真实任务上平均成功率 60%;但文中还出现 131.17% 的相对增幅口径,二者差异未充分说明。

Is an object-centric representation beneficial for robotic manipulation? figure
ROBOVIS 20252025-06-24

Is an object-centric representation beneficial for robotic manipulation?

泛化

泛化对象中心操作

论文聚焦机器人操作在多物体、光照/背景与干扰变化下泛化不足的问题,核心做法是构建高随机化的 RoboShape 三类桌面任务,并把 SAVi 对象槽作为冻结视觉骨干接入行为克隆 Transformer,在单视角、无本体状态设置下与多种整体表征对比。结果显示,面对未见干扰颜色、背景颜色和干扰物尺寸时,对象中心表示在复杂场景更稳健、传统全局向量更易失效;但收益究竟来自对象分解本身还是训练设定,文中未充分说明。

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning figure
ICRA 20262025-06-24

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Diffusion Policy

Diffusion Policy机器人学习操作

这篇工作针对扩散策略在机器人操作中训练低效、每个任务都要重新学习平移与旋转等空间先验的问题,提出混合式 hPGA-DP:用带几何归纳偏置的 P-GATr 做状态编码与动作解码,把更擅长噪声预测的 U-Net/Transformer 保留为扩散去噪主干,以规避纯 P-GATr 直接去噪时收敛过慢。仿真和真实机器人实验表明,它相比标准扩散策略及纯 P-GATr 收敛更快、任务表现更好,训练效率也更高。

CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation figure
AAAI 20262025-06-24

CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation

VLA

VLALatent Learning机器人学习操作

这篇工作针对现有VLA多依赖单帧输入、既难利用历史运动线索又难在直接堆多帧时兼顾算力与时延的问题,提出CronusVLA:先做单帧动作token预训练,再以可学习连续特征替代离散token,并用feature chunking、跨帧解码与缓存队列聚合历史信息,在基本不改VLM范式下获得多帧建模能力。实验中其在SimplerEnv达70.9%,LIBERO较OpenVLA提升26.8%,并在SimplerEnv-OR上取得最高鲁棒性分数。

Block-wise Adaptive Caching for Accelerating Diffusion Policy figure
ICLR 20262025-06-24

Block-wise Adaptive Caching for Accelerating Diffusion Policy

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作针对 Diffusion Policy 去噪步数多、难以满足机器人实时控制的问题,发现不同时间步之间的动作特征冗余并不均匀,且自注意力、交叉注意力和 FFN 各块的相似性模式不同,于是提出块级自适应缓存 BAC:用动态规划为每个块选择缓存更新时间,并用 Bubbling Union Algorithm 抑制 FFN 引起的跨块误差传播。在多项机器人基准上,它作为免训练插件可在几乎不掉性能的前提下带来最高 3 倍推理加速。

AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation figure
CVPRW 20252025-06-24

AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation

Affordance

Affordance3D 表征Diffusion Policy机器人学习操作

这篇工作针对双臂机器人在高度随机化场景中的三类痛点——杂乱感知歧义、多任务共享表示互相干扰、长时序动作预测低效——提出 AnchorDP3。其关键做法是把仿真渲染语义转成点云中的可供性先验,并用任务条件编码器共享扩散动作专家,再将稠密轨迹改为由可供性锚定的稀疏关键位姿,同时联合监督关节角与末端位姿。方法在 RoboTwin 上平均成功率达 98.7%,并获挑战赛仿真赛道第一;但各模块相对增益文中未充分说明,可能也部分来自大规模程序化仿真数据。

CUPID: Curating Data your Robot Loves with Influence Functions figure
CoRL 20252025-06-23

CUPID: Curating Data your Robot Loves with Influence Functions

数据需求量大

数据需求量大数据采集数据筛选

机器人模仿学习常受示范数据质量与组成制约,但单条示范究竟提升还是拖累闭环表现很难判断。CUPID将数据筛选定义为“示范对策略期望回报的影响估值”,用影响函数近似估计每条轨迹在评测 rollout 中对回报的因果贡献,因此既能剔除有害旧数据,也能优先选择最有价值的新数据。实验表明,在 RoboMimic 上仅用不到 33% 的筛选数据即可达到 SOTA 扩散策略,并在真实机任务中更稳健地识别抗分布偏移策略、削弱伪相关并提升后训练效果。

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation figure
arXiv2025-06-22

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

基础操作

基础操作Sim2Real安全双臂操作数据集/Benchmark

论文针对现有双臂操作合成数据难以规模化生成新任务、场景过于干净而导致 sim2real 脆弱的问题,提出 RoboTwin 2.0:以 731 个物体库为基础,用 MLLM+仿真闭环自动生成并修复任务代码,并在杂乱、光照、背景、桌高和语言五轴做结构化随机化,覆盖 50 个任务与 5 种机体。结果上,代码生成成功率提升 10.9%,合成数据配合 10 条真机演示可让 VLA 相对 10-demo 基线提升 367%,纯合成零样本也提升 228%;从公开摘要看,增益可能主要来自 scaling/数据与随机化叠加。

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models figure
NeurIPS 20252025-06-21

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

任务规划

任务规划辅助任务VLA机器人学习

这篇论文的动机是:现有VLA常把性能提升归因于“先规划再执行”,但范式、表示和训练数据同时变化,导致增益来源一直说不清。作者提出统一框架VLA-OS,在尽量固定骨干与数据的前提下,对ActionOnly、Integrated、Hierarchical三类VLA,以及语言、视觉、目标图像等规划表示做受控对比。结果表明,视觉落地的规划表示普遍优于纯语言表示;Hierarchical-VLA在成功率、泛化、持续学习和预训练收益上通常最好或不差,但训练与推理更慢,且当前主要瓶颈更像是低层策略学习而非高层规划。

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models figure
CoRL 20252025-06-21

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

VLA

VLA机器人学习

针对VLA在非结构化真实场景中常见的抓取不准、任务推进失败等问题,论文研究部署阶段能否像LLM一样通过增加测试时算力提升鲁棒性。其核心洞察是:跨多种VLA,动作误差会随候选动作数增加而近似按幂律下降;据此提出RoboMonkey,用少量动作采样结合高斯扰动与多数投票构造候选,再由基于合成偏好数据训练的7B VLM验证器选优。仿真与真机结果显示,OOD任务绝对提升25%,IID任务提升9%,迁移到新机器人时联合微调验证器比仅微调VLA再增7%。

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models figure
arXiv2025-06-21

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

强化学习

强化学习VLA触觉机器人学习

这篇工作关注VLA参数大、推理慢,难以上机器人端部署的问题。作者先系统比较量化、剪枝、蒸馏在VLA上的适用性,再提出RLRC三阶段压缩流程:对LLM部分做结构化剪枝,用SFT+RL恢复甚至提升操控性能,最后以后训练量化进一步降耗。结果显示其内存最高降至原来的1/8、吞吐提升2.3倍,任务成功率可持平或超过原模型,并优于常见压缩基线;但具体RL奖励设计与各阶段增益拆分文中未充分说明。

Imitation Learning for Active Neck Motion Enabling Robot Manipulation beyond the Field of View figure
arXiv2025-06-21

Imitation Learning for Active Neck Motion Enabling Robot Manipulation beyond the Field of View

模仿学习

模仿学习泛化操作

作者针对固定视角模仿学习难以处理视野边缘乃至视野外目标的问题,提出带主动颈部控制的示教采集系统与相应学习模型,在尽量减轻遥操作动态视角不适的同时,把颈部运动纳入操控策略。实验显示,在视角持续变化下任务成功率仍约90%,且当目标位于视野边缘或视野外时明显优于不含颈部运动的基线;但性能增益究竟主要来自数据采集设计还是模型结构,文中未充分说明。

Dex1B: Learning with 1B Demonstrations for Dexterous Manipulation figure
RSS 20252025-06-20

Dex1B: Learning with 1B Demonstrations for Dexterous Manipulation

抓取

抓取灵巧操作模仿学习操作数据集/Benchmark

论文认为灵巧手操作长期受限,关键不只是控制难,而是缺少足够大且多样的示范数据。作者以少量优化得到的高质量种子数据为起点,用加入几何约束、条件控制和去偏采样的生成模型迭代扩充,构建了覆盖抓取与关节操作的 Dex1B(6K物体、10亿示范),并配套提出简单基线 DexSimple。结果上,其在仿真抓取合成上较此前最佳提升22%,且展示了直接 sim-to-real 的真实机器人效果;但性能增益可能主要来自 scaling / data,方法与数据各自贡献文中未充分说明。

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections figure
NeurIPS 20252025-06-20

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections

数据采集

数据采集接触丰富操作

这篇论文聚焦真实世界接触丰富操作中 DAgger 难落地的问题:人工接管式纠错会偏离原策略分布,还会带来力的不连续,新增数据也未必能高效更新策略。作者提出 CR-DAgger,用顺应控制的动中纠错界面在策略运行时采集细粒度增量动作与力反馈,并训练同时预测运动残差和目标力的顺应残差策略。在翻书、皮带装配、线缆布线和齿轮插入四项任务上,仅用少量纠错数据就把基线成功率平均提升 64%,且优于从头重训和微调。

ViTacFormer: Learning Cross-Modal Representation for Visuo-Tactile Dexterous Manipulation figure
arXiv2025-06-19

ViTacFormer: Learning Cross-Modal Representation for Visuo-Tactile Dexterous Manipulation

灵巧操作

灵巧操作触觉机器人学习操作

针对仅靠视觉难以应对遮挡与精细接触、现有触觉表征又较浅的问题,ViTacFormer学习视觉—触觉联合表征:用跨注意力在策略各阶段融合图像、触觉和本体状态,并加入自回归未来触觉预测头,核心洞察是“预测将发生的接触”比只编码当前触觉更利于动作生成;再用先真值触觉、后预测触觉的课程训练稳定学习。真实机器人基准上,其成功率较强基线约提升50%,并完成了11阶段、持续2.5分钟的长时序灵巧操作任务。

Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining figure
RSS 20252025-06-19

Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining

四足操作

四足操作基础模型操作

这篇工作针对四足机器人操作数据难采、人与机器人形态差异大导致策略难迁移的问题,提出 Human2LocoMan:用XR统一采集人类演示与LocoMan遥操作轨迹,并以模块化跨具身 Transformer 在共享主干上配合具身专属 tokenizer/detokenizer,先做人类预训练再用少量机器人数据微调。六个真实家务任务中,相对基线平均成功率提升41.9%,OOD场景提升79.7%;仅加入人类预训练也分别带来38.6%和82.7%的增益,并将机器人数据需求降到约一半。

FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation figure
CVPR 20252025-06-19

FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation

Flow Matching

Flow MatchingMamba Policy机器人学习操作

这篇工作针对扩散式操作策略在高精度任务中既难聚焦任务相关局部、又因迭代去噪导致推理过慢的问题,提出 FlowRAM:将条件 Flow Matching 与区域感知 3D 感知结合,用动态半径调度让模型在生成过程中从全局场景逐步收缩到关键几何区域,并用 Mamba/状态空间模型做线性复杂度的多模态融合,更高效地产生 6-DoF 动作。实验在 RLBench 等基准上达到 SOTA,尤其高精度任务平均成功率提升 12%,且动作生成通常少于 4 步。

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models figure
CoRL 20252025-06-19

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

辅助任务

数据需求量大辅助任务VLA对象中心感知机器人学习

这篇工作针对机器人操作在少样本场景下难以把通用预训练策略快速迁移到具体任务的问题,提出ControlVLA:在预训练VLA上引入对象中心表示,并用类似ControlNet的零初始化KV投影/交叉注意力逐步注入目标物体条件,尽量保留原有动作先验并稳定微调。实验证明其在8个真实操作任务中仅用10–20条示范即可达到76.7%成功率,显著高于多种基线的20.8%,且对长时序任务、未见物体和背景变化也更稳健。

CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity figure
RSS 20252025-06-19

CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity

3D 表征

3D 表征Diffusion Policy语言条件机器人学习

这篇工作针对机器人语言指令常含歧义、端到端模仿学习难同时兼顾语义理解与低层控制的问题,提出 CodeDiffuser:先让 VLM 结合图像与指令生成可执行代码,再调用视觉基础模型计算任务相关的 3D 注意力图,作为连接高层语义与扩散策略的中间表示。文中实验表明,现有 diffusion policy 会随指令歧义上升明显退化,单纯增加示范也难补救;该方法在仿真与真实机的含歧义、多物体、接触丰富操作中取得更高成功率。

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation figure
IROS 20252025-06-19

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

Diffusion Policy

Diffusion PolicyTransformer Policy操作应用

针对胃内胶囊内镜缺乏主动且可泛化控制的问题,论文提出CapsDT,把扩散式Transformer VLA用于磁驱胶囊机器人,以交错图像序列和文本指令预测机械臂末端7维动作,并构建KUKA外磁驱系统、四类渐进任务与千条级数据集。结果显示其在四项任务上较基线成功率提升21.25%,但文中所述真实仿真操控仅26.25%,且增益中数据规模与模型设计各自贡献未充分说明。

Vision in Action: Learning Active Perception from Human Demonstrations figure
CoRL 20252025-06-18

Vision in Action: Learning Active Perception from Human Demonstrations

模仿学习

模仿学习数据采集泛化感知

这篇工作针对模仿学习里“人会主动看、机器人却只看固定或腕部视角”而在遮挡场景失效的问题,提出 ViA:用现成 6-DoF 机械臂充当头颈,并在 VR 遥操作中用世界坐标系 3D 场景解耦人头运动与机器人相机更新,从共享观测里直接学到搜索、跟踪和聚焦等主动感知策略。三类多阶段双臂任务上,相比腕部或固定胸前相机基线,成功率提升约 45%,说明关键不只是多相机,而是任务相关的主动视角控制。

TACT: Humanoid Whole-body Contact Manipulation through Deep Imitation Learning with Tactile Modality figure
RA-L 20252025-06-18

TACT: Humanoid Whole-body Contact Manipulation through Deep Imitation Learning with Tactile Modality

人形操作

移动操作人形操作模仿学习触觉操作

论文的动机是让人形机器人像人一样利用躯干和上肢进行大面积、细腻接触操作,突破传统方法对预定义接触点、精确动力学建模和高计算规划成本的依赖。作者把 ACT 扩展为融合关节状态、视觉和上半身分布式触觉的 TACT,并结合遥操作采集数据的模仿学习、姿态重定向与双足行走控制。实机上,RHP7 Kaleido 能在保持平衡甚至行走时稳定抱持多类物体;实验也表明视觉与触觉联合输入比单一模态更稳健,尤其适合大范围、柔顺接触任务。

Steering Your Diffusion Policy with Latent Space Reinforcement Learning figure
CoRL 20252025-06-18

Steering Your Diffusion Policy with Latent Space Reinforcement Learning

强化学习

强化学习触觉Latent LearningDiffusion Policy机器人学习

论文针对 BC 训练的扩散策略在开放场景初始表现不足、继续依赖人工示教成本高的问题,提出 DSRL:不微调策略权重,而把扩散模型的初始噪声当作潜在动作,用强化学习在 latent-noise space 中“转向”采样分布,相当于把原任务改写成黑盒 latent-action MDP。实验表明,该方法在仿真、真实机器人和预训练通才策略适配上都更省样本,并能实现稳定的在线性能提升。

RIP: Robust Instant Policy: Leveraging Student's t-Regression Model for Robust In-context Imitation Learning of Robot Manipulation figure
IROS 20252025-06-18

RIP: Robust Instant Policy: Leveraging Student's t-Regression Model for Robust In-context Imitation Learning of Robot Manipulation

模仿学习

模仿学习Latent Learning安全机器人学习操作

这篇工作针对机器人 in-context 模仿学习中,LLM 虽能凭少量示范即时生成动作,但常因“幻觉”产出偏离示范的连续轨迹,导致操作不可靠。作者提出 RIP:先多次采样候选轨迹,再用对离群点更稳健的 Student’s t 回归做聚合,得到抗幻觉的执行轨迹,且无需额外微调大模型。仿真与真实日常操作实验表明,RIP 在低数据场景尤其有效,任务成功率相对现有 IL 方法至少提升 26%;但其增益中各因素占比、幻觉成因文中未充分说明。

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skills figure
NeurIPS 20252025-06-17

RobotSmith: Generative Robotic Tool Design for Acquisition of Complex Manipulation Skills

操作

操作应用

这篇工作关注一个常被忽视的问题:人类设计的现成工具往往并不适合机械臂抓握、发力与长程操作,因此仅靠工具检索或固定模板很难解决复杂任务。RobotSmith将VLM的空间/功能常识与物理仿真结合,用双智能体迭代提出可参数化工具,并联合优化工具几何、摆放和使用轨迹,形成“设计—规划—仿真反馈”闭环。在刚体、可变形体和流体任务上,其平均成功率达50.0%,显著高于3D生成基线的21.4%和工具检索的11.1%,且可迁移到真实机器人与3D打印工具。

Latent Action Diffusion for Cross-Embodiment Manipulation figure
ICRA 20262025-06-17

Latent Action Diffusion for Cross-Embodiment Manipulation

Latent Learning

Latent LearningDiffusion Policy跨本体机器人学习操作

这篇工作针对跨机器人本体操作中“动作空间不兼容”造成的数据难共享、技能难迁移问题,提出先用重定向构造配对末端动作,再以对比学习训练各本体的动作编码器/解码器,把灵巧手、人手和平行夹爪映射到语义对齐的潜在动作空间,并在其中训练与本体无关的扩散策略、通过本体专属解码器执行。实机三类任务结果表明,共训的单一策略可实现多机器人控制,成功率最高提升25.3%、平均提升13.4%;但在观测不对称时部分本体性能下降,说明迁移增益并非总是稳定。

GAF: Gaussian Action Field as a Dvnamic World Model for Robotic Mlanipulation figure
ICRA 20262025-06-17

GAF: Gaussian Action Field as a Dvnamic World Model for Robotic Mlanipulation

3D 表征

3D 表征世界模型机器人学习操作

这篇工作针对 V-A 与 V-3D-A 方法难刻画操作场景时序变化、易导致动作不准的问题,提出 V-4D-A 框架 GAF:在 3DGS 上加入可学习运动属性,把当前场景重建、未来状态预测和初始动作估计统一到同一高保真高斯表示中,再用动作-视觉对齐的去噪模块细化动作。实验显示其相对现有方法平均提升 7.3% 操作成功率,并在重建质量上取得约 +11.5 dB PSNR、+0.386 SSIM 和 -0.557 LPIPS 的优势。

ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes figure
CoRL 20252025-06-17

ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes

抓取

抓取灵巧操作Sim2Real操作

这篇工作针对拥挤场景中灵巧手抓取难以同时处理遮挡、碰撞风险和真实演示昂贵的问题,提出两阶段 teacher-student 框架 ClutterDexGrasp:先在仿真中用拥挤度课程学习、面向目标/非目标物体的几何与空间距离表示,以及交互安全课程训练特权教师策略,再蒸馏为仅依赖局部点云观测的 3D diffusion 学生策略。论文声称实现了首个面向杂乱场景目标抓取的零样本 sim-to-real 闭环系统,能在多种物体与布局、甚至严重遮挡下稳定抓取,但摘要未充分说明具体量化增益。

VLM-SFD: VLM-Assisted Siamese Flow Diffusion Framework for Dual-Arm Cooperative Manipulation figure
RA-L 20252025-06-16

VLM-SFD: VLM-Assisted Siamese Flow Diffusion Framework for Dual-Arm Cooperative Manipulation

Diffusion Policy

Diffusion Policy语言条件双臂感知机器人学习操作

论文面向双臂操作中少样本泛化差、两臂协同与避碰分配困难的问题,提出 VLM-SFD:用语言条件的孪生流扩散网络为两个目标物体预测成对的对象中心运动流,再把2D流映射到3D,并借助预训练VLM按时序动态决定左右臂各自执行哪段轨迹。作者称在4个真实任务上仅需每任务10次人类示教、无需额外真机微调即可部署,成功率和执行效率优于基线;但摘要片段未充分说明具体量化增益,最终判断仍需结合正文。

Touch Begins Where Vision Ends: Generalizable Policies for Contact-rich Manipulation figure
RSSW 20262025-06-16

Touch Begins Where Vision Ends: Generalizable Policies for Contact-rich Manipulation

触觉

触觉泛化接触丰富机器人学习操作

论文针对精密接触操作中“示教难扩展、纯RL易过拟合”的矛盾,提出ViTaL:先由VLM做场景级定位与接近,再用与场景解耦的局部视触觉策略完成插接、刷卡等毫米级交互。其关键在于把可变场景与相对稳定的局部接触分离,并结合基础模型分割驱动的语义增强和残差RL,在少量示教上学到更稳健的表征。实验显示,4类任务仅用32条示教和45分钟在线训练,在未见环境成功率约90%,平均比最强基线高40%,去掉触觉会明显下降。

Prompting with the Future: Open-World Model Predictive Control with Interactive Digital Twins figure
RSS 20252025-06-16

Prompting with the Future: Open-World Model Predictive Control with Interactive Digital Twins

任务规划

任务规划几何约束规划世界模型

这篇工作针对VLM擅长语义规划却缺乏细粒度物理理解、难以直接输出可靠机器人控制的问题,提出PWTF:先用手持视频重建可交互数字孪生,在MPC中采样候选动作并物理仿真其未来结果,再把自适应新视角渲染的预测画面交给VLM做语义评估,从而把“物理预测”和“任务理解”解耦。论文在8项真实世界操作任务上相较现有VLM/VLA基线取得更高成功率,但给定材料未充分说明统一量化增益。

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction figure
arXiv2025-06-16

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

人形操作

移动操作人形操作VLALatent Learning操作

这篇工作针对现有VLA依赖手工动作接口、难以支撑人形机器人动态全身控制的问题,提出LeVERB:先用合成渲染的运动示范与语言学习CVAE式“潜在动词”,再由强化学习的低层WBC策略将其解码为动力学控制,实现视觉语言规划与高频全身控制解耦。作者还构建了含150+任务、10类场景的sim2real基准;模型仅用合成数据训练,整体成功率58.5%,简单视觉导航达80%,较朴素分层VLA提升7.8倍,并展示了零样本实机部署。

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding figure
arXiv2025-06-16

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

VLA

VLA机器人学习

本文关注VLA在高频、灵巧操作中因动作解码过慢而难以部署的问题,指出直接用Jacobi并行解码收益有限的根因,是模型只在训练中见过正确前缀,遇到错误前缀时每轮往往只能固定极少token。为此作者提出一致性蒸馏,让学生模型从Jacobi中间态直接逼近固定点,并结合混合标签的AR监督抑制误差累积,再用early-exit跳过低效迭代。实验显示其在OpenVLA、LLaVA-VLA和真机上达到约2–4.1×推理加速、4×控制频率,任务成功率基本保持,Turbo版更快但略有性能下降。

ATK: Automatic Task-driven Keypoint Selection for Robust Policy Learning figure
CoRL 20252025-06-16

ATK: Automatic Task-driven Keypoint Selection for Robust Policy Learning

数据筛选

数据筛选安全感知机器人学习

本文针对视觉操控策略在训练/测试场景外观变化下易失效、而6D位姿又难扩展的问题,提出ATK:利用专家数据蒸馏,联合学习“哪些2D关键点最能预测最优动作”和基于这些点的策略,只保留任务相关的最小关键点集合。实验表明,该表示在仿真到现实和真实模仿学习中,都能在透明物体、可变形物体和精细操作上更抗干扰、光照与背景变化;但方法仍依赖稳定跟踪,对视角和超参数较敏感。

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration figure
ICLR 20262025-06-15

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration

VLA

VLA机器人学习

这篇工作针对VLA在机器人实时操作中因大模型推理慢、逐步决策存在时序冗余、视觉输入存在空间冗余而难以高频控制的问题,提出SP-VLA:先依据动作速度与历史缓冲,将动作划分为“审慎/直觉”,在VLA与基于岭回归的轻量生成器间动态切换;再结合注意力语义分数与轮廓边缘信息做自适应token裁剪。实验在LIBERO和SimplerEnv上分别实现1.5×无损、2.4×加速,并带来最高约6%的平均性能提升。

Adapting by Analogy: OOD Generalization of Visuomotor Policies via Functional Correspondence figure
arXiv2025-06-15

Adapting by Analogy: OOD Generalization of Visuomotor Policies via Functional Correspondence

Affordance

Affordance泛化

这篇工作针对视觉运动策略在部署时常因新物体或背景产生 OOD 失效、而重新采集纠错示范成本高的问题,提出测试时适应方法 ABA。核心洞察是很多 OOD 情况并不需要学习新行为,而是要找到与当前场景功能等价的训练内场景;系统先检测 OOD 和行为歧义,再向专家索取文本式“功能对应”,用对应的 ID 观测干预策略输入以复用已有动作。作者在 Franka 上两类真实操作、10 个 OOD 环境中验证,报告扩散策略成功率提升约 76%,且人工反馈需求较低。

mimic-one: a Scalable Model Recipe for General Purpose Robot Dexterity figure
CoRLW 20252025-06-13

mimic-one: a Scalable Model Recipe for General Purpose Robot Dexterity

数据采集

数据采集遥操作感知操作

这篇工作瞄准通用灵巧操作中硬件、感知、数据与控制难以协同的瓶颈,提出一套可扩展方案:以16自由度腱驱仿人手和腕部广角相机为平台,结合手套/VR遥操作采集,并显式加入失败恢复的自纠正数据;策略侧采用扩散式高频端到端控制与相对笛卡尔动作表示。实验显示其在抓取、分拣、插入等任务上可实现平滑且可恢复的细操作,分布外成功率最高93.3%,自纠正行为最高带来33.3%的提升,同时表明性能增益可能主要来自数据多样性与策划质量的 scaling。

SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies figure
CoRL 20252025-06-13

SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies

模仿学习

模仿学习安全机器人学习

这篇工作关注离线模仿学习策略通常被“锁定”在示范速度、难以提升机器人吞吐量的问题。作者的核心洞察是:想让视觉运动策略跑得比示范更快,必须同时处理提速后带来的动力学变化、状态—动作分布偏移以及感知/推理时延。为此提出全栈式 SAIL,将误差自适应引导、预测可控制器无关的到达位姿并用高保真控制器跟踪、按动作难度动态调速和动作调度结合起来。实验在 12 个任务、仿真与两套真实平台上表明,其在保持较高成功率下,仿真最高提速 4×,真实最高 3.2×。

ExoStart: Efficient Learning for Dexterous Manipulation with Sensorized Exoskeleton Demonstrations figure
arXiv2025-06-13

ExoStart: Efficient Learning for Dexterous Manipulation with Sensorized Exoskeleton Demonstrations

灵巧操作

灵巧操作模仿学习数据采集遥操作操作

面向灵巧手数据难采、传统遥操作受人手—机械手运动学/动力学失配与接触延迟限制的问题,ExoStart提出“人手直操物体→仿真筛轨→强化学习启动”的流程:用与机器人手运动学等价的低成本传感外骨骼手套,在无机器人参与下采集示范,再用基于仿真的动力学滤波恢复可执行轨迹,并以少量示范和稀疏奖励启动自动课程RL,蒸馏出可零样本迁移到真实机器人的视觉策略。实验显示其在开AirPods盒、插钥匙并旋转等多类高难任务上真实成功率超过50%。

RationalVLA: A Rational Vision-Language-Action Model with Dual System figure
arXiv2025-06-12

RationalVLA: A Rational Vision-Language-Action Model with Dual System

VLA

VLA机器人学习

这篇工作针对现有机器人操控默认“语言指令与环境总是匹配”的设定,关注现实中常见的歧义、无关或不可执行指令。作者提出RAMA基准,构造含六类缺陷指令的1.4万条数据,并设计双系统RationalVLA,用高层MLLM负责理解与判断、低层策略负责控制,再以可学习潜变量和<ACT>/<REJ>接口把“该不该做”与“怎么做”连接起来。实验显示其在RAMA上较现有方法末任务成功率提升14.5%、平均任务长度提升0.94,同时在常规操控任务上保持竞争力,并做了真实机器人验证。

RICE: Reactive Interaction Controller for Cluttered Canopy Environment figure
RA-L 20252025-06-12

RICE: Reactive Interaction Controller for Cluttered Canopy Environment

人机交互

人机交互数据集/Benchmark应用

论文针对农业冠层中叶片、枝条带来的视觉遮挡与物理阻挡,传统视觉规划或固定避障/硬推策略难以兼顾到达性与不伤植株的问题,提出RICE层级无模型反应式控制器,结合末端位姿与实时触觉,在“绕开障碍”和“轻推穿过”之间在线权衡,并用可跟踪仿植物与动作捕捉量化枝条扰动。35次、3类场景实验中,RICE均在不断枝条件下到达遮挡目标,鲁棒性与适应性优于位置控制和混合控制基线。

Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation figure
CoRLW 20252025-06-12

Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation

任务规划

任务规划泛化感知机器人学习操作

这篇工作针对机器人操控中“语言会规划、视觉难落地”的泛化瓶颈,指出单视角输入和点/框式目标表示过于粗糙,难以支撑精确操作。Gondola用多视角图像、历史计划与分割掩码式目标联合生成下一步 grounded plan,并基于RLBench构建规划、指代表达和伪长时程数据。结果上,它在GemBench四类泛化设置中均优于3D-LOTUS++,平均绝对提升约10%;但性能增益分别有多少来自模型设计还是数据扩充,文中未充分说明。

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation figure
CVPR 20252025-06-12

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

基础操作

基础操作任务规划泛化语言条件操作数据集/Benchmark

面向机器人操作中“指令变化+场景变化”下难以公平评测泛化的问题,论文提出GenManip仿真平台:用与LLM兼容的任务导向场景图(ToSG)和10K带标注3D资产自动生成可控任务,并构建含200个人工校正场景的GenManip-Bench,从外观、常识、空间和长程规划四维评测。实验表明,端到端方法虽随数据扩展受益,但在指令跟随与场景泛化上仍受限;结合基础模型的模块化系统跨场景更稳健,不过零样本成功率仅23%,长程任务仅11%。

Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop figure
CoRL 20252025-06-12

Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop

强化学习

强化学习触觉基础模型感知机器人学习

论文针对大工作空间操作中单相机难以兼顾视野与分辨率的问题,提出带双自由度机械眼的 EyeRobot,让“看哪里”由任务需求而非人工注视标注决定。其关键是用360°示教回放构建可渲染视角的仿真,并以“手部BC—眼部RL”闭环联合训练:手从当前凝视图像学动作,眼以提升手部预测/成功为奖励;再配合仿中央凹的多分辨率视觉编码。实验在5个全景操作任务上显示,系统能自发学会搜索、凝视切换与独立跟踪,在大范围场景中总体优于腕部或外置相机,目标搜索成功率达87%。

SAFE: Multitask Failure Detection for Vision-Language-Action Models figure
NeurIPS 20252025-06-11

SAFE: Multitask Failure Detection for Vision-Language-Action Models

VLA

VLA安全感知机器人学习

面向VLA在未见任务上成功率明显下降、且现有失败检测多按单任务训练的问题,SAFE把“多任务失败检测”作为独立设置研究。其关键洞察是VLA内部特征中已隐含跨任务通用的成功/失败语义,失败轨迹会落入相对稳定的“失败区”;据此作者直接利用策略隐特征回归单一失败分数,并结合保形预测做告警阈值校准。在OpenVLA、π0和π0-FAST的仿真与真实实验中,SAFE在检测准确率与提前量折中上优于多类基线,但摘要未给出具体提升幅度。

INT-ACT: From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models figure
arXiv2025-06-11

INT-ACT: From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

基础操作

基础操作VLA泛化操作数据集/Benchmark

这篇工作针对现有VLA评测任务少、难以隔离VLM预训练对机器人泛化的真实贡献、且真实机器人评测复现门槛高的问题,提出INT-ACT:一个基于仿真的统一探测套件,含50个任务,覆盖语言复杂度、视觉干扰与OOD对象三大维度,并显式分析“意图”与执行的脱节。实验表明,当前SOTA VLA普遍存在“意图—动作鸿沟”:分布外场景下往往能理解指令并形成合理高层计划,却难稳定转化为精确操作;同时动作微调还可能削弱原始VLM的通用推理能力。

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models figure
NeurIPS 20252025-06-11

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

VLA

VLA数据筛选机器人学习

这篇工作针对扩散式VLA在机器人部署中推理慢、显存和算力开销高的问题,先分析出瓶颈并非单一模块,而是语言层冗余、视觉token冗余和扩散去噪步间重复计算共同造成。EfficientVLA据此提出无需重训的整体加速框架:裁剪低影响语言层、按任务相关性与多样性选取少量视觉token,并在动作头跨时间步缓存中间特征。应用于CogACT后,在SIMPLER上实现1.93倍加速、FLOPs降至28.9%,成功率仅下降0.6%。

DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects figure
arXiv2025-06-11

DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects

抓取

抓取灵巧操作操作

针对透明/反光物体会让RGB-D相机产生大面积缺失深度、进而导致灵巧抓取碰撞或失败的问题,DCIRNet提出双分支RGB-深度编码、跨模态特征融合,以及带多阶段监督的迭代深度细化,从粗到细补全缺失区域并改善边界模糊。论文称其在公开数据集上优于已有方法,并接入多指抓取后将透明与反光物体抓取成功率提升44%;但各项增益在多大程度上分别来自融合、细化或骨干规模,文中未充分说明。

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation figure
NeurIPS 20252025-06-11

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

Transformer Policy

Transformer Policy机器人学习操作

本文针对视觉运动策略按时间正向预测动作、易因目标约束弱而累积误差的问题,提出CoA:先预测编码任务目标的关键帧动作,再在同一自回归框架中按时间反向生成整段轨迹,把操作建模为由终局约束局部动作的动作链。为让该范式可执行,作者加入连续动作token、变长动态停止、反向时序集成和多token预测。实验中,CoA在60个RLBench任务上平均成功率达0.552,较ACT和DP分别提升16.3%与23.2%,在8个真实任务上也较ACT高约15%,优势主要体现在空间泛化。

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning figure
NeurIPS 20252025-06-10

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

多智能体/多机器人

多智能体/多机器人强化学习触觉跨本体数据集/Benchmark

论文针对现有多智能体具身协作多停留在LLM高层规划、缺少跨本体视觉推理与细粒度评测的问题,提出首个分层基准VIKI-Bench,将协作拆为智能体激活、任务规划和轨迹感知三层,并以CoT监督微调加分层奖励强化学习构建VIKI-R。实验显示,VIKI-R在三类任务上均明显优于现有VLM/闭源基线,部分指标接近人工专家;同时RL促成了异构机器人可组合的并行协作,但其收益明显依赖初始策略质量,L2零样本几乎无有效计划时提升有限。

UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation figure
ICRA 20252025-06-10

UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation

Affordance

Affordance泛化机器人学习操作

这篇工作针对开放指令下机器人缺少细粒度可供性标注、现有方法又依赖人工标注或封闭任务集的问题,提出UAD:先用DINOv2做多视角3D一致性特征融合与区域聚类,再借助VLM自动生成“指令—像素可供性”标注,并蒸馏成冻结视觉骨干上的轻量语言条件解码器。结果上,它虽只在仿真单物体上训练,仿真中新实例/新类别/新指令AUC均≥0.92,DROID真实场景AUC达0.84;进一步作为策略观察空间时,模仿学习仅用10个演示也能泛化到新实例、新类别和指令变化。

TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization figure
arXiv2025-06-10

TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

VLA

VLA机器人学习

这篇工作针对VLA主要依赖成功示范、在OOD场景或执行偏差下难以自我纠错的问题,提出面向在线交互微调的TGRPO。其核心是先用LLM解析任务并自动构造多阶段稠密奖励,再对并行采样结果同时做轨迹级与时间步级分组相对优势估计,从而在不训练价值网络时兼顾全局任务完成度与局部动作质量。LIBERO四类任务平均成功率达80.7%,较SFT提升4.2%;不过文中未充分说明增益中LLM奖励设计与分组优化各自贡献占比。

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency figure
NeurIPS 20252025-06-10

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

机器人学习

机器人学习

这篇工作针对生成式视觉运动策略多步采样太慢、直接借用图像生成加速方法又忽视动作序列时序连续性的问题,提出 FreqPolicy:在流匹配策略中加入频域一致性约束,对齐不同流时间步的动作频谱,并用自适应频率分量损失强调接触或技能切换等高动态阶段,从而支持高质量单步动作生成。实验覆盖 3 个仿真基准的 53 个任务,优于现有单步方法;接入 VLA 后在 LIBERO 40 任务上约提速 5 倍且性能基本不降,真实机器人推理频率达 93.5Hz。

Reinforcement Learning via Implicit Imitation Guidance figure
arXiv2025-06-09

Reinforcement Learning via Implicit Imitation Guidance

模仿学习

模仿学习强化学习触觉机器人学习

该文针对稀疏奖励下在线强化学习样本效率低、而直接加入行为克隆又可能压制长期回报的问题,提出 DGN:不再用模仿损失约束策略,而是在示范状态上学习“专家动作-当前策略动作”的状态相关噪声协方差,只把示范当作探索方向提示。这样策略均值由RL学习、探索方差由示范引导,也避免训练独立IL参考策略及切换机制;在7个仿真连续控制任务上,相比现有离线到在线RL方法最高提升2–3倍,但真实机器人上的泛化文中未充分说明。

RTC: Real-Time Execution of Action Chunking Flow Policies figure
NeurIPS 20252025-06-09

RTC: Real-Time Execution of Action Chunking Flow Policies

VLA

VLA机器人学习

这篇工作针对VLA/扩散式动作块策略推理延迟大、块与块衔接处易停顿或抖动,导致机器人在实时控制中失去反应性的问题,提出纯推理时算法RTC:在执行当前动作块时并行生成下一块,把延迟期间必然会执行的动作冻结,再对其余部分做inpainting,因此无需重训即可让异步执行保持连续。实验在12个Kinetix动态任务和6个双臂真机任务上显示,RTC较同步执行更平滑、吞吐更高,对数百毫秒延迟仍稳健,点火柴等精细任务成功率也显著提升。

HiBerNAC: Hierarchical Brain-emulated Robotic Neural Agent Collective for Disentangling Complex Manipulation figure
arXiv2025-06-09

HiBerNAC: Hierarchical Brain-emulated Robotic Neural Agent Collective for Disentangling Complex Manipulation

VLA

VLA机器人学习操作

这篇工作针对 VLA 在复杂操作中常见的长时程记忆不足、多智能体协同开销大和动态重规划困难,提出类脑分层多智能体框架 HiBerNAC:把高层 VLA 推理、海马体式情景记忆、去中心化协作与高频反应式控制结合成多路径、多频率系统。文中在 Franka 仿真与实机上报告长程任务平均耗时下降 23%,多路径任务从以往接近 0 成功提升到 12%–31%;但判断基于公开摘要,各模块增益来源仍未充分说明。

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models figure
NeurIPS 20252025-06-09

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

3D 表征

3D 表征VLA机器人学习操作

论文针对现有VLA多依赖2D输入、而少数3D-VLA又把动作离散成缺乏空间结构的token,导致3D操作样本效率不高的问题,提出BridgeVLA:将点云正交投影为多视角2D图像以贴合VLM预训练分布,再用2D热图预测平移动作,并通过文本条件目标定位预训练热图能力,统一输入与输出空间。结果上,RLBench由81.4%升至88.2%,COLOSSEUM由56.7%升至64.0%,真实机器人平均提升32%,且10余个任务中每任务仅3条轨迹也达到约96%成功率。

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation figure
arXiv2025-06-09

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

VLA

VLA机器人学习操作

这篇论文的出发点是:现有VLA虽强,但在边缘机器人上常受内存和时延约束,单靠事后量化容易掉点。作者提出原生1-bit的BitVLA,将语言与动作参数都限制为{-1,0,1},并用Quantize-then-Distill把视觉编码器进一步压到1.58-bit,在训练中用全精度教师做表征对齐。结果上,BitVLA在仿真与真实操作中性能接近全精度OpenVLA-OFT,并在相近参数规模下优于π0,同时把模型内存降到1.4GB、缩小约11倍,端到端时延降低4.4倍。

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System figure
ICLR 20262025-06-07

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System

感知

感知应用

这篇工作针对机器人乒乓中“球速高、普通相机易模糊、纯物理模型又难覆盖旋转和扰动”的难点,提出快慢双系统:先用常规视觉与物理模型做毫秒级轨迹和击球点预测,再用由脉冲相机数据训练的校准网络修正可击球位置误差,并结合模仿学习的 IMPACT 学习回球动作与落点控制。实验显示,其在30厘米目标区成功率达92%,在更难的20厘米精确落点任务中达70%。

SAIL: Self-Adapting Improvement Loops for Robotic Learning figure
ICLR 20262025-06-07

SAIL: Self-Adapting Improvement Loops for Robotic Learning

视频规划

视频规划Diffusion Policy世界模型感知机器人学习操作

该工作针对视频规划机器人对未见任务泛化差、又难持续利用在线经验的问题,提出自适应改进闭环:让域内视频世界模型经由视觉规划执行、用稀疏奖励或VLM筛选自采轨迹后反复微调,并可结合互联网视频先验、最终再蒸馏成轻量策略。MetaWorld未见任务10轮成功率最高提升285%,真实机械臂两项操作也持续变好,且比直接行为克隆或RL微调更省样本。判断基于公开摘要/片段,标题与正文方法名SAIL/SILVR存在不一致。

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation figure
arXiv2025-06-07

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

基础操作

基础操作基础模型操作数据集/Benchmark

这篇工作针对现有操作基准多停留在2–5步、难以检验VLM“系统2”规划的问题,提出RoboCerebra:用GPT自顶向下生成长程家居任务并分解子任务,再由人类在仿真中执行,配上动态场景、细粒度时间标注,以及VLM规划器+VLA执行器的分层评测框架。其轨迹平均长度约为既有基准的6倍,训练集扩到1000类/10万变体;但各VLM在规划、反思、记忆上的具体优势文中未充分说明,判断基于公开摘要/项目页。

You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping figure
ICRA 20252025-06-06

You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping

抓取

抓取灵巧操作感知操作

面向机器人抓取中铰接物体感知慢、两阶段流程易累积误差的问题,本文提出单阶段 YOEO,把部件语义分割、实例中心偏移预测与 NPCS 坐标回归统一到同一套点云网络中,再通过聚类和配准直接恢复类别级部件的 6D 位姿与尺寸。其关键洞察是用语义监督处理跨类别上下文差异、用中心投票区分同类多实例,从而兼顾泛化与实时性。结果上,方法在 GAPart 数据集上验证有效,并部署到 Kinova 机器人实现约 200Hz 视觉反馈和对未见铰接物体的实时交互,但相对基线的具体提升幅度在给定片段中未充分说明。

Where Do We Look When We Teach? Analyzing Human Gaze Behavior Across Demonstration Devices in Robot Imitation Learning figure
CoRLW 20252025-06-06

Where Do We Look When We Teach? Analyzing Human Gaze Behavior Across Demonstration Devices in Robot Imitation Learning

模仿学习

模仿学习机器人学习

论文关注一个关键但常被忽略的问题:模仿学习希望利用人类凝视提取任务相关线索,但示教设备本身可能改变人如何“看”。作者提出跨设备实验框架,系统比较自然佩戴相机、机器人具身仿真设备和HMD视觉仿真设备,发现越强的具身/视角仿真越会削弱对目标与放置位的注视提取能力,并提高工作负担;同时存在“域差更小但凝视更差”的权衡。使用更自然设备采集的凝视信号后,策略在环境变化下的成功率从18.8%提升到68.8%。

MapleGrasp: Mask-guided Feature Pooling for Language-driven Efficient Robotic Grasping figure
WACV 20262025-06-06

MapleGrasp: Mask-guided Feature Pooling for Language-driven Efficient Robotic Grasping

抓取

抓取操作数据集/Benchmark

面向“语言指定、抓取未见物体”时端到端VLA数据昂贵且泛化受限的问题,MapleGrasp把语言抓取拆成两阶段:先用CLIP式视觉语言特征预测指代表达对应的目标掩码,再只在掩码内做特征池化并输出像素级抓取参数,以减少杂物干扰并提升训练/推理效率。实验称其在OCID-VLG较以往提升7%,在新建的RefGraspNet上达89%,Franka实机对未见物体成功率73%、高于基线11%;但增益有多少来自掩码池化、多少来自8倍更大的新数据,文中未充分说明。

Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning figure
arXiv2025-06-06

Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning

泛化

泛化机器人学习

这篇工作针对机器人终身学习中的核心矛盾:既要让预训练策略在新任务上持续迁移,又要避免顺序微调导致的灾难性遗忘;现有参数高效微调方法往往依赖测试时任务ID,且各任务适配器彼此隔离,难以共享知识。作者提出DMPEL,逐步扩展低秩专家库,并用轻量路由器按当前上下文动态混合专家,同时以“专家系数回放”替代整策略经验回放,在更低存储与计算开销下保持旧任务检索能力。实验显示其在LIBERO上以极少可训练参数和存储取得更高持续适应成功率,并带来更强前向迁移与接近零遗忘。

Bridging Perception and Action: Spatially-Grounded Mid-Level Representations for Robot Generalization figure
RSS 20252025-06-06

Bridging Perception and Action: Spatially-Grounded Mid-Level Representations for Robot Generalization

Transformer Policy

Transformer Policy泛化感知机器人学习

论文关注双臂灵巧操作在物体、位姿和环境变化下易失效的问题,核心判断是:语言或端到端视觉表征过于粗,真正支撑泛化的是与任务匹配的空间中层表征。作者系统比较目标中心、位姿感知、深度感知与运动相关表征,并提出把多个专长编码器接入扩散策略的 Mid-Level MoE,再用“自一致性”加权模仿学习提升动作对这些表征的跟随精度。真实任务上,该方法较语言基线平均提升11%,较标准 diffusion policy 提升24%,再叠加该训练策略额外提升10%。

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning figure
NeurIPS 20252025-06-06

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

模仿学习

模仿学习VLA机器人学习

论文针对连续控制动作难以像语言一样高效分词、现有 VQ/BPE 方案要么需额外训练 tokenizer、要么长度不定且块间不平滑的问题,提出用 B 样条控制点直接编码动作序列的 BEAST,把固定时长轨迹压成固定长度的离散或连续 token,无需单独训练 tokenizer,并天然保证相邻动作块连续平滑、支持并行解码。实验在 166 个仿真任务和 8 个真实机器人任务上表明,其 token 数较分箱法减少 4–8 倍,训练与推理开销显著下降,同时任务成功率与现有最优方法相当。

3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model figure
arXiv2025-06-06

3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

3D 表征

3D 表征泛化跨本体世界模型感知机器人学习操作

论文针对跨机器人操控数据动作空间不统一、现有视频世界模型又停留在2D且易受背景干扰的问题,提出把被操纵物体的3D光流当作跨本体动作表征:先自动构建ManiFlow-110k并训练语言条件扩散式3D流世界模型,再用渲染+GPT-4o做闭环校验,并将预测流作为约束优化出机器人动作。实验显示其在四类任务上平均成功率约70%,相对AVDC、2D流和模仿学习基线更优,且无需硬件特定训练即可迁移到Franka和XTrainer,并具备一定物体与背景泛化。

DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration figure
CoRL 20252025-06-05

DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration

模仿学习

模仿学习安全机器人学习

这篇工作针对模仿学习策略常因人类遥操作示范过慢而在时敏机器人任务中执行迟缓的问题,提出自监督的 DemoSpeedup:先用已训练的生成式策略作为逐帧动作熵估计器,将低熵段视为需高精度控制、高熵段视为可更安全加速的宽松阶段,再按熵分段自适应下采样示范并重训策略,无需额外人工标注。实验在仿真和真实机器人上表明,基于 ACT/DP 的策略可实现约 1.7 到 3 倍提速,同时成功率基本持平,部分任务甚至更高,作者将其归因于决策时域缩短。

A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search figure
NeurIPS 20252025-06-05

A Smooth Sea Never Made a Skilled SAILOR: Robust Imitation via Learning to Search

模仿学习

模仿学习安全世界模型机器人学习

论文针对行为克隆只覆盖专家访问状态、机器人一旦出错就难以从分布外状态恢复的问题,提出 SAILOR:在专家演示与基策略轨迹上联合学习世界模型和奖励模型,并在测试时于潜在空间做局部搜索规划,再周期性蒸馏回策略。核心洞察是无需额外人工纠错,也能从演示中学到“如何恢复”而不只是“照着做”。在三个基准、十余个长时程视觉操作任务上,它稳定优于同数据训练的 Diffusion Policy,且将 BC 数据量放大 5–10 倍仍未追平,同时还能识别细粒度失败并较抗奖励劫持。

SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models figure
IROSW 20252025-06-04

SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models

VLA

VLA泛化安全机器人学习

面向真实交互中“任务做到一半用户改主意”的场景,本文指出现有VLA多默认指令静态不变,因而在执行中途切换目标时常出现停顿、振荡或误放物体。SwitchVLA把任务切换视为受执行状态调制的行为生成问题,通过按接触阶段切分示范轨迹,让策略显式感知任务进度,并在统一骨干中学习前进、回退与衔接等多行为条件动作生成,无需外部规划器或额外切换数据。仿真与真实机械臂实验表明,它在任务成功率、指令遵循、切换流畅性和交互自然度上均优于现有VLA基线,并表现出较好的跨任务泛化。

STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization figure
ICML 20252025-06-04

STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization

Latent Learning

Latent Learning数据增强机器人学习

这篇工作关注离散技能学习在机器人操作中的两个瓶颈:VQ 类方法易发生码本塌缩,且多层技能之间的依赖难以建模,导致长时序动作组合不稳定。STAR 的核心洞察是把特征间几何关系显式注入量化训练:用旋转增强的残差技能量化 RaRSQ 改造梯度流,避免同一码字样本被统一更新;再用因果技能 Transformer 按粗到细自回归建模技能并细化连续控制。在 LIBERO 和真实机器人任务上,其结果较基线提升约 12%。

Rodrigues Network for Learning Robot Actions figure
ICLR 20262025-06-03

Rodrigues Network for Learning Robot Actions

机器人学习

机器人学习

论文针对 MLP/Transformer 将关节动作视为无结构 token、难以利用机器人运动学关系的问题,把经典 Rodrigues 旋转公式推广为可学习的 Neural Rodrigues Operator,并结合关节-连杆消息传递与自注意力构成 RodriNet。实验表明,该结构在合成的正运动学与运动预测任务上明显优于通用骨干,在 5 个机器人模仿学习任务中提升了 Diffusion Policy 表现,并在单图 3D 手部重建上达到 SOTA,说明显式注入运动学先验确实有助于动作建模。

ORV: 4D Occupancy-centric Robot Video Generation figure
CVPR 20262025-06-03

ORV: 4D Occupancy-centric Robot Video Generation

视频规划

视频规划世界模型感知机器人学习

这篇工作针对机器人视频世界模型中“动作稀疏、像素致密”带来的画质差、时序漂移和单视角受限问题,提出以4D语义occupancy为中心的ORV:用Action-Expert AdaLN将分块7-DoF动作对齐到视频潜变量,再把occupancy的2D渲染作为软几何先验注入扩散生成,并配套构建ORV-Data。论文在BridgeV2、DROID和RT-1上将FVD降低18.8%,视觉规划成功率提升3.5%,策略学习提升6.4%,且支持多视角一致生成与sim-to-real迁移。

Adversarial Attacks on Robotic Vision Language Action Models figure
RSSW 20252025-06-03

Adversarial Attacks on Robotic Vision Language Action Models

VLA

VLA安全机器人学习操作

随着VLA被用于端到端机器人控制,作者关注其是否继承LLM的越狱脆弱性。论文将LLM的GCG式token后缀攻击迁移到VLA,提出用一次性文本提示在rollout起点劫持低层控制,并指出机器人攻击追求的是对动作空间的控制权,而非语义上的“有害回复”。在多个OpenVLA的LIBERO微调模型上,目标动作诱导成功率多次超过90%,攻击可跨多步持续、目标持久步数最高提升28倍,并表现出一定跨环境、从仿真到真实的通用性;但当前主要是白盒攻击,实际开放环境风险仍需进一步验证。

WoMAP: World Models For Embodied Open-Vocabulary Object Localization figure
RSSW 20252025-06-02

WoMAP: World Models For Embodied Open-Vocabulary Object Localization

世界模型

世界模型机器人学习

这篇工作针对机器人在部分可观测新场景中按语言寻找任意物体时,纯模仿学习泛化差、纯VLM提议又难以落地的问题,提出 WoMAP:先用 Gaussian Splatting 搭建无专家示范的可扩展 real-to-sim-to-real 数据管线,再用开放词汇检测器蒸馏稠密奖励训练无重建的潜在世界模型,并在测试时用该模型筛选和细化 VLM 的高层动作。公开结果显示,其在零样本目标定位中相对 VLM 和 diffusion policy 成功率分别提升超过9倍和2倍,并完成 TidyBot 的仿真到真实迁移。

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics figure
arXiv2025-06-02

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

VLA

VLA机器人学习操作

论文针对现有VLA模型过大、训练部署成本高且依赖高价平台数据的问题,提出面向社区数据与低成本机器人的小型化方案SmolVLA。其核心做法是用小型预训练VLM作骨干,并通过截断部分层、压缩视觉token、轻量交叉/自注意动作专家,以及将感知预测与执行解耦的异步推理来降本提速。在少于3万条公开社区示教上训练后,模型可单卡训练、在消费级GPU甚至CPU部署,并在仿真和真实任务中取得与约10倍更大VLA相当或更优的表现。

FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens figure
NeurIPS 20252025-06-02

FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens

机器人学习

机器人学习

这篇工作针对视觉运动策略中“扩散法精度高但推理慢、AR法高效却常因离散化损失连续细节”的矛盾,提出先用DCT把动作序列转到频域,再按“低频到高频”自回归地粗到细生成:低频建模全局运动趋势,高频补足灵巧操作细节,并用连续潜变量与扩散式解码保留动作空间连续性。摘要与项目页显示,其在多种2D、3D操作基准上同时优于现有方法的精度与效率,但此处未见具体增益数值,判断基于公开摘要/项目页。

FreeTacMan: Robot-free Visuo-Tactile Data Collection System for Contact-rich Manipulation figure
ICRA 20262025-06-02

FreeTacMan: Robot-free Visuo-Tactile Data Collection System for Contact-rich Manipulation

灵巧操作

灵巧操作触觉数据采集接触丰富遥操作操作

论文针对接触丰富操作中“缺少高质量触觉演示数据”的瓶颈,指出现有遥操作/手持方案因机械链路长、触觉回传弱和定位误差大,难以稳定采集可学数据。FreeTacMan的核心是把视觉-触觉传感器做成可穿戴指尖夹爪,并用亚毫米级光学跟踪同步位姿,尽量保留人手原位触感。基于此采集了300万对以上视触觉图像、1万条轨迹、覆盖50个任务;在模仿学习中,相比纯视觉平均成功率提升约50%,但硬件设计与数据规模各自贡献文中未充分拆分。

Feel the Force: Contact-Driven Learning from Humans figure
arXiv2025-06-02

Feel the Force: Contact-Driven Learning from Humans

触觉

触觉机器人学习

论文针对精细操作中“视觉演示能学轨迹、却难恢复接触力”这一瓶颈,提出 FTF:用触觉手套采集人手受力,结合视觉手姿训练闭环策略,显式预测期望接触力与手部轨迹,再将其重定向到 Franka,并用 PD 控制器实时调节夹爪去跟踪目标力,而不是只把触觉当作被动输入。结果显示,该方法无需机器人训练数据,在 5 个力敏感任务上零样本平均成功率达 77%,受扰动测试中仍有 67%,明显优于多种人类演示和机器人遥操作基线。

Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning figure
NeurIPS 20252025-06-02

Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning

VLA

VLA基础模型机器人学习操作

这篇工作针对VLA在机器人操作中“会想但不够快”的矛盾:大模型具备高层推理能力,却常因低控制频率难以稳定闭环;而现有双系统又将快慢两套模型分离,导致执行端难充分继承VLM知识。FiS的核心做法是把快速执行的System 1直接嵌入慢速推理的System 2中,复用VLM后部Transformer块,并结合异步频率、异构输入与推理-执行联合训练。实验显示,其在仿真和真实任务平均成功率分别提升8%和11%,同时实现117.7Hz控制频率。

OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation figure
arXiv2025-06-01

OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation

3D 表征

3D 表征VLA机器人学习

该文针对VLA虽能理解新指令和新物体、却对相机/机器人位姿变化敏感,而3D感知策略又常过拟合场景的问题,提出OG-VLA:先将多视角RGBD反投影为点云,再渲染到规范正交视图,并让视觉骨干、LLM与扩散模型直接生成编码末端执行器6DoF关键帧的动作图像,从而把语言泛化与3D视角不变性结合起来。实验中其在ARNOLD上达到SOTA,并在ARNOLD与COLOSSEUM的未见环境泛化上取得超过40%的相对提升,同时保持已见场景性能;真实机器人上仅需3到5次示教即可适配新任务。

HoMeR: Learning In-the-Wild Mobile Manipulation via Hybrid Imitation and Whole-Body Control figure
arXiv2025-06-01

HoMeR: Learning In-the-Wild Mobile Manipulation via Hybrid Imitation and Whole-Body Control

移动操作

移动操作人形操作模仿学习操作

论文针对移动操作在家庭场景中既要大范围移动、又要精细交互,而底盘与机械臂协同难学、示教昂贵的问题,提出HoMeR:用运动学全身控制器先把末端位姿指令转成底盘与手臂的协调动作,再让模仿学习策略在“绝对关键位姿”和“相对增量动作”两种模式间切换,分别负责远距离接近与近距离精操。其在3个仿真和3个真实家居任务上仅用每任务20条示教就达到79.17%平均成功率,较次优基线高29.17%,并显示出结合VLM关键点增强新外观与杂乱场景泛化的潜力。

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks figure
arXiv2025-05-31

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

VLA

VLA泛化机器人学习

论文针对长程具身任务中“VLA会动作不会规划、分层系统会规划但协同差”的矛盾,提出统一式 LoHoVLA:用同一预训练 VLM 共享表征,先生成语言子任务,再生成离散动作 token,并配合失败后重规划、未失败则局部闭环修正的控制机制;同时构建含20类任务的 LoHoSet。实验称其在 Ravens 上对已见与未见长程任务均明显优于分层基线和标准 VLA,但增益来源是否部分主要来自新数据集,文中未充分说明。

SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping figure
arXiv2025-05-30

SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping

抓取

抓取3D 表征操作

论文针对透明/镜面反光物体因深度相机失效而难抓取的问题,提出免训练的单视角框架SR3D:先用外部视觉模型从RGB重建物体网格,再通过视角匹配确定朝向、关键点匹配估计位置与尺度,把网格回填到受损RGB-D场景中重建更可靠深度图并用于抓取。仿真和真实实验表明其重建与抓取优于基线,但公开摘要未给出具体提升幅度,判断主要基于摘要与首页信息。

DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation figure
arXiv2025-05-30

DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation

灵巧操作

灵巧操作Affordance双臂操作

这篇工作针对双手长时程灵巧操作中,人手演示难直接迁移到机器人、强化学习又难以稳定探索的问题,提出功能重定向方法 DexMachina。其核心是给物体施加会逐步衰减的虚拟控制器,并结合运动与接触引导奖励,让策略先在“被辅助完成任务”的过程中学会关键接触和双手协同,再逐步接管真实操控。作者还构建了包含6种灵巧手、5类关节物体的仿真基准;实验显示该方法在多手型、多任务上显著优于基线,尤其适合双臂、长时程操作,并能用于比较不同手部硬件的功能性。

Learning Coordinated Badminton Skills for Legged Manipulators figure
SR 20252025-05-29

Learning Coordinated Badminton Skills for Legged Manipulators

四足操作

四足操作操作应用

这项工作面向高速动态物体操作中“看得准、打得中”的难题,把球类对打作为检验机器人实时感知与精准控制的场景。按所给正文判断,论文核心其实是乒乓而非标题中的羽毛球:作者提出结合 Fast-Slow 感知架构与模仿学习击球控制的 SpikePingpong,先用快速物理预测锁定可击点,再用脉冲视觉训练的神经校正器修正偏差,并用 IMPACT 学习回球策略。实验报告在30cm目标区成功率92%、20cm精度任务70%,但增益来源在公开材料里拆解仍不够充分。

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better figure
NeurIPS 20252025-05-29

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

VLA

VLA机器人学习

论文聚焦一个被忽视的问题:VLA为获得实时连续控制而接入flow/diffusion动作专家后,随机初始化模块的梯度会干扰预训练VLM,削弱语言语义迁移并拖慢训练。作者提出“知识绝缘”,让主干继续用离散动作和通用VLM数据做自回归学习,而连续动作专家单独做flow matching且不向主干回传梯度。文中在移动双臂长时程操作、DROID与LIBERO上表明,该法训练更快更稳、推理更快,语言跟随与泛化也优于朴素连续动作头方案。

Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents figure
arXiv2025-05-29

Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents

VLA

VLA泛化

该工作针对长时序操作中静态规划易误差累积、端到端策略缺少自检与纠错的问题,提出受人类SOP启发的Agentic Robot,用SAP把大推理模型规划器、VLA执行器和时序验证器组织成规划—执行—验证闭环,使机器人能按子目标推进、失败重试并恢复。其在LIBERO上平均成功率79.6%,较SpatialVLA和OpenVLA分别提升6.1%和7.4%,但从公开摘要看,协议设计与底座模型/数据规模各自带来的增益比例文中未充分说明。

Streaming Flow Policy: Simplifying diffusion flow-matching policies by treating action trajectories as flow trajectories figure
CoRL 20252025-05-28

Streaming Flow Policy: Simplifying diffusion flow-matching policies by treating action trajectories as flow trajectories

Diffusion Policy

Diffusion PolicyFlow Matching机器人学习

论文针对扩散/流匹配策略必须先完成整段动作序列采样、导致推理慢且控制回路不紧的问题,提出将动作轨迹直接当作流轨迹来生成:从上一动作附近的窄高斯初始化,在动作空间中积分经 flow matching 学到的速度场,并把中间生成的动作在线流式发送给机器人;同时围绕示范轨迹构造稳定化流以减轻分布偏移。实验表明,该方法在保留多模态行为建模能力的同时,性能整体优于或可比现有扩散/流匹配基线,但执行更快、时延更低,更适合滑动时域控制。

SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning figure
CoRLW 20252025-05-28

SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning

数据需求量大

数据需求量大模仿学习数据采集数据筛选基础模型机器人学习

这篇论文关注大规模模仿学习里“数据越多不一定越好”的瓶颈:跨来源示教常混入错误动作和大量重复片段,现有方法又多停留在数据集或整条轨迹级筛选。SCIZOR的关键创新是做无标注、转移级的数据清洗,用自监督任务进度预测器删除缺乏有效进展的状态-动作对,再基于联合状态-动作表征去重,以同时处理次优样本和冗余样本。实验表明,在多个基准上它能用更少数据训出更好的策略,平均提升15.4%,且可扩展到Open-X/Octo这类大规模VLA训练。

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents figure
NeurIPS D&B 20252025-05-28

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

数据集/Benchmark

数据集/Benchmark应用

针对实验室具身智能长期缺少可模拟化学变化、又能评测长程实验流程的平台,论文提出 LabUtopia:以 LabSim 建模多物理与化学反应,以 LabScene 程序化生成真实实验室,并用五级 LabBench 覆盖从原子动作到移动操作的30个任务。基于100+场景、200+资产的评测显示,现有SOTA策略在仪器配置变化和长时序误差累积下仍明显吃亏;判断基于公开摘要与引言,文中主要贡献是提供高保真基准并揭示瓶颈,具体性能增益来源未充分说明。

ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation figure
NeurIPS 20252025-05-28

ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

VLA

VLA触觉接触丰富机器人学习操作

这篇工作针对现有VLA在插拔、装配等接触丰富操作中只依赖视觉与语言、遇到遮挡或接触不确定性时难以靠受力反馈及时修正的问题,提出ForceVLA:将末端6轴力作为“一等模态”接入策略,并设计力感知MoE模块FVLMoE,在动作解码时按任务阶段动态融合视觉、语言与力信号;同时构建了覆盖5类任务的视觉-本体-力同步数据集ForceVLA-Data。实验显示其相对强π0基线平均成功率提升23.2%,插头插入最高达80%,对新物体、遮挡和物理扰动也更稳健。

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation figure
RSSW 20252025-05-28

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

灵巧操作

灵巧操作数据采集遥操作操作

论文针对灵巧手遥操作中空间错位、缺少直接触觉、以及人手到异构机器人手重定向困难的问题,提出把人手本身作为通用操作接口:一方面为每种目标手优化可穿戴外骨骼,使示教动作天然落在机器人可执行空间,并同步记录精确关节与触觉;另一方面用视频分割与机器人手补全统一训练与部署时的视觉输入。方法在 Inspire 和 XHand 上完成四类长程、接触丰富任务,平均成功率为 86%,数据采集效率较遥操作提升 3.2 倍;但各模块的单独增益来源文中未充分说明。

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge figure
NeurIPS 20252025-05-28

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

VLA

VLA语言条件机器人学习

该文关注VLA在机器人数据微调后会遗忘预训练VLM知识、导致开放世界泛化差的问题,提出ChatVLA-2:在VLM骨干中引入动态MoE分离并共享“视觉语言理解/动作控制”特征,再配合“推理到动作一致”的增强模块和两阶段训练,尽量保留原有常识与推理。实验中,模型在未显式训练OCR和算术的白板算式取卡、以及未见物体的空间方位放置任务上表现突出,并整体超过OpenVLA、DexVLA和π0,但各项增益中架构、数据与规模的相对贡献文中未充分说明。

BLADE: Learning Compositional Behaviors from Demonstration and Language figure
CoRL 20242025-05-28

BLADE: Learning Compositional Behaviors from Demonstration and Language

模仿学习

数据需求量大模仿学习泛化

这篇工作针对长时程操作里“短技能能学会、但难以自动拼接成可规划行为”的问题,提出 BLADE:先把语言标注示教按接触事件分段,再借助 LLM 归纳每个高层动作的前置条件和效果,并学习其视觉 grounding 与低层控制器,从而在不手工定义符号状态的情况下完成规划组合。实验表明,它在 CALVIN 和真实机器人上对新初始状态、外部扰动、部分可观测和几何约束下的新目标都明显优于 HULC、SayCan、VILA 等基线;但文中也承认性能仍依赖示教数据与底层技能泛化,部分增益可能主要来自 scaling / data。

Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models figure
arXiv2025-05-27

Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models

VLA

VLA数据筛选机器人学习

本文关注VLA在实时机器人控制中推理开销大,而连续动作与视觉token都存在明显冗余。作者提出无需重训、可即插即用的FlashVLA:先根据动作相似度和视觉token稳定性判断是否跳过解码并复用上一步动作;若必须推理,再按信息贡献分数选择关键视觉token进行剪枝,且兼容Flash Attention骨干。LIBERO上其将token保留到62.5%时,FLOPs降55.7%、时延降36.0%,成功率仅下降0.7%。

PartInstruct: Part-level Instruction Following for Fine-grained Robot Manipulation figure
RSS 20252025-05-27

PartInstruct: Part-level Instruction Following for Fine-grained Robot Manipulation

任务规划

任务规划3D 表征操作

这篇工作针对现有语言操控基准大多停留在对象级、难以支撑“抓住杯把并转到某朝向”这类细粒度操作的问题,提出 PartInstruct:在 PartGym 中构建带部件语义的训练与评测基准,提供 513 个物体、1302 个任务、上万条示教,以及任务指令、技能链和 3D 部件标注。其关键洞察是把高层任务分解为可接地到点云/3D 部件的基础技能。实验表明,现有端到端和双层规划方法在部件概念接地、3D 动作预测和长程操作上都明显吃力,而更稳健的部件级 3D 表征能带来提升。

Learning Unified Force and Position Control for Legged Loco-Manipulation figure
CoRL 20252025-05-27

Learning Unified Force and Position Control for Legged Loco-Manipulation

四足操作

移动操作四足操作触觉操作

这项工作针对腿足移动操作中“只控位、不感力”导致接触任务不稳定的问题,提出首个无需外置力传感器的统一力-位控制策略:在仿真中联合采样位置/力指令与外扰,用强化学习让策略从历史本体状态估计外力,并通过位置与速度补偿实现协同控制。结果显示,该策略在四足与人形平台上都能稳定实现位置跟踪、施力、力跟踪和柔顺交互;进一步作为示教底层策略引入力信息后,四类高接触模仿学习任务的成功率相对仅位置控制提升约39.5%。

Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt figure
arXiv2025-05-27

Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt

视频规划

视频规划模仿学习Latent Learning数据采集泛化机器人学习

论文针对机器人学习在新任务上常需重新采集遥操作数据并微调、成本高且泛化差的问题,提出两阶段的人类视频提示框架:先通过人类/机器人视频的交叉预测微调视频扩散模型,学习跨本体的任务与场景表征;再把该表征与人机共享动作空间结合,并加入原型对比损失训练扩散策略,使机器人可直接根据未见任务的人类演示视频零样本执行。文中称其在真实世界灵巧操作上表现出有效泛化,但公开摘要未充分说明相对基线的具体提升幅度与增益来源。

Hume: Introducing System-2 Thinking in Visual-Language-Action Model figure
arXiv2025-05-27

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

VLA

VLA感知机器人学习

这篇工作针对现有VLA多依赖快速反应式控制、在复杂灵巧操作中缺乏“慢思考”,而显式文本推理又难兼顾实时性的矛盾,提出双系统Hume:System-2以低频通过价值头对多组候选动作做best-of-N筛选,System-1再对选中的长时域动作级联去噪并高频执行。实验在3个仿真基准和21个真实机器人设置上取得SOTA,LIBERO较π0提升4.4%,Simpler提升25.9%,真实部署提升12.9%;但文中也承认其System-2仍较朴素。

EquAct: An SE(3)-Equivariant Multi-Task Transformer for Open-Loop Robotic Manipulation figure
ICLR 20262025-05-27

EquAct: An SE(3)-Equivariant Multi-Task Transformer for Open-Loop Robotic Manipulation

3D 表征

3D 表征Transformer Policy机器人学习操作

针对多任务语言条件下的关键帧操作策略在场景旋转、平移后几何一致性差、对新3D布局泛化弱的问题,EquAct把“动作随观测做SE(3)等变、语言条件保持几何不变”直接写进模型:用SE(3)等变点云Transformer U-Net与等变field network做策略推理,并以iFiLM注入语言。结果上,它在18个RLBench的SE(2)/SE(3)扰动和4个真实任务上达SOTA;文中报告相对基线在SE(2)下100/10条演示提升2.6%/6.2%,在SE(3)下10条演示提升15.4%,但仍局限于开环关键帧任务。

What Can RL Bring to VLA Generalization? An Empirical Study figure
NeurIPS 20252025-05-26

What Can RL Bring to VLA Generalization? An Empirical Study

VLA

VLA泛化机器人学习

针对VLA主要依赖SFT、在分布偏移下易出现误差累积而泛化受限的问题,本文在抓取放置任务上构建了覆盖视觉、语义与执行三类OOD场景的系统评测基准,并横向比较PPO、DPO、GRPO等RL微调方法。核心洞察是RL收益并不平均:PPO在视觉鲁棒性上与SFT基本持平,但在语义理解和执行抗扰动上明显更强,也表明LLM中常见的偏好优化方法未必适合VLA动作学习;作者还给出共享actor-critic、先warm-up再少轮PPO更新的高效训练配方。

Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends figure
arXiv2025-05-26

Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends

VLA

VLA综述

这篇综述的动机是,VLA虽已具备一定零样本泛化,但在真实高精度操作里仍受限于数据规模小、机器人本体差异大和任务规则抽象,单靠预训练难以直接落地。作者把人类运动学习中的Newell约束理论引入VLA后训练,将现有方法归纳为环境感知增强、具身感知提升、任务理解深化和多模块联合四类,并对标准基准结果做横向汇总,提炼出选型与部署建议。论文的主要结果是给出统一框架与挑战趋势地图,而非提出新的SOTA算法,统一增益大小文中未充分说明。

OSVI-WM: One-Shot Visual Imitation for Unseen Tasks using World-Model-Guided Trajectory Generation figure
NeurIPS 20252025-05-26

OSVI-WM: One-Shot Visual Imitation for Unseen Tasks using World-Model-Guided Trajectory Generation

模仿学习

模仿学习世界模型感知机器人学习

这篇工作针对单次视觉模仿常在训练/测试任务近似时才有效、遇到语义相近但操作相反的未见任务就失灵的问题,引入世界模型在潜空间递推未来状态与动作,并将生成轨迹解码为可执行waypoint,结合测试时重规划来提升长期推理与纠错能力。文中在两个仿真基准和三个真实机器人平台上均优于既有方法,部分场景提升超过30%;但各模块增益的具体来源在公开材料中仍不完全清晰。

EgoZero: Robot Learning from Smart Glasses figure
arXiv2025-05-26

EgoZero: Robot Learning from Smart Glasses

数据采集

数据采集机器人学习

论文针对机器人真实世界数据采集昂贵、而人类日常操作数据未被充分利用的问题,提出 EgoZero:仅用 Aria 智能眼镜采集第一视角人类示范,不依赖遥操作、标定或任何机器人数据,通过从视觉与里程计中恢复可执行的 3D 点式状态/动作表示,缩小人手与机械臂的形态差异,并训练闭环策略。部署到 Franka Panda 后,在 7 个抓取、开门和搬运任务上实现平均 70% 的零样本成功率,每个任务只需约 20 分钟、100 段示范数据。

ControlTac: Force- and Position-Controlled Tactile Data Augmentation with a Single Reference Image figure
arXiv2025-05-26

ControlTac: Force- and Position-Controlled Tactile Data Augmentation with a Single Reference Image

触觉

触觉数据采集数据增强

这篇工作针对视觉触觉数据采集昂贵、跨传感器差异大,导致仿真和自由生成触觉图像不够真实、难用于下游的问题,提出ControlTac:以单张真实参考触觉图像为外观锚点,先用相对3D力条件驱动扩散生成,再借助ControlNet式接触掩码细化接触位置,从而得到受力与位置都可控的增强样本。文中在力估计、位姿估计和未见物体分类上报告了稳定提升,位姿任务据称可达仅用真实数据训练的约2倍,并在推物、位姿跟踪和精密插入中验证了实用性;但增益有多少来自模型设计、多少来自数据扩增规模,文中未充分说明。

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning figure
arXiv2025-05-24

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

强化学习

强化学习VLA触觉机器人学习操作

论文针对纯模仿式VLA在分布外状态易失效的问题,提出VLA-RL:把机器人操作轨迹统一成多模态多轮对话,在预训练自回归VLA上做轨迹级在线PPO,并用由视觉语言模型微调得到的过程奖励模型缓解稀疏奖励,再结合课程选择、批量解码和GPU均衡并行环境提升稳定性。其在LIBERO 40个任务上使OpenVLA-7B较强SFT基线提升4.5%,并接近π0-FAST;但从文中看,增益中RL与工程scaling各自贡献未被充分拆解。

ManiFeel: Benchmarking and Understanding Visuotactile Manipulation Policy Learning figure
arXiv2025-05-24

ManiFeel: Benchmarking and Understanding Visuotactile Manipulation Policy Learning

基础操作

基础操作触觉机器人学习操作数据集/Benchmark

这篇工作针对视觉模仿学习在遮挡、低照度和精细接触操作中容易失效,而视触觉学习又缺少统一可复现实验平台的问题,提出 ManiFeel:一个覆盖插入、装配、容器内探索与分拣等任务的视触觉操作基准,并把感知模态、触觉表征和策略结构拆成可组合模块做系统比较。结果表明,加入触觉通常能提升接触密集和视觉受限场景的策略表现,但不同触觉模态的收益明显依赖任务;仿真与真实机结果相关,说明该基准有一定外部有效性,不过具体最优配置与增益来源文中未充分说明。

Canonical Policy: Learning Canonical 3D Representation for Equivariant Policy figure
arXiv2025-05-24

Canonical Policy: Learning Canonical 3D Representation for Equivariant Policy

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作针对视觉模仿学习在新物体、视角和空间布局下泛化差的问题,指出仅把等变模块拼进策略网络,难以端到端严格保持 SE(3) 对称性。作者的核心思路是先用等变的规范化过程,把点云观测连同机器人状态、动作统一映射到共享 canonical frame,再在该坐标系中接入 diffusion/flow matching 等生成式策略头,从而把几何对齐与动作生成解耦。实验在 12 个仿真任务和 4 个真实任务、16 种配置上,相比 DP3、iDP3、EquiBot、EquiDiff 等平均提升 18.0% 和 39.7%,显示出更强的泛化和样本效率。

Bootstrapping Imitation Learning for Long-horizon Manipulation via Hierarchical Data Collection Space figure
arXiv2025-05-23

Bootstrapping Imitation Learning for Long-horizon Manipulation via Hierarchical Data Collection Space

数据需求量大

数据需求量大模仿学习数据采集泛化操作

这篇工作针对模仿学习做长时程操作时“整段示教成本高、后续步骤易累计误差”的问题,不改策略网络,而是重设计数据采集空间:把复杂任务拆成带重叠边界的原子子任务,并在各自状态/动作空间内主动、均匀采集示教,以更集中覆盖易出错轨迹。论文在两类仿真和五个真实世界任务上表明,HD-Space用更少示教即可显著提升成功率和长序列泛化;其增益看起来主要来自 data collection,而非模型结构创新。

TacCompress: A Benchmark for Multi-Point Tactile Data Compression in Dexterous Manipulation figure
ACM MMW 20252025-05-22

TacCompress: A Benchmark for Multi-Point Tactile Data Compression in Dexterous Manipulation

基础操作

基础操作灵巧操作触觉数据筛选操作数据集/Benchmark

面向灵巧手因多点触觉传感带来的带宽与存储压力,TacCompress提出多点触觉压缩基准Dex-MPTD,覆盖不同物体、抓取姿态与手部接触分布,并将触觉序列按手部结构映射为图像,系统比较6种无损和5种有损编解码器。结果显示,无损压缩最低可到0.0364 bpss、较原始数据约压缩200倍;HM、VTM等有损方案可达约1000倍压缩,分类任务仅约1%精度下降,且面向屏幕内容的编码工具优于通用编解码器。

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation figure
arXiv2025-05-22

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

VLA

VLA安全语言条件机器人学习操作

这篇工作针对现有机器人操控策略缺乏显式3D建模、视觉与机器人状态未对齐、跨相机与跨本体泛化差的问题,提出SEM:将多视角视觉特征与由正运动学得到的关节6D位姿统一投到机器人基座的3D坐标系中,并用关节图注意力建模关节依赖,再以扩散策略直接生成关节轨迹。仿真RoboTwin 2.0上,约4000万参数的SEM多任务平均成功率达84.6%,比文中对比基线高约29.5%;真实世界7个任务也全面优于RDT,消融进一步表明统一3D空间、深度融合和关节图建模是主要增益来源。

RIPT-VLA: Interactive Post-Training for Vision-Language-Action Models figure
arXiv2025-05-22

RIPT-VLA: Interactive Post-Training for Vision-Language-Action Models

VLA

VLA机器人学习

RIPT-VLA针对VLA长期依赖离线示范、在少样本和新环境下难以适应的问题,在预训练和SFT之后加入“交互式后训练”第三阶段:仅用成功/失败二值奖励做强化学习,并用动态rollout采样与leave-one-out优势估计构造更稳定、无需critic的更新。实验中,QueST在LIBERO等基准平均绝对提升约10.9%,OpenVLA-OFT升至97.5%,且1条示范即可把4%成功率在15轮内拉到97%。

ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models figure
AAAI 20262025-05-22

ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models

强化学习

强化学习VLA触觉机器人学习操作

这篇工作针对现有机器人操作VLA过度依赖人工标注、换域后物理推理和泛化能力下降的问题,提出ManipLVM-R1,用可验证奖励的强化学习替代SFT;其关键洞察是把奖励细化为可供性区域定位和轨迹匹配两类规则,用及时反馈、空间约束与路径可行性约束逼模型学会更真实的交互规律。结果上,它仅用50%训练数据就实现更强泛化:可供性感知IoU较最强基线提升144%,轨迹预测提升12.5%,OOD测试也超过RoboBrain-7B等模型。

Find the Fruit: Designing a Zero-Shot Sim2Real Deep RL Planner for Occlusion Aware Plant Manipulation figure
arXiv2025-05-22

Find the Fruit: Designing a Zero-Shot Sim2Real Deep RL Planner for Occlusion Aware Plant Manipulation

任务规划

任务规划Sim2Real操作应用

这篇工作聚焦采摘前“先找果实”的难题:果实常被叶片和枝干遮挡,且不同植株的刚度与形态差异很大,使基于模型的交互控制难以稳定落地。作者的关键思路是将高层RL运动规划与底层柔顺控制解耦,在Isaac Lab中用FEM通用植株模型和随机遮挡训练策略,再零样本迁移到真实机器人主动拨开枝叶。实机在多种植株上最高达到86.7%的果实显露成功率,双果顺序显露为88.9%;但在更硬、更灌木状植株上明显退化,说明泛化仍受形态差异和力矩上限约束。

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning figure
CVPR 20262025-05-22

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

视频规划

视频规划Latent Learning机器人学习

这篇工作针对现有从无动作互联网视频学习离散潜动作时,虽能缓解背景“走捷径”,却丢失细粒度动态且与连续机器人动作分布不匹配的问题,提出自监督连续潜运动 CoMo。其关键是用早期时序差分替代直接编码未来帧,并配合时序对比学习,让表征更聚焦前景运动而非静态背景,还可为未见视频零样本生成伪动作标签。实验表明,CoMo在仿真与真实机器人上都优于离散和朴素连续基线,对开抽屉、插入等精细操作更明显,但文中也承认部分任务增益有限。

BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization figure
NeurIPS 20252025-05-22

BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization

VLA

VLA安全机器人学习

该文关注 TaaS 与开源微调场景下 VLA 的后门风险:长时序控制、视觉—语言—动作强耦合以及多模态投毒成本高,使传统后门方法难以直接生效。作者提出 BadVLA,通过“目标解耦”的两阶段优化,先在特征空间显式分离触发器表征,再冻结感知模块并用干净数据校正动作头,使异常控制仅在触发出现时激活。实验显示其在 RT-2、OpenVLA 等基准上攻击成功率接近 100%(文中汇总约 96.7%),对干净任务性能影响很小,且对输入扰动、任务迁移和后续微调仍较稳健。

3D Equivariant Visuomotor Policy Learning via Spherical Projection figure
NeurIPS 20252025-05-22

3D Equivariant Visuomotor Policy Learning via Spherical Projection

3D 表征

3D 表征Diffusion Policy机器人学习

论文针对现有等变扩散策略多依赖多相机点云、难以适配手眼单目RGB输入的问题,提出 Image-to-Sphere Policy:先将2D图像特征投到球面,再依据相机姿态做旋转补偿,并接入SO(3)等变扩散策略,从而无需显式重建点云也能利用3D旋转对称性。论文还给出全局SO(3)等变与局部SO(2)不变性分析;实验报告在12个仿真任务和4个真实任务上,平均成功率分别较强基线提升11.6%和42.5%,样本效率也更好。

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control figure
ICCV 20252025-05-21

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

模仿学习

模仿学习VLA机器人学习操作

这篇工作针对VLA等模仿学习策略虽强但难以上边缘机器人部署的问题,指出低比特量化并非在所有时刻都致命,真正导致任务失败的是少数“任务关键状态”上的动作偏差。基于这一洞察,作者提出SQIL,用显著性分数定位关键状态,并在量化感知训练中对这些状态施加更高的动作蒸馏/加权损失。结果是在机器人操作、自动驾驶和MuJoCo上,4比特模型基本恢复全精度表现;其中OpenVLA在LIBERO上几乎追平FP,并带来最高2.5倍速度与2.5倍能耗收益。

Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation figure
arXiv2025-05-21

Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation

灵巧操作

数据需求量大灵巧操作VLA泛化操作

这篇工作针对灵巧手模仿学习在物体位置变化和背景变化下泛化差、而VLA又依赖大规模数据的问题,提出OFA。其核心洞察是同一灵巧操作在接近目标后的末端手腕与手指轨迹往往高度一致,因此先做目标6D位姿估计与轨迹规划,把手送到预操作位,再只学习这段“面向对象”的局部收尾策略。真实机器人7项任务中,OFA在位置与背景泛化上明显优于基线,文中称同分布实验增益超过50%,且仅用10条示范仍能保持较稳表现。

From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems figure
EMNLP 20252025-05-21

From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems

任务规划

任务规划多模态推理基础模型操作

面向语言驱动机器人,作者聚焦一个常被忽视的问题:端到端VLA、模块化VLM流水线与多模态LLM代理,在指令落地和操作泛化上各自付出什么代价。论文用“复杂指令消歧/grounding”和“操作技能迁移”两类案例做对比,核心洞察是性能、部署成本与数据效率并不一致:VLM方案最省参数且更可解释,但复杂grounding较弱;MLLM复杂推理更强,却推理成本高、量化后会出现能力不均匀退化;VLA动作生成直接,但grounding难单独评估,且如OpenVLA的微调适应更脆弱、收敛更慢。

FLARE: Robot Learning with Implicit World Modeling figure
CoRL 20252025-05-21

FLARE: Robot Learning with Implicit World Modeling

Latent Learning

Latent Learning世界模型机器人学习

这篇工作针对把世界模型做成未来图像生成时算力开销大、且容易与动作学习目标冲突的问题,提出FLARE:不预测像素,而是在扩散/flow-matching策略里加入少量future tokens,让中间隐状态对齐未来观测的潜表示,并先预训练面向控制的动作感知视觉语言嵌入。这样几乎不改VLA架构,却让策略在出动作时能利用对未来状态的隐式推理;在单臂和人形多任务模仿学习基准上最高较已有方法提升26%,还可结合无动作标注的人类第一视角视频训练,在新物体上仅用1次机器人示范提升泛化,真实GR1实验成功率达95%。

AGNOSTOS: Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization figure
NeurIPS 20252025-05-21

AGNOSTOS: Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

基础操作

基础操作VLA泛化操作数据集/Benchmark

论文聚焦一个被忽视的问题:现有VLA常检验同任务内视觉变化,却很少严格评估对未见操作任务的零样本泛化。为此作者提出基于RLBench的AGNOSTOS基准,用23个与训练分布错开的任务和两级难度专门测试跨任务泛化,并发现无论是机器人大数据预训练、视频预训练还是域内训练模型,表现都普遍较弱。针对这一缺口,文中提出X-ICM,用已见任务演示做上下文提示,并以动力学引导选择更相关示例;在该基准上相对π0和VoxPoser分别提升6.0%与7.9%。

Vid2World: Crafting Video Diffusion Models to Interactive World Models figure
ICLR 20262025-05-20

Vid2World: Crafting Video Diffusion Models to Interactive World Models

视频规划

视频规划Diffusion Policy世界模型感知机器人学习

这篇工作关注世界模型长期依赖动作标注数据、预测粗糙的问题,核心想法是把互联网视频预训练的扩散视频模型直接改造成可交互世界模型,而不是从头收集大量机器人数据训练。方法上,Vid2World系统解决两件事:将原本非因果、整段去噪的视频扩散模型因果化为可自回归rollout的模型,并通过逐帧动作注入与因果action guidance提升反事实动作可控性。实验在机器人操作、3D游戏和开放世界导航上均优于既有迁移方法和多种SOTA世界模型,说明高保真视频生成先验可有效迁移到决策场景。

RoboCulture: A Robotics Platform for Automated Biological Experimentation figure
arXiv2025-05-20

RoboCulture: A Robotics Platform for Automated Biological Experimentation

操作

操作应用

这项工作针对生物实验自动化长期受限于毫米级精度、多步骤长时程流程和活体系统不确定性的问题,提出RoboCulture:用通用7轴机械臂把视觉闭环加样、力控吸头更换、基于图像亮度/光密度的生长监测和行为树式协议执行整合起来,从而在任意摆放的96孔板上实现可恢复的端到端操作。实验中系统连续运行15小时完成酵母培养,生长曲线与板式读数结果基本一致,并能据此决定分种时机;但文中也说明出于安全考虑,分种最初由人工触发。

GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions figure
ICCV 20252025-05-20

GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions

抓取

抓取可变形物体操作

这篇工作针对语言驱动6-DoF抓取中“能理解意图却不懂物理属性”的缺口,试图让机器人在面对隐式、甚至多目标指令时,不只找对物体,还选对抓法。方法上提出GraspCoT,用辅助问答驱动的三阶段CoT(目标解析、物性分析、动作选择),并把多视角3D感知token与文本推理token统一送入多模态LLM直接预测抓取位姿;同时构建了IntentGrasp基准。结果称其在该基准上提升姿态精度和避碰率,并在Kinova机械臂上验证可行,但具体提升幅度文中未充分说明。

DORA: Object Affordance-Guided Reinforcement Learning for Dexterous Robotic Manipulation figure
CBS 20252025-05-20

DORA: Object Affordance-Guided Reinforcement Learning for Dexterous Robotic Manipulation

灵巧操作

灵巧操作Affordance强化学习触觉操作

论文关注灵巧手强化学习在高维控制与对象语义理解上的双重困难,认为仅靠试错难以学到“该抓哪里、为何这样抓”。DORA先利用物体affordance图生成具功能语义的抓取候选,再通过投票式抓取分类、运动可行性过滤和affordance感知奖励,把这些候选同时作为策略先验与约束纳入RL。仿真中在立方体抓取、壶柄抓举和锤子重定向三类任务上,平均成功率提升15.4%,语义相关抓取最高提升27.7%,且收敛更快,但更复杂场景仍受仿真穿模影响。

Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation figure
arXiv2025-05-19

Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation

VLA

VLA机器人学习操作

论文动机是现有VLA多靠动作头直接回归控制,推理与执行脱节,导致复杂操作中的空间理解、纠错和泛化不足。作者提出ReasonManip,把操作改写为多轮“下一目标”位姿推理,用轴式旋转表示和物体/夹爪结构化状态输入统一到语言空间,再以少量高质量对话SFT并结合仿真GRPO强化推理。结果显示,7B模型在OOD任务、视角变化和仿真到真实迁移上优于现有VLA,并带来可解释的碰撞检查与反思过程,但具体增益有多少文中未充分说明。

GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation figure
CoRL 20252025-05-19

GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation

抓取

抓取数据生成泛化基础模型操作

论文聚焦任务导向抓取中“抓得稳不等于抓得对”的问题:同一物体因任务不同需抓不同部位。作者的关键做法是构建含37.9万样本的PRISM合成数据集,在拥挤场景中用自然语言标注任务语义,并微调Molmo,让模型从单帧RGB-D先预测语义抓取点、再匹配6-DoF抓取候选。结果上,GraspMolmo在TaskGrasp达76.7%,真实复杂任务预测成功率70.4%,明显优于现有方法;其增益看起来主要来自大规模数据与场景、语言多样性的共同作用。

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories figure
CoRL 20252025-05-19

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories

Latent Learning

Latent Learning泛化机器人学习

该工作针对机器人学习过度依赖逐任务遥操作数据、难以泛化到新行为和新环境的问题,提出 DreamGen:先用少量真实轨迹微调视频世界模型,再用“初始帧+语言”生成机器人视频,并通过潜在动作模型或逆动力学模型补出伪动作,形成可训练策略的“神经轨迹”。实验显示,合成数据在 RoboCasa 扩到 333× 时性能近似对数增长;真实 9 个任务上成功率普遍提升,且仅凭单环境的 pick-and-place 数据,GR1 就能迁移到 22 个新行为,在已见/未见环境中分别达 43.2%/28.5%。

RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction figure
arXiv2025-05-18

RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction

操作

操作数据集/Benchmark

这篇工作针对VLA主要只学成功示范、缺少失败诊断与恢复监督,导致开放场景中一旦出错就难以重规划的问题,提出RoboFAC:先构建覆盖仿真与真实环境的失败中心数据集,将操作失误按控制层级细分为6类并配套多维视频问答,再训练轻量级多模态“外部监督器”做任务理解、失效归因和纠偏建议。实验显示其失败分析准确率较GPT-4o高34.1%,接入真实机器人VLA流程后四项任务成功率相对提升29.1%,且推理延迟约降至1/3。

MTIL: Encoding Full History with Mamba for Temporal Imitation Learning figure
RA-L 20252025-05-18

MTIL: Encoding Full History with Mamba for Temporal Imitation Learning

模仿学习

模仿学习Mamba Policy机器人学习

针对长时程机器人操作里“同一观测对应不同历史”的时序歧义,以及 Transformer 难以低成本处理全历史的问题,MTIL 以 Mamba-2 状态空间模型在线性时间内编码整段轨迹,把递归隐状态视作面向行动的隐式世界模型或信念状态,再与当前观测联合预测动作块。文中在 ACT、Robomimic、LIBERO 和真实任务上整体优于 ACT、Diffusion Policy,并在长记忆场景超过 Transformer-XL;但未见对增益究竟来自全历史建模还是模型规模的充分拆解。

OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning figure
ICLR 20262025-05-17

OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning

辅助任务

辅助任务VLA机器人学习

论文针对双系统机器人将高层推理与低层控制拆开后易出现能力错配、指导滞后和时延过高的问题,提出统一的 OneTwoVLA:同一 VLA 用 [BOR]/[BOA] 自适应决定何时显式推理、何时直接出动作,只在子任务完成、出错或需人机交互等关键时刻生成场景、计划与历史总结,并用合成的具身推理视觉语言数据与机器人数据联合训练。实验表明其在长程规划、错误检测恢复、人机交互和视觉指代泛化上均优于基线,长程任务较 flat VLA 和双系统分别提升 30% 和 24%,同时执行时延接近纯动作模型。

L2D2: Robot Learning from 2D Drawings figure
Auton. Robots 20252025-05-17

L2D2: Robot Learning from 2D Drawings

感知

感知机器人学习

这篇工作针对实体示教采集成本高、每次都要重置场景的问题,提出L2D2:让用户直接在工作区图像上绘制并标注机器人轨迹,再用视觉-语言分割自动改动物体位置生成合成场景,批量收集多样示例。其关键洞察是用少量物理纠正把静态2D草图落到动态3D操作中,弥补草图缺少深度与接触效果的信息缺口。实验和用户研究表明,同等时间用户可提供约2倍示例,且策略性能、数据效率和长时程泛化优于其他绘图式方法。

H2R: A Human-to-Robot Data Augmentation for Robot Pre-training from Videos figure
CVPRW 20252025-05-17

H2R: A Human-to-Robot Data Augmentation for Robot Pre-training from Videos

视频规划

视频规划数据采集数据增强基础模型

这篇工作针对用第一视角人类视频做机器人预训练时,人手与机械臂外观差异会削弱表征迁移的问题,提出 H2R:先估计人手3D姿态并重定向到仿真机械臂,再分割并修复原视频中的人臂,最后按相机几何对齐把渲染机器人叠回画面,并用CLIP相似度检查语义保真。该方法在四个仿真基准上带来1.3%–10.2%的成功率提升,在UR5和双臂真实任务上提升3.3%–23.3%;但增益中有多少来自视觉对齐而非额外数据因素,文中未充分拆解。

Zero-Shot Visual Generalization in Robot Manipulation figure
NeurIPS 20252025-05-16

Zero-Shot Visual Generalization in Robot Manipulation

泛化

数据需求量大泛化感知操作

论文针对视觉操控策略一遇到光照、背景杂物或相机扰动就失效,而现有方法常依赖深度、域随机化或大规模多样数据的问题,提出把解耦表征与联想式潜变量记忆扩展到复杂操作,并将ALDA接入Diffusion Policy,再用learned canonicalization把任意已训练策略改造成具2D平面旋转不变性。结果显示其在仿真和真机上都能零样本适应光照、物体颜色、干扰物及部分相机旋转,整体优于现有RL/模仿学习基线;但对桌面颜色变化和强过曝仍会明显失败,说明数据多样性仍关键。

ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations figure
CoRL 20252025-05-16

ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations

模仿学习

模仿学习强化学习触觉基础模型机器人学习

这篇工作针对机器人每学一个新操作都要重新收集示范或手写奖励的成本问题,提出 ReWiND:先用极少量带语言的示范学习语言条件奖励,再用其给离线数据打分预训练策略,遇到新任务仅靠语言和少量在线交互微调。关键在于把视频进度预测转成稠密奖励,并用 video rewind 从成功轨迹自动合成失败轨迹,结合预训练视觉/语言编码器与 Open-X 数据增强泛化。实验显示其奖励泛化和策略对齐优于基线最高 2.4 倍,仿真适应效率约提升 2 倍,真实双臂预训练策略提升约 5 倍。

Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views figure
RSSW 20252025-05-16

Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views

抓取

抓取数据生成操作

论文关注多视角抓取中“多看几眼更准,但移动相机代价高”的矛盾,提出先用3个真实RGB-D视角通过Gaussian Splatting重建场景,再合成16个邻近新视角,并将这些渲染结果送入现成的GraspNet抓取网络。核心洞察是:辐射场可在不额外移动相机的情况下补足遮挡与场景上下文。GraspNet-1B实验表明,新视角能带来额外的force-closure抓取并提升物体抓取覆盖率,但增益究竟来自辐射场质量还是单纯“更多视角”,文中未充分拆解,且尚缺真实机器人验证。

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video figure
ICLR 20262025-05-16

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

灵巧操作

灵巧操作视频规划基础模型操作数据集/Benchmark

论文针对灵巧操作模仿学习缺少可规模化、高精度标注数据的问题,提出用 Vision Pro 被动采集第一视角人手操作视频,绕开遥操作难扩展的瓶颈。EgoDex包含829小时、33.8万段演示和194类桌面任务,并同步提供手指级3D骨架、相机位姿与语言标注,同时建立手轨迹预测基准。实验显示2秒预测下最优 EncDec+FM 的 best-of-10 平均误差约3.8厘米,且性能随数据量继续提升;但收益可能主要来自 scaling / data,跨场景泛化与标注误差影响文中未充分说明。

Counterfactual Behavior Cloning: Offline Imitation Learning from Imperfect Human Demonstrations figure
arXiv2025-05-16

Counterfactual Behavior Cloning: Offline Imitation Learning from Imperfect Human Demonstrations

模仿学习

模仿学习数据采集数据增强安全机器人学习

论文关注机器人从普通人示教中学习时,演示常含噪声、失误和次优动作,直接行为克隆会把错误一并学走。作者提出 Counter-BC,通过在示教动作附近构造“反事实动作”并在约束范围内自动修正演示,学习能统一解释整批数据的更简单、更一致策略,而非逐点照抄人类操作。理论上其可处理多教师与不同熟练度数据;实验在仿真、标准数据集和真实空气曲棍球机器人上均显示,相比现有离线模仿学习方法,对噪声示教更鲁棒、任务表现更好。

SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning figure
SR 20252025-05-15

SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning

模仿学习

模仿学习Transformer Policy语言条件应用

面向真实手术中软组织差异大、操作链条长、且需抓取/夹闭/切割等高灵巧接触操作难以靠规则或普通端到端策略稳定完成的问题,论文提出分层式 SRT-H:高层在语言空间生成任务与纠错指令,低层用 Transformer 模仿学习执行轨迹,仅依赖 RGB 图像和语言标注。在离体胆囊切除的夹闭与切断步骤上,系统以 34 个猪胆囊、1.6 万条轨迹训练后,在 8 个未见样本上完成 17 个子任务,完全自主成功率达 100%,但速度仍慢于专家。

ImagineBench: Evaluating Reinforcement Learning with Large Language Model Rollouts figure
arXiv2025-05-15

ImagineBench: Evaluating Reinforcement Learning with Large Language Model Rollouts

强化学习

强化学习触觉跨本体语言条件数据集/Benchmark

这篇工作针对“用LLM生成想象轨迹以减少真实交互数据”的强化学习研究缺少统一评测基准的问题,提出 ImagineBench:首个同时提供真实轨迹与LLM想象轨迹、覆盖运动/操作/导航并带分级语言指令的离线RL基准。其核心洞察是,现有离线RL直接混合两类数据虽能提升未见任务表现,但在困难任务上成功率仍只有35.44%,明显低于用真实轨迹训练的64.37%,说明瓶颈在于如何有效利用想象轨迹,而不只是继续堆数据。判断基于公开摘要/项目页。

IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning figure
arXiv2025-05-15

IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning

模仿学习

模仿学习强化学习RL+IL触觉机器人学习

这篇工作针对机器人中“先用模仿学习预训练、再用强化学习微调”常出现的样本效率低、训练不稳和性能塌陷问题,提出 IN-RIL:在RL微调期间周期性插入IL更新,并通过梯度分离将可能冲突的IL/RL优化隔离到近似正交子空间。核心洞察是交替更新可帮助策略跳出各自局部最优。实验覆盖3个基准、14个操控与运动任务,显示其能提升在线微调稳定性与采样效率,Robomimic Transport 成功率从12%提高到88%。

EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation figure
arXiv2025-05-15

EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation

3D 表征

3D 表征Latent Learning机器人学习操作

论文针对现有3D视觉基础模型与桌面操作场景存在数据域差、且难有效利用深度与点云的问题,先用ZED处理原始DROID构建含7.6万轨迹的DROID-3D,再以随机掩码和跨模态融合训练统一的RGB-深度-点云MAE表征。结果显示,它在SO100、xArm上的20个真实任务及70个仿真任务中同时提升训练效率与最终性能,并呈现较好scaling;但模型设计与数据质量各自带来的增益,文中未充分说明。

VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation figure
arXiv2025-05-14

VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation

触觉

触觉机器人学习操作

这篇工作针对插接这类强接触操作中“仅靠视觉不够、现有VLA又缺触觉”的问题,提出VTLA,把视觉、触觉和语言统一到动作生成中,并用VGTE先做视觉引导的时序融合,再用DPO给离散动作token提供更接近回归的监督。实验上,它在未见过的插销形状上成功率超过90%,优于diffusion policy和TLA/VLA,且仅用仿真数据训练就在真实peg-in-hole上表现出较好的Sim2Real能力。

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware figure
CoRL 20252025-05-14

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

泛化

泛化Sim2Real

本文针对机器人操作数据依赖遥操作、采集慢且受硬件约束的问题,提出R2R2R:只用手机多视角物体扫描和一段人类演示视频,重建物体几何/外观并跟踪6DoF运动,再在关闭碰撞与动力学的渲染环境中用逆运动学生成大量机器人示范。实机1050次评测显示,基于1次人类演示合成的数据可达到约150次遥操作训练的效果,单卡生成吞吐约快27倍;性能增益可能主要来自scaling/data。

Latent Theory of Mind: A Decentralized Diffusion Architecture for Cooperative Manipulation figure
CoRL 20252025-05-14

Latent Theory of Mind: A Decentralized Diffusion Architecture for Cooperative Manipulation

多智能体/多机器人

多智能体/多机器人Latent LearningDiffusion Policy机器人学习操作

该文针对双臂/多臂协作中集中式扩散策略难扩展、易因单臂延迟或失效而脆弱,而去中心化又受限于局部观测难以达成一致的问题,提出 LatentToM:每个机器人分别学习私有ego表示与共享consensus表示,并用基于层论的一阶上同调损失对齐共享表示,再加入“心智理论”式地从共享表示推断对方私有状态和定向一致机制,避免表示塌缩。硬件双臂实验中,它优于朴素去中心化扩散基线,性能接近强集中式策略,且对暂时故障或延迟更稳健。

Exploring Pose-Guided Imitation Learning for Robotic Precise Insertion figure
arXiv2025-05-14

Exploring Pose-Guided Imitation Learning for Robotic Precise Insertion

模仿学习

模仿学习感知机器人学习操作

论文针对精密插接中接触复杂、容差极小且示教稀缺的问题,认为直接用RGB或点云学策略既费数据又难抗位姿扰动,因此改用源/目标物体的相对SE(3)位姿作为紧凑观测,并用扩散策略预测未来相对位姿轨迹;为缓解在线位姿估计噪声,又加入目标条件RGBD编码器和位姿引导的残差门控融合,让视觉只在位姿不可靠时补偿。6个真实机器人任务中,仅7–10条示教即可完成,平均成功率达91.7%,OOD下为78.3%,最小间隙做到0.01 mm。

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels figure
ICLR 20262025-05-14

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels

模仿学习

模仿学习数据采集数据筛选

论文针对通用机器人策略在单一专门任务上常失效、且把大规模先验数据与少量目标演示直接混训反而会降性能的问题,提出 DataMIL:把 datamodels 引入模仿学习,用目标任务验证/行为克隆损失替代昂贵 rollout,端到端估计每条先验数据对最终成功率的影响,并结合 metagradients 与分簇提升大模型可用性。实验覆盖 60 余个仿真和真实操作任务,在 MetaWorld 50 任务上较强基线提升约 10%,且能从 OXE 中筛出对 LIBERO 和真实机器人更有用的数据。

WM3C: Modeling Unseen Environments with Language-guided Composable Causal Components in Reinforcement Learning figure
ICLR 20252025-05-13

WM3C: Modeling Unseen Environments with Language-guided Composable Causal Components in Reinforcement Learning

强化学习

强化学习触觉世界模型机器人学习数据集/Benchmark

这篇工作针对强化学习在未见环境中因动力学变化而泛化差的问题,提出WM3C:把语言当作组合式监督,将世界模型潜变量拆成可重组的因果组件,并结合MAE、互信息约束和自适应稀疏正则学习组件间转移动力学,同时给出在温和假设下的可识别性分析。实验在数值仿真和Meta-World机器人操作中显示,其在潜在过程识别、策略学习和未见任务泛化上明显优于现有方法。

UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations figure
CoRL 20252025-05-13

UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

视频规划

视频规划泛化跨本体

这篇工作针对“人类演示视频与机器人本体/外观差异太大,且成对对齐数据难收集”的瓶颈,提出 UniSkill:直接用无标注、无需场景或任务对齐的人类/机器人视频,通过逆向与前向 skill dynamics 建模远时距帧间的动态变化,学习与本体无关的技能表示,再用仅在机器人数据上训练的技能条件策略去执行从人类提示视频中抽取的技能序列。仿真和真实实验表明,它能在未见过的人类视频提示下完成跨本体模仿,并对新物体与组合任务有一定泛化;但增益可能也部分来自更大规模异构视频数据。

FSD: From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation figure
ICLR 20262025-05-13

FSD: From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

任务规划

任务规划多模态推理操作

FSD针对VLA在新场景与新任务上零样本泛化差、且机器人数据稀缺与异构的问题,不再直接从图像到动作,而是先通过空间关系推理生成与机体无关的中间视觉表征,如affordance框/点和轨迹,再用简单规划执行操作。其关键在于SrCoT、分层弱到强数据构建与视觉—坐标自一致约束。结果上,FSD在8个空间推理/指代表达基准和自建VABench上领先,并在SimplerEnv达40.6%、8项真实任务达72%,较最强基线高30%。

ECoT-Lite: Training Strategies for Efficient Embodied Reasoning figure
CoRL 20252025-05-13

ECoT-Lite: Training Strategies for Efficient Embodied Reasoning

辅助任务

辅助任务VLA感知机器人学习

这篇工作聚焦机器人CoT虽能提升VLA泛化、却依赖专门推理标注且推理时很慢的问题。作者将增益拆解为表征学习、训练课程化和表达能力三种机制,发现“学习生成推理”主要强化表征,而“在动作预测时利用推理”才把这些特征转成性能,并据此提出无需测试时显式生成推理的ECoT-Lite训练方案(如推理预训练、推理dropout)。实验显示其在LIBERO-90上达到SOTA,BridgeData V2较常规VLA提升10–19%,同时较标准ECoT推理提速约3倍。

ChicGrasp: Imitation-Learning based Customized Dual-Jaw Gripper Control for Delicate, Irregular Bio-products Manipulation figure
Adv. Robot. 20252025-05-13

ChicGrasp: Imitation-Learning based Customized Dual-Jaw Gripper Control for Delicate, Irregular Bio-products Manipulation

抓取

抓取模仿学习操作应用

论文针对家禽加工中“将湿滑、易淤伤且个体差异大的鸡胴体重新挂到吊链”仍高度依赖人工的问题,提出软硬件协同方案:以可独立驱动的双气动夹爪同时夹持两腿,并用条件扩散式模仿学习从50条多视角遥操作示范中联合预测5DoF末端运动与夹爪开合,减少吸盘和预设轨迹对变形生物制品的不适配。在真实肉鸡上,系统101次中成功41次,抓取抬升成功率40.6%,单次循环38秒,而IBC与LSTM-GMM基线为0%;但整体成功率仍有限,硬件设计与策略学习各自带来的增益文中未充分说明。

CLTP: Contrastive Language-Tactile Pre-training for 3D Contact Geometry Understanding figure
BIRob 20262025-05-13

CLTP: Contrastive Language-Tactile Pre-training for 3D Contact Geometry Understanding

3D 表征

3D 表征触觉Latent Learning基础模型机器人学习

论文动机是现有触觉-语言对齐多停留在材质或纹理描述,难以支撑机器人操作所需的接触位置、面积、深度和形状理解。作者构建了含5.2万对样本的TCL3D数据集,并借助冻结的视觉-语言特征空间,以图像为桥梁对触觉3D点云与文本进行对比预训练。结果表明,CLTP在零样本分类、接触状态分类和Tac3D-LLM交互中优于已有方法,接触形状相关指标从52.6%提升到70.1%,shape理解达到84.8%,且表现出一定的sim2real泛化能力。

What Matters for Batch Online Reinforcement Learning in Robotics? figure
ICLR 20262025-05-12

What Matters for Batch Online Reinforcement Learning in Robotics?

强化学习

强化学习触觉机器人学习操作

本文关注机器人批量在线强化学习为何难以利用自主采集数据持续自提升:以往模仿学习或筛选式模仿常很快饱和。作者系统比较算法类别、策略提取方式和策略表达能力,发现Q函数引导明显优于纯模仿,且应采用“从策略分布中选Q值最高动作”的隐式提取,并配合更高表达力策略;再加少量时间相关噪声可进一步提升数据多样性。该配方在6个操作任务上最高达到先前方法2倍表现,并在真实机器人上3轮迭代将成功率提升30%。

Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models figure
CoRL 20252025-05-12

Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models

任务规划

任务规划

论文针对开放式桌面操作中“RL探索盲目、VLM想象不落地”的问题,提出 IVE:先把RGB-D观测抽象成场景图,再结合记忆让VLM想象新场景,由验证器判断物理可行性并调用技能库执行,形成“想象—验证—执行”闭环。仿真与真实实验中,其访问状态熵较RL基线提升4.1–7.8倍,场景多样性达到人类专家的82%–122%,收集数据训练出的策略接近或超过人类示范;但增益中有多少来自VLM、多少来自手工技能库,文中未充分拆分。

H3DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning figure
ICLR 20262025-05-12

H3DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作针对现有视觉运动扩散策略常把感知表征与动作生成分开优化、导致二者耦合不足的问题,提出三重层级的 H3DP:先按深度将 RGB-D 场景分层以突出前景和遮挡关系,再提取多尺度视觉特征,并在扩散去噪过程中用由粗到细的条件控制动作生成,使全局语义与精细操作更好对齐。实验显示,该方法在5个模拟基准44个任务上平均相对提升27.5%,并在4个真实双臂长程杂乱操作任务上较 Diffusion Policy 提升32.3%。

Guiding Data Collection via Factored Scaling Curves figure
RSSW 20252025-05-12

Guiding Data Collection via Factored Scaling Curves

数据采集

数据采集数据筛选

这篇工作关注机器人模仿学习中“该采什么数据、各采多少”的瓶颈:穷举光照、相机位姿、桌高、干扰物等环境变化成本极高,而且不同策略对各因素的敏感度并不相同。作者提出因子化 scaling 曲线(FSC),用少量按单因子或双因子扩展的数据估计性能随数据量的边际收益,再据此把预算集中到最有价值的因素组合。仿真与真实实验中,无论从零训练还是微调 VLA,都比现有采集策略最高提升 26%,且仅用离线嵌入相似度构建 FSC 也接近有效。

GelFusion: Enhancing Robotic Manipulation under Visual Constraints via Visuotactile Fusion figure
arXiv2025-05-12

GelFusion: Enhancing Robotic Manipulation under Visual Constraints via Visuotactile Fusion

触觉

触觉感知机器人学习操作

这篇工作针对模仿学习在遮挡、视角受限和视觉线索含糊时容易失效的问题,用 GelSight 触觉为策略补足关键接触状态。核心创新是视觉主导的跨注意力融合,以及把触觉显式拆成两路:一路提取静态纹理/几何特征,另一路用相邻帧差分编码接触开始、结束和压力变化等动态事件,再接入 Diffusion Policy。实验在擦拭、插销插入和易碎物抓放三类接触密集任务上,相比纯视觉和其他融合基线取得更高成功率,说明增益主要来自更稳定的接触感知。

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real figure
CoRL 20252025-05-11

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

泛化

泛化Sim2Real跨本体

这篇工作针对“人类视频易获取但没有机器人动作标签、且手部/轨迹重定向在跨本体差异大时容易失效”的问题,提出把“人怎么动”转成“物体怎么动”:先从RGBD人类视频重建照片级仿真并跟踪物体轨迹,用物体中心奖励训练RL,再蒸馏成基于图像的扩散策略,并在部署时做在线观测对齐。实验在2个环境5项任务上显示,相比手跟踪和常规sim2real基线平均任务进度提升30%,且用约10倍更少的数据采集时间达到接近行为克隆的效果,并能泛化到新视角和测试时变化。

Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach figure
ICML 20252025-05-10

Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach

视频规划

视频规划强化学习触觉轨迹生成机器人学习

针对离线强化学习受限于静态数据、价值估计易偏和难以跳出次优行为的问题,VeoRL尝试像人“先看视频再练习”一样,利用无标注互联网视频补充常识动力学与行为先验。其关键做法是先从视频中量化出离散潜在行为,再构建含真实动作分支与视频规划分支的双分支世界模型,并用内在奖励让两者的轨迹对齐。结果在机器人操作、自动驾驶和Minecraft视觉控制上普遍优于DreamerV2、LOMPO等,部分任务提升超过100%,但增益中有多少来自更大视频数据,文中未充分说明。

DisDP: Robust Imitation Learning via Disentangled Diffusion Policies figure
RLC 20252025-05-10

DisDP: Robust Imitation Learning via Disentangled Diffusion Policies

模仿学习

模仿学习Diffusion Policy安全机器人学习

论文针对模仿学习策略在部署时过度依赖稳定多相机输入、遇到传感器噪声、视角缺失或环境变化就明显退化的问题,提出DisDP:把多视角观测拆成共享表征与私有表征,并用对比约束和正交约束分离任务相关共性与各传感器细节;作者还给出对应的DisBC,说明该思想不只适用于扩散策略。实验在Colosseum与LIBERO上表明,解耦后的策略整体性能更高,且在相机dropout、噪声和扰动下性能下降更小。

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions figure
RSS 20252025-05-09

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

VLA

VLALatent Learning机器人学习

这篇工作针对现有VLA过度依赖带动作标注数据、难以跨机器人本体与场景迁移的问题,提出UniVLA:先在DINO特征空间结合语言条件,从无动作标签的跨视角、跨本体视频中学习“任务中心”的离散潜在动作,再用自回归模型做潜在动作规划,并以轻量解码器映射到具体控制。核心洞察是把任务相关动态与相机抖动、他体运动等无关变化解耦,从而真正利用互联网与人类视频。实验显示其在操作、导航和真机上均优于OpenVLA,LIBERO、导航、真机成功率分别提升18.5%、29.6%、36.7%,且预训练算力仅约其1/20、下游数据约1/10。

TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations figure
ICRA 20252025-05-09

TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations

模仿学习

模仿学习强化学习触觉安全机器人学习

这篇工作针对偏好强化学习中人类或VLM偏好标签噪声大、少量错标就会拖垮奖励学习的问题,提出TREND:先用1到3条专家演示做行为克隆暖启动,再让3个奖励模型按“小损失样本”互相教学、循环筛出更可能干净的偏好对,以更稳健地学习奖励。作者在Meta-World操作任务上报告,在40%噪声下仍能达到约80%到90%成功率,并明显优于PEBBLE、RIME等基线;但实验主要在仿真中,真实机器人上的增益文中未充分说明。

RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy figure
NeurIPS 20252025-05-09

RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy

灵巧操作

灵巧操作安全基础模型感知操作

这篇工作针对通用机器人缺少兼顾低成本、高灵巧和稳定多模态采集的真实操作平台,提出软硬件协同设计的 RAPID Hand:在20自由度紧凑手型上联合优化驱动、整手感知与高自由度遥操作,使手指厚度降到20 mm,并把腕部视觉、指尖触觉和本体感觉在硬件层实现空间对齐与低于7 ms时延同步。基于该平台采集示教训练扩散策略后,在三类高接触手内操作任务上较已有/并行方法更稳、表现更好,但各模块分别带来多少增益,文中未充分说明。

Demystifying Diffusion Policies: Action Memorization and Simple Lookup Table Alternatives figure
ICLR 20262025-05-09

Demystifying Diffusion Policies: Action Memorization and Simple Lookup Table Alternatives

Diffusion Policy

Diffusion Policy机器人学习

论文试图解释扩散策略为何能在少量示教下表现很好却又明显过拟合、且推理很慢。作者提出核心洞察:其强项可能不是动作泛化,而是在潜空间中检索最接近训练观测并复用对应动作序列;据此提出对比学习编码器加最近邻记忆库的ALT,并用距离阈值做OOD告警。在小规模数据上,ALT与Diffusion Policy表现接近,但推理约快300倍、内存仅约0.85%;文中未充分说明该结论在大数据场景下是否仍成立。

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks figure
CVPRW 20252025-05-09

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

3D 表征

3D 表征VLA机器人学习

论文针对现有VLA在训练分布外任务上泛化不足、仅依赖RGB难以把握三维操作关系的问题,提出可插拔微调框架3D-CAVLA,将叙事式CoT指令、基于深度/点云的3D空间编码与任务相关ROI池化接入标准VLA,以同时提升语义分解、目标聚焦和空间定位,且基本不牺牲控制频率。结果上,其在LIBERO域内平均成功率达98.1%,未见任务绝对提升8.8%,真实桌面未见任务再提升25%,并实现约3倍更快收敛。

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations figure
arXiv2025-05-08

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations

模仿学习

模仿学习Latent Learning机器人学习

这篇工作针对机器人模仿学习过度依赖昂贵动作标注、难以利用海量无标签演示的问题,提出 CLAM:先用逆/前向动力学从观测序列自监督学习连续潜动作,再与动作解码器联合训练,使少量随机或 play 数据也能把潜动作对齐到真实控制量。文中核心洞察是细粒度连续控制不宜把动作离散化。实验在 DMControl、MetaWorld 和真实 WidowX 上均优于既有方法,相比最强基线任务成功率约提升 2–3 倍,并接近使用专家动作标签的上界。

Vision-Language-Action Models: Concepts, Progress, Applications and Challenges figure
arXiv2025-05-07

Vision-Language-Action Models: Concepts, Progress, Applications and Challenges

VLA

VLA应用综述

这篇综述的出发点是现有机器人系统把视觉、语言与控制割裂开来,导致开放环境下泛化差、工程耦合重。文中以80余篇近三年VLA工作为样本,按概念基础、架构与训练效率、应用、挑战和路线图五条主线重构领域图谱,核心洞察是VLA正从多模态理解走向可执行智能,关键抓手包括动作token化、agentic适应与跨本体规划。主要结果是系统归纳了自动驾驶、医疗、工业等场景及实时控制、安全、算力、泛化瓶颈,但统一定量增益文中未充分说明,判断基于公开摘要/项目页。

Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation figure
CoRL 20252025-05-07

Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation

强化学习

强化学习触觉基础模型感知机器人学习操作

这篇论文针对多视角视觉强化学习虽更省样本、但部署依赖多相机且一旦缺视角就性能骤降的问题,提出MAD:用共享编码器将各视角特征求和学习,再把单视角特征作为特征级增强送入actor/critic,在不增加额外参数、辅助损失或视角顺序假设下同时实现“融合+解耦”。在Meta-World和ManiSkill3共20个操作任务上,MAD相较单视角及MVD、VIB等基线取得更好的样本效率,并在测试时退化为任一单相机输入时仍保持更强鲁棒性;但增益有多少来自视角融合、多少来自SADA式增强,文中拆分仍有限。

RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration figure
arXiv2025-05-06

RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration

泛化

多智能体/多机器人泛化跨本体

这篇论文针对现有 VLA 在长时程规划、跨本体适配和多机器人协同上的断层,提出分层 embodied OS:云端“脑”负责全局感知、任务分解与重规划,边端“小脑”以可插拔技能库执行,并用实时共享记忆同步空间、时间和机体状态,从而把异构机器人编排成协作系统。文中在餐厅、家庭、超市等真实场景中验证了单臂、双臂、轮式和人形平台的协作可行性,但摘要未给出清晰量化对比,实际增益来源仍有些不清。

OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation figure
arXiv2025-05-06

OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

VLA

VLA机器人学习操作综述

这篇工作针对双系统VLA在机器人操作中“研究火热但缺少开源基线、难分析设计取舍”的问题,先综述LCB、DP-VLA等代表方法,再把系统2低频推理与系统1高频控制拆成MLLM选择、潜变量表示、训练方式、融合与异步策略等维度做系统实证,并开源低成本的OpenHelix基线。其主要价值更像“综述+经验规律+开源模型”,而非全新范式;从给定片段看,具体性能提升幅度及增益来源文中未充分说明,判断基于公开摘要/项目页。

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data figure
CoRL 20252025-05-06

GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

抓取

抓取辅助任务VLA数据生成基础模型感知机器人学习

论文针对VLA过度依赖昂贵真机示教的问题,探索仅用合成动作数据预训练抓取基础模型。作者构建含1万物体、240类的一十亿帧SynGrasp-1B,并提出PAG,将视觉指代和抓取位姿预测作为中间推理步骤,与flow matching动作生成及互联网语义数据联合训练,以缓解sim-to-real并实现开放词汇抓取。实验表明其可直接从仿真迁移到真实场景,在类别、空间、光照、干扰物和透明物体上具备较强零样本泛化,并能以少样本适配用户偏好。

TWIST: Teleoperated Whole-Body Imitation System figure
CoRL 20252025-05-05

TWIST: Teleoperated Whole-Body Imitation System

人形操作

移动操作人形操作模仿学习操作

论文针对现有人形遥操作常把行走与操作割裂、难以稳定完成蹲下搬箱或踢球等协调全身动作的问题,提出TWIST:将遥操作建模为实时动作重定向与跟踪,并用RL+BC训练统一控制器。其核心洞察是用可见未来帧的教师策略蒸馏缓解低时延控制中的“犹豫”跟踪,再结合少量在线MoCap数据、位置+姿态联合重定向和末端大扰动训练,缩小线上线下分布差异并提升接触受力稳健性。结果是在真实Unitree G1上,仅用单一网络即可完成搬箱、踢球、侧走和舞蹈等多类全身技能。

Grasp the Graph (GtG) 2.0: Ensemble of GNNs for High-Precision Grasp Pose Detection in Clutter figure
arXiv2025-05-05

Grasp the Graph (GtG) 2.0: Ensemble of GNNs for High-Precision Grasp Pose Detection in Clutter

抓取

抓取感知操作

针对杂乱场景中点云遮挡、噪声和局部缺失导致的高精度抓取检测难题,GtG 2.0延续“先生成候选、再评估”的思路,用传统GPG生成7-DoF抓取,再以只关注夹爪局部区域的inside/outside点云图表示,并用轻量级GNN集成建模接触几何与周边碰撞上下文。结果上,它在GraspNet-1Billion上相对同类假设检验/GNN方法AP最高提升35%,该类方法中最佳、全榜第三;实机杂乱抓取成功率91%,场景清空率100%。

Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions figure
ICRAW 20252025-05-04

Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions

VLA

VLA语言条件机器人学习操作

针对现有VLA主要依赖文本指令、在未见物体和模糊目标上易出现语言歧义与注意力幻觉、导致泛化差的问题,本文提出Interleave-VLA:以极小改动让现有VLA直接理解图文交错指令,并自动从Open X-Embodiment构建21万条交错轨迹数据。其核心洞察是指令图像能提供更少偏置的上下文视觉锚定,缓解注意力偏置与泄漏。仿真和真实机器人实验表明,其对未见物体的域外泛化较文本基线提升约2倍,并支持裁剪图、网络图和手绘草图的零样本指令执行。

CrayonRobo: Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation figure
CVPR 20252025-05-04

CrayonRobo: Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

辅助任务

辅助任务VLA对象中心感知机器人学习操作

这篇工作针对语言指令易歧义、目标图像/视频又常携带过多无关细节的问题,提出对象中心的 CrayonRobo:在关键帧 RGB 图像上手绘或自动生成蜡笔式 2D 提示,显式表达接触点、夹爪朝向及接触后的运动方向,并训练 VLA 将这类视觉-语言提示映射为 SE(3) 接触位姿和 3D 运动方向,再按关键帧顺序执行以完成长时程操作。文中称其在仿真与真实机器人上对已见和未见任务都更稳健,但给定材料未充分说明具体数值提升与增益来源,判断基于公开摘要/项目页。

Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning figure
NeurIPSW 20252025-05-04

Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning

模仿学习

模仿学习世界模型机器人学习

这篇工作针对世界模型在线模仿学习里对抗式奖励/价值目标常出现训练不稳定的问题,提出 CDRED:在世界模型潜空间中用 RND 联合估计专家分布和当前行为分布,而不是像以往 RED 那样只在原始观测/动作空间拟合专家支持集,并将奖励模型与世界模型、策略学习一起训练,从而在初始策略远离专家时也能提供更有效的学习信号。实验在 DMControl、Meta-World 和 ManiSkill2 上表明,该方法较对抗式基线更稳定,并在运动控制与机械臂操作任务上达到或接近专家水平;但不同设计分别带来多少增益,文中未充分说明。

Robotic Visual Instruction figure
CVPR 20252025-05-01

Robotic Visual Instruction

感知

感知机器人学习操作

论文针对语言指令在机器人操作中空间表达含糊、冗长且不适合安静场景的问题,提出手绘式视觉指令 RoVI,用箭头、圆圈、颜色和编号把目标、轨迹与步骤顺序压缩成 2D 符号;再用 VIEW 结合 VLM、关键点提取和低层策略,把草图解析为分层计划与可执行的 3D 动作,并配套 15K 数据微调小模型。实验在真实与仿真的 11 个未见任务上验证了泛化性,真实世界多步、扰动和轨迹跟随场景成功率达 87.5%,明显优于语言或目标图像基线。

Multi-segment Soft Robot Control via Deep Koopman-based Model Predictive Control figure
ICRA 20252025-05-01

Multi-segment Soft Robot Control via Deep Koopman-based Model Predictive Control

软体机器人

软体机器人任务规划操作

针对多段软体机器人因高维、强非线性、时变且段间耦合强而难以做精确轨迹跟踪的问题,论文提出DK-MPC:先用深度网络学习Koopman提升映射,把复杂动力学嵌入近似线性的潜空间,再在该空间内用MPC滚动优化控制输入。文中在真实机器人Chordata上验证了高精度跟踪与到点控制,并称优于传统控制;但具体对比幅度与增益来源在给定材料中未充分说明,判断基于公开摘要/项目页。

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI figure
arXiv2025-05-01

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

操作

操作数据集/Benchmark综述

这篇综述的动机是:具身智能中的导航与操作需要大规模训练,但真机数据采集昂贵、耗时,且 sim-to-real 落差始终限制落地。文中核心洞察是将该问题细分为视觉差距与物理差距,并从任务类型、3D表示粒度、显式/隐式记忆、可微物理、世界模型、几何等变性及硬件需求重新审视模拟器。主要结果是整理出覆盖导航/操作的模拟器、数据集、指标与前沿方法图谱,并给出面向硬件约束的选型框架;不过其贡献主要是系统归纳,统一量化增益文中未充分说明。

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors figure
CVPR 20252025-04-30

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

VLA

VLA语言条件机器人学习操作

RoboGround面向机器人操作中“语言条件太粗、目标图像或点流又成本过高”的泛化瓶颈,提出将视觉语言模型生成的目标物体与放置区域 grounding mask 作为中间表示,并通过通道拼接与 Grounded Perceiver 在像素和 patch 层引导策略关注关键区域。作者还构建了含24K示范、112K指令、3526个物体的高干扰仿真数据。实验表明该方法能提升对多样指令、未见物体与类别及基础技能的泛化,但具体增益幅度文中未充分说明。

LLM-iTeach: LLM-based Interactive Imitation Learning for Robotic Manipulation figure
IJCNN 20252025-04-30

LLM-iTeach: LLM-based Interactive Imitation Learning for Robotic Manipulation

模仿学习

模仿学习语言条件机器人学习操作

论文针对模仿学习在序列决策中易受分布偏移影响、而交互式模仿学习又依赖昂贵人工教师的问题,提出LLM-iTeach:先用分层提示让LLM生成任务CodePolicy,再通过基于相似度的机制在训练中持续给出纠正性与评价性反馈。实验表明,该方法在多种机器人操作任务上成功率优于BC,且接近甚至超过人类教师版CEILing,并在额外复杂任务上表现出一定泛化能力。

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks figure
arXiv2025-04-28

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

VLA

VLA基础模型机器人学习

NORA针对现有VLA常因视觉编码不足导致抓取失误、且7B级模型推理开销过大而难以实时部署的问题,提出一个开源3B小模型:以Qwen2.5-VL-3B为骨干,结合FAST+动作离散化与更高效的动作解码/分块预测,在不依赖action grid或空间嵌入下生成低层控制。结果显示其在真实机器人任务和LIBERO上优于多种更大基线,并胜过SpatialVLA,但具体提升幅度在给定材料中未充分说明,增益也可能部分来自骨干与97万演示数据规模。

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning figure
RSS 20252025-04-26

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

泛化

泛化跨本体机器人学习数据集/Benchmark

该文针对机器人学习中真实数据采集昂贵、仿真生态割裂、评测难统一的问题,提出RoboVerse:以MetaSim为核心,把多模拟器、多机器人本体和任务配置抽象成统一接口,并据此构建大规模高保真合成数据集与分层基准,支持跨模拟器与跨本体迁移。实验表明它能提升模仿学习、强化学习、世界模型和 sim-to-real 表现;但各模块分别贡献多少增益文中未充分说明,收益可能主要来自 scaling 与数据质量提升。

PPI: Gripper Keypose and Object Pointflow as Interfaces for Bimanual Robotic Manipulation figure
RSS 20252025-04-24

PPI: Gripper Keypose and Object Pointflow as Interfaces for Bimanual Robotic Manipulation

抓取

抓取3D 表征Diffusion Policy双臂感知机器人学习操作

这篇工作针对双臂操作里“关键帧法定位准但轨迹僵硬、连续控制轨迹灵活却感知弱”的矛盾,提出PPI:在扩散式连续策略中显式加入夹爪目标关键位姿和物体3D点流两个接口,让策略一边对准目标交互区域,一边生成更平滑、避碰、可弯曲的双臂动作。文中在RLBench2七项任务上较既有最优平均提升16.1%,并在四个真实任务上平均再提升27.5%,说明其对长时程、受约束动作更有效。

ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance figure
ICASSP 20262025-04-23

ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance

视频规划

视频规划世界模型感知机器人学习操作

该工作针对机器人操作世界模型中“指令拆分后缺少层级关系、仅依赖RGB导致视频伪影与时序不稳”的问题,提出ManipDreamer:用动作树而非彼此独立的primitive编码语言指令关系,并通过结合深度与语义的视觉adapter向扩散世界模型注入几何约束,以提升指令跟随能力和物理/时序一致性。相较RoboDreamer,它在未见任务上将PSNR从19.55提至21.05、SSIM从0.7474提至0.7982、Flow Error从3.506降至3.201,6个RLBench任务平均成功率再增2.5%。

Latent Diffusion Planning for Imitation Learning figure
ICML 20252025-04-23

Latent Diffusion Planning for Imitation Learning

任务规划

任务规划模仿学习Latent LearningDiffusion Policy机器人学习

论文针对模仿学习强依赖昂贵专家动作标注、难以利用无动作或次优数据的问题,提出LDP:先用VAE学习紧凑潜空间,再以扩散规划器预测稠密未来潜状态轨迹,并用扩散逆动力学模型将计划映射为动作。核心洞察是把规划与动作预测解耦,使两部分分别吸收action-free演示和suboptimal交互数据,并支持闭环重规划。在模拟视觉操作任务、尤其低示范数据场景中,LDP优于Diffusion Policy等基线,增益主要来自对额外异构数据的有效利用。

π0.5: a Vision-Language-Action Model with Open-World Generalization figure
CoRL 20252025-04-22

π0.5: a Vision-Language-Action Model with Open-World Generalization

辅助任务

辅助任务VLA泛化机器人学习

论文关注机器人离开实验室后,如何在陌生家庭中完成真实家务,核心判断是开放世界泛化不能只靠同构示教扩量,而要迁移不同层级的知识。π0.5在π0上做异构共训练,并采用“先预测语义子任务、再生成低层动作”的层次式VLA,把其他机器人数据、网页视觉语言任务、目标检测和人类口头指令统一进同一序列框架。结果是即使预训练样本中97.6%并非目标移动操作数据,系统仍能在训练未见新家中完成10到15分钟的厨房或卧室清理、铺床和挂毛巾等长程灵巧操作。

SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation figure
TCDS 20252025-04-22

SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation

模仿学习

模仿学习泛化机器人学习操作

这篇论文针对机器人在动态环境中持续学习新操作时易遗忘旧任务、且现有持续模仿学习忽视“技能”层结构或依赖人工技能库的问题,提出分层框架SPECI:用多模态感知表征状态,用可扩展技能码本和注意力式技能提示做隐式技能发现与复用,再通过mode approximation分解任务共享/特定参数以增强跨任务迁移。实验表明其在多种操作任务上整体优于现有方法,并同时展现前向与后向知识迁移;但摘要未给出具体提升幅度。

PCF-Grasp: Converting Point Completion to Geometry Feature to Enhance 6-DoF Grasp figure
TSMC 20262025-04-22

PCF-Grasp: Converting Point Completion to Geometry Feature to Enhance 6-DoF Grasp

抓取

抓取操作

这篇工作针对单目深度生成的2.5D点云只覆盖物体单侧、直接据此预测6-DoF抓取易被缺失几何误导,以及补全点云又可能在不存在的位置“幻觉”抓取的问题,提出PCF-Grasp:先用预训练补全网络估计完整形状,再通过PCF-Layer把补全结果转成几何特征,与原始可见点联合送入抓取网络,使“形状判断”依赖补全特征而“落点”仍基于真实观测点;同时加入分数过滤器,剔除机器人难以到达或易碰撞的候选。真实机器人实验成功率达89%,较现有最优方法提升17.8%。

Few-Shot Vision-Language Action-Incremental Policy Learning figure
arXiv2025-04-22

Few-Shot Vision-Language Action-Incremental Policy Learning

泛化

数据需求量大泛化机器人学习

这篇工作聚焦机器人操作中两个现实瓶颈:高质量示教数据昂贵,以及模型在只有少量新任务示教时容易遗忘旧技能。作者将其形式化为少样本动作增量学习(FSAIL),并提出可插拔到现有 Transformer 策略的 TOPIC:先用任务特定提示从视觉、语言和轨迹的少样本交互中提炼任务判别信息,再通过任务关系图与连续演化策略复用历史技能、缓解灾难性遗忘。文中在仿真和真实场景中报告相对现有方法超过 26% 的成功率提升。

CIVIL: Causal and Intuitive Visual Imitation Learning figure
arXiv2025-04-22

CIVIL: Causal and Intuitive Visual Imitation Learning

模仿学习

模仿学习感知机器人学习

这篇工作针对视觉模仿学习只学到“做什么”却学不到“为什么”、因而易受背景干扰和伪相关误导的问题,提出 CIVIL:让示教者在演示时用物理标记和自然语言直观指出任务相关对象与状态,再据此从图像中筛出与人类决策对齐的因果特征,并训练 Transformer 策略。理论分析以及仿真、真实机器人和用户研究表明,CIVIL 在更少示范下优于现有方法,对新场景和视觉干扰更稳健,且部署时无需标记或语言输入。

On the Importance of Tactile Sensing for Imitation Learning: A Case Study on Robotic Match Lighting figure
ICRAW 20252025-04-18

On the Importance of Tactile Sensing for Imitation Learning: A Case Study on Robotic Match Lighting

模仿学习

模仿学习触觉机器人学习操作

论文聚焦一个常被忽视的问题:在点燃火柴这类高速、接触敏感任务中,纯视觉难以观测接触状态,触觉能否提升模仿学习。作者提出视觉-触觉框架,以模块化Transformer结合流匹配生成策略,在约20条示教下利用腕部相机、末端速度和光学触觉实时出动作。实验表明,触觉能稳定减少接触相关失败,显著提升成功率、鲁棒性与泛化,增益还迁移到擦白板任务;仅视觉策略也能通过训练时引入触觉的掩码方案获益。

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins figure
CVPR 20252025-04-17

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

基础操作

基础操作双臂操作数据集/Benchmark

RoboTwin针对双臂操作中“高质量示教数据稀缺、仿真评测与真实部署脱节”的痛点,提出从单张RGB图生成可交互数字孪生物体,并结合空间标注与LLM自动分解任务、推断末态约束、生成专家轨迹代码,构建仿真与真实对齐的双臂基准。在COBOT平台上,先用300条合成数据预训练、再用20条真机数据微调,相比只用20条真机数据,单臂任务成功率提升超70%,双臂任务提升超40%。

RoboSplat: Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation figure
RSS 20252025-04-17

RoboSplat: Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation

任务规划

任务规划3D 表征模仿学习安全操作

这篇工作针对机器人模仿学习依赖大量遥操作数据、而现有2D增强和Real-to-Sim又难以兼顾真实感与3D一致性的问题,提出RoboSplat:先用3DGS重建并对齐操作场景,再直接编辑3D高斯,批量生成物体类型、位姿、光照、场景外观、相机视角和机器人本体六类新示范。真实实验显示,它仅用一次示范就把平均成功率从“数百条真机示范+2D增强”的57.2%提升到87.8%;但文中也承认对可变形、强接触和动态任务的支持有限。

Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration figure
CoRL 20252025-04-17

Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration

模仿学习

模仿学习数据采集泛化Sim2Real跨本体人机交互

这篇工作针对灵巧操作训练高度依赖遥操作/穿戴式采集、而人类视频又缺少动作标注且存在人机本体差异的问题,提出 Human2Sim2Robot:只用一次人类 RGB-D 示范,不拟合逐帧手部动作,而是提取物体6D轨迹作为与本体无关的奖励,并用操作前手姿来初始化和引导仿真RL探索,再零样本迁移到真实机器人。结果在抓取、非抓取和多步任务上,相比 object-aware replay 提升超55%,比模仿学习高超68%。

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation figure
ICCV 20252025-04-17

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

Affordance

Affordance辅助任务VLA感知机器人学习操作

这篇工作针对现有模块化和端到端操作模型难以理解物体交互中“该碰哪里、之后怎么动”的问题,提出分层的 affordance-aware 扩散模型 A0:高层先以具身无关、物体中心的表示预测接触点和接触后轨迹,再交给低层执行,并用 Position Offset Attention 与空间聚合层提升定位和轨迹建模。模型先在100万接触点数据上预训练、再用少量轨迹标注微调,在 Franka、Kinova、Realman、Dobot 上均优于基线,其中 Franka/Kinova 平均成功率达62.5%/53.75%,擦白板任务为45%。

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping figure
CVPR 20252025-04-15

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

抓取

抓取3D 表征操作

这篇工作针对单视角抓取常因缺乏显式几何建模而出现碰撞和接触不稳的问题,提出基于八叉树 CVAE 的 ZeroGrasp,在单张 RGB-D 上联合完成高分辨率 3D 重建与 6D 抓取预测,并通过多物体编码器、3D 遮挡场和基于重建结果的抓取细化来建模遮挡、物体关系与碰撞约束。实验显示其在 GraspNet-1B 和真实机器人测试中达到 SOTA,并能泛化到未见物体;不过这部分零样本增益可能也部分来自其 1M 图像、11.3B 抓取标注的大规模合成数据。

Look-to-Touch: A Vision-Enhanced Proximity and Tactile Sensor for Distance and Geometry Perception in Robotic Manipulation figure
TMECH 20252025-04-14

Look-to-Touch: A Vision-Enhanced Proximity and Tactile Sensor for Distance and Geometry Perception in Robotic Manipulation

触觉

触觉感知机器人学习操作

针对视觉触觉传感器常需额外接近觉或外部相机、导致系统臃肿且难适应非结构环境的问题,本文提出一种带部分透明滑动窗口的双模态传感器,通过机械切换在“看”和“触”之间复用同一相机:远距时做单目距离跟踪,接触后做光度立体重建,并把传感结构耦合为手内微调自由度。实验表明其可实现50 cm到-3 mm的连续距离感知,同时保持纳米级粗糙度检测和亚毫米级三维纹理重建,并提升抓取效率与插卡等精细操作能力。

Diffusion Models for Robotic Manipulation: A Survey figure
arXiv2025-04-11

Diffusion Models for Robotic Manipulation: A Survey

Diffusion Policy

Diffusion Policy操作综述

这篇综述的动机是:机器人操作常有多种同样可行的抓取与轨迹方案,传统 GMM、EBM 或 GAN 往往难稳定覆盖这类多峰解。文章的核心贡献不是提出新算法,而是首次系统梳理扩散模型在机器人操作中的两类框架、其与模仿学习和强化学习的结合方式,以及在轨迹生成、抓取合成和视觉数据增强中的应用,并按架构、基准与评测进行分类。其主要结论是,扩散模型在高维、多模态策略建模上优势明显,但慢采样仍是落地瓶颈;具体量化增益来源文中未充分说明,判断基于公开摘要与章节信息。

Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation figure
CVPR 20252025-04-09

Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation

泛化

泛化操作数据集/Benchmark应用

这篇工作瞄准现有装配基准多停留在碎片重组或工业零件、难覆盖日常物体功能关系的问题,提出首个面向日常“两物体装配”的2BY2数据集,并将任务建模为把两件物体分两步对齐到规范坐标系的SE(3)位姿估计,结合等变特征与对称标注处理几何、空间和功能约束。在18类任务上,相比既有方法平均将平移RMSE降低0.046、旋转RMSE降低8.97,且实机实验表明有一定泛化性;但从给出的公开片段看,性能增益里数据规模与方法设计各自贡献未充分拆开。

GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes figure
RA-L 20252025-04-09

GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes

抓取

抓取安全基础模型感知数据集/Benchmark

论文针对现有抓取基准多为单一桌面、遮挡较轻、难支撑真实杂乱操作的问题,构建了真实世界数据集 GraspClutter6D:在箱体、货架和桌面共75种配置中,用4个RGB-D相机采集1000个高遮挡场景,并标注分割、73.6万物体6D位姿和93亿可行抓取。实验表明现有分割、位姿估计和抓取方法在该基准上都更吃力,而用该数据训练的抓取网络在仿真与实机上优于既有数据集;具体增益来源文中未充分拆解,可能主要来自更高场景复杂度与数据规模。

MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos figure
arXiv2025-04-08

MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos

灵巧操作

灵巧操作视频规划遥操作操作

这篇工作针对通用视觉预训练难以捕捉灵巧操作中“该碰哪里、如何下手”的问题,提出 MAPLE:从大规模第一人称视频中自动挖掘监督信号,让编码器由单帧图像预测手物接触点和接触瞬间的3D手姿,再将该表征用于灵巧手策略学习。文中称其在4个已有和4个新建仿真任务,以及17自由度真实灵巧手实验中都提升了学习效率与泛化,并在接触点预测上更强;但给定材料未展开具体增益幅度,判断基于公开摘要。

Tool-as-Interface: Learning Robot Policies from Human Tool Usage through Imitation Learning figure
ICRAW 20252025-04-06

Tool-as-Interface: Learning Robot Policies from Human Tool Usage through Imitation Learning

模仿学习

模仿学习操作应用

这篇工作针对遥操作采集慢、延迟敏感且不适合动态工具操作的问题,提出把“工具”作为人机共享接口:直接用双视角人类用工具视频训练机器人策略。其关键做法是用两路RGB重建3D并做Gaussian splatting视角增强,结合手/机械臂分割与以工具位姿为中心的任务空间动作表示,尽量消除视角变化和人机形体差异。实验在钉锤、舀丸子、颠锅、踢球等任务上显示,相比遥操作扩散策略成功率提升71%,数据采集时间较遥操作和现有手持夹具方案分别减少77%和41%,且对相机抖动、底座移动和人为扰动更稳健。

Dexterous Manipulation through Imitation Learning: A Survey figure
arXiv2025-04-04

Dexterous Manipulation through Imitation Learning: A Survey

灵巧操作

灵巧操作模仿学习操作综述

这篇综述的动机是:传统模型法难处理灵巧操作中的高维接触动力学,纯强化学习又依赖大量交互和精细奖励,因此需要梳理模仿学习如何更高效地获得手部操作技能。文中核心贡献不是提出新算法,而是系统归纳示教采集与重定向、BC/IRL/GAIL等范式,以及它们与遥操作、数据增强、RL结合的技术脉络。主要结论是,IL已显著推动精细操作进展,但高质量示教、跨对象泛化与真实部署仍是瓶颈;文中未充分说明统一基准下的量化增益来源。

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets figure
RSS 20252025-04-03

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

视频规划

视频规划Diffusion Policy世界模型基础模型感知机器人学习操作数据集/Benchmark

论文针对模仿学习难以扩展、又难直接利用无动作标注视频的问题,提出统一世界模型UWM:在同一Transformer中耦合动作扩散与视频扩散,并用独立扩散时间步在测试时切换为策略、前向/逆向动力学或视频预测器,从而把时序动力学知识注入策略学习。仿真与真实机器人操作表明,UWM在多任务预训练和微调后比行为克隆、Diffusion Policy、GR1、PAD更稳健、泛化更好,且加入无动作视频共训还能进一步提升OOD表现。

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision figure
arXiv2025-04-03

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision

综述

综述

这篇综述的动机是单一视觉在遮挡、光照变化和动态环境中难以支撑机器人感知,而VLM正推动系统从被动识别走向语言驱动决策。文中以任务为主线,把传统多模态融合与VLM放到同一框架下,梳理编码器-解码器、注意力和图网络三类范式,并比较其在语义理解、SLAM、3D检测、导航与操作中的适用性。其主要结果不是刷新指标,而是给出任务—方法—数据集的系统图谱,归纳跨模态对齐、实时部署、域适应等瓶颈,并提出自监督、结构化空间记忆和鲁棒对齐等后续方向。

Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers figure
RO-MAN 20252025-04-02

Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers

模仿学习

模仿学习VLATransformer Policy语言条件机器人学习

这篇工作针对现有模仿学习/VLA更擅长位姿与语义、却难把“轻轻抓”“用力拧”这类自然语言落实为细粒度力控制的问题,在双边遥操作数据上加入语言条件,并用ACT式多模态Transformer联合建模关节位置、速度、力矩和图像,让策略直接学习“语言—动作—受力”的对应关系,减少对手工力阈值设定的依赖。实验在单臂叠杯和双臂拧海绵任务上表明,Bi-LAT能按指令较稳定地复现不同力度,其中SigLIP文本编码器效果最好。

Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation figure
CVPR 20252025-04-01

Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation

泛化

泛化操作

这篇工作针对机器人终身操作里“会保留旧技能却难复用跨任务共性”的问题,提出 PPL:先在多技能预训练中用结合文本与光流的 motion-aware prompt 学到可复用的动作原语,再在持续学习阶段冻结旧原语、仅追加新 prompt,以减少遗忘并促进新技能迁移。论文还构建了大规模技能数据集;结果显示其在仿真和真实机器人上优于现有终身学习方法,但摘要未给出具体提升幅度,增益是否部分来自更大数据规模文中未充分说明。

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos figure
ICRA 20252025-03-31

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

视频规划

视频规划模仿学习机器人学习操作

这篇工作针对机器人模仿学习过度依赖同机器人、同场景示教、数据难扩展的问题,尝试直接把第一视角网络视频蒸馏成可零样本部署的操作技能。ZeroMimic将任务拆为抓取前/抓取后两阶段:先从人类视频学习任务相关交互可供性,再结合现成抓取模型完成双指抓取;抓取后借助3D重建与手腕运动提取,学习目标图像条件的6D末端轨迹策略。其在9类厨房技能上达到实机71.0%、仿真73.8%的成功率,并能迁移到未见物体和两种机器人本体,但性能仍受抓取、深度和手部检测模块上限约束。

Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation figure
RSS 20252025-03-31

Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation

泛化

泛化Sim2Real感知操作

这篇论文聚焦真实机器人视觉模仿学习中“真机数据贵、仿真到现实视觉鸿沟大”导致表征难迁移的问题。作者提出 Lang4Sim2Real,把图像的自然语言描述当作跨域对齐信号:若仿真图与真实图在文本语义上相近,就约束其图像特征和对应动作分布也相近,再用该编码器联合大量仿真示范和少量真实示范训练策略。实验表明,在长时程多步骤及可变形物体任务上,相比 CLIP、R3M 和常见 sim2real 方法提升约 25%–40%;但方法依赖自动语言标注与轨迹分段,贡献边界文中未充分说明。

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World figure
ICLRW 20252025-03-31

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

基础操作

基础操作基础模型操作数据集/Benchmark

面向通用机器人策略在真实世界评测中成本高、人工重置与判分难扩展的问题,论文提出 AutoEval,把策略提交、自动执行、场景重置、成功检测和报告生成做成可排队的自治评测单元,并用适配具体场景的大模型驱动重置策略与成功分类器。实验在 BridgeData/WidowX 多个桌面任务上表明,其结果与人工评测高度一致,较仿真评测和离线指标更可靠,将人工监督时间减少 99% 以上,并可实现 24 小时约 500 次评测。

Robust Offline Imitation Learning Through State-level Trajectory Stitching figure
IROS 20252025-03-28

Robust Offline Imitation Learning Through State-level Trajectory Stitching

模仿学习

模仿学习数据采集数据增强安全

这篇工作针对离线模仿学习过度依赖少量高质量示范、混合质量数据中失败轨迹难利用且易引发协变量偏移的问题,提出基于状态相似度的轨迹拼接框架 SBR:先用简化世界模型学习同时覆盖专家与次优数据的潜在表示,再在状态级检索并拼接有益片段,把失败或偏离专家分布中的过渡动态转化为训练样本。论文称其在标准基准和真实机器人任务上都提升了泛化与策略性能,但给定片段中未充分说明具体增益幅度。

FLAM: Foundation Model-Based Body Stabilization for Humanoid Locomotion and Manipulation figure
arXiv2025-03-28

FLAM: Foundation Model-Based Body Stabilization for Humanoid Locomotion and Manipulation

人形操作

人形操作基础模型操作

这篇工作关注人形机器人在高自由度行走与操作中,单靠任务奖励做强化学习往往忽视“身体先稳住”这一前提,导致学习慢且性能受限。FLAM的核心做法是把机器人姿态映射到3D虚拟人体,再用预训练人体动作重建模型生成更稳定的姿态,并据此构造稳定性奖励,与任务奖励联合训练策略。文中在类人机器人基准上报告其优于现有RL方法,表现为稳定性、学习效率和整体任务完成效果更好;但各模块增益来源在给定材料中未充分说明。

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning figure
CVPR 20252025-03-27

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

灵巧操作

灵巧操作双臂操作

为解决双手灵巧操作中人手到机器人手的形态差异、MoCap噪声累积和双臂高维控制难题,ManipTrans把迁移拆成两阶段:先预训练通用轨迹模仿器学习手部运动,再用残差策略只修正接触与双手协同,在物理约束下细化交互。实验显示它在成功率、轨迹与交互保真度、训练效率上均优于现有方法,并进一步构建了含3.3K条机器人操作轨迹的DexManipNet,覆盖拧瓶盖、套笔帽等以往较少涉及的任务。

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models figure
CVPR 20252025-03-27

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

辅助任务

辅助任务VLA世界模型感知机器人学习

这篇工作针对现有 VLA 多是“观测/指令→动作”的直接映射、缺少显式时序推理与规划的问题,提出先自回归生成未来子目标图像,再结合当前观测输出短动作序列,把子目标图像作为视觉思维链,并顺带能利用无动作视频提升世界模型/感知能力。实验显示其 7B CoT-VLA 在真实机器人操作上比现有最优方法高 17%,仿真基准高 6%;但增益并非只来自视觉 CoT,也受到额外视频预训练、混合注意力和 action chunking 的共同影响。

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation figure
AAAI 20262025-03-26

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

VLA

VLA机器人学习操作

面向机器人操作中VLA推理慢、算力和存储开销大的问题,本文的关键洞察是LLM相邻层存在较强冗余,但简单早退会丢掉末层对动作语义很关键的信息。作者将每层视作“专家”,提出MoLe-VLA,用具备时空感知的STAR路由按当前状态动态选择top-k层执行,并用CogKD自蒸馏补回跳层带来的认知能力损失。在RLBench和真实机器人上,十项任务平均成功率提升8%,同时LLM计算成本最高降低5.6倍。

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy figure
ICCV 20252025-03-25

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

VLA

VLADiffusion PolicyTransformer Policy基础模型语言条件机器人学习

这篇工作针对通用VLA在跨机器人、跨视角和异构动作空间下,依赖小型动作头而难以生成连续动作的问题,提出Dita:把动作序列去噪直接并入因果Transformer,用in-context conditioning让动作生成对齐历史视觉token,而非只依赖早期融合表征。结果上,Dita在多项仿真基准达到SOTA或相当表现,并能仅用第三视角输入在新机器人上10-shot微调完成长时程任务;但文中增益有多少来自架构、多少来自scaling/data,公开摘要里仍未充分说明,该判断基于公开摘要/项目页。

DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data figure
arXiv2025-03-25

DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data

数据采集

数据采集数据增强泛化操作

论文针对机器人操作示范采集昂贵、数据覆盖不足且大工作空间中的空间推理阶段常成失败瓶颈,提出将轨迹拆分为SRP与PIP两阶段:前者可低成本自动采集,后者保留稀缺交互数据。基于RoboTron-Craft数据流水线与RoboTron-Platter分阶段训练,作者用大量SRP数据去催化少量PIP数据,并指出二者配比近似服从对数规律、额外SRP最多约4倍更有效。实验显示零样本场景成功率最高提升41%,且可迁移到新目标物体。

RoboEngine: Plug-and-Play Robot Data Augmentation with Semantic Robot Segmentation and Background Generation figure
IROS 20252025-03-24

RoboEngine: Plug-and-Play Robot Data Augmentation with Semantic Robot Segmentation and Background Generation

数据需求量大

数据需求量大数据采集数据增强感知

这篇工作针对机器人模仿学习对场景变化敏感、现有视觉增强又依赖绿幕或相机标定的问题,提出可即插即用的 RoboEngine。其核心洞察是瓶颈不在策略本身,而在高质量机器人前景分割与符合物理/任务约束的背景生成;为此构建了3800张标注的 RoboSeg 数据集,并微调分割模型和扩散背景生成模型,几行代码即可合成增强数据。实机实验中,仅用单场景示教训练就能泛化到6个全新场景,较无增强基线提升约210%,较既有方法提升约20%。

Learning to Play Piano in the Real World figure
arXiv2025-03-19

Learning to Play Piano in the Real World

应用

应用

论文把钢琴演奏视为检验类人灵巧操作的真实世界基准,因为它同时要求精确触键、时序控制与连贯手部运动。作者在多指Allegro手上提出首个学习驱动的真实钢琴系统,用Sim2Real2Sim结合领域随机化,反复用实机数据校准仿真并再训练策略。结果显示,策略仅在仿真训练也能在真实键盘上演奏《两只老虎》等4首简单曲目,平均F1达0.881;但整体仍是proof-of-concept,能力主要限于简单单手片段。

GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback figure
arXiv2025-03-19

GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback

抓取

抓取操作

论文指出,许多端到端操作策略并非主要败在长程规划,而是卡在“抓不稳”这一共同瓶颈;仅把抓取前段替换为稳定抓取轨迹,RLBench部分任务成功率就可提升最高26.4%。为此,GraspCorrect以可插拔方式在抓取时刻调用VLM做迭代式空间问答,结合任务约束提示与目标感知采样,先找物理可行抓点,再合成目标抓取图像并由GCBC转成关节动作。文中称其在RLBench和CALVIN上持续提升抓取稳定性与任务成功率,并达到SOTA,但完整增益拆解在给定片段中未充分说明。

ReSteer: Quantifying and Refining the Steerability of Multitask Robot Policies figure
arXiv2025-03-18

ReSteer: Quantifying and Refining the Steerability of Multitask Robot Policies

VLA

VLA安全机器人学习

这篇工作关注多任务VLA在执行中途常“听不进新指令”的问题,作者认为根因是训练数据按任务独立采集,语言在多数状态下信息量过低,策略因而过度依赖状态。为此,ReSteer用条件互信息近似刻画可转向性,并据此定位低可转向状态、合成任务切换轨迹,再通过只用成功切换轨迹的自我精炼提升鲁棒性。结果上,LIBERO中可转向成功率提升约11%,真实厨房场景相对仅遥操作微调提升2.2倍。

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots figure
arXiv2025-03-18

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

人形操作

人形操作VLA基础模型操作

论文针对人形机器人缺少互联网级训练数据、跨本体数据割裂成“数据孤岛”的问题,提出 GR00T N1:用 VLM 做语义理解、用 DiT 做 120Hz 动作生成,并以“数据金字塔”联合真实轨迹、合成数据和人类视频(含伪动作标注)端到端训练。结果上,它在多种机器人仿真操作基准上优于现有模仿学习方法,并在 Fourier GR-1 上实现语言条件双臂操作且数据效率较高;但各部分增益来源文中未充分说明。

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation figure
CVPR 20252025-03-17

MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

移动操作

移动操作VLA操作

针对移动操作缺乏大规模训练、泛化明显弱于固定基座VLA的问题,MoManipVLA把已有VLA预测的末端执行器路标转成可执行的全身轨迹:上层零样本调整移动底盘站位以扩展可操作空间,下层在可达性、平滑性和避碰约束下优化机械臂轨迹。OVMM和真实机实验中,其成功率比现有移动操作方法高4.2%,且真实部署仅需50条专家示范,表明固定基座VLA的泛化能力可以较低成本迁移到移动操作。

HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning figure
arXiv2025-03-17

HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning

数据需求量大

数据需求量大任务规划模仿学习数据采集数据生成语言条件

这篇工作针对复杂机器人操作中“高质量示范难采、模仿学习又强依赖大规模数据”的瓶颈,提出 HybridGen:先用 VLM 解析专家轨迹,把必须保留精细接触控制的片段与可自动重规划的片段分开,再结合路径规划和位姿变换批量生成与原示范同格式的数据,因此能兼容多种 IL 算法。7 个任务评测中,训练后平均成功率较现有方法提升约 5%,最难变体达到 59.7%,显著高于 MimicGen 的 49.5%;其增益可能主要来自更大规模且更语义多样的数据。

Humanoid Policy ~ Human Policy figure
IROS 20252025-03-17

Humanoid Policy ~ Human Policy

人形操作

人形操作操作

这篇工作针对人形操作数据依赖昂贵遥操作、难以扩展的问题,尝试把第一视角人类示范当作跨具身训练源。核心做法是采集与机器人任务直接对齐的 PH2D 数据集,并提出 HAT,在统一的人类中心状态—动作空间中同时建模人和人形机器人,再通过可微重定向映射到机器人控制。实机结果表明,相比只用机器人示范,共训后在未见过的空间变化和背景扰动下更稳健、泛化更好,且数据采集效率显著提升;但增益有多少来自统一建模、多少来自更大人类数据规模,文中未充分说明。

Free-form language-based robotic reasoning and grasping figure
IROSW 20252025-03-17

Free-form language-based robotic reasoning and grasping

抓取

抓取操作

这篇工作面向杂乱料箱中按人类自由语言指令抓取物体的难题,关键在于同时理解模糊描述、区分同类实例,并判断目标是否被遮挡。作者提出FreeGrasp:先把场景中所有物体检测为关键点并在图像上做标记,再借助GPT-4o进行零样本空间推理,决定应直接抓目标还是先移除遮挡物,并结合分割与深度估计抓取位姿;同时构建了含300个场景、带人工指令与真值序列的FreeGraspData。实验和真实机械臂验证表明其在推理与执行上优于ThinkGrasp,但具体数值增益在给定片段中未充分说明。

Dense Policy: Bidirectional Autoregressive Learning of Actions figure
ICCV 20252025-03-17

Dense Policy: Bidirectional Autoregressive Learning of Actions

Transformer Policy

Transformer Policy机器人学习

论文针对机器人操作中自回归策略常因逐 token 或逐 chunk 预测而难捕获长程依赖、效果落后于整体生成策略的问题,提出 Dense Policy:从单帧常量动作出发,利用仅编码器 Transformer 对稀疏关键帧动作做双向扩展与逐层细化,以粗到细方式生成连续动作序列,并将推理复杂度降到对数级。文中称其在 11 个任务、3 个仿真基准和 4 个真实任务上优于现有自回归基线,且可超过 ACT、Diffusion Policy 等整体生成方法。

Towards Generalizable Robotic Manipulation in Dynamic Environments figure
arXiv2025-03-16

Towards Generalizable Robotic Manipulation in Dynamic Environments

VLA

VLA泛化安全机器人学习操作数据集/Benchmark

论文指出现有VLA多依赖单帧观测,面对移动目标和突发扰动时缺少“看历史、判未来”的能力,因此从静态操作迁移到动态操作会明显失效。作者先构建DOMINO基准,覆盖35类任务、11万+专家轨迹、5种机器人与分级动态难度,并进一步发现单纯注入未来轨迹并不足够,必须结合历史上下文。基于此提出的PUMA将历史光流与预测查询结合,隐式推断目标未来状态,在DOMINO上平均成功率达17.2%,较最强基线绝对提升6.3%,且动态数据训练还能迁移改善静态任务。

GenOSIL: Generalized Optimal and Safe Robot Control using Parameter-Conditioned Imitation Learning figure
arXiv2025-03-15

GenOSIL: Generalized Optimal and Safe Robot Control using Parameter-Conditioned Imitation Learning

模仿学习

模仿学习安全机器人学习

标题与提供内容疑似不一致,以下判断基于公开摘要与片段:论文针对离线模仿学习在噪声感知和分布偏移下易失效的问题,将障碍物位置、速度等参数用VAE编码为概率潜变量,并与状态和目标联合条件化策略,使其能对未见但合理的扰动做平滑泛化。在地面车导航和Franka机械臂任务中,相比PC-BC与C-PPO,方法提升了安全率且基本保持到达率,但具体增益来源文中未充分拆解。

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation figure
CVPR 20252025-03-14

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation

灵巧操作

灵巧操作视频规划数据采集数据增强泛化人机交互操作

这项工作针对机器人模仿学习所需的手物交互视频存在“视角不固定、视频与指令错配、抓握姿态不稳”三类瓶颈,核心做法是构建100,856条固定第一视角、单任务且语言精确对齐的TASTE-Rob数据集,并在视频扩散模型后加入“先生成粗视频、再用运动扩散细化手部姿态、最后条件重生成”的三阶段流程。结果是在任务导向HOI视频生成质量和机器人泛化操作上超过现有方法;判断基于公开摘要,增益可能主要来自更干净的数据和显式姿态约束。

Sketch-to-Skill: Bootstrapping Robot Learning with Human Drawn Trajectory Sketches figure
RSS 20252025-03-14

Sketch-to-Skill: Bootstrapping Robot Learning with Human Drawn Trajectory Sketches

RL+IL

RL+IL基础模型机器人学习

这篇工作关注机器人操作学习对高质量遥操作示教和大量环境交互的依赖,试图用非专家也能提供的人类手绘轨迹来启动学习。其核心是将双视角2D草图生成3D末端执行器轨迹,用这些近似轨迹先开环采集演示,再做BC预训练并以示教数据引导RL微调,把草图从过去主要用于IL条件输入,扩展为可直接提升探索效率的RL先验。实验表明,仅靠草图即可达到遥操作示教基线约96%的性能,并比纯RL高约170%;但各阶段增益拆分文中未充分说明。

Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping figure
RSS 20252025-03-14

Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping

模仿学习

模仿学习VLA机器人学习

论文针对机器人模仿学习中“真实评测样本很少、却要严谨比较两种策略优劣”的难题,指出固定样本的批量检验既不灵活,也容易在中途看结果后追加试验时落入 p-hacking。作者提出序贯统计框架 STEP,在二元成功/失败指标下可依据中间证据自适应决定继续还是停止,并在控制错误率与检验功效的同时实现接近最优的停机。仿真和真实操作实验表明,该方法相较现有序贯基线最多减少 32% 评测试次,多任务场景可节省 160 余次 rollout。

EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks figure
arXiv2025-03-14

EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks

任务规划

任务规划多模态推理3D 表征感知

针对现有 MLLM 在具身长时程空间任务中容易凭隐式常识臆测关系、推理链又难与环境变化对齐的问题,EmbodiedVSR用可随交互更新的动态场景图来显式表示对象属性、相对位置与动作引起的状态转移,并以此约束空间 CoT,实现免任务微调的零样本推理;同时提出 eSpatial-Benchmark 评测。结果显示其在准确率和推理连贯性上优于现有方法,尤其在需反复交互的长程任务中更明显,但判断基于公开摘要,具体增益拆解仍未充分说明。

Disentangled Object-Centric Image Representation for Robotic Manipulation figure
IROS 20252025-03-14

Disentangled Object-Centric Image Representation for Robotic Manipulation

对象中心

对象中心感知机器人学习操作

论文指出,现有对象中心视觉表征在多物体操作里常把目标、障碍物和机器人本体耦合在一起,导致连简单抓放都难以稳定学习。DOCIR的关键做法是先用分割把基座/腕部相机图像拆成“目标物体、障碍物、机器人”三类掩码图,再分别编码供策略学习,从表征层显式注入任务相关结构。抓取放置实验表明,它相比场景级和已有对象中心方法具有更高样本效率与最终成功率,并能泛化到测试时目标物体、干扰物和场景布局变化,且可零样本迁移到真实机器人。

Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning figure
arXiv2025-03-14

Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

数据需求量大

数据需求量大模仿学习数据采集安全操作

论文针对真实机器人模仿学习里“采集贵、单条示范信息密度低”的瓶颈,提出ADC对抗式数据采集:双人闭环下,一人遥操作任务,另一人同回合实时扰动物体状态、背景与语言指令,迫使操作者不断重规划和纠错,把失败恢复、组合变化与环境扰动压缩进少量示范。实验显示,ADC仅用约20%的示范量就超过传统全量数据训练,并在未见指令泛化、感知扰动鲁棒性和错误恢复上更强;但双人采集的人力成本与可扩展性文中未充分说明。

Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation figure
CVPR 20252025-03-13

Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation

Diffusion Policy

Diffusion Policy双臂机器人学习操作

这篇工作针对双臂模仿学习里“先预测末端位姿、再做逆运动学”这一范式的缺陷:它常忽略双臂物理结构与关节可达性,导致自碰撞、互扰和关节空间不可执行。作者提出 KStar Diffuser,用基于 URDF 和连续关节运动构建的时空动态图为扩散去噪提供结构约束,并引入可微运动学正则,把关节空间监督与前向运动学参考并入位姿学习。实验表明其在仿真和真实场景中都更稳健,成功率较基线提升超过 10%。

LUMOS: Language-Conditioned Imitation Learning with World Models figure
ICRA 20252025-03-13

LUMOS: Language-Conditioned Imitation Learning with World Models

模仿学习

模仿学习世界模型语言条件机器人学习

这篇论文针对离线模仿学习在长时序、语言驱动操作中易因协变量偏移而越做越错、真实机器人又难以在线试错的问题,提出 LUMOS:先从无结构 play 数据学习世界模型,再在其潜空间中按自身策略进行多步“练习”,结合潜在规划、基于图像和语言的 hindsight goal relabeling,以及潜空间内在奖励来提升纠错与长程一致性。结果上,LUMOS 在 CALVIN 长链任务上优于同类学习方法,并能把完全离线学到的语言条件连续视觉运动策略零样本迁移到真实机器人;但作者也指出其表现较依赖世界模型质量,且高分辨率训练代价较高。

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model figure
ICLR 20262025-03-13

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

VLA

VLADiffusion Policy语言条件机器人学习

这篇工作针对 VLA 中“自回归有语义推理但动作离散化损失连续控制、扩散能输出连续动作却没充分利用 VLM 逐 token 推理”的矛盾,提出在单一 LLM 内联合扩散去噪与自回归动作生成,并用协同训练和基于置信度的动作集成减轻两者干扰。结果在仿真和真实任务平均成功率分别较前 SOTA 提升 14% 和 19%,且对未见配置更稳;但其中有多少收益来自统一建模而非更大机器人数据预训练,文中未充分说明。

Enhanced View Planning for Robotic Harvesting: Tackling Occlusions with Imitation Learning figure
ICRA 20252025-03-13

Enhanced View Planning for Robotic Harvesting: Tackling Occlusions with Imitation Learning

任务规划

任务规划模仿学习操作应用

论文针对果实被叶片、枝条遮挡而导致检测和采摘失败的问题,提出基于模仿学习的视角规划方法:用ACT从人类示范中直接学习相机运动策略,在连续6自由度空间平滑调整视角,替代依赖手工评价指标或奖励设计的NBV方法。仿真与真实机械臂实验表明,该方法在复杂遮挡下的成功率与效率均优于对比方法,并具备跨作物泛化能力;但具体提升幅度与增益来源文中未充分说明。

Feasibility-aware Imitation Learning from Observations through a Hand-mounted Demonstration Interface figure
ICRA 20252025-03-12

Feasibility-aware Imitation Learning from Observations through a Hand-mounted Demonstration Interface

模仿学习

模仿学习数据采集数据筛选

论文针对手持示教做模仿学习时,人类动作常因与机器人动力学不匹配而“看得会、做不到”的问题,提出 FABCO:先用预训练正/逆动力学模型估计每段示教的可执行性,一方面把可执行性可视化反馈给示教者促使其修正动作,另一方面在从观测行为克隆中把可执行性作为样本权重进行学习。其在移液枪插瓶任务上,相比 BCO 提高了示教可行性与策略成功率;NASA-TLX 显示反馈主要提升了被试对完成效果的主观评价,未明显降低总体负担。

TLA: Tactile-Language-Action Model for Contact-Rich Manipulation figure
arXiv2025-03-11

TLA: Tactile-Language-Action Model for Contact-Rich Manipulation

触觉

触觉接触丰富机器人学习操作

这篇工作针对现有VLA几乎依赖视觉、难处理插装等接触丰富任务的问题,尝试把触觉直接纳入语言条件策略学习。其关键做法是构建24k指尖插销装配触觉—动作指令数据,并将单步接触产生的触觉时序压成复合触觉图,再接入Qwen2-VL式模型生成位姿增量。实验中,TLA在动作精度和多步装配成功率上超过 diffusion policy,对未见过的装配间隙和销形仍有85%以上成功率;但时序触觉表征的增益来源文中未充分说明。

MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models figure
ICRA 20252025-03-11

MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models

四足操作

四足操作强化学习VLA触觉操作

这篇工作针对四足机器人VLA在多任务操作中难扩展的问题:现有方法多直接微调通用多模态大模型,并依赖昂贵的专家演示,难以利用机器人自动采集的大量失败或次优数据。MoRE的核心做法是在VLA骨干中插入多个LoRA专家并稀疏路由,再把模型按Q函数方式用离线强化学习微调,以更有效地从混合质量数据中学习。实验显示其在六项技能、OOD场景和真实机验证中都优于基线,泛化更强。

FP3: A 3D Foundation Policy for Robotic Manipulation figure
arXiv2025-03-11

FP3: A 3D Foundation Policy for Robotic Manipulation

3D 表征

3D 表征VLA机器人学习操作

现有机器人基础策略多依赖2D图像,难以利用对操作至关重要的几何关系,导致跨物体、场景和干扰的泛化不足。FP3将彩色点云、语言和本体状态输入预训练Uni3D与扩散Transformer,先在DROID约6万条轨迹上做3D预训练,再用LoRA在少量示教上快速适配。真实机器人实验中,各任务仅80条示教、单卡约2小时微调,即可在新物体和新环境上取得90%以上成功率,显著优于DP3和OpenVLA;消融表明增益主要来自3D表征以及模型、数据的scaling。

Elastic Motion Policy: An Adaptive Dynamical System for Robust and Efficient One-Shot Imitation Learning figure
IROS 20252025-03-11

Elastic Motion Policy: An Adaptive Dynamical System for Robust and Efficient One-Shot Imitation Learning

模仿学习

数据需求量大模仿学习泛化安全

这篇工作针对行为克隆在动态人机环境中泛化差、受扰动后易偏离且难随场景变化重规划的问题,提出EMP:从单次演示学习带收敛保证的全位姿动力系统策略,并结合R^3×SO(3)上的拉普拉斯编辑与李雅普诺夫函数在线凸优化,使策略无需新增示教即可按约30Hz随目标和环境变化实时变形。实机实验显示,它能在动态场景中完成避障与多阶段操作,并保持较好的顺应性与恢复能力,但文中也说明方法依赖较准确的物体跟踪。

Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies figure
RSS 20252025-03-11

Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies

任务规划

任务规划多模态推理模仿学习VLA安全感知机器人学习

随着模仿学习操控策略能处理更长时序任务,部署时会出现难以预先枚举的失败,而现有检测器常依赖失败样本训练,实用性受限。本文把运行时失败检测视为仅基于成功轨迹的序列OOD检测,提出两阶段FAIL-Detect:先从观测/动作中学习标量不确定性分数,其中基于流模型的密度估计最有效,再用保形预测校准随时间变化的阈值并给出误报率保证。文中结果表明其在仿真和真机多任务上比现有方法更快、更准地发现失败,但具体增益幅度文中未充分说明。

iManip: Skill-Incremental Learning for Robotic Manipulation figure
ICCV 20252025-03-10

iManip: Skill-Incremental Learning for Robotic Manipulation

泛化

泛化操作

论文聚焦机器人操作中的“技能增量学习”:希望机器人在不从头重训的情况下持续学会新技能,同时尽量不遗忘旧技能。作者先在RLBench上构建了包含10类技能、166个变体的增量环境,并指出传统持续学习方法失效的关键在于忽视了操作任务的时序依赖与动作原语扩展。为此,iManip用时间回放保留旧技能关键帧序列,再以可扩展PerceiverIO和动作prompt适配新动作原语。实验显示其平均成功率较传统增量基线提升9.4个百分点,并在不同设置和真实机器人上保持较好效果。

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation figure
CVPR 20252025-03-10

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

3D 表征

数据需求量大3D 表征视频规划泛化操作

这篇工作针对机器人示教数据难以覆盖多机体、多场景的问题,尝试直接从互联网单目人类视频学习可迁移操作。核心是用深度基础模型结合SfM恢复具备时间一致性和米制尺度的3D手部交互轨迹,再以粗到细模型先预测接触/目标点、后用扩散模型结合测试时几何约束生成轨迹。结果上,VidBot在13个零样本操作任务中优于基线,并已在多种机器人真实部署;但其增益可能也部分来自大规模视频数据,文中对数据效率边界未充分说明。

RoboCopilot: Human-in-the-loop Interactive Imitation Learning for Robot Manipulation figure
arXiv2025-03-10

RoboCopilot: Human-in-the-loop Interactive Imitation Learning for Robot Manipulation

模仿学习

模仿学习机器人学习操作

这项工作针对被动模仿学习在双臂操作中易受协变量偏移影响、机器人出错后又难以及时纠正的问题,提出 RoboCopilot:将 HG-DAgger 式交互模仿学习与顺应式双边遥操作硬件结合,实现人和策略之间的无缝接管,并持续采集针对失败场景的纠错数据。仿真和真实双臂移动操作实验表明,交互数据比被动演示更有效,随着教学进行成功率持续提升、人工接管次数下降;在工业搬运等长时程任务上,用交互数据重新训练的 Batched DAgger 优于纯离线 BC 和持续微调方案。

One-Shot Dual-Arm Imitation Learning figure
ICRA 20252025-03-10

One-Shot Dual-Arm Imitation Learning

模仿学习

数据需求量大模仿学习泛化双臂

双臂模仿学习通常因状态-动作维度高而依赖几十到上千次示教,且双臂时空协同和精确对位尤难。ODIL把单次示教拆成“先对准瓶颈位姿、再回放协同轨迹”:一方面用 act/stabilize/rearrange 三类原语参数化四种双臂协作模式,另一方面提出结合全局/腕部相机与深度匹配器的三阶段视觉伺服,在无需对象模型、额外采集或再训练下完成高精度对齐。实机在6类4-DoF/6-DoF精细任务上优于现有 one-shot/few-shot 基线,并对遮挡和干扰物较稳健。

How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning figure
ICRA 20252025-03-10

How to Train Your Robots? The Impact of Demonstration Modality on Imitation Learning

模仿学习

模仿学习数据采集数据筛选

论文关注一个常被忽视的问题:示教方式会如何影响机器人模仿学习,而现有数据集却多依赖 VR 或 spacemouse 遥操作。作者系统比较了动觉示教、VR 和 spacemouse 在策略效果、数据质量与用户体验上的差异,并提出“少量动觉+更多 VR”的混合采集方案。结果表明,动觉示教最直观、动作一致性最高,通常带来最干净数据和最好下游性能,但因体力负担与回放成本不适合大规模采集;混合方案在低采集负担下平均将成功率再提升约20%。

GO-1: AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems figure
IROS 20252025-03-09

GO-1: AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

3D 表征

3D 表征辅助任务VLA基础模型机器人学习操作

论文动机是解决机器人操作长期受制于高质量真实世界数据稀缺、现有数据集多为单臂短时程且质控不足的问题。作者构建了AgiBot World,在五类真实场景中以100台双臂人形机器人采集百万级轨迹,并结合人工在环质检、细粒度语言标注、灵巧手与视触觉数据;同时提出带潜在动作规划的GO-1,以更充分利用异构视频和机器人数据。结果上,相比OXE预训练平均提升30%,复杂长程任务成功率超60%,较RDT高32%;但模型收益与数据规模收益的边界文中未充分说明,增益可能主要来自scaling/data。

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems figure
IROS 20252025-03-09

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

基础模型

基础模型操作数据集/Benchmark

论文动机是现有机器人操作数据多停留在实验室短时任务,且硬件异构、质控不足,难支撑真实场景泛化。作者提出AgiBot World Colosseo:用标准化采集流程加人工复核,在五类真实部署场景中由100台双臂人形机器人收集百万级轨迹,并配套基于潜在动作表示的通用策略GO-1以提升异构数据利用率。结果上,基于该数据预训练较OXE平均提升30%,仅用约其1/10时长数据也有18%泛化增益,GO-1在复杂长程任务成功率超60%、较RDT高32%;但增益来源不清,可能主要来自scaling/data与模型设计共同作用。

Look Before You Leap: Using Serialized State Machine for Language Conditioned Robotic Manipulation figure
IROS 20252025-03-07

Look Before You Leap: Using Serialized State Machine for Language Conditioned Robotic Manipulation

泛化

泛化语言条件操作

这篇工作针对语言条件模仿学习在长时序操作中因演示只覆盖随机初始场景、难以见到真实中间状态而引发级联失败的问题,提出用序列化有限状态机/SMSL显式枚举并过滤合法中间状态,再据此进行可持久环境初始化与状态感知示教生成。核心洞察是先“看清”任务的状态结构,再训练策略,比直接在随机场景采样更能支撑顺序推理。实验在汉诺塔等长程谜题上将成功率提升到最高98%,而对比方法最高约60%;但从公开片段看,增益有多少来自状态覆盖扩充而非模型本身,文中未充分说明。

Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction figure
RA-L 20252025-03-07

Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction

数据采集

数据采集人机交互遥操作机器人学习操作数据集/Benchmark

本文针对现有机器人操作数据集多依赖视频、缺少动力学与人类意图信息、难支撑复杂装配学习的问题,提出 Kaiwu 多模态采集框架,把人、环境和机器人同步到同一时间轴,联合记录手部运动、操作压力与声音、多视角视频、动捕、眼动、第一视角和肌电,并提供细粒度时空标注与分割。数据集覆盖20名受试者、30类交互物体、11664段综合动作,标注规模较大;但文中更突出数据建设,具体对下游策略学习的定量增益未充分说明。

VLA Model-Expert Collaboration for Bi-directional Manipulation Learning figure
arXiv2025-03-06

VLA Model-Expert Collaboration for Bi-directional Manipulation Learning

VLA

多智能体/多机器人VLA机器人学习操作

针对VLA在多任务操作中泛化不足、纯人工操控成本高的问题,论文提出VLA-专家协作框架:由VLA负责高频常规动作,专家低频介入纠偏,并将协作中的专家操作数据回流微调模型、同时让人逐步适应模型,形成双向学习闭环。在MetaWorld上,当VLA与专家动作比为4:1时,MT10/MT50成功率分别提升6.2%和13.5%,专家动作步数减少82.24%;BCI验证还显示该框架可提升低速控制系统的操作效率。

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models figure
RA-L 20252025-03-06

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models

强化学习

强化学习触觉基础模型语言条件机器人学习操作

该文针对真实机器人强化学习中“稠密奖励难设计、稀疏奖励难优化”的瓶颈,提出 ARCHIE:用 GPT-4 将自然语言任务一次性生成受约束的奖励函数及成功/失败判据,并以 shaping+终止奖励的形式自动写入仿真环境训练策略,减少多轮奖励反思和人工调参。作者在 ABB YuMi 的单臂与双臂操作任务上表明,该方法学到的策略比人工设计奖励更稳定、更一致,也明显优于直接由 GPT-4 生成控制代码,并完成了实机演示。

Dexterous Hand Manipulation via Efficient Imitation-Bootstrapped Online Reinforcement Learning figure
arXiv2025-03-06

Dexterous Hand Manipulation via Efficient Imitation-Bootstrapped Online Reinforcement Learning

灵巧操作

灵巧操作模仿学习强化学习触觉操作

现有灵巧手抓取多依赖仿真训练,落地真实场景时容易受 sim-to-real gap、高自由度探索和稀疏奖励限制。本文提出 DexGraspRL,在真实机器人上先用少量示范做模仿预训练,再进行在线强化学习,并通过自适应正则在策略改进与保留预训练能力之间平衡,缓解分布偏移导致的灾难性遗忘。实验显示其在多种真实抓取任务上平均成功率约 92%,相对纯 IL 将平均周期时间缩短 23%,整体优于 BC、SERL,且在多数任务上优于或可比 ACT。

Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning figure
CoRL 20252025-03-06

Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning

3D 表征

3D 表征模仿学习泛化跨本体

这篇工作针对模仿学习策略一遇到新相机视角或新机器人本体就失效的问题,认为不少3D方法把语义和几何都压给点云学习,既吃数据也易过拟合。Adapt3R的关键做法是用预训练2D视觉骨干提取语义,再借助标定RGBD把特征提升到3D,并在末端执行器坐标系下做注意力汇聚,只让3D负责定位而非理解。实验覆盖93个仿真任务和6个真实任务,可与多种IL解码器端到端结合,在多任务与精密插入上保持性能,并实现对新本体/新视角的零样本迁移,真实场景较次优基线提升43.8%。

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction figure
ICML 20252025-03-05

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

VLA

VLA语言条件感知机器人学习

论文指出,现有VLA把视觉和语言特征直接交给策略并微调VLM,容易破坏CLIP类模型已有的语义对齐,导致对新物体和新环境泛化变差。OTTER的关键是冻结视觉语言编码器,用文本引导只抽取与指令语义对应的视觉patch,再与本体状态送入策略,从而把“找任务相关目标”和“生成控制”部分解耦。实验中它在仿真和真实机器人上都优于Octo、OpenVLA,LIBERO未见任务成功率达61%,明显高于48%和26%。

Generative Artificial Intelligence in Robotic Manipulation: A Survey figure
arXiv2025-03-05

Generative Artificial Intelligence in Robotic Manipulation: A Survey

操作

操作综述

面向机器人操作中数据稀缺、长时程规划困难和多模态决策不足,这篇综述的核心洞察是把生成式模型按能力与用途统一到“基础层—中间层—策略层”框架下,系统梳理GAN、VAE、扩散、流与自回归模型在数据/奖励、语言/代码/视觉/状态以及抓取/轨迹生成中的作用与局限。主要结果是给出一套较完整的领域地图、代表工作与资源库,并指出提升数据效率、长程任务处理和跨场景泛化仍是关键;作为综述,文中未给出统一实验增益。

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping figure
AAAI 20262025-03-05

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

抓取

抓取灵巧操作VLA操作

面向真实环境中多物体、遮挡、光照变化和外界扰动导致的灵巧抓取泛化难题,DexGraspVLA提出分层VLA框架:上层用预训练VLM把开放语言指令分解为目标与执行顺序,下层借助视觉基础模型提炼更稳定的目标表征,并以扩散动作头进行闭环模仿学习。其核心洞察是先将语言和视觉逐步变换为域不变表示,再学习动作以减轻domain shift。实验中,该方法在1287种未见拥挤场景上实现90.8%抓取成功率,长时程指令成功率89.6%,并展示了抗干扰、失败恢复和向非抓持抓取迁移的能力。

AirExo-2: Scaling up Generalizable Robotic Imitation Learning with Low-Cost Exoskeletons figure
ICLRW 20252025-03-05

AirExo-2: Scaling up Generalizable Robotic Imitation Learning with Low-Cost Exoskeletons

模仿学习

模仿学习数据采集泛化遥操作操作

这篇工作针对机器人模仿学习受限于遥操作采集昂贵、难扩展,以及野外人类示范与机器人之间存在动作和视觉域差的问题,提出约600美元的外骨骼采集系统 AirExo-2,并用观测与动作适配器把人类示范转成可训练的伪机器人数据;同时设计融合稀疏3D空间信息与稠密2D语义的 RISE-2 策略。实验表明,RISE-2 在域内和泛化评测上优于已有方法,仅用 AirExo-2 采集并适配的数据、无需机器人示范,就能达到接近遥操作训练的性能,在相同采集时间下甚至更强;但具体增益有多少来自策略设计、多少来自 scaling/data,文中未充分说明。

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation figure
RSS 20252025-03-04

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation

触觉

触觉Diffusion Policy数据采集接触丰富遥操作感知机器人学习操作

面对接触丰富操作中“长时程动作建模”和“瞬时触觉反应”难以兼得的问题,作者指出现有视觉模仿学习的 action chunk 在执行期基本开环,传统遥操作也难提供细粒度触觉示教。为此提出低成本 AR 触觉遥操作系统 TactAR,并设计慢-快分层的 RDP:慢层用潜变量扩散策略低频生成动作块,快层用非对称 tokenizer 在高频触觉/力反馈下闭环修正。三项真实任务上,相比现有视觉 IL 基线成功率提升超过35%,且可适配多种触觉/力传感器与双臂场景。

One-Shot Affordance Grounding of Deformable Objects in Egocentric Organizing Scenes figure
IROS 20252025-03-03

One-Shot Affordance Grounding of Deformable Objects in Egocentric Organizing Scenes

可变形物体

可变形物体Affordance视频规划操作

论文聚焦第一视角整理场景中的可变形物体操作感知:衣物、毛巾等因形变大、局部部件弱、纹理干扰强且动词提示含糊,传统 few-shot 难以稳定定位可操作区域。作者提出 one-shot affordance grounding 框架,用 DefoSEM 做层级语义增强、OEKFM 融合 ORB 与几何约束提取关键点,并以实例条件提示词消解“grasp”类歧义。在 AGDDO15 上,KLD、SIM、NSS 分别提升 6.2%、3.2%、2.9%,对未见颜色和形状表现出更好泛化;但闭环操控收益文中片段未充分说明,判断基于公开摘要。

MuBlE: MuJoCo and Blender simulation Environment and Benchmark for Task Planning in Robot Manipulation figure
arXiv2025-03-03

MuBlE: MuJoCo and Blender simulation Environment and Benchmark for Task Planning in Robot Manipulation

基础操作

基础操作任务规划操作数据集/Benchmark

这项工作针对现有操作仿真器常在真实视觉与精确物理之间取舍、难支撑需通过交互获取信息的长时程任务规划,提出 MuBlE:把 MuJoCo 物理与 Blender 渲染结合到 robosuite 中,支持场景/指令合成、物体物理属性观测及视觉-动作、控制-物理双闭环;同时发布含 1.2 万场景、10 类多步任务的 SHOP-VRB2。文中结合 CLIER 的仿真与真实实验表明其具备一定 sim2real 迁移能力,但具体量化增益来源在公开摘要中未充分说明。

KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot Hands figure
CoRL 20252025-03-03

KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot Hands

软体机器人

软体机器人操作

这篇工作针对软体欠驱动机械手虽具安全顺应性、却因示教采集困难和状态表征失效而难以学习灵巧操作的问题,提出 KineSoft:把软手可被人直接物理引导的顺应性变成动觉示教优势,结合内置应变传感阵列做无遮挡本体形状估计,并用基于形状的扩散式模仿策略与形状条件低层控制器来生成并跟踪变形轨迹。实物实验表明,该方法在六个刚体和可变形物体的手内操作任务上,相比基线取得了更高的形状估计精度、更准确的轨迹跟踪和更高的任务成功率。

FRMD: Fast Robot Motion Diffusion with Consistency-Distilled Movement Primitives for Smooth Action Generation figure
RISEx 20252025-03-03

FRMD: Fast Robot Motion Diffusion with Consistency-Distilled Movement Primitives for Smooth Action Generation

Diffusion Policy

Diffusion Policy机器人学习

这篇工作针对扩散策略在机器人控制中的两点痛点:多步去噪带来高时延,直接预测waypoint又容易产生抖动、不够平滑的动作。FRMD的核心洞察是把生成对象从原始动作序列转为ProDMP运动基元参数,再用一致性蒸馏替代传统多步扩散采样,从而实现单步、时间连续的轨迹生成。文中在Meta-World和ManiSkill上报告64.8%成功率,较MPD快10倍、较Diffusion Policy快7倍,且轨迹更平滑;不过各模块具体增益来源文中未充分说明。

FLAME: A Federated Learning Benchmark for Robotic Manipulation figure
IROS 20252025-03-03

FLAME: A Federated Learning Benchmark for Robotic Manipulation

多智能体/多机器人

多智能体/多机器人跨本体操作数据集/Benchmark

这项工作针对机器人操作数据通常需要集中汇总训练、难兼顾隐私与跨机构扩展的问题,提出首个面向联邦学习的操作基准FLAME:在RLBench/Colosseum基础上整理16万+专家示范,覆盖多任务和大规模环境扰动,并配套分布式训练与评测框架。实验表明,标准联邦学习方法已能学到共享操作策略,证明分布式、隐私友好的训练具备可行性,但其相对集中式训练的性能差距、最有效算法及增益来源文中未充分说明。

DEMO3: Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning figure
ICML 20252025-03-03

DEMO3: Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning

模仿学习

模仿学习强化学习数据增强世界模型机器人学习操作

这篇论文针对长时序机器人操作中“稀疏奖励难设计、探索又很难”的问题,利用任务天然的多阶段结构,把少量示范同时用于奖励、策略和世界模型学习。DEMO3先用行为克隆预训练,再在交互中把阶段指示转成逐阶段稠密奖励,并结合基于世界模型的规划来缓解探索。其在4个域16个视觉稀疏奖励任务上,相比现有方法平均提升约40%的数据效率,在更难任务上提升约70%,仅用5条示范也能取得较高成功率。

AVR: Active Vision-Driven Robotic Precision Manipulation with Viewpoint and Focal Length Optimization figure
ICRA 20262025-03-03

AVR: Active Vision-Driven Robotic Precision Manipulation with Viewpoint and Focal Length Optimization

数据采集

数据采集遥操作操作

论文指出精细操作的瓶颈不只在数据量,更在示教与执行时固定视角看不清、易遮挡关键细节。AVR把头显驱动的云台视角控制与电动光学变焦接入双臂遥操作,并在仿真中用ROI裁剪和超分模拟主动视觉,让策略显式利用看哪里、放大多少。结果上,仿真多任务成功率提升5–17%,真实平台相对静态视角多数任务提升超25%,在遮挡、杂乱和光照扰动下也更稳健。

AffordGrasp: In-Context Affordance Reasoning for Open-Vocabulary Task-Oriented Grasping in Clutter figure
IROS 20252025-03-02

AffordGrasp: In-Context Affordance Reasoning for Open-Vocabulary Task-Oriented Grasping in Clutter

抓取

抓取Affordance操作

面向杂乱场景中的任务导向抓取,作者指出现有方法常依赖显式对象/任务提示和大量标注训练,难泛化到新物体与隐式指令。AffordGrasp用VLM做上下文内affordance推理,从“我渴了”这类意图中结合场景图像推断任务、锁定相关物体,并在部件级可供性区域内生成抓取位姿,形成无需额外训练的开放词汇流程。文中称其在仿真和真实机器人实验中达到SOTA、优于已有方法,尤其在杂乱环境更稳,但具体增益拆解文中未充分说明。

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete figure
CVPR 20252025-02-28

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

任务规划

任务规划多模态推理操作

面向长时程操作中现有MLLM能看懂指令却难以真正落到执行的问题,本文将机器人“脑力”归纳为任务规划、可供性感知与轨迹预测三层,并提出统一模型RoboBrain:基于LLaVA配合新建的ShareRobot细粒度异构数据,联合标注子任务、交互区域和末端轨迹,再结合机器人/通用数据混合、多阶段训练、长视频与高分辨率输入。实验显示其在RoboVQA、OpenEQA等基准上达到SOTA,轨迹与可供性预测也有竞争力;但增益可能主要来自数据与训练配方,纯结构贡献文中未充分说明。

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding figure
IROS 20252025-02-28

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

VLA

VLA机器人学习

该文针对VLA结合action chunking后,动作维度随chunk线性增长、AR逐token解码拖慢控制频率的问题,提出PD-VLA:将自回归动作解码重写为可并行求解的非线性固定点迭代,从而在不改模型结构、无需额外训练的前提下加速推理。仿真中在7-DoF机械臂上实现2.52倍执行频率且成功率接近基线,真实机器人任务也验证了可用性。

Point Policy: Unifying Observations and Actions with Key Points for Robot Manipulation figure
CoRL 20252025-02-27

Point Policy: Unifying Observations and Actions with Key Points for Robot Manipulation

模仿学习

模仿学习机器人学习操作

论文针对机器人示教数据昂贵、难以直接利用海量人类视频的问题,提出 Point Policy:用手部与物体的语义3D关键点统一观测与动作,将人手轨迹映射为机器人末端关键点,再由 Transformer 预测未来点轨迹并通过刚体几何反解 6DoF 位姿,实现无需遥操作数据的闭环模仿学习。在 8 个真实任务上,其相对既有方法绝对提升 75%,对未见新物体提升 74%,且对背景杂乱更稳健;但增益来源的具体拆分文中未充分说明,判断基于公开摘要/首页信息。

Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization figure
RSS 20252025-02-27

Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization

数据需求量大

数据需求量大任务规划数据采集数据生成接触丰富操作

面向接触丰富操作中高质量数据稀缺、遥操作采集成本高且难跨本体复用的问题,本文把少量VR人类示教当作全局先验,再用运动学重定向与轨迹优化补足局部接触动力学,可将仅24条示教扩展为跨机器人形态、初始条件和物理参数的上千条动态可行轨迹。基于这些数据训练的diffusion policy在Allegro手和双臂任务上更稳健,并能在双臂iiwa上零样本部署取得较高成功率;但具体增益有多少来自优化本身、多少来自数据规模扩大,文中未充分拆分。

OpenVLA-Oft: Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success figure
RSS 20252025-02-27

OpenVLA-Oft: Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

VLA

VLA语言条件机器人学习

这篇工作针对VLA在新机器人上往往必须微调、但现有自回归配方速度太慢且难以支撑双臂高频控制的问题,系统比较了解码方式、动作表示和训练目标,提出OFT配方:用并行解码和动作分块替代逐token生成,把离散动作改为连续表示,并采用简单的L1回归。文中的核心判断是,这些改动不仅显著提速,还能提升任务成功率与输入输出灵活性。基于OpenVLA,方法在LIBERO上将平均成功率从76.5%提升到97.1%,吞吐提高26倍;在ALOHA实机上也优于π0、RDT-1B以及ACT、Diffusion Policy,平均成功率最高绝对提升15%。

FuseGrasp: Radar-Camera Fusion for Robotic Grasping of Transparent Objects figure
arXiv2025-02-27

FuseGrasp: Radar-Camera Fusion for Robotic Grasping of Transparent Objects

抓取

抓取感知操作

针对透明物体因折射、反射而让RGB-D深度失真、在弱光下更难稳定抓取的问题,FuseGrasp将机械臂运动生成的SAR毫米波雷达图像与相机图像融合,利用毫米波对透明材料呈“近似不透明”的特性来补全深度,并顺带识别玻璃/塑料以调整夹持力;训练上采用“大规模RGB-D预训练+小规模自建RGB-D-Radar微调”的两阶段策略。实验和真实机器人抓取都显示,其深度重建、材质识别与透明物体抓取成功率均明显优于纯相机方案,但具体各模块的增益拆解文中未充分说明。

ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration figure
arXiv2025-02-26

ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration

模仿学习

模仿学习VLA语言条件机器人学习操作

该工作针对VLA强依赖示教、难把“会操作苹果”迁移到陌生物体的问题,提出ObjectVLA:将带框图文数据与机器人示教数据协同微调,并在机器人数据中加入定位驱动推理,用目标定位把物体语义与动作对齐,从而无需为每个新物体单独示教。实机上,域内物体成功率100%,对100个OOD新物体达64%;再用手机拍少量图片持续微调,抓取Pikachu和玩具猫可达80%/90%。但各组件增益来源文中未充分说明。

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models figure
ICML 20252025-02-26

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

VLA

VLA机器人学习

面向开放场景,单层VLA往往只能执行“拿起杯子”式原子指令,难以处理多阶段目标、实时纠错和用户约束。Hi Robot将高层VLM用于结合视觉情境解析复杂语言并输出原子子任务,低层VLA再负责动作执行,同时用基于真实机器人轨迹反推生成的合成提示与反馈数据训练高层。实验在单臂、双臂和移动双臂平台上表明,它在清桌、做三明治、购物等任务中比扁平VLA和API式VLM基线更符合人类意图、成功率更高,但层次设计与合成数据各自带来的增益,文中未充分说明。

Generalist World Model Pre-Training for Efficient Reinforcement Learning figure
ICLRW 20252025-02-26

Generalist World Model Pre-Training for Efficient Reinforcement Learning

强化学习

强化学习触觉世界模型基础模型机器人学习

该工作面向更现实的离线到在线强化学习场景:希望把无奖励、质量参差且跨机体采集的非精选数据也变成可用先验,以提升机器人学习样本效率。文中关键洞察是,通用世界模型直接微调往往无效,症结在于离线与在线数据分布错位;为此提出 GSA,在预训练后继续利用离线数据做经验复演,并用执行引导把探索推向世界模型更有把握的区域。实验覆盖 6 类机体、72 个视觉运动任务,在 15 万步预算下相对从零训练基线聚合得分提升 102.8%,在运动控制和操作任务上也明显优于既有离线数据方法。

Enhancing Reusability of Learned Skills for Robot Manipulation via Gaze and Bottleneck figure
RA-L 20252025-02-25

Enhancing Reusability of Learned Skills for Robot Manipulation via Gaze and Bottleneck

机器人学习

机器人学习操作

论文针对模仿学习在物体位置或机械臂初始位姿稍有变化时就容易失效、因而依赖大量覆盖式示教的问题,提出 GazeBot:利用三维注视点裁剪“注视中心点云”以获得对绝对位置更稳健的目标表征,并按该表征下的动作可预测性自动找出运动“瓶颈”位姿,把操作拆成先到瓶颈再做局部精细动作。实验在五个真实/仿真操作任务上表明,它在分布内外、尤其未见物体位置和末端初始位姿下的成功率明显优于 ACT、DAA 等基线,同时基本保持灵巧性与反应性。

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning figure
RSS 20252025-02-24

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning

数据需求量大

数据需求量大模仿学习数据采集数据生成机器人学习

这篇工作针对视觉运动策略空间泛化差、因此高度依赖人工重摆放和重复示教的问题,提出 DemoGen:仅用每个任务1条真人示范,把轨迹拆成接触技能段与自由运动段,前者随物体位姿整体变换,后者用运动规划重连,再直接在3D点云中编辑场景来合成观测,绕开昂贵的 on-robot rollout。实机8个任务平均成功率达74.6%,单条合成轨迹成本约0.01秒,并可进一步获得抗扰动与避障能力。

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration figure
arXiv2025-02-20

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

人形操作

人形操作VLA感知操作

该文针对现有人形控制多依赖“看指令/看示范再被动模仿”、缺乏自主感知与交互,且第一视角具身数据稀缺的问题,提出 Humanoid-VLA:先用第三视角动作-文本数据做语言—运动预对齐,学习通用动作语义,再以参数高效的视频条件交叉注意力注入第一视角视觉,并用基于动作遮挡重建的自监督伪标注把无标签视频转成问答训练信号。实验表明其在人形全身控制下能完成物体交互与环境探索,具备更强上下文感知;但具体量化增益与增益来源文中未充分说明。

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model figure
EMNLP 20252025-02-20

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

VLA

VLA语言条件机器人学习

论文针对现有VLA在机器人微调后易丢失视觉—文本对齐、而控制与理解联合训练又会互相干扰的问题,提出ChatVLA:用分阶段对齐训练先学控制再逐步恢复多模态能力,并用共享注意力、分离MLP专家的MoE降低任务冲突。结果上,其VQA表现具竞争力,MMMU较ECoT提升约6倍、MMStar达47.2%,且在25项真实机器人操作任务上优于OpenVLA。

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation figure
NeurIPS 20252025-02-18

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

任务规划

任务规划多模态推理操作

该文针对现有VLM更擅长判断“物体在哪里”、却难理解“该朝哪儿放”而导致6-DoF操作失败的问题,提出“语义朝向”表征,用自然语言直接定义物体功能相关方向,并通过OrienText300K数据集与PointSO模型把朝向预测接入VLM,形成可做朝向感知空间推理与动作生成的SOFAR。实验中其零样本在Open6DOR达48.7%、在SIMPLER-Env达74.9%;但性能提升可能也部分来自大规模数据构建,具体增益来源仍需结合消融看。

Magma: A Foundation Model for Multimodal AI Agents figure
CVPR 20252025-02-18

Magma: A Foundation Model for Multimodal AI Agents

VLA

VLA基础模型语言条件机器人学习

这篇工作针对现有 VLA 往往在 UI 与机器人场景分开训练、且学会动作后通用多模态理解容易退化的问题,提出统一的多模态智能体基础模型 Magma。核心洞察是用 SoM 标注图像中的可操作对象、用 ToM 标注视频中的运动轨迹,把原本缺少动作标签的图像/视频转成可用于动作 grounding 与 planning 的预训练数据,进而桥接语言理解与空间时序决策。实验表明,单一模型在 UI 导航和机器人操作上达到新 SOTA,并在图像/视频理解任务上保持与主流大模型相当或更优的表现。

X-IL: Exploring the Design Space of Imitation Learning Policies figure
ICLRW 20252025-02-17

X-IL: Exploring the Design Space of Imitation Learning Policies

模仿学习

模仿学习Flow Matching机器人学习

本文动机是当前模仿学习策略的编码器、骨干网络、架构和策略表示选择越来越多,但缺少系统比较。作者提出X-IL,将流程拆成观测表征、backbone、架构和策略表示四个可插拔模块,支持RGB/点云/语言输入、Transformer/Mamba/xLSTM以及扩散和Flow Matching策略,并据此系统搜索设计空间。实验在LIBERO与RoboCasa上找到超过已有方法的组合,同时表明Mamba、xLSTM可作为Transformer替代,多模态融合常带来显著收益;但各部分增益占比文中未充分说明。

Towards Fusing Point Cloud and Visual Representations for Imitation Learning figure
ICLRW 20252025-02-17

Towards Fusing Point Cloud and Visual Representations for Imitation Learning

3D 表征

3D 表征模仿学习Diffusion Policy感知机器人学习

这篇工作针对机器人模仿学习里“点云有几何、RGB有语义”却难兼得的问题:现有做法常把2D视觉特征直接赋给点云,容易丢掉图像的全局上下文。作者提出 FPV-Net,以点云为主模态保留3D几何,再在扩散策略中用 AdaLN 将语言条件下提取的 RGB 全局与局部 token 作为条件注入,核心洞察是局部视觉细节对精细操作同样关键。在 RoboCasa 上,单模态和朴素融合都表现受限,而该方法在各任务上达到 SOTA。

FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation figure
arXiv2025-02-17

FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation

模仿学习

模仿学习操作应用

论文聚焦“单次人类演示后,让机器人把同一功能迁移到外形差异很大的新工具上”这一难点;现有 OSIL 多靠外观或几何相似性对齐,因而难跨杯子、茶壶等异形工具泛化。FUNCTO 的核心洞察是按功能而非形状建立对应,用作用点、抓取点和中心点三类 3D 功能关键点提取演示、迁移对应并规划动作。根据公开摘要,其在多项真实机器人工具任务上优于模块化 OSIL 与行为克隆基线,尤其在同功能大几何变化场景下更稳,但具体增益来源文中未充分说明。

Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation figure
ICRA 20262025-02-14

Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation

触觉

触觉机器人学习操作

针对插接任务中视觉难以感知微小错位与接触状态、而直接视触拼接又常失效的问题,论文提出对称性感知的视触融合框架:用 Cross-Modal Transformer 通过分层自注意力与交叉注意力对齐腕部相机和触觉表征,并引入左右手指受力平衡的双侧力先验作为物理正则来稳定触觉嵌入。TacSL 基准上其插入成功率达 96.59%,优于朴素与门控融合,并接近使用特权接触力输入的配置;核心洞察是触觉对精对准不可替代,而有效增益来自结构化融合而非简单拼接。

Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection figure
CoRL 20252025-02-14

Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection

VLA

VLA数据筛选机器人学习

面对多策略、多任务机器人评测中 rollout、人工重置和切换任务成本高的问题,本文将评测表述为主动测试:用任务/策略嵌入建模每个 policy-task 对的成功率或回报分布,并利用自然语言任务描述作为先验捕捉任务相似性,再以成本感知的期望信息增益选择下一次最有信息量的实验。基于真实机器人与仿真数据,方法能以更低评测成本更快估计整体指标,且适用于离散与连续结果;但具体节省幅度从给定材料看文中未充分说明。

Diffusion Trajectory-guided Policy for Long-horizon Robot Manipulation figure
RA-L 20252025-02-14

Diffusion Trajectory-guided Policy for Long-horizon Robot Manipulation

Diffusion Policy

Diffusion Policy感知机器人学习操作

这篇工作针对长时程机器人模仿学习里“少量示教+分布外场景”容易引发误差累积的问题,提出 DTP:先用视觉-语言条件的扩散轨迹模型生成与任务相关的二维粒子轨迹,再把轨迹作为可插拔中间条件去指导动作策略学习,核心洞察是用轨迹级而非纯动作级监督来稳定长链操作。文中在 CALVIN 上报告相对现有方法平均成功率提升约 25%,且无需外部预训练,真实机器人实验也有明显增益。

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight figure
ICRA 20262025-02-14

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

3D 表征

3D 表征感知机器人学习操作

论文指出,现有将世界模型用于操作策略的方法多停留在2D视觉动态建模,面对接近/远离、避障等强深度变化任务时容易失真,因此作者主张把3D场景变化与SE(3)机器人动作放进同一动力学空间显式学习。方法上以统一因果Transformer联学当前深度估计、未来RGB-D预测和3D flow预测三种自监督目标,为策略提供“3D前瞻”。在CALVIN、LIBERO及真实机器人实验中,该框架在几乎不增加推理延迟的情况下达到或刷新SOTA,且消融显示三种目标互补,收益对深度相关任务更明显。

S2-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation figure
RA-L 20252025-02-13

S2-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation

Diffusion Policy

Diffusion Policy机器人学习操作

现有模仿学习常把“擦红色白板字”“舀米”学成实例记忆,换颜色、材质或同类物体就失效。S2-Diffusion把可提示的开放词汇语义分割与单目深度估计结合,构造空间—语义观测并送入扩散策略,使策略聚焦功能相关区域而忽略背景、纹理等无关因素。仿真和实机结果表明,它在多种操作上比基线更能迁移到未见同类实例,且只需单个RGB相机;但跨类别泛化仍较弱。

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation figure
ICLR 20252025-02-13

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

视频规划

视频规划安全世界模型遥操作感知机器人学习操作

论文针对VLA在真实部署中易受光照波动、视频噪声等外部扰动影响而动作失稳的问题,将经典内部模型控制引入闭环视觉操控:用文本引导的视频扩散模型生成更具表达力的未来视觉目标,再通过原型对比学习得到“内部嵌入”以对齐当前与目标状态、隐式辨别扰动,并配合目标条件扩散策略执行。实验表明其在标准与扰动版CALVIN上均达SOTA,真实机器人任务也明显优于基线。

Robot Data Curation with Mutual Information Estimators figure
RSS 20252025-02-12

Robot Data Curation with Mutual Information Estimators

数据需求量大

数据需求量大模仿学习数据采集数据筛选

机器人模仿学习越来越依赖大规模示教,但论文指出“数据多”不等于“数据好”,低质量轨迹会直接拖累行为克隆。为此作者提出 DemInf,用状态/动作的 VAE 低维嵌入结合 k 近邻互信息估计,按轨迹对整体状态—动作互信息的贡献来打分,从而同时衡量动作多样性与给定状态下的可预测性。实验表明,该方法在仿真与真实机器人数据上都更能贴合人工质量标注,并在 RoboMimic 上带来约 5%–10% 的策略提升,在 ALOHA 和 Franka 上也优于未筛选数据。

Re3Sim: Generating High-Fidelity Simulation Data via 3D-Photorealistic Real-to-Sim for Robotic Manipulation figure
ICRA 20262025-02-12

Re3Sim: Generating High-Fidelity Simulation Data via 3D-Photorealistic Real-to-Sim for Robotic Manipulation

3D 表征

3D 表征数据采集数据生成Sim2Real操作

该文针对真实机器人操作数据采集昂贵、传统仿真又受几何与视觉鸿沟限制的问题,提出 RE3Sim:将多视角三维重建、Gaussian Splatting 真实感渲染与物理模拟结合,并对齐真实/仿真坐标,在仿真中用特权信息自动采集专家示范。仅用仿真数据即可在多项桌面操作上实现零样本迁移,平均成功率超过58%,并进一步表明大规模合成数据可带来跨物体泛化;不过各模块的独立增益来源文中未充分说明。

CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World figure
RSS 20252025-02-12

CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World

灵巧操作

灵巧操作操作

论文针对单目相机下灵巧手操作中点云易被手部遮挡、且缺少物体—手接触对应关系,导致精细操作难学的问题,提出 CordViP:结合物体6D位姿估计与机器人本体感觉构建 interaction-aware 点云,并用接触图与手臂—手协同信息预训练编码器,再配合扩散策略输出动作。实机六项任务上其显著超过基线,且在少量示教、未见物体、不同视角/光照/场景下都表现出更强泛化与鲁棒性。

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping figure
CoRL 20252025-02-12

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping

抓取

抓取双臂操作

这篇工作针对遮挡抓取中目标抓取位姿因桌面碰撞等约束而不可达、单一RL又难以学到高维双臂协同的问题,提出COMBO-Grasp:先用基于力闭合信号的自监督“约束策略”为一只手预测稳定支撑位姿,再由另一只手的RL抓取策略完成重定向与抓取,并用联合训练的价值函数梯度在线细化支撑位姿以提升协同;同时通过师生蒸馏把仿真教师策略迁移到点云观测。实验显示其在仿真和真实双臂平台上对已见/未见物体的成功率均显著优于强基线。

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards figure
ICRA 20252025-02-12

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

任务规划

任务规划几何约束规划强化学习Sim2Real语言条件感知操作

这篇论文关注开放环境中操作任务目标难以精确定义、且会随环境变化而改变的问题。作者把任务规格化为由VLM生成并迭代修正的关键点奖励函数IKER,用关键点几何关系同时表达位置与姿态,再把真实场景重建到仿真中训练RL策略并回到真机执行。实验表明,该方法在鞋子、书本等抓取与推动任务上能完成多步链式操作,并表现出扰动恢复和临场改策略能力。

TranSplat: Surface Embedding-guided 3D Gaussian Splatting for Transparent Object Manipulation figure
arXiv2025-02-11

TranSplat: Surface Embedding-guided 3D Gaussian Splatting for Transparent Object Manipulation

抓取

抓取3D 表征操作

论文聚焦透明物体因反射与折射导致深度传感器失效、仅靠RGB重建又易出现跨视角不一致和透明表面不透明度塌缩的问题,提出TranSplat:先用潜变量扩散模型生成对光照和视角更稳健的表面嵌入,再与RGB联合优化3D Gaussian Splatting,以更好约束透明表面几何并补全稠密深度。文中在合成数据、真实TRansPose基准及机器人抓取实验中均报告了更准确的深度重建和抓取点定位,同时相比NeRF类方案具备更快渲染效率。

RoboBERT: An End-to-end Multimodal Robotic Manipulation Model figure
arXiv2025-02-11

RoboBERT: An End-to-end Multimodal Robotic Manipulation Model

VLA

VLA语言条件机器人学习操作

论文针对现有VLA操控模型依赖大规模微调、算力开销高且易被不同措辞指令扰动的问题,提出端到端RoboBERT:以BERT+CLIP特征提取、Transformer融合和CNN扩散策略为主体,并用“两阶段训练”先在标准化指令下稳定学策略、再解冻全模型对齐多样自然语言,同时配合系统化视觉增广提升鲁棒性。其仅用语言标注专家演示、无需额外数据,就在CALVIN ABCD→D和ABC→D上达到4.52与3.79的平均episode length,并在6-DOF真实机器人上优于同数据训练基线。

Imit Diff: Semantics Guided Diffusion Transformer with Dual Resolution Fusion for Imitation Learning figure
RA-L 20252025-02-11

Imit Diff: Semantics Guided Diffusion Transformer with Dual Resolution Fusion for Imitation Learning

模仿学习

模仿学习Diffusion PolicyTransformer Policy感知机器人学习

论文针对视觉模仿学习在复杂场景和干扰物增多时性能骤降的问题,提出 ImitDiff:先借助视觉语言基础模型把指令转成像素级语义掩码,再用双分辨率感知同时提取低分辨率全局布局与高分辨率局部几何,并以一致性驱动的 DiT 动作头连接语义条件与实时控制。实验覆盖4个仿真和4个真实任务,在仅100条示范下其成功率优于现有VLM机器人框架和模仿学习策略,且在新物体、视觉干扰零样本测试中更稳健,推理速度提升约一个数量级。

Predictive Red Teaming: Breaking Policies Without Breaking Robots figure
CoRL 20252025-02-10

Predictive Red Teaming: Breaking Policies Without Breaking Robots

数据采集

数据采集数据增强

这篇工作针对机器人策略在光照、背景、干扰物和台面高度等环境变化下很脆弱、但靠真实硬件逐项排查又代价过高的问题,提出“预测式红队”框架 RoboART:先用生成式图像编辑把正常观测改造成各种离常场景,再用策略表征空间中的异常检测直接估计成功率下降。作者在两种 visuomotor diffusion policy、12种条件和500+次真实试验上验证,预测成功率与真实值平均误差低于0.19,并据此定向采集最不利条件数据微调,使困难场景性能提升2–7倍。

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control figure
CoRL 20252025-02-09

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control

VLA

VLADiffusion Policy语言条件机器人学习

DexVLA针对现有VLA过度依赖大VLM、动作表示成瓶颈且跨本体训练低效的问题,提出可插拔的10亿参数扩散动作专家和三阶段具身课程学习:先跨本体预训练动作专家,再做本体对齐,最后少量任务后训练,并借助子步骤标注让模型可直接按语言完成长时程操作。论文称其在单臂、双臂和灵巧手等平台上,仅约100小时示教就能在多项任务上优于OpenVLA、Octo和π0,甚至可直接完成洗衣折叠;但判断主要基于公开摘要,scaling与课程策略各自带来的增益未充分说明。

Imitation Learning from a Single Temporally Misaligned Video figure
ICML 20252025-02-08

Imitation Learning from a Single Temporally Misaligned Video

视频规划

视频规划模仿学习强化学习RL+IL机器人学习

这篇论文关注只给一段且存在时间错位的演示视频时,机器人如何学会需要严格顺序完成的多子目标任务。作者指出,现有按帧对齐或 OT 式模仿只匹配状态分布,难以约束“按顺序持续推进并覆盖全部子目标”。为此提出 ORCA,把模仿定义为序列层面的有序覆盖,用动态规划计算每一步是否已按正确顺序覆盖演示子目标的稠密奖励,并据此进行两阶段 RL 训练。在时间错位的 Meta-World 和 Humanoid-v4 上,平均回报相对最佳逐帧匹配基线分别提升 4.5 倍和 6.6 倍,且对不同错位程度更稳健。

HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation figure
ICLR 20252025-02-08

HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation

机器人学习

机器人学习操作

论文针对机器人真机数据昂贵、直接让VLM端到端预测动作难以泛化的问题,提出分层模型HAMSTER:高层VLM根据图像和语言先预测末端执行器的粗粒度2D路径与夹爪切换,低层3D策略再结合点云和本体感觉完成精确控制。核心洞察是用与机体、动力学弱耦合的中间表征吸收视频、仿真和手绘轨迹等离域数据,从而提升跨外观、语义和平台迁移能力。真机实验中,相对OpenVLA在七类泛化设置下平均成功率提升20%,约为50%的相对增益。

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy figure
RSS 20252025-02-08

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

VLA

VLA触觉机器人学习

针对VLA在真实接触式操作中受限于少量且不一致示教、单纯监督微调难以稳健适配的问题,ConRFT提出统一的一致性强化微调框架:离线阶段结合行为克隆与Q学习,从小样本示教中同时初始化策略和价值;在线阶段继续用一致性策略并加入人类干预,兼顾安全探索与样本效率。在8个真实任务上,它仅需45–90分钟在线微调就达到96.3%平均成功率,较监督基线成功率提升144%,回合长度缩短1.9倍。

RAD: Action-Free Reasoning for Policy Generalization figure
CoRL 20252025-02-06

RAD: Action-Free Reasoning for Policy Generalization

辅助任务

辅助任务VLA泛化机器人学习

这篇工作针对机器人模仿学习难以泛化、而大规模机器人示教又昂贵的问题,提出不再从人类视频硬提取“动作”,而是抽取可跨 embodiment 共享的语言推理链。RAD把无人类动作标签的视频数据用于训练“如何思考”,再用机器人示教学习“如何把推理落到低层动作”。实验显示,它在仅见过人类无动作数据的任务上提升约20%,在机器人和人类数据都未见过的新任务上提升约15%,且更多 action-free 推理数据还能继续增强泛化。

DIARC‑OpenVLA: Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture figure
ICAD 20252025-02-06

DIARC‑OpenVLA: Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture

辅助任务

辅助任务VLA世界模型感知机器人学习

论文动机是缓解VLA在机器人操作中“黑盒且脆弱”、而认知架构又过于刚性的矛盾。作者以OpenVLA为对象,在33个隐藏层上训练线性探针,解码物体属性/关系和动作状态,并把最佳层接入DIARC做实时符号监控,核心洞察是VLA内部确实含有可供符号系统读取的状态表征。LIBERO抓放实验中多数层的探测准确率超过0.90,但未出现预期的“对象早层、动作晚层”分化;文中认为这可能主要来自任务与数据变化不足,对最终鲁棒性增益也未充分量化。

RoboGrasp: A Universal Grasping Policy for Robust Robotic Control figure
arXiv2025-02-05

RoboGrasp: A Universal Grasping Policy for Robust Robotic Control

抓取

抓取安全操作

这篇工作针对模仿学习抓取策略过度依赖RGB与机械臂状态、在杂乱场景和新物体上易过拟合的问题,在Diffusion Policy中接入预训练抓取框检测器,把目标类别及抓取框中心、宽高等几何信息作为显式条件,让策略直接对“哪里能抓”建模,而不只从原始图像里隐式学习。实验表明,它在少样本新物体抓取和抓取框提示设定下成功率最高提升34%,说明抓取可供性先验能提升精度与泛化;但增益究竟有多少来自抓取框先验、额外标注还是检测器本身,文中未充分说明。

Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation figure
ICML 20252025-02-05

Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation

模仿学习

模仿学习Latent Learning机器人学习操作

这篇论文的出发点是:机器人操作中的行为克隆通常靠更大数据和更多模态提升泛化,却很少追问潜在表征里是否塞入了大量与动作无关的冗余信息,也缺少统一理论。作者从信息论重审BC,用互信息刻画冗余,并把信息瓶颈引入策略学习,通过压缩I(X,Z)同时保留与动作相关的信息I(Z,A),还分析了空间/时间融合两类架构。实验表明,在CortexBench和LIBERO上,IB在不同骨干、训练阶段和数据规模下都能稳定提升性能,说明现有轨迹数据确有可压缩冗余,减少冗余有助于泛化与迁移。

VLA-Cache: Towards Efficient Vision-Language-Action Model via Adaptive Token Caching in Robotic Manipulation figure
ICLR 20262025-02-04

VLA-Cache: Towards Efficient Vision-Language-Action Model via Adaptive Token Caching in Robotic Manipulation

VLA

VLA机器人学习操作

论文针对VLA在闭环操作中每帧都重复编码大量静态视觉区域、导致语言解码成为实时控制瓶颈的问题,提出无需训练的VLA-Cache:跨帧检测变化极小的视觉token并复用其KV缓存,同时用解码器注意力过滤夹爪或目标附近这类“看似静止但任务相关”的token,并按层依据注意力集中度自适应调整复用比例。该方法在OpenVLA、CogAct和OpenVLA-OFT上、于LIBERO、SIMPLER及真实机械臂实验中实现最高1.7倍CUDA延迟加速和约15%控制频率提升,任务成功率几乎不降。

VILP: Imitation Learning with Latent Video Planning figure
RA-L 20252025-02-03

VILP: Imitation Learning with Latent Video Planning

任务规划

任务规划视频规划模仿学习Latent Learning世界模型感知机器人学习

针对现有机器人视频规划推理慢、难以实时重规划,且视频到动作存在鸿沟的问题,VILP将扩散式视频生成放入潜空间,先生成时间对齐的多视角未来视频,再由低层策略映射为动作,实现滚动时域的模仿学习;其核心洞察是把大量易获取的视频先验与少量动作标注结合起来,同时保留对多模态动作分布的表达能力。实验表明,相比 UniPi,VILP在训练成本、推理速度、时序一致性和策略成功率上更优,单次推理约14Hz,并能用更少高质量动作数据取得可比或更好的表现。

From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment figure
RSS 20252025-02-03

From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

任务规划

任务规划多模态推理Latent Learning语言条件

论文关注生成式模仿策略在部署时常出现“策略本会做、却选错动作模式”的问题,例如能抓杯子却可能抓杯口甚至污染饮水,而这类细粒度偏好又难靠手工奖励表达。FOREWARN 的关键洞察是把“预见后果”和“评估后果”解耦:先由潜在世界模型想象多个低层动作计划的未来,再把潜在轨迹对齐成 VLM 可理解的行为叙述,让 VLM 依据语言任务在开放词汇下筛选计划。实验显示,它在多种真实机器人操作和新任务描述上将基线成功率提升 30% 以上,并比不做这种解耦的 VLM 方法高约 40%。

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network figure
arXiv2025-02-01

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network

强化学习

强化学习触觉机器人学习

这篇论文针对连续控制中“用离线示范启动在线RL”时常含非专家或训练早期次优数据的问题:现有值函数方法按动作维度独立估计Q,容易忽略维间耦合并偏向数据中更常见的次优模式。作者提出ARSQ,将连续动作做粗到细离散化,并按自回归方式逐维预测soft advantage,以更好地恢复联合最优动作。在D4RL与RLBench上,ARSQ均优于多种RL/模仿学习基线,在含非专家示范的D4RL上相对SOTA值方法平均提升1.62倍。

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent figure
ICML 20252025-01-31

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

辅助任务

辅助任务VLA世界模型感知机器人学习

论文指出,现有基于VLM的VLA虽然语义泛化强,但常忽视机器人控制所需的低层视觉细节、空间关系和物理动态。UP-VLA的核心思路是把多模态理解与未来视觉预测统一到同一自回归模型中,并在图文、视频和机器人动作数据上联合训练,从而同时保留高层语义与细粒度感知能力。实验显示,该方法在CALVIN ABC→D上较此前SOTA提升33%,并在真实机器人操作中、尤其依赖精确空间信息的任务上取得更高成功率。

Improving Vision-Language-Action Model with Online Reinforcement Learning figure
ICRA 20252025-01-28

Improving Vision-Language-Action Model with Online Reinforcement Learning

强化学习

强化学习VLA触觉机器人学习

这篇工作关注一个实际缺口:VLA通常靠专家数据做监督微调,但部署后如何通过与环境交互继续提升仍不清楚;作者发现把标准在线RL直接用到大规模VLA上会明显不稳定且算力开销过高。为此提出 iRe-VLA,在“冻结VLM、仅用RL训练轻量动作头”和“用成功轨迹监督微调整个模型”之间交替迭代,兼顾探索与稳定。实验显示其在 MetaWorld、Franka-Kitchen 和真实 Panda 操作上都优于直接RL/纯SFT,并改善未见任务表现;但文中也指出它仍难在稀疏奖励下学到全新技能。

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model figure
RSS 20252025-01-27

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

3D 表征

3D 表征VLA感知机器人学习

论文认为现有VLA多停留在2D观测,难以处理跨机器人操作所需的3D空间对齐,因此把空间理解视为通用操作策略的关键。SpatialVLA用自我中心3D位置编码把空间几何注入视觉表征,再以自适应动作网格将连续动作离散成可跨平台迁移的空间token,并支持面向新机器人的重离散微调。在110万真实轨迹预训练后,它在仿真和真实机器人的零样本多任务泛化、复杂轨迹推理和新环境适配上优于既有VLA;但性能增益也可能部分来自大规模数据与底座模型。

VLAS: Vision-Language-Action Model with Speech Instructions for Customized Robot Manipulation figure
ICLR 20252025-01-25

VLAS: Vision-Language-Action Model with Speech Instructions for Customized Robot Manipulation

VLA

VLA音频机器人学习操作

这篇工作关注现有VLA只接受文本指令、依赖外接ASR会带来级联误差且丢失声纹等非语义信息的问题。作者在LLaVA上提出端到端VLAS,把原始语音直接对齐到语言空间,并结合三阶段训练、SQA/CSI数据与Voice RAG,使机器人能依据说话人身份完成定制化操作。实验显示,它在CALVIN上与传统文本VLA大致持平,在作者构建的个性化任务上更优;但增益中语音信息与RAG各自贡献文中未充分说明。

Gaze-Guided Task Decomposition for Imitation Learning in Robotic Manipulation figure
IROS 20252025-01-25

Gaze-Guided Task Decomposition for Imitation Learning in Robotic Manipulation

模仿学习

模仿学习机器人学习操作

这篇论文关注模仿学习中示范常需手工切成子任务的问题,尤其长时程操作里需要稳定、可复用的分段。作者的关键洞察是,人类遥操作时注视点会在任务相关“地标”间切换,而这种切换往往对应手部规划与子任务边界;据此用注视位置与注视附近视觉特征的突变做阈值检测,并通过跨示范阈值微调把同一任务的分段数对齐。作者在3个真实机器人任务、280条示范上得到与直觉一致的4/2/2段划分,整体仅1条与多数分段不一致,但文中未充分说明这种分段最终能带来多少模仿学习性能增益。

You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations figure
RSS 20252025-01-24

You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations

视频规划

数据需求量大视频规划模仿学习泛化双臂操作

这篇工作针对双臂操作中时空协同难、高维动作难学且遥操作示教昂贵的问题,提出 YOTO:先从单次双目人手视频提取3D手轨迹、关键帧和双手运动顺序,再将其注入双臂,并通过物体位姿编辑与点云几何变换快速扩增示教,训练双臂扩散策略 BiDP。结果显示其在5个长程双臂任务上优于现有模仿学习方法,并对视觉与空间变化有一定泛化;但“只教一次”更像一次示教带动后续数据增殖,增益可能部分来自 scaling / data。

SKIL: Semantic Keypoint Imitation Learning for Generalizable Data-efficient Manipulation figure
RSS 20252025-01-24

SKIL: Semantic Keypoint Imitation Learning for Generalizable Data-efficient Manipulation

模仿学习

数据需求量大模仿学习泛化感知机器人学习操作

这篇论文针对复杂操作任务中模仿学习强依赖大量示范、且对新物体新场景易过拟合的问题,提出SKIL:借助视觉基础模型自动提取并匹配语义关键点,用稀疏的关键点特征与空间描述符而非整幅图像来条件化扩散策略,从而降低样本复杂度,并天然支持人/机器人跨形态示范学习。实机6项任务中,SKIL测试成功率达72.8%,较基线提升146%;在仅30条示范下,毛巾/衣物挂架等长时序任务平均成功率约70%,且对未见物体、场景和干扰更稳健。

What Matters in Learning from Large-Scale Datasets for Robot Manipulation figure
ICLR 20252025-01-23

What Matters in Learning from Large-Scale Datasets for Robot Manipulation

数据采集

数据采集数据筛选基础模型操作数据集/Benchmark

这篇工作针对机器人大规模示教数据采集昂贵、却缺乏“该收什么/该取什么”系统答案的问题,构建了可控合成数据框架 MimicLabs,从采集者与检索者两种视角系统研究数据组成。核心洞察是:相机位姿与物体空间布局是最值得增加多样性、也是检索时最应对齐的维度,而物体纹理影响较小。基于近百万条仿真轨迹和真实世界7个任务,文中表明这些规律能迁移到现实;在 DROID 上按该原则检索并协同训练,较直接使用全量数据最高提升约70%。

ReViWo: Learning View-invariant World Models for Visual Robotic Manipulation figure
ICLR 20252025-01-23

ReViWo: Learning View-invariant World Models for Visual Robotic Manipulation

世界模型

世界模型感知机器人学习操作

这篇工作针对视觉操控策略一遇到相机位姿变化就失效的问题,提出 ReViWo:先用双编码器把图像拆成与任务状态相关的视角不变表征和视角相关表征,再结合重建、VQ 与对比约束学习 VIR,并据此训练世界模型和策略。实验在 Meta-World、PandaGym 与真实 ALOHA 上表明,在新相机位置和持续抖动下其鲁棒性明显优于基线;但增益究竟有多少来自显式解耦、多少来自多视角数据和 Open X-Embodiment 联合训练,文中未充分说明。

RoboReflect: Robotic Reflective Reasoning for Grasping Ambiguous-Condition Objects figure
arXiv2025-01-16

RoboReflect: Robotic Reflective Reasoning for Grasping Ambiguous-Condition Objects

抓取

抓取操作

论文关注同类物体因空满、形变、易碎或可食等状态差异带来的抓取歧义,传统抓取器和LLM规划都容易首次判断失误。RoboReflect将成功定义为“抓住物体+抓位合理”,在失败后利用LVLM结合视觉反馈做链式反思、修正动作,并把有效策略写入记忆。作者在3类8种易歧义物体上测试,表现优于AnyGrasp和ReKep+GPT-4V,但给定材料未充分说明具体增益幅度。

GeoManip: Geometric Constraints as General Interfaces for Robot Manipulation figure
arXiv2025-01-16

GeoManip: Geometric Constraints as General Interfaces for Robot Manipulation

任务规划

任务规划几何约束规划操作

这篇工作针对语言指令难以直接落到精确3D操作、而端到端VLA又依赖大量训练数据的问题,提出GeoManip:把任务中的物体/部件关系显式表示为几何约束,作为连接自然语言与机器人轨迹的通用接口。方法上,它结合任务分解、用于细粒度部件识别的select-process几何解析器,以及把约束转成代价函数的轨迹优化求解器,在免训练条件下生成操作策略。实验显示其在MetaWorld、OmniGibson和真实场景中取得优于现有方法的表现,并在新任务、新物体和OOD姿态下保持更强泛化。

FAST: Efficient Action Tokenization for Vision-Language-Action Models figure
arXiv2025-01-16

FAST: Efficient Action Tokenization for Vision-Language-Action Models

VLA

VLA机器人学习

论文指出,自回归VLA在高频、灵巧操作上常失效,关键瓶颈不是骨干模型,而是逐维逐时刻分箱会让相邻动作 token 高度相关,训练容易退化成“复制上一步”。为此作者提出 FAST:先用 DCT 将 1 秒动作块压到频域,再量化并用 BPE 压缩,并进一步训练了通用分词器 FAST+。实验显示,FAST 能让自回归 VLA 稳定学习高频灵巧任务,并在 DROID 等场景支持泛化;结合 π0 后,在 1 万小时数据上达到接近扩散式 VLA 的表现,同时训练最高快 5 倍。

Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning figure
ICRA 20252025-01-13

Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning

模仿学习

数据需求量大模仿学习人机交互感知机器人学习

这篇工作针对模仿学习严重依赖遥操作机器人数据、而人类视频又缺少动作标签的问题,提出把人手与机器人末端的运动统一表示为图像上的短时2D轨迹“motion tracks”,让策略直接从第三人称图像预测跨具身动作,再由双视角重建可执行的6DoF轨迹。实验中仅用约10分钟人类视频和25条机器人演示,4个真实任务平均成功率达86.5%,比DP/ACT高约40%,且能泛化到只在人类视频中出现过的运动方向。

RoboHorizon: An LLM-Assisted Multi-View World Model for Long-Horizon Robotic Manipulation figure
arXiv2025-01-11

RoboHorizon: An LLM-Assisted Multi-View World Model for Long-Horizon Robotic Manipulation

泛化

泛化世界模型语言条件操作

这篇工作针对长时程操作中“奖励稀疏、视觉表征难覆盖多阶段依赖”两大瓶颈,提出RSPA范式与RoboHorizon:先用LLM把语言任务拆成阶段并生成稠密奖励,再将关键帧发现融入多视角MAE,学习关键交互表征,并据此训练世界模型做想象规划与RL控制。在RLBench和FurnitureBench上,它相对现有视觉模型式RL在短程任务上提升约23%—25%,在长程/装配任务上提升29.23%;但文中前后对短程增益数字存在不一致。

Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding figure
ICRA 20252025-01-08

Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

触觉

触觉基础模型机器人学习

现有通用机器人策略多依赖视觉与本体感知,遇到遮挡或需判断材质、声音等属性时能力受限,而触觉/音频动作数据又稀缺。FuSe的关键做法是把自然语言作为跨模态锚点,在微调Octo、PaliGemma等通用策略时联合使用多模态对比损失与感知驱动的语言生成损失,将视觉、触觉和音频对齐到共享语义空间。基于27K条真实机器人轨迹,方法在零样本多模态提示、跨模态组合指令和交互后属性描述任务上有效,真实实验成功率较各类基线提升超过20%。

Learning to Transfer Human Hand Skills for Robot Manipulations figure
arXiv2025-01-07

Learning to Transfer Human Hand Skills for Robot Manipulations

模仿学习

模仿学习机器人学习操作

这项工作针对“人手动作易采集、但直接映射到机器人手常因具身差异而失败”的问题,提出从人手轨迹与物体3D运动联合推断机器人动作,而非只做关节或指尖几何对齐。核心做法是学习人手、机器人手与物体的联合运动流形,并把未配对的人体 mocap 与机器人遥操作数据合成为伪监督三元组进行训练。实验表明其在真实机器人灵巧操作中明显优于传统基于运动学的重定向;但文中未充分拆解各模块贡献,增益是否部分来自更大数据或伪配对构造仍不清楚。

Cosmos World Foundation Model Platform for Physical AI figure
arXiv2025-01-07

Cosmos World Foundation Model Platform for Physical AI

世界模型

世界模型基础模型机器人学习

论文针对机器人/自动驾驶训练数据难扩展、实机探索代价高且有风险的问题,提出 Cosmos 世界基础模型平台:先从约 2000 万小时视频中筛出 1 亿高动态片段预训练通用视觉世界模型,再结合视频 tokenizer 与扩散/自回归双路线,后训练为相机控制、机械臂操作和驾驶等专用模型。其关键洞察是把世界模型做成可复用基础模型,先靠大规模视频学习物理与时空一致性,再用较小场景数据适配。结果表明模型能生成较高质量、3D 一致且物理较准确的视频,并支持多类物理 AI 场景,但系统性的定量增益来源在给定片段中未充分说明,可能主要来自 scaling/data。

Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning figure
arXiv2025-01-03

Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning

人形操作

人形操作任务规划操作综述

这篇综述的出发点是:人形机器人要在真实环境完成行走与操作一体化任务,但相关能力长期在模型控制与学习策略两条线上分头发展。文中最重要的洞察是,不应将二者对立,而应把接触规划、运动规划与MPC/WBC构成的预测—反应式控制层级作为骨架,再结合强化/模仿学习、基础模型和全身触觉,弥补鲁棒性、灵活性与语义理解。作为综述,文中主要结果是归纳出当前主干范式与关键瓶颈:模型法仍占核心,sim-to-real与数据扩展推动明显,但通用泛化、计算效率、安全协作和意图理解仍待突破。

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation figure
NeurIPS 20252025-01-03

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

视频规划

视频规划世界模型感知机器人学习操作

这篇工作出发点是:把通用视频生成直接迁到机器人操作,会忽视3D几何与长时序因果,导致“会想象”但不一定会控制。EnerVerse因此用分块自回归扩散加稀疏上下文记忆做长程未来空间预测,并以多视角视频表示、渲染辅助视角和4DGS数据飞轮补足单相机3D先验、缩小sim-to-real gap,再接动作头输出动作块。结果上,它在RT-1视频预测上优于DynamicCrafter+FreeNoise,并在仿真与真实操作中报告SOTA,8步动作块推理约280ms;但具体各操作基准的绝对增益在给定材料中未充分说明。

T-DOM: A Taxonomy for Robotic Manipulation of Deformable Objects figure
arXiv2024-12-30

T-DOM: A Taxonomy for Robotic Manipulation of Deformable Objects

可变形物体

可变形物体操作综述

现有机器人抓取/操作分类体系大多默认物体刚性,难以描述布料、绳索等可变形物体在受力与形变上的关键差异。本文提出 T-DOM,将机器人运动、抓取/非抓取交互、受力与物体形变统一到同一分类框架中,并细化压缩、拉伸、弯曲、扭转等形变,尤其区分结构化与非结构化弯曲。作者在 10 个涵盖衣物、绳索和手术场景物体的任务上对比显示,T-DOM 能识别既有分类法难以区分的操作技能,为夹爪设计、技能建模与基准分析提供更细粒度描述;判断基于公开摘要/项目页。

CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation figure
arXiv2024-12-29

CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation

VLA

VLA语言条件机器人学习操作

论文认为,现有VLA常把预训练VLM直接拿来做动作预测,依赖动作离散化或简单回归,难以刻画机器人动作的连续性、多模态和时序相关性,因此任务成功率受限。CogACT将“认知”和“动作”解耦:用VLM提供语义条件,再由专门的扩散式动作Transformer生成动作序列,并观察到动作模块随规模增大有较好收益。实验覆盖5种机器人、仿真与真实场景,平均成功率相对同规模OpenVLA在仿真提升35%以上、真实提升55%,仿真上也比55B的RT-2-X高18个百分点。

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks figure
ICCV 20252024-12-24

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

基础操作

基础操作基础模型语言条件操作数据集/Benchmark

现有机器人操作基准多偏向短程技能和模板指令,难以检验基础模型在真实语言意图、常识迁移与多步推理下的泛化能力,因此本文提出 VLABench。它构建了含100类任务、2000余物体的大规模语言条件操作基准,突出隐式自然语言、世界知识与常识、长时序规划,并同时评测动作策略与语言模型能力,还提供自动化数据采集支持训练。实验表明,当前SOTA预训练VLA和基于VLM的工作流在这些任务上都明显吃力,尚未表现出预期的强泛化与涌现能力。

VPP: Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations figure
ICML 20252024-12-19

VPP: Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

视频规划

视频规划世界模型基础模型感知机器人学习

这篇工作针对传统机器人视觉编码器偏重静态外观、难以利用操控所需动态信息的问题,提出 VPP:先将预训练视频扩散基础模型用机器人与互联网人类操作数据微调为视频预测器,再直接读取其中同时编码“当前+未来”的预测表征,学习条件于该表征的隐式逆动力学策略,从而避免基于生成图像逐步去噪带来的低频控制。论文称其在 Calvin ABC-D 泛化上相对提升 18.6%,真实灵巧手复杂操作成功率提升 31.6%;但增益有多少来自预测表征、多少来自更大模型与额外数据,文中未充分说明。

Seer: Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation figure
ICLR 20252024-12-19

Seer: Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation

视频规划

视频规划辅助任务VLA世界模型感知机器人学习操作

本文针对机器人操作中“只学动作”的行为克隆泛化不足、以及“只学视觉”的世界模型与控制割裂这两类路线,提出端到端预测逆动力学框架 Seer:先预测未来视觉状态,再据此反推动作,并把视觉预测与动作学习放进同一 Transformer 闭环联合优化。基于 DROID 预训练后,它在 LIBERO-LONG、CALVIN ABC-D 和真实任务上分别提升 13%、21%、43%,CALVIN 平均完成长度达 4.28;但增益有多少来自闭环设计、多少来自大规模数据 scaling,文中未完全拆清。

STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning figure
ICLR 20252024-12-19

STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning

数据需求量大

数据需求量大数据采集数据增强数据检索机器人学习

这篇工作针对机器人在新任务、新环境中依赖大规模多任务数据训练通才策略却易受负迁移、又难以持续采集域内示范的问题,提出在部署时用少量测试时示范,从离线库中检索并重组相关“子轨迹”再训练策略。其关键洞察是跨任务共享的往往不是整条轨迹,而是底层行为片段;因此用视觉基础模型特征配合子序列DTW对齐不同长度演示,比整轨迹检索更能利用数据。文中在LIBERO仿真与真实机器人上均优于既有检索法、多任务策略和仅少样本微调,并显示对更大离线数据与极少真实示范的适应性。

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination figure
ICLR 20252024-12-19

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination

模仿学习

模仿学习世界模型感知机器人学习

针对现有机器人世界模型难以贴合眼前真实场景、易产生幻觉且难外推到新物体配置的问题,本文提出DREMA,将对象中心的Gaussian Splatting重建与物理模拟器结合,构成可编辑、可组合的数字孪生世界模型,并用对示范轨迹和物体施加旋转平移等变换,在想象中筛选并生成新的模仿学习数据。实验表明,它在仿真和Franka实机上都能以更少示范获得更高成功率与鲁棒性,甚至支持单样本学习任务变体,但方法仍依赖较完整观测和较简单物体建模。

UH-1: Learning from Massive Human Videos for Universal Humanoid Pose Control figure
ICRAW 20252024-12-18

UH-1: Learning from Massive Human Videos for Universal Humanoid Pose Control

人形操作

人形操作视频规划感知操作

面对人形机器人依赖强化学习或遥操作、数据昂贵且动作泛化差的问题,本文的关键洞察是把海量人类视频转成可执行的人形控制数据:自动挖掘16万+视频并生成文本描述,估计3D人体后重定向到人形,再用RL把关键点轨迹落到可部署关节动作,构建含2000万+姿态的Humanoid-X,并训练文本到动作的UH-1。仿真与真机结果表明,其在文本驱动的多样姿态控制上更能泛化且更稳健,增益可能主要来自scaling/data。

RoboVLMs: Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models figure
NMI 20262024-12-18

RoboVLMs: Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models

VLA

VLA基础模型语言条件机器人学习

本文聚焦“什么因素真正决定VLA机器人策略的效果”,系统研究骨干选择、策略形式与跨本体数据使用时机,并提出低人工设计的RoboVLMs。其关键发现是:KosMos与PaliGemma等预训练更充分的骨干更适合机器人控制;连续动作优于离散自回归;保留VLM原始视觉—语言处理方式、再用policy head汇聚历史观测效果最好;跨本体数据仅做预训练收益不稳定,但在目标数据上后训练更有效。基于8类骨干、4种架构和600余组实验,RoboVLMs在三项仿真及真实机器人任务上刷新开源VLA表现。

RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation figure
RSS 20252024-12-18

RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation

人形操作

人形操作跨本体操作数据集/Benchmark

论文针对现有机器人操作数据集常由多实验室拼接、采集标准和机器人本体不统一,因而难支撑可靠泛化研究的问题,提出RoboMIND:在统一遥操作平台与协议下采集四类本体的10.7万条轨迹,覆盖479个任务和96类物体,并加入5000条失败示范、细粒度语言标注与Isaac Sim数字孪生环境。实验表明该数据可支撑单任务模仿学习和多任务VLA取得较高成功率与跨场景泛化,但具体性能提升的来源拆解文中未充分说明,可能主要来自数据规模与标准化采集。

Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model figure
ICLR 20252024-12-18

Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model

强化学习

强化学习触觉机器人学习

这篇工作关注离线模仿学习得到的大策略在真实交互中仍会因演示覆盖不足和误差累积而失手,而直接用RL微调整个大模型又常受结构不兼容、参数量大和稀疏奖励低效所限。作者提出Policy Decorator:冻结原策略,把它当黑盒,再在线学习一个小型残差策略,并配合受控探索只做细粒度纠偏。该方法在ManiSkill和Adroit的8个任务上为BeT与Diffusion Policy都带来稳定提升,多数接近满分,同时保留模仿策略较平滑的动作,优于纯RL和常规微调。

MoDE: Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning figure
ICLR 20252024-12-17

MoDE: Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

Diffusion Policy

Diffusion PolicyTransformer Policy机器人学习

这篇论文针对扩散策略在多任务机器人模仿学习中随模型扩展而推理过慢、计算代价过高的问题,提出 MoDE:将去噪过程不同噪声阶段视作不同子任务,在 Transformer 中引入噪声条件路由、稀疏专家去噪器和噪声条件自注意力,并用专家缓存减少重复计算。实验在 CALVIN、LIBERO 共 134 个任务上取得 SOTA,较已有 CNN/Transformer 扩散策略平均提升约 57%,推理 FLOPs 降低约 90%,活跃参数也更少。

Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation figure
ICLR 20252024-12-16

Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation

强化学习

强化学习触觉机器人学习

论文针对可变形体仿真昂贵、使机器人强化学习难以扩展的问题,提出把可微多物理仿真的一阶解析梯度与最大熵RL结合的SAPO,并配套并行可微仿真平台Rewarped;核心洞察是用熵正则缓解接触和软体动力学带来的非平滑优化与局部最优。实验显示其在刚体、关节体、弹性体、塑形体和流体等操控/运动任务上普遍优于PPO、SAC、APG、SHAC及轨迹优化,但算法与平台的增益拆分文中未充分说明,部分提升可能也来自并行仿真的scaling/data。

Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning figure
ACL 20252024-12-16

Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

辅助任务

辅助任务VLA机器人学习

这篇工作针对现有VLA虽能看懂场景却难做长程空间规划、且文本式CoT易与当前视觉状态脱节的问题,提出Emma-X:在OpenVLA上加入视觉落地的任务推理与前瞻空间推理,利用6万条BridgeV2轨迹自动构建分层数据,并用“夹爪开合+运动轨迹”分段来减少Gemini生成子任务解释时的幻觉,同时预测未来夹爪2D位置和到达该点的3D运动计划。结果显示其在真实机器人操作、尤其依赖空间推理的任务上优于现有基线,但摘要与给定片段未充分说明具体提升幅度,增益有多少来自数据构造仍不够清楚。

Grasp What You Want: Embodied Dexterous Grasping System Driven by Your Voice figure
arXiv2024-12-14

Grasp What You Want: Embodied Dexterous Grasping System Driven by Your Voice

抓取

抓取灵巧操作Sim2Real操作

这篇工作面向杂乱场景中“用语音指定、让机器人准确抓取”的难题:口头指令常有歧义,传统夹爪也缺少灵巧操作能力。作者提出EDGS,用VLM驱动的RERE联合语音与视觉补全目标属性,提升语义与物体对齐;再以受人手拇指—多指协同启发的DGCG+DGR,从物体骨架约束采样抓取,并结合力闭合、GWS和运动代价做精炼。实验称其在真实复杂抓取中更稳定、成功率更高,但具体提升幅度及各模块增益来源摘要未充分说明。

Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression figure
ICML 20252024-12-14

Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression

VLA

VLADiffusion Policy泛化基础模型语言条件机器人学习

该文针对两类机器人基础模型的互补短板:自回归VLA有语言推理但动作离散化后不够精确且慢,扩散策略动作稳健却不会“想”。作者将预训练VLM的next-token推理与扩散动作头统一起来,并用reasoning injection把模型自生成的推理短语直接注入策略学习,试图缩小“会解释”与“会操作”的鸿沟。实机上,它在工厂分拣中能处理训练外物体,零样本抓取102个未见物体达63.7%,对干扰物、新背景和新机体也更稳,2B模型推理82Hz;但更强泛化有多少来自该模块、多少来自更大规模数据与72B scaling,公开摘要里仍未充分拆清。

ARMADA: Augmented Reality for Robot Manipulation and Robot-Free Data Acquisition figure
RSSW 20252024-12-14

ARMADA: Augmented Reality for Robot Manipulation and Robot-Free Data Acquisition

数据采集

数据采集数据生成数据增强操作

这篇工作针对模仿学习数据采集受限于实体机器人数量、而纯人手演示又难跨越人机 embodiment gap 的瓶颈,提出 ARMADA:在 Apple Vision Pro 上叠加机器人数字孪生,让用户徒手操作时同步看到机器人按自身运动学、速度与约束执行的 AR 反馈。关键洞察是,实时可视化下游机器人行为,比事后映射更能引导人类给出“机器人可执行”的示范。15 名参与者在 3 个任务上采集 675 条轨迹,直接回放到真机时平均成功率由 1.3% 提升到 71.1%。

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies figure
ICLR 20252024-12-13

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

辅助任务

辅助任务VLA基础模型感知机器人学习操作

论文针对通用VLA在机器人操作中缺乏对历史运动的空间—时间记忆、决策过于依赖当前帧的问题,提出 visual trace prompting:先跟踪末端执行器与运动物体的历史点轨迹,再将轨迹叠加到图像上,并与原图共同输入模型,以较低改动补足时序信息。基于 OpenVLA 和 Phi-3-Vision 微调的 TraceVLA 在 SimplerEnv 137 个配置上较 OpenVLA 提升约10%,在 WidowX 实机4项任务上提升约3.5倍;但增益中有多少来自轨迹提示而非新增150K数据,文中未充分说明。

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning figure
RSS 20252024-12-13

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

强化学习

强化学习VLA触觉基础模型机器人学习操作

论文关注VLA通用策略在精密、接触丰富操作中常被人类示教噪声与不一致性拖累的问题。RLDG的核心是先用任务级强化学习学出高质量专才策略,再将其 rollout 轨迹蒸馏成 OpenVLA、Octo 等通用策略的微调数据,也可只用于长时程任务的瓶颈子步骤。真实插接与装配实验表明,该方法相对人类示教微调最高提升40%成功率,平均约提升30%,新场景泛化平均高约50%,而达到相近效果通常需要6–10倍更多人类示教。

ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? figure
arXiv2024-12-13

ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation?

任务规划

任务规划多模态推理Affordance感知操作

论文针对传统可供性学习依赖像素/点云试错采样、计算重且 sim-to-real 差的问题,提出 ManipGPT:用 9.9k 张仿真+真实图像微调 SegGPT,以单张 RGB 图像和视觉提示直接分割门、抽屉等部件级可操作区域,再结合后处理与阻抗自适应生成接触点和施力方向。核心洞察是,铰接物体操作未必需要复杂3D感知或大规模交互数据,强视觉分割配合轻量动作推断已可支撑一击式操作;结果显示其在仿真和真实机器人上都能完成有效操作。

Score and Distribution Matching Policy: Advanced Accelerated Visuomotor Policies via Matched Distillation figure
arXiv2024-12-12

Score and Distribution Matching Policy: Advanced Accelerated Visuomotor Policies via Matched Distillation

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作针对扩散式视觉运动策略推理慢、难以用于高频闭环控制的问题,提出 SDM Policy,把原本多步去噪的策略蒸馏成单步生成器。其关键不是直接做一致性蒸馏,而是分两阶段结合 score matching 与 distribution matching,并用冻结/可训练双教师分别提供稳定参照和对抗式分布对齐。在 57 个仿真操作任务上,它相对标准扩散策略实现约 6 倍推理加速,同时保持或达到当前最优的动作质量与成功率。

Attribute-Based Robotic Grasping with Data-Efficient Adaptation figure
T-RO 20242024-12-12

Attribute-Based Robotic Grasping with Data-Efficient Adaptation

抓取

数据需求量大抓取操作

这篇工作针对“机器人在杂乱场景中如何用极少数据学会抓取新物体”的问题,提出基于属性而非固定类别的语言驱动抓取框架:把场景图像与文本属性通过门控注意力对齐,并利用抓取前后“物体持续性”做自监督,学习视觉—文本共享属性表示;在此基础上,再用无标注图像的对抗适配和仅一次成功抓取的 one-grasp 适配,低成本缓解新物体与新环境的域偏移。实验表明其在仿真和真实未知物体上实例抓取成功率超过81%,组合适配在真实新物体上可达81.7%,明显优于基线。

TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning figure
CoRL 20242024-12-11

TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

移动操作

移动操作机器人学习操作

这篇论文的出发点是:移动操作的模仿学习受限于真实演示数据难采,而现有移动底盘往往昂贵、体积大且受非完整约束,不利于家庭场景中的精细示教。作者提出开源低成本的 TidyBot++,用四个 powered caster 实现可独立控制 x/y/θ 的全向底盘,并结合基于 WebXR 的手机遥操作来降低采集门槛。实验表明,该平台能在真实公寓中完成多种家务移动操作并训练出有效策略;作者还指出全向底盘比非完整底盘更利于数据采集和学习,但量化增益来源文中未充分说明。

RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation figure
ICCV 20252024-12-10

RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation

3D 表征

3D 表征VLA机器人学习操作

这篇工作针对现有机器人VLA多停留在2D感知、且跨数据集采集与对齐成本高的问题,提出RoboTron-Mani与统一数据平台RoboData:前者在OpenFlamingo式框架中引入相机参数、occupancy监督、MIM和多模态解码器,强化3D空间感知与模态融合;后者统一多视角图像、深度、相机参数、动作和空间坐标。实验显示其在CALVIN上平均成功序列长度从1.7升至3.5,并在多数据集联合评测中超过部分专用模型;但相对增益有多少来自模型设计、多少来自更大更统一的数据,文中未充分说明。

Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery figure
ICLR 20252024-12-10

Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery

模仿学习

模仿学习机器人学习非学习控制

论文关注模仿学习在分布外初始状态或受扰时,传统稳定策略虽最终收敛却难在瞬态阶段跟住专家的问题。作者提出仅用状态轨迹训练的收缩动力学策略 SCDS,以具内生收缩性的 REN、耦合层和 Neural ODE 组成策略,在任意参数下保持收缩、免约束优化,并可学习收缩速率与给出分布外偏差上界。仿真操控和导航表明,该方法在分布外恢复、瞬态模仿质量和训练效率上优于稳定或既有收缩基线,但验证目前主要限于仿真。

Policy-Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone figure
ICLRW 20252024-12-09

Policy-Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

强化学习

强化学习触觉机器人学习

这项工作针对一个现实问题:现有深度RL常与特定策略形式(如高斯策略)强绑定,换成扩散或自回归策略后,策略梯度往往不稳定或难以实现。作者提出PA-RL,把“策略改进”改成“动作改进”:先从基础策略采样多个动作,用Q函数做重排与局部梯度优化,再用统一的监督损失蒸馏回任意策略,从而解耦RL算法与策略骨干。实验表明,它在离线RL和在线微调上整体领先约13%、样本效率最高提升2倍,并在真实机器人上于40分钟内将OpenVLA成功率从40%提升到70%。

P3-PO: Prescriptive Point Priors for Visuo-Spatial Generalization of Robot Policies figure
ICRA 20252024-12-09

P3-PO: Prescriptive Point Priors for Visuo-Spatial Generalization of Robot Policies

泛化

泛化感知机器人学习

这篇工作针对机器人策略直接吃原始图像时易过拟合训练场景、难泛化到新位置和新物体的问题,提出P3-PO:先由人类在单帧演示上快速标出少量语义关键点,再用现成的语义对应与点跟踪模型传播到全数据集,把点而非图像作为策略输入,从而把感知中的对象几何关系显式化并与控制解耦。实验在4个真实任务上相对已有方法平均提升43%,对新物体实例和更杂乱环境分别提升58%和80%。

CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction figure
ICCV 20252024-12-09

CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Transformer Policy

Transformer Policy机器人学习

这篇论文针对机器人视觉运动策略中的两难:传统自回归方法推理高效,但容易忽视长程依赖和整段动作的全局结构;扩散策略动作更准更平滑,却受多步去噪拖累,实时部署成本高。CARP的核心洞察是把动作生成从“逐时间步预测”改写为“逐尺度、由粗到细细化”:先用动作自编码器学习整段轨迹的多尺度离散表示,再用GPT式Transformer在潜空间按尺度递进地修正动作。实验表明,它在仿真与真实机器人、单任务和多任务场景下可达到或超过扩散策略,成功率最高提升约10%,推理速度约快10倍。

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation figure
ICCV 20252024-12-09

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation

泛化

泛化跨本体双臂操作

双臂操作数据采集昂贵、动作维度高,导致通用双臂策略难训练;本文的关键思路是不从零学习双臂,而是把已具泛化能力的单臂策略迁移过来。AnyBimanual 通过技能管理器按任务动态组合单臂策略中的技能原语,并用视觉对齐器为左右臂生成软掩码,缓解单臂预训练与双臂观测分布不匹配。其在 RLBench2 的12个仿真任务和9个真实任务上优于已有方法,真实平均成功率为84.62%;但摘要与片段中的仿真增益数字不一致,判断基于公开摘要/项目页。

What's the Move? Hybrid Imitation Learning via Salient Points figure
ICLR 20252024-12-06

What's the Move? Hybrid Imitation Learning via Salient Points

模仿学习

模仿学习泛化

这篇论文针对模仿学习在长时程精细操作中易受视角、背景和空间摆放变化影响、且仅靠逐步动作或单一模态都难兼顾泛化与精度的问题,提出 SPHINX:先从点云中找任务相关的显著点,并以其为锚预测低频 waypoint 完成长距离移动;接近目标后再切换到基于腕部相机的高频稠密控制做插入、对齐等精细阶段。该“显著点+模态/动作混合切换”的设计在 4 个真实和 2 个仿真任务上达到 86.7% 成功率,较最佳基线平均提升 41.1%,并在新视角、干扰物、空间布局和执行速度变化下保持更强泛化,还带来 1.7× 速度提升。

SPHINX: What's the Move? Hybrid Imitation Learning via Salient Points figure
ICLR 20252024-12-06

SPHINX: What's the Move? Hybrid Imitation Learning via Salient Points

模仿学习

模仿学习机器人学习

这篇工作针对模仿学习在机器人长程操作中的两难:图像策略精细但易受视角与背景干扰,3D路点策略有空间泛化却缺少近距离精度。SPHINX的核心洞察是学习任务相关“显著点”,以其为锚从点云预测稀疏路点完成远距离移动,再在接近目标后切换到基于腕部相机的稠密末端动作做精细操作,从而按阶段混合观测模态与动作表示。实验显示其在4个真实任务和2个仿真任务上达到86.7%成功率,真实世界440次试验中平均超过次优基线41.1%,并对新视角、干扰物和空间重排更稳健,执行速度也提升1.7倍。

Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment figure
arXiv2024-12-06

Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

强化学习

多智能体/多机器人强化学习Latent Learning人机交互机器人学习

论文关注预训练视觉运动策略常与用户细粒度偏好不一致、而传统RLHF学习视觉奖励又需要大量人工排序的问题。RAPL的核心是把有限反馈优先用于微调预训练视觉编码器,使其表征对齐用户真正关心的视觉因素,再在该空间中用特征匹配/最优传输构造稠密奖励。文中在X-Magical、Franka仿真和3个真实抓取任务上表明,该方法能学到更贴合偏好的奖励、跨机器人形态泛化,并把真实人类偏好数据需求降至约原来的1/5。

FlowPolicy: Enabling Fast and Robust 3D Flow-based Policy via Consistency Flow Matching for Robot Manipulation figure
AAAI 20252024-12-06

FlowPolicy: Enabling Fast and Robust 3D Flow-based Policy via Consistency Flow Matching for Robot Manipulation

3D 表征

3D 表征Flow Matching安全机器人学习操作

论文针对3D模仿学习中扩散/流模型推理需多步采样、难兼顾实时性与策略质量的问题,提出FlowPolicy:在3D点云条件下引入一致性流匹配,通过约束并归一化速度场自一致性,学习从任意时刻直达动作空间的直线流,并配合多段训练实现单步动作生成。其在Adroit与Metaworld共37个任务上将平均推理速度提升约7倍,同时保持与DP3等方法相当甚至更优的平均成功率。

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation figure
ICCV 20252024-12-05

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Latent Learning

Latent Learning机器人学习操作

这篇工作关注机器人动作标注昂贵、而视频中蕴含大量可迁移交互知识的问题,核心观点是相比静态帧,面向操作的预训练更应建模“运动”。作者将相邻帧压缩为离散的潜在运动 token,先做下一运动 token 自回归预训练,再通过联合微调把运动先验接到真实动作预测上。实验表明,该表示具有一定语义可解释性和跨人/机器体迁移能力,微调后在 CALVIN 等操作基准上比从零训练更稳健、更高效,少数据时优势更明显;但人类视频预训练的增益有多少来自 motion 设计而非数据规模,文中未充分说明。

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection figure
CVPR 20252024-12-05

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

任务规划

任务规划程序化规划多模态推理感知操作

面向长时程机器人操作里难以预定义的开放集失败,本文试图同时覆盖事后反应式检测与事前主动式预防。其核心做法是把失败判断统一为时空约束满足问题,用VLM一次性生成可执行的监控代码,并将物体或部件抽象成点、线、面等“约束元素”做跟踪和几何计算,避免在线反复做慢速粗粒度VQA。实验在3个模拟器和真实平台上显示,强扰动下成功率较基线提升28.7%,执行时间降低31.8%,且可与开环策略结合形成闭环长程操作。

Learning Whole-Body Loco-Manipulation for Omni-Directional Task Space Pose Tracking with a Wheeled-Quadrupedal-Manipulator figure
RA-L 20242024-12-04

Learning Whole-Body Loco-Manipulation for Omni-Directional Task Space Pose Tracking with a Wheeled-Quadrupedal-Manipulator

四足操作

移动操作四足操作感知操作

本文针对轮式四足机械臂在不显式给定底座指令时,如何依靠全身冗余自由度实现末端执行器6D位姿跟踪这一难题展开研究,动机是现有方法多只做3D位置控制,或需手动切换模式、同时给出底座命令。核心创新是提出非线性奖励融合模块,将移动、操作及二者过渡的分层目标统一进RL训练,并结合teacher-student范式学习整机协同策略。仿真与实机表明其可平滑全向跟踪,末端位置误差小于5 cm、姿态误差小于0.1 rad,消融也显示RFM对成功率与运动平顺性很关键。

AffordDP: Generalizable Diffusion Policy with Transferable Affordance figure
CVPR 20252024-12-04

AffordDP: Generalizable Diffusion Policy with Transferable Affordance

Affordance

AffordanceDiffusion Policy泛化机器人学习

这篇工作针对扩散策略在分布外、尤其未见实例和未见类别操作上容易失效的问题,认为比起继续强化视觉编码,更关键的是显式注入“该碰哪里、接触后怎么动”的操作先验。AffordDP将可迁移affordance表示为3D接触点与接触后轨迹,并借助视觉基础模型和点云配准把源物体先验经6D变换迁移到新物体,再在扩散采样中加入自适应affordance引导。仿真与真实机器人实验表明,它在未见实例、类别和场景上的表现 consistently 优于已有扩散策略。

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping figure
CVPR 20252024-12-03

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

抓取

抓取灵巧操作Transformer Policy操作

这篇工作针对灵巧手通用抓取在对象规模扩大时性能下滑、且现有方法训练链路繁琐的问题,提出先为每个对象单独训练RL教师,再用其生成的大规模成功轨迹离线蒸馏到单一Transformer策略。关键洞察是把难优化的在线统一学习改成“专才产数据、通才学模仿”,从而更容易扩到上千对象并保留抓取多样性;增益可能主要来自scaling与数据。实验中其在状态和视觉输入下都优于UniDexGrasp++,视觉设定对已见、同类未见和全未见对象成功率分别提升3.5%、7.7%、10.1%。

SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images figure
arXiv2024-12-03

SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images

抓取

抓取3D 表征操作

这篇工作针对语言引导抓取长期依赖密集多视角、且场景一变化就要整体重建的问题,提出SparseGrasp:先用DUSt3R生成稠密点云初始化3DGS以稳住稀疏视角下的几何质量,再结合MaskCLIP与SAM提取语义并用PCA压缩特征,同时直接从3DGS生成抓取候选,并用render-and-compare只更新被移动物体。实验表明,它仅用3个视角就能达到接近F3RM用17视角的效果,整场重建约240秒、更新约200毫秒,在速度和多轮场景适应性上优于现有方法。

Quantization-Aware Imitation-Learning for Resource-Efficient Robotic Control figure
arXiv2024-12-02

Quantization-Aware Imitation-Learning for Resource-Efficient Robotic Control

模仿学习

模仿学习VLA机器人学习操作

这篇工作针对VLA等模仿学习控制策略难以部署到边缘机器人:模型虽强,但低比特量化会在长时动作序列中累积误差,直接破坏决策。作者提出量化感知模仿学习QAIL,在微调时显式注入量化,并用量化鲁棒行为克隆让量化策略对齐全精度策略的动作分布,核心洞察是量化问题在控制里首先表现为序列决策漂移。结果上,OpenVLA在LIBERO做4比特权重量化后仍接近全精度,并在边缘GPU上实现2.5倍加速和2.5倍节能;CILRS自动驾驶在W4A4下达到3.7倍加速、3.1倍节能。

Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation figure
CVPR 20252024-11-27

Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation

3D 表征

3D 表征安全基础模型机器人学习操作

针对机器人操作中3D策略要么依赖稀缺3D数据从头学、要么经2D/3D模态转换而丢失空间几何的问题,Lift3D提出先补足2D基础模型的隐式3D感知,再将其抬升为显式点云编码器:先用面向任务的MAE聚焦可供性区域并重建深度,再借助2D位置编码与3D点的对应关系直接编码点云。该方法在MetaWorld、Adroit、RLBench及真实机器人上均优于已有方法,平均成功率较前SOTA最高提升18.2%和21.3%,且真实场景中每个任务仅30条示教也有较强泛化。

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation figure
CVPR 20252024-11-27

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

3D 表征

3D 表征泛化感知机器人学习操作

论文针对3D模仿学习虽有几何精度却缺少部件语义、遇到遮挡和跨实例形变时难以稳定操作的问题,提出G3Flow:先通过主动多视角探索与3D生成构建物体数字孪生,再用DINOv2提取语义并结合位姿跟踪形成可随时间更新的3D语义流,以单目、免人工关键点方式为扩散策略提供完整的对象中心表征。在五个仿真任务中,其终态约束操作和跨物体泛化平均成功率分别达68.3%与50.1%,明显高于46.2%和31.7%的次优方法。

Don't Let Your Robot be Harmful: Responsible Robotic Manipulation figure
arXiv2024-11-27

Don't Let Your Robot be Harmful: Responsible Robotic Manipulation

任务规划

任务规划程序化规划操作

论文关注机器人按人类指令盲目操作可能引发触电、起火或伤人等风险,目标是在完成操作任务时显式考虑环境危险。作者提出Safety-as-Policy:用world model自动构造并交互高风险场景,用mental model做后果推断与反思,生成更安全的任务与运动规划代码,并发布含100个任务的SafeBox。实验表明,该方法在合成与真实场景中都能以更高安全率、成功率和更低代价完成任务,且SafeBox与真实评测趋势一致。

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation figure
CVPR 20252024-11-27

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

灵巧操作

灵巧操作任务规划Diffusion Policy人机交互操作

给定材料与题目不一致,以下总结实际基于 CyberDemo 文本而非 DexHandDiff。论文动机是降低灵巧手真实示教成本,并质疑“真实域示教一定优于仿真示教”的常见假设;核心做法是在仿真中以低成本遥操作采集少量人类演示,再做轨迹级物理/视觉增广与自动课程训练,最后用极少真实数据微调完成 sim2real。结果上,真实抓放和旋转成功率分别较基线提升约 35% 和 20%,对未见阀门仍有 42.5% 成功率;但增益有多少来自方法本身、多少来自更多仿真数据,文中未充分说明。

MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation figure
arXiv2024-11-26

MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation

多智能体/多机器人

多智能体/多机器人任务规划语言条件操作

这篇工作针对单个LLM做机器人操作时在长时程任务中易幻觉、默认每步都成功、失败后难恢复的问题,提出MALMM:把高层规划、低层代码生成和流程切换拆给Planner、Coder、Supervisor三个专职代理,并在每步执行后引入环境观测做闭环重规划,因此无需预训练技能或示例也能处理中途掉落等异常。论文在9个RLBench零样本任务和Franka实机上验证,较现有零样本LLM方法优势明显,尤其长程任务的恢复与完成能力更强。

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics figure
CVPR 20252024-11-25

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

任务规划

任务规划多模态推理3D 表征操作

这篇工作针对现有VLM在机器人中常见的“会识别、但不会按参考系做空间推理”问题,提出RoboSpatial:把室内与桌面RGB-D场景整理成同时支持2D和3D训练的大规模空间问答数据,并显式编码自我、世界、物体三种参考系,覆盖可放置位置、空间兼容性和相对关系三类能力。实验显示,用该数据训练后,模型在空间可供性、关系预测和操作任务上普遍优于基线,也能泛化到自建与外部基准;但具体增益来源文中未充分说明,可能主要来自数据规模与标注设计。

RoCoDA: Counterfactual Data Augmentation for Data-Efficient Robot Learning from Demonstrations figure
ICRA 20252024-11-25

RoCoDA: Counterfactual Data Augmentation for Data-Efficient Robot Learning from Demonstrations

数据需求量大

数据需求量大模仿学习数据采集数据增强机器人学习

这篇工作针对模仿学习在机器人操作中既依赖大量示教、又容易在新场景失效的问题,提出 RoCoDA 数据增强框架:一方面用因果不变性对与任务无关的环境状态做反事实重采样,另一方面利用 SE(3) 等变性同步变换目标物体位姿与动作,再叠加颜色、裁剪和本体噪声增强。五项操作任务实验表明,它在成功率、泛化到未见位姿/纹理/干扰物,以及样本效率上均优于现有增强方法,并出现重抓取等行为。

FoAR: Force-Aware Reactive Policy for Contact-Rich Robotic Manipulation figure
RA-L 20252024-11-24

FoAR: Force-Aware Reactive Policy for Contact-Rich Robotic Manipulation

触觉

触觉接触丰富机器人学习操作

这篇工作针对接触丰富操作中“纯视觉难判断是否接触、而全程使用力/扭矩又会在非接触阶段引入噪声”的问题,提出FoAR:在RISE上加入未来接触预测器,用预测到的接触概率动态调节视觉与高频力觉融合,并配合反应式动作修正,使机器人仅靠位置控制也能更稳地完成擦拭、装配等任务。实验称每个任务仅用50条示范即可在多项接触任务上显著超过基线,并在动态扰动下保持更强鲁棒性;具体增益分解文中未充分说明,判断基于公开摘要/片段。

WildLMa: Long Horizon Loco-Manipulation in the Wild figure
ICRA 20252024-11-22

WildLMa: Long Horizon Loco-Manipulation in the Wild

四足操作

移动操作四足操作操作

论文关注四足移动操作在真实开放环境落地时的三大难点:技能泛化、长时程执行和超越抓取放置的复杂操作。其关键做法是把学得的全身控制器改造成VR遥操作接口,以较低成本采集示范,并用结合CLIP概率图的语言条件模仿学习训练可组合原子技能,再交给LLM规划器串联。实验表明,仅数十条示范即可超过RL抓取基线,示范成本降26.9%,且对未见物体有一定泛化;但长时程规划收益主要来自系统级定性案例,增益来源未充分拆解。

Instant Policy: In-Context Imitation Learning via Graph Diffusion figure
ICLR 20252024-11-19

Instant Policy: In-Context Imitation Learning via Graph Diffusion

模仿学习

模仿学习Latent LearningDiffusion Policy机器人学习

这篇工作面向机器人模仿学习每个新任务都要重收大量演示并重新训练的低效问题,尝试把“上下文学习”引入操作策略。其关键做法是把示范、当前点云观测与动作统一成图结构,并用扩散式图生成来预测闭环动作;同时利用仿真中语义一致但可程序化生成的伪示范,训练出任务无关的“读示范”能力。结果上,模型可在测试时仅凭1~2条示范即时执行新任务,在24个任务上显著优于BC-Z、Vid2Robot、GPT2等基线,且随更多仿真数据训练继续提升,增益可能主要来自scaling/data。

TrojanRobot: Backdoor Attacks Against LLM-based Embodied Robots in the Physical World figure
arXiv2024-11-18

TrojanRobot: Backdoor Attacks Against LLM-based Embodied Robots in the Physical World

任务规划

任务规划多模态推理安全语言条件

本文关注LLM/VLM驱动机器人操作的供应链安全:相比已较多研究的推理时攻击,模块化策略更可能在外包模型接入时被植入后门。作者提出TrojanRobot,通过在LLM规划到VLM感知链路中插入恶意模块建立控制关系;除后门微调VLM外,还提出“LVLM-as-a-backdoor”,借助ICIL与三类攻击形式(置换、停滞、意图偏转)实现更细粒度操纵。其在18个真实任务、4类VLM及仿真/实体机械臂上均表现出较高触发成功率和物理可迁移性。

Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics figure
ICCV 20252024-11-18

Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics

VLA

VLA安全机器人学习操作

本文聚焦VLA机器人在落地执行中的安全隐患:传统对抗攻击往往忽视机器人运动的空间约束与动作token序列的时间依赖,因此未必能有效扰乱操作。作者据此提出面向机器人控制的动作偏差、几何感知和定向轨迹操纵三类攻击目标,并设计可在数字与物理环境中使用的小型对抗补丁,同时用失败率和动作偏差评估风险。实验表明,OpenVLA在LIBERO等任务中可被攻击到仿真成功率接近0,真实场景失败率也提升约43%,说明现有VLA鲁棒性仍明显不足。

Bridging the Resource Gap: Deploying Advanced Imitation Learning Models onto Affordable Embedded Platforms figure
IEEE ROBIO 20242024-11-18

Bridging the Resource Gap: Deploying Advanced Imitation Learning Models onto Affordable Embedded Platforms

模仿学习

模仿学习安全机器人学习

论文针对Transformer类模仿学习策略依赖高算力、难以上廉价边缘端且云端推理有时延与可靠性问题,提出一条部署管线:先用输入形状统一和对称量化把ACT等模型压到嵌入式设备可运行,再用TEDA以异步并行方式在丢弃部分动作的同时做时间集成,缓解action chunking带来的抖动。实验将服务器训练的策略部署到低成本X5上完成单臂与双臂操作,说明方案可落地,但文中未充分说明相对基线的精确成功率与增益来源。

IGOR: Image-GOal Representations Atomic Control Units for Foundation Models in Embodied AI figure
arXiv2024-11-17

IGOR: Image-GOal Representations Atomic Control Units for Foundation Models in Embodied AI

Latent Learning

Latent Learning基础模型机器人学习

针对机器人交互数据远少于互联网视频、基础策略难以扩展的问题,IGOR把当前图像到目标图像的视觉变化压缩为统一的潜在动作,用共享的人类—机器人动作空间给海量视频自动打标,并作为世界模型与高层策略的原子控制单元。实验表明,该空间在跨任务、跨本体上具有语义一致性,能把一段视频中的物体运动“迁移”到另一段视频甚至人到机器人场景,并在低数据的 Google Robot 任务上提升控制效果;但增益来源可能部分来自更多数据与 scaling,文中未充分拆解。

STMDP: Brain-inspired Action Generation with Spiking Transformer Diffusion Policy Model figure
BICS 20242024-11-15

STMDP: Brain-inspired Action Generation with Spiking Transformer Diffusion Policy Model

Diffusion Policy

Diffusion PolicyTransformer Policy机器人学习

这篇工作针对行为克隆易累积误差、现有基于Transformer的脉冲网络又不擅长生成机器人动作轨迹的问题,提出STMDP:将SNN、Transformer编码器-解码器与扩散策略结合,并用Spiking Modulate Decoder替换传统解码器,以更好地调制条件信息并生成动作序列,同时也探索了用DDIM替代DDPM。实验在4个操作任务上整体优于已有Transformer式扩散策略,其中Can任务提升约8%,但增益究竟主要来自SMD、脉冲建模还是采样设置,文中未充分说明。

Learning Generalizable 3D Manipulation With 10 Demonstrations figure
IROS 20252024-11-15

Learning Generalizable 3D Manipulation With 10 Demonstrations

3D 表征

3D 表征模仿学习泛化操作

这篇工作针对少样本模仿学习常把3D操作过拟合为固定轨迹、难适应物体初始位姿和相机视角变化的问题,提出由语义引导感知与扩散式决策组成的框架,并用3D空间等变的轨迹增强/训练把示范中的相对空间关系显式注入策略,而非只记忆动作序列。在仿真和真实机器人上,仅用10条示范就比DP3等方法在多项任务上成功率提升约60%–70%,且在更大初始化区域和多视角下更稳健。

Autonomous Robotic Pepper Harvesting: Imitation Learning in Unstructured Agricultural Environments figure
RA-L 20252024-11-15

Autonomous Robotic Pepper Harvesting: Imitation Learning in Unstructured Agricultural Environments

模仿学习

模仿学习操作数据集/Benchmark应用

论文面向露天农田辣椒采收这一高遮挡、光照多变且地形非结构化的难场景,试图回答模仿学习能否替代大量手工规则。其关键做法是结合定制剪切夹爪与手持示教,采集300条真实田间演示来训练视觉运动扩散策略,并公开数据集。系统在室外实测成功率28.95%、单次31.71秒,在更苛刻环境下接近部分温室方案;但判断基于公开摘要/片段,增益来源尚不清,文中未充分拆解策略、夹具与数据规模各自贡献。

ALPHA-α and Bi-ACT Are All You Need: Importance of Position and Force Information/Control for Imitation Learning of Unimanual and Bimanual Robotic Manipulation with Low-Cost System figure
IEEE Access 20252024-11-15

ALPHA-α and Bi-ACT Are All You Need: Importance of Position and Force Information/Control for Imitation Learning of Unimanual and Bimanual Robotic Manipulation with Low-Cost System

模仿学习

模仿学习触觉数据采集双臂遥操作操作

论文针对低成本模仿学习系统普遍只有单向位置控制、难处理软硬差异和易碎物体的问题,提出将双边控制与ACT结合的Bi-ACT,并配套支持位置/速度/力矩多模式的双臂平台ALPHA-α;核心洞察是把位置与力信息同时纳入示教与策略学习,比只看位姿更能适应物体硬度、形状和重量差异。实验表明,Bi-ACT在单臂任务中优于去掉力控制的版本,并在多项双臂协同操作上取得较高成功率,但文中未充分说明性能增益中力信息、模型结构与硬件设计各自的贡献占比。

Vision-based Manipulation of Transparent Plastic Bags in Industrial Setups figure
frobt 20252024-11-14

Vision-based Manipulation of Transparent Plastic Bags in Industrial Setups

可变形物体

可变形物体感知操作应用

面向工业场景中透明塑料袋因反光、折射和可变形而导致的难检测、难抓取、难切开问题,论文将视觉识别、深度感知与专用机构协同设计:用CNN定位袋装堆叠,结合RealSense、真空吸附、底部多吸盘拉紧和直线刀具,完成“上料—切袋—投送”闭环原型。实验室在Franka上验证了8袋单循环平均检测、抓取、放置成功率分别为96.25%、86.25%、82.5%,但切割成功率、整线吞吐提升及增益来源文中未充分说明。

VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation figure
NeurIPS 20242024-11-14

VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation

视频规划

视频规划Diffusion Policy世界模型感知机器人学习操作

论文针对机器人示教数据稀缺、直接从视觉到动作拟合难以充分利用时序动力学的问题,借鉴“双系统”认知思想提出 VidMan:先在 OXE 上以视频扩散方式预测未来视觉轨迹,预训练出具备长时域环境动力学感知的世界模型;再用分层自注意力适配器复用该骨干,将其转为无需显式生成视频的快速逆动力学策略。结果上,VidMan 在 CALVIN 上较 GR-1 相对提升 11.7%,在小规模 OXE 上精度提升超 9%,且在目标机器人数据更少时优势更明显。

MBA: Motion Before Action: Diffusing Object Motion as Manipulation Condition figure
RA-L 20252024-11-14

MBA: Motion Before Action: Diffusing Object Motion as Manipulation Condition

3D 表征

3D 表征Diffusion Policy机器人学习操作

论文动机是现有扩散操作策略常直接从观测生成动作,容易记住视觉线索而不是理解物体将如何运动,因此在大位姿变化下泛化较差。MBA的核心是级联两个扩散过程:先预测未来物体位姿序列,再把它作为条件引导动作生成;其依据是物体位姿与机器人末端动作处于相近的姿态空间,具有可学习的运动学一致性。实验表明,它作为可插拔模块接入3个基线后,在57个仿真任务和4个真实任务上都能稳定提升表现,但摘要片段未充分说明各项增益的具体幅度与来源。

Adaptive Wiping: Adaptive Contact-rich Manipulation through Few-shot Imitation Learning with Force-Torque Feedback and Pre-trained Object Representations figure
RA-L 20242024-11-13

Adaptive Wiping: Adaptive Contact-rich Manipulation through Few-shot Imitation Learning with Force-Torque Feedback and Pre-trained Object Representations

模仿学习

数据需求量大模仿学习触觉Latent Learning接触丰富机器人学习操作

论文面向擦拭这类接触丰富操作,试图解决少量示教学到的策略一遇到台面高度变化或海绵软硬、摩擦差异就失效的问题。其关键做法是先在仿真中用无标注力/力矩探索数据预训练海绵物性 latent,再在少样本模仿学习中把该表征与实时 FT 闭环结合,在线修正末端高度与施力,而非仅开环复现轨迹。实机 40 种场景下,参考力施加准确率达 96%,明显优于无 FT 反馈基线的 4%,也优于手工设目标力的导纳控制。

QuadWBG: Generalizable Quadrupedal Whole-Body Grasping figure
ICRA 20252024-11-11

QuadWBG: Generalizable Quadrupedal Whole-Body Grasping

抓取

移动操作抓取四足操作泛化操作

这篇工作针对四足端到端全身操作中常见的抓取精度低、跨物体泛化差问题,提出模块化框架QuadWBG:用腕部相机做分割与抓取检测,低层RL跟踪5维机身指令,高层再以GORM可达性图评估目标相对底座的6D可达性,选择兼顾手臂可达与机体稳定的站位。实机中其一次抓取成功率达89%,可处理透明/镜面物体,并覆盖从地面到高于机身的大工作空间。

RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model figure
IROS 20242024-11-07

RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model

抓取

抓取语言条件操作

这篇工作针对多模态大模型“会说不会控”的问题:它们能理解图文与语言指令,却难稳定输出抓取所需的精确数值位姿。作者提出RT-Grasp,在训练中显式加入“先推理物体属性与抓取策略、再生成抓取点和角度”的结构化监督,并构建配套数据集,以较低成本适配VLM。实验在抓取基准和真实机器人上表明,该方法比传统固定预测和直接使用VLM更能给出可对话修正、上下文相关的抓取位姿,但具体增益来源文中未充分说明。

Object-Centric Dexterous Manipulation from Human Motion Data figure
CoRL 20242024-11-06

Object-Centric Dexterous Manipulation from Human Motion Data

灵巧操作

灵巧操作对象中心操作

论文关注如何利用人手运动数据训练双手灵巧机器人完成以物体状态轨迹为目标的操作,但直接模仿人手手指会受人机形态差异影响。其核心洞察是人类腕部运动比手指轨迹更具可迁移性,因此采用分层策略:高层用大规模动捕数据生成条件于目标物体轨迹的腕部运动,低层再用强化学习学习贴合机器人本体的手指控制与腕部残差。实验在10类家居物体上优于基线,并能泛化到新几何和新目标轨迹,还完成了仿真到真实双手系统迁移。

LEGATO: Cross-Embodiment Imitation Using a Grasping Tool figure
RA-L 20252024-11-06

LEGATO: Cross-Embodiment Imitation Using a Grasping Tool

抓取

抓取模仿学习泛化跨本体

这篇工作针对“每种机器人都要单独采示教、且夹爪机构与控制时延差异让策略难以复用”的瓶颈,提出 LEGATO:用可被不同机器人共用的手持抓取工具统一任务交互与观测/动作表示,再在运动不变空间计算模仿损失,并通过 IK 将工具轨迹重定向为各本体全身动作。仿真中在机械臂、轮式、四足和人形平台上的跨本体迁移均优于 BC-RNN 和 Diffusion Policy,真实桌面操作从人类直采示教迁移后成功率达 72%。

ET-SEED: Efficient Trajectory-Level SE(3) Equivariant Diffusion Policy figure
ICLR 20252024-11-06

ET-SEED: Efficient Trajectory-Level SE(3) Equivariant Diffusion Policy

Diffusion Policy

Diffusion Policy泛化

这篇工作针对扩散式模仿学习在机器人操作中依赖大量示范、且物体位姿变化时泛化差的问题,提出 ET-SEED:将轨迹级策略直接定义在 SE(3) 流形上,并从理论上放宽等变扩散条件,证明整条去噪链不必步步等变,只需保留一次等变转移、其余步骤做不变去噪即可,从而降低训练难度与计算开销。实验覆盖刚体、铰接体、长时程和柔性物体任务,在少量示范下的成功率、空间泛化以及真实机仅 20 条示范的外推表现上均优于现有方法。

Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy for Visuomotor Imitation Learning figure
IROS 20252024-11-05

Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy for Visuomotor Imitation Learning

模仿学习

模仿学习泛化安全对象中心感知机器人学习

这篇工作针对视觉模仿学习中BC策略一旦遇到训练分布外的物体位置就容易失效、而额外采集纠错数据代价高的问题,提出对象中心恢复框架OCR:仅利用原始示教数据中的物体关键点流形梯度,学习一个由逆策略驱动的恢复动作,在检测到低密度/OOD状态时先把任务相关物体引回训练分布,再交还给任意基础BC策略。仿真和真实机器人实验表明,其OOD表现较基线提升77.7%,且基本不损害分布内性能,并可用于自主收集持续学习示教。

Digitizing Touch with an Artificial Multimodal Fingertip figure
arXiv2024-11-04

Digitizing Touch with an Artificial Multimodal Fingertip

触觉

触觉机器人学习

论文针对现有机器人触觉多依赖单一视觉触觉、模态少且延迟高的问题,提出指尖式多模态传感器 Digit 360:在半球柔顺结构中融合约 830 万 taxels 的高分辨率视触觉、力、表面音频/振动、温度、IMU 与气体传感,并用端侧神经网络加速器实现“反射弧”式本地处理。实验显示其可分辨 7μm 细节,法向/切向力分辨率达 1.01/1.27mN,振动感知到 10kHz,整环延迟约由 4ms 降至 1ms;但各模态对实际操作收益的独立贡献文中未充分说明。

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution figure
NeurIPS 20242024-11-04

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

VLA

VLA语言条件机器人学习

这篇工作针对机器人端部署 VLA/MLLM 时算力、显存和时延受限的问题,基于“多数控制时刻其实较简单,小模型已足够”的洞察,提出带多出口的 DeeR-VLA,使模型能按当前场景难度动态提前退出,并设计同时满足平均计算成本、峰值延迟与显存约束的终止准则,以及适配时序动作预测的训练方法。在 CALVIN 上,DeeR 在基本不损失性能的情况下,将 LLM 计算开销降低 5.2–6.5 倍、显存降低 2–6 倍。

SPOT: SE(3) Pose Trajectory Diffusion for Object-Centric Manipulation figure
ICRA 20252024-11-01

SPOT: SE(3) Pose Trajectory Diffusion for Object-Centric Manipulation

Diffusion Policy

Diffusion Policy对象中心感知机器人学习操作

这篇工作针对端到端或全场景模仿学习中感知与动作强耦合、难利用无动作人类视频且难满足中间过程约束的问题,提出以“相对目标的物体SE(3)位姿轨迹”为中间表征:先由扩散模型预测未来物体轨迹,再由任务空间控制器闭环跟随,从而支持跨形态学习,并把如保持直立、防洒落等约束直接从示范中学出来。结果上,SPOT在RLBench的高精度、长时程单目任务上优于各基线,真实场景中仅用8段iPhone示范也完成全部任务且满足约束。

π0: A Vision-Language-Action Flow Model for General Robot Control figure
RSS 20252024-10-31

π0: A Vision-Language-Action Flow Model for General Robot Control

VLA

VLA语言条件机器人学习

这篇工作试图缓解机器人学习长期受限于数据稀缺、跨场景泛化差和鲁棒性不足的问题,提出π0:在预训练视觉语言模型上加入基于flow matching的动作专家,并通过跨具身联合训练,把单臂、双臂和移动操作等多平台数据统一为语言条件连续控制。实验表明,模型在7种机器人、68类任务的预训练后可直接按提示执行或再微调完成洗衣折叠、清桌、装箱等复杂多阶段任务,但性能增益有多少来自架构、多少来自scaling与数据,文中未完全拆清。

Sparsh: Self-supervised Touch Representations for Vision-based Tactile Sensing figure
CoRL 20242024-10-31

Sparsh: Self-supervised Touch Representations for Vision-based Tactile Sensing

触觉

触觉Latent Learning感知机器人学习

论文针对视觉触觉感知长期依赖任务/传感器专用模型、且力与滑移标注昂贵、跨传感器难迁移的问题,提出Sparsh:在46万+触觉图像上进行自监督预训练,并配套六任务基准TacBench。核心洞察是潜空间自蒸馏/预测式学习比像素重建更适合触觉图像,能更好跨越光照、胶层标记等传感器差异;在仅用33%–50%标注时,平均较端到端专用模型提升95.1%,其中DINO与IJEPA最好。不过这部分增益有多少来自方法本身、多少来自数据规模,文中未充分说明。

EgoMimic: Scaling Imitation Learning via Egocentric Video figure
CoRLW 20242024-10-31

EgoMimic: Scaling Imitation Learning via Egocentric Video

视频规划

视频规划模仿学习数据采集遥操作

这篇工作瞄准模仿学习受限于机器人示教昂贵、难扩规模的问题,主张把可被被动采集的人类第一视角视频与3D手部轨迹,视为与机器人遥操作同等的具身示范,而不是仅用来提取高层意图。EgoMimic通过Aria眼镜采集、类人双臂硬件、跨域动作与视觉对齐及人机共训策略统一学习,在长程单臂和双臂操作上较仅用机器人数据提升34%–228%,还能泛化到新物体和新场景,并显示新增1小时手部数据比1小时机器人数据更有效。

DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning figure
ICRA 20252024-10-31

DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning

数据需求量大

数据需求量大灵巧操作人形操作模仿学习数据采集数据生成双臂操作

这篇工作针对双臂灵巧/人形操作中示教采集昂贵、双手双臂同步遥操作困难且训练数据需求更大的瓶颈,提出 DexMimicGen:从少量真人示教出发,在仿真里按每个手臂独立进行子任务分段,并用同步机制与顺序约束处理协同阶段,自动生成物理可执行轨迹。作者在9个环境中仅用60条源演示合成2.1万条数据,学习效果整体优于只用少量原始示教;在真实人形罐子分拣任务上,real2sim2real 后成功率达90%,而只用人类演示为0%。

Sirius-Fleet: Multi-Task Interactive Robot Fleet Learning with Visual World Models figure
CoRL 20242024-10-30

Sirius-Fleet: Multi-Task Interactive Robot Fleet Learning with Visual World Models

多智能体/多机器人

多智能体/多机器人世界模型感知机器人学习

这篇论文面向多机器人在真实家庭/工业场景中部署时常见的泛化不足、鲁棒性差和人工监管成本高的问题,提出Sirius-Fleet:将可持续微调的多任务策略与基于视觉世界模型的运行时监控结合起来,用未来状态预测支撑失败检测和OOD检测,并依据人类反馈自适应调整异常阈值,只在高风险时请求接管。实验在RoboCasa仿真和Mutex真实平台上表明,该系统平均系统成功率超过95%,监控精度优于基线,且能随部署逐步减少人工干预。

M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning figure
ICRA 20252024-10-30

M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning

模仿学习

模仿学习泛化

这篇工作针对终身模仿学习中任务逐步加入后分布漂移导致旧技能遗忘的问题,指出关键瓶颈不只是回放样本不足,更是视觉、语言与关节/夹爪等多模态潜空间持续变形。M2Distill在增量步骤间同时约束多模态表征的L2距离和GMM策略动作分布的KL散度,在有限记忆下维持表示与动作一致性。实验显示其在LIBERO-OBJECT、GOAL、SPATIAL三套基准上都稳定优于既有方法。

KAT: Keypoint Abstraction using Large Models for Object-Relative Imitation Learning figure
ICRA 20252024-10-30

KAT: Keypoint Abstraction using Large Models for Object-Relative Imitation Learning

模仿学习

模仿学习感知机器人学习

该工作针对机器人模仿学习中“关键点表示虽利于泛化、却依赖人工设计和标注”这一瓶颈,提出KALM:先用视觉语言模型结合任务描述和种子演示提出候选部件/关键点,再用少量演示验证其跨视角、跨姿态和跨实例的一致性,并据此学习以关键点为参考系的扩散策略。实验表明,该方法在仿真中比RGB/RGBD基线更数据高效,在真实抽屉、按钮、把手和倒水等任务上仅需约10条演示、无需额外标注即可泛化到新视角、物体位姿和功能相近实例。

Robot Manipulation with Flow Matching figure
CoRLW 20242024-10-29

Robot Manipulation with Flow Matching

Flow Matching

Flow Matching机器人学习操作

该文针对机器人操作中“扩散策略精度高但推理慢、流式策略虽快却常依赖一致性约束”的矛盾,提出 MP1,将 MeanFlow 首次引入基于3D点云的策略学习,直接学习区间平均速度,在1次前向内生成动作轨迹,避免 ODE 数值误差;同时结合 CFG 提升轨迹可控性,并加入几乎不增加推理开销的 Dispersive Loss 改善少样本泛化。在 Adroit、Meta-World 和真实场景中,MP1 平均成功率超过 DP3 和 FlowPolicy 10.2%与7.3%,推理仅 6.8 ms,约比 DP3 快19倍、比 FlowPolicy 快近2倍。

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning figure
SR 20252024-10-29

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

灵巧操作

灵巧操作强化学习RL+IL触觉基础模型机器人学习操作

论文针对真实场景中RL做高精度灵巧操作时样本效率低、优化不稳、难靠纯试错学成的问题,提出HIL-SERL,把预训练视觉骨干、基于RLPD的离策略RL、示教+人在环纠错和安全低层控制整合起来。核心洞察是人工纠错能把失败状态转化为可学习信号,使策略逐步形成稳定的“收敛漏斗”,同时学到反应式与预测式控制。在翻锅、抽Jenga、双臂协作和复杂装配等任务上,系统仅用1至2.5小时实机训练就达到接近100%成功率,平均较同等人类数据的模仿学习成功率约翻倍、执行快1.8倍;增益更像来自系统级设计整合,而非单一算法突破。

PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement figure
WACV 20252024-10-29

PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement

应用

应用

这篇工作针对零样本场景整理中“先生成目标图、再分割、再编码”易累积误差,且目标视角不可控、常被限制在俯视3DoF的问题,提出PACA:直接利用Stable Diffusion不同去噪阶段的跨注意力,联合形成物体级表示,把生成、分割和特征编码合成一步,并加入视角控制以匹配6DoF相机视图。真实机器人实验中,其平均匹配准确率达87%,执行成功率达67%;但文中也承认,对生成物体数量与精确空间关系的控制、以及6DoF抓取所需深度信息仍不充分。

ManipGen: Local Policies Enable Zero-shot Long-horizon Manipulation figure
CoRLW 20242024-10-29

ManipGen: Local Policies Enable Zero-shot Long-horizon Manipulation

泛化

泛化操作

这篇工作针对机器人长程操作难以依赖真实数据扩展、而仿真又难覆盖海量接触与场景组合的问题,提出ManipGen:把任务拆成VLM规划、运动规划到位和局部操作策略执行,其中“局部策略”只关注目标附近交互区域,因此对绝对位姿、技能顺序和全局场景更不敏感。作者先在仿真中训练数千个单物体RL专家,再蒸馏成通用视觉策略;最终在Robosuite零样本达到97%,真实世界50个任务、最长8阶段的成功率为76%,明显超过SayCan、OpenVLA等基线。

MCR: Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets figure
ICLR 20252024-10-29

MCR: Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

Latent Learning

Latent Learning基础模型机器人学习操作数据集/Benchmark

论文针对以往用互联网人类视频预训练机器人表征时存在的人机分布偏移、且缺少动作与本体动力学信息的问题,先提出“操作中心性”指标,并发现它与下游操作成功率强相关。基于此,作者在DROID机器人数据上训练MCR,将视觉观测与状态-动作片段做对比对齐,并加入动作预测和时间对比损失,以学习更聚焦末端执行器和任务物体的潜表征。实验显示,MCR在4个仿真域20个任务上较最强基线提升14.8%,在3个UR5e真实任务上将数据高效学习成功率提升76.9%。

HIL-SERL: Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning figure
SR 20252024-10-29

HIL-SERL: Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

灵巧操作

灵巧操作强化学习触觉机器人学习操作

本文针对真实世界视觉操作中强化学习样本效率低、训练不稳、纯模仿难学到高精度技能的问题,提出HIL-SERL:将预训练视觉骨干、基于RLPD的离策略RL、人类示范与在线纠错、安全低层控制整合为一套真机学习系统。文中关键洞察是,人类纠错对困难任务尤其重要,RL能在此基础上学出兼具反应式与预测式的鲁棒策略。系统在翻锅、抽积木、双臂协作和精密装配等任务上仅需1–2.5小时训练即可接近满成功率,平均较模仿学习成功率约翻倍、执行快1.8倍。

Bi3D Diffuser Actor: 3D Policy Diffusion for Bi-manual Robot Manipulation figure
CoRLW 20242024-10-29

Bi3D Diffuser Actor: 3D Policy Diffusion for Bi-manual Robot Manipulation

抓取

抓取3D 表征Diffusion Policy双臂操作

这篇工作针对双臂操作比单臂更难建模、两手动作存在强耦合和多模态的问题,把 3D Diffuser Actor 扩展为同时生成左右末端执行器未来轨迹的条件扩散策略:输入多视角RGB-D构成的3D场景、语言指令和双臂本体状态,联合去噪两臂位姿与夹爪开合,从而学到协同动作。在 PerAct2 上,其多任务训练的最终模型平均成功率达59.3%,较 PerAct2 绝对提升42.5%;但基线多为单任务设置,增益来源文中未充分拆解。

VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions figure
NeurIPS 20242024-10-28

VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions

任务规划

任务规划多模态推理Affordance模仿学习语言条件感知

这篇工作针对现有视觉模仿学习常把VLM只当高层规划器、仍依赖预定义运动原语,因而难以学到细粒度操作并泛化到新场景的问题,提出VLMimic:先从人类视频中做以物体为中心的交互与运动grounding,再用结合语义约束和关键点几何约束的层级表示让VLM推理低层技能,并通过迭代比较式适配器在未见环境中持续修正规则。实验显示仅用5段人类视频,就在RLBench上提升超27%,真实操作提升超21%,长程任务提升超37%。

GHIL-Glue: Hierarchical Control with Filtered Subgoal Images figure
CoRLW 20242024-10-26

GHIL-Glue: Hierarchical Control with Filtered Subgoal Images

视频规划

视频规划世界模型感知机器人学习

这篇工作关注分层机器人控制中的“接口脆弱性”:高层图像/视频生成器给出的子目标即使很逼真,也可能偏离任务或带有视觉伪影,从而误导低层目标条件策略。GHIL-Glue的核心是在规划器与控制器之间加入两步“胶合”:先用子目标分类器从多个候选中筛掉不能推动任务进展的子目标,再在训练时对当前观测与子目标施加去同步增强,提升策略对生成伪影的鲁棒性。实验显示该方法在仿真与真机上平均提升约25%,并在单RGB相机设定下刷新CALVIN结果,真机4个零样本语言任务中赢下3个。

CHG-DAgger: Interactive Imitation Learning with Human-Policy Cooperative Control figure
CoRLW 20242024-10-26

CHG-DAgger: Interactive Imitation Learning with Human-Policy Cooperative Control

模仿学习

模仿学习机器人学习

论文针对端到端视觉运动策略在OOD场景下容易失败、而传统HG-DAgger又依赖人机控制切换且难判断何时交还策略的问题,提出CHG-DAgger:用多边控制实现人类与策略在干预阶段持续协同操控,人在物理交互中既能顺着策略意图微调,也能自然判断何时退出,并可与Diffusion Policy及低成本硬件、较长更新周期兼容。实验显示,加入恢复数据重训练后,任务成功率由低于16.6%提升到高于77.8%;10名被试中,轻微修正场景下80%的人干预时间下降,且在不了解策略时平均再降约8.5%,但大幅纠偏时干预时间会变长。

ActAIM2: Discovering Robotic Interaction Modes with Discrete Representation Learning figure
CoRL 20242024-10-26

ActAIM2: Discovering Robotic Interaction Modes with Discrete Representation Learning

Latent Learning

Latent Learning人机交互机器人学习操作

这篇工作关注铰接物体操作里“开/关”等结果天然离散,但现有模仿学习往往缺少可采样、可落地的交互模式表示。ActAIM2用自监督方式把策略拆成离散模式选择器(基于GMM)和低层动作预测器,并配合不依赖标签与特权信息的仿真数据采集,从视觉中发现可执行的交互模式。实验显示,它在多类门柜任务上较多种基线更稳、更能泛化,真实Kinova抽屉开关成功率约75%;但文中也表明其绝对平均成功率未必处处最优,主要优势在于能稳定离散采样出有意义的模式。

MILES: Making Imitation Learning Easy with Self-Supervision figure
CoRL 20242024-10-25

MILES: Making Imitation Learning Easy with Self-Supervision

数据需求量大

数据需求量大模仿学习数据采集数据生成

这篇工作针对模仿学习在现实中常要么依赖大量演示、要么借助RL反复重置环境的痛点,提出MILES:从一次人类示教出发,利用腕部相机在执行中自监督采集“返回示教轨迹并继续跟随”的增广数据,再用行为克隆训练策略,从而缓解单示教的协变量偏移并避免随机探索。实验证明,在只给一次示教且不再人工重置的约束下,它在多项真实操作任务上优于基于RL和示教回放的基线,包括开盒盖、插钥匙上锁、插USB等接触密集任务。

SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment figure
CoRL 20242024-10-24

SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment

数据需求量大

数据需求量大模仿学习数据采集数据生成语言条件

这篇论文针对长时程操作中人类示范采集昂贵、难以覆盖场景变化的问题,提出SkillGen:把任务分成接触密集的技能段与可由运动规划处理的自由空间运动,只从少量人类演示中切分、适配并重组技能,再用HSP分别学习技能的起始、控制和终止。实验中仅用60条人工演示就在18个仿真任务上生成2.4万余条示范,策略成功率相比MimicGen平均提升24%,并在3个真实任务及一项装配任务上实现零样本仿真到现实迁移。

PointPatchRL - Masked Reconstruction Improves Reinforcement Learning on Point Clouds figure
CoRL 20242024-10-24

PointPatchRL - Masked Reconstruction Improves Reinforcement Learning on Point Clouds

3D 表征

3D 表征强化学习触觉机器人学习

论文针对图像观测难以稳定提取3D几何、在形变物体和移动视角下易歧义的问题,提出面向点云强化学习的 PointPatchRL:将多视角点云切成重叠 patch 后用 Transformer 编码,并加入基于 PointGPT 的掩码重建辅助损失,同时重建几何与颜色。实验显示,在 sofaenv 和 ManiSkill2 的复杂操作任务中,它较已有点云编码器及多种图像式 model-free/model-based 基线更省样本、成功率更高,且在开柜门、拉抽屉等难任务上优势更明显。

KOAP: Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers figure
ICRA 20252024-10-24

KOAP: Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers

任务规划

任务规划模仿学习Latent LearningDiffusion Policy机器人学习

这篇工作针对模仿学习中“动作标注贵、纯观测数据多”的矛盾,提出 KOAP:先用 diffusion planner 规划未来状态,再在 Koopman 线性潜空间中学习“动作代理”,把观测轨迹里的状态变化转成连续潜动作,并用线性解码器映射到真实高维动作,以降低少量动作标签下的过拟合。实验表明,它在 D3IL 多个操作任务和真实机器人 scooping 上均优于 ILPO、LAPO 等基线,且观测数据越多效果越好;但各模块增益的细粒度来源从给定材料看未充分说明。

Data Scaling Laws in Imitation Learning for Robotic Manipulation figure
ICLR 20252024-10-24

Data Scaling Laws in Imitation Learning for Robotic Manipulation

模仿学习

模仿学习机器人学习操作

论文关注机器人模仿学习中为何大规模数据尚未带来NLP/CV式零样本泛化,系统研究操作策略对训练环境数、物体数和演示数的缩放规律。核心洞察是泛化性能与环境、物体多样性近似满足幂律,而单个环境或物体上的演示数超过阈值后收益很小,因此应优先扩展环境—物体覆盖而非重复采集。基于4万条示范和1.5万次真实测试,作者在倒水、鼠标整理等任务上验证:4名采集者半天即可训练出在新环境和未见物体上约90%成功率的单任务策略。

SPIRE: Synergistic Planning, Imitation, and Reinforcement for Long-Horizon Manipulation figure
CoRL 20242024-10-23

SPIRE: Synergistic Planning, Imitation, and Reinforcement for Long-Horizon Manipulation

任务规划

任务规划模仿学习强化学习触觉泛化机器人学习操作

这篇论文针对长程、接触丰富操作中“纯模仿受示范质量上限约束、纯强化学习又难以有效探索”的瓶颈,提出 SPIRE:先用 TAMP 将任务拆成可规划段与需学习的 handoff 段,再用人类示范训练局部策略,并通过 BC warm-start、策略偏离约束和多 worker 调度进行 RL 微调。实验在 9 个任务上取得 87.8% 平均成功率,较 TAMP-gated BC 和 RL 高约 35%–50%,示范效率提升约 6 倍,成功轨迹长度降至 BC 的 59%。

NILS: Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models figure
CoRL 20242024-10-23

NILS: Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models

数据需求量大

数据需求量大数据采集数据生成基础模型机器人学习

这篇论文针对机器人数据集普遍缺少高质量自然语言标注、人工众包又昂贵且粒度不一致的问题,提出 NILS:用冻结的视觉-语言/大语言基础模型零样本地把长时程无标注操作视频切分为关键状态与子任务,再依据对象变化、空间关系和夹爪交互自动生成自由形式指令。结果上,它在 BridgeV2、Fractal 和厨房 play 数据上能自动标注多样示范,累计标注 11.5 万条、430 多小时轨迹,并在标注与关键状态发现上优于 Gemini-Pro 等方法;但最终策略增益可能也部分来自更大规模数据。

GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy figure
CoRL 20242024-10-23

GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy

3D 表征

3D 表征Diffusion Policy泛化机器人学习

这篇工作针对扩散策略虽擅长模仿复杂操作、却缺少显式几何与语义表征,导致对未见物体实例和场景变化泛化差的问题,提出 GenDP:先用多视角 RGBD 和视觉基础模型构建 3D 描述子场,再与参考特征匹配生成多通道 3D 语义场,连同点云一起条件化扩散策略,使其能聚焦功能部件、缓解几何歧义,并捕捉如拉环、笔帽等细微结构。在 8 个涉及铰接物体及跨形状纹理类别的任务上,未见实例平均成功率由 20% 提升到 93%。

DiffusionSeeder: Seeding Motion Optimization with Diffusion for Rapid Motion Planning figure
CoRL 20242024-10-22

DiffusionSeeder: Seeding Motion Optimization with Diffusion for Rapid Motion Planning

任务规划

任务规划几何约束规划Diffusion Policy

这篇论文针对几何约束运动优化在拥挤、部分观测场景中易因初值差而陷入局部最优、不得不回退到慢速图搜索的问题,提出先用条件扩散模型根据深度图、起始关节和目标位姿生成多样化轨迹种子,再交给 cuRobo 用少量迭代修正为无碰平滑轨迹。仿真中平均提速12倍、困难样例提速36倍且成功率提升10%,Franka 实机成功率86%、规划约26ms;不过增益也可能部分来自大规模模拟数据和强优化后端的耦合。

MSGField: A Unified Scene Representation Integrating Motion, Semantics, and Geometry for Robotic Manipulation figure
arXiv2024-10-21

MSGField: A Unified Scene Representation Integrating Motion, Semantics, and Geometry for Robotic Manipulation

任务规划

任务规划3D 表征操作

这篇工作针对机器人在动态场景中做语言引导操作时,现有表征要么更新慢、要么依赖RGB-D且难刻画小物体与非刚体的问题,提出MSGField:以2D Gaussian Splatting为几何骨架,用对象中心语义蒸馏保持同物体语义一致,再用少量运动基分解每个高斯的轨迹,从而仅凭两路RGB就在秒级更新运动并支持开放词汇分割。实机数据集上,语言引导操作在静态/动态场景成功率为79.2%/63.3%,指定目标抓取达90%。

DP-VLA: A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM figure
CoRL 20242024-10-21

DP-VLA: A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM

VLA

VLA语言条件机器人学习操作

这篇工作针对VLA把VLM直接用于动作生成时推理慢、动作不连续、难兼顾泛化与实时控制的问题,提出受双过程理论启发的分层框架DP-VLA:让大模型L-Sys2低频负责指令理解与环境推理,输出潜在意图,小模型S-Sys1高频结合多源观测做细粒度控制。RoboCasa实验表明其相较既有VLA推理更快、任务成功率更高;但给定片段未展示具体数值,增益究竟主要来自分层调度还是模型/数据选择,文中未充分说明。

ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation Learning figure
IROS 20242024-10-21

ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation Learning

模仿学习

模仿学习数据采集数据生成数据增强

这篇工作针对模仿学习中示教采集不友好、行为克隆又依赖大量数据的瓶颈,提出ARCADE:用户戴AR头显像日常用手操作一样给出一次示教,系统再用关键姿态检测和自动验证,从单条真实演示生成并筛选出大规模、尽量符合用户偏好的合成演示;其增益看起来主要来自数据扩增与状态覆盖提升。作者在Fetch机器人上的3-Waypoints-Reach、Push、Pick-and-Place三项任务中用原始BC就获得了较好效果,并在真实倒水任务上达到80%成功率。

CAGE: Causal Attention Enables Data-Efficient Generalizable Robotic Manipulation figure
ICRA 20252024-10-19

CAGE: Causal Attention Enables Data-Efficient Generalizable Robotic Manipulation

Diffusion Policy

数据需求量大Diffusion Policy泛化机器人学习操作

这篇论文针对机器人操作在少量示教、单一训练环境下遇到分布外场景就失效的问题,主张泛化上限更多由策略结构而非单纯堆数据决定。CAGE的核心是把DINOv2+LoRA用于视觉表征,再用因果Perceiver压缩观测token,并以带注意力的扩散动作头做细粒度条件控制。实验显示仅约50条示教下,它在物体、背景和视角变化中明显强于Diffusion Policy与RISE,在相似环境平均完成率提升42%,完全未见环境中基线几乎全失败时仍有43%完成率和51%成功率。

Diff-DAgger: Uncertainty Estimation with Diffusion Policy for Robotic Manipulation figure
ICRA 20252024-10-18

Diff-DAgger: Uncertainty Estimation with Diffusion Policy for Robotic Manipulation

Diffusion Policy

Diffusion Policy数据采集数据增强安全操作

这篇工作针对扩散策略在机器人操作中虽能处理多峰示范,但一旦偏离训练分布就会因误差累积而失败,且现有 robot-gated DAgger 常把多解状态下的策略分歧误判为不确定。作者提出 Diff-DAgger,用扩散策略自身的 diffusion loss 作为查询信号来决定何时请求专家接管,从而更准确地区分多模态已见状态与真正的 OOD。实验覆盖堆叠、推动、插接等五项任务(含两个真实任务),任务失败预测 F1 提升 39.0%,完成率提升 20.6%,交互学习总耗时降低 7.8 倍。

V-GPS: Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance figure
CoRL 20242024-10-17

V-GPS: Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

强化学习

强化学习VLA触觉基础模型机器人学习操作

这篇工作针对通用机器人基础策略虽具语义泛化、却常因训练数据质量参差和环境偏移而出现抓取不准、提前掉落等问题,提出V-GPS:在部署时从黑盒通用策略采样多组动作,再用离线强化学习训练的价值函数重排并执行高价值动作。关键洞察是无需微调甚至无需访问策略权重,也能用同一个价值函数即插即用地“转向”不同VLA/通用策略。实验覆盖5种SOTA策略、2类机器人和12项任务,真实操作平均提升达82%,并在多平台上稳定增益。

ALOHA Unleashed: A Simple Recipe for Robot Dexterity figure
CoRL 20242024-10-17

ALOHA Unleashed: A Simple Recipe for Robot Dexterity

Transformer Policy

Transformer Policy机器人学习

论文关注一个关键问题:模仿学习能否仅靠规模化走向高难度双臂灵巧操作,尤其是系鞋带、挂T恤这类涉及可变形物体和复杂接触的长时程任务。作者给出的核心配方是“数据规模+高表达策略”:在低成本 ALOHA 2 上收集超2.6万条真人示教,并用多视角条件的 Transformer 编解码扩散策略预测动作块。结果在5个真实和3个仿真任务上优于既有基线,并宣称首次实现端到端自主系鞋带与挂衣;从文中看,增益可能主要来自 scaling/data 与扩散式策略的结合。

LAPA: Latent Action Pretraining from Videos figure
ICLR 20252024-10-15

LAPA: Latent Action Pretraining from Videos

视频规划

视频规划Latent Learning基础模型机器人学习

这篇工作针对VLA预训练依赖昂贵机器人动作标注、难以利用海量互联网视频的问题,提出LAPA:先用VQ-VAE从相邻帧中无监督离散化“潜动作”,再让视觉语言模型依据观测与指令预测这些潜动作,最后仅用少量带动作标签的机器人数据把潜动作映射到真实控制。文中实验报告其不仅显著优于无动作标签的视频预训练基线,还在真实语言条件操作上超过OpenVLA约6.22%,并表现出仅用人类操作视频也能正迁移、预训练效率提升30倍以上的效果。

iDP3: Generalizable Humanoid Manipulation with 3D Diffusion Policies figure
IROS 20252024-10-14

iDP3: Generalizable Humanoid Manipulation with 3D Diffusion Policies

人形操作

人形操作3D 表征Diffusion Policy泛化操作

这篇工作针对人形机器人操作常被困在训练场景、又难以低成本采集可泛化数据的问题,提出系统与算法联合设计方案:用含头、腰、双臂的上半身遥操作采集更像人的示教,在带升降底座和头部 LiDAR 的 25DoF 平台上,将 DP3 改造成适配自我中心点云的 iDP3,减少标定与分割依赖并提升对噪声示教的学习能力。实机 2000 余次评测表明,仅用单一场景数据和机载算力,机器人就能在厨房、办公室等未见场景零样本完成抓放、倒水、擦拭,并在视角、物体与场景泛化上明显优于图像策略和原始 DP3。

VideoAgent: Self-Improving Video Generation figure
NeurIPSW 20252024-10-14

VideoAgent: Self-Improving Video Generation

视频规划

视频规划世界模型感知机器人学习

本文关注把视频生成当作机器人视觉规划时常见的幻觉与物理失真,这会让从视频提取的控制动作难以可靠执行。作者提出VideoAgent:先用“自条件一致性”反复细化视频计划,再结合VLM反馈挑选更可信的样本;执行过程中还利用环境成败反馈和新增成功轨迹继续微调生成器,形成自改进闭环。结果显示其在MetaWorld和iTHOR中减少幻觉并普遍提升任务成功率,真实机器人部分更多是可行性的早期证据,具体数值增益以正文为准。

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation figure
NeurIPS 20242024-10-14

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation

VLA

VLA世界模型机器人学习操作

这篇工作针对语言操控中“指令直接映射到低层动作”易忽略关键操作节点、对动态环境脆弱且推理冗余的问题,提出 PIVOT-R:先用 VLM 将指令解析为 primitive,再以 primitive 驱动世界模型只预测与任务成功最相关的 waypoint,最后由轻量模块解码低层动作,并用异步分层执行器为不同模块分配不同频率。SeaWave 上,其在四级指令任务中相对开源 SOTA 平均提升 19.45%,异步执行还在仅降 2.9% 性能的情况下带来 28 倍效率提升。

DiT-Block Policy: The Ingredients for Robotic Diffusion Transformers figure
ICRA 20252024-10-14

DiT-Block Policy: The Ingredients for Robotic Diffusion Transformers

Diffusion Policy

Diffusion PolicyTransformer Policy机器人学习操作

本文针对“Transformer骨干+扩散策略”在机器人操作中训练不稳、调参困难的问题,提出 DiT-Block Policy:用更适合扩散建模的 DiT 式 Transformer 块替代常见 cross/joint attention,并以 adaLN 稳定条件注入,同时采用分离式 ResNet 进行多相机观测 token 化。结果表明,该方法在 ALOHA 与 DROID 两种机器人、5 个任务上较强基线提升约 20%,在 1500+ 步双臂长程灵巧操作上优势更明显,并表现出更好的随数据规模扩展能力。

Zero-Shot Offline Imitation Learning via Optimal Transport figure
ICML 20252024-10-11

Zero-Shot Offline Imitation Learning via Optimal Transport

模仿学习

数据需求量大模仿学习泛化

本文针对零样本离线模仿学习中常见的“把演示拆成一串子目标”会导致短视决策的问题,尤其是部分、粗糙演示下先完成局部目标却破坏后续可达性,提出 ZILOT:先用离线次优数据学习世界模型和目标条件价值函数,再用最优传输把单步状态—目标距离提升为策略轨迹与专家演示的占用分布距离,并在 MPC 中直接优化该目标。实验表明,它在多个连续机器人仿真与离线数据设置下较以往零样本 IL 更少出现灾难性短视失败,能仅凭单条无动作演示实现非短视模仿。

ARCap: Collecting High-quality Human Demonstrations for Robot Learning with Augmented Reality Feedback figure
ICRA 20252024-10-11

ARCap: Collecting High-quality Human Demonstrations for Robot Learning with Augmented Reality Feedback

模仿学习

模仿学习数据采集数据增强遥操作机器人学习

这篇工作针对“无实体机器人”的便携式示教采集虽易扩展、却因缺少机器人在环反馈而高度依赖熟练操作者的问题,提出 ARCap:在采集时用 AR 实时叠加重定向后的虚拟机器人,并结合场景重建做碰撞检测与触觉告警,把关节/速度超限和人机形态差异带来的失败直接暴露给用户。用户研究表明,即使新手也能采到更可执行的高质量示范;用这些数据训练后,机器人可完成拥挤环境操作及跨 embodiment 的长时程任务,如多层乐高堆叠。

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation figure
ICLR 20252024-10-10

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation

3D 表征

3D 表征机器人学习

论文指出,现有机器人具身表征学习多沿用2D对比或MAE范式,难以建模操作所需的3D空间关系。SPA用多视角图像和相机位姿构建动态3D特征体,并以可微神经渲染生成RGB-D与语义监督,在不改ViT主干的前提下注入3D空间感知。其在8个模拟器、268个任务及若干真实机器人实验中整体优于10余种基线,并显示3D感知与下游具身性能正相关;但最强模型训练成本很高,性价比文中未充分展开。

RoboDual: Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation figure
arXiv2024-10-10

RoboDual: Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

VLA

VLA机器人学习操作

这篇工作针对机器人操作中“通才策略泛化强但推理慢、训练贵,专才策略控制快但迁移差”的矛盾,提出RoboDual双系统框架:用OpenVLA提供慢速但高层的任务理解与离散动作提示,再由仅20M参数的扩散Transformer专才结合多模态观测做快速多步动作展开。其关键洞察是把高层泛化与低层实时控制解耦协同。结果上,相比OpenVLA,CALVIN提升12%,真实机器人提升26.7%,且只用5%演示数据仍保持较强性能,部署控制频率提高3.8倍。

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation figure
ICLR 20252024-10-10

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

Diffusion Policy

Diffusion PolicyTransformer Policy基础模型双臂机器人学习操作

这篇工作针对双臂操作中“动作多峰、数据稀缺”导致基础策略难做大的问题,提出 RDT-1B:以 Diffusion Transformer 建模双臂高维、多模态动作,并设计具物理可解释性的统一动作空间,把不同机器人的异构动作对齐到同一表示以支持跨机器人预训练。模型在 46 个数据集、约 100 万轨迹上预训练,再用 6K+ 双臂数据微调;真实机器人实验中较基线成功率提升约 56%,还能零样本泛化到新物体/场景,并用 1–5 次示教学习新技能。部分增益可能主要来自 scaling / data。

ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation figure
ICRA 20252024-10-10

ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation

模仿学习

模仿学习触觉接触丰富操作应用

面向削皮这类接触丰富操作,单靠视觉轨迹模仿难以复现人类在接触中持续调节作用力、补偿轨迹误差的能力。该文提出 ForceMimic:先用手持、无机器人示教的 ForceCapture 采集较自然的力—位姿数据,再以 HybridIL 预测末端力/力矩与位姿参数,并通过混合力/位控制在执行时同时拟合两者。以西葫芦削皮为例,示教采集时间由力反馈遥操作的 13 分钟以上降到约 5 分钟,机器人成功率相对纯视觉模仿学习提升 54.5%。

VIP: Vision Instructed Transformer for Robotic Manipulation figure
ICML 20252024-10-09

VIP: Vision Instructed Transformer for Robotic Manipulation

Transformer Policy

Transformer Policy机器人学习操作

论文关注机器人操作中“同一场景可执行多种动作”带来的目标歧义,认为现有机器人数据不足以让策略可靠理解文本指令,因此提出用更易对齐的视觉指令替代文本。VIP以当前观测、目标未来图像和稀疏点流共同条件化Transformer策略,并通过训练时逐步遮蔽点流、测试时用当前帧目标裁剪图替代未来图像来弥合部署落差。实机与仿真结果表明,它在多类操作上显著优于文本指令基线,甚至能完成紧瓶盖开启等高难任务,但增益有多少来自视觉指令而非1.7B规模预训练,文中拆分仍有限。

VIP: Vision Instructed Pre-training for Robotic Manipulation figure
ICML 20252024-10-09

VIP: Vision Instructed Pre-training for Robotic Manipulation

基础模型

基础模型感知机器人学习操作

这篇工作针对机器人操作中“数据扩展了但目标仍难说清”的瓶颈,指出现有机器人数据不足以让策略稳定理解文本指令,而视觉目标更容易被直接对齐。VIP 用未来目标图像结合稀疏点流来描述操作意图,并通过训练时逐步遮蔽点流、推理时改用当前图像中的目标裁剪,缓解训练部署不一致。结果显示,它在真实与仿真多种操作任务上普遍优于文本指令基线,甚至能完成紧瓶盖开启等高难度任务;但具体增益幅度在给定材料中未充分说明。

Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection figure
CoRL 20242024-10-09

Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection

抓取

抓取Sim2Real感知操作数据集/Benchmark

论文针对6-DoF抓取中“仿真可扩、真实有噪声”的矛盾:现有 sim-to-real 往往把真实相机噪声带进训练,反而压低抓取器上限。其核心洞察是把适配方向反过来,在推理时做 real-to-sim:用 R2SRepairer 修复深度漂移与结构形变,再用 R2SEnhancer 以仿真几何特征增强真实特征,并配合 6.4 万张 RGB-D、1440 万抓取标注的 R2Sim 训练。文中称其在 GraspNet 和真实抓取实验中优于仅仿真或部分真实数据方法,但具体增益有多少来自模块设计、多少来自数据 scaling,给定材料未充分说明。

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation figure
arXiv2024-10-08

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

视频规划

视频规划世界模型感知机器人学习操作

这篇工作针对机器人真机数据难以大规模采集、泛化又依赖世界知识的问题,提出两阶段GR-2:先用3800万网络视频做文本条件视频预测预训练,再用少量机器人轨迹联合微调视频生成与动作预测,并设计可把预训练知识无损迁移到多视角操作策略的架构。从文中看,性能提升可能主要来自大规模视频数据与模型scaling,单独增益拆分未充分说明。结果上,它仅用约5000条轨迹就学会100多项任务,平均成功率97.7%,且能泛化到新背景、新环境、新物体与新任务,并完成100+物体的端到端抓取分拣。

LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation figure
arXiv2024-10-07

LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation

基础操作

基础操作VLA操作数据集/Benchmark

这篇工作关注VLA操作模型虽能端到端接收图像与语言并输出动作,但因数据驱动且可解释性弱,缺少可系统检验鲁棒性的评测平台。LADEV在SimplerEnv基础上把测试流程语言化:用LLM将场景描述自动转成仿真配置,结合指令改写评估文本扰动,并支持批量生成大规模测试。实验在多种SOTA VLA上表明,它可建立基础性能及视觉/文本扰动鲁棒性的评测基线;但给定材料中具体量化增益与效率提升幅度未充分说明。

Diffusion Imitation from Observation figure
NeurIPS 20242024-10-07

Diffusion Imitation from Observation

模仿学习

模仿学习强化学习Diffusion Policy机器人学习

这篇工作针对仅有状态演示的观测模仿学习中,传统对抗式方法训练脆弱、对超参数敏感的问题,提出 DIFO:不去显式恢复动作,而是用条件扩散模型建模给定当前状态的下一状态分布,并把去噪目标改写成区分专家/智能体状态转移的二分类器,以输出“真实度”奖励来训练策略。实验表明,它在导航、运动控制、操作和游戏等连续控制任务上普遍优于 BCO、GAIfO、AIRLfO 等基线,且数据效率更高。

AMF: Active Fine-Tuning of Generalist Policies figure
ICML 20252024-10-07

AMF: Active Fine-Tuning of Generalist Policies

数据采集

数据采集数据筛选基础模型

这篇工作针对预训练通用机器人策略落地后常见的问题:面对一组新任务且演示预算有限时,系统该优先向人请求哪些任务的示范。作者提出主动微调方法 AMF,用“某任务演示对专家策略的信息增益”来决定下一次采集对象,而不是均匀收集或手工分配,并在正则条件下证明其可收敛到专家策略;同时还给出缓解灾难性遗忘的实用训练做法。实验显示,在高维神经策略场景下,AMF能以更少演示换来更好的多任务表现,但具体提升幅度在给定片段中未充分说明。

DABI: Evaluation of Data Augmentation Methods Using Downsampling in Bilateral Control-Based Imitation Learning with Images figure
ICRA 20252024-10-06

DABI: Evaluation of Data Augmentation Methods Using Downsampling in Bilateral Control-Based Imitation Learning with Images

模仿学习

模仿学习数据采集数据增强

论文针对双边控制模仿学习中专家示范采集昂贵、且机器人与相机频率不一致必须降采样的问题,提出 DABI:将1000Hz关节角/速度/力矩与100Hz夹爪和环境图像对齐,在每个图像间隔内均匀重组机器人序列,把仅5条示范扩成约10倍数据训练Bi-ACT。核心洞察是,降采样后的配对与增强策略本身会显著影响任务成功率。实机“物体放入抽屉”实验中,DABI优于原始数据和另外两种增强法,但具体增益来源文中未充分说明,可能主要来自数据规模 scaling。

HMT-Grasp: A Hybrid Mamba-Transformer Approach for Robot Grasping in Cluttered Environments figure
arXiv2024-10-04

HMT-Grasp: A Hybrid Mamba-Transformer Approach for Robot Grasping in Cluttered Environments

抓取

抓取Transformer PolicyMamba Policy操作数据集/Benchmark

面向遮挡、堆叠和杂乱场景下抓取检测中“CNN偏局部、ViT偏全局”各有短板的问题,HMT-Grasp采用并行CNN+Transformer提取细节与上下文,再用Mamba/SSM进一步融合,并由解码器预测抓取质量、角度和宽度等矩形抓取表示。论文称其在Cornell、Jacquard、OCID-Grasp以及仿真和实机实验中均优于现有方法,但给定材料未展示具体提升幅度,判断基于公开摘要。

GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs figure
CoRL 20242024-10-04

GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

基础操作

基础操作数据生成语言条件操作数据集/Benchmark

这项工作针对机器人仿真任务设计与示教数据采集高度依赖人工、且单任务 sim-to-real 难以扩展的问题,提出 GenSim2:用多模态与推理 LLM 自动生成带铰接物体的长时程操作任务,并结合可在同类物体间泛化的规划/RL 求解器和语言条件点云策略 PPT 批量生成并利用数据。文中结果显示,其可扩展到约100个任务、200个物体实例,任务生成成功率较先前方法提升25%,多任务策略可联合完成24项任务且未见实例仅降3%,在8个真实任务中零样本迁移或与少量真机数据共训可再提升约20%。

Autoregressive Action Sequence Learning for Robotic Manipulation figure
RA-L 20252024-10-04

Autoregressive Action Sequence Learning for Robotic Manipulation

Transformer Policy

Transformer Policy机器人学习操作

论文针对“同一策略难同时适配不同机器人、动作表示与控制频率”的问题,指出把机器人动作像语言一样逐 token 生成并不适合含连续值、且要求时序平滑的操作控制。作者提出可变分块预测的 CCT,并据此构建 ARP,用混合动作序列把高层稀疏路标与低层关节/位姿动作统一到单一自回归框架中。消融显示增益关键来自分块自回归;在 Push-T、ALOHA、RLBench 上其表现达到或超过 DP、ACT、RVT-2,同时计算量和参数更小,并完成真实机器人拧螺母验证。

QDGset: A Large Scale Grasping Dataset Generated with Quality-Diversity figure
ICRA 20252024-10-03

QDGset: A Large Scale Grasping Dataset Generated with Quality-Diversity

抓取

抓取基础模型数据集/Benchmark

为缓解抓取基础模型对大规模高质量6DoF数据的依赖,而现有合成抓取集又常靠低效先验采样,本文把QDG-6DoF扩展为“网格形变+抓取库迁移”的数据增强流程,用旧物体上的抓取解为新物体搜索热启动。结果显示,在相似增强物体上,单位稳健抓取所需评估次数最多下降约20%,并生成含约6200万抓取、4万物体的QDGset,规模约为前作的3.5倍抓取和4.5倍物体;但这种增益主要体现在搜索早期,长期收益有限。

Cross-Embodiment Dexterous Grasping with Reinforcement Learning figure
ICLR 20252024-10-03

Cross-Embodiment Dexterous Grasping with Reinforcement Learning

抓取

抓取灵巧操作强化学习触觉跨本体操作

论文针对现有灵巧抓取策略强依赖单一手型、迁移到新本体成本高的问题,提出 CrossDex:用人手 eigengrasp 作为统一动作空间,并仅保留指尖与掌心位置作为跨手型共享本体观测,再通过学习式重定向把“人手动作”映射到各机器人关节,从而让同一视觉强化学习策略控制多种灵巧手。实验中,单策略在4种训练手上抓取 YCB 物体成功率约80%,还能零样本迁移到2种未见手型,并显著提升新手型与新物体的微调效率。

Gembench: Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy figure
ICRA 20252024-10-02

Gembench: Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy

基础操作

基础操作3D 表征泛化语言条件操作数据集/Benchmark

这篇工作针对现有语言条件机器人操作缺少系统性“新任务泛化”评测的问题,提出GemBench,在RLBench上构建含7类基础动作、4级泛化难度的基准,覆盖新摆放、新刚体/关节物体和长时程组合任务。方法上先用基于点云的3D-LOTUS做精细动作生成,再用LLM做任务分解、VLM做目标定位形成3D-LOTUS++,核心洞察是将高层规划泛化与低层3D控制精度解耦。结果显示,3D-LOTUS在已见任务和Level 1上高效且表现强,但对新任务不足;3D-LOTUS++在GemBench的Level 2-4上取得SOTA,并展示了真实机器人可用性。

Effective Tuning Strategies for Generalist Robot Manipulation Policies figure
ICRA 20252024-10-02

Effective Tuning Strategies for Generalist Robot Manipulation Policies

模仿学习

模仿学习基础模型机器人学习操作

论文关注通用机器人操作策略在分布外场景中难以靠少量示教快速适配的问题,不提出新模型,而是以Octo-Small为对象系统比较微调中的动作空间、策略头、监督信号、可训练参数和示教数量,并以每个配置约2500次rollout提高结论可靠性。结果表明,在RLBench十个任务的低数据设置下,选对这些基础设计后,微调后的GMP平均成功率明显超过ACT和Diffusion Policy,并给出了少样本微调的实用准则。

D(R, O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping figure
CoRLW 20242024-10-02

D(R, O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

抓取

抓取灵巧操作跨本体人机交互操作

针对灵巧手抓取中“机器人中心”方法泛化差、而“物体中心”方法依赖耗时优化的问题,论文提出交互中心表示D(R,O):直接预测物体点云与目标抓取手型之间的相对距离矩阵,再用多边定位恢复手部位姿与关节,并配合与构型无关的对比预训练对齐不同手型特征,从而实现跨本体抓取。实验在三种灵巧手仿真中平均成功率87.53%、单次推理不足1秒,LeapHand实机平均成功率89%,同时抓取多样性和速度更好。

BYOVLA: Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust figure
ICRA 20252024-10-02

BYOVLA: Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust

VLA

VLA安全感知机器人学习

这篇工作针对VLA在真实操作中会被无关物体和背景颜色轻易误导、但重新收集数据和微调大模型代价很高的问题,提出BYOVLA:在部署时先用分割与VLM找出候选无关区域,再通过逐区域扰动图像来探测策略的视觉敏感性,只对“任务无关但模型敏感”的区域做最小化修补/重绘,因此无需访问权重或再训练。硬件语言操作实验表明,在干扰物和背景变化下,该方法可让VLA基本保持原始性能,并把成功率相对原模型提升约20%到40%,也优于不做敏感性筛选或用GradCAM估计敏感性的基线。

λ-Repformer: Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations figure
CoRL 20242024-10-01

λ-Repformer: Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations

任务规划

任务规划多模态推理操作

论文关注开放词汇操作中的任务成功预测:仅根据指令和操作前后第一视角图像,判断机器人是否真正完成子任务。为弥补MLLM难以抓住物体细节与细微位姿变化的问题,作者提出Contrastive λ-Repformer,将局部视觉细节、语言对齐特征和经语言结构化的特征融合,并显式比较前后图像差异以对齐指令与状态变化。在RT-1衍生数据集和实体机器人上,该方法优于现有方法,最佳模型较代表性MLLM基线准确率提升8.66个百分点。

ManiSkill3: GPU Parallelized Robotics Simulation and Rendering for Generalizable Embodied AI figure
RSS 20252024-10-01

ManiSkill3: GPU Parallelized Robotics Simulation and Rendering for Generalizable Embodied AI

泛化

泛化跨本体操作数据集/Benchmark

该工作针对现有机器人模拟器场景/任务覆盖窄、缺少异构并行与快速视觉渲染,导致视觉操作训练慢、难支撑跨本体泛化的问题,提出 ManiSkill3:将接触丰富物理、GPU 并行仿真与渲染、异构场景批处理、统一任务 API 和少量示范扩数据管线整合到同一平台。实验显示其仿真+渲染最高达 3 万 FPS、显存约降 2–3 倍,并提供 12 类任务、20+ 机器人与百万级示范;但与 Isaac Lab 的速度对比并非完全同口径,部分增益来源可能也受渲染实现差异影响。

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation figure
ICLR 20252024-10-01

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation

任务规划

任务规划多模态推理语言条件感知操作

这篇工作针对机器人操作里“会做但不会发现自己做错”的瓶颈,提出AHA:把失败检测从二分类改成自由形式语言推理,让模型不仅判断成败,还说明错在抓取姿态、物体状态或子任务条件。其关键支撑是FailGen,可在仿真中扰动成功示范,自动生成79个任务、4.9万余条失败样本。结果上,AHA仅用该数据微调就能泛化到真实数据、不同机器人和未见任务,综合指标超过GPT-4o 10.3%,接入强化学习、任务运动规划和零样本轨迹生成后,任务成功率平均再提升21.4%。

Towards Effective Utilization of Mixed-Quality Demonstrations in Robotic Manipulation via Segment-Level Selection and Optimization figure
ICRA 20252024-09-30

Towards Effective Utilization of Mixed-Quality Demonstrations in Robotic Manipulation via Segment-Level Selection and Optimization

模仿学习

模仿学习数据采集数据增强数据筛选操作

论文关注机器人操作示教数据质量参差、纯专家数据又昂贵的问题。其关键洞察是,不必按整条轨迹丢弃“差示教”,而应在语义一致的片段级做筛选与修复。为此提出可插拔的S2I:先分段,再用少量专家示教和对比学习挑出高质量片段,并对次优片段做轨迹优化与动作重标注。仿真和真实世界6个任务表明,仅需3条专家参考轨迹就能稳定提升多种下游模仿学习策略;但文中也指出对复杂旋转轨迹仍较吃力。

Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant figure
ICRA 20252024-09-30

Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant

移动操作

移动操作任务规划人机交互操作应用

这篇工作面向“远程呼叫家务机器人”的需求,试图降低纯遥操作负担并缓解语言指令歧义。其核心是把 Zoom 通信、手势指点、LLM 高层任务规划与 VLM 支持的开放词汇移动操作原语结合起来,使机器人能在真实家庭中零样本对齐“说什么+指哪里”并执行多步任务。实验表明系统在问答和物体整理等任务上取得较高成功率,用户研究也显示语音+手势比单模态更高效、更易用、信任感更强;但各模块增益拆解文中未充分说明。

HPT: Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers figure
NeurIPS 20242024-09-30

HPT: Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

Transformer Policy

Transformer Policy泛化跨本体感知

论文针对机器人跨任务、跨本体数据高度异构、难以共享训练且易过拟合的问题,提出 HPT:用本体专属 stem 将视觉与本体感觉压成统一 token,再交给共享 Transformer trunk 预训练,并配任务 head 输出动作。其关键洞察是先对齐不同机器人的输入形态,再学习可迁移的共享策略表征。实验覆盖 52 个数据集、最高 10 亿参数,迁移到多个仿真与真实未见任务时,微调性能较基线提升超过 20%,且收益随数据、模型和算力扩展继续增长。

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation figure
ICLR 20252024-09-30

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

3D 表征

3D 表征Diffusion Policy机器人学习操作

这篇工作针对两类方法的核心矛盾:模仿学习在已见任务上精确但泛化差,基础模型能理解新指令却缺少面向具体3D操作的可执行控制。GravMAD的关键做法是把语言任务拆成子目标:训练时从示教中挖掘关键位姿,推理时借助预训练基础模型定位子目标,再生成带抓手开合信息的GravMap作为空间引导,配合动作扩散策略完成控制。在RLBench上,其已见/新任务分别较SOTA提升13.36%和28.63%,真实机器人实验也显示出一定跨任务泛化能力。

Continuously Improving Mobile Manipulation with Autonomous Real-World RL figure
CoRL 20242024-09-30

Continuously Improving Mobile Manipulation with Autonomous Real-World RL

四足操作

移动操作四足操作操作

这篇工作针对移动操作中的真实世界强化学习难以自主采到有效交互、易在目标附近停滞、奖励又常依赖额外传感器或人工监督的问题,提出一套面向四足 Spot 的持续自学习框架:用视觉模型驱动找物/接近/抓取并结合多目标、多机器人 goal-cycle 维持状态多样性,把简化规划器或程序化动作作为行为先验与 RL 结合,并用开词汇检测分割加深度信息定义通用奖励。系统在移椅子、扶正簸箕、扫纸袋等 4 个任务上平均成功率约 80%,相对仅用 RL 或仅用先验提升约 3–4 倍。

FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation figure
AAAI 20262024-09-29

FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation

视频规划

视频规划模仿学习数据增强世界模型感知机器人学习操作

这篇工作针对多任务模仿学习中“少量示范下难泛化、执行时易出现偏离轨迹的异常动作,以及仅用语言或目标图像条件各有缺陷”的问题,提出FoAM:把任务指令与目标图像联合建模,并额外加入“foresight”训练信号,让策略不仅模仿动作,还预测动作造成的视觉后果;同时尝试用微调VLM自动生成目标图像,缓解人工提供目标和场景歧义。实验覆盖仿真与真实世界100多个操作任务,成功率相对现有方法最高提升41%。

RAIL: Reachability-Aided Imitation Learning for Safe Policy Execution figure
ICRA 20252024-09-28

RAIL: Reachability-Aided Imitation Learning for Safe Policy Execution

模仿学习

模仿学习安全机器人学习

这篇工作关注模仿学习策略在真实部署中常靠“撞出来”的高分,缺少对碰撞等硬约束的可验证安全。作者提出 RAIL,在 IL 策略外叠加基于可达性分析的安全过滤器,连续时间验证规划扫掠体,并在不安全时切换后备规划器,可兼容 Diffusion Policy 和 ACT。仿真与 Franka 实验表明其将碰撞率降至 0% 且可实时运行,但部分原本最高分策略成功率明显下降;同时一些较弱 seed 反而获得更高的安全成功率,说明硬约束与性能并非必然对立。

Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation figure
ICRA 20252024-09-27

Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation

Latent Learning

Latent Learning机器人学习操作

这篇工作针对多任务机器人操作中动作空间随任务数增加而变得多峰且纠缠、导致直接行为克隆或扩散策略难以统一建模的问题,提出Discrete Policy:先用VQ-VAE将动作序列压到离散潜空间,再在视觉与语言条件下用潜变量扩散预测任务代码并解码回动作。其关键洞察是离散潜变量能把跨任务共享的pick/place/rotate等技能解耦组织。实验覆盖RLBench 23任务、真实单臂12任务和双臂5任务,在真实5任务上平均成功率比Diffusion Policy高26%、比OpenVLA高15%,扩到12任务时对Diffusion Policy的优势增至32.5%。

SCaR: Refining Skill Chaining for Long-Horizon Robotic Manipulation via Dual Regularization figure
NeurIPS 20242024-09-26

SCaR: Refining Skill Chaining for Long-Horizon Robotic Manipulation via Dual Regularization

泛化

泛化操作

这篇论文关注长时程机器人操作中技能链易因单个子技能欠拟合或执行扰动而误差累积、导致后续阶段失配的问题。作者提出 SCaR,在子技能预训练中用结合 RL/IL 的自适应平衡调度强化技能内部动作依赖,在链式微调中用双向对抗对齐相邻技能的终止/起始状态,分别稳住 intra-skill 与 inter-skill 依赖。实验显示其在 8 个 IKEA 组装与厨房整理仿真任务及简单真实抓放上均优于从头训练和既有 skill chaining,较 T-STAR 在家具/厨房任务平均再提升 12%/18%,且对扰动更鲁棒。

Active Vision Might Be All You Need: Exploring Active Vision in Bimanual Robotic Manipulation figure
CoRLW 20242024-09-26

Active Vision Might Be All You Need: Exploring Active Vision in Bimanual Robotic Manipulation

数据采集

数据采集双臂遥操作操作

论文针对模仿学习常用固定相机在双臂精细操作中易遮挡、视野受限且视角与任务不匹配的问题,提出AV-ALOHA:在ALOHA 2上增加一条仅携带双目相机的7自由度主动视觉臂,并用VR遥操作把人的“找视角”策略与操作策略一起示教学习。实机和仿真结果表明,该设计在钥匙插锁等低可见度任务上明显优于固定相机,但具体提升幅度与增益究竟来自主动视角还是更多数据,文中未充分说明。

DAGDiff: Guiding Dual-Arm Grasp Diffusion to Stable and Collision-Free Grasps figure
ICRA 20262024-09-25

DAGDiff: Guiding Dual-Arm Grasp Diffusion to Stable and Collision-Free Grasps

抓取

抓取Diffusion Policy双臂操作

面向显示器、桶等大尺寸物体的双臂抓取,难点在于两臂抓位需同时满足力闭合稳定且避免与物体表面碰撞,而现有方法常把任务拆成两个单臂抓取再靠区域启发式配对。DAGDiff直接在SE(3)×SE(3)中生成抓取对,并用几何、力闭合、碰撞三类分类器梯度在扩散过程中引导采样,避免显式部位检测。实验中其FCE/GSR/GCR达到60.1%/72.5%/15.1%,较基线稳定性和仿真成功率约翻倍、碰撞率减半,并在异构双臂上对未见物体实现零样本抓取搬运。

RTAGrasp: Learning Task-Oriented Grasping from Human Videos via Retrieval, Transfer, and Alignment figure
ICRA 20252024-09-24

RTAGrasp: Learning Task-Oriented Grasping from Human Videos via Retrieval, Transfer, and Alignment

抓取

抓取视频规划模仿学习数据检索操作

这篇工作针对任务导向抓取里“抓哪里、怎么抓”需同时满足的问题,指出现有方法要么依赖昂贵人工标注,要么只能从基础模型得到较粗的抓取区域。RTAGrasp的关键洞察是把人类演示视频当作机器人“抓取记忆”,自动抽取抓取位置与方向约束,再按任务语义和几何相似性检索相近经验,并借助视觉基础模型将约束无训练迁移到新物体,最后与机器人动作对齐执行。论文称其在TaskGrasp上对已见和未见类别均优于或可比基线,并在Kinova Gen3实机上验证了有效性。

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation figure
CoRL 20252024-09-24

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

视频规划

视频规划泛化世界模型感知机器人学习操作

论文针对机器人策略难以泛化到未见物体和新动作、而大规模采集机器人数据又成本过高的问题,提出Gen2Act:直接复用无需微调的预训练视频生成模型,在新场景中根据首帧和语言先零样本生成人类操作视频,再训练一个以该视频为条件的闭环策略执行,并用点轨迹预测辅助提取运动线索。真实机器人实验显示,它在未见物体类别和新运动类型上较最强基线平均绝对成功率提升约30%,还可串联完成做咖啡等长程任务。

ARCH: Hierarchical Hybrid Learning for Long-Horizon Contact-Rich Robotic Assembly figure
CoRL 20252024-09-24

ARCH: Hierarchical Hybrid Learning for Long-Horizon Contact-Rich Robotic Assembly

泛化

泛化接触丰富操作应用

这篇论文针对长时程、接触丰富装配中“端到端模仿学习吃数据但不够精细、纯强化学习精度高却难扩展到长序列”的矛盾,提出分层混合框架ARCH:底层用运动规划与RL构成可参数化原语库处理抓取、插入等高精度接触,高层再用少量示范学习策略选择并实例化原语,从而把长时程决策压缩到更小动作空间。实验覆盖仿真与真实机器人上的4至9件装配任务,且仅用约10条示范、底层训练主要基于单一物体时,仍能泛化到未见物体,并在成功率和数据效率上优于基线,但跨任务仍需重新训练高层策略。

RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning figure
ICRA 20252024-09-23

RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning

模仿学习

模仿学习VLA安全机器人学习

这篇工作针对模仿学习机器人只见成功轨迹、测试时一旦偏离就难以自救的问题,提出“富语言引导的失败恢复”思路:先用随机扰动与LLM把RLBench演示自动扩充为带失败恢复和细粒度文本说明的数据,再用VLM监督器在线分析失误并生成包含错误原因、空间修正和期望结果的指令,驱动语言条件动作策略执行。结果上,RACER在18个RLBench任务上整体优于RVT,并在长时程任务、动态目标变化、零样本未见任务及少样本仿真到现实迁移中表现出更强鲁棒性。

ScaleDP: Scaling Diffusion Policy in Transformer to 1 Billion Parameters for Robotic Manipulation figure
ICRA 20252024-09-22

ScaleDP: Scaling Diffusion Policy in Transformer to 1 Billion Parameters for Robotic Manipulation

Diffusion Policy

Diffusion PolicyTransformer Policy机器人学习操作

本文关注扩散式机器人策略“越大越强”失效的问题,发现 Transformer 版 Diffusion Policy 难以扩展,关键症结在观测融合带来的大梯度不稳定,以及因果掩码加剧长轨迹预测误差。为此,ScaleDP用分解式仿射观测嵌入替代原融合方式,并采用非因果注意力让策略在训练中利用未来动作信息,从而把模型稳定扩到10M到10亿参数。在50个 MetaWorld 任务上,其最大模型较 DP-T 平均提升21.6%;在7个真实机器人任务上,单臂与双臂分别提升36.25%和75%。

ScissorBot: Learning Generalizable Scissor Skill for Paper Cutting via Simulation, Imitation, and Sim2Real figure
CoRL 20242024-09-21

ScissorBot: Learning Generalizable Scissor Skill for Paper Cutting via Simulation, Imitation, and Sim2Real

模仿学习

模仿学习泛化Sim2Real

机器人剪纸难在于纸张会持续形变、断裂后拓扑变化且常被剪刀遮挡,既难精确建模,也难安全收集真机示教。ScissorBot的关键做法是先构建支持剪刀接触—断裂耦合的PaperCutting-Sim生成示教,再把策略约束为“转向-闭合-张开-推进”的原语序列,并结合多帧点云、偏差纠正增强和视觉伪影拟合来缩小sim2real鸿沟。结果显示,仅用仿真Easy数据训练,真机在Middle/Hard上仍达到约2mm Chamfer和89 mIoU,较基线至少提升5倍,接近单手人类水平。

VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation figure
PACMSE 20252024-09-19

VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation

VLA

VLA机器人学习操作

论文指出,现有VLA模型多靠少量手工场景评测,难以暴露机器人操作中的泛化与鲁棒性问题。为此作者提出VLATest,在ManiSkill2中用10类算子进行场景模糊生成,并系统测试7个VLA模型。结果显示,这些模型在4类操作任务上的总体成功率仍偏低,且会被干扰物、光照、相机位姿、未见物体和指令改写显著削弱;更大规模预训练通常更稳,但距离可靠落地仍有明显差距。

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation figure
RA-L 20252024-09-19

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

VLA

数据需求量大VLA机器人学习操作

这篇工作针对现有VLA在机器人操作中“又大又慢、还依赖海量机器人预训练”的痛点,指出瓶颈主要来自超大视觉语言骨干和自回归动作 token 生成。作者提出 TinyVLA:用小型预训练多模态模型作策略骨干,并在微调时接入扩散式动作解码器,直接输出精细控制,从而不再依赖 OpenX 式机器人预训练。结果上,TinyVLA 在仿真和真实机器人上都比 OpenVLA 更快、更省数据且性能相当或更优;其中 TinyVLA-H 实机五任务平均成功率更高,延迟约降低 20 倍,双臂与多种泛化测试也更强。

Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR figure
IROS 20252024-09-18

Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR

触觉

触觉Transformer Policy遥操作机器人学习操作

论文针对模仿学习中高质量示教难获取、机器人难以学会柔顺接触的问题,提出沉浸式VR遥操作采集平台和Haptic-ACT,在ACT中联合双相机视觉、关节状态与指尖力信息,并用SenseGlove把机器人接触力回传给人。50条抓放示教显示,触觉反馈能显著降低示教者指尖用力;在MuJoCo和真实机器人上,Haptic-ACT也比原始ACT学到更柔顺的操作。至于性能提升究竟更多来自触觉建模还是更高质量示教数据,文中未充分说明。

SDP: Spiking Diffusion Policy for Robotic Manipulation with Learnable Channel-Wise Membrane Thresholds figure
PRCV 20252024-09-17

SDP: Spiking Diffusion Policy for Robotic Manipulation with Learnable Channel-Wise Membrane Thresholds

Diffusion Policy

Diffusion Policy机器人学习操作

这项工作针对扩散策略在机械臂部署中算力和能耗偏高的问题,把机器人操作的 Diffusion Policy 改造成脉冲神经网络版 SDP。关键做法是以 Spiking U-Net 为骨干,加入时序编码/解码把静态动作噪声转成脉冲序列,并用通道级可学习膜电位阈值 LCMT 适配不同通道的放电差异、减少手工调参;残差连接则尽量避免破坏脉冲状态。在 7 个操作任务上,TS=4 的 SDP 表现接近 ANN 扩散策略,较 SNN 基线收敛更快,且在 45nm 硬件估算下动态能耗下降 94.3%。

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models figure
ICRA 20252024-09-16

UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

任务规划

任务规划多模态推理Affordance

这篇工作针对现有方法把工具使用与关节物体操作割裂建模、难以理解3D运动约束与交互区域的问题,提出UniAff:把操作统一成对象中心的affordance表示,并用MLLM以VQA形式同时推理部件框、6D位姿、关节轴、抓取/功能区域和操作类型;同时构建含1500个对象的大规模标注数据集。实验中,它在HANDAL上比LISA高11.5%,与ManipVQA仅差2.2% IoU,并将关节物体操作在未见实例/类别上的成功率分别提升7.07%和9.60%;但统一建模与数据扩张各自贡献多大,文中未充分说明。

CLOVER: Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation figure
NeurIPS 20242024-09-13

CLOVER: Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation

视频规划

视频规划世界模型感知机器人学习操作

这篇工作针对长时程机器人操作中开环视频规划缺乏执行期反馈、误差累积导致鲁棒性差的问题,提出CLOVER,把经典闭环控制思想引入视觉运动控制:先用文本条件视频扩散生成参考子目标,并结合深度预测与光流约束提升计划可信度;再学习一个可度量的状态嵌入空间,显式量化当前观测与计划目标的偏差,由反馈驱动控制器迭代修正动作、必要时重规划。实验表明其在CALVIN上较先前开环方法提升8%,真实长程任务完成长度相对RT-1接近翻倍。

InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation figure
CoRL 20242024-09-12

InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation

Transformer Policy

Transformer Policy双臂机器人学习操作

针对双臂操作中两臂协同难、而ACT类策略又未显式建模跨臂依赖的问题,InterACT将每只手臂的关节状态与视觉输入划分为“段”,先做段内注意力,再用跨段注意力建模双臂与感知之间的耦合,并在双臂解码器中加入同步块,使两臂并行预测动作时共享上下文。论文称其在多种仿真与真实双臂任务上优于ACT及现有方法,消融也支持CLS token、跨段编码和同步机制的作用,但给定材料未充分说明具体提升幅度。

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers figure
CoRL 20242024-09-12

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

VLA

VLATransformer Policy机器人学习操作

针对大规模VLA依赖十亿级VLM、推理延迟高而难以胜任动态操作的问题,HiRT的核心洞察是高层语义与任务理解无需和低层控制同频更新:它用低频VLM提取缓慢变化的多模态潜变量,再由受其条件化的轻量视觉策略高频输出动作,形成分层异步控制并在速度与性能间灵活折中。实验显示,HiRT在静态任务中将控制频率提升约2倍且成功率基本持平,在真实动态操作中把成功率从48%提升到75%。

PointFlowMatch: Learning Robotic Manipulation Policies from Point Clouds with Conditional Flow Matching figure
CoRL 20242024-09-11

PointFlowMatch: Learning Robotic Manipulation Policies from Point Clouds with Conditional Flow Matching

3D 表征

3D 表征Flow Matching机器人学习操作

本文针对机器人模仿学习中观测模态、训练目标和 6-DoF 位姿表示选择繁杂,且扩散策略依赖显式前向加噪、建模受限的问题,提出 PointFlowMatch:用点云作为观测,以条件流匹配直接学习专家轨迹分布,并比较了在 R^3×SO(3) 上处理旋转的两种做法。文中的关键洞察是 CFM 与点云输入结合最有效;在 RLBench 八项任务上,平均成功率达到 67.8%,约为次优方法的两倍。

RUM: Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments figure
arXiv2024-09-09

RUM: Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

移动操作

移动操作操作数据集/Benchmark

这篇工作针对机器人策略往往要在每个新环境重采数据并微调、难以零样本落地的问题,提出RUM:用廉价Stick-v2快速采集跨环境高多样示范,以多模态模仿学习训练任务专用策略,并用mLLM做成功判别与自动重试。核心洞察是增益可能主要来自data scaling中的数据质量与环境多样性,而非算法更替;作者在5类移动操作任务、25个未见环境上报告平均90%成功率,基础零样本策略为74.4%,重试再提升15.6%。

Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration figure
CoRL 20242024-09-06

Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration

任务规划

多智能体/多机器人任务规划程序化规划人机交互

论文针对现有语言规划机器人依赖静态技能库、遇到新动作就失效的问题,提出 Vocal Sandbox:将LM高层程序规划与低层技能学习解耦,允许用户通过语音、图像点选和牵引示教在交互中在线扩展行为、参数与技能,并用可视化轨迹促进人机共适应。8名非专家、23小时礼袋装配实验表明,相比非自适应基线,系统将主动监督时间降22.1%,学到17个高层行为和平均16个新低层技能,失败更少,且还能支撑两小时连续定格动画协作。

TaMMa: Target-driven Multi-subscene Mobile Manipulation figure
CoRL 20242024-09-06

TaMMa: Target-driven Multi-subscene Mobile Manipulation

移动操作

移动操作3D 表征操作

这篇工作面向服务机器人在多个桌面子场景间来回移动并完成精细操作的难题,核心做法是用少量RGB-D观测初始化带语义的粗3D高斯,先查询目标粗位姿指导移动底盘接近目标,再在对应子场景内结合扩散式深度补全与高斯修补,细化操作起点和终点的6D位姿,以应对观测稀疏和操作引起的场景变化。在真实移动底盘+Franka系统上,作者展示了跨桌面的取放、堆叠、倒水和整理等任务,但给定片段未充分说明统一量化增益。

T2SQNet: A Recognition Model for Manipulating Partially Observed Transparent Tableware Objects figure
CoRL 20242024-09-06

T2SQNet: A Recognition Model for Manipulating Partially Observed Transparent Tableware Objects

抓取

抓取操作

针对透明餐具难以获得可靠深度、且货架或墙边场景常只有局部RGB视角的问题,论文提出T2SQNet:用加入剪切与超抛物面的可变形超二次曲面,把杯、碗、瓶表示成低维、实例级3D模板,并通过SAM分割、DETR3D和体素雕刻得到的visual hull作为中间表征再预测形状参数。实验表明,该方法在透明物体几何识别上优于现有方法,还能泛化到TRansPose未见数据,并支持顺序清障和目标取回等操作任务。

SHOWTELL: Teaching Robots with Show and Tell: Using Foundation Models to Synthesize Robot Policies from Language and Visual Demonstrations figure
CoRL 20242024-09-06

SHOWTELL: Teaching Robots with Show and Tell: Using Foundation Models to Synthesize Robot Policies from Language and Visual Demonstrations

任务规划

任务规划模仿学习基础模型感知

面向传统示教常需多次演示、且难以抽取循环与条件等高层逻辑的问题,SHOWTELL将口头描述与视觉演示结合,利用LLM、VLM和手工模块生成可解释的神经符号操作程序,不经额外训练即可由单次示教合成能在新场景执行的策略,并显式处理分段、迭代和条件。文中在5类真实环境、16个真实操作任务上验证,整体优于GPT-4V基线,并能泛化到未见环境和同类新物体,但性能仍受预训练模型能力与演示质量限制。

EquiGraspFlow: SE(3)-Equivariant 6-DoF Grasp Pose Generative Flows figure
CoRL 20242024-09-06

EquiGraspFlow: SE(3)-Equivariant 6-DoF Grasp Pose Generative Flows

抓取

抓取感知操作

这篇工作针对现有6-DoF抓取生成模型在物体旋转、平移后输出不一致、需靠数据增强弥补的问题,提出基于SE(3)流模型的EquiGraspFlow,在SE(3)流形上学习条件抓取位姿分布,并通过等变网络结构而非增强来保证SE(3)等变性。其关键设计是为含时间标量的速度场加入新的等变lifting层,使Vector Neurons也能构造时间相关的等变场。仿真与真实实验表明,该方法比VAE和扩散基线生成更准确、更多样,且在不同物体朝向下性能更稳定。

View-Invariant Policy Learning via Zero-Shot Novel View Synthesis figure
CoRL 20242024-09-05

View-Invariant Policy Learning via Zero-Shot Novel View Synthesis

数据采集

数据采集数据增强机器人学习

这篇工作聚焦一个实际瓶颈:机器人常用单视角演示训练,但部署时相机位置一变,RGB策略就容易失效。作者提出 VISTA,在训练阶段用零样本单图新视角合成模型把原始观测替换为随机相机位姿下的图像、动作标签保持不变,从而无需深度、外参或额外多视角采集,就把大规模视觉数据学到的3D先验用于策略学习。实验表明,在仿真与真实操作的分布外视角测试中,VISTA整体优于常规基线,且用机器人域数据微调视角合成模型还能进一步提升鲁棒性。

RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning figure
CoRL 20242024-09-05

RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning

数据采集

数据采集数据增强跨本体机器人学习

该文针对跨本体机器人学习中的数据分布失衡:现有多机器人数据常偏向少数机械臂和固定视角,策略容易把机器人外观与相机位姿当成捷径,导致迁移失效。RoVi-Aug将适配前移到训练阶段,用图像到图像扩散模型把同一示范合成为不同机器人和不同视角,显式补全“技能×本体×视角”的组合。实物实验显示,该方法可在未知机器人和显著变化视角下零样本部署,并支持后续微调;联合原始与增强数据还能学习多机器人多任务策略,成功率最高提升约30%。

IGD: Implicit Grasp Diffusion: Bridging the Gap between Dense Prediction and Sampling-based Grasping figure
CoRL 20242024-09-05

IGD: Implicit Grasp Diffusion: Bridging the Gap between Dense Prediction and Sampling-based Grasping

抓取

抓取3D 表征Diffusion Policy操作

这篇论文要解决抓取规划中“密集预测”和“采样生成”各有短板的问题:前者覆盖全场景但每个体素只能给少量候选,难表征同一点的多种抓取;后者能建模多模态分布,却依赖全局潜变量,在多物体杂乱场景里容易丢失局部几何。IGD的核心做法是用隐式3D表征连续查询抓取点附近特征,再用扩散模型按位置生成多种抓取朝向,并结合隐式空间的可变形注意力与两阶段概率抓取评估器过滤无效候选。仿真和真实杂乱清理实验表明,它优于多种密集预测与采样基线,表现出更高抓取精度、更强抗噪性和更好的多模态抓取能力。

Mamba as a Motion Encoder for Robotic Imitation Learning figure
IEEE Access 20252024-09-04

Mamba as a Motion Encoder for Robotic Imitation Learning

模仿学习

模仿学习Mamba Policy机器人学习操作

这篇论文的动机是解决机器人模仿学习在小样本、长时序和实时控制下,Transformer虽能记忆上下文却偏重、难把历史信息高效压缩的问题。作者将Mamba改造成低维运动编码器,用线性层替代tokenizer,把长序列压缩进状态变量,再结合近期输入预测动作,近似自编码器。杯子放置和装箱实验中,Mamba虽估计误差高于Transformer,但任务成功率更高,说明连续状态空间建模可能比逐点误差更贴近执行成败;不过这种增益来源文中未充分说明。

ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation figure
CoRL 20242024-09-03

ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

任务规划

任务规划几何约束规划感知操作

论文旨在解决操作约束难以兼顾通用性、免标注与实时求解的问题。其核心是把任务写成跨阶段的“关系关键点约束”:用场景语义3D关键点之间的 Python 代价函数表达抓取、对齐、倾倒等时空关系,再由视觉/视觉语言模型从语言与RGB-D自动生成约束,并用分层优化以约10Hz闭环求解动作。实机在单臂与双臂7个任务上,自动生成版成功率44.3%,显著高于VoxPoser的10.0%,但仍落后于人工标注版68.6%,说明自动约束生成已可用但仍是主要瓶颈。

GraspSplats: Efficient Manipulation with 3D Feature Splatting figure
CoRL 20242024-09-03

GraspSplats: Efficient Manipulation with 3D Feature Splatting

抓取

抓取3D 表征操作

这篇工作针对零样本按部件抓取中“2D语义难稳定落到3D、且NeRF遇到场景变化需重训”的问题,提出以3D Gaussian Splatting构建可编辑的 GraspSplats:用深度监督和参考特征优化出显式几何与语义表示,并直接在高斯上做毫秒级抓取采样,再结合点跟踪支持刚体与关节物体更新。Franka 实验显示其建模仅需几十秒、整体约快10倍,在静态和动态任务上均明显优于 F3RM、LERF-TOGO 和2D检测方法。

Affordance-based Robot Manipulation with Flow Matching figure
arXiv2024-09-02

Affordance-based Robot Manipulation with Flow Matching

Affordance

AffordanceFlow Matching机器人学习操作

这篇工作面向助残与日常生活机器人操作中的两大瓶颈:多任务人机场景数据昂贵,以及视觉可供性难稳定落实到低层动作控制。作者先用参数高效的prompt tuning,在冻结视觉基础模型上结合语言指令预测包含空间/语义关系的2D可供性热图,再用flow matching将随机路点映射为6D操作轨迹,把可供性显式作为动作生成条件。其10项ADL真实数据集和多基准实验表明,该方法在小参数设定下的可供性学习可比甚至优于部分微调方案,策略训练较扩散策略更稳、推理更快,单步约13ms,精度总体持平或略优。

LACO: Language-Conditioned Path Planning figure
CoRL 20232024-08-31

LACO: Language-Conditioned Path Planning

任务规划

任务规划几何约束规划语言条件

这篇工作针对传统路径规划把“任何接触都视为失败”、因而难以处理拥挤操作场景的问题,提出语言条件路径规划:用单视角RGB图像、语言提示和机器人关节配置学习一个语言条件碰撞函数LACO,判断“哪些物体可以碰、哪些不能碰”,从而把语义约束直接注入几何规划,无需物体标注、点云或精确网格。在仿真和真实机器人上,LACO配合规划器能在通路被阻挡时按提示选择性接触如玩具或零食盒并成功到达目标,而传统无碰撞规划常找不到可行路径;但文中也指出其尚未显式处理被碰后环境动力学。

PALO: Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation figure
CoRL 20242024-08-29

PALO: Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation

数据需求量大

数据需求量大模仿学习泛化

这篇工作针对通用语言条件机器人策略在新任务上少样本适应差、直接微调又易过拟合的问题,提出 PALO:冻结预训练策略,不在参数空间更新,而让 VLM 生成高层指令的子任务分解,再用少量演示联合做轨迹切分,选出使行为克隆验证误差最低的语言计划。核心洞察是,少样本适应时“优化语言分解”比“优化策略参数”更稳健。实机长时序、多阶段未见桌面操作中,PALO 用约 5 个演示即可优于通用策略和同数据量微调基线。

FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning figure
CoRL 20242024-08-29

FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning

数据需求量大

数据需求量大模仿学习数据采集数据检索

针对少样本模仿学习中目标演示太少、现有检索又过度依赖视觉相似或语言语义的问题,FlowRetrieval提出以光流表征跨任务的低层运动相似性:先用VAE学习光流潜空间检索历史数据,再在策略训练中加入光流预测辅助损失,强化对动作效果与物体交互的建模。该方法在仿真和真实机器人上均优于现有检索法,平均成功率比最佳检索基线高27%,在真实Franka的Pen-in-Cup任务上较直接混合全部数据训练提升3.7倍。

ICRT: In-Context Imitation Learning via Next-Token Prediction figure
ICRA 20252024-08-28

ICRT: In-Context Imitation Learning via Next-Token Prediction

模仿学习

模仿学习Latent Learning机器人学习

这项工作针对现有机器人基础模型遇到新任务仍常需再训练的问题,提出 ICRT:把人类遥操作得到的图像—状态—动作轨迹直接当作长上下文提示,用统一的因果 Transformer 做传感运动序列的 next-token 预测,从而无需语言、奖励或额外上下文编码器即可在测试时即时模仿。文中还强调,若数据集允许“同一初始观测对应多个任务”,更能逼迫模型依赖提示理解任务。在 Franka 实机两类原语、12 个未见任务上,ICRT 平均成功率 79.2%,显著高于 goal-conditioned、Octo 和 OpenVLA 的 20.0%、9.2% 和 7.5%。

Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning figure
CoRL 20242024-08-26

Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

模仿学习

模仿学习数据采集数据筛选基础模型

这篇论文关注机器人基础模型训练中数据混配长期依赖人工经验的问题:异构数据集在动作空间、观测和动力学上差异很大,直接均匀混训往往不稳。作者提出 Re-Mix,用基于 DRO 的极小极大优化学习各数据域权重,核心洞察是用相对参考模型的超额行为克隆损失衡量每个域的“可提升空间”,并结合动作归一化、离散化和早停来缓解跨域损失不可比与过拟合。实验在 Bridge 和 RT-X 所用 OpenX 子集上显示,其权重相对均匀采样平均提升 38%,相对人工配比提升 32%,且只用 25% 数据仍能保持较强性能。

GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy figure
RA-L 20252024-08-26

GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy

视频规划

视频规划世界模型感知机器人学习

这篇工作针对机器人操作中“动作+语言”全标注轨迹昂贵、而无动作的人类视频和无文本的机器人轨迹更易获取的问题,提出GR-MG:先用带任务进度条件的扩散式目标图像生成器,从文本和当前观测预测目标状态,再让策略同时条件于文本与目标图像执行动作,从而统一利用两类部分标注数据,并在生成目标不准时保留语言兜底。结果上,CALVIN五步连续任务平均完成数由3.35升至4.04;真实机器人58项任务中,简单/泛化设置成功率由68.7%/44.4%提升到78.1%/60.6%。

CrossFormer: Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation figure
CoRL 20242024-08-21

CrossFormer: Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

泛化

泛化跨本体操作

这篇工作针对机器人数据按本体割裂、单个平台样本少而难泛化的问题,提出 CrossFormer:把任意相机/本体感觉观测和不同维度动作统一序列化,用 readout token 加动作头在不手工对齐观测或动作空间的前提下共享同一策略。模型在90万轨迹、20种本体上联合训练,可控制单/双臂、移动底盘、四足和无人机;真实实验中基本追平各本体专用策略并显著超过已有跨本体方法,但作者也承认显著正迁移尚不明显,增益可能主要来自 scaling / data。

A Survey of Embodied Learning for Object-Centric Robotic Manipulation figure
MIR 20252024-08-21

A Survey of Embodied Learning for Object-Centric Robotic Manipulation

对象中心

对象中心操作综述

该综述的动机是对象中心机器人操作近年被LLM、NeRF、扩散模型等迅速推动,但领域缺少覆盖感知、决策与任务执行的统一框架。文中核心洞察是把具身学习系统化为具身感知、具身策略和具身任务导向三条主线,并细分到表示、位姿、可供性、策略表示/学习、抓取与灵巧操作等七个方向,串联数据集、评测和应用。主要结果是补齐了2021年后工作的全景式梳理并给出公开项目页;作为综述并无单一性能增益,且统一量化比较文中未充分说明。

RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands figure
CoRL 20242024-08-20

RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands

灵巧操作

灵巧操作基础模型数据集/Benchmark应用

这篇工作针对双手灵巧机器人弹钢琴中“单曲RL有效、跨曲泛化差且指法标注昂贵”的瓶颈,构建了RP1M大规模数据集:基于约2k首曲目的RL专家策略收集逾100万条轨迹,并把指法分配表述为最优传输问题,从而自动为海量无标注MIDI生成适合机器人形态的指法。实验表明,自动指法训练效果可匹配人工指法;在多曲模仿学习基准上,Diffusion Policy随训练曲目增多取得更好的OOD表现,但与单曲RL专家仍有明显差距,泛化提升可能主要来自scaling/data。

ARIO: All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents figure
arXiv2024-08-20

ARIO: All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents

感知

感知数据集/Benchmark

面向通用具身智能训练中数据格式不统一、模态单一且真实/仿真割裂的问题,本文提出 ARIO 标准,用时间戳对齐不同机器人与传感器频率,并以统一层级结构兼容多形态机器人、五种模态和多种控制对象;在此基础上整理出约300万条轨迹,覆盖258个series、321,064个任务、35类agent与345种技能。论文的主要贡献是“数据标准+统一数据集”,而非新模型;其对下游泛化提升文中未充分说明,判断基于公开摘要/项目页。

Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models figure
IROS 20242024-08-15

Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models

任务规划

任务规划语言条件感知操作

该文针对LLM虽能理解自然语言、却缺乏视觉落地能力而难以完成开放式桌面操作的问题,提出Polaris:用GPT-4解析持续交互中的任务意图,并结合基于纯合成渲染数据训练的Syn2Real类别级6D位姿估计,为抓取与任务规划提供目标定位。实验表明,合成训练的位姿模型可迁移到真实场景,系统能在真实机器人上完成抓取和多种桌面操作,但摘要未充分说明相对基线的具体增益幅度。

A Comparison of Imitation Learning Algorithms for Bimanual Manipulation figure
RA-L 20242024-08-13

A Comparison of Imitation Learning Algorithms for Bimanual Manipulation

模仿学习

模仿学习双臂机器人学习操作非学习控制

论文关注一个很实际的问题:在工业式高精度双臂接触操作中,常见模仿学习方法到底谁更稳、更省数据、对超参更不敏感。作者在1mm容差的双臂四孔四销装配MuJoCo基准上,统一比较BC、DAgger、GAIL、IBC、ACT和Diffusion,并系统考察噪声、样本量与训练需求。核心洞察是,这类过约束接触任务的成败不只取决于拟合示教精度,更取决于对扰动和超参的鲁棒性;从文中结果看,IL总体可行,但BC/IBC在噪声下明显退化,GAIL、ACT与Diffusion更稳定,DAgger居中。

Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction figure
CoRL 20242024-08-12

Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction

任务规划

多智能体/多机器人任务规划人机交互安全

论文针对机器人难以在少反馈下快速适应不同用户偏好、且现有方法常需手工权衡“任务成功”和“用户满意”的问题,提出 Text2Interaction:用大模型从一句指令同时生成任务级技能序列、运动偏好 Python 函数和安全控制器参数,并以“可执行性与偏好满足的联合概率”规划,而非奖励加和。真实用户实验中,83% 参与者认为系统能体现其偏好,94% 更偏好该方法;消融结果也表明其对未见偏好更一致,同时保持较高成功率。

TacSL: A Library for Visuotactile Sensor Simulation and Learning figure
T-RO 20252024-08-12

TacSL: A Library for Visuotactile Sensor Simulation and Learning

基础操作

基础操作触觉操作数据集/Benchmark

这篇工作针对触觉操作中“难以高效生成逼真触觉信号,因而难以大规模训练策略”的瓶颈,提出集成在Isaac Sim中的GPU视觉触觉库TacSL,可并行模拟触觉RGB、法向/切向力场,并配套传感器模型、装配环境与蒸馏/AACD学习工具。其关键洞察是把软接触近似、触觉渲染和策略学习放到统一高速闭环里。实验表明其触觉图像与力分布生成速度较已有方法快200×以上,并能在接触密集操作中实现有效学习与零样本仿真到真实迁移。

PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning figure
arXiv2024-08-07

PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning

任务规划

任务规划模仿学习强化学习RL+IL触觉基础模型机器人学习

这篇论文针对真实机器人中纯RL探索难、样本效率低且IL易产生分布偏移的问题,提出PLANRL:远离物体时用经典运动规划到航点,接触前切换到由模仿学习启动、再用RL细化的精细操控,并通过ModeNet、NavNet和InteractNet统一完成模式切换、航点预测与交互控制。实验显示,在30k样本下其仿真训练成功率比基线高10–15%,评测高30–40%;真实任务中简单场景成功率也高30–40%,且能完成基线几乎无法胜任的双阶段操作任务。

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks figure
ICLRW 20262024-08-07

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

Affordance

Affordance数据集/Benchmark

这篇工作针对现有具身评测过度依赖预设工具和显式协作指令、难以检验模型是否真正理解物理约束的问题,提出OmniEAR:以文本化环境表示连续属性、空间关系与能力变化,构建覆盖家庭和工业场景的1500个任务,要求智能体自行判断何时取工具、何时协作。实验表明,模型在显式指令下成功率可达85–96%,但需从约束中推理时,工具使用降至56–85%,隐式协作降至63–85%,复合任务失败率超50%;且微调虽显著提升单智能体,几乎不改善多智能体。

KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance figure
CoRL 20242024-08-06

KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance

模仿学习

模仿学习机器人学习

这篇论文关注在线模仿学习中“探索空间大、专家轨迹少”导致奖励估计不准、探索效率低的问题。KOI的关键想法是把任务拆成“做什么”和“怎么做”:先用视觉语言模型从专家演示抽取语义关键状态,再在其间用光流捕捉运动关键状态,并据此重加权最优传输的轨迹匹配奖励。作者在6个Meta-World任务、3个LIBERO长程任务和真实机器人实验中报告了更高成功率、更低训练方差与更好的样本效率。

TBBF: A Backbone for Long-Horizon Robot Task Understanding figure
RA-L 20252024-08-02

TBBF: A Backbone for Long-Horizon Robot Task Understanding

泛化

泛化

针对端到端机器人在长时序、多物体操作中易失控且泛化差的问题,本文提出基于 therblig 的任务骨架 TBBF,把复杂任务拆成可解释的基本动作单元,并结合 MGSF 做动作分段、ActionREG 将动作与目标物体在图像中对齐,再用 LAP-VC 借助大语言模型做视觉纠错,从单次示教迁移到新场景。实验中 therblig 分段召回率达94.37%,真实机器人在线测试在简单/复杂场景成功率分别为94.4%和80%。

MS-Bot: Play to the Score: Stage-Guided Dynamic Multi-Sensory Fusion for Robotic Manipulation figure
CoRL 20242024-08-02

MS-Bot: Play to the Score: Stage-Guided Dynamic Multi-Sensory Fusion for Robotic Manipulation

音频

音频机器人学习操作

这篇工作关注复杂操作中“该听、该看、该摸”会随子目标阶段变化的问题。作者将这种现象概括为“模态时间性”,并提出 MS-Bot:先结合当前观测与历史动作做粗到细的阶段理解,再把预测阶段注入状态表示,用 cross-attention 动态分配视觉、音频和触觉权重。在真实倒料和带键槽插入任务上,该方法优于静态拼接及常见注意力融合,且权重变化更可解释;但阶段划分仍依赖人工标注。

VITAL: Interactive Few-Shot Imitation Learning via Visual Human-in-the-Loop Corrections figure
arXiv2024-07-30

VITAL: Interactive Few-Shot Imitation Learning via Visual Human-in-the-Loop Corrections

模仿学习

数据需求量大模仿学习感知机器人学习

这篇工作针对模仿学习演示采集昂贵、真机数据难扩展的问题,提出低成本视觉遥操作+数字孪生增广:只需少量真人示范,先在仿真中做轨迹级扩增,再用视觉人类在环纠错和少量真机数据微调。文中称5条示范可扩到8万轨迹;仅用增广仿真训练时,真实机器人在收瓶/堆叠/锤击上的成功率约为80%/60%/50%,加入纠错与真实数据后进一步提升,但精确增益来源文中未充分说明。

SOAR: Autonomous Improvement of Instruction Following Skills via Foundation Models figure
CoRL 20242024-07-30

SOAR: Autonomous Improvement of Instruction Following Skills via Foundation Models

数据采集

数据采集数据生成基础模型

这篇工作针对机器人语言跟随高度依赖昂贵人工示教、难以像互联网数据那样持续扩展的问题,尝试实现“无人参与”的自治改进。SOAR 的核心洞察是把“理解语义”和“执行控制”解耦:用 VLM 在新环境里自动提任务并判定成功,用语言条件图像编辑模型把指令转成子目标图,再让目标条件策略借助 hindsight relabeling 从无标注、非最优自治轨迹中学习。实机在 5 台 WidowX、10 个未见场景上收集 3.05 万条轨迹后,策略相对预训练提升约 2 倍,但增益可能也较大来自数据规模扩张与基础模型筛选。

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning figure
CoLLAs 20242024-07-30

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Diffusion Policy

Diffusion Policy数据采集数据增强

这篇论文针对具身强化学习中数据稀缺、奖励稀疏、旧经验难以迁移的问题,提出 DAAG:由 LLM 自主统筹 VLM 与扩散模型,对历史轨迹视频做具时间与几何一致性的“事后经验增强”,把失败或不匹配任务的观察改写成符合目标指令的新样本,再用于奖励检测器微调、子目标探索和跨任务复用,无需人工标注。作者在模拟操控与导航实验中显示,DAAG能更好识别未见任务奖励,提升经验迁移与探索效率,并减少学习新任务所需的交互回合数。

Theia: Distilling Diverse Vision Foundation Models for Robot Learning figure
CoRL 20242024-07-29

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

Latent Learning

Latent Learning基础模型语言条件机器人学习

机器人策略学习需要同时处理识别、定位、语义对齐等隐式视觉任务,单一现成VFM往往难以兼顾。Theia用知识蒸馏把CLIP、DINOv2、ViT等多种教师的空间特征压缩进更小学生模型,面向机器人保留细粒度空间表示,并提出特征范数分布熵越高,表示越利于下游控制的经验性判断。在CortexBench仿真和真实机器人实验中,它以仅用ImageNet预训练、约150 GPU小时的成本,超过教师模型及多种机器人表征基线,同时模型更小、训练数据更少、推理更省算力。

PerAct2: Benchmarking and Learning for Robotic Bimanual Manipulation Tasks figure
CoRLW 20242024-07-29

PerAct2: Benchmarking and Learning for Robotic Bimanual Manipulation Tasks

基础操作

基础操作双臂操作数据集/Benchmark

论文针对双臂操作缺少可复现、任务多样的仿真基准这一问题,在 RLBench 上扩展出 13 个任务、23 个变体,并提出语言条件行为克隆模型 PerAct2。其核心洞察是双臂不能靠两个单臂策略简单拼接,而需在单网络中隐式学习时空协同并预测双臂 6DoF 动作。结果上,PerAct2 在 13 个任务中有 9 个最好且训练最快,并做了真实机器人定性验证;但各方法平均成功率仅约 17%,说明基准难度高,增益来源文中未充分拆解。

LLGD: Lightweight Language-driven Grasp Detection using Conditional Consistency Model figure
IROS 20242024-07-25

LLGD: Lightweight Language-driven Grasp Detection using Conditional Consistency Model

抓取

抓取感知操作

这篇工作针对语言驱动抓取中“扩散模型精度高但推理太慢,难以用于实时机器人”的矛盾,提出 LLGD:将图像与文本特征作为条件引入一致性模型,在矩形抓取检测中用极少去噪步数替代传统多步扩散,以兼顾语言语义对齐与推理效率。论文称其在大规模语言抓取数据集和真实机器人实验上,精度与速度均明显优于近期抓取方法及轻量扩散基线,并具备一定零样本泛化;但具体性能增益的模块归因文中未充分说明。

From Imitation to Refinement -- Residual RL for Precise Assembly figure
ICRA 20252024-07-23

From Imitation to Refinement -- Residual RL for Precise Assembly

模仿学习

模仿学习强化学习RL+IL触觉安全机器人学习应用

论文针对精密装配里BC“好教但不稳”的瓶颈:动作分块虽利于长时序学习,却把策略变成近似轨迹规划器,遇到插入等瓶颈状态时因离线分布偏移和开环执行缺少闭环纠偏,数据加到10万条后成功率仍约80%。作者提出ResiP,冻结分块BC作基座,再用仅依赖稀疏完成奖励的RL残差策略在每个控制步修正动作。单腿装配上,50条演示即可做到98%成功率,也高于DAgger约90%,并完成多项装配的仿真到真实迁移验证。

QueST: Self-Supervised Skill Abstractions for Learning Continuous Control figure
NeurIPS 20242024-07-22

QueST: Self-Supervised Skill Abstractions for Learning Continuous Control

VLA

VLALatent Learning机器人学习

论文针对机器人模仿学习跨任务泛化差、仅靠扩大数据仍难迁移低层技能的问题,提出 QueST:将连续动作序列压缩为由多个离散码本 token 组成的可变长“技能”,并通过带因果归纳偏置的编码器—解码器把动作时序结构写入潜变量,再用 GPT 式先验在技能空间决策。实验中,QueST 在 LIBERO-90 多任务上较次优方法提升 8%,在未见任务 5-shot 上提升 14%;但在更简单的 ML45 上优势较小。

Offline Imitation Learning Through Graph Search and Retrieval figure
RSS 20242024-07-22

Offline Imitation Learning Through Graph Search and Retrieval

数据需求量大

数据需求量大模仿学习数据采集数据检索

这篇工作关注机器人精细操作里“示教往往不专家、还夹杂重试和失败片段”的现实瓶颈:直接做行为克隆会学到坏动作,而离线RL在像素输入和长时程任务上又常不稳定。作者提出GSR,用预训练表征把离线交互组织成图,通过图搜索评估状态/行为的可达价值,再用检索为每个状态挑出更优邻域行为并重加权,最后仍用BC学习,从而实现对次优轨迹的“拼接式”利用。仿真和真实多视角操作实验中,其成功率比基线高10%到30%,熟练度提升超30%,且预处理开销仅约10到30分钟。

Maniwhere: Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning figure
CoRL 20242024-07-22

Maniwhere: Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

强化学习

强化学习触觉泛化Sim2Real基础模型感知机器人学习

这篇论文针对视觉操作策略对相机位姿、背景和光照变化过于敏感、仿真到真实迁移常依赖精细标定的问题,提出 Maniwhere:在视觉强化学习中结合多视角表征学习,用对比损失与特征对齐学习跨视角共享语义,并在编码器中加入 STN,再配合课程式域随机化与数据增强以减少训练发散。实验覆盖 8 个操作任务和 3 套真实硬件,结果显示其在多种视觉扰动下的仿真泛化与零样本 sim2real 都显著优于已有方法,但各模块增益是否被充分解耦,文中未充分说明。

Im2Flow2Act: Flow as the Cross-Domain Manipulation Interface figure
CoRL 20242024-07-21

Im2Flow2Act: Flow as the Cross-Domain Manipulation Interface

感知

感知机器人学习操作

这篇工作面向“真实机器人数据昂贵且跨人/机、跨仿真/现实迁移困难”的问题,提出把对象流而非动作或图像当作统一操作接口:先用真实人类演示视频学习语言条件的任务流生成,再用仿真中的机器人探索数据学习闭环的 flow-conditioned policy,将高层目标与低层执行解耦。论文在抓放、倒水、开抽屉、叠布等刚体、关节体和可变形物体任务上实现了无需真实机器人训练数据的真实部署,平均成功率约81%,并报告整体优于基线。

Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning figure
ICRA 20252024-07-18

Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning

视频规划

视频规划模仿学习强化学习安全感知机器人学习

论文关注专家视频与机器人部署环境在光照、背景等视觉上不一致时,现有视频模仿学习容易失效的问题。作者提出 C-LAIfO,用数据增强与对比学习先学习跨域稳健的潜表示,再在该潜空间中进行离策略对抗式模仿与奖励学习。实验表明,它在连续控制和高维机器人操作上普遍优于 LAIfO、PatchAIL 和 DisentanGAIL,并能与稀疏奖励结合;但性能较依赖增强设计,这也是文中明确承认的主要局限。

The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations figure
RA-L 20242024-07-18

The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations

模仿学习

模仿学习泛化操作

这项工作面向“少量演示下学习长时程操作”这一难题,指出传统TP-GMM虽省样本,但难处理末端速度的非欧几里得结构、长轨迹中的技能错位,以及仅凭视觉自动确定任务参数。为此,作者提出TAPAS-GMM:将速度分解为方向与幅值并用黎曼模型建模,再据此切分并对齐技能,并从RGB-D提取候选关键点后按技能选择相关任务参数。实验表明,该方法仅用5次示范就在RLBench及真实机器人上取得SOTA,样本效率提升约20倍,并能泛化到物体位置、实例和环境变化,且技能可复用。

LGrasp6D: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance figure
ECCV 20242024-07-18

LGrasp6D: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance

抓取

抓取感知操作

该文针对现有6-DoF抓取只强调稳定性、难以理解“抓蓝杯而不是黑杯”等人类意图的问题,研究语言驱动的杂乱场景抓取。核心是构建百万级Grasp-Anything-6D数据集,并用扩散模型结合负提示引导,让生成的抓取位姿既靠近目标又避开非目标。实验称其在基准测试和真实机器人上均优于已有方法,验证了自然语言到端到端抓取的可行性;但给定材料未充分说明具体指标及增益究竟来自负提示还是更大数据,可能部分来自scaling/data。

Grasp-Anything-6D: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance figure
ECCV 20242024-07-18

Grasp-Anything-6D: Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance

抓取

抓取感知数据集/Benchmark

这项工作针对现有6-DoF抓取多只关注稳定性、难以在拥挤3D场景中按自然语言区分目标与非目标的问题,提出大规模Grasp-Anything-6D数据集(100万点云场景、超2亿语言关联抓取姿态)以及扩散式LGrasp6D,用负提示引导显式避开干扰物并靠近指定对象。基准测试和真实机器人实验均优于基线,表明语言驱动的端到端6D抓取可行;但性能提升究竟多大程度来自负提示而非数据规模,判断基于公开摘要/引言仍不完全清楚。

Surgical Robot Transformer (SRT): Imitation Learning for Surgical Tasks figure
CoRL 20242024-07-17

Surgical Robot Transformer (SRT): Imitation Learning for Surgical Tasks

模仿学习

模仿学习Transformer Policy应用

这项工作针对达芬奇手术机器人一个关键瓶颈:关节测量误差、回差和机构松弛会让绝对末端位姿不可靠,导致直接用模仿学习预测绝对动作几乎失效。作者据此将 Transformer 策略设计为仅看多视角图像、输出双臂相对位姿轨迹,并验证腕部相机能进一步补强深度与精细操作。实验表明,该方案在提拉组织、持针交接和打结三项基础手术任务上取得高成功率,显著优于绝对动作基线,并对工具重装、关节重配置及未见过的缝合垫和动物组织保持一定泛化。

Flow Matching Imitation Learning for Multi-Support Manipulation figure
Humanoids 20242024-07-17

Flow Matching Imitation Learning for Multi-Support Manipulation

人形操作

人形操作模仿学习Flow Matching操作

这项工作针对人形机器人长期把“脚负责支撑、手负责操作”割裂处理的局限,尝试让上肢在推、滑、借力等任务中同时承担支撑与非抓取接触;难点在于接触位置与切换难规划,摩擦滑动也难精确建模。作者将多接触全身控制器与 Flow Matching 模仿学习结合,从示教中学习多峰整段轨迹和接触切换策略,并扩展到共享自治以自动补充支撑接触。结果上,仿真中其 OOD 接触放置成功率达78%,高于 DDPM/DDIM 的69%/67%和监督学习的52%,且推理快于 DDPM;在 Talos 上完成了全身推箱和借自由手保持平衡的关洗碗机抽屉任务。

ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter figure
CoRL 20242024-07-16

ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter

抓取

抓取语言条件操作

针对重遮挡杂乱场景中目标几乎不可见、传统语言抓取难以直接定位的问题,ThinkGrasp把GPT-4o用于高层策略推理,判断应直接抓目标还是先移走遮挡物,并将这种“想象式”目标/部位选择与LangSAM、VLPart分割及6-DoF抓取解耦成可插拔流程。仿真中其成功率达98.0%,显著高于OVGNet的43.8%和VLG的75.3%;在目标近乎不可见或不可见时仍有78.9%,真实机器人也以较少步骤取得较高成功率,但各模块增益来源文中未充分说明。

VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation figure
RSS 20242024-07-13

VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation

任务规划

任务规划世界模型语言条件机器人学习操作

这项工作针对纯VLM规划缺乏前瞻性、纯MPC又缺少开放世界感知的问题,把VLM嵌入MPC闭环:先依据目标图像或语言指令条件采样候选动作,再用轻量级动作条件视频模型预测未来,并以像素级+知识级分层代价筛选动作。结果显示其在公开基准和多种真实机器人操作任务上优于现有方法,且不依赖手工动作原语;但从给定材料看,各模块增益来源未被充分拆解。

EconomicGrasp: An Economic Framework for 6-DoF Grasp Detection figure
ECCV 20242024-07-11

EconomicGrasp: An Economic Framework for 6-DoF Grasp Detection

抓取

抓取感知操作

这篇工作关注杂乱场景下6-DoF抓取训练成本过高的问题,作者指出现有密集监督不仅带来巨大的数据加载与显存开销,还会在监督稀疏化时引入标签歧义,尤其是抓取视角歧义,导致训练难收敛。为此提出 EconomicGrasp:保留各点全部视角、裁剪角度/深度与不可抓取点,并预构建场景级标签形成“经济监督”,再结合交互式抓取头与复合评分的 focal representation 精确预测特定抓取。实验中其平均超过现有SOTA约3AP,同时训练时间、显存和存储分别降至约1/4、1/8和1/30。

KOROL: Learning Visualizable Object Feature with Koopman Operator Rollout for Manipulation figure
CoRL 20242024-07-10

KOROL: Learning Visualizable Object Feature with Koopman Operator Rollout for Manipulation

Latent Learning

Latent Learning感知机器人学习操作

这篇工作针对 Koopman 操作器做灵巧操作时强依赖物体真值状态、难落地到视觉场景的问题,提出 KOROL:不用显式物体状态标注,而是用 Koopman 自回归 rollout 的轨迹预测误差反向学习可视化、任务相关的物体特征,并据此构建可跨任务共享的动力学表示。实验表明,它在仿真与真实机器人任务上平均优于 NDP 1.08×、优于 Diffusion Policy 1.16×,且在少样本下退化更小,部分高难任务甚至超过使用真值状态的 Koopman 基线。

Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation figure
arXiv2024-07-10

Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation

数据采集

数据采集数据增强泛化操作

论文针对视觉操作策略难以泛化到新场景、而跨地点采集示范又很昂贵的问题,提出的关键不是新算法,而是改造数据流程:先在绿幕环境中收集演示,再用色键把背景替换成随机纹理或生成背景,让策略更少依赖场景外观、更多关注被操作物体。作者在8个真实任务上以850+示范、8.2k次评测显示,GreenAug相对无增强、常规CV增强和生成式增强分别提升65%、29%、21%;论文也明确无算法新意,增益可能主要来自数据采集与增强设计。

GENIMA: Generative Image as Action Models figure
CoRL 20242024-07-10

GENIMA: Generative Image as Action Models

数据采集

数据采集数据增强

论文的动机是让机器人控制真正利用图像生成模型的预训练先验,而不是只在关节空间做模仿学习。GENIMA的核心做法是把动作提升到图像空间:先用经ControlNet微调的SD-Turbo在多视角RGB图像上“画出”未来各关节的目标位置,再由ACT控制器把这些视觉靶点译成关节序列。实验在25个RLBench和9个真实任务上表明,它优于ACT与Diffusion Policy,并在扰动场景和新物体泛化上更稳;不过增益有多少来自扩散先验、多少来自背景随机化等训练设计,文中未充分说明。

BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark figure
CoRL 20242024-07-10

BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark

人形操作

人形操作操作数据集/Benchmark

这篇论文的动机是现有操作基准多偏向单臂或依赖人工设计稠密奖励,且像 RLBench 这类规划器生成演示往往不够自然,难以刻画真实双臂移动操作。BiGym据此提出面向人形机器人的双臂移动操作基准:含40个家庭任务、每任务50条VR遥操作的人类演示,支持三视角RGB-D与本体观测,并区分全身控制和双臂控制两种模式。实验系统评测了模仿学习与demo-driven RL,结果表明现有方法在这些长时程、部分可观测任务上仍有明显提升空间。

RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios figure
arXiv2024-07-09

RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios

基础操作

基础操作操作数据集/Benchmark

针对现有机器人操作基准多停留在整洁桌面、短时抓取,难覆盖真实世界中堆叠、遮挡和密集摆放的问题,RoboCAS提出一个面向复杂物体排列场景的单臂操作Benchmark,在高真实感仿真里用简洁脚本自动生成散乱、整齐、堆叠等场景及示范轨迹,强调目标检索、清障、空间推理与连锁反应预测等长时程能力。实验显示多种基线在该基准上表现明显受限,说明当前具身模型离可部署的复杂整理操作仍有较大差距。

HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation figure
IROS 20242024-07-09

HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation

四足操作

四足操作操作

这篇工作针对四足机器人一边持续行走一边用腿做非抓取操作这一难题:以往方法多为单任务设计,或需在机动性与操作间做取舍。作者提出分层残差强化学习框架 HiLMa-Res,把任务拆成可复用的底层运动控制器与任务相关的高层规划器,前者在操作空间跟踪由 CPG 与 Bézier 残差组成的足端轨迹,后者只需输出残差轨迹和机身运动指令。实机上,该方法完成了带球、跨石块和推箱导航,并报告优于其他 RL 基线,但各模块增益拆分文中未充分说明。

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI figure
arXiv2024-07-09

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

综述

综述

这篇综述的动机是:多模态大模型和世界模型迅速进入机器人,但领域仍缺少一套把“网络空间中的智能”与“物理实体中的行动”统一起来的框架。文中以具身机器人与模拟器为基础,用具身感知、交互、智能体和 sim2real 四条主线重组近年研究,并强调 MLM/WM 是连接感知、规划、记忆与执行的关键中枢。其主要结果是系统梳理了代表平台、方法、数据集与挑战,指出当前瓶颈集中在长时记忆、复杂意图理解、任务分解和真实部署落差。

MDT: Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals figure
RSS 20242024-07-08

MDT: Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals

VLA

VLADiffusion PolicyTransformer Policy语言条件机器人学习

这篇工作针对机器人模仿学习通常依赖完整语言标注、难以利用大规模 play 数据的问题,提出 MDT:用多模态扩散 Transformer 同时接收语言与目标图像,并借助未来帧重建的 MGF 和跨模态对齐的 CLA,学习与目标模态无关、又能预测未来状态的潜在表示。实验表明,它在仅约1%语言标注的 CALVIN 和不足2%标注的 LIBERO 上仍能完成长时程操作,并在 CALVIN 挑战上以更少参数、无额外大规模预训练取得约15%的绝对提升。

VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation figure
CoRL 20242024-07-04

VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation

3D 表征

3D 表征VLA双臂机器人学习操作

针对双臂精细操作动作维度高、数据效率低且依赖动作原语导致泛化受限的问题,VoxAct-B用VLM先定位任务相关区域并判定左右臂的 acting/stabilizing 角色,再在裁剪后的局部空间重建高分辨率体素网格,驱动语言条件的6-DoF双臂策略学习。其关键洞察是用“VLM引导的体素缩放”保留体素表征的空间等变性,同时降低计算负担。结果上,该方法在扩展RLBench的多项双臂任务中显著优于ACT、Diffusion Policy、VoxPoser和PerAct,并在双UR5真实系统上完成开抽屉与开罐任务。

OrbitGrasp: SE(3)-Equivariant Grasp Learning figure
CoRL 20242024-07-03

OrbitGrasp: SE(3)-Equivariant Grasp Learning

抓取

抓取操作

这篇工作针对杂乱场景6-DoF抓取中“朝向空间连续、采样评估低效且难利用旋转对称性”的问题,提出OrbitGrasp:用SE(3)-等变点云网络为每个表面点预测球谐系数,从而在S²上表示连续抓取质量函数,并沿表面法向定义的抓取轨道搜索最优姿态;同时以U-Net式EquiFormerV2扩大可处理点数。实验表明,它在单/多视角的仿真与真实机器人测试中均优于VGN、GIGA、EdgeGrasp、ICGNet等基线。

Bunny-VisionPro: Real-Time Bimanual Dexterous Teleoperation for Imitation Learning figure
IROS 20252024-07-03

Bunny-VisionPro: Real-Time Bimanual Dexterous Teleoperation for Imitation Learning

灵巧操作

灵巧操作模仿学习数据采集双臂遥操作

这篇工作针对双臂灵巧手遥操作难以同时兼顾直观性、实时性与安全性,导致高质量模仿学习数据稀缺的问题,提出 Bunny-VisionPro:用 Vision Pro 追踪手腕与手指,配合低成本振动指套提供触觉反馈,并以可实时处理碰撞/奇异位形的双臂控制和支持四连杆等环状关节的手部重定向,完成双臂灵巧操作。实验中其在 Telekinesis 基准上成功率提升11%、任务时间缩短45%,用其采集的示范训练策略后,对新姿态和未见物体的泛化提升约20%,尤其推动了多阶段长时程任务的数据采集与学习。

SDP: Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning figure
CoRL 20242024-07-01

SDP: Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning

Diffusion Policy

Diffusion Policy机器人学习

这篇工作针对通用机器人策略在多任务与持续学习中计算开销大、学习新任务易遗忘旧技能的问题,将 MoE 稀疏结构嵌入 Transformer diffusion policy,把专家看作可复用技能、路由器看作技能选择器,只激活少量专家,并支持通过新增专家或仅微调路由完成增量学习与迁移。实验显示,SDP 在仿真与实机多任务设置下活跃参数相对单任务仅增加约 1%,持续学习时旧任务几乎无遗忘,迁移到部分未见的长时序任务时仅训练不到 0.4% 参数也优于从头训练。

RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing figure
RSS 20242024-07-01

RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing

任务规划

任务规划触觉机器人学习

这篇工作针对密集装箱中遮挡重、接触复杂、仅靠视觉难判断物体软硬和可用空间的问题,提出RoboPack:不直接把触觉并入状态,而是用视觉关键点粒子表示场景,并用循环GNN从历史视触觉交互中估计隐式物理向量,再结合MPC做预测与规划。实机在非抓取操作和密集装填上仅用每任务约30分钟数据训练,就在长时动态预测和任务成功率上优于视觉基线及物理模拟器,并体现出在线适应能力。

EquiDiff: Equivariant Diffusion Policy figure
CoRL 20242024-07-01

EquiDiff: Equivariant Diffusion Policy

Diffusion Policy

Diffusion Policy机器人学习

这篇工作针对 Diffusion Policy 虽能刻画多峰动作分布、但去噪函数比显式策略更难学且数据开销大的问题,引入面向桌面操作的 SO(2) 等变扩散策略:把绕重力轴旋转的任务对称性直接编码进 6-DoF 闭环视觉运动控制的去噪过程,并分析扩散模型何时满足等变性。实验上,在 MimicGen 12 个仿真任务、100 条演示设置下,平均成功率比基线 Diffusion Policy 高 21.9%;真实机器人上仅用 20–60 条演示也能学成 6 个任务,而基线在低数据区间明显失效。

EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning figure
CoRL 20242024-07-01

EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning

3D 表征

数据需求量大3D 表征Diffusion Policy泛化机器人学习

这篇工作针对模仿学习在机器人操作中“数据贵、物体换位置/朝向/尺度就容易失效”的瓶颈,提出 EquiBot:把 SIM(3) 等变结构嵌入 diffusion policy 的噪声预测网络,使每一步去噪都随输入的平移、旋转和缩放一致变化,从而减少对数据增强的依赖,并保留扩散策略处理多模态动作与时序一致性的优势。实验表明,它在 6 个仿真和 6 个真实移动操作任务上都优于普通 diffusion 与先前等变基线,真实场景中每个任务仅约 5 分钟示教即可泛化到未见物体和新场景。

PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies? figure
NeurIPS 20252024-06-30

PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies?

Affordance

Affordance基础模型操作数据集/Benchmark

这篇工作关注一个被忽视的问题:VLM虽常被用于机器人操作中的规划与决策,但其是否真正理解动作执行前提——物体属性、可供性与物理约束——并不清楚。作者提出PAC Bench,把操作所需物理理解拆解为PAC三类,构建含3万余标注、覆盖真实图像、类人视角场景和模拟约束任务的诊断式基准。结果表明,当前主流基础模型在这些底层物理概念上仍有显著缺口,说明现成VLM离可靠操作还有距离。

HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid figure
NeurIPS 20242024-06-28

HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid

人形操作

人形操作VLA操作

这篇工作针对以往人形交互依赖特权状态、且只能处理静态或单一动力学物体的问题,提出面向室内重排的 HumanVLA:先用目标条件强化学习与 AMP 训练状态教师,再蒸馏为基于第一视角视觉和语言指令的学生 VLA,并加入通用操控、情境导航、任务优先与主动渲染等关键设计,同时构建 HITR 数据集。文中称其在 IsaacGym 的 HITR 任务上能完成推桌子、搬电脑、拉椅子等多类重排,定量和定性结果均优于基线,但具体增益来源未充分说明。

RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation figure
arXiv2024-06-27

RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation

Latent Learning

Latent Learning感知机器人学习操作

这篇工作针对机器人操控模型对相机内外参与安装位置高度敏感、跨平台泛化差的问题,提出核心洞察:先把多视角图像统一到更接近物理空间的3D表示,再学习动作会比直接从透视图预测更稳。其用UVFormer基于RGB-D和相机参数做3D占据预训练,解耦感知与动作学习,再接入VLM策略头输出控制。在CALVIN上,D→D成功率由93.0%升至96.2%,ABC→D由92.2%升至94.2%,且对未见相机参数和跨数据集联合训练更稳健。

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models figure
CoRL 20242024-06-27

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

数据采集

数据采集数据生成

这篇工作针对机器人示教数据昂贵且难覆盖多样场景的问题,提出 Manipulate-Anything:用视觉语言模型在无特权状态、无手工技能库条件下,将语言任务分解为子目标,结合多视角状态验证、动作/抓取生成与失败后重规划,自动收集真实世界操作轨迹。实验中其可为7个真实任务和14个仿真任务生成轨迹,零样本真实任务平均成功率38.57%,仿真上在10/14任务优于VoxPoser;用其数据训练的行为克隆策略在12个任务中5个超过人工示教、4个持平。性能增益中文中各模块占比未充分说明。

ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data figure
CoRL 20242024-06-27

ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data

音频

音频感知机器人学习操作

该文关注仅靠视觉难以判断接触事件、接触模式和材质/状态的操作学习,且现有音频方法多依赖受控环境遥操作采集。作者提出 ManiWAV:在手持夹爪中嵌入接触式麦克风,低成本同步采集野外人类音视频示范,并用面向部署噪声的音频增强与视听融合扩散策略直接训练机器人。实验在擦白板、翻贝果、倒物、贴魔术贴四类接触丰富任务上优于纯视觉等基线,并能泛化到未见环境。

OWG: Towards Open-World Grasping with Large Vision-Language Models figure
CoRL 20242024-06-26

OWG: Towards Open-World Grasping with Large Vision-Language Models

抓取

抓取语言条件操作

这篇论文关注开放世界抓取中“语言理解强、物理落地弱”的断层:仅靠LLM难以把开放式指令真正对齐到场景,并处理接触、遮挡与碰撞。OWG的核心做法是把VLM作为同时进行语义和几何推理的中枢,再结合SAM分割与抓取生成模型,通过视觉提示零样本完成目标指代分割、可行抓取规划和基于接触的抓取排序。文中在杂乱室内场景数据、仿真与真实机器人上均报告其优于已有监督和零样本LLM方法,但给定材料未充分说明具体提升幅度与增益来源。

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation figure
CVPR 20252024-06-26

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

3D 表征

3D 表征基础模型机器人学习操作

这篇工作针对机器人操作预训练仍停留在2D图像、难以支撑空间推理的问题,把RVT的多视角变换器拆成视觉编码器和动作解码器,在Objaverse等3D数据上做多正交视角RGB-D的遮挡自编码预训练,让模型通过跨视角补全学习3D表征。实验表明,3D-MVP在RLBench上优于从零训练和2D MAE预训练,在COLOSSEUM中对颜色、尺寸、纹理和光照扰动也更稳健。

XBG: End-to-end Imitation Learning for Autonomous Behaviour in Human-Robot Interaction and Collaboration figure
RA-L 20242024-06-22

XBG: End-to-end Imitation Learning for Autonomous Behaviour in Human-Robot Interaction and Collaboration

人形操作

多智能体/多机器人人形操作模仿学习人机交互操作

这篇工作针对人形机器人在人机协作中往往依赖手工状态机或持续遥操作、难以平滑过渡到自主行为的问题,提出XBG:用遥操作示范训练端到端模仿学习策略,把RGB、深度与关节位置、步行速度、电机电流等本体信息做时序融合,直接输出上肢动作与行走控制信号。系统在ergoCub上完成了握手、挥手、接物、行走和携物行走等真实场景验证,说明多模态时序建模能支持上下文相关行为,但具体成功率数值及增益来源文中未充分说明。

CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics figure
NeurIPS 20242024-06-20

CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics

人形操作

人形操作人机交互操作

这篇工作针对多人形协同搬运中“多人体动捕稀缺、直接多智能体强化学习又难收敛”的问题,提出两阶段 CooHOI:先用单人动捕和 AMP 学会持物技能,再在 CTDE 框架下把共享物体动力学当作隐式通信信号迁移到双人协作,使队友通过长物体两端的状态变化互相配合。公开片段表明,该方法仅依赖单人数据,就能让两个人形较自然地协同搬运箱子、沙发等长物体,并优于从零训练;但具体量化增益在所给片段中未充分说明。

SpatialBot: Precise Spatial Understanding with Vision Language Models figure
ICRA 20252024-06-19

SpatialBot: Precise Spatial Understanding with Vision Language Models

任务规划

任务规划多模态推理

针对VLM擅长2D语义却难以可靠理解深度、从而限制机器人操作的问题,论文提出SpatialBot:将RGB与深度图联合输入,并用可查询像素/区域深度值的 depth API,结合分层RGB-D问答数据SpatialQA、具身版SpatialQA-E和评测集SpatialBench,渐进式训练从低层深度感知到高层空间推理的能力。实验表明,该方法在空间理解基准、通用VLM评测及机器人抓取放置任务上均显著优于基线,能更准确判断接触、距离与相对位置。

Contrast Sets for Evaluating Language-Guided Robot Policies figure
CoRL 20242024-06-19

Contrast Sets for Evaluating Language-Guided Robot Policies

VLA

VLA机器人学习

针对语言引导机器人在真实世界评测成本高、只能覆盖少量指令与场景的问题,本文把NLP中的对比集引入机器人评测,围绕单个测试样例在语言、场景和期望行为上做小幅扰动,用更低的人力成本估计整体测试性能,并定位策略脆弱点。作者在仿真操作与真实机器人VLN中发现,联合语言和场景扰动比少量i.i.d.演示或仅在同场景连续换指令的低干预评测更接近完整测试集表现,还揭示了如方向词替换会显著降性能、而部分场景位置变化相对稳健等现象。

LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning figure
CoRL 20242024-06-17

LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

辅助任务

辅助任务VLA感知机器人学习

这篇论文的动机是,现有面向机器人的多模态大模型虽然能做视觉问答式推理,但一到不同机器人、控制方式和场景就容易泛化不足。LLARVA用结构化提示把机器人类型、控制模式、任务描述和本体状态统一到同一种语言接口里,并加入预测末端执行器2D visual trace 的辅助任务,用中间轨迹来对齐感知与动作;作者还基于 OXE 构造了 850 万图像-轨迹对做预训练。结果显示,它在 RLBench 多任务和真实 Franka 机械臂上整体优于多种基线,并具备跨环境与跨机器人配置的泛化能力。

IMAGINATION POLICY: Using Generative Point Cloud Models for Learning Manipulation Policies figure
CoRL 20242024-06-17

IMAGINATION POLICY: Using Generative Point Cloud Models for Learning Manipulation Policies

任务规划

任务规划3D 表征操作

这篇工作针对多任务操作中“直接从观测回归动作”难以利用目标几何、因而精度和样本效率不足的问题,提出先“想象”目标状态再求动作:用条件点云生成模型分别预测抓取/放置关键帧中的理想物体配置,再通过刚体配准与 SVD 反推出 SE(3) 动作,并显式引入双体 bi-equivariant 对称性以提升泛化。实验中,它在 RLBench 6 个任务上取得领先,尤其在 Plug-Charger、Insert-Knife 等高精度任务和 1–10 条示范的少样本设定下明显优于 PerAct、RVT 等基线;真实 UR5 上仅用 30 条示范完成 3 个任务,成功率达 80%–93.3%。

FetchBench: A Simulation Benchmark for Robot Fetching figure
CoRL 20242024-06-17

FetchBench: A Simulation Benchmark for Robot Fetching

基础操作

基础操作操作数据集/Benchmark

现有抓取评测多停留在桌面或料箱场景,难以覆盖货架、抽屉等同时考验抓取与运动规划的真实取物问题。本文提出仿真基准 FetchBench,用程序化场景与5500+物体生成多样任务,并配套成功轨迹生成管线以支持模仿学习;其关键洞察是,复杂取物的瓶颈不只在抓取预测,还在部分可观测条件下的接近、回撤与重试策略。实验中传统 sense-plan-act 仅约13%成功率,结合行为模型的混合方案最好也只有约20%,说明该任务仍有很大提升空间。

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation figure
CoRL 20242024-06-17

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

任务规划

任务规划多模态推理Affordance安全语言条件操作

这篇工作关注机器人在铰接物体操作中常见的低层 SE(3) 接触位姿失败:已有 MLLM 多能改高层计划,却难在门、抽屉等对象上从失败中修正具体接触姿态。作者提出 AIC MLLM,把失败交互转成两类反馈——用视觉掩码标出不可动部分以修正位置,用关节类型与轴向文本提示修正旋转,并结合失败原因提取和测试时自适应迭代更新。结果称其在仿真与真实场景都能更稳定地纠正失败、提升操作成功率,但给定材料未充分说明具体指标与增益来源。

Physically Embodied Gaussian Splatting: A Realtime Correctable World Model for Robotics figure
CoRL 20242024-06-16

Physically Embodied Gaussian Splatting: A Realtime Correctable World Model for Robotics

任务规划

任务规划3D 表征世界模型机器人学习操作

这篇工作针对现有世界模型难同时表达几何、外观与物理约束,导致机器人难以做可预测、可纠偏的操作建模,提出将PBD粒子与3D Gaussian通过bond耦合的双重表示:粒子负责碰撞、重力和刚/柔体形变模拟,Gaussian负责可微渲染,并把观测与预测图像误差转成“视觉力”在线拉回粒子状态。系统可由RGBD和实例掩码初始化,仅用3个相机即可30Hz实时运行,并在2D/3D跟踪和光度重建上验证了同步现实与前向预测的能力。

SGRv2: Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation figure
CoRL 20242024-06-15

SGRv2: Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation

3D 表征

3D 表征机器人学习操作

论文针对真实机器人示教昂贵、模仿学习样本效率低的问题,提出 SGRv2,将“动作主要由目标物体及其局部环境决定”的 locality 作为关键归纳偏置,围绕 3D 点云表征与动作预测重构策略:用编码器-解码器提取点级特征、预测相对目标位置保证平移等变,并以点级权重聚焦关键局部区域、结合密集监督。结果上,RLBench 仅 5 条示教就超过 RVT 于 26 个任务中的 23 个,在 ManiSkill2/MimicGen 上成功率较 SGR 提升至 2.54 倍,真实机器人仅 8 条示教也明显更稳。

RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics figure
CoRL 20242024-06-15

RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics

任务规划

任务规划多模态推理Affordance感知操作

这篇工作针对VLM虽能理解任务语义、却难把“放在盘子旁边”这类空间语言转成可执行精确动作的问题,提出RoboPoint:把机器人动作统一表述为图像中的affordance关键点,再结合深度恢复3D执行。其核心是全自动合成数据流水线,从相机视角计算空间关系并在物体掩码与可放置区域采样点,无需真人示教或真实采集,因此更易扩展。实验显示,它在空间affordance预测上相对GPT-4o、PIVOT等提升21.8%,下游任务成功率提升30.5%,并可迁移到导航和AR辅助。

HumanPlus: Humanoid Shadowing and Imitation from Humans figure
CoRL 20242024-06-15

HumanPlus: Humanoid Shadowing and Imitation from Humans

人形操作

人形操作模仿学习操作

这篇工作针对人形机器人虽与人形态接近、却难直接利用人类动作与技能数据的问题,提出一条从“影随”到自主模仿的全栈管线:先用40小时人体运动数据在仿真中训练低层全身控制策略,再仅靠单个RGB相机实时跟随操作者并采集机器人第一视角示范,最后用带前向动力学预测正则的视觉模仿策略学习操作。作者在33-DoF、180cm人形上以最多40次示范完成穿鞋起身行走、仓储取放、叠衣、打字和机器人问候等任务,成功率约60%到100%。

Σ-agent: Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation figure
CoRL 20242024-06-14

Σ-agent: Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation

模仿学习

模仿学习机器人学习操作

这篇工作针对语言引导多任务操作里“能感知场景但难区分任务需求”的问题,在RVT式模仿学习框架上引入端到端对比模仿学习,同时对齐视觉—语言表示和当前—未来状态表示,并用MVQ-Former压缩多视角语义token以控制训练开销。其关键价值在于主要改进训练期表征判别性而不改变推理流程。在18个RLBench任务上,相比RVT在10/100演示下平均提升5.2%/5.9%,真实5任务单策略成功率为62%。

BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation figure
WAFR 20242024-06-14

BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation

双臂

双臂感知机器人学习操作

这篇工作针对双臂操作常见的多阶段流程:一步延迟会累积拖慢执行,一阶段失败还会传导到后续,且双臂示教常呈多模态。作者提出分层的 BiKC:高层预测关节空间 keypose 作为子目标与阶段完成信号,低层用从零训练的一致性模型在视觉/本体观测和 keypose 条件下单步生成短时动作序列,以兼顾多模态建模和低延迟。ALOHA 实机上,螺丝刀装箱总体成功率达 50.4%,明显高于 CP 的 15.4% 和 DP 的 0%;传送带放取任务达 100%,同时推理延迟约 26ms,显著快于 DP 的约 115ms。

A3VLM: Actionable Articulation-Aware Vision Language Model figure
CoRL 20242024-06-14

A3VLM: Actionable Articulation-Aware Vision Language Model

任务规划

任务规划多模态推理Affordance语言条件

该工作针对机器人VLM直接学习末端动作需要大量昂贵交互数据、且难跨机器人复用的问题,改为学习“物体中心”的关节结构与动作可供性。A3VLM从单张RGB图像和语言指令预测可操作部件的3D框、运动轴与语义标签,并用简单动作原语映射为具体控制,因此无需机器人交互数据。文中称其仅用仿真训练,便在PartNet-Mobility上显著优于已有方法,并在真实Kuka平台上表现出较稳定的开门开抽屉能力。

OpenVLA: An Open-Source Vision-Language-Action Model figure
CoRL 20242024-06-13

OpenVLA: An Open-Source Vision-Language-Action Model

VLA

VLA语言条件机器人学习

论文针对现有VLA多为闭源、且难以在新机器人与新任务上低成本适配的问题,提出开源的7B OpenVLA:以Llama 2为骨干,融合DINOv2与SigLIP视觉特征,并在97万条真实机器人轨迹上预训练,再结合LoRA与量化实现消费级GPU微调。其关键洞察是用更开放的基础模型、更多样的数据和高低粒度视觉表征,可把VLM有效转成通用操作策略。实验中,OpenVLA在29个任务上较55B的RT-2-X绝对成功率高16.5%,微调后较从零训练的Diffusion Policy高20.4%。

OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning figure
CoRL 20242024-06-13

OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning

灵巧操作

移动操作灵巧操作人形操作数据采集遥操作操作

这项工作针对全尺寸人形机器人难以同时兼顾稳定行走、全身协调与灵巧操作,以及传统遥操作依赖MoCap或外骨骼、难以规模化采集数据的问题,提出OmniH2O。其关键做法是把运动学姿态作为统一控制中间层,并结合教师-学生式RL sim2real、偏向站立/下蹲的数据分布与历史观测设计,在稀疏传感下实现无需MoCap的全身模仿控制。文中在Unitree H1上展示了VR、RGB、语言或GPT-4o驱动的遥操作与自主多类移动操作任务,并发布首个人形全身操作数据集OmniH2O-6;但摘要未给出清晰的量化增益来源。

Grasp-Anything++: Language-driven Grasp Detection figure
CVPR 20242024-06-13

Grasp-Anything++: Language-driven Grasp Detection

抓取

抓取感知数据集/Benchmark

论文针对现有抓取数据集很少纳入自然语言、机器人难以在杂乱场景中按指令抓取指定物体或部位的问题,提出含100万样本、千万级指令的Grasp-Anything++,并提供物体级与部位级标注。方法上将语言驱动抓取视为扩散式条件生成,用对比训练目标把图文特征显式注入去噪过程,避免仅依赖两阶段“先指认再抓取”的流程。实验表明其在基准与真实机器人抓取上优于现有方法,并具备零样本泛化,但性能增益可能也部分来自大规模数据。

DILO: A Dual Approach to Imitation Learning from Observations with Offline Datasets figure
CoRL 20242024-06-13

DILO: A Dual Approach to Imitation Learning from Observations with Offline Datasets

模仿学习

模仿学习机器人学习数据集/Benchmark

这篇工作面向更实际的离线观察模仿学习:机器人只有自身历史交互数据和仅含观察的专家演示,传统先学逆动力学或判别器的方法在离线场景易产生一步模型误差累积。DILO用对偶视角把问题改写为直接学习衡量状态转移是否逼近专家访问分布的多步效用,只需类似离线RL的 actor-critic 训练而不依赖专家动作。实验上它在 MuJoCo、D4RL、Robomimic、图像观测和真实机器人上整体优于基线,并对次优数据质量更稳,但具体增益来源文中未充分拆解。

MaIL: Improving Imitation Learning with Mamba figure
CoRL 20242024-06-12

MaIL: Improving Imitation Learning with Mamba

模仿学习

模仿学习Mamba Policy机器人学习

这篇工作针对机器人模仿学习中 Transformer 策略在小数据场景易过拟合、序列建模开销大的问题,引入以 Mamba 为骨干的 MaIL,并设计了解码器式 D-Ma 与通过可学习动作、状态、时间变量实现序列对齐的编码器-解码器式 ED-Ma,使其既能做扩散去噪策略,也更适合多模态时序输入。实验表明,MaIL 在 LIBERO 的有限数据设置下全面优于同规模 Transformer,使用全量数据时性能相当,并在 3 个真实机器人实验中取得更好结果。

BAKU: An Efficient Transformer for Multi-Task Policy Learning figure
NeurIPS 20242024-06-11

BAKU: An Efficient Transformer for Multi-Task Policy Learning

VLA

VLATransformer Policy语言条件机器人学习

这篇论文针对机器人多任务策略学习中示教数据昂贵、现有通用策略数据效率偏低的问题,提出 BAKU:以 Transformer 作为观测主干,融合多视角视觉、语言和本体状态,并结合 FiLM 视觉条件化、动作分块和解耦动作头来提升小数据模仿学习效率。其贡献更像对已有有效组件的系统整合而非全新训练范式;实验表明它在 129 个仿真任务上相对 RT-1/MT-ACT 取得 18% 绝对提升,在 LIBERO-90 上提升 36%,真实 30 个操作任务中仅平均每任务 17 条示教即可达到 91% 成功率,但多任务泛化收益随任务数增长的来源文中未充分说明。

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation figure
NeurIPS 20242024-06-06

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation

VLA

VLAMamba Policy语言条件机器人学习操作

这篇工作针对现有机器人VLA在复杂推理上不足、且基于Transformer的微调与推理成本偏高的问题,引入线性复杂度的Mamba作为核心序列模型,先完成视觉—语言对齐与指令共训,再仅用约0.1%参数的轻量policy head学习SE(3)位姿预测。结果上,RoboMamba在通用与机器人推理基准上表现有竞争力,在SAPIEN仿真和真实机器人上实现了有效操作,推理速度约为已有VLA模型的3倍;但增益究竟来自Mamba架构还是训练流程,文中未充分说明。

Redundancy-aware Action Spaces for Robot Learning figure
RA-L 20242024-06-06

Redundancy-aware Action Spaces for Robot Learning

机器人学习

机器人学习

本文关注机器人学习里“关节空间控制精确但难学、任务空间控制高效却难管住整条机械臂”的矛盾,尤其是在柜内伸取等受限场景中,末端位姿相同并不代表肘部配置合适。作者提出冗余感知动作空间 ER,在末端动作之外显式参数化机械臂冗余自由度,给出 ERA 与 ERJ 两种实现。实验表明,ER 尤其是 ERJ 在仿真 RLBench 和真实模仿学习中,对需要全臂精细构型控制的任务显著优于关节空间、任务空间和 JAiLeR,且在一般任务上不明显退化;文中也指出 ERJ 仍存在奇异位形问题。

RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots figure
RSS 20242024-06-04

RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

跨本体

跨本体基础模型数据集/Benchmark

该工作针对机器人缺少大规模真实数据、通用操作难以靠实采扩展的问题,提出RoboCasa:在MuJoCo/RoboSuite上构建面向日常厨房操作的大规模仿真平台,通过生成式AI扩充场景与3D资产,支持移动操作臂、类人等跨本体,并以LLM辅助定义25个原子技能和75个复合任务,再结合少量人类示教与MimicGen扩展到10万级轨迹。实验表明,模仿学习性能随合成数据规模明显提升,且与真实数据协同训练能提高真实厨房部署成功率,但增益来源可能主要来自scaling/data而非任务设计本身。

Cross-Embodiment Robot Manipulation Skill Transfer using Latent Space Alignment figure
arXiv2024-06-04

Cross-Embodiment Robot Manipulation Skill Transfer using Latent Space Alignment

Latent Learning

Latent Learning泛化跨本体操作

论文针对不同机械臂之间因状态、动作和运动学不一致而难以复用RL操作策略的问题,提出先在源机器人上把状态/动作压到共享潜空间,并联合训练潜空间策略、编解码器和动力学一致性;迁移时只用无配对随机数据,通过对抗对齐与循环一致性训练目标编解码器,无需目标奖励或示教。实验把Panda的Reach、Lift、PickPlace、Stack策略迁到Sawyer和真实xArm6,该方法优于ILA和去掉动力学约束的版本,Reach上接近强监督/目标域oracle,但精细操作仍有抓取失败。

ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation figure
arXiv2024-06-03

ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation

3D 表征

3D 表征Diffusion Policy机器人学习操作

这篇工作针对3D扩散策略在机器人操作中因多步去噪而难以实时闭环控制的问题,提出 ManiCM:把一致性模型引入点云条件下的动作扩散,要求任意 ODE 轨迹点都能直接恢复干净动作,并用面向操作的一致性蒸馏直接预测动作而非噪声,以适配低维动作流形并实现单步推理。在 Adroit 和 Metaworld 共31个任务上,方法将单步决策延迟降到约16ms、平均加速约10倍,同时保持有竞争力的成功率。

MPI: Learning Manipulation by Predicting Interaction figure
RSS 20242024-06-01

MPI: Learning Manipulation by Predicting Interaction

Latent Learning

Latent Learning人机交互机器人学习操作

论文认为,现有借助人类视频的机器人表征学习多强调语义对齐、掩码重建或随机未来帧预测,却忽视了操控真正关键的交互动力学。MPI据此把预训练改为“给定初始/结束关键帧和语言,预测中间过渡帧并定位被操作物体”,分别建模“怎么交互”和“在哪里交互”,并在统一 Transformer 中让预测与检测相互增强。实验显示,它在真实 Franka、Franka Kitchen、Meta-World 及指代表达定位上均优于 R3M、MVP、Voltron,公开结果相对提升约 10%–64%,且在干扰和弱光条件下更稳健。

Vision-based Manipulation from Single Human Video with Open-World Object Graphs figure
CoRLW 20242024-05-30

Vision-based Manipulation from Single Human Video with Open-World Object Graphs

视频规划

数据需求量大视频规划泛化感知操作

论文针对现有从人类视频学操作仍依赖按场景收集遥操作数据、且难显式建模3D物体交互的问题,提出 ORION:先从单段 RGB/RGB-D 人类视频中抽取开放世界物体图 OOG 序列,再据此生成以子目标为条件的策略。其核心洞察是操作应围绕物体关系变化而非手部轨迹模仿。实验显示,该方法在短程与长程任务上都能泛化到背景、视角、布局和新实例变化,平均成功率 74.4%,且优于手部模仿与稠密对应基线。

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation figure
ICML 20242024-05-30

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

模仿学习

模仿学习基础模型感知机器人学习操作

这篇工作针对3D模仿操作中“场景理解不足、长程动作推理又慢”的问题,指出现有3D/多视角方法既依赖大量高质量轨迹,也难泛化到新任务。SAM-E用SAM做可提示的感知骨干,并以参数高效微调适配机器人场景;再用多通道位姿热图一次性预测整段关键动作,并回投到3D求末端位姿。文中在RLBench 18个任务、249种变体上报告了比基线更高的成功率与执行效率,且少样本新任务适应更强。

ORION: Vision-based Manipulation from Single Human Video with Open-World Object Graphs figure
arXiv2024-05-30

ORION: Vision-based Manipulation from Single Human Video with Open-World Object Graphs

任务规划

任务规划几何约束规划视频规划感知操作

这篇工作针对“从单段人类视频学机器人操作”在开放世界里难以泛化的问题,提出 ORION:利用视觉基础模型把一段 RGB/RGB-D 演示提炼为开放世界物体图序列,显式表示任务相关物体、抓取信息与3D关键点运动,并据此生成以中间子目标为条件的策略。其核心洞察是,操作迁移更应对齐物体关系和几何约束,而非直接模仿人手轨迹。实验表明,该方法在短时程与长时程任务上平均成功率为 74.4%,RGB-only 场景也有 85.3% 成功率。

Tilde: Teleoperation for Dexterous In-Hand Manipulation Learning with a DeltaHand figure
RSS 20242024-05-29

Tilde: Teleoperation for Dexterous In-Hand Manipulation Learning with a DeltaHand

灵巧操作

灵巧操作数据采集遥操作操作

这篇工作针对灵巧手模仿学习的核心瓶颈:高质量示教难采集,且非人形手缺少直观遥操作接口,提出 Tilde 系统,把定制 DeltaHand、与其运动学同构的 TeleHand 遥操作器和视觉条件扩散策略结合起来。关键洞察是用一对一关节映射与手内相机,把真实示教稳定转成可学习的闭环数据,同时以软硬混合手指提升受力和运动精度。最终在抓取、手内平移/旋转、形状插入、推注射器等 7 个任务上实现自主执行,平均成功率约 90%。

Grasp as You Say: Language-guided Dexterous Grasp Generation figure
NeurIPS 20242024-05-29

Grasp as You Say: Language-guided Dexterous Grasp Generation

抓取

抓取灵巧操作操作

论文面向“按语言抓取”的灵巧手操作,针对缺少细粒度语言监督、且抓取质量与意图/多样性难兼顾的问题展开。作者的核心洞察是常用穿透损失会抑制抓取分布学习、造成意图偏移,因此借助HOIR重定向和LLM标注构建了含5万条抓取-语言对、覆盖1800个物体的DexGYSNet,并提出两阶段DexGYSGrasp,先学习意图一致与多样抓取,再做质量细化。实验表明其在基准和真实场景中都显著优于现有方法。

R&D: Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning figure
RSS 20242024-05-28

R&D: Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning

视频规划

视频规划Diffusion Policy世界模型感知机器人学习

本文针对RGB观测到低层动作的映射跨越图像与控制两种异构空间、在小数据下难以学习的问题,提出R&D:先用机器人3D模型把候选动作渲染成图像中的未来夹爪/机械臂姿态,再用扩散式去噪迭代更新这一“渲染动作”,并在图像域、动作域或两者联合预测修正量。核心洞察是先让动作显式呈现其空间后果,再做行为克隆,从而引入更强的空间归纳偏置。实验表明,该方法在仿真和6个真实任务中比常见图像到动作策略更省样本,且空间泛化更强。

Diffusion-Reward Adversarial Imitation Learning figure
NeurIPS 20242024-05-25

Diffusion-Reward Adversarial Imitation Learning

模仿学习

模仿学习强化学习Diffusion Policy安全机器人学习

这篇工作针对 GAIL 在机器人模仿学习中常见的判别器脆弱、奖励噪声大和训练不稳定问题,提出 DRAIL:不直接用扩散模型生成动作,而是利用条件扩散的去噪误差构造有界的“真实性”判别器,并据此给策略提供更平滑、更鲁棒的奖励,同时避免完整扩散采样的高开销。实验显示,它在导航、机械臂操作和运动控制等任务上普遍优于或不弱于 BC、Diffusion Policy、GAIL/WAIL/DiffAIL,且泛化性、数据效率与奖励平滑性更好。

OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning figure
ICML 20242024-05-24

OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

模仿学习

模仿学习强化学习安全基础模型机器人学习

这篇工作针对机器人模仿学习里“离线预训练安全便宜、在线微调高效但有风险”的矛盾,指出把 BC 等离线方法与 GAIL 直接拼接常会失败,关键原因是在线阶段判别器与预训练策略不对齐,导致策略反而遗忘已学知识。OLLIE 的核心是离线同时学出一个接近专家的初始策略和与之对齐的判别器,并用等价目标、鞍点优化和加权行为克隆实现,还能利用次优示范。实验覆盖 20 个连续控制与视觉任务,离线阶段常比基线高 2–4 倍,在线微调也更快更稳,往往只需约 10 个 episode 就接近专家水平。

How to Leverage Diverse Demonstrations in Offline Imitation Learning figure
ICML 20242024-05-24

How to Leverage Diverse Demonstrations in Offline Imitation Learning

模仿学习

模仿学习数据采集数据筛选

这篇工作面向“专家数据少、混杂示范多”的离线模仿学习场景,关注如何从噪声轨迹中找出真正有用的行为。其关键洞察是不再只看状态-动作是否像专家,而是看该动作把系统带到的后继状态是否回到专家分布,由此显式利用动力学,选出能“返回专家轨道”的多样化行为,并配合轻量级加权BC减少次优数据干扰。实验在连续控制与视觉共21个基准上,20个取得最优,通常比现有方法高2–5倍,训练开销接近标准BC。

PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning figure
NeurIPS 20242024-05-23

PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning

强化学习

强化学习触觉跨本体基础模型机器人学习

这篇工作针对跨本体强化学习常被具体任务绑定、难以提炼“只与机器人形态相关”知识的问题,提出无奖励环境下的跨本体无监督预训练 CEURL,并用 CE-MDP 形式化分析目标。其核心方法 PEAC 通过本体判别器构造跨本体内在奖励,鼓励策略探索能表征不同本体特性的轨迹,从而学到本体感知、任务无关的初始化。实验表明,在 DMC、Robosuite 和足式机器人关节失效场景中,PEAC 比现有无监督 RL 预训练适应更快,且对未见本体的泛化更强。

A Survey on Vision-Language-Action Models for Embodied AI figure
arXiv2024-05-23

A Survey on Vision-Language-Action Models for Embodied AI

VLA

VLA综述

面向具身智能中迅速涌现的视觉—语言—动作模型,本文的动机是为语言驱动机器人建立一张可操作的研究地图。其核心贡献是首次系统界定并扩展VLA概念,将现有工作归纳为组件研究、低层动作控制策略和高层任务规划三条主线,并配套梳理数据集、仿真器与评测基准。主要结果是总结出从单一控制器走向分层规划—执行框架的演进脉络,指出预训练视觉表征、世界模型与推理能力是关键瓶颈;作为综述,并无统一新实验增益,跨方法优劣文中未充分说明。

Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance figure
IROS 20252024-05-22

Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance

任务规划

任务规划多模态推理语言条件感知操作

作者指出,把“开门”这类整体语言直接当奖励过于粗糙,机器人在早期探索时几乎得不到有效反馈。RoboCoT的核心是先用机器人CoT把任务拆成可执行子步骤,再让VLM按子目标进展提供更细粒度奖励,并结合基于成功轨迹的VLM自模仿加速学习。实验显示其在多种操作任务上均优于CLIP、LIV和RoboCLIP,平均成功率较最强基线提升5.4倍;但“稀疏失败引导”的独立贡献从公开摘要看仍未充分说明。

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets figure
NeurIPS 20252024-05-21

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

Affordance

Affordance基础模型语言条件感知操作数据集/Benchmark

论文针对VLM预训练数据缺少细粒度空间与接触信息、仿真问答又受sim-to-real限制的问题,提出Robo2VLM:利用真实遥操作轨迹中的末端位姿、夹爪开合和力觉等非视觉信号,自动分段操作阶段并生成面向空间、目标条件和交互推理的多选VQA。作者据此构建Robo2VLM-1,含68.5万题、覆盖17.6万轨迹;其既能作为评测基准,也能提升模型能力,微调LLaVA后部分状态/任务理解准确率最高提升约50%,但细粒度空间与交互推理仍明显落后人类。

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation figure
RSS 20242024-05-21

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

模仿学习

模仿学习泛化操作

针对现有多任务模仿学习只能覆盖训练任务、迁移到新操作仍需大量示范的问题,论文提出 IMOP:不再直接回归机械臂末端位姿,而是从离线示范中挖掘与动作语义相关、在末端坐标系下保持稳定的“不变区域”,再在单次示范与测试场景间做图匹配,并用点集配准解析出目标位姿。它在 RLBench 18 个基准任务上平均成功率较 SOTA 提升 4.5%,在 22 个新任务上仅凭单条未标注示范、无需微调再提升 11.5%,还展示了跨形状泛化与一次示范的 sim-to-real 能力。

Octo: An Open-Source Generalist Robot Policy figure
RSS 20242024-05-20

Octo: An Open-Source Generalist Robot Policy

VLA

VLA基础模型语言条件机器人学习

这篇论文的动机是让机器人策略不必每到新平台、新传感器或新动作空间都从零训练。Octo提出一种开源通用操作策略:用统一的Transformer token化观测与任务,并通过可替换适配器和动作头支持语言/目标图像指令、多相机与不同控制空间,从而能在少量目标域数据上快速微调。实验显示其在9个机器人平台上具备开箱即用的多机器人控制能力,并能有效迁移到新观测和新动作空间;但文中也指出腕部相机和语言条件仍偏弱,部分增益可能主要来自scaling与更大数据混合。

Natural Language Can Help Bridge the Sim2Real Gap figure
RSS 20242024-05-16

Natural Language Can Help Bridge the Sim2Real Gap

泛化

泛化Sim2Real

这篇工作关注视觉模仿学习在Sim2Real中因真实数据昂贵、仿真与现实外观差异大而难以迁移的问题。作者的核心洞察是:若仿真图像与真实图像对应到相近的自然语言描述,它们就应诱导相近动作;据此用语言嵌入监督图像编码器预训练,学习跨域但仍保留低层控制所需细粒度信息的表征,再结合大量仿真演示和少量真实演示训练策略。在长时程多步任务和可变形物体任务上,该方法相对已有Sim2Real方法及CLIP、R3M提升约25%到40%。

PointArena: Probing Multimodal Grounding Through Language-Guided Pointing figure
arXiv2024-05-15

PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

Affordance

Affordance数据集/Benchmark

这篇工作针对现有多模态指点评测几乎只考“指向哪个物体”、难覆盖可供性、计数和具身执行的问题,提出 PointArena:把 Point-Bench(约千条、五类任务)、盲评对战 Point-Battle 和真实机器人操作 Point-Act 串成统一评测链路,用来检验语言到空间指向的落地能力。实验显示 Molmo-72B 总体最好,Gemini 等闭源模型已接近;显式指点监督明显有益,而链式推理帮助不大。不同阶段结果相关性较强,但增益与 scaling/数据贡献的拆解文中未充分说明。

ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation figure
CoRL 20242024-05-14

ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation

Affordance

Affordance操作数据集/Benchmark

面向机器人低层操作中“该抓哪里、怎么移动、会产生什么物理后果”长期缺少统一评测的问题,作者提出ManipBench:将抓取点、接触点和轨迹选择转成12617道无需轨迹rollout的多选题,覆盖刚体搬运、关节物体、布料和动态操作,并系统评测33个VLM、10个模型家族。结果表明模型间和任务间能力分化明显,最强模型虽显著优于随机,但与人类仍有显著差距;同时该基准得分与真实机器人动作选择效果呈显著相关。

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation figure
RSS 20242024-05-13

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

Vision-Action

Vision-Action机器人学习

这篇工作针对扩散式视觉运动策略推理太慢、难部署到板载算力受限机器人的问题,提出 Consistency Policy:先训练 EDM 教师,再沿其去噪轨迹做一致性蒸馏,把原本多步动作生成压缩到单步或少步。文中进一步指出,局部 CTM 目标、较低初始采样方差和预设 chaining 步长是性能关键;在 6 个仿真与 3 个真实任务中,该方法可在笔记本 GPU 上运行,并在保持与 Diffusion Policy 接近或相当成功率的同时,将推理速度相对最快基线再提升约一个数量级。

Residual-NeRF: Learning Residual NeRFs for Transparent Object Manipulation figure
ICRA 20242024-05-10

Residual-NeRF: Learning Residual NeRFs for Transparent Object Manipulation

抓取

抓取3D 表征操作

论文针对透明物体因折射、缺乏纹理而导致深度图空洞、NeRF训练慢且易歧义的问题,提出Residual-NeRF:先在无目标的静态工作区预训练背景NeRF,再学习只刻画新增透明物体变化的残差NeRF,并用MixNet按空间位置自适应融合两者,从而把建模重点放在“场景变化”而非整场重建。合成实验中其深度重建相对基线实现46.1%更低RMSE和29.5%更低MAE,真实场景也表现出更少噪声与孔洞,并带来更稳健的抓取规划。

SIMPLER: Evaluating Real-World Robot Manipulation Policies in Simulation figure
CoRL 20242024-05-09

SIMPLER: Evaluating Real-World Robot Manipulation Policies in Simulation

基础操作

基础操作VLA操作数据集/Benchmark

这篇论文针对通用机器人策略在真实世界评测昂贵、缓慢且难复现的问题,提出把“用真实数据训练、在仿真中评测”做成标准流程。核心洞察是不必构建高保真数字孪生,只需让仿真在控制与视觉层面与真实环境足够一致;为此结合离线系统辨识、真实背景绿幕替换和物体纹理烘焙,构建了SIMPLER。结果表明,在Google Robot与BridgeData V2/WidowX等设置上,SIMPLER对RT-1、RT-1-X、RT-2-X、Octo的成功率与真实评测高度相关,并能反映分布移位下的行为变化。

CPM: Composable Part-Based Manipulation figure
CoRL 20232024-05-09

CPM: Composable Part-Based Manipulation

3D 表征

3D 表征Diffusion Policy机器人学习操作

这篇工作针对整物体级策略难以迁移到新形状和新类别的问题,把倒水、受约束放置等操作拆成“部件—部件对应约束”,如杯沿对齐、手柄朝上、容器本体倾斜,并为每种约束学习可组合的3D点云条件扩散模型,在推理时联合采样起止位姿。实验表明,该方法在仿真和真实机器人上都能更好泛化到新实例与未见类别,呈现出从仿真到现实的迁移能力。

ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera figure
ICRA 20242024-05-09

ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera

抓取

抓取3D 表征泛化感知操作

针对透明/镜面物体会让常规深度相机失效、抓取网络缺少可靠几何的问题,ASGrasp的核心洞察是:主动双目相机在立体匹配前的原始左右IR仍保留透明区域的深度线索,RGB再提供形状先验。因此它用一个RGB感知的双层立体网络同时预测可见与“第二层”不可见点云,再交给GSNet做6DoF抓取,并借助基于GraspNet的大规模域随机化合成数据实现sim2real。实验显示其在仿真和真实场景中的透明物抓取成功率都超过90%,明显优于现有方法,且超过仅使用完美可见点云的基线。

LCB: From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control figure
IROS 20242024-05-08

LCB: From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control

VLA

VLALatent Learning语言条件机器人学习

这篇工作针对“让LLM负责高层规划、语言充当层间接口”的机器人控制范式:许多细粒度或难以言表的动作并不适合用自然语言准确拆解,而且直接拿语言接口做具身微调还容易带来域偏移和遗忘。LCB的核心做法是在LLM与底层策略之间引入可学习的<ACT>潜码,用该token的隐藏表示作为高层目标,既保留LLM的推理与语言能力,又让系统能端到端适配低层控制。实验在Language Table和CALVIN上表明,LCB在需要推理和多步执行的任务上优于纯语言接口基线,甚至超过包含GPT-4V的方案。

Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting figure
CoRL 20242024-05-07

Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting

任务规划

任务规划3D 表征操作

面向开放词汇、多阶段操作中“能识别物体却难跟踪状态变化、也不清楚该抓哪里”的问题,Splat-MOVER把3D Gaussian Splatting从静态表征扩展为可操作世界模型:ASK-Splat将语义与抓取可供性蒸馏进3D场景,SEE-Splat在每步交互后编辑物体状态形成持续更新的数字孪生,Grasp-Splat再结合GraspNet按可供性重排抓取候选。Kinova实机结果显示,它在4个单阶段任务上优于LERF-TOGO和F3RM*,并完成了4个依赖前序状态更新的多阶段任务。

DexSkills: Skill Segmentation Using Haptic Data for Learning Autonomous Long-Horizon Robotic Manipulation Tasks figure
IROS 20242024-05-06

DexSkills: Skill Segmentation Using Haptic Data for Learning Autonomous Long-Horizon Robotic Manipulation Tasks

触觉

触觉泛化感知操作

这篇工作针对灵巧手长时序操作难以直接端到端模仿、且视觉在接触与遮挡场景下不稳定的问题,提出仅依赖本体感觉与触觉的 DexSkills:先从遥操作演示学习20个可复用原语,再用“自回归自编码器+标签解码器”的联合监督表征,对长任务按时间窗分段并切换对应技能控制器。作者报告该设计较多种基线更能捕捉技能时序动态,在未见长任务上的分割准确率达91%,并支持真实机器人完成多种长时序操作;但各原语控制器的泛化边界文中未充分说明。

Octopi: Object Property Reasoning with Large Tactile-Language Models figure
RSS 20242024-05-05

Octopi: Object Property Reasoning with Large Tactile-Language Models

可变形物体

可变形物体触觉机器人学习

这篇工作针对机器人仅靠视觉和语言难以判断软硬、粗糙度等物性,提出把触觉接入大模型做物理推理。作者构建了含 GelSight 触觉视频、硬度/粗糙度/凸起度标注及五类任务的 PHYSICLEAR,并用 CLIP 式触觉编码器对齐 Vicuna,先预测中间物性再做语言推理。实验表明,Octopi 在多种触觉描述、比较与选择任务上优于基线,物性中间表示带来稳定增益,但文中片段未充分说明具体提升幅度。

Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation figure
ECCV 20242024-05-02

Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation

视频规划

视频规划泛化感知机器人学习操作

论文关注机器人在新场景中无需测试时适配就执行未见操作,但大规模机器人示教难采集。其关键洞察是把策略拆成“交互计划+残差控制”:先用互联网人类/机器人视频学习目标条件下的点轨迹预测,作为与机体无关的操作表征,再结合深度把2D轨迹拟合为物体刚体变换和末端执行器开环动作,最后仅用约400条机器人轨迹学习闭环残差修正。在Spot上的真实实验表明,该方法能在未见任务、物体和厨房/办公室场景中完成关微波炉、拉抽屉、开烤面包机、倒液体等操作,但文中也说明当前主要限于短时程单物体任务。

PSL: Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks figure
ICLR 20242024-05-02

PSL: Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

泛化

泛化操作

这篇工作针对长时程机器人操作中“LLM擅长高层分解、RL擅长低层控制,但前者依赖预设技能库、后者又难以长程探索”的瓶颈,提出PSL:先由LLM生成阶段计划,再用运动规划把语言子目标落到可执行位姿,最后用共享的视觉RL策略学习局部接触交互,并结合课程式训练提升稳定性。实验表明,它在四个基准、25个以上最多10阶段的任务上,从原始视觉输入即可取得85%以上成功率,NutAssembly达到96%,整体优于语言规划、经典方法和端到端RL基线。

IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning figure
IROS 20242024-05-02

IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning

数据需求量大

数据需求量大模仿学习数据采集数据生成安全

论文针对模仿学习在部署时易因感知/位姿估计误差产生分布偏移、而人工交互式纠错又很费人的问题,提出 IntervenGen:从少量人工干预轨迹出发,利用对象中心的轨迹变换,在不同场景与错误分布下自动合成大量纠错数据。其核心洞察是,恢复性干预也能像任务演示一样被重放和迁移。作者在4个仿真任务和1个真实任务上表明,仅10次人工干预即可将鲁棒性最高提升39倍,且由10次干预生成的数据还可比直接收集100次人工干预高24%,时间与人力仅约12%。

Dexterous Grasp Transformer figure
CVPR 20242024-04-28

Dexterous Grasp Transformer

抓取

抓取灵巧操作Transformer Policy操作

这篇工作针对灵巧手抓取中“想要多样性就得多次采样或旋转输入、但质量又容易下降”的问题,把抓取生成改写为集合预测:用 Transformer 解码器和可学习 grasp query,一次前向直接输出多组抓取。作者的关键洞察是,Hungarian 匹配与穿透损失会共同诱发训练不稳定,导致模式塌缩或严重穿透,因此提出训练阶段的 DSMT 和测试阶段的 AB-TTA。DexGraspNet 上,DGTR 在不做数据预处理时兼顾抓取质量与多样性,且多样性指标明显优于已有方法。

VIEW: Visual Imitation Learning with Waypoints figure
Auton. Robots 20252024-04-27

VIEW: Visual Imitation Learning with Waypoints

模仿学习

模仿学习感知机器人学习

这项工作针对机器人“看人类视频学操作”时样本效率低、且人机形态差异会让直接模仿失效的问题,提出 VIEW。其核心洞察是无需逐帧理解整段视频,而是从手—物交互中提炼少量关键路标,构造压缩先验轨迹,再结合只关注物体运动的 agent-agnostic 奖励、抓取/执行分阶段学习与路标邻域探索来修正先验。实验显示,它在仿真和真实场景中优于现有 VIL 方法,常见推、抓、搬运任务可由单段视频在 30 分钟内、少于 20 次真实试验学会,并可扩展到更长时程的多物体任务。

Ag2Manip:Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations figure
IROS 20242024-04-26

Ag2Manip:Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

强化学习

强化学习触觉基础模型感知机器人学习操作

这篇工作针对用人类视频预训练奖励/表征时常见的人机形态差异、手部外观偏置,以及机器人精细操作中奖励过粗导致学习困难的问题,提出 Ag2Manip:一方面把视频中的人/机器人主体遮蔽并修复,学习更关注任务过程的与载体无关视觉表征;另一方面把机器人控制抽象为通用代理的动作表征,将学习拆成探索与交互两阶段。结果是在 FrankaKitchen、ManiSkill 和 PartManip 上成功率由 18.5% 提到 78.7%,相对增益约 325%,真实模仿学习也从 50% 提升到 77.5%。

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations figure
IROS 20242024-04-26

Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

Latent Learning

Latent Learning语言条件感知机器人学习操作

这篇工作针对人类视频预训练表征迁移到机器人操作时存在的形态差异、手部偏置,以及视觉奖励过粗导致精细交互难学的问题,提出 Ag2Manip:一方面遮蔽并修复视频中的人或机器人,学习更关注任务过程的 agent-agnostic 视觉表征;另一方面把不同机器人的动作抽象为通用代理,在“探索—交互”两阶段中建模末端执行器与物体作用。实验显示其在 FrankaKitchen、ManiSkill 和 PartManip 上成功率由 18.5% 提升到 78.7%,真实模仿学习也从 50% 提升到 77.5%。

Leveraging Pretrained Latent Representations for Few-Shot Imitation Learning on a Dexterous Robotic Hand figure
humanoids 20242024-04-25

Leveraging Pretrained Latent Representations for Few-Shot Imitation Learning on a Dexterous Robotic Hand

灵巧操作

数据需求量大灵巧操作人形操作模仿学习Latent Learning操作

这篇工作针对灵巧手模仿学习依赖大量遥操作数据、少样本下传统BC易失稳的问题,先用多个人手任务无关数据训练VAE,学习手部运动子轨迹的潜在表示,再让Transformer策略预测潜变量并解码为动作;同时通过指尖IK把纯人类演示重定向到23DoF机器人。实验显示,该方法较直接BC更抗感知与本体噪声,并已在真实系统上完成抓取、倒水、拧瓶盖等任务,但文中未充分拆分潜表示预训练与模型规模各自的增益来源。

ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos figure
ICRA 20252024-04-24

ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos

灵巧操作

灵巧操作视频规划感知操作

这篇工作针对“人类操作视频易获取,但直接估计出的手物轨迹噪声大、现有方法又依赖真实物体状态”的矛盾,提出 ViViDex:先对每个视频用带轨迹引导奖励的强化学习把参考轨迹修正为物理可执行的机器人行为,再将成功 rollout 蒸馏为不依赖特权物体信息的统一视觉策略,并用手中心坐标变换强化点云表征。结果显示,它在 relocation、pour 和 placing inside 三类灵巧操作上以更少人类视频优于 DexMV 等方法,并可迁移到真实机器人及未见物体。

Object-Aware Gaussian Splatting for Robotic Manipulation figure
ICRAW 20242024-04-24

Object-Aware Gaussian Splatting for Robotic Manipulation

任务规划

任务规划3D 表征操作

论文聚焦机器人操作里“动态场景需要3D语义理解,但现有表示更新太慢”的问题。作者把“对象性”注入3D Gaussian Splatting:初始时仅一次用基础模型做实例分割并给高斯赋对象标签,后续主要按对象整体更新、再用单高斯微调处理非刚体变化,避免逐帧重建和大模型反复推理。结果表明,该方法在仅3个相机视角下可实现30Hz更新,支持开放词汇的动态抓取,并可用于行为克隆训练且表现接近带预训练编码器的图像策略;但文中对相对更强基线的增益来源说明仍不算充分。

Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following figure
arXiv2024-04-21

Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following

任务规划

任务规划

这项工作针对具身指令跟随通常依赖标注轨迹或少样本示例、在长程组合任务上规划与泛化都不稳的问题,提出零样本的 Socratic Planner:先让 LLM 通过自问自答抽取子任务、顺序、目标物体和执行约束等结构信息,再生成控制器可执行的子目标序列;若执行失败,则结合视觉输入由多模态模型判断失败原因并触发重规划。结果上,该方法在 ALFRED 上各项指标均超过现有少样本规划方法,尤其在长时程复杂任务中优势更明显,并验证了真实机器人部署可行性。

RISE: 3D Perception Makes Real-World Robot Imitation Simple and Effective figure
IROS 20242024-04-18

RISE: 3D Perception Makes Real-World Robot Imitation Simple and Effective

3D 表征

3D 表征模仿学习Diffusion Policy感知机器人学习

这篇工作针对真实机器人模仿学习里的一个关键矛盾:2D视觉策略缺少稳定空间信息、对相机位姿敏感,而不少3D方法又停留在关键帧预测,难覆盖接触频繁的连续控制。RISE的核心洞察是先用稀疏3D卷积高效压缩单视角点云,再以稀疏位置编码和Transformer建模3D关系,最后通过扩散头直接生成连续动作轨迹。作者在6个真实任务上仅用每任务50条示教就明显超过代表性2D/3D基线,并在物体位置、更多干扰物、相机视角和台面高度变化下表现更稳。

DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects figure
ECCV 20242024-04-18

DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects

可变形物体

可变形物体3D 表征感知操作

面团等弹塑性物体在切分、粘连、成环时会发生拓扑变化,现有可变形操作模型多只关注几何形变,因而难以做可靠规划。DoughNet的关键是把不同连通结构编码为一组潜变量,并用Transformer在潜空间自回归预测多步几何与拓扑演化,同时构建了能从粒子仿真标注连通性与亏格的合成数据流程。实验显示,它在仿真与真实机器人上都比仅建模几何的方法更准确,尤其在长时程预测和目标驱动的工具、位姿与轨迹选择上优势明显。

Retrieval-Augmented Embodied Agents figure
CVPR 20242024-04-17

Retrieval-Augmented Embodied Agents

数据采集

数据采集数据增强数据检索

这篇工作针对机器人策略过度依赖海量同构训练数据、难以像人一样借助过往经验迁移到新任务的问题,提出 RAEA:把 Open X-Embodiment 等跨平台轨迹组织成外部策略记忆库,用多模态 policy retriever 按指令和观测检索相似经验,再由带交叉注意力的 policy generator 将检索到的观测、动作与本体状态融入当前动作预测。实验覆盖 Meta-World、ManiSkill2、Franka Kitchen 和真实场景,整体优于非检索基线,但给定片段未充分说明具体提升幅度,增益来源中检索与更大数据池各占多少仍不够清楚。

Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models figure
IROS 20252024-04-08

Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models

四足操作

四足操作任务规划语言条件操作

这篇工作针对四足机器人虽已有运动与操作技能、却难以在长时程任务中完成语义推理和跨技能组合的问题,提出分层闭环框架:上层由多个LLM分别负责语义规划、参数计算、代码生成与失败后重规划,下层以强化学习提供行走、攀爬和双足操作等技能,并把离散步骤与连续参数统一成可执行机器人代码。在拨动高位灯开关、送包裹、搭桥、乘电梯四类任务中,方法仿真成功率超过70%,且已在真实机器上完成验证。

CoBT: Collaborative Programming of Behaviour Trees from One Demonstration for Robot Manipulation figure
ICRA 20242024-04-08

CoBT: Collaborative Programming of Behaviour Trees from One Demonstration for Robot Manipulation

程序化规划

数据需求量大程序化规划模仿学习泛化操作

面向中小制造中频繁换型、传统示教与重编程成本高的问题,CoBT尝试用一次演示就生成可部署的行为树。方法上,它先将单次示教自动切分为符号状态与动作片段,再把DMP动作原语嵌入原子行为树,并用逻辑式声明学习将其组合为可响应环境变化、还能按用户目标调整参数的任务结构,从而同时覆盖动作泛化与任务级反应性。论文在7个操作任务上报告约93%的总体成功率,平均编程时间为7.5秒,并补充了非专家用户可用性试验。

Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation figure
RoboSoft 20242024-04-05

Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation

灵巧操作

灵巧操作软体机器人强化学习触觉机器人学习操作

面向软体手多物体在手旋转中“每个物体都要单独训练RL控制器、顺序学习又会遗忘”的问题,论文提出持续策略蒸馏框架:先为各对象训练PPO专家,再以离线示范和基于样本回放的蒸馏,把多个专家逐步并入一个学生策略,在不保留原始训练数据的前提下缓解灾难性遗忘。仿真结果表明,该方法能在四指软体抓手上整合不同形状和尺寸物体的操作技能,且回放策略、缓冲区大小与样本选择会显著影响泛化与知识保留,但具体数值增益文中未充分说明。

JUICER: Data-Efficient Imitation Learning for Robotic Assembly figure
IROS 20242024-04-04

JUICER: Data-Efficient Imitation Learning for Robotic Assembly

数据需求量大

数据需求量大模仿学习数据采集数据增强操作应用

论文关注机器人模仿学习里“数据该怎么扩”而非单纯多收集,动机是现有操作模型受限于数据瓶颈。其核心洞察是“多样性并非越多越好”:任务多样性比单任务演示数更重要,单机体预训练也能迁移到不同机器人,而专家差异会因速度多峰分布干扰学习,因此提出分布去偏来缓解。实验表明该方法可带来约15%提升,约等价于2.5倍预训练数据,并观察到在保持任务多样性时性能随数据规模呈较稳定的 scaling 规律。

Generalizing 6-DoF Grasp Detection via Domain Prior Knowledge figure
CVPR 20242024-04-02

Generalizing 6-DoF Grasp Detection via Domain Prior Knowledge

抓取

抓取泛化感知操作

这篇工作关注6-DoF抓取在新物体上的泛化退化:仅靠数据分布学习,遇到形状和结构差异大的目标时容易给出错误或不稳定抓取。作者的关键思路是把抓取领域先验直接注入流程中:训练时用基于SDF的物理约束正则,约束预测满足接触与受力规则;测试时再用投影接触图配合抓取得分做联合优化,细化杂乱场景中的不稳姿态。结果上,方法在GraspNet-1Billion的新物体集合上取得显著提升,并在真实机器人实验中验证有效,但摘要片段未给出具体提升幅度。

DeepCraft: Imitation Learning Method in a Cointelligent Design to Production Process to Deliver Architectural Scenarios figure
AI 20242024-04-02

DeepCraft: Imitation Learning Method in a Cointelligent Design to Production Process to Deliver Architectural Scenarios

模仿学习

模仿学习应用

论文面向建筑建造中“工匠经验难数字化、纯自动化又丢失人类创意”的矛盾,提出用GAIL结合行为克隆,让AI从人的演示中学习手势驱动的机器人路径与空间装配生成。其核心洞察是把“师傅带徒弟”的模仿机制嵌入DfMA流程,在Unity/Rhino数字孪生中实现自主或半自主共创。结果表明系统能生成可执行工具路径和可扩展空间方案,但验证主要停留在数字环境,物理机器人落地、结构反馈与定量增益文中未充分说明。

APEX: Ambidextrous Dual-Arm Robotic Manipulation Using Collision-Free Generative Diffusion Models figure
IROS 20242024-04-02

APEX: Ambidextrous Dual-Arm Robotic Manipulation Using Collision-Free Generative Diffusion Models

Diffusion Policy

Diffusion Policy双臂机器人学习操作

这篇工作针对双臂灵巧操作中高维协同、任务复杂和动态障碍并存、传统规划难兼顾实时性与多样性的问题,提出 APEX:先把多类双臂任务蒸馏为“两向量对齐”,再用潜空间扩散模型生成多样轨迹,并用 classifier guidance 融合障碍与目标信息以引导无碰撞采样。文中在真实双臂平台和仿真上完成堆叠、开盖、搅拌、倒液等任务,报告其成功率和轨迹平滑性优于传统运动规划;但公开材料中量化增益细节仍未充分说明。

Learning Visual Quadrupedal Loco-Manipulation from Demonstrations figure
IROS 20242024-03-29

Learning Visual Quadrupedal Loco-Manipulation from Demonstrations

四足操作

移动操作四足操作模仿学习感知操作

论文的动机是让四足机器人不依赖额外机械臂、仅靠腿完成真实场景中的移动操作,因为现有腿式操作往往任务专用、精度有限且难兼顾机动性。作者提出分层学习框架:底层用RL实现全身稳定与足端精确跟踪,上层用基于点云的扩散式BC预测参数化操作轨迹,把视觉感知、示教学习和动态控制对齐,并支持在并行仿真中高效收集示范。最终,Aliengo在仿真和实机中完成了边走边提篮子、关洗碗机门、按按钮和推门等任务。

RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point Cloud Segmentation figure
CoRL 20242024-03-28

RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point Cloud Segmentation

3D 表征

3D 表征模仿学习感知机器人学习操作

该工作针对现有SE(3)等变操作方法依赖点云分割和描述子场匹配、推理慢且难扩展到铰接物体的问题,提出端到端RiEMann:直接从整场景点云预测6-DoF目标位姿,用显著性图先裁剪关注区域,再以平移可供性场和三组等变向量基加Gram-Schmidt表示旋转,并指出四元数、欧拉角等并非可训练的SE(3)等变参数化。仿真与实机5类25种任务中,它仅需5到10次演示即可学习,在成功率和位姿测地误差上优于基线,误差降68.6%,推理约5.4 FPS,还支持部分铰接操作。

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics figure
RSS 20242024-03-28

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics

模仿学习

模仿学习感知机器人学习操作

论文关注机器人在数据稀缺场景下如何用极少示教学会新操作,因为传统模仿学习往往依赖大量演示或额外微调。作者提出KAT,把视觉观测中的关键点和低层动作离散成文本式token,直接交给现成的文本Transformer做上下文模仿学习,把LLM当作通用序列模式机而非语言规划器;在多项真实日常任务中,仅用不超过10次示教就达到或超过扩散策略的低数据表现,但长上下文下的扩展性仍较弱。

Uncertainty-Aware Deployment of Pre-trained Language-Conditioned Imitation Learning Policies figure
IROS 20242024-03-27

Uncertainty-Aware Deployment of Pre-trained Language-Conditioned Imitation Learning Policies

模仿学习

模仿学习VLA安全语言条件机器人学习

这篇工作关注预训练语言条件模仿学习策略在新环境部署时“会做但不知自己何时不可靠”的问题,认为瓶颈不只是策略精度,而是动作置信度严重失准。方法上,它先用少量目标任务示范做 temperature scaling 校准,再依据校准后的动作分布聚合邻近候选动作信息进行不确定性感知决策。仿真中对 PerAct、RVT、CLIPort 均有提升,如 PerAct 0.382→0.414、RVT 0.602→0.623;但增益可能主要来自 scaling/少量目标任务数据,且文中未充分说明真实机器人效果。

LocoMan: Advancing Versatile Quadrupedal Dexterity with Lightweight Loco-Manipulators figure
IROS 20242024-03-27

LocoMan: Advancing Versatile Quadrupedal Dexterity with Lightweight Loco-Manipulators

四足操作

四足操作操作非学习控制

这篇工作针对四足机器人“裸机体难做高精度操作、顶置机械臂又增重且难进狭窄空间”的矛盾,提出把两只轻量低成本3自由度“loco-manipulator”装在前小腿上,并与腿部关节协同形成大工作空间的6D操作器;同时扩展统一全身控制器与状态机,实现机身和末端的稳定6D跟踪。实验表明,在载重增幅不足2.5%的情况下,单臂/双臂工作空间分别提升99.01%和118.28%,平均位姿误差为1.89 mm、0.047 rad,并完成开门、插充电器、低矮狭缝抓取和双臂提篮等任务。

HGGD: Efficient Heatmap-Guided 6-Dof Grasp Detection in Cluttered Scenes figure
RA-L 20232024-03-27

HGGD: Efficient Heatmap-Guided 6-Dof Grasp Detection in Cluttered Scenes

抓取

抓取感知操作

论文针对杂乱场景6-DoF抓取中两类常见问题:采样-评估式方法太慢、整幅点云/逐点回归又难同时利用全局语义与局部几何,提出HGGD。其核心洞察是用RGB-D图像中的抓取热力图先筛出“可抓区域”,再对这些局部点云做语义到点级融合,并结合高斯编码、网格化预测和非均匀锚点采样生成更准且更多样的抓取姿态。结果上,该方法在两个代表性数据集上实现实时的SOTA性能,实机抓取成功率达94%,杂乱堆清空率为100%;但各设计带来多大独立增益,文中未充分说明。

RoboDuet: Learning a Cooperative Policy for Whole-body Legged Loco-Manipulation figure
RA-L 20252024-03-26

RoboDuet: Learning a Cooperative Policy for Whole-body Legged Loco-Manipulation

四足操作

移动操作四足操作操作

这篇论文针对四足机械臂难以同时实现稳定移动、全身协同与大范围6D末端位姿跟踪的问题,提出RoboDuet:将控制拆成运动策略与手臂策略,后者除控臂外还给机身俯仰/横滚提供引导,并用两阶段训练复用运动先验,避免统一策略难学。实验表明其在多种全身移动操作任务上成功率较基线提升23%,且可在形态和尺寸相近的四足平台间零样本迁移;不过增益中双策略解耦与两阶段训练各自贡献,文中未充分说明。

Visual Whole-Body Control for Legged Loco-Manipulation figure
CoRL 20242024-03-25

Visual Whole-Body Control for Legged Loco-Manipulation

四足操作

移动操作四足操作人形操作感知操作

论文关注四足移动操作中“仅靠机械臂够不到、轮式底盘又难走”的问题,核心洞察是把腿从单纯移动机构变成操控自由度,通过分层 VBC 让低层RL统一跟踪机身速度与末端位姿,高层视觉策略依据前视/腕视掩码深度提出中间目标,并用教师-学生蒸馏实现纯仿真到真机迁移。实验证明其在 B1+Z1 上可零真机数据抓取14类物体,覆盖地面、箱面和桌面等不同高度,显著优于静态机身基线,并出现一定重试与场景泛化能力。

FlexLoG: Rethinking 6-Dof Grasp Detection: A Flexible Framework for High-Quality Grasping figure
PR 20252024-03-22

FlexLoG: Rethinking 6-Dof Grasp Detection: A Flexible Framework for High-Quality Grasping

抓取

抓取感知操作

这篇工作认为传统6-DoF抓取多从整场景建模,难兼顾目标导向抓取且对未见物体泛化不足,因此把问题改写为“以抓取区域为中心”的局部预测。FlexLoG用可兼容全局热图、检测框或点击等信号的灵活引导模块先选局部区域,再由局部抓取模型在对象无关的区域点云上生成抓取,从而统一场景级与目标级抓取。实验中其在GraspNet未见划分上较基线提升超18%和23%,真实机器人三种设置平均成功率达95%。

DITTO: Demonstration Imitation by Trajectory Transformation figure
IROS 20242024-03-22

DITTO: Demonstration Imitation by Trajectory Transformation

模仿学习

数据需求量大模仿学习泛化

这篇工作想解决机器人学新技能示教成本高、依赖遥操作或本体演示的问题,提出 DITTO:只看一次人类 RGB-D 操作视频,先离线分割并跟踪被操纵物体,提取其相对容器/环境的 3D 对象位姿轨迹,再在新场景中重检测物体并对轨迹做几何变换后执行。核心洞察是用“对象相对位姿”而非末端动作表示技能,以跨越人机形态差异做 one-shot 迁移。作者在 10 类任务和真实机器人上验证了效果,但方法明显依赖分割、对应和抓取等外部模块,整体增益来源不完全清晰。

Visual Imitation Learning of Task-Oriented Object Grasping and Rearrangement figure
IROS 20242024-03-20

Visual Imitation Learning of Task-Oriented Object Grasping and Rearrangement

抓取

抓取3D 表征模仿学习感知操作

这篇工作针对任务导向抓取与重排在真实场景中常受单视角遮挡和类别内形状差异影响、导致示教难迁移的问题,提出多特征隐式模型 MIMO,在同一神经场中联合编码点到物体的多种空间特征,形成更稳定的 SE(3) 等变点/位姿描述子,并兼顾局部对应、形状补全与物体间空间关系建模。基于此,作者从单个或少量人类视频示教中迁移抓取与目标摆放,并用评估网络做抓取筛选与细化;仿真中优于 NDF/NIFT,真实机器人对未见物体的平均抓取/重排成功率约达 0.95/0.88,明显高于 NIFT 的 0.88/0.55。

YAY Robot: Yell At Your Robot: Improving On-the-Fly from Language Corrections figure
RSS 20242024-03-19

YAY Robot: Yell At Your Robot: Improving On-the-Fly from Language Corrections

模仿学习

模仿学习机器人学习

这项工作针对长时序灵巧操作中“步骤一多就容易在中途失败”、而整段遥操作示范又昂贵的问题,提出 YAY Robot:让高层策略输出语言指令,并把人类口头纠错直接作为监督,既可实时覆盖当前决策,又可像在语言动作空间上做 DAgger 一样迭代微调高层策略,从而同时补救低层执行误差和高层规划失误。真实双臂任务中,实时口头纠错将成功率从15%提到50%,纳入训练后可达45%,且无需额外遥操作。

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers figure
RSS 20242024-03-19

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

视频规划

视频规划模仿学习Transformer Policy机器人学习

这篇工作针对仅靠文本或目标图像难以表达细粒度操作方式的问题,尝试让机器人直接“看人做”来推断意图,并在不同形态、不同场景中完成同类操作。方法上,作者构建人/机器人提示视频—机器人轨迹配对数据,用跨注意力Transformer融合提示视频与当前机器人状态,并加三种对比损失对齐人和机器人视频表征。真实机器人实验中,人类提示下相对BC-Z成功率提升超20%,跨物体动作迁移也提升约17%;但增益有多少来自结构设计、多少来自更大配对数据,文中未充分拆解。

Subgoal Diffuser: Coarse-to-fine Subgoal Generation to Guide Model Predictive Control for Robot Manipulation figure
ICRA 20242024-03-19

Subgoal Diffuser: Coarse-to-fine Subgoal Generation to Guide Model Predictive Control for Robot Manipulation

任务规划

任务规划Diffusion Policy机器人学习操作

这篇工作针对可形变或关节物体操作中,短视野MPC虽能抗扰动却难以处理长时程任务、易陷入局部最优的问题,提出 Subgoal Diffuser:用扩散模型以由粗到细的方式生成子目标,并依据学习到的可达性动态决定子目标的疏密,把更多指导分配到更困难的阶段,而低层控制仍由MPC完成。文中在笔记本与绳索操作上表明,该方法较纯MPC和既有扩散式方法更容易完成长程任务,但具体增益幅度文中未充分说明。

LILAC: Yell At Your Robot: Improving On-the-Fly from Language Corrections figure
RSS 20242024-03-19

LILAC: Yell At Your Robot: Improving On-the-Fly from Language Corrections

人机交互

多智能体/多机器人人机交互

这篇工作针对长时程灵巧操作中“步骤一多就容易某一步失败”,而整段示教又很昂贵的问题,提出把语言条件低层技能视作高层策略的动作空间:人类可直接用口头纠正临时接管机器人,事后再用这些纠正微调高层策略,形成类似高层 DAgger 的持续改进机制。实机双臂装袋、配零食、清理软糖三项任务中,在线口头纠正把成功率从15%提到50%,仅靠迭代吸收语言反馈也能从15%提到45%,且无需额外遥操作。

Dynamic Manipulation of Deformable Objects using Imitation Learning with Adaptation to Hardware Constraints figure
IROS 20242024-03-19

Dynamic Manipulation of Deformable Objects using Imitation Learning with Adaptation to Hardware Constraints

移动操作

移动操作可变形物体模仿学习操作

面向塑料袋等可变形物体的动态操作难以依赖仿真,且人类示教动作常因机器人速度、加速度和关节约束无法直接复现。该文提出先用满足硬件约束的受限DMP把单次人类示教映射为可执行的双臂动态动作,再用准静态微调按任务指标修正开口形状;其关键洞察是动态阶段应优先保留足够的速度与加速度,而非死跟示教轨迹。BILBO在单次示教下即可打开多种尺寸、材质、且高度揉皱的袋子,表现出较好的泛化。

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset figure
RSS 20242024-03-19

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

基础模型

基础模型操作数据集/Benchmark

这篇工作针对机器人操作数据长期局限于少量实验室场景、导致泛化不足的问题,构建了“野外”分布式采集数据集 DROID:在统一 Franka 平台上跨 13 家机构收集 7.6 万条示范,覆盖 564 个场景、86 类任务,并提供多视角 RGB、深度、标定和语言指令。实验表明,用 DROID 训练的策略在 6 个任务、4 类地点上平均提升约 20%;增益看起来主要来自数据规模与场景多样性,而非新算法,因为文中沿用了现有 diffusion policy。

Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types figure
ICRAW 20242024-03-19

Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types

模仿学习

模仿学习泛化感知操作应用

这篇工作针对辅助喂食中“舀取”动作对碗的材质、尺寸、位置和食物形态很敏感、传统手工轨迹或低层动作难泛化的问题,提出 AVIL:把视觉模仿学习与空间注意力结合,让机器人从演示中聚焦碗内关键区域并自适应调整舀取。实机实验显示,模型只用透明玻璃碗加谷物数据训练,却能零样本迁移到不同塑料碗、果冻和水,并在有干扰物时仍优于手工基线,成功指标最高提升 2.5 倍;但各模块增益来源文中未充分拆解。

VITaL Pretraining: Visuo-Tactile Pretraining for Tactile and Non-Tactile Manipulation Policies figure
ICRA 20252024-03-18

VITaL Pretraining: Visuo-Tactile Pretraining for Tactile and Non-Tactile Manipulation Policies

触觉

触觉基础模型机器人学习操作

论文关注这样一个问题:触觉对精细操作很关键,但触觉传感器昂贵、易磨损,部署并不总现实。作者提出VITaL,先用带时间信息的视触对比预训练把视觉与触觉对齐到共享潜空间,再用于ACT和Diffusion Policy;更重要的是,丢弃触觉分支后,视觉策略仍可继承“隐式触觉”表征。在USB插接和堆叠任务中,视触策略多为中等增益并更抗过拟合,视觉策略提升更大,如USB成功率由20%升至85%,接近甚至超过视触策略;但增益来源的细致拆解文中未充分说明,且预训练依赖任务特定数据。

LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning figure
IROS 20242024-03-18

LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning

任务规划

任务规划语言条件

这篇工作针对传统TAMP依赖人工编写任务—运动接口、难以迁移到新场景的问题,提出LLM3:让预训练LLM同时生成符号动作、连续参数,并把运动规划失败按“碰撞/不可达”结构化反馈回提示中,迭代修改计划与参数。仿真盒装箱实验显示,这种失败推理显著提升成功率并减少运动规划查询,LLM参数采样也比随机更高效;真实机械臂实验验证了可落地性,但评测主要集中在单一装箱域,泛化增益仍文中未充分说明。

ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models figure
IROS 20242024-03-17

ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

Affordance

Affordance语言条件操作数据集/Benchmark

这篇工作针对通用多模态大模型缺少可供性与物理属性知识、难以胜任机器人操作的问题,提出 ManipVQA:把工具检测、部件/可供性定位和物理属性判断统一改写为 VQA,并融合多种现有数据集与 GPT-4 扩展指令进行微调,在尽量保留原有视觉推理能力的同时注入操作知识。文中报告其在机器人仿真和多项视觉基准上表现稳健,但具体提升有多少、增益究竟来自统一建模还是数据扩充,文中未充分说明。

HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation figure
RSS 20242024-03-15

HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation

人形操作

移动操作人形操作操作数据集/Benchmark

针对人形机器人研究受限于真机昂贵、脆弱且难以大规模试验,HumanoidBench提出一个基于MuJoCo的高维仿真基准:以带灵巧手的人形机器人为核心,覆盖15个全身操作和12个移动任务,强调长时程、多部位协同与大动作空间控制。实验表明,现有SOTA强化学习在多数任务上明显吃力;若配合稳健的底层行走、伸手等技能,分层学习能取得更高成功率,说明人形全身控制的关键瓶颈在层级化设计与低层技能质量。

GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping figure
RA-L 20242024-03-14

GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping

抓取

抓取3D 表征操作

这篇工作面向开放词汇抓取中“既要听懂语言、又要拿得稳”的需求,指出NeRF类隐式特征场通常需要多视角采集且推理较慢,不利于机器人在线操作。作者改用3DGS显式构建语言特征场,并提出EFD模块结合SAM/CLIP与对比学习蒸馏出更一致、边界更清晰的3D语义,再利用重建几何和表面法向筛选可行抓取姿态。真实桌面实验表明,该系统可在少量RGB-D视角下完成零样本语言定位、抓取与场景更新。

BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation figure
CoRL 20222024-03-14

BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation

操作

移动操作操作数据集/Benchmark

这项工作针对现有机器人基准多由研究者预设任务、未必真正对应用户需求的问题,先通过1461名参与者的问卷,从约2090个候选中筛出最希望机器人代劳的活动;在此基础上构建BEHAVIOR-1K:用谓词逻辑定义1000项日常任务,覆盖50类场景与9000余物体,并在OMNIGIBSON中提供刚体、可形变体、液体及温度、脏污等状态的真实仿真。结果显示这些任务普遍长时程且依赖复杂操作,当前最先进RL/动作原语基线仍难解,文中只给出初步sim2real校准。

3D-VLA: A 3D Vision-Language-Action Generative World Model figure
ICML 20242024-03-14

3D-VLA: A 3D Vision-Language-Action Generative World Model

3D 表征

3D 表征VLA世界模型机器人学习

这篇工作针对现有VLA只依赖2D输入、把感知直接映射为动作而缺少对3D物理动态与未来状态建模的问题,提出3D-VLA:以3D-LLM为骨干,引入场景/对象/动作交互token,并将图像、深度和点云扩散生成器对齐到语言模型里,先“想象”目标状态再规划动作,同时构建约200万条3D具身指令数据。结果主要在held-in数据上,相比BLIP2/3D-LLM在问答、任务描述、定位和规划上明显提升,但增益来源可能部分来自数据规模,真实闭环泛化文中未充分说明。

VIHE: Virtual In-Hand Eye Transformer for 3D Robotic Manipulation figure
IROS 20242024-03-13

VIHE: Virtual In-Hand Eye Transformer for 3D Robotic Manipulation

灵巧操作

灵巧操作3D 表征VLATransformer Policy机器人学习操作

论文针对现有3D机器人操作往往把整个工作空间均匀建模、忽略末端执行器附近更关键的视觉偏置,导致高精度任务如插销装配既难学又耗算力的问题,提出VIHE:先用全局视角预测初始动作,再依据前一阶段预测的夹爪位姿渲染“虚拟手眼”局部视图,并通过带跨阶段掩码注意力的Transformer迭代细化相对SE(3)动作。结果上,VIHE在RLBench 18个任务中用每任务100条演示把成功率从65%提升到77%,还可用约5倍更少训练时间达到先前SOTA水平,真实机器人上也表现出少样本学习能力。

MoMa-LLM: Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation figure
RA-L 20242024-03-13

MoMa-LLM: Language-Grounded Dynamic Scene Graphs for Interactive Object Search with Mobile Manipulation

移动操作

移动操作任务规划3D 表征语言条件操作

这篇论文关注大尺度、未知且可交互室内环境中的长时程找物问题,指出现有LLM规划常依赖已知场景,且难统一处理探索、导航与开门开柜等操作。MoMa-LLM的核心是边探索边构建开放词汇动态场景图,将房间—物体关系提炼成紧凑文本状态供LLM推理,并结合以物体为中心的动作空间做零样本决策。结果表明,它在仿真和真实公寓的语义交互式搜索中都比传统方法和现有SOTA更高效,且可扩展到更抽象的家务任务。

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation figure
ECCV 20242024-03-13

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation

3D 表征

3D 表征世界模型机器人学习操作

这篇工作针对语言驱动操作中“只看语义、不显式建模物体交互动态”导致动作预测失准的问题,提出 ManiGaussian:在 3D Gaussian Splatting 的高斯嵌入空间中建模语义随时间传播,并用高斯世界模型根据当前观测与动作重建未来场景,以未来重建一致性监督学习场景级时空动力学。RLBench 上 10 个任务、166 个变体的平均成功率较现有最优方法提升 13.1%,且计算量更低;但文中也承认其仍依赖多视角监督和相机标定。

CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models figure
IROS 20242024-03-13

CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models

任务规划

任务规划几何约束规划基础模型操作

这篇论文的出发点是:基础模型已能做任务规划,但机器人真正落地执行仍常依赖任务专用策略,遇到新物体和新场景就脆弱。CoPa的关键洞察是把操作理解成“物体部件的空间约束满足”问题,用VLM先经粗到细定位与任务相关的抓取/作用部件,再把表面、方向和相对位置等约束转成6-DoF抓取后位姿,并交给传统运动规划执行。文中实物实验表明其能处理开放词汇指令与长时程组合任务,效果明显优于VoxPoser,但具体成功率数值在给定材料中未充分说明。

TeleMoMa: A Modular and Versatile Teleoperation System for Mobile Manipulation figure
ICRAW 20242024-03-12

TeleMoMa: A Modular and Versatile Teleoperation System for Mobile Manipulation

数据采集

移动操作数据采集遥操作操作

论文针对移动操作模仿学习缺少示范数据这一瓶颈,指出难点不只在学习算法,而在于同时控制底盘与单/双臂时缺少易用、可扩展的遥操作接口。TeleMoMa 的核心是把视觉、VR、键盘、手柄等输入做成可组合的模块化全身遥操作框架,甚至仅靠 RGB-D 相机也能采集示范,在可达性与表达性之间折中。实验表明它可在 Tiago、HSR、Fetch 的仿真与真机上直接使用;其中 vision+VR 对新手最自然高效,采集的数据还能训练出需要底盘—手臂协同的模仿学习策略,并支持远程遥操作。

OPEN TEACH: A Versatile Teleoperation System for Robotic Manipulation figure
CoRL 20242024-03-12

OPEN TEACH: A Versatile Teleoperation System for Robotic Manipulation

数据采集

数据采集遥操作操作

论文针对现有遥操作平台专有、昂贵且强依赖特定机器人形态的问题,提出基于 Meta Quest 3 的开源混合现实系统 OPEN TEACH,以免校准手势追踪和 90Hz 视觉/控制闭环统一驱动机械臂、灵巧手、双臂和移动操作。其关键洞察是即便不显式建模机器人运动学,高频反馈也能让人实时补偿误差。实验覆盖 38 个仿真与真实任务,15 人用户研究优于 AnyTeleop,所采数据训练策略在 10 个任务上平均成功率达 86%。

Learning Generalizable Feature Fields for Mobile Manipulation figure
IROS 20252024-03-12

Learning Generalizable Feature Fields for Mobile Manipulation

四足操作

移动操作四足操作3D 表征泛化操作

这篇工作针对移动操作中“导航看大尺度、操作看细粒度”表征割裂的问题,提出统一隐式场景表示 GeFF:以可泛化 NeRF 的新视角合成为预训练任务,再蒸馏 CLIP 语义,并通过单次前向而非逐场景优化,从机载 RGB-D 流实时解码几何与语言对齐特征。作者在四足机械臂上验证了开放词汇物体/部件操作和语义导航,平均物体级与部件级成功率较最佳基线提升 19.2 个百分点,且实时性与存储-精度权衡更优。

DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation figure
CoRL 20242024-03-12

DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation

灵巧操作

灵巧操作数据采集遥操作操作

论文针对灵巧操作中“高质量示范难采、视觉手跟踪易遮挡、人与机器人手型差异难迁移”的问题,提出便携式 DexCap 与 DexIL:前者用电磁手套+手背相机 SLAM+胸前 RGB-D 稳定采集手指、腕部 6DoF 和场景点云,后者用 IK 重定向和点云行为克隆直接学机器人控制。实验覆盖 6 个任务,整体优于视觉或无纠错基线;剪刀任务可达 45% 抓取、20% 剪切,泡茶任务经 30 次人类纠错后整任务成功率达 25%。

RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models figure
RA-L 20242024-03-11

RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models

强化学习

强化学习RL+IL触觉语言条件机器人学习操作

这篇工作针对机器人操作中强化学习从零探索、样本效率低且在稀疏奖励下易失败的问题,提出RLingua:先用提示工程让大语言模型写出可执行的低层规则控制器,再在TD3训练中以随时间衰减的概率用该控制器采样,并在actor损失中加入模仿正则,把LLM先验转成在线探索偏置。结果显示,它在panda_gym上显著降低样本复杂度,在12个RLBench稀疏奖励任务上取得高成功率而标准TD3常失败,并能经Sim2Real迁移到真实机器人。

STP: Spatiotemporal Predictive Pre-training for Robotic Motor Control figure
arXiv2024-03-08

STP: Spatiotemporal Predictive Pre-training for Robotic Motor Control

3D 表征

3D 表征基础模型机器人学习操作

这篇工作针对机器人视觉预训练常只学静态外观、忽视人类操作视频中运动线索的问题,提出 STP:在大规模第一视角视频上同时做空间重建和时间预测,对当前帧做较高比例遮挡恢复,对未来帧用极高比例遮挡作条件,并以解耦双解码器分别学习内容与动作相关表征。结果显示,STP 在仿真与真实机器人操作中相对 MAE 等基线更强,尤其在未见环境和干扰物更多时泛化更好;再结合混合预训练与任务内 post-pretrain,还能进一步提升数据效率。

Interactive Perception for Deformable Object Manipulation figure
RA-L 20242024-03-08

Interactive Perception for Deformable Object Manipulation

可变形物体

可变形物体3D 表征感知操作

本文关注可变形物体操作中的交互感知难题:物体自由度高、形变导致严重遮挡,静态视觉难以支撑连续决策。作者将主动相机与操纵臂联合建模为 POMDP,并提出 DAVS,用基于关注结构的“带边界流形”动态约束相机可行动作空间,从而显式利用相机—物体—操纵动作的耦合规律。仿真和双臂实机结果表明,主动视角与协调运动都是必要的,DAVS 比基线更优,且能泛化到未见过的袋体形状和动力学。

GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot figure
IROS 20242024-03-08

GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot

四足操作

四足操作VLA基础模型操作

这篇工作针对四足机器人多任务操作中“示教数据昂贵、纯模仿学习受专家上限约束”的问题,提出 GeRM:把 VLA 解码器放进离线强化学习框架,联合利用少量示范与大量自动采集的次优/失败轨迹(QUARD-Auto),并用稀疏 MoE Transformer 在基本不显著增加计算的情况下扩大策略容量。实验显示,GeRM 在 99 个任务上整体优于现有方法,训练与推理效率更好,还出现了动态避障与自适应路径规划等涌现能力。

Efficient Data Collection for Robotic Manipulation via Compositional Generalization figure
RSS 20242024-03-08

Efficient Data Collection for Robotic Manipulation via Compositional Generalization

数据需求量大

数据需求量大数据采集泛化操作

这篇论文关注机器人操作中示教数据昂贵、难以覆盖所有环境组合的问题。核心洞察是视觉模仿策略对物体类型、桌面高度/纹理、相机位姿等因素具备一定组合泛化,因此域内采集不必穷举全部组合,而应按能促成“因素重组”的方式组织数据。作者据此提出 Stair、L 等采集策略,并发现真实机器人上先验数据(如 BridgeData V2)是关键条件:组合测试达到59/90,新环境迁移成功率77.5%,而不显式考虑环境变化时仅2.5%。

RialTo: Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation figure
RSS 20242024-03-06

RialTo: Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation

泛化

泛化Sim2Real安全操作

这篇工作针对机器人操作中“模仿学习不够鲁棒、真实世界强化学习又昂贵且不安全”的矛盾,提出 RialTo:先用少量真实数据快速重建部署场景的数字孪生,再把真实演示通过“逆蒸馏”搬到仿真中,用稀疏奖励RL补足恢复与抗扰能力,最后回传到真实机器人。实验覆盖8个真实操作任务,在干扰、位姿变化和视觉杂波下显著更稳健,鲁棒性提升超过67%,且减少了奖励设计、场景建模和真人示教负担。

HDP: Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation figure
CVPR 20242024-03-06

HDP: Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation

Diffusion Policy

Diffusion Policy机器人学习操作

这篇论文针对多任务机械臂操作中的两难:高层关键位姿规划适合长时程决策,但传统规划器不懂任务上下文;端到端连续控制又往往难学且泛化差。作者提出分层扩散策略HDP:上层用语言条件的NBP代理预测下一关键末端位姿,下层用具运动学约束的RK-Diffuser生成关节轨迹,并通过可微运动学把更准确的末端位姿轨迹蒸馏到关节空间。实验中,HDP在11个RLBench任务上总体成功率达80.2%,优于PerAct+规划器、ACT和普通Diffusion Policy,并可用20条真实演示完成烤箱开启任务。

DP3: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations figure
RSS 20242024-03-06

DP3: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

3D 表征

3D 表征Diffusion Policy泛化机器人学习

这篇工作针对视觉模仿学习在真实机器人上常常依赖大量示教、且2D表征泛化差并易产生危险动作的问题,提出DP3:将稀疏点云用轻量MLP编码为紧凑3D表示,再条件化扩散策略生成动作序列。其关键洞察是,简单点云表征比体素、深度或更重的3D架构更适合扩散控制,在保留空间几何的同时兼顾效率。实验中,DP3在72个仿真任务里仅用10条示教就较基线相对提升24.2%,在4个真实任务中每任务40条示教取得85%成功率,并表现出空间、视角、外观和实例泛化以及更少安全违规。

RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches figure
CoRL 20242024-03-05

RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

模仿学习

模仿学习数据采集数据增强

这篇工作针对语言目标易含糊、目标图像又过度绑定像素细节的问题,提出用手绘草图作为机器人模仿学习的目标表示,并把RT-1改成“草图+观测历史”条件策略,再用图像到草图模型为80K示范自动重标注。实机六类操作中,它在常规场景与语言/图像条件方法相当,但在语言歧义或视觉干扰下空间对齐评分约提升2倍;不过增益究竟来自草图表示本身,还是大规模数据与合成重标注,文中拆分仍未充分说明。

MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting figure
RSS 20242024-03-05

MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

任务规划

任务规划多模态推理Affordance感知操作

这篇工作针对开放世界操作中“VLM能理解指令却难直接落到机器人控制”的落差,提出 MOKA:用关键点与路径点构成的点式 affordance 作为中间表示,再在图像上加候选标记,把动作生成改写成 VLM 可解的视觉问答/多选推理。文中在工具使用、可变形物体和物体重排等桌面任务上验证了零样本与少样本能力,并称零样本达到 SOTA、结合上下文示例和策略蒸馏还能继续提升;但提供材料里具体增益幅度未充分说明。

Bi-KVIL: Keypoints-based Visual Imitation Learning of Bimanual Manipulation Tasks figure
ICRA 20242024-03-05

Bi-KVIL: Keypoints-based Visual Imitation Learning of Bimanual Manipulation Tasks

模仿学习

模仿学习双臂感知机器人学习操作

这篇论文针对双臂视觉模仿学习难以同时刻画双手协同、物体关系并泛化到新类别杂乱场景的问题,提出 Bi-KVIL:把手也视为特殊对象,自动从约5–10段人类视频中抽取混合主从关系(HMSR)、关键点几何约束与双臂协调策略,并用 Bi-KAC 执行复现。实验在倒水、倒啤酒等真实任务上表明,系统可在杂乱场景中对类别级新物体完成细粒度双臂操作;但文中更偏重任务成功展示,统一基准上的定量增益来源未充分说明。

Behavior Generation with Latent Actions figure
ICML 20242024-03-05

Behavior Generation with Latent Actions

Latent Learning

Latent Learning机器人学习

论文针对行为克隆中连续动作分布多峰、长时序相关强,而 BeT 的 k-means 动作离散化难扩展到高维与长动作序列的问题,提出 VQ-BeT:先用分层残差向量量化学习离散潜在动作,再由 Transformer 预测 token 并解码为连续控制。其核心洞察是把动作生成难点转化为可学习的潜在动作词表建模。实验显示,它在多种模拟操作、自动驾驶和真实机器人任务上普遍优于 BeT 与扩散策略,推理约快 5 倍,真实长时程任务提升最高约 73%。

RT-H: Action Hierarchies Using Language figure
RSS 20242024-03-04

RT-H: Action Hierarchies Using Language

辅助任务

辅助任务VLA机器人学习

针对高层任务语言在语义差异大的多任务操作中难以共享数据、因而需要大量示教的问题,RT-H把“向前移动手臂”这类细粒度“语言运动”作为任务到控制动作之间的中间层,先结合视觉与任务预测语言运动,再据此输出动作,并用机器人状态自动构造约2500个语言运动标签。实验表明,它在多任务上较RT-2提升约15%,语言干预可把成功率提升到接近满分,且基于这类干预的学习比遥操作干预高约50%。

A Taxonomy for Evaluating Generalist Robot Policies figure
RA-L 20262024-03-03

A Taxonomy for Evaluating Generalist Robot Policies

VLA

VLA基础模型机器人学习综述

论文针对机器人通才操作策略“各自定义泛化、评测难复现也难比较”的现状,提出STAR-Gen分类法,把泛化按视觉、语义、行为及其组合细分为14个轴,并给出如何落到可复现实物基准上的设计流程。作者在Bridge V2和更灵巧、长时程的双臂ALOHA 2上完成1600余次真实试验,主要发现是开源VLA模型即便有大规模语言预训练,语义泛化仍明显薄弱;本文贡献主要在评测框架与经验结论,而非模型性能增益。

PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for Data-Efficient Imitation Learning figure
RA-L 20242024-03-01

PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for Data-Efficient Imitation Learning

数据需求量大

数据需求量大可变形物体模仿学习泛化操作

这篇工作针对长时序操作中模仿学习演示成本高、误差易累积的问题,提出 PRIME:先用少量预置行为原语搭脚手架,再通过自监督采集数据训练逆动力学模型,并用动态规划把未标注演示自动解析成“原语+参数”序列,最后只学习高层原语调度策略,从而缩短学习时域并提升泛化。实验中其在多阶段桌面操作上相对SOTA在仿真提升10.0%–33.6%,实机提升20.0%–48.3%,且解析出的原语序列可高成功率复现任务。

Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation figure
RSS 20242024-02-29

Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation

泛化

泛化跨本体操作

论文追问通用机器人策略的跨本体边界:看似差异很大的导航数据,能否反过来提升操作。作者把导航与操作都表述为同一目标到达问题,并通过动作坐标对齐训练单一目标条件策略,让机械臂、轮式/足式平台、无人机共享表示。结果显示,共训使腕载相机操作成功率较纯操作提高约20%,导航在4个平台上较纯导航提高5–7%,还可零样本迁移到新移动操作器和四旋翼;但增益有多少来自任务统一、多少只是更多数据,文中未充分说明。

Mirage: Cross-Embodiment Zero-Shot Policy Transfer with Cross-Painting figure
RSS 20242024-02-29

Mirage: Cross-Embodiment Zero-Shot Policy Transfer with Cross-Painting

泛化

泛化跨本体

这篇工作针对“每换一台机械臂就要重采数据、再微调”的瓶颈,探索在目标机器人零数据条件下的跨本体策略迁移。作者的核心洞察是:对工作空间相近、使用两指夹爪且以笛卡尔末端位姿控制的机械臂,控制差异和视觉差异可拆开处理;Mirage在执行时把目标机器人从图像中抹除,并按同位姿渲染训练时的源机器人,再结合前向动力学与阻塞控制完成动作映射。仿真与Franka/UR5实验证明,其在抓取、堆叠、装配等9类任务上可零样本迁移,性能仅较源策略小幅下降,并显著优于通用策略。

Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation figure
ICRA 20242024-02-29

Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation

模仿学习

模仿学习泛化感知操作

论文关注视觉模仿学习机械臂为何一到新环境就失效,试图把泛化落差拆解到可枚举的环境因素上,而不是笼统归因于 domain gap。作者在真实机器人和新建的 Factor World 仿真基准中系统控制11类变化、19个任务,给出各因素的难度排序并为数据采集优先级提供依据。主要结果是:相机位姿变化最难、背景最易,且多数因素组合不会显著叠加恶化;随机裁剪连对干扰物与纹理这类非空间变化也有帮助,跨任务/跨域视觉多样性数据能明显缩小泛化缺口。

Rethinking Mutual Information for Language Conditioned Skill Discovery on Imitation Learning figure
AAAI 20242024-02-27

Rethinking Mutual Information for Language Conditioned Skill Discovery on Imitation Learning

模仿学习

模仿学习Latent Learning语言条件机器人学习

这项工作针对语言条件模仿学习在长时程、多子任务场景中难以从无奖励数据里发现可复用技能的问题,重新从互信息角度分析语言、状态与技能的关系,提出LCSD:用VQ-VAE学习离散潜技能,并用轨迹技能序列重构高层指令,使技能既与语言对齐又受当前状态约束,再结合扩散策略做行为克隆。实验在BabyAI、LORel和CALVIN上显示,其相较语言条件策略和既有技能方法具有更好的未见任务泛化与技能可解释性,复杂操作任务成功率最高提升约20%。

RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation figure
CoRL 20242024-02-23

RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

任务规划

任务规划3D 表征操作

面向家居场景中“目标被遮挡、需开柜或移物后才显现”的操作难题,RoboEXP把探索重构为可执行场景知识的构建问题,提出动作条件3D场景图ACSG,将几何语义与“执行何种动作会暴露/解锁何物”的关系统一表示,并结合LMM、显式记忆与感知—决策—执行闭环逐步交互建图。实验表明,该系统可在真实复杂场景中零样本探索,显著优于强GPT-4V基线,并支持多类下游操作任务。

Towards Diverse Behaviors: A Benchmark for Imitation Learning with Human Demonstrations figure
ICLR 20242024-02-22

Towards Diverse Behaviors: A Benchmark for Imitation Learning with Human Demonstrations

基础操作

基础操作模仿学习数据采集操作数据集/Benchmark

论文动机是现有人类示教模仿学习基准难以系统评估“同一任务有多种合理解法”时的学习能力。作者提出仿真基准与数据集D3IL,设计了包含多子任务、多物体操作且依赖闭环反馈的任务,并用行为描述符与归一化行为熵等可计算指标量化策略是否真正复现多样行为。基于该套件对多类SOTA方法的评测表明,现有方法即便能完成任务,也常难稳定覆盖人类示教的多峰分布,在视觉输入和小数据设定下问题更明显。

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation figure
CVPR 20242024-02-22

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation

灵巧操作

灵巧操作模仿学习数据采集操作

这篇工作针对灵巧手模仿学习中真实示教昂贵、难规模化且覆盖不足的问题,直接挑战“真实域示教一定最好”的常见假设:作者先在仿真中用低成本遥操作采集少量人类轨迹,再做结合物理与视觉扰动的轨迹级数据增强,并配合自动课程学习训练,最后只用极少真实示教微调完成 sim2real。结果上,真实机器人抓放和旋转任务成功率分别比基线高35%和20%,对未见过的四/五瓣阀仍有42.5%成功率,且对光照和初始位姿变化更稳健。

When a Robot is More Capable than a Human: Learning from Constrained Demonstrators figure
ICLR 20262024-02-20

When a Robot is More Capable than a Human: Learning from Constrained Demonstrators

模仿学习

模仿学习强化学习触觉机器人学习

论文关注“示教者受接口约束、机器人却更强”这一常见错配:人用摇杆或模式切换只能给出低效分段轨迹,直接模仿会把约束一并学进去。作者提出 LfCD-GRIP,不再学专家动作,而是从演示中学习仅依赖状态的目标接近度奖励,并结合置信度筛选与沿探索轨迹的时间插值,为未见状态补全进度奖励。实验显示其在导航和操作任务上普遍优于 BC、GAIL、GAIfO 等基线;真实 WidowX 抓取仅需 12 秒,相比 BC 的约 100 秒快 10 倍。

SPRINQL: Sub-optimal Demonstrations driven Offline Imitation Learning figure
NeurIPS 20242024-02-20

SPRINQL: Sub-optimal Demonstrations driven Offline Imitation Learning

模仿学习

模仿学习强化学习触觉机器人学习

该文针对离线模仿学习里专家演示稀缺、行为克隆易过拟合且直接利用大量次优数据又会学偏的问题,提出 SPRINQL:在逆 soft-Q 学习框架下联合建模专家与多等级次优演示,通过学习权重更强调专家轨迹,并结合分布匹配与奖励正则,将离线 IL 转化为 Q 函数空间上的凸优化,且无需对抗训练。实验显示其在多项离线模仿学习基准上达到或超过现有最佳结果,并能恢复与真实奖励高度正相关的奖励信号。

DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models figure
ICRA 20242024-02-20

DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models

数据需求量大

数据需求量大3D 表征数据采集数据检索基础模型操作

论文针对机器人缺乏大规模动作数据、把基础模型仅当视觉骨干仍需大量示教的问题,提出 DINOBot:不直接学习端到端策略,而是用 DINO-ViT 先在示教记忆中检索语义上最相近的物体,再基于像素级对应完成末端与新物体的几何对齐并回放轨迹。真实机器人实验表明,它在抓取、倾倒、插入等任务上可实现单次示教学习,并以更高的数据与时间效率泛化到新物体、干扰场景和多阶段任务。

Pedipulate: Enabling Manipulation Skills using a Quadruped Robot's Leg figure
ICRA 20242024-02-16

Pedipulate: Enabling Manipulation Skills using a Quadruped Robot's Leg

四足操作

四足操作操作

论文针对四足机器人加装机械臂会增加重量、能耗与机械复杂度的问题,探索直接“以腿代臂”完成操作。其核心是训练一个强化学习低层控制器,把足端位置跟踪作为统一接口,并通过坐标变换和课程式目标采样,让机器人在近距离依靠全身协调扩大工作空间、在远距离自然涌现三足步态,实现行走与操作一体化。作者在ANYmal D上遥操作完成开门、开冰箱、按按钮、推障和采样等任务,足端可搬运超过2 kg,并对足端/机身扰动及湿滑地面表现出较强鲁棒性。

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations figure
CoRL 20242024-02-16

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

3D 表征

3D 表征Diffusion Policy机器人学习

机器人操作往往一态多解,且2D视觉策略需要隐式学会2D到3D映射,泛化受限。本文把扩散策略与3D场景表征结合,提出3D Diffuser Actor:将语言、本体感觉、token化3D场景与带噪末端执行器轨迹放入同一3D空间,用相对位置3D注意力做去噪预测。消融表明,增益主要来自3D token表征和相对注意力,而非2D表征、回归/分类目标或整体点云池化。其在RLBench多视角和单视角上分别较前SOTA绝对提升18.1%和13.1%,在CALVIN上相对提升9%,并能用少量真机示教学习12项任务。

Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots figure
RSS 20242024-02-15

Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

数据采集

数据采集遥操作操作

这项工作针对传统机器人遥操作采集成本高、野外人类视频又存在具身差距的问题,提出 UMI:用手持夹爪而非真实机器人在任意环境采集示教。其关键洞察是,迁移效果取决于示教接口与策略接口是否对齐:作者用鱼眼相机、侧镜隐式双目和 IMU 提升视觉上下文与轨迹恢复精度,再用推理时延匹配、相对轨迹动作表示和 Diffusion Policy 缓解硬件差异与多峰动作学习。实验表明,系统可零样本部署到多种 6/7DoF 平台,完成双手、动态、精细和长时序任务,并在新环境与新物体上取得约 70% 的 OOD 成功率。

THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation figure
RSSW 20242024-02-13

THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation

基础操作

基础操作泛化操作数据集/Benchmark

论文指出,机器人操作常只在接近训练分布的环境中评测,难以衡量真实部署所需的泛化能力。作者提出 THE COLOSSEUM:基于 RLBench 的 20 任务、14 类环境扰动基准,并配套可 3D 打印的真实世界复现实验,用于系统比较 2D/3D 行为克隆模型。结果显示,5 个SOTA模型在单一扰动下成功率普遍下降 30%–50%,多扰动叠加时降幅超过 75%;干扰物数量、目标颜色和光照最伤性能,3D方法整体更稳健,且仿真与真实世界结果具有较强相关性(R²=0.614)。

DeformNet: Latent Space Modeling and Dynamics Prediction for Deformable Object Manipulation figure
ICRA 20242024-02-12

DeformNet: Latent Space Modeling and Dynamics Prediction for Deformable Object Manipulation

可变形物体

可变形物体3D 表征Latent Learning操作

论文聚焦仅凭RGB-D观测操作高自由度可变形物体时,传统2D特征难刻画复杂形变、简单潜空间动力学又难支撑规划的问题。DeformNet以PointNet编码点云,在条件NeRF中显式拆分形变潜变量与外观潜变量以兼顾几何和光照,再用RSSM预测潜空间演化并配合iCEM规划。实验覆盖塑形、在黏土上“写字”和毛巾操作等任务,在未见目标上仍优于多种基线,并完成UR5实机验证;但各模块增益的相对来源文中未充分说明。

Reasoning Grasping: Reasoning Grasping via Multimodal Large Language Model figure
CoRL 20242024-02-09

Reasoning Grasping: Reasoning Grasping via Multimodal Large Language Model

抓取

抓取语言条件操作

这篇工作针对现有语言抓取依赖显式目标名、难以处理“我想喝水”这类隐式意图的问题,提出“推理抓取”任务,并将多模态LLM与抓取网络端到端结合,用特殊标记定位经语言推理得到的目标或部件,再生成抓取位姿,同时基于GraspNet扩展出含隐式指令与部件抓取的数据集。结果显示,该方法在基准和真实机器人实验中都明显优于直接拼接CLIP或LLaVA的方案,但摘录中未充分说明具体提升幅度。

DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning figure
NeurIPS 20242024-02-08

DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning

任务规划

任务规划模仿学习强化学习触觉机器人学习

论文针对模型式强化学习中“动力学预测更准却未必控制更好”的目标错配,以及高维观测下策略表达不足的问题,提出 DiffTORI:将可微轨迹优化直接作为隐式策略,对优化过程反传,端到端学习代价、动力学、奖励和Q函数,并在测试时通过求解轨迹产生动作。结果表明,它在15个图像输入的模型式RL任务和35个图像/点云模仿学习任务上均优于前馈策略、EBM和扩散方法。

AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies figure
NeurIPS 20242024-02-06

AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies

模仿学习

模仿学习Flow Matching机器人学习

这篇工作针对扩散式模仿学习虽能处理多峰动作、但执行时常需几十到上百步采样而过慢的问题,提出基于状态条件概率流 ODE 的策略 AdaFlow。核心洞察是训练损失的条件方差既反映动作分布的多模态程度,也与 ODE 离散误差相关,因此可用方差预测器自适应调节求解步长;当状态近似单峰时会自动退化为一步生成。文中在 LIBERO、RoboMimic 等任务上报告了较高成功率,同时将推理调用次数降低约一个数量级。

DexDiffuser: Generating Dexterous Grasps with Diffusion Models figure
RA-L 20242024-02-05

DexDiffuser: Generating Dexterous Grasps with Diffusion Models

抓取

抓取灵巧操作Diffusion Policy操作

针对未知物体在部分点云下灵巧抓取难、16自由度搜索空间过高的问题,DexDiffuser不依赖形状补全或抓取策略学习,而是把抓取生成建模为条件扩散去噪:在BPS编码点云条件下直接生成手位姿与关节配置,再用DexEvaluator打分,并提出面向扩散的EGD和通用的ESR做细化。作者在5378个物体、170万次抓取上训练,仿真最高98.77%、真实机68.89%,相对FFHNet平均提升9.12%和19.44%。

OBSBench: Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning figure
NeuIPS 20242024-02-04

OBSBench: Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning

3D 表征

3D 表征Latent Learning机器人学习

本文针对机器人学习常把改进重心放在策略、却忽视观测空间本身可能成为性能与泛化瓶颈的问题,提出含 ManiSkill2 与 RLBench 共125个任务的 OBSBench,并在统一编码器、预训练表征和策略管线下系统比较 RGB、RGB-D 与点云。核心洞察是显式3D表征比把深度附着到2D图像更关键;点云在从零训练和预训练下都普遍取得更高成功率与更强的跨视角、光照和外观泛化,坐标与颜色联合建模还能进一步提升表现,但其采样效率仍偏弱。

Bi-ACT: Bilateral Control-Based Imitation Learning via Action Chunking with Transformer figure
AIM 20242024-01-31

Bi-ACT: Bilateral Control-Based Imitation Learning via Action Chunking with Transformer

模仿学习

模仿学习Transformer Policy机器人学习

这项工作针对现有 ACT/ALOHA 主要依赖位置控制、难以利用接触力,而双边控制模仿学习又多停留在 LSTM 的问题,提出 Bi-ACT:将动作分块 Transformer 与双边控制结合,联合输入图像、关节角/速度和力矩,预测未来一段 leader 侧动作以实现 100Hz 跟随控制,从而更好适应不同硬度和重量的物体。实机在抓取放置和放入抽屉任务上优于不使用力信息的方法,但文中未充分说明量化提升幅度,增益来源是否主要来自力觉数据也不够清晰。

LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization figure
TASE 20242024-01-30

LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization

任务规划

任务规划模仿学习机器人学习非学习控制

这项工作针对传统视觉模仿学习虽能拟合示范、却难显式满足安全与运动约束的问题,在策略网络中嵌入可微轨迹优化层,把动作生成改写为可端到端训练的受约束轨迹优化,从而同时学习感知表示与优化参数,形成兼具神经网络表达力和模型可解释性的“灰盒”策略。仿真与真机结果表明,LeTO相比现有模仿学习方法可生成更平滑、不确定性更低、质量更高的轨迹,并能在约束下稳定完成操作;但各项增益的具体来源文中未充分说明。

MResT: Multi-Resolution Sensing for Real-Time Control with Vision-Language Models figure
CoRL 20232024-01-25

MResT: Multi-Resolution Sensing for Real-Time Control with Vision-Language Models

VLA

VLATransformer Policy语言条件机器人学习

论文针对机器人操作中“既要泛化又要实时反应”的矛盾:大规模预训练视觉语言模型能理解语义目标,但推理慢、微调后还会削弱鲁棒性。MResT 的核心洞察是把不同空间/时间分辨率的传感拆开用:冻结的预训练 VLM 低频处理第三视角全局信息,小模型高频处理腕部视角、力觉和本体状态,再用 Transformer/交叉注意力融合,实现语言条件下的粗到细控制。实验覆盖粗操作、精密插入和动态任务,平均较近期多任务基线提升约 2 倍,并能泛化到颜色、形状、几何和接触力变化。

Adaptive Mobile Manipulation for Articulated Objects In the Open World figure
arXiv2024-01-25

Adaptive Mobile Manipulation for Articulated Objects In the Open World

移动操作

移动操作操作

论文针对移动操作研究长期停留在实验室、且多局限于 pick-move-place 的问题,聚焦开放环境中门、抽屉、柜门、冰箱等关节物体操作。核心做法是将控制设计为“抓取+受约束操作”的层级参数化动作空间,用少量示教先做行为克隆,再在新物体上通过在线强化学习继续自适应,并配套约2.5万美元的低成本移动操作平台。作者在 CMU 4 栋楼、20 个物体上验证,未见物体经不足 1 小时在线学习后,成功率由约 50% 提升到 95%。

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities figure
CVPR 20242024-01-22

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

任务规划

任务规划多模态推理语言条件

论文针对现有VLM缺乏3D空间理解、难以回答距离和尺寸等定量问题这一瓶颈,提出SpatialVLM:结合开词汇检测、度量深度估计、分割和区域描述,从1000万张真实图像自动生成约20亿条带公制度量的3D空间VQA数据,并据此训练VLM。结果显示,该模型在定性与定量空间问答上都明显强于通用VLM,能直接给出米级距离估计,并进一步支持链式空间推理以及机器人通行性判断、奖励/成功检测等任务。

Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D figure
ICLR 20242024-01-22

Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D

3D 表征

3D 表征机器人学习操作

这篇工作针对3D抓取-放置策略在SE(3)空间中样本效率低、旋转离散化粗糙的问题,抓住了任务同时对抓取物体姿态和放置目标姿态独立等变的“双重对称性”。作者提出Fourier Transporter,以行为克隆框架将动作分解为pick/place两阶段,用Wigner D矩阵的傅里叶系数在纤维空间表示SO(3)旋转分布,并嵌入3D卷积实现内存友好的双等变策略学习。其在RLBench多项任务上达到SOTA,相比PerAct、RVT等方法提升约6%到200%,尤其在Stack Cups等任务上优势显著。

Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation figure
ICRA 20252024-01-17

Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation

模仿学习

模仿学习数据采集数据筛选操作

这篇工作针对机器人操作中成功示范稀缺、失败数据被大量丢弃的问题,提出 SSDF,在无奖励、纯离线设定下把失败轨迹中“虽整体失败但局部有效”的片段重新利用。其关键做法是先用混合示范通过三种自监督目标预训练多模态 Transformer,再按与专家数据的特征相似度为失败片段打分,并以加权 BC 纳入下游策略学习。仿真 ManiSkill2 和 Franka 实机实验表明,该筛选能较准确扩充训练集,并在各操作任务上提升成功率。

FMB: a Functional Manipulation Benchmark for Generalizable Robotic Learning figure
IJRR 20242024-01-16

FMB: a Functional Manipulation Benchmark for Generalizable Robotic Learning

Affordance

Affordance泛化操作数据集/Benchmark

这篇工作针对机器人操作研究中“泛化强但技能浅”与“技能复杂却任务窄”的割裂,提出可复现实物基准FMB:用程序化生成的66个3D打印部件和22500条示范,把抓取、重定向、插装到多物体装配组织成可组合的长时程任务。实验表明,模仿学习基线对未见物体的抓取与已见物体接近,但整体成功率仍不高(RGB基线约27–28/50,20%数据仅12/50),深度信息能稳定提升表现,说明该基准既能测泛化,也清楚暴露接触丰富操作的难点。

Survey of Learning-based Approaches for Robotic In-Hand Manipulation figure
arXiv2024-01-15

Survey of Learning-based Approaches for Robotic In-Hand Manipulation

灵巧操作

灵巧操作机器人学习操作综述

论文的动机是传统解析控制难以处理手内操作中的高维接触与不确定性,因此需要从数据中学习。作者将该领域按灵巧/非灵巧、连续/非连续接触,以及模型学习、强化学习、模仿学习三条技术路线做了系统归纳,并关联任务、手型和感知模态。主要结论是近年研究显著增长、RL最活跃、视觉感知占主导,而数据效率、sim-to-real、软体手、触觉与任务泛化仍是核心瓶颈;作为综述,文中主要贡献是框架化梳理而非给出统一性能增益。

RVT-2: Learning Precise Manipulation from Few Demonstrations figure
RSS 20242024-01-12

RVT-2: Learning Precise Manipulation from Few Demonstrations

3D 表征

3D 表征模仿学习机器人学习操作

本文针对现有少样本3D操作模型在插销、插头等高精度任务上常失准且效率不足的问题,基于RVT提出RVT-2:用多阶段粗到细推理先定位再局部放大以细化末端位姿,并结合凸上采样、基于位置条件的旋转预测,以及自定义虚拟视图渲染器和混合精度等系统优化。结果是在RLBench上成功率提升约15个百分点至82%,训练提速6倍、推理提速2倍,并在真实机器人上仅用约10次示教就完成毫米级插入任务。

MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning figure
CoRL 20232024-01-06

MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning

世界模型

世界模型基础模型机器人学习

这篇论文关注机器人从像素观测进行“离线预训练+在线微调”时,现有离线模型式RL因依赖模型生成回放、且动力学/奖励/表征会随微调漂移而难以稳定复用历史数据的问题。MOTO提出面向高维观测的on-policy世界模型框架,用模型价值扩展从真实轨迹出发做短时想象,并结合集成不确定性惩罚与策略正则化,既利用离线数据又抑制模型投机。实验显示其在MetaWorld 10个任务中有9个优于基线,并首次仅凭图像完成Franka Kitchen。

OCI: Object-Centric Instruction Augmentation for Robotic Manipulation figure
ICRA 20242024-01-05

OCI: Object-Centric Instruction Augmentation for Robotic Manipulation

数据增强

数据增强对象中心机器人学习操作

这篇工作针对机器人操作里“知道做什么”多、“知道物体在哪”少的问题,认为仅靠策略从图像里隐式学位置既费示教又不稳。OCI用多模态大模型把原始指令改写为对象中心的文本,显式加入目标的绝对框坐标和相对机械臂方位,并复用MLLM特征送入策略网络。仿真与真实Franka任务中,它均优于R3M和BLIP-2;消融显示去掉绝对/相对位置或特征复用都会明显降成功率。

Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation figure
CoRL 20242024-01-04

Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

移动操作

移动操作数据采集双臂遥操作操作

这篇工作面向以往模仿学习多停留在桌面操作、缺少移动底盘与双臂全身协调的问题,提出低成本 Mobile ALOHA:在 ALOHA 上加移动底盘与整机遥操作,让操作者一边双手控臂一边拖动车体采集数据。方法上将14维双臂关节与2维底盘速度直接拼接,并与静态 ALOHA 数据共训练;文中显示每任务仅50次示范即可在多项长程移动操作上获80%+成功率,部分任务相对提升最高达90%,但跨数据增益来源仍未被充分拆解。

GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation figure
CVPR 20242024-01-01

GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation

模仿学习

多智能体/多机器人模仿学习强化学习触觉泛化人机交互机器人学习

论文聚焦人递物给机器人的接物能力,指出真实采集昂贵且有风险、现有模拟中物体几何和人类运动过少,导致对未见物体与复杂递交轨迹泛化差。其关键洞察是,成功演示未必适合视觉策略蒸馏,必须强化“视觉—动作相关性”。为此作者构建了可程序化生成百万级场景的 GenH2R-Sim,结合基于未来关键帧重规划的可蒸馏示范生成,以及带未来运动预测的4D点云模仿学习。实验显示其在仿真和真实机器人上都比基线至少提升10%成功率,增益可能主要来自 scaling 与数据设计。

Demonstrating Learning from Humans on Open-Source Dexterous Robot Hands figure
RSS 20242024-01-01

Demonstrating Learning from Humans on Open-Source Dexterous Robot Hands

灵巧操作

灵巧操作操作

论文针对灵巧手昂贵、难制造且难用于学习的问题,提出以三种约2000美元、易3D打印和开源的机器人手为载体,把硬件设计与“人到手”的学习流程打通:包括新型LEAP关节结构、软体DASH、类人尺寸且更强的LEAP v2,以及配套的MoCap遥操作、人视频重定向和仿真/真机RL。主要结果是完成6只手、2条臂的真实演示,并给出在手内重定向等任务中的可行性;但作为demo论文,系统性量化增益文中未充分说明。

OpenEQA: Embodied Question Answering in the Era of Foundation Models figure
CVPR 20242024

OpenEQA: Embodied Question Answering in the Era of Foundation Models

Affordance

Affordance基础模型数据集/Benchmark

论文针对基础模型走向眼镜和机器人后,缺少贴近真实场景且可自动评测的具身问答基准这一问题,提出将EQA统一为情景记忆与主动探索两种设定,并发布首个开放词汇基准 OpenEQA:含180多个真实环境中的1600余个人工问题,配套与人工判断高度一致的 LLM-Match 评分。实验显示 GPT-4V 最优也仅 48.5%,远低于人类 85.9%,模型尤其缺乏空间理解,主动探索设定更具挑战。

DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes figure
CoRL 20242024

DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes

抓取

抓取灵巧操作数据生成基础模型数据集/Benchmark

面向灵巧手在杂乱堆叠场景中因数据稀缺、有效抓取分布又高度多峰而难以学习的问题,本文构建了 DexGraspNet 2.0:包含1319个物体、8270个场景和4.27亿条经优化生成的抓取标注,并提出两阶段抓取方法,用基于局部点云几何条件的扩散模型生成候选抓取再排序执行。其核心洞察是生成式建模比直接回归更适合复杂抓取分布,局部特征也更利于跨物体与场景泛化。仿真中方法优于各基线,并在测试时深度恢复辅助下实现零样本 sim-to-real,真实杂乱场景成功率达90.7%;但整体增益可能也部分来自 scaling / data。

DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation figure
WAFR 20242023-12-30

DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation

可变形物体

可变形物体3D 表征操作

面向布料等可变形物体操作中遮挡频繁、状态高维且形变复杂的问题,DeformGS基于高斯泼溅学习“规范空间高斯+时变形变场”,从多相机同步视频中同时恢复新视角渲染与3D场景流。其关键在于用神经体素编码和MLP预测高斯的位置、旋转与阴影,并加入动量守恒、近等距约束及高斯级掩码,以减小大形变和阴影下的跟踪漂移。实验中其3D跟踪较现有方法平均提升55.8%,在1.5×1.5米布料上达到3.3毫米中位误差。

ATM: Any-point Trajectory Modeling for Policy Learning figure
RSS 20242023-12-28

ATM: Any-point Trajectory Modeling for Policy Learning

感知

感知机器人学习

论文针对机器人示教数据昂贵、无动作标注视频难以直接服务控制的问题,提出ATM:先在无动作视频上预训练“任意点未来轨迹”模型,用图像中任意点的2D轨迹而非像素级视频预测来刻画动力学,再把预测轨迹作为子目标指导视觉操作策略学习。其关键洞察是点轨迹比整帧生成更贴近物理运动、计算更省且更可迁移;在130多个语言条件仿真与真实任务上,平均成功率达63%,相对强基线37%提升约80%,并能从人类视频和异构机器人视频迁移技能。

ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation figure
CVPR 20242023-12-24

ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

任务规划

任务规划多模态推理Affordance语言条件对象中心操作

该工作针对仿真内少类别训练的操作策略难泛化、且低层动作预测可解释性弱的问题,把多模态大模型改造成“对象中心”操作器:仅微调适配器,并按“类别识别—affordance先验推理—位姿预测”的链式流程学习接触点与夹爪方向,接触后再结合基于力反馈的主动阻抗闭环规划,真实环境还加入TTA适配场景差异。结果显示其在仿真30类物体和真实世界任务上具备较强泛化,但具体数值增益在所给材料中未充分说明。

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots figure
ECCV 20242023-12-22

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots

四足操作

四足操作VLA操作

该文针对四足机器人中“看得见但难表达目标”与“能听懂指令却缺少环境感知”相互割裂的问题,提出 QUAR-VLA 范式,把第一视角图像与自然语言统一映射为可执行的高层动作。作者进一步构建 QUART 模型和含 25.9 万仿真轨迹、3000 条真实轨迹的 QUARD 数据集,并用仿真—真实协同训练缓解 sim2real。4000 次评测表明,该方法在导航、复杂地形和全身操作上取得较强性能并表现出一定泛化/涌现能力,但各模块增益来源文中未充分说明,可能主要来自数据规模与预训练视觉语言模型。

GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation figure
ICLR 20242023-12-20

GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

视频规划

视频规划世界模型基础模型感知机器人学习操作

论文出发点是机器人示教数据稀缺,而操作轨迹本身又具有视频序列结构,因此作者尝试把大规模视频生成式预训练迁移到语言条件操作。GR-1用统一GPT式Transformer同时建模指令、图像和机器人状态,并联合预测动作与未来帧,相当于把视频预测当作世界模型先验。其在CALVIN上把成功率从88.9%提到94.9%,零样本未见场景从53.3%提到85.4%,真实机器人对未见场景和物体也更稳;但增益有多少来自视频预训练本身、多少来自更大数据或scaling,文中拆解仍有限。

On the Effectiveness of Retrieval, Alignment, and Replay in Manipulation figure
RA-L 20242023-12-19

On the Effectiveness of Retrieval, Alignment, and Replay in Manipulation

数据需求量大

数据需求量大数据采集数据检索操作

针对视觉模仿学习在操作任务中高度依赖大量示教、端到端行为克隆难以高效泛化的问题,本文将“做什么、在哪做、怎么做”拆为检索、对齐、回放三阶段:先检索最相似训练物体,再通过目标条件视觉伺服完成末端对齐,最后回放对应示教轨迹。真实抓取、倾倒和插入实验表明,该分解相较仅检索、仅分解或纯行为克隆具有约一个数量级的数据效率优势,并能泛化到新物体和新类别,且只需腕载RGB-D相机,无需外参标定或CAD先验。

Language-conditioned Learning for Robotic Manipulation: A Survey figure
arXiv2023-12-17

Language-conditioned Learning for Robotic Manipulation: A Survey

语言条件

语言条件操作综述

这篇综述的动机是:传统机器人操作依赖编程、遥操作或奖励设计,难以让非专家在开放环境中用自然语言高效、安全地指挥机器人。其核心洞察不是提出新模型,而是按语言在操作控制闭环中的“功能角色”重组现有方法,归纳为状态评估、策略条件、认知规划/推理和统一VLA四类,并从动作粒度、数据监督、系统成本时延、环境评测等维度横向比较。主要结果是给出一套较清晰的领域地图,梳理出VLA scaling 与结构化/混合方法之争,并指出泛化、安全、歧义处理与失败恢复仍是关键瓶颈。

LAPO: Learning to Act without Actions figure
ICLR 20242023-12-17

LAPO: Learning to Act without Actions

Latent Learning

Latent Learning机器人学习

论文针对网页视频缺少动作标签、难以直接用于强化学习预训练的问题,提出LAPO:通过逆动力学模型与前向动力学模型的无监督预测一致性,把“潜在动作”作为信息瓶颈,从纯视频中压缩出能解释状态转移的动作表征,再据此行为克隆出潜在策略。作者在16个Procgen任务上发现,学到的潜在动作簇与真实离散动作高度对应;在线只用4M步即可恢复专家级表现,9/16任务超过专家,离线解码仅约200~256条带标签转移就能达到或超过从零训练PPO 4M步的水平。

GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via Stationary Distribution Correction Estimation figure
AAAI 20242023-12-17

GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via Stationary Distribution Correction Estimation

模仿学习

模仿学习泛化

这篇工作针对离线模仿学习在长时序机器人任务中难以进行多步规划、且任务目标变化后往往需要重新训练的问题,提出 GO-DICE:先从演示中迭代挖掘子任务分段,再分别学习“子任务切换”和“子任务内动作执行”的目标条件层级策略,并在两层都用 DICE 式平稳分布校正完成离线学习。实验显示,它在更具挑战的 MuJoCo 抓取放置任务上比近期基线有更高完成率,还能利用不完美演示和部分分段标注,并在目标变化时基本无需重训。

BOSS: Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance figure
CoRL 20232023-12-16

BOSS: Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

泛化

泛化语言条件遥操作

这篇论文的动机是:长程机器人操作通常依赖示范或稠密奖励,导致新任务学习成本高。BOSS从少量原始语言技能出发,让智能体在无新任务奖励下自行“练习”技能组合,并用LLM引导下一步该接什么技能、再把成功链条命名回写到技能库,形成闭环扩展。与只做开环LLM规划不同,它通过环境交互把组合技能真正学会;在ALFRED仿真和真实机器人上,对未见长程任务与新环境的零样本执行优于朴素bootstrapping、无监督技能发现和既有LLM规划方法。

A Survey on Robotic Manipulation of Deformable Objects: Recent Advances, Open Challenges and New Frontiers figure
arXiv2023-12-16

A Survey on Robotic Manipulation of Deformable Objects: Recent Advances, Open Challenges and New Frontiers

可变形物体

可变形物体操作综述

面向布料、绳索和软体组织等任务,刚体假设失效且可变形体状态近乎无限维,使感知、建模与控制长期割裂。本文的价值不在提出新算法,而是综述150余篇工作,按视觉/触觉感知、解析与GNN建模、规划及RL/IL操控重构DOM版图,并补入LLM在任务定义、规划和奖励设计中的早期尝试。主要结论是:多模态数据集、触觉仿真器以及解析方法与数据驱动融合,更可能突破泛化与鲁棒性瓶颈;文中未提供统一基准上的定量增益比较。

Style Generation in Robot Calligraphy with Deep Generative Adversarial Networks figure
arXiv2023-12-15

Style Generation in Robot Calligraphy with Deep Generative Adversarial Networks

安全

安全应用

论文聚焦中文书法字库自动生成难题:汉字规模大、优质成对数据稀缺,使现有方法常只能做“像手写”的图像变换,难兼顾笔画连贯性、结构稳定性与统一风格。作者以楷体到启功体迁移为例,在 pix2pix/cGAN 上加入 L1 与总变分损失,并依赖前作的高精度合成数据,结合书法家图灵测试和覆盖率指标评估。实验声称达到当前最优,约八成生成字被认为保持同一艺术风格、难与真迹区分,且具备实际字库开发价值;但文中对增益究竟来自模型还是数据/后处理说明仍不充分。

Movement Primitive Diffusion: Learning Gentle Robotic Manipulation of Deformable Objects figure
RA-L 20242023-12-15

Movement Primitive Diffusion: Learning Gentle Robotic Manipulation of Deformable Objects

可变形物体

可变形物体Diffusion Policy操作

面向机器人辅助手术中组织等可变形物体操作,作者认为现有模仿学习在示教稀缺时难同时处理多模态策略与“轻柔”运动,直接预测动作序列还容易带来抖动和模式平均。MPD把扩散式模仿学习与ProDMP结合,让网络预测运动基元参数而非原始动作,以显式引入时序相关性,生成满足初始位姿/速度约束的平滑轨迹。仿真与真实平台、状态与图像输入实验表明,它在成功率、运动质量和数据效率上均优于Diffusion Policy、BESO等基线,并保持较快在线推理。

Harmonic Mobile Manipulation figure
IROS 20242023-12-11

Harmonic Mobile Manipulation

移动操作

移动操作操作

针对开门、擦桌等必须“边移动边操作”的家务任务,作者指出将导航与操作拆成两阶段会带来碰撞、臂展受限和效率低的问题,因此提出端到端联合优化底盘与机械臂的 HarmonicMM,并扩展 ProcTHOR,加入开门、擦桌、开冰箱等移动操作基准。结果显示该方法在四类任务上平均成功率绝对提升17.6%,且仅凭 RGB 观察即可从仿真零微调迁移到陌生真实公寓;但具体增益来源在给定片段中未充分说明,判断基于公开摘要/项目页。

PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play figure
CoRL 20232023-12-07

PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play

Diffusion Policy

Diffusion Policy机器人学习

这篇论文关注一个很实际的问题:相比专家示范或奖励标注,机器人更容易收集无结构的 play 数据,但这类数据噪声大、次优且强多模态,传统模仿学习和离线RL都不易直接学到可复用技能。PlayFusion的核心是对状态—动作轨迹做语言条件扩散建模,并在语言表征与去噪网络中加入离散瓶颈,促使模型形成更明确的“技能词汇”。论文报告其在6个环境上(含3个真实机器人场景)优于已有方法,并能提取语义更清晰的多任务操作技能。

Dexterous Functional Grasping figure
CoRL 20232023-12-05

Dexterous Functional Grasping

抓取

抓取灵巧操作Affordance操作

论文关注灵巧手在真实工具使用中“能抓住却抓不对”的问题:功能性抓取既要理解物体该抓哪里,也要完成可迁移的高维闭环控制。作者将两者解耦,先用基于 DINOv2 特征对应的一次示教 affordance 模型预测功能抓取区域,再用少量人类手型数据提取 eigengrasp,将 16 维动作压缩到 9 维,在仿真中训练盲抓策略以获得更稳定、物理上更合理的握持。实验表明,该方法在 7 类任务上能从只见过锤子的训练泛化到多种工具,仿真优于基线,真实机上优于硬编码抓取,并接近或超过熟练遥操作者。

SAGE: Bridging Semantic and Actionable Parts for Generalizable Manipulation of Articulated Objects figure
RSS 20242023-12-03

SAGE: Bridging Semantic and Actionable Parts for Generalizable Manipulation of Articulated Objects

任务规划

任务规划多模态推理Affordance泛化感知操作

这篇工作面向铰接物体操作中的核心难点:自然语言依赖“语义部件”理解,但真实执行往往取决于“可动物理部件”,两者常不一致。SAGE的关键洞察是把大视觉语言模型的常识语义理解,与小型领域模型的精确部件/动作知识做双重融合:先生成动作程序,再将语义部件映射为带运动先验的GAParts,并结合交互反馈闭环修正。仿真与真实机器人实验显示其在多类物体和多样指令上优于基线且泛化更强,但文中未充分说明具体提升幅度。

RobotGPT: Robot Manipulation Learning from ChatGPT figure
RA-L 20242023-12-03

RobotGPT: Robot Manipulation Learning from ChatGPT

任务规划

任务规划程序化规划操作

论文针对直接让 ChatGPT 为机械臂生成执行代码时输出不稳定、同任务答案不一致且有安全风险的问题,提出把 ChatGPT 从在线控制器改为“专家教师”:由其担任决策、评估和纠错三种角色,生成并自修正程序化示范,再训练更稳定的 RobotGPT 策略,并用任务难度指标分析能力边界。仿真和真实实验中,平均成功率从 38.5% 提升到 91.5%;但提示工程、自纠错与后续学习各自带来的增益,文中未充分说明。

HOPMan: Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction Plans figure
ICRA 20242023-12-01

HOPMan: Towards Generalizable Zero-Shot Manipulation via Translating Human Interaction Plans

视频规划

视频规划泛化人机交互世界模型感知机器人学习操作

这篇工作针对机器人泛化操作受限于海量真机数据采集的问题,提出将策略拆成“人类交互计划预测+机器人动作翻译”两阶段:先从当前图像与目标图像预测未来手-物体语义掩码轨迹,再用少量约600条人机配对轨迹把该计划翻译成闭环机器人控制。核心洞察是把可泛化的操作常识主要从大规模被动人类视频中学到,而把机器人数据需求压缩到计划落地层。实验在100个真实任务、16种技能、40类物体上验证了零样本执行与跨场景泛化,且部署时无需再训练。

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives figure
CVPR 20242023-11-30

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

视频规划

视频规划操作数据集/Benchmark

这篇工作面向机器人与AR中的技能学习,指出第一视角擅长捕捉手部交互和注意力,第三视角更利于理解全身动作与场景,因此关键不只是多视角采集,而是同步建模并实现 ego-exo 跨视角对齐。作者据此构建了 Ego-Exo4D,在真实环境中采集 740 人、1286 小时的同步第一/第三视角技能活动数据,并配套音频、凝视、IMU、相机位姿、点云和专家点评等标注。主要结果是公开四类基准任务与基线;作为数据集论文,后续性能提升可能主要来自 scaling/data。

Soft and Rigid Object Grasping With Cross-Structure Hand Using Bilateral Control-Based Imitation Learning figure
RA-L 20232023-11-16

Soft and Rigid Object Grasping With Cross-Structure Hand Using Bilateral Control-Based Imitation Learning

抓取

抓取可变形物体模仿学习操作

论文针对双边控制式模仿学习难以落到真实抓取、尤其难处理软硬差异大和需精细调力任务的问题,提出一种适合双边控制的交叉结构单自由度刚性手爪,在便于人示教和力测量的同时扩展了对小、薄、软、硬物体的抓取范围。结合该手爪后,系统在未知物体的柔顺抓取以及持笔写字这类刚性抓持/工具使用任务上都取得较高成功率,但手爪设计与学习框架各自带来的增益拆分文中未充分说明。

Generalizable Imitation Learning Through Pre-Trained Representations figure
ICRA 20252023-11-15

Generalizable Imitation Learning Through Pre-Trained Representations

模仿学习

模仿学习Latent Learning泛化机器人学习

论文关注模仿学习在未见物体上因外观和形态变化而失效的问题,指出把预训练视觉表征直接展平成全局向量,会弱化可操作部件的语义。为此提出DVK:从演示中对DINO ViT的patch特征聚类,抽取可跨帧跟踪的语义关键点,再用行为克隆学习策略,并构建类内/类间物体泛化基准。实验显示DVK在未见物体上的泛化成功率整体优于Scratch、R3M、MVP、VC-1等基线,但训练集内最优常由DINO-RNN取得,说明其优势主要体现在OOD泛化而非拟合。

OCID-VLG: Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter figure
CoRL 20232023-11-09

OCID-VLG: Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter

抓取

抓取操作

这项工作针对语言引导抓取常依赖“先指代定位/分割、再抓取”的多阶段流程,且现有评测难覆盖室内杂乱场景与同类物体歧义的问题,提出了OCID-VLG基准,把OCID中的抓取标注与约9万条指代表达和掩码关联起来。方法上,作者提出基于CLIP的端到端模型CROG,以多任务学习联合做视觉指代与4-DoF抓取生成,核心是把图文对齐能力直接用于抓取决策。结果显示,简单拼接CLIP与现成模块迁移效果较差,而CROG在指代和抓取上均明显更好,并在仿真与真实机器人杂乱抓取中验证了有效性;但各项增益的具体来源文中未充分说明。

Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs figure
ICRA 20242023-11-06

Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs

任务规划

任务规划多模态推理Affordance泛化语言条件操作

针对铰接物体操作中真实数据采集昂贵、精确仿真困难,且现有LLM方法多停留在高层任务规划的问题,本文基于“物体运动学结构决定操作方式”的洞察,提出运动学感知提示框架:先将关节类型与接触位置解析为统一文本,再用链式、分层提示让LLM先生成操作步骤,再输出低层3D轨迹航点。结果显示,该方法在16类48个实例上对8个已见类别优于传统方法,并仅用17个示例就对8个未见类别实现零样本泛化,且在7类真实物体上验证了可迁移性。

STEER: Flexible Robotic Manipulation via Dense Language Grounding figure
CoRLW 20242023-11-05

STEER: Flexible Robotic Manipulation via Dense Language Grounding

VLA

VLA语言条件机器人学习操作

论文关注现有模仿学习策略难以在未见情境中细粒度适应的问题。STEER不去强化高层规划器,而是把已有机器人演示数据用本体感知自动重标注为“抓取方式、旋转方式”等可组合语言原语,训练可被人类或VLM逐步引导的低层RT-1策略,把“做什么”扩展到“怎么做”。实验表明,它无需新增数据或再训练即可重组旧技能完成新任务,并在文中报告中以约100倍更小的模型和数据规模优于OpenVLA。

LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion figure
NeurIPSW 20232023-11-04

LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion

模仿学习

模仿学习跨本体数据集/Benchmark

针对现有步态模仿学习评测零散、任务偏玩具化且缺少标准数据的问题,LocoMuJoCo提出面向真实 locomotion 的统一基准:覆盖双足、四足和肌骨人体等12个环境、27个任务,提供带噪动捕、专家与次优示范,并支持部分可观测设置、动力学随机化和手工指标。其主要结果是把跨本体、不同难度的IL评测流程标准化并附带基线算法,但具体算法优劣和增益来源文中未充分说明,判断基于公开摘要/项目页。

Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models figure
CoRLW 20232023-11-04

Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models

强化学习

强化学习触觉语言条件机器人学习操作

这篇工作针对机器人操作中强化学习样本效率低、奖励难设计且人工监督昂贵的问题,提出Lafite-RL:由人类一次性编写“场景理解+行为评估”提示,让LLM在训练时根据机器人状态给出实时评价式奖励,从而辅助低层控制策略学习,而非直接用LLM做动作规划。RLBench实验表明,该方法较基线同时提升学习效率和任务成功率,但具体增益幅度及对不同LLM稳定性的影响,文中未充分说明。

Plan Diffuser: Grounding LLM Planners with Diffusion Models for Robotic Manipulation figure
CoRLW 20232023-11-03

Plan Diffuser: Grounding LLM Planners with Diffusion Models for Robotic Manipulation

任务规划

任务规划视频规划Diffusion Policy世界模型语言条件感知机器人学习操作

这项工作针对现有基于LLM的机器人规划多依赖初始观测、在长时序操作中容易失去环境 grounding 的问题,提出闭环式 Plan Diffuser:让LLM逐步生成单步文本子目标,再由扩散模型把子目标“落地”为中间图像状态,并反馈给下一步规划,最后由目标条件策略执行,从而把高层语言规划、视觉预测和低层控制解耦。实验表明,该方法在 Ravens 上优于已有方法,优势主要体现在长程任务,并对未见颜色、物体和更高任务复杂度表现出更强泛化。

LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery figure
ICRA 20242023-11-03

LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery

模仿学习

模仿学习泛化机器人学习操作

论文关注机器人在生命周期中不断遇到新操作任务时,整体策略或固定技能集迁移差、且容易遗忘旧任务的问题。LOTUS的核心洞察是把持续学习转成“持续扩展的技能库”:从少量、未分段的人类示范中,借助开放词汇视觉模型发现重复技能,判断应更新旧技能还是新增技能,再由元控制器按子目标组合这些视觉运动技能。仿真与真实机器人实验表明,其平均成功率比现有基线高11%以上,前向迁移和抗遗忘更强,但各模块增益占比文中未充分说明。

RoboFlamingo: Vision-Language Foundation Models as Effective Robot Imitators figure
ICLR 20242023-11-02

RoboFlamingo: Vision-Language Foundation Models as Effective Robot Imitators

VLA

VLA基础模型语言条件机器人学习

这篇工作针对将通用视觉语言基础模型直接用于机器人低层控制时成本高、时序建模困难的问题,提出RoboFlamingo:基于OpenFlamingo保留预训练VLM做逐步视觉—语言理解,再用显式策略头建模历史并输出动作,只在语言条件操作数据上做轻量模仿学习。该解耦设计兼顾开环部署与低算力运行,并在CALVIN上较此前SOTA约提升2倍,说明开源VLM也能有效迁移为操作策略。

Multimodal and Force-Matched Imitation Learning with a See-Through Visuotactile Sensor figure
T-RO 20242023-11-02

Multimodal and Force-Matched Imitation Learning with a See-Through Visuotactile Sensor

模仿学习

模仿学习触觉机器人学习

面向门把滑移、接触切换这类仅靠视觉难学的接触丰富操作,论文将可透视视觉-触觉传感器用于模仿学习。关键做法一是用触觉估计示教中的接触力,并把原始动作为阻抗控制下可复现相似力轨迹的 force-matched 回放;二是把视觉/触觉模式切换并入策略学习,帮助从接近到接触的过渡。在四个开门任务上,力匹配、模式切换和将视触觉作为输入分别带来平均62.5%、30.3%和42.5%的成功率提升,说明触觉既改善示教数据,也增强执行反馈。

M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place figure
CoRL 20232023-11-02

M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place

3D 表征

3D 表征Transformer Policy对象中心机器人学习

这篇工作针对高层语言规划已进步、但底层抓放技能仍常是单任务且难泛化到新物体的问题,提出统一的 M2T2:基于原始点云,以“接触点”为共同表示,用 masked transformer 同时预测对象级抓取与带朝向约束的放置 6-DoF 位姿。模型在约13万合成场景上训练后实现零样本 sim2real,真实机器人总体成功率较专用抓取/放置基线提升约19%,在需重定向后避碰放置的困难场景提升37.5%,并在部分 RLBench 语言任务上达到最好结果。

C3DM: Constrained-Context Conditional Diffusion Models for Imitation Learning figure
TMLR 20242023-11-02

C3DM: Constrained-Context Conditional Diffusion Models for Imitation Learning

3D 表征

3D 表征模仿学习Diffusion Policy机器人学习

该文针对少样本模仿学习中,行为克隆与扩散策略容易被场景干扰物带偏、在连续6-DoF动作上产生“平均化”预测的问题,提出C3DM:在扩散去噪时同步预测注视点,并围绕该点裁剪或掩蔽视觉输入,使策略逐步聚焦任务相关局部后再细化动作。实验表明,它在清扫、分拣、装配和工业拣配等任务上对分布外干扰更稳健,少至5个示范即可学到可部署策略,并在真实机器人上用20个示范完成分拣与插入;但方法仍依赖任务特定的注视点标注与裁剪尺度设定。

DEFT: Dexterous Fine-Tuning for Real-World Hand Policies figure
CoRL 20232023-10-30

DEFT: Dexterous Fine-Tuning for Real-World Hand Policies

灵巧操作

灵巧操作操作

这篇工作针对灵巧手在真实世界处理软体物体、工具使用和长时序任务时难模拟、从零学习又极低效的问题,提出 DEFT:先从互联网人手视频学习抓取可供性先验,预测接触点、手部姿态和接触后轨迹,再在软体仿人手上用类似 CEM 的残差式在线微调快速修正。实验在 9 个高难任务上表明,该方法无需机器人示教、只靠少量真实试验即可在一小时内取得一定成功,但文中片段未充分说明相对基线的统一量化增益。

Active-Perceptive Motion Generation for Mobile Manipulation figure
ICRA 20242023-10-30

Active-Perceptive Motion Generation for Mobile Manipulation

移动操作

移动操作3D 表征操作

论文关注移动操作机器人在未知、杂乱家庭场景中抓取时“看得见却抓不到”的问题:仅按最佳视角导航会带来无效移动,也忽略抓取可达性。作者提出 ActPerMoMa,用 TSDF 重建场景并在滚动时域内采样整条底盘-相机路径,以路径级信息增益和终点抓取可执行性联合打分,实现探索与利用的权衡。仿真中该方法在 TIAGo++ 的障碍杂乱场景里优于有无主动感知的基线,消融也验证了各效用项设计有效,并完成了真实机器人迁移演示。

Model-Based Runtime Monitoring with Interactive Imitation Learning figure
ICRA 20242023-10-26

Model-Based Runtime Monitoring with Interactive Imitation Learning

模仿学习

多智能体/多机器人模仿学习机器人学习

论文针对交互式模仿学习在真实部署中仍依赖人类持续盯控、且很难安全收集失败样本来训练监测器的问题,提出把运行时监测嵌入 IIL:在共享潜变量空间中联合学习动力学模型和失败分类器,用人类干预而非真实失败作监督,前瞻模拟未来轨迹,统一检测 OOD 与高风险状态,并在必要时主动请求人类介入。实验表明其在仿真和真机上的成功率较基线分别提升23%和40%,同时减轻了长期监督负担。

MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations figure
CoRL 20232023-10-26

MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations

数据需求量大

数据需求量大模仿学习数据采集数据生成机器人学习

这篇论文的动机是,机器人模仿学习常被数据采集成本卡住,而大量人类示范里其实包含了可在不同场景复用的相似操作技能。MimicGen的核心做法是把少量示范按“面向对象的子任务”切分,再根据新场景中的物体位姿对轨迹片段做空间变换、拼接并执行,用成功回放自动生成新数据。作者仅用约200条人工示范,就在18个任务上生成了5万多条轨迹,覆盖不同场景、物体和机械臂;基于这些数据训练的策略在长时程和高精度任务上表现强,且与采集等量新增人工数据相比效果相当。

Toward the Use of Proxies for Efficient Learning Manipulation and Locomotion Strategies on Soft Robots figure
RA-L 20232023-10-25

Toward the Use of Proxies for Efficient Learning Manipulation and Locomotion Strategies on Soft Robots

软体机器人

软体机器人操作

针对软体机器人在抓取与行走中因高保真FEM计算过慢、难以进行序列接触运动规划的问题,本文借鉴人形机器人中的“代理模型”思路,用可变形梁构成的低成本proxy先在构型空间用RL学习策略,再通过逆FEM将轨迹转为完整模型的驱动输入。作者在一个操纵机器人和一个多足步行机器人上验证:代理模型经参数优化后位置误差约为特征长度的5%,仿真可达实时,并能在完整FEM中完成操纵与移动;但结果主要停留在仿真,向真实硬件迁移文中未充分说明。

TD-MPC2: Scalable, Robust World Models for Continuous Control figure
ICLR 20242023-10-25

TD-MPC2: Scalable, Robust World Models for Continuous Control

任务规划

任务规划强化学习触觉安全世界模型机器人学习

这篇工作针对连续控制里现有RL方法常依赖单任务训练和手工调参、难以吃下多任务混合质量数据的问题,提出TD-MPC2:继续在隐式无解码世界模型的潜空间做MPC规划,并通过重审关键训练设计与支持多具身、多动作空间的架构提升鲁棒性和可扩展性。结果上,它用同一套超参在104个任务上整体优于SAC、DreamerV3和TD-MPC,还把317M参数的单一模型扩展到80个跨域任务;但各改动的独立增益来源文中未充分说明,可能也部分来自scaling与数据。

MimicTouch: Leveraging Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation figure
CoRL 20242023-10-25

MimicTouch: Leveraging Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation

模仿学习

模仿学习触觉接触丰富机器人学习操作

这项工作针对接触丰富操作中“示教靠视觉、执行靠触觉”的模态错位,提出直接从人手采集触觉示教的 MimicTouch:用指尖位姿、GelSight 触觉图像与接触音频构建多模态数据,经自监督表征学习和近邻式模仿学习得到离线策略,再用残差强化学习补偿人手与夹爪的具身差异。实验表明,该方法比遥操作更高效地收集示教,学到的策略也显著优于基于遥操作数据的基线,并在五类场景的七个零样本泛化任务中表现稳定。

Human-in-the-Loop Task and Motion Planning for Imitation Learning figure
CoRL 20232023-10-24

Human-in-the-Loop Task and Motion Planning for Imitation Learning

任务规划

任务规划模仿学习Latent Learning机器人学习

这篇论文的动机是:长时程操作任务若全靠人类示教,采集成本太高;但纯 TAMP 又难处理接触丰富、容差小的步骤。作者提出 HITL-TAMP,只在插入、挂接等关键瓶颈上把控制权切给人,其余阶段由规划自动完成,并用少量局部示教学习可供规划调用的前置约束与技能策略。结果显示,15 名用户在同等时间内可多收集 3 倍以上示教,10 分钟非专家遥操作即可训练出 75%+ 成功率策略,在 12 个任务、2.1K 条示教上常得到接近满分的表现。

FOWM: Finetuning Offline World Models in the Real World figure
CoRL 20232023-10-24

FOWM: Finetuning Offline World Models in the Real World

世界模型

世界模型机器人学习

这篇工作针对真实机器人强化学习交互昂贵、纯离线方法又受分布外动作误差限制的问题,提出FOWM:先用真实机器人离线数据预训练世界模型,再用模型规划收集少量在线数据做微调,并在测试时把回报估计与认知不确定性联合纳入规划正则,抑制外推误差。结果显示其在仿真和xArm视觉操作上都能以不超过20次试验完成少样本适配;如真实抓取含未见干扰物时,成功率从22%提升到67%。

Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning figure
ICRA 20242023-10-23

Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning

强化学习

强化学习触觉基础模型机器人学习

这篇工作面向机器人强化学习落地时最麻烦的两点:离线预训练数据与本地场景存在分布偏移,以及在线微调仍需人工写奖励和频繁重置环境。作者提出RoboFuME,用校准式离线RL预训练多任务策略,并用少量目标任务示例微调VLM奖励分类器,在无人工重置的任务/复位交替过程中自主在线优化。实验显示,系统可利用异地采集的Bridge数据,在5个真实操作任务上约3小时内继续提升,并在仿真中优于仅离线或替代奖励建模方案。

Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning figure
CoRL 20232023-10-22

Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning

模仿学习

模仿学习Latent Learning数据采集数据筛选

这篇工作针对模仿学习中人类示范质量参差、完成风格又高度异质,导致坏数据会污染策略训练的问题,提出离线框架L2D:先将带时间顺序信息的轨迹片段编码到潜空间,再用少量粗粒度偏好标签学习质量评估器,并用GMM聚合段级分数筛选整条示范。实验表明,它在仿真与真实机器人上都比无监督筛选和专家匹配等基线更稳地识别高质量示范,提升BC策略成功率,并能泛化到未见过的新示范者。

GROOT: Learning Generalizable Manipulation Policies with Object-Centric 3D Representations figure
CoRL 20232023-10-22

GROOT: Learning Generalizable Manipulation Policies with Object-Centric 3D Representations

3D 表征

3D 表征泛化对象中心感知机器人学习操作

这篇工作针对模仿学习操作策略常被单一采集场景“绑死”、一换背景、视角或物体实例就失效的问题,提出用对象中心的3D表征替代纯端到端像素输入:先以少量涂鸦标注结合视频分割得到任务相关物体掩码,再把RGB-D回投到机器人坐标系点云,并用Transformer在对象级token上预测动作;同时结合开放词汇分割与DINO特征做分割对应,使策略能迁移到未见过的同类新物体。实验显示,GROOT在仿真和5个真实机器人任务中,对背景变化、相机视角偏移和新物体实例的泛化均明显优于端到端与对象提案基线。

CCIL: Continuity-based Data Augmentation for Corrective Imitation Learning figure
ICLR 20242023-10-19

CCIL: Continuity-based Data Augmentation for Corrective Imitation Learning

模仿学习

模仿学习数据增强安全机器人学习操作

这篇论文针对行为克隆在分布外状态下因协变量偏移和误差累积而失稳、甚至不安全的问题,提出 CCIL:仅用专家演示学习带局部 Lipschitz 正则的动力学模型,利用环境局部连续性在示范邻域外合成“纠错”动作标签,把受扰动状态拉回专家分布。文中还给出生成标签质量的理论界,并在经典控制、无人机、视觉导航、足式运动与桌面操作等 4 类 14 个仿真任务上显示出比纯 BC 及多种基线更好的成功率和抗扰鲁棒性。

One-Shot Imitation Learning: A Pose Estimation Perspective figure
CoRL 20232023-10-18

One-Shot Imitation Learning: A Pose Estimation Perspective

模仿学习

模仿学习泛化感知

针对只有一次示教、不能再采数且没有任务/物体先验的场景,论文将单次模仿学习拆解为“未知物体相对位姿估计+末端轨迹迁移”,并系统分析相机标定误差、位姿误差和空间泛化如何影响成功率,说明瓶颈更偏向感知与几何对齐而非策略学习本身。在10个真实操作任务上比较8种位姿估计器后,该范式平均比DOME高22%,且能覆盖需要第三人称视角的任务。

IGA: Few-Shot In-Context Imitation Learning via Implicit Graph Alignment figure
CoRL 20232023-10-18

IGA: Few-Shot In-Context Imitation Learning via Implicit Graph Alignment

模仿学习

数据需求量大模仿学习Latent Learning机器人学习

这篇工作面向一个关键难题:机器人只看少量跨物体演示,如何在无类别先验、无再训练下把任务迁移到新物体。作者把模仿学习改写为对象图表示之间的条件对齐问题,用异构图能量模型从点云中预测多步对齐轨迹;更关键的洞察是用ShapeNet物体形变合成大规模“任务无关对齐”数据,训练出单一模型做in-context泛化。实物倒水、刷扫、挂帽实验中,仅给4条演示、测试物体未见时成功率约80%,且优于基线。

VLP: Video Language Planning figure
ICLR 20242023-10-16

VLP: Video Language Planning

任务规划

任务规划视频规划世界模型感知机器人学习

该文针对长时序机器人任务中“语言计划懂目标但不懂物理、视频预测懂动态却难做长期决策”的矛盾,提出VLP:把VLM同时当作动作提议器和启发式价值函数,把文本到视频模型当作世界动力学,在树搜索中反复生成文本动作、模拟未来视频并按目标进度选枝,产出可执行的中间视觉子目标。实验表明,VLP在仿真和3种真实机器人平台的多步操作上显著提升成功率,并优于直接微调的PaLM-E、RT-2等基线。

SuSIE: Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models figure
ICLR 20242023-10-16

SuSIE: Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models

视频规划

视频规划Diffusion Policy世界模型感知机器人学习操作

论文关注机器人在开放环境中面对训练外新物体和新场景时,语言策略虽有语义能力却常因定位与执行不精确而失败。SuSIE将预训练图像编辑扩散模型微调为高层子目标生成器,依据当前观测和指令合成下一步目标图像,再由低层目标条件策略去追踪,从而把语义推理与精细控制解耦。结果是在CALVIN上取得SOTA,并在真实机器人零样本任务中对新物体、干扰物和新场景均优于RT-2-X及部分特权基线;文中也指出瓶颈仍主要在低层策略。

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning figure
ICML 20242023-10-14

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning

VLA

VLA基础模型语言条件机器人学习操作

这篇工作针对仅靠文字难以描述细粒度操作、而机器人又需理解图文交错提示中的目标与状态变化这一问题,提出MIDAS:先用逆动力学预训练把轨迹转成“看过程还原动作”的学习,再做多任务模仿微调,并在提示编码里给预训练语言模型加入视觉残差连接、按自回归方式联合建模各动作维度。结果是在VIMA-BENCH上刷新SOTA,整体成功率较VIMA提升约10%,在部分高难任务上增幅更大,并表现出一定的基于提示示例的in-context学习能力。

Open X-Embodiment: Robotic Learning Datasets and RT-X Models figure
ICRA 20242023-10-13

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

跨本体

跨本体操作数据集/Benchmark

这项工作针对机器人学习长期被“单任务、单平台、单环境”割裂的问题,提出开放式跨本体操作基座:统一整理21家机构、22种机器人、527类技能的数据,并训练RT-X策略验证跨平台正迁移。结果显示,RT-1-X较各机构原有方法成功率提升约50%,RT-2-X在跨本体泛化上较仅用目标机器人数据训练的模型提升约3倍;但文中也承认尚未验证对全新机器人本体的泛化,增益可能部分来自更大模型与更多数据。

An Unbiased Look at Datasets for Visuo-Motor Pre-Training figure
CoRL 20232023-10-13

An Unbiased Look at Datasets for Visuo-Motor Pre-Training

数据采集

数据采集数据筛选基础模型操作数据集/Benchmark

该文针对机器人视觉预训练过度关注算法、却忽视预训练数据选择的问题,在统一的MAE预训练与行为克隆评测框架下系统比较5类数据集和15种表征。核心洞察是,迁移效果更取决于图像分布而非数据规模,ImageNet、Kinetics、100 Days of Hands 等标准视觉数据可比甚至优于常用的 Ego4D。进一步通过跨源混合数据,作者在真实操作任务上相对既有基线提升约30%,并指出仿真结果并不能可靠预测真实机器人表现。

AVDC: Learning to Act from Actionless Videos through Dense Correspondences figure
ICLR 20242023-10-12

AVDC: Learning to Act from Actionless Videos through Dense Correspondences

视频规划

视频规划Diffusion Policy感知机器人学习

这篇工作针对机器人策略学习常依赖动作标注、难跨机器人与任务泛化的问题,提出 AVDC:先用文本条件扩散模型从当前观测“想象”未来执行视频,再利用相邻帧的稠密对应/光流与初始深度恢复物体的 SE(3) 运动,并通过逆运动学或运动规划器转成可执行命令。核心洞察是把“从视频推动作”转化为“从视频解刚体变换”。文中在桌面操作、装配、导航及部分真实机器人实验中验证了方法可行,并将视频策略训练成本降到 4 块 GPU、1 天左右。

RoboCLIP: One Demonstration is Enough to Learn Robot Policies figure
NeurIPS 20232023-10-11

RoboCLIP: One Demonstration is Enough to Learn Robot Policies

模仿学习

模仿学习强化学习RL+IL机器人学习

论文关注机器人强化学习中奖励难设计、传统模仿学习又依赖大量同域示教的问题。RoboCLIP的核心洞察是把预训练视频-语言模型的语义对齐直接当作奖励:将当前轨迹视频与一句文本或单段示教视频,甚至跨域的人类演示视频的嵌入相似度作为回合奖励,无需手工奖励设计和VLM微调。在MetaWorld与Franka Kitchen上,它仅用一个视频或文本示例训练出的策略,相比GAIL、AIRL等单示教基线取得约2到3倍的零样本性能提升。

Imitation Learning from Observation with Automatic Discount Scheduling figure
ICLR 20242023-10-11

Imitation Learning from Observation with Automatic Discount Scheduling

模仿学习

模仿学习强化学习机器人学习

论文关注仅凭观测视频进行模仿时,代理奖励式ILfO在“必须先学会前置动作、再完成后续动作”的进度依赖任务上常失败的问题。文中核心洞察是:轨迹后期的代理奖励会压制早期关键行为学习,导致机器人学会看似相似却错误的捷径。为此作者提出ADS,利用进度识别器自适应调度强化学习折扣因子,先强调早期回报、待前序技能掌握后再逐步纳入后期回报。在9个Meta-World操作任务上,该方法全面优于已有ILfO基线,并在部分先前难以解出的任务上取得成功。

RoboHive: A Unified Framework for Robot Learning figure
NeurIPS D&B 20232023-10-10

RoboHive: A Unified Framework for Robot Learning

跨本体

跨本体机器人学习数据集/Benchmark

论文指出,机器人学习进展缓慢的一大原因是软件栈碎片化、任务接口不统一且缺少公认基准,导致跨本体、跨任务研究难以复现和比较。RoboHive的核心创新是以统一API和Robot-Class抽象,把高保真MuJoCo环境、真实硬件接入、遥操作采集与评测基线整合进同一生态,并覆盖灵巧手操作、桌面操控、四足运动、多任务等场景。主要结果是作者开源了该框架,提供多数环境的专家示范、基线结果和RoboSet真实数据集;但其贡献主要是基准与工具统一,而非单一算法性能突破,判断基于公开摘要/项目页。

TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models figure
ICLR 20242023-10-09

TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models

模仿学习

模仿学习VLA机器人学习

论文关注大模型机器人策略在新任务上适配昂贵、且全量微调易遗忘旧技能的问题,提出TAIL:冻结预训练视觉-语言-动作策略主体,只为每个任务插入轻量适配器,并系统比较Adapter、P-Tuning与LoRA在持续模仿学习中的效果。实验表明LoRA版TAIL在语言条件操作任务上最好,仅需约1%可训练参数,就比全量微调前向适配成功率高22%、显存少23%,同时显著缓解灾难性遗忘并保持后续任务适配能力,说明在有限示范数据下保留预训练表示比整体改写更稳健。

Memory-Consistent Neural Networks for Imitation Learning figure
ICLR 20242023-10-09

Memory-Consistent Neural Networks for Imitation Learning

模仿学习

模仿学习Latent Learning机器人学习

这篇工作针对行为克隆在闭环执行时容易因分布外小误差不断累积而失效的问题,不改训练范式,而是重设计策略模型。作者提出MCNN:从演示中选取原型“记忆”样本,并将神经网络输出硬约束在以这些记忆为中心的允许区域内,使策略在近邻处更像最近邻、远处再交给参数网络,同时给出次优性上界。实验在10个操控与驾驶任务、MLP、Transformer和扩散骨干上都比普通BC更稳且普遍更强,优势在少样本场景尤其明显。

Offline Imitation Learning with Variational Counterfactual Reasoning figure
NeurIPS 20232023-10-07

Offline Imitation Learning with Variational Counterfactual Reasoning

模仿学习

模仿学习数据采集数据生成数据增强

论文针对离线模仿学习中专家数据稀缺、无标签数据混有次优轨迹且策略易记住坏行为、难泛化到新环境的问题,提出 OILCA:在结构因果模型下用可辨识 VAE 推断外生变量,对专家轨迹做最小反事实编辑,合成“若状态变化,专家会如何动作”的新示范,再用于策略学习。文中还分析了潜变量可辨识性、采样噪声与样本复杂度,以及增广数据可改善泛化误差上界;在 DeepMind Control 和 CausalWorld 上,其分布内性能与分布外泛化均明显优于多种离线 IL 基线。

Human-oriented Representation Learning for Robotic Manipulation figure
RSS 20242023-10-04

Human-oriented Representation Learning for Robotic Manipulation

Latent Learning

Latent Learning机器人学习操作

论文指出,纯自监督视觉表征常忽略手-物交互和状态变化等对操作最关键的人类偏置,因而难以支撑泛化操控。作者在预训练编码器上提出可插拔的 Task Fusion Decoder,用 Ego4D 中物体状态变化、关键时刻定位和状态变化检测等多任务联合微调,并以跨任务注意力把这些感知技能压入共享潜变量。结果是在 R3M、MVP、EgoVLP 上,仿真与真实机器人操作都获得稳定提升,且可视化表明表征更聚焦操作区域与状态切换。

GRITS: A Spillage-Aware Guided Diffusion Policy for Robot Food Scooping Tasks figure
ICRA 20262023-10-01

GRITS: A Spillage-Aware Guided Diffusion Policy for Robot Food Scooping Tasks

Diffusion Policy

Diffusion Policy泛化应用

针对示教式舀取策略难适应食物形态与装载量变化、容易在转运中洒落的问题,GRITS把可微“洒落预测器”嵌入扩散策略的测试时去噪过程,用仿真中由球、方块、圆锥、圆柱及不同质量/摩擦/粒径生成的数据训练预测器,并以点云输入缓解 sim2real。真实平台上,该方法用6类食物训练、在10类未见食物上达到82%成功率和4%洒落率,相比无引导基线将洒落降低40%以上,同时保持较高任务成功。

Predicting Object Interactions with Behavior Primitives: An Application in Stowing Tasks figure
CoRL 20232023-09-28

Predicting Object Interactions with Behavior Primitives: An Application in Stowing Tasks

人机交互

人机交互应用

这篇工作针对收纳任务中长时程规划和多物体接触难以手工建模、且现有方法依赖大量标注与数据的问题,提出用GNN在行为原语参数空间里预测物体交互,再结合原语增强的轨迹优化,从单次示教的3–4个关键帧中搜索推、搬运等动作参数,避免显式建模摩擦与接触。结果上,系统虽只在仿真训练,仍能迁移到真实场景,并适应不同货架宽度、物体数量及尺寸形状变化;但摘要未充分说明相对基线的具体数值增益。

D3Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement figure
CoRL 20242023-09-28

D3Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement

任务规划

任务规划3D 表征泛化

论文针对机器人重排中场景表示往往难以同时具备3D、语义和动态性,且难用风格多样的2D目标图像做零样本任务指定的问题,提出D3Fields:将任意3D点回投到稀疏多视角RGBD观测,并融合Grounding-DINO、SAM、DINOv2等特征,得到可输出距离、语义描述子与实例掩码的隐式场,同时结合动力学学习和MPC完成规划。实验表明,其在真实与仿真的鞋子整理、碎屑收集和桌面整理中可零样本泛化,并在效果和效率上显著优于FeatureNeRF、F3RM等基线。

PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation figure
CoRL 20232023-09-27

PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

3D 表征

3D 表征机器人学习操作

论文针对语言引导操作中2D表征难以显式对齐多视角、精确恢复三维位置与空间关系的问题,提出基于点云的PolarNet:将多相机RGB-D融合为统一3D点云,系统比较点云特征、覆盖范围、坐标系等设计,用PointNext编码并以多模态Transformer与语言中层融合,直接预测7-DoF夹爪动作。RLBench上在单任务、多任务及多变体设置均优于2D/3D基线,且真实机器人7个任务平均成功率达60%。

LGMCTS: Language-Guided Monte-Carlo Tree Search for Executable Semantic Object Rearrangement figure
IROS 20242023-09-27

LGMCTS: Language-Guided Monte-Carlo Tree Search for Executable Semantic Object Rearrangement

应用

应用

面向自然语言驱动但常因“先生成目标、再补动作计划”而不可执行的家庭物体重排,LGMCTS将LLM用于解析中间几何约束,并结合带参数几何先验的MCTS,联合搜索目标位姿、执行顺序及障碍物临时挪移,而不是把规划完全交给LLM。文中还提出ELGR基准;仿真与真实机器人结果表明,其在可执行性和语义一致性上优于Code as Policies、ProgPrompt,并在StructFormer数据上超过StructFormer和StructDiffusion,支持“LLM更适合生成中间表示而非直接长程规划”的判断。

GAMMA: Graspability-Aware Mobile MAnipulation Policy Learning based on Online Grasping Pose Fusion figure
ICRA 20242023-09-27

GAMMA: Graspability-Aware Mobile MAnipulation Policy Learning based on Online Grasping Pose Fusion

抓取

移动操作抓取四足操作感知机器人学习操作

这篇工作针对移动操作里“接近目标时看不全、看不稳,导致抓取决策不准”的问题,认为可见性或可达性先验对抓取的指导仍偏间接,因此把“可抓取性”直接作为强化学习策略的核心先验。其关键做法是在线融合连续时刻预测到的抓取位姿,剔除冗余和离群候选,得到时序一致的 graspability 表征,并同时作为策略输入与 observe-to-grasp 奖励,用来平衡先观察清楚再执行抓取。结果上,GAMMA 在 Habitat、Isaac Gym 和真实四足机械臂平台上都优于基线,抓取相关指标更高,且时序抓取信息还能缓解 sim-to-real 落差。

Development of a Whole-body Work Imitation Learning System by a Biped and Bi-armed Humanoid figure
IROS 20232023-09-27

Development of a Whole-body Work Imitation Learning System by a Biped and Bi-armed Humanoid

人形操作

移动操作人形操作模仿学习操作

论文面向人形机器人在浮动基座下难以稳定收集全身操作数据的问题,将TABLIS双向遥操作与JAXON结合,并以高频姿态跟踪配合低频全身扭矩、接触力和重心优化,使头、腰、手、腿可在重载下长期协同示教。实验中,系统通过模仿学习完成了布料移除、单脚开垃圾桶和抬起约16kg箱子;但文中对学习模型细节与数据规模未充分说明,最终增益可能也部分来自更稳健的遥操作与控制。

AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild figure
ICRA 20242023-09-26

AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild

数据采集

数据采集遥操作操作

这篇工作针对传统机器人操作过度依赖手爪、难以学习用前臂或肘部与环境接触的整臂操作,提出可跨机器人改装、约600美元、可穿戴的双臂外骨骼 AirExo,用统一关节映射同时采集机器人遥操作数据和无需机器人的野外人类演示。核心洞察是用少量昂贵遥操作数据配合大规模低成本野外数据训练,可显著提升样本效率;实验表明,仅3分钟遥操作加野外数据,效果可比甚至优于20多分钟纯遥操作,并且在任务阶段切换和受扰动时更稳健。

A Wearable Robotic Hand for Hand-over-Hand Imitation Learning figure
ICRA 20242023-09-26

A Wearable Robotic Hand for Hand-over-Hand Imitation Learning

灵巧操作

灵巧操作模仿学习操作

本文针对灵巧手模仿学习中“数据手套动作难直接映射到机器人、且接触/力反馈缺失”导致示教质量受限的问题,提出可穿戴式 HIRO Hand:让操作者直接戴着机器人手完成 hand-over-hand 示教,把人手触觉反馈转化为更可执行的专家数据,并兼顾执行器本体。该手为15自由度、全3D打印、成本约400美元;结合 PID 与视觉行为克隆后,可完成10余种抓取与手内操作,支持21类抓握(约覆盖人类抓握类型的80%),单指重复误差低于0.14 mm。

A Structured Prediction Approach for Robot Imitation Learning figure
IJRR 20242023-09-26

A Structured Prediction Approach for Robot Imitation Learning

模仿学习

模仿学习机器人学习

这篇工作针对现有轨迹模仿方法大多默认输出在欧式空间、难处理姿态等流形约束且适应新工况能力有限的问题,把机器人模仿学习统一建模为结构化预测:用核化非参数模型学习概率轨迹,并以 f-散度度量示教与复现分布差异,不同散度对应不同“模仿模式”,同时支持时空调制。实验表明,该方法在轨迹复现与适应上的精度和效率均优于多种基线,并在 KUKA 抛光任务中验证了流形轨迹学习。

MUTEX: Learning Unified Policies from Multimodal Task Specifications figure
CoRL 20232023-09-25

MUTEX: Learning Unified Policies from Multimodal Task Specifications

3D 表征

3D 表征音频机器人学习

针对现有机器人策略把文本、图像、语音和视频任务说明割裂建模、难以利用跨模态互补信息的问题,MUTEX提出统一的Perceiver/Transformer策略,将六类任务规格映射到共享表征空间,并联合掩码建模、跨模态匹配与行为克隆两阶段训练,尤其用信息更密集的视频表征去增强其他模态理解。在100个仿真任务和50个真实任务上,它对单一或混合模态指令的执行成功率均优于各单模态专用方法,并能依据人类视频演示完成真实操作。

Robotic Offline RL from Internet Videos via Value-Function Pre-Training figure
NeruIPSW 20232023-09-22

Robotic Offline RL from Internet Videos via Value-Function Pre-Training

视频规划

视频规划强化学习触觉基础模型机器人学习操作

这项工作针对机器人离线RL难以直接利用互联网视频这一“只有观察、没有动作和奖励”的类型错配问题,提出V-PTR:先在Ego4D等人类视频上用TD学习意图条件价值函数,再在Bridge机器人多任务数据上继续做价值式离线RL预训练。其核心洞察是,相比自监督视觉表征,直接学价值能从视频中提取更适合下游操控的长期可达结果表征。实机WidowX实验显示,该方法在多项操作任务上比VIP等视频预训练基线有更好的零样本泛化与抗干扰性,但对相机视角、台面高度等变化仍较敏感。

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions figure
CoRL 20232023-09-22

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

强化学习

强化学习触觉Transformer Policy基础模型机器人学习

论文针对机器人学习中“Transformer 容量大、但难与离线强化学习稳定结合,且数据常混有人类示范与自主采集失败轨迹”的问题,提出 Q-Transformer:把连续动作各维离散成序列 token,用自回归方式学习 Q 函数,并配合保守正则与 Monte Carlo/n-step 回报,缓解离线 RL 的分布偏移和稀疏奖励难题。实验显示,它在仿真和真实世界多任务操作中优于既有离线RL、模仿学习和 Decision Transformer;但其增益也可能部分来自更大规模数据与模型容量。

GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators figure
IROS 20242023-09-22

GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators

数据采集

数据采集遥操作操作

这篇工作针对模仿学习常被示教数据质量、规模和多样性卡住的问题,提出GELLO:用3D打印件和廉价舵机搭出与目标机械臂运动学同构的缩比主手,通过关节到关节映射与简单弹簧/橡皮筋正则化,让操作者自然感知关节极限、奇异位形和自碰风险,减少对末端空间逆解控制的依赖。用户研究显示,在约300美元级别的低成本方案中,它比VR手柄和SpaceMouse更可靠、更高效地采集示教,并在UR5、xArm、Franka上展示了双臂和接触丰富操作;但其仍是单边遥操作,文中未提供力反馈。

Prompt, Plan, Perform: LLM-based Humanoid Control via Quantized Imitation Learning figure
ICRA 20242023-09-20

Prompt, Plan, Perform: LLM-based Humanoid Control via Quantized Imitation Learning

人形操作

人形操作模仿学习语言条件操作

这项工作针对人形机器人通常需为每个任务单独设计奖励和策略、难以处理未知复杂任务的问题,把条件对抗模仿学习得到的可复用动作技能与LLM规划结合起来,用单一策略网络执行多步语言任务;同时用CLIP+码本向量量化把未见过的文本命令映射到已学技能,并加入面向朝向与髋部的通用奖励以保持目标导向。实验表明,该方法能在零样本复杂任务中完成顺序操作并具备一定鲁棒性,但具体量化增益在给定材料中未充分说明。

Deep Imitation Learning for Humanoid Loco-manipulation through Human Teleoperation figure
Humanoids 20232023-09-20

Deep Imitation Learning for Humanoid Loco-manipulation through Human Teleoperation

人形操作

移动操作人形操作模仿学习数据采集遥操作操作

论文针对人形机器人移动操作中示教难、自由度高且接触时还要维持平衡,导致模仿学习难以落地的问题,提出TRILL:用VR遥操作采集示范,以全身控制把人类任务空间指令稳健转换为关节力矩,并让策略只预测手部目标与步态等高层动作来提高样本效率。结果上,TRILL在仿真中的纯移动、纯操作和移动操作任务成功率分别达96%、80%、92%,较BC-RNN平均提升28%,在真实DRACO 3两项接触丰富操作中平均成功率为85%。

3DAPNet: Language-Conditioned Affordance-Pose Detection in 3D Point Clouds figure
ICRA 20242023-09-19

3DAPNet: Language-Conditioned Affordance-Pose Detection in 3D Point Clouds

抓取

抓取Affordance3D 表征语言条件感知操作

这篇工作针对以往方法只能在预定义affordance集合内做检测或抓取、难以把语言指令落到可执行6DoF位姿上的问题,提出3DAPNet:在3D点云上用开放词汇affordance分支定位可操作区域,再用语言引导扩散模型生成对应位姿,并配套构建3DAP数据集。实验显示其在开放词汇affordance检测与姿态生成上显著优于基线,并完成真实机器人操作验证;但失败案例也说明对未见affordance和复杂多物体场景的泛化仍有限,相关增益来源文中未充分拆解。

RotateIt: General In-Hand Object Rotation with Vision and Touch figure
CoRL 20232023-09-18

RotateIt: General In-Hand Object Rotation with Vision and Touch

灵巧操作

灵巧操作触觉机器人学习

面向通用手内重定向中“既要稳抓又要连续转动”的难题,RotateIt研究仅靠指尖在多轴上旋转未知物体。其关键思路是先在仿真中用物体形状和物理参数训练带特权信息的策略,再用视觉—触觉Transformer从深度、触觉接触与本体感觉历史中估计这类隐变量,从而摆脱显式物体模型。文中消融表明,显式形状编码以及视觉与触觉结合对非z轴旋转尤为关键;最终方法在x/y/z三轴上明显优于Hora等基线,并可零样本迁移到真实Allegro手上连续旋转多种新物体,无需微调。

Grasp-Anything: Large-scale Grasp Dataset from Foundation Models figure
ICRA 20242023-09-18

Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

抓取

抓取基础模型数据集/Benchmark

这篇工作针对现有抓取数据集物体种类少、场景过于受控且缺少语言描述,导致模型难泛化到真实世界的问题,提出借助基础模型的世界知识合成大规模抓取数据集 Grasp-Anything:含100万场景、约300万物体,并提供文本描述与更自然的多物体布局。实验表明,用它训练的矩形抓取基线在零样本视觉评测和真实机器人抓取上都优于既有数据集;但从已给材料看,增益来源可能主要来自数据规模与多样性,具体各组件贡献文中未充分说明。

GenDOM: Generalizable One-shot Deformable Object Manipulation with Parameter-Aware Policy figure
ICRA 20242023-09-16

GenDOM: Generalizable One-shot Deformable Object Manipulation with Parameter-Aware Policy

可变形物体

可变形物体泛化操作

这篇工作针对可变形物体操作往往需为每个新绳/布收集大量真机示教、难以跨物体泛化的问题,提出 GenDOM:先在仿真中把杨氏模量和泊松比作为条件训练参数感知策略,再用一次真实示教结合可微物理与点云栅格密度匹配来反求物体参数,从而实现 one-shot 适配。实验显示其在仿真中对域内/域外绳子分别提升 62%/15%,在真实中绳子与布分别提升 26%/50%。

LERF-TOGO: Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping figure
CoRL 20232023-09-14

LERF-TOGO: Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping

抓取

抓取3D 表征操作

该文针对现有抓取器只关心“能否提起”,难以按“刀柄、花茎、镜框”等语义部位安全抓取的问题,提出LERF-TOGO:先用LERF建立可文本查询的3D语义场,但考虑到LERF缺乏对象性、激活常不完整,再结合DINO提取3D物体掩码,并在掩码内做条件化部位查询来重排GraspNet候选抓取,实现零样本语言引导的任务抓取。真实机器人实验中,其抓对目标物体、抓对目标部位和成功提起的比例分别为96%、82%和69%。

VAPORS: Learning Sequential Acquisition Policies for Robot-Assisted Feeding figure
CoRL 20232023-09-11

VAPORS: Learning Sequential Acquisition Policies for Robot-Assisted Feeding

应用

应用

面向辅助进食,难点不只在学会叉卷面、双手舀取等专门动作,更在于能跨长时程把这些策略按盘中食物状态顺序组合起来。VAPORS的关键做法是将高层规划与低层执行解耦:仅在仿真中基于分割图像学习盘面潜在动力学和动作选择,再在真实世界调用视觉参数化原语完成取食或整理,从而绕开食物高保真仿真的瓶颈。论文在面条获取和双臂舀取糖豆上验证,38个盘面下其效率与清盘率优于启发式和单原语基线,并对配料、酱汁变化表现出一定泛化,49人调查中也更符合用户偏好。

REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation figure
CORL 20232023-09-06

REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation

灵巧操作

灵巧操作操作

论文针对真实世界灵巧手强化学习样本效率低、奖励难设计且每轮常需人工复位的问题,提出 REBOOT:将旧任务甚至旧物体的数据预装到新任务的 replay buffer,用历史交互为在线 RL 热启动;再结合基于少量目标图像的对抗式奖励学习和模仿学习拾取复位,使系统仅依赖相机与关节编码器即可自主训练。实验在四指灵巧手、三类物体的手内重定向上表明,跨任务复用数据可把样本效率提升约 2 倍,并将技能学习压缩到数小时。

GIRAF: Gesture-Informed Robot Assistance via Foundation Models figure
CoRL 20232023-09-06

GIRAF: Gesture-Informed Robot Assistance via Foundation Models

任务规划

任务规划基础模型

论文关注机器人在语言受限、对象难命名或指代含糊时,难以从手势中推断真实意图的问题。GIRAF的核心不是手工定义“手势—动作”映射,而是把场景/人体感知、指向几何启发式与LLM编程式规划结合:先定位手势所指对象或位置,再让LLM结合语言和上下文生成调用感知与动作API的任务代码,实现语义消歧。实验中,桌面操作用户研究相对纯语言基线成功率提升约70%且更受偏好;在36个场景的GestureInstruct上规划成功率为81%,但当前主要限于静态手势。

RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking figure
ICRA 20242023-09-05

RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking

Transformer Policy

Transformer Policy数据增强泛化机器人学习操作数据集/Benchmark

这篇工作针对真实机器人示教数据昂贵、通用操作策略难以泛化的问题,尝试在仅7500条示教的数据预算下训练单一多任务策略。其核心做法是先用基础模型进行自动语义增强,在不增加采集成本下扩展物体与场景多样性,再用语言条件的MT-ACT以“动作块”而非逐步动作建模多模态轨迹,缓解低数据模仿学习中的过拟合与协变量偏移。实验表明,RoboAgent可在厨房场景完成12类技能、38个任务,未见情形下平均较已有方法提升40%以上,并同步开源RoboSet数据集。

PG-InstructBLIP: Physically Grounded Vision-Language Models for Robotic Manipulation figure
ICRA 20242023-09-05

PG-InstructBLIP: Physically Grounded Vision-Language Models for Robotic Manipulation

任务规划

任务规划语言条件操作

本文的动机是,现有VLM虽能看懂场景,却缺乏对材质、脆弱性、盛装能力等物理概念的判断,导致LLM做操作规划时难以选对目标或满足安全约束。作者构建了面向家居物体的PhysObjects数据集,并将InstructBLIP微调为“物理扎根”VLM,再让规划器通过问答方式查询物体属性。结果表明,该模型在物理概念识别及保留概念外泛化上更好,接入LLM后也提升了需物理推理任务的规划表现与真实机器人成功率;整体增益看起来主要来自数据微调而非规划框架变化。

Elastic-DS: Task Generalization with Stability Guarantees via Elastic Dynamical System Motion Policies figure
CoRL 20232023-09-05

Elastic-DS: Task Generalization with Stability Guarantees via Elastic Dynamical System Motion Policies

模仿学习

模仿学习轨迹生成泛化机器人学习

针对DS模仿学习虽稳定但难随任务参数变化泛化、而通用模仿学习又缺乏控制保证的问题,文中提出Elastic-DS:将对象相关的SE(3)任务坐标系嵌入GMM/LPV-DS,用Elastic-GMM配合Laplacian Editing在新场景下变形轨迹分布,并重新估计仍具李雅普诺夫稳定性的运动策略,还能组合成多步任务。仿真和真实机器人实验表明,它在单次或少量示教下即可零样本适配位置与朝向变化,完成书架堆叠等任务,同时保持收敛与稳定保证。

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation figure
CoRL 20232023-09-02

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

灵巧操作

灵巧操作操作

面向积木搭建、工具定位这类由搜索、抓取、定向、插入等异质子任务组成的长时程灵巧操作,论文指出单技能顺序拼接常因前后策略状态分布不匹配而失效。为此提出 Sequential Dexterity:前向初始化建模上一技能的终态分布,反向用过渡可行性函数微调前序策略,把后续成功概率回传为奖励,并在执行时据此自动切换或恢复策略。结果显示,该方法提升了多阶段灵巧操作成功率,可泛化到新物体形状,并实现从仿真到真实 Allegro 手系统的零样本迁移。

Learning Whole-body Manipulation for Quadrupedal Robot figure
RA-L 20232023-08-31

Learning Whole-body Manipulation for Quadrupedal Robot

四足操作

移动操作四足操作操作

论文针对四足机器人在工业场景中难以抓取大型、重型且物性未知物体的问题,提出面向平面推操作的层级强化学习框架:高层输出机体/物体相关速度指令,低层跟踪关节目标,并用结合交互、本体感知与动作历史的潜变量隐式表征物体属性,从而避免显式建模与在线优化。仿真中对多类物体重定位与转向成功率达93.6%,真实机零样本迁移后可推动19.2kg水桶和15.3kg重箱;但潜变量编码相对层级结构的独立增益,给定片段未充分说明。

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields figure
CoRL 20232023-08-31

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

3D 表征

3D 表征泛化机器人学习

论文针对少量示教下多任务机器人在真实杂乱场景中难以同时理解几何结构与语义、从而泛化不足的问题,提出GNFactor:让可泛化神经特征场与Perceiver策略共享同一3D体素表征,并借助Stable Diffusion特征重建把2D语义蒸馏进3D,再从单帧RGB-D和语言直接预测关键帧动作。实验表明,它在两间厨房的3个真实任务及10个RLBench任务上都明显优于PerAct,平均提升约1.55×到1.57×,对未见任务也更稳健。

Diff-LfD: Contact-aware Model-based Learning from Visual Demonstration for Robotic Manipulation via Differentiable Physics-based Simulation and Rendering figure
CoRL 20232023-08-31

Diff-LfD: Contact-aware Model-based Learning from Visual Demonstration for Robotic Manipulation via Differentiable Physics-based Simulation and Rendering

模仿学习

模仿学习感知机器人学习操作

这项工作针对“仅看人类RGB演示,机器人却难以做接触丰富操作”的问题,把视觉模仿学习拆成两步:先用可微渲染与SDF自监督重建物体形状和6D位姿,再在可微物理中反推接触点、力与接触序列,并蒸馏成可实时执行的闭环策略。实验表明,它在sth-sth推拉任务上成功率达到100%,较视觉示教基线更稳,并在仿真与真实手内操作中完成长时序操作。

ChainedDiffuser: Unifying Trajectory Diffusion and Keypose Prediction for Robotic Manipulation figure
CoRL 20232023-08-31

ChainedDiffuser: Unifying Trajectory Diffusion and Keypose Prediction for Robotic Manipulation

3D 表征

3D 表征VLADiffusion Policy感知机器人学习操作

这篇工作针对两类操作策略各有短板:纯关键位姿方法依赖运动规划,难处理擦拭、开门等连续接触;纯轨迹扩散又不擅长长时序任务。作者提出 ChainedDiffuser,用全局 Transformer 在3D视觉/语言条件下预测关键宏动作,再用局部扩散模型生成连接段轨迹,把高层语义决策与低层平滑执行统一起来。实验中它在 RLBench 刷新 SOTA,优于仅做关键帧预测或仅做轨迹扩散的基线,且在接触密集、关节物体任务上提升更明显,并在少量真人演示下完成多项真实机器人长程任务。

A Data-efficient Neural ODE Framework for Optimal Control of Soft Manipulators figure
CoRL 20232023-08-31

A Data-efficient Neural ODE Framework for Optimal Control of Soft Manipulators

软体机器人

数据需求量大软体机器人操作数据集/Benchmark

论文针对软体连续机械臂建模依赖大量实机数据、且对未见轨迹泛化差的问题,提出用增广神经ODE学习连续前向运动学,再结合GPU并行MPPI进行非凸优化控制。核心洞察是把状态扩展到增广空间,以极少散点样本刻画复杂非线性形变。作者在真实多骨架软体机器人上仅用25个训练点建模,在未见场景下显著优于FNN/RNN,已见场景下也略好,但模型与控制器各自带来的增益来源文中未充分说明。

VELAP: Expansive Latent Planning for Sparse Reward Offline Reinforcement Learning figure
CoRL 20232023-08-30

VELAP: Expansive Latent Planning for Sparse Reward Offline Reinforcement Learning

任务规划

任务规划强化学习触觉Latent Learning基础模型机器人学习

这篇工作针对离线稀疏奖励机器人操作中,现有潜空间规划常受固定预测时域限制、易陷入局部最优的问题,提出 VELAP:在学习到的潜表示里维护并持续扩展一棵搜索树,把已访问区域作为记忆做更全局的路径搜索,并结合时序差分学到的价值启发进行节点、动作和目标选择。作者在改造的 Meta-World 视觉操作基准上报告了显著高于已有方法的任务成功率,并将增益归因于其能跳出局部价值最优,而非只做短视滚动优化。

RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation figure
ICRA 20242023-08-30

RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

任务规划

数据需求量大任务规划几何约束规划模仿学习感知

这篇工作针对机器人学新技能时在“通用性”和“示教成本”间难兼得的问题,提出把操作表示为任意点的密集跟踪:用TAPIR从少量演示中自动找出各阶段的关键点与目标位移,将任务分解为“什么相关、在哪里、如何移动”,再用通用4D视觉伺服复现轨迹。结果表明,系统仅需4–6次示教、无需动作标注,就能完成形状配对、堆叠、上胶粘合等千步级长时程任务,并对杂乱场景和物体位姿变化有较强泛化;但能力上限明显受点跟踪精度制约。

CALAMARI: Contact-Aware and Language conditioned spatial Action MApping for contact-RIch Manipulation figure
CoRL 20232023-08-30

CALAMARI: Contact-Aware and Language conditioned spatial Action MApping for contact-RIch Manipulation

VLA

VLA语言条件接触丰富机器人学习操作

针对现有语言条件操作多聚焦抓放、难处理擦拭和清扫等接触丰富任务,CALAMARI把“动作”重定义为工具与环境应形成的二维接触区域,在图像上逐像素预测语言条件接触掩码,并以“接触”为边界解耦感知与控制,再用MPPI维持接触并避免穿透。实验显示,它在擦拭、清扫、推动等任务上优于已有方法,可仅用仿真训练实现零样本迁移到真实世界,并泛化到未见工具、物体材质/形状/颜色和机器人布置;但其能力目前主要限于平面上的2D连续接触场景。

BridgeData V2: A Dataset for Robot Learning at Scale figure
CoRL 20232023-08-24

BridgeData V2: A Dataset for Robot Learning at Scale

机器人学习

机器人学习数据集/Benchmark

论文针对现有机器人数据集多局限于少量场景、难支撑跨实验室泛化的问题,提出BridgeData V2:在公开低成本机械臂上采集6万余条、覆盖24个环境与13类技能的操作轨迹,并提供语言/目标图像条件与部分多视角深度数据,使同一场景支持开放词汇多任务学习。实验用6种模仿学习与离线RL方法验证后发现,策略能在跨任务、跨环境甚至跨机构设置中取得可用成功率,且性能随数据规模、模型容量和技能多样性提升而改善,增益可能主要来自scaling/data。

SWIM: Structured World Models from Human Videos figure
RSS 20232023-08-23

SWIM: Structured World Models from Human Videos

视频规划

视频规划世界模型感知机器人学习

这篇工作针对机器人世界模型难以扩展到真实场景、且纯机器人交互数据昂贵稀缺的问题,尝试利用海量人类视频学习操控。核心洞察是绕开人机形态差异,不在低层控制上对齐,而用基于视觉可供性的结构化高层动作空间(抓取点与后续路点)训练世界模型,再用少量、无任务监督的机器人轨迹微调并做目标图像规划。结果显示,SWIM 在 Franka 和 Stretch 上用不足 30 分钟真实交互即可学会多种操作,成功率约为已有方法的 2 倍。

Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation figure
arXiv2023-08-21

Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation

任务规划

移动操作任务规划操作数据集/Benchmark

这篇工作针对现有机器人评测把语言规划与低层执行割裂、难以衡量端到端移动操作能力的问题,提出基于 Isaac Sim 厨房数字孪生的 Kitchen-R 基准,把500余条复杂指令、轨迹采集、VLM 任务规划基线和 diffusion policy 控制基线统一到同一框架中,并支持规划、控制和整机三种评测。主要结果是给出了可直接用于联评与数据采集的平台,且已用于 AIJ Contest 2024;但公开摘要未充分说明相对既有基准的定量增益,判断基于公开摘要/项目页。

Skill Transformer: A Monolithic Policy for Mobile Manipulation figure
ICCV 20232023-08-19

Skill Transformer: A Monolithic Policy for Mobile Manipulation

移动操作

移动操作Transformer Policy操作

这篇工作针对移动操作长时程任务中“端到端策略难扩展、模块化管线又易在技能切换处失效”的矛盾,提出 Skill Transformer:用单一因果 Transformer 在自中心深度观测与本体状态上联合预测高层技能和全身低层动作,既保留技能层面的可组合性,又减少导航、开抽屉、抓取、放置之间的 hand-off error。其在 Habitat rearrange-hard 上相对基线取得 1.45× 整体成功率提升,在更困难场景最高达 2.5×,且对未见扰动更鲁棒。

Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward figure
AAAI 20262023-08-15

Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward

强化学习

强化学习触觉泛化操作

本文针对长时序、稀疏奖励机器人操作中“连续动作块”难以用强化学习稳定学到的问题,提出AC3:在DDPG式框架中直接输出连续动作序列,并用只从成功轨迹更新actor的非对称策略学习,配合critic的块内n-step回报和基于示范预训练目标网络的锚点内在奖励,缓解Q值不稳与探索困难。在BiGym和RLBench共25个任务上,它仅用少量示范和简单网络就取得了多数任务更高成功率。

MOMA-Force: Visual-Force Imitation for Real-World Mobile Manipulation figure
IROS 20232023-08-07

MOMA-Force: Visual-Force Imitation for Real-World Mobile Manipulation

移动操作

移动操作模仿学习触觉感知操作

这篇工作针对移动操作中定位与控制误差、高维全身协调带来的“最后几厘米”失准问题,重点解决开门、开抽屉等接触丰富任务。其核心是把视觉模仿从只学运动扩展为同时模仿末端力/力矩:用预训练视觉表征做最近邻检索来预测动作与目标wrench,再结合导纳式全身控制执行。实机六个家居任务上,平均成功率达73.3%,明显高于最佳无力模仿基线的45.0%,且接触力及其方差更小,说明执行更稳、更安全。

Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods figure
IROS 20232023-08-07

Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods

Vision-Action

Vision-ActionLatent Learning基础模型感知机器人学习操作数据集/Benchmark

论文关注一个关键问题:面向机器人操作,视觉预训练该用什么数据、骨干和目标,而不是直接照搬通用视觉配方。作者先做系统基准,发现含人-物交互的第一视角数据更关键,ResNet-50较ViT更稳,基于对比学习的表征更适合操作;据此提出Vi-PRoM,用EgoNet预训练,并结合对比学习、伪标签语义学习和帧序预测。结果显示其在Franka Kitchen、MetaWorld及真实机器人上优于已有方案,但给定材料未充分说明具体提升幅度。

CleanUpBench: Embodied Sweeping and Grasping Benchmark figure
arXiv2023-08-07

CleanUpBench: Embodied Sweeping and Grasping Benchmark

抓取

移动操作抓取操作数据集/Benchmark

这项工作针对现有具身评测要么只测导航/抓取等单一技能、要么过于复杂难复现,缺少面向真实清洁机器人的统一基准,提出了 CleanUpBench:在 Isaac Sim 中搭建同时具备清扫与抓取能力的移动操作平台,提供20个室内场景、单/多机器人设置,以及覆盖任务完成、空间效率、运动质量和计算开销的评测体系。对8类基线的结果显示,纯清扫或纯抓取方法都难以胜任双模态清洁,协同式多机器人学习方法在完成率与效率上更优,但安全性、稳定性与算力开销之间仍存在明显权衡。

VL-Grasp: a 6-Dof Interactive Grasp Policy for Language-Oriented Objects in Cluttered Indoor Scenes figure
IROS 20232023-08-01

VL-Grasp: a 6-Dof Interactive Grasp Policy for Language-Oriented Objects in Cluttered Indoor Scenes

抓取

抓取操作

这篇工作针对语言指令抓取在真实室内杂乱场景中的局限:以往方法多依赖桌面俯视和2D平面抓取,难以处理货架、多视角和同类物体混放。作者提出VL-Grasp,把视觉指代定位、点云过滤与6-DoF抓取检测串起来,并构建更贴近机器人场景的RoboRefIt数据集,用于提升目标消歧与三维抓取适应性。实机实验中,该方法在多种室内场景达到72.5%的抓取成功率。

Hybrid Hierarchical Learning for Solving Complex Sequential Tasks Using the Robotic Manipulation Network ROMAN figure
NMI 20232023-07-30

Hybrid Hierarchical Learning for Solving Complex Sequential Tasks Using the Robotic Manipulation Network ROMAN

泛化

泛化操作

面向机器人难以稳定完成长时程、多步骤且彼此弱相关的操作序列,ROMAN将复杂任务拆成7类可重组技能专家,并用中央操控网络以BC/模仿学习+PPO混合分层调度,重点不在单一技能更强,而在提升高层时序决策与失败恢复。仿真与消融显示,它较单体网络在随机序列、感知噪声和超出演示情形下更稳健,能完成更复杂的长程操作,但真实世界迁移增益文中未充分说明。

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control figure
CoRL 20232023-07-28

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

VLA

VLATransformer Policy语言条件机器人学习操作

论文关注如何把互联网规模视觉—语言预训练的语义知识直接迁移到低层机器人控制,而不只用于高层规划。RT-2 的关键做法是把连续机器人动作离散成文本 token,与 VQA/图文数据和机器人轨迹共同微调同一 VLM,推理时再反解为闭环控制动作。约 6000 次真实评测表明,它在已见任务上保持性能,并显著提升对新物体、背景和环境的泛化,还出现了按数字/图标放置、选择最大/最近目标及借助 CoT 做多步语义推理等能力;但新运动技能本身并未获得,增益可能主要来自语义预训练与模型规模。

F3RM: Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation figure
CoRL 20232023-07-27

F3RM: Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

任务规划

数据需求量大任务规划3D 表征操作

这篇工作针对机器人操作中“二维语义强、三维几何弱”的落差,提出F3RM:将DINO/CLIP的稠密图像特征蒸馏到NeRF式三维特征场中,并用MaskCLIP保留语言对齐,再在该场上推断六自由度抓取与放置位姿。实验显示,只需约10个示范,系统就能在杂乱场景中对未见物体、未见文本表达甚至新类别实现语言引导的抓取与放置泛化;但每个场景仍需额外扫描和重建,实时性受限。

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition figure
CoRL 20232023-07-26

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

数据采集

数据采集数据生成

这篇工作针对机器人操作中数据采集昂贵、长时序稀疏奖励任务难靠随机探索学到的问题,提出“先扩后蒸”的流程:用LLM做任务分解与高层规划,配合采样式运动/抓取规划器自动生成并校验带语言标签的数据,失败可重试;再将成功轨迹蒸馏为多任务语言条件扩散控制策略。作者在5个领域18个任务上平均绝对成功率提升33.2%,且策略学会了重试恢复;增益看起来主要来自scaling出的高质量数据与成功筛选。

AWE: Waypoint-Based Imitation Learning for Robotic Manipulation figure
CoRL 20232023-07-26

AWE: Waypoint-Based Imitation Learning for Robotic Manipulation

模仿学习

模仿学习机器人学习操作

这篇工作针对行为克隆在长时程操作中易累积误差、而人工标注 waypoint 又费人力的问题,提出 AWE 作为演示预处理:若一段轨迹可被线性运动近似,就把端点作为 waypoint,并用动态规划在给定重建误差预算下提取最少关键点,仅依赖本体感觉信息。它可直接接到 Diffusion Policy 和 ACT 前,在仿真中最高提升成功率25%,在真实双臂任务中提升4–28%,并把决策时域缩短到原来的约1/10。

GraspGPT: Leveraging Semantic Knowledge from a Large Language Model for Task-Oriented Grasping figure
RA-L 20232023-07-25

GraspGPT: Leveraging Semantic Knowledge from a Large Language Model for Task-Oriented Grasping

抓取

抓取语言条件操作

这篇工作针对任务导向抓取依赖封闭知识库、难以泛化到新物体和新任务的问题,提出 GraspGPT:先让大语言模型为指令中的物体类别和任务生成描述文本,再把这些开放语义与点云抓取模型结合,把未见概念映射到训练中相关概念上,从而实现零样本泛化。作者还构建了带语言描述的 LA-TaskGrasp 数据集。实验表明,该方法在多种 held-out 设置下优于已有 TOG 方法,并在 Kinova Gen3 实机上验证了抓取与后续操作的有效性。

XSkill: Cross Embodiment Skill Discovery figure
CoRL 20232023-07-19

XSkill: Cross Embodiment Skill Discovery

泛化

泛化跨本体

这篇工作针对人类视频到机器人操作的本体差异:人和机器人的动作参数不可观测、示范又未对齐,导致难以直接提炼可复用技能。XSkill用无标注人类与机器人视频自监督发现共享“技能原型”,再用技能条件扩散策略和对齐模块把原型映射为机器人动作,并支持由单段人类提示视频组合出未见任务。文中在仿真与真实实验中表明,相比直接行为克隆,它在跨本体迁移、长时序任务和新任务泛化上更好。

Multi-Stage Cable Routing through Hierarchical Imitation Learning figure
T-RO 20242023-07-18

Multi-Stage Cable Routing through Hierarchical Imitation Learning

可变形物体

可变形物体模仿学习操作

本文针对多阶段线缆穿夹任务中“单步技能稍有失误、整体成功率就会连乘下降”的难题,提出分层模仿学习:底层视觉策略执行 pickup、route 等原语,上层依据图像和原语历史决定重试、扰线或切换夹点,核心洞察是让系统学会恢复而非追求每一步都完美。实验中,扁平 BC、BeT 和 ACT 基线均为 0% 成功,完整方法在三夹点任务上达到 12/24,并较手写状态机提升超过 2 倍,同时能泛化到较大夹具位置变化。

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models figure
CoRL 20232023-07-12

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

任务规划

任务规划几何约束规划3D 表征感知操作

这篇工作针对“LLM会规划但机器人仍依赖手写动作原语”这一瓶颈,提出 VoxPoser:让 LLM 以代码形式调用 VLM 与几何运算,把语言中的可供性和约束组合成 3D value map,再用基于模型的闭环重规划直接生成 6-DoF 轨迹,而非先定义技能库;对接触丰富场景还可结合在线动力学学习。实验中其在真实任务上达 88% 静态、70% 扰动成功率,明显高于原语基线,并在仿真中对未见指令和属性保持更稳健泛化。

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning figure
CoRL 20232023-07-12

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning

移动操作

移动操作任务规划3D 表征语言条件操作

该文针对LLM在多楼层、多房间机器人操作中难以被真实环境约束、且上下文随场景规模爆炸的问题,提出SayPlan:利用3D场景图的层级结构先做语义搜索,只展开与任务相关的子图,再把导航交给经典路径规划,并结合场景图模拟器做迭代重规划以修正不可执行动作。实验在两类大尺度环境、90个长时程任务上表明,输入图可最多压缩82.1%,计划可执行率接近完美,并完成了移动机械臂真实演示。

Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations figure
arXiv2023-07-12

Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations

灵巧操作

灵巧操作视频规划模仿学习泛化机器人学习操作

论文针对真实机器人示教昂贵、数据覆盖窄的问题,尝试把廉价采集的手臂第一视角人类操作视频转成可用于模仿学习的数据。核心做法是利用 eye-in-hand 视角的部分可观性,再用固定图像遮罩去掉人手与夹爪的外观差异,并用机器人 play 数据训练逆动力学模型为人类视频补动作标签,从而无需显式域适配。八个真实任务上,该方法在未见环境和未见任务中的成功率平均绝对提升58%,覆盖3DoF与6DoF控制。

RoCo: Dialectic Multi-Robot Collaboration with Large Language Models figure
ICRA 20242023-07-10

RoCo: Dialectic Multi-Robot Collaboration with Large Language Models

多智能体/多机器人

多智能体/多机器人任务规划语言条件

这篇论文针对多机器人协作中高层分工难、低层联合规划随机器人数量急剧变复杂、传统方法又依赖任务定制的问题,提出 RoCo:让每个机器人由一个 LLM 代理参与对话,共同生成子任务和3D航点,并结合碰撞检测与逆运动学反馈反复修正,再交给集中式多臂规划器求轨迹。作者还提出含6类任务的 RoCoBench;结果显示其在各任务上取得较高成功率并支持人类介入协作,但给定材料中未充分说明相对基线的具体增益幅度与来源。

AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System figure
RSS 20232023-07-10

AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System

灵巧操作

灵巧操作数据采集遥操作感知操作

这篇工作针对现有视觉遥操作强依赖特定机器人、仿真器和部署环境、难以规模化采集灵巧操作数据的问题,提出通用系统 AnyTeleop。其关键在于仅依赖 URDF 的无学习运动重定向与 CUDA 几何碰撞规避,再配合浏览器可视化和模块化接口,把不同机械臂/手、仿真与真实世界、多相机甚至多人协作纳入同一框架。结果上,真实机器人10项任务里有8项成功率超过专用基线;仿真中基于其示教训练的模仿学习在6项里5项更好,作者将增益主要归因于轨迹更平滑且减少自碰撞。

Deep Learning Approaches to Grasp Synthesis: A Review figure
T-RO 20232023-07-06

Deep Learning Approaches to Grasp Synthesis: A Review

抓取

抓取综述

论文针对6-DoF抓取研究快速增长但方法、数据集和评测分散、难以横向比较的问题,系统梳理了近十年85篇深度学习抓取生成工作。其核心洞察是将方法归纳为采样、直接回归、强化学习和示例检索四类,并把形状补全与可供性视为支撑模块,同时补充分析常用数据集、物体集合和基准评测。主要结果是总结出该领域十条关键结论,指出研究正从早期采样评分转向端到端回归,但评测协议与泛化设定仍缺乏统一。

KNOWNO: Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners figure
CoRL 20232023-07-04

KNOWNO: Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners

任务规划

多智能体/多机器人任务规划人机交互安全语言条件

这篇工作关注LLM机器人规划在歧义指令下容易“自信地做错”,从而带来效率和安全问题。作者提出KNOWNO,将下一步规划改写为多选问答,并用保形预测校准LLM置信度:若候选动作集合唯一就执行,若存在多个高置信候选则主动向人澄清,在多步任务中给出用户可指定的成功率保证,同时尽量少求助。仿真与真实机器人实验表明,它在空间、数值、偏好和指代歧义等场景下都能稳定达到目标成功率,并比基线少求助约10%–24%,且无需微调模型。

RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot figure
RSSW 20232023-07-02

RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot

操作

操作数据集/Benchmark

论文针对一-shot模仿学习长期受限于“小规模、视觉单模态、只会推/抓放”数据的问题,提出RH20T:用带力反馈的遥操作采集真实世界接触丰富操作,并统一配套多机器人、多视角的视觉、力觉/触觉、音频、动作数据,以及人类示范视频和语言描述,且按语义层级组织任务。主要结果是公开约11万段机器人轨迹、11万人类示范、覆盖140余项技能和5000万+帧;论文重点在数据建设,算法增益来源不清,可能主要来自scaling/data。

Statler: State-Maintaining Language Models for Embodied Reasoning figure
ICRA 20242023-06-30

Statler: State-Maintaining Language Models for Embodied Reasoning

任务规划

任务规划程序化规划语言条件

论文针对LLM做机器人规划时难以隐式记住历史、处理不可观测状态且长时程推理易失稳的问题,提出Statler:用两个提示式LLM分别充当“世界状态写入器/读取器”,显式维护并更新状态,再基于当前状态生成可执行代码。核心洞察是把隐含在上下文中的时序世界模型外显。实验表明其明显优于Code-as-Policies,尤其在时序查询上,抓放83%对31%、消毒65%对5%、重量推理55%对0%,但对重量累加和歧义表述仍会出错。

GRIF: Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control figure
CoRL 20232023-06-30

GRIF: Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control

Latent Learning

Latent Learning机器人学习

这篇论文聚焦机器人语言控制里“语言标注昂贵、无标注轨迹丰富”的矛盾,想把自然语言变成目标条件策略的低成本接口。GRIF 的核心洞察是,不把指令对齐到单张目标图像,而是对齐到“初始状态到目标状态”的场景变化,并用对比学习统一语言与图像目标的任务表征,从而用少量带语言演示撬动大量可事后重标的无标注数据。实验表明,该方法在真实世界多场景操作中比基线和仅依赖标注数据的方法更稳健,并能泛化到未见过的语言指令。

KITE: Keypoint-Conditioned Policies for Semantic Manipulation figure
CoRL 20232023-06-29

KITE: Keypoint-Conditioned Policies for Semantic Manipulation

抓取

抓取感知机器人学习操作

这篇工作针对语言操控中“找对物体/部位”和“精确执行6DoF动作”常被混在一起、导致VLM定位过粗或端到端控制过吃数据的问题,提出两阶段 KITE:先把指令落到图像关键点上,同时表达场景语义与物体部位语义,再用关键点条件化技能库执行动作。核心洞察是用关键点作为语言到动作之间的中间表征,兼顾可解释定位与精细控制。在真实桌面长程操作、语义抓取和咖啡制作上,成功率分别为75%、70%、71%,且仅用几百个标注和每技能少于50个示范就优于VLM grounding或端到端基线。

HYDRA: Hybrid Robot Actions for Imitation Learning figure
CoRL 20232023-06-29

HYDRA: Hybrid Robot Actions for Imitation Learning

模仿学习

模仿学习泛化

针对模仿学习测试时动作误差累积引发的状态分布漂移,HYDRA基于机器人操作常由“自由空间接近”和“接触式精细操作”两种模式组成的洞察,联合学习稀疏航点、稠密低层动作和模式切换,并在航点阶段做离线动作重标注以提高数据一致性。该方法在7个仿真与真实长时程任务上较已有IL基线提升约30%–40%,真实咖啡制作成功率达80%,约为最佳BC-RNN的4倍。

REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction figure
CoRL 20232023-06-27

REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction

任务规划

任务规划

面向长时程机器人任务中不可避免的执行失败,本文希望让机器人先“复盘”,再解释原因并自我纠错。REFLECT的关键做法是把RGB-D、音频和机器人状态整理成三层层级摘要,再让LLM逐步定位子目标与执行结果的偏差、生成失败解释,并据此产出修正计划。作者还构建了含100个仿真和30个真实案例的RoboFail;实验表明其相较基线能给出更有信息量的解释并更好支持纠错规划,但给定材料未充分说明具体数值增益。

RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools figure
CoRL 20232023-06-26

RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools

可变形物体

可变形物体操作

这篇工作关注多工具、长时程的弹塑性面团操作:以往可变形体方法多只覆盖单工具短任务,且常依赖演示或近似仿真。RoboCook把多视角点云重建为粒子状态,用工具感知的GNN学习刀、擀面杖等与面团的动力学,再结合PointNet选工具和基于模型生成数据的自监督策略做闭环控制。系统仅需每种工具约20分钟真实交互数据,就能完成包饺子和字母饼干制作,显著优于4个基线,并对强扰动和材料变化更稳健;不过子目标和部分动作空间仍由人工指定。

RVT: Robotic View Transformer for 3D Object Manipulation figure
CoRL 20232023-06-26

RVT: Robotic View Transformer for 3D Object Manipulation

3D 表征

3D 表征Transformer Policy机器人学习操作

论文针对体素式3D操作虽精确但训练与推理开销过大、纯图像方法又缺乏3D推理的问题,提出RVT:先由RGB-D生成点云,再重渲染为围绕工作空间的虚拟多视角输入,并用Transformer先做视内、再做跨视角注意力,预测各视角热图并融合为末端执行器位姿。这样在保留几何信息的同时避开高分辨率体素的立方复杂度。在RLBench的18个任务、249个变体上,RVT较PerAct平均成功率高26%,同等性能训练快36倍、推理快2.3倍,并可用约10个演示完成多种真实机器人操作任务。

Spatial Generalization of Visual Imitation Learning with Position-Invariant Regularization figure
RSSW 20232023-06-24

Spatial Generalization of Visual Imitation Learning with Position-Invariant Regularization

模仿学习

模仿学习泛化感知

这篇论文关注视觉模仿学习在测试时遇到未见物体摆放位置时容易失效的问题,认为瓶颈在于模型过度记忆绝对坐标而非物体间关系。为此作者提出POINT正则:借助GradCAM定位决策关注区域,再用对抗式判别器压制特征中的位置信息,迫使策略依赖距离、方向等关系特征。实验在MAGICAL基准和真实机械臂抓放任务上都显示,POINT较普通BC与dropout能明显提升对新布局的空间泛化能力。

AR2-D2:Training a Robot Without a Robot figure
CoRL 20232023-06-23

AR2-D2:Training a Robot Without a Robot

数据采集

数据采集

这篇工作针对机器人示教采集依赖昂贵真机、操作者需学习控制器且对象种类受实验室限制的问题,提出 AR2-D2:用 iPhone 录制人手操作视频,并通过手部 6D 位姿跟踪、深度感知和 AR 机械臂投影,把人类演示转成可训练真实机器人的轨迹。实验显示,在3类任务、9个个性化物体上,少至5条 AR 演示加约3000步、不到10分钟的真机微调,就能训练出与真实遥操作示教相当的行为克隆策略;用户研究也表明其几乎无需培训。

SoftGPT: Learn Goal-oriented Soft Object Manipulation Skills by Generative Pre-trained Heterogeneous Graph Transformer figure
IROS 20232023-06-22

SoftGPT: Learn Goal-oriented Soft Object Manipulation Skills by Generative Pre-trained Heterogeneous Graph Transformer

可变形物体

可变形物体Transformer Policy操作

针对软物体形变复杂、状态难表示且真实交互试错成本高的问题,论文提出 SoftGPT:先用大量探索数据将点云压缩为三维异构图,再用 GPT 式动力学模型学习“动作—形变”关系,并与面向目标的策略交替预测动作及其后果,形成可在机器人“脑中”进行 rollout 的 world model。结果表明,该先验能加速多种下游软物体操作策略学习,并有望结合少量人类示教;但给定片段未充分说明具体任务范围和性能增益幅度。

One-shot Imitation Learning via Interaction Warping figure
CoRL 20232023-06-21

One-shot Imitation Learning via Interaction Warping

模仿学习

模仿学习泛化人机交互

论文针对开放场景中机器人难以仅凭一次示范,就把SE(3)操作泛化到新物体和新位姿的问题,提出 Interaction Warping:先用 CPD/PCA 从局部点云联合补全并配准物体形状,再把抓取接触点和放置关系表示为可随形变迁移的“交互点”,避免依赖手工关键点标注。实验在3个仿真与真实重排任务上表明,它比描述子/关键点基线成功率更高、每类物体只需几十个实例训练,并能在野外预测物体网格与抓取。

Surfer: Progressive Reasoning with World Models for Robotic Manipulation figure
TNNLS 20252023-06-20

Surfer: Progressive Reasoning with World Models for Robotic Manipulation

世界模型

世界模型机器人学习操作

论文聚焦机器人在自然语言指令下既要理解含糊语义、又要遵循物理常识的难题,认为现有方法多只学动作而忽略操作后场景变化。Surfer将操作建模为视觉场景的状态转移,用世界模型显式解耦“动作预测+场景预测”,并配套构建全物理仿真的SeaWave渐进推理基准。实验中其在四级任务上平均成功率54.74%,高于最佳基线47.64%。

SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling figure
ICRA 20242023-06-20

SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling

数据需求量大

数据需求量大数据采集数据生成基础模型遥操作

这篇论文针对机器人策略预训练过度依赖海量人工语言标注、难以扩展的问题,提出 SPRINT:在已有语言标注轨迹上,先用大语言模型把相邻子技能重命名并聚合成更高层任务,再用离线强化学习跨轨迹“缝合”技能,生成未显式采集过的长时程复合指令。结果显示,在 ALFRED-RL 和真实 Jaco 厨房操作中,它都比已有预训练方法更快适应未见长时程任务。

RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation figure
TMLR 20232023-06-20

RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

数据需求量大

数据需求量大数据采集数据生成基础模型操作

针对机器人学习长期依赖单任务、跨机器人经验难复用且采集昂贵的问题,RoboCat提出多机体、多任务的视觉目标条件 Decision Transformer,用可变长序列直接兼容不同机器人的观测与动作,并通过“少量示教微调—自主采数—回灌再训练”形成自改进闭环。实验在仿真和3种真实机械臂上表明,它对新任务和新机体可零样本或仅凭100–1000条示教完成适配,且训练数据越大越多样,迁移与微调效率越好,增益可能主要来自 scaling / data。

HomeRobot: Open-Vocabulary Mobile Manipulation figure
CoRL 20232023-06-20

HomeRobot: Open-Vocabulary Mobile Manipulation

操作

移动操作操作数据集/Benchmark

这篇工作针对家用机器人缺少可复现、跨仿真到真实世界的开放词汇移动操作评测这一痛点,提出 OVMM 任务和 HomeRobot 平台,把多房间仿真基准、真实世界 Hello Robot Stretch 软件栈与统一 API 打通,用于评估机器人在陌生家庭中寻找新类别物体并放到指定家具上的全流程能力。实验对比强化学习与启发式基线后发现,前者在目标已可见时更高效,后者更擅长长程探索,而从真值分割换成开放词汇检测后性能明显下降,说明瓶颈主要在感知与系统集成;当前真实世界成功率约为 20%。

SGR: A Universalc Semantic-Geometric Representation for Robotic Manipulation figure
CoRL 20232023-06-18

SGR: A Universalc Semantic-Geometric Representation for Robotic Manipulation

3D 表征

3D 表征VLA机器人学习操作

论文针对机器人操作中RGB有语义、深度/点云有几何、现有方法却常偏单模态的问题,提出SGR:先用大规模2D预训练视觉模型提取语义特征,再反投影到3D并与点云特征在点式网络和SA模块中联合建模,以兼顾语义理解与空间推理。结果显示,它在RLBench单任务、多任务及真实Franka八项任务上均显著优于R3M、CLIP、PERACT等,并能泛化到未见过的颜色和形状属性。

Robot Learning with Sensorimotor Pre-training figure
CoRL 20232023-06-16

Robot Learning with Sensorimotor Pre-training

3D 表征

3D 表征Transformer Policy基础模型机器人学习操作

这篇工作针对“仅做视觉预训练不足以支撑机器人操作”的问题,提出RPT:将多视角图像、本体状态与动作统一为时序token,在视觉潜空间中做高掩码、跨模态跨时间重建,用Transformer学习可迁移的感知—动作表征。作者用2万条、历时9个月采集的真实轨迹预训练后,在实机上普遍优于从零训练,堆叠任务最高约提升2倍,并表现出随数据、上下文长度和模型规模扩展而继续受益的趋势;但部分增益也可能来自更强视觉编码器与数据规模。

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids figure
CoRL 20252023-06-15

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

灵巧操作

灵巧操作人形操作强化学习触觉Sim2Real感知操作

论文关注人形机器人在视觉驱动、双手接触丰富操作中,现有方法过度依赖示教、难扩展到低成本多指硬件的问题。作者提出一套 sim2real RL 配方:用少量真实数据自动校准仿真,按“接触目标+物体目标”设计通用奖励,再以任务感知初始化和专家到通才蒸馏缓解探索,并结合稀疏/稠密物体表征提升感知迁移。其在抓取并够取、双手抬箱和交接三任务上实现零样本迁移,已见物体成功率约90%,未见物体约60%–80%,且对扰动和不同手型具鲁棒性。

Hierarchical Planning and Control for Box Loco-Manipulation figure
PACMCGIT 20232023-06-15

Hierarchical Planning and Control for Box Loco-Manipulation

人形操作

移动操作人形操作任务规划操作

这项工作针对“在杂乱场景中一边走路一边搬箱子”这一长时程任务,试图把人形角色的移动与操作真正耦合起来。核心做法是分层:高层用A*规划避障路径,中层用带双向根轨迹表示的扩散模型生成满足航点约束的行走参考,底层用对象感知的模仿式RL去跟踪,并把稀疏的拾取/放置片段泛化成四类运动原语。结果上,系统在物理仿真中能完成多箱重排、圆柱搬运和汉诺塔等任务,对箱体尺寸、重量、放置高度及外部扰动具有较强鲁棒性。

NeuGraspNet: Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering figure
RSS 20242023-06-12

NeuGraspNet: Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering

抓取

抓取3D 表征操作

论文针对移动操作里“单个随机视角、场景遮挡且杂乱”时6DoF抓取困难的问题,提出把抓取重释为神经表面渲染:先以隐式场景表示做全局重建和候选抓取采样,再用局部渲染得到的表面特征刻画夹爪与物体局部几何的互补关系,从而在SE(3)中隐式评估任意抓取质量。结果上,NeuGraspNet在不同难度仿真中优于代表性的隐式与半隐式基线,并完成了向移动机械臂真实开放杂乱场景的迁移;文中也提到其对细薄物体、计算开销和跨夹爪泛化仍有限。

Transferring Foundation Models for Generalizable Robotic Manipulation figure
WACV 20232023-06-09

Transferring Foundation Models for Generalizable Robotic Manipulation

VLA

VLA泛化基础模型语言条件机器人学习操作

论文针对机器人操作过度依赖大规模示教、且在新物体与新场景上泛化不足的问题,提出把基础模型生成的“语言推理分割掩码”作为策略条件:先用GPT-4推理目标,再结合开放词汇检测、跟踪与SAM得到目标掩码,并用双流2D模仿学习策略融合全局RGB和局部RGB-M信息。真实机器人实验表明,在约1000条示教下,该方法对未见物体、复杂背景和干扰更稳健,还能迁移到开抽屉、堆叠等技能。

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning figure
NeurIPS 20232023-06-05

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

基础操作

基础操作机器人学习操作数据集/Benchmark

该工作针对现有终身学习基准多聚焦图像/文本、难以刻画机器人连续决策中“声明性知识+操作性知识”迁移的问题,提出机器人操作基准 LIBERO:通过可扩展程序化生成构建4个任务套件、共130个语言条件操作任务,并提供高质量遥操作示范数据,用于系统研究物体、空间、目标及其混合分布变化下的终身学习。实验发现,顺序微调在前向迁移上往往优于现有终身学习算法;不存在对所有知识迁移都最优的统一视觉编码器;朴素监督预训练甚至可能损害后续表现。

Data Quality in Imitation Learning figure
NeurIPS 20232023-06-04

Data Quality in Imitation Learning

模仿学习

模仿学习数据采集数据筛选

论文关注机器人模仿学习中“同样算法、不同数据集表现差很多”的根源:离线机器人数据难以做到互联网规模,策略测试时又会因动作误差累积而偏离专家分布,因此比单纯换模型更需要知道该收集和筛选什么数据。作者从分布偏移出发,将数据质量形式化为动作偏差与转移多样性两项关键属性,指出仅追求状态覆盖并不足够。理论分析结合加噪实验和真实人类/机器数据测量表明:状态多样性并非越大越好;适度系统噪声可增强鲁棒性,但动作不一致会明显伤害性能,过强噪声也会因覆盖过稀导致成功率下降。

LIV: Language-Image Representations and Rewards for Robotic Control figure
ICML 20232023-06-01

LIV: Language-Image Representations and Rewards for Robotic Control

模仿学习

模仿学习强化学习机器人学习操作

面向家庭机器人,作者认为控制型视觉-语言表征不仅要把语言目标与视觉状态对齐,还要编码任务进展以提供稠密学习信号,并能用少量机器人数据适配新场景。为此提出LIV,将VIP式时序价值学习与CLIP式跨模态对比统一起来,从带文本但无动作标注的人类视频中预训练隐式通用价值函数,再用同一目标在机器人域微调。实验显示,LIV在仿真和真实操作中均优于既有表征与奖励方法,并能对未见机器人视频零样本赋予稠密奖励。

Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data figure
RA-L 20242023-05-30

Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data

模仿学习

模仿学习VLA语言条件机器人学习

这篇工作针对语言条件模仿学习在未见环境中泛化差、又依赖大量结构化示教的问题,提出 SPIL:将平移、旋转、抓取等基础技能作为先验,额外学习一个中间层策略来根据视觉观测和语言指令选择技能,再由低层策略执行。核心洞察是,比起直接端到端预测下一步动作,显式建模“该用哪类基础技能”更能学习长程操作结构并减轻对训练分布的过拟合。实验中,SPIL 在 CALVIN 零样本多环境设定下平均连续完成任务长度相对 HULC 提升超过 2.5 倍,仿真训练后直接迁移到真实机器人 10 个任务时平均再提升约 30%。

InterPreT: Interactive Predicate Learning from Language Feedback for Generalizable Task Planning figure
RSS 20242023-05-30

InterPreT: Interactive Predicate Learning from Language Feedback for Generalizable Task Planning

任务规划

任务规划程序化规划泛化

面向长时程机器人操作,纯LLM规划缺乏稳定泛化,而手工编写PDDL谓词和算子又代价很高。InterPreT的核心洞察是把非专家人在交互中的自然语言反馈,当作学习“目标谓词”和“动作前提谓词”的监督信号,用GPT-4迭代生成并修正Python谓词,再据此归纳符号算子并在线编译成PDDL,把语言的开放性与经典规划的可验证性结合起来。实验表明,它从简单训练任务学到的表示能迁移到更复杂新任务,最难设置下仿真成功率73%、真实世界40%,明显优于基线。

Demo2Code: From Summarizing Demonstrations to Synthesizing Code via Extended Chain-of-Thought figure
NeurIPS 20232023-05-26

Demo2Code: From Summarizing Demonstrations to Synthesizing Code via Extended Chain-of-Thought

任务规划

任务规划程序化规划模仿学习

这篇工作关注把用户的语言与演示转成可执行机器人任务代码:直接从长演示到复杂程序既受上下文长度限制,也容易在控制流与约束检查上出错。作者的核心洞察是演示和代码之间共享一个潜在任务规格,因此提出 Demo2Code,先递归总结多段演示得到紧凑规格,再从规格递归展开高层代码与辅助函数。文中在桌面操作、Robotouille 和 EPIC-Kitchens 上均优于仅依赖语言生成代码的基线,并显示更能恢复歧义指令下的偏好;但具体数值增益在给定材料中未充分说明。

Imitating Task and Motion Planning with Visuomotor Transformers figure
CoRL 20232023-05-25

Imitating Task and Motion Planning with Visuomotor Transformers

任务规划

任务规划模仿学习Transformer Policy机器人学习

这篇论文的动机是:纯靠人类示教收集操作数据成本太高,而直接用TAMP虽然能自动规划,却依赖特权状态、反应慢且执行开销大。作者提出OPTIMUS,把TAMP批量生成并专门清洗、转换成适合模仿学习的数据,再训练闭环视觉运动Transformer做30–50Hz低层控制;核心洞察是要显式处理特权信息与多模态轨迹带来的模仿难题。实验在300多个长时序任务、72类物体上达到约70%–80%成功率,并表现出一定任务适配与场景泛化能力。

Coherent Soft Imitation Learning figure
NeurIPS 20232023-05-25

Coherent Soft Imitation Learning

模仿学习

模仿学习RL+IL基础模型机器人学习

本文针对行为克隆易受分布偏移影响、IRL又难与预训练稳定结合的问题,提出 CSIL:在熵正则化强化学习中反演软策略更新,把克隆策略的对数密度比解释为与其一致的塑形奖励和 critic 假设空间,从而实现“先 BC、后 RL 微调”的统一流程。为适配连续控制,作者还设计了近似平稳随机过程策略网络。实验表明,该方法在在线与离线、高维及视觉连续控制模仿任务上通常优于或媲美现有方法,且训练更稳定、超参更少。

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought figure
NeurIPS 20232023-05-24

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

基础模型

基础模型机器人学习

该工作针对具身智能中“有视觉语言理解、却难把高层语言规划稳定落到低层控制”的问题,提出 EmbodiedGPT:基于 Ego4D 构建带子目标链式思维标注的 EgoCOT/EgoVQA,用 prefix tuning 适配 7B 语言模型生成更可执行的计划,再由 embodied-former 从计划中抽取任务相关特征,形成规划到控制的闭环。实验显示其在规划、视频问答和操控上均有效,控制成功率相对 BLIP-2(Ego4D) 在 Franka Kitchen 和 Meta-World 分别提升约 1.6 倍和 1.3 倍;不过增益究竟更多来自数据、规划还是特征抽取,文中拆分仍有限。

FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation figure
RSS 20232023-05-22

FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation

基础操作

基础操作遥操作操作数据集/Benchmark

这篇论文的动机是:现有真实机器人操作基准大多停留在推、抓、放等短时任务,且机器人、环境和软件不统一,难以可靠比较长时序复杂操作算法。作者提出可复现的 FurnitureBench,把家具装配作为长时程基准,提供 8 种可 3D 打印家具、标准化搭建与评测流程、200 多小时/5000+ 次遥操作示范,以及对应模拟器 FurnitureSim。实验表明,插入和拧紧等技能仍明显困难,现有 IL 与离线 RL 在完整装配中平均最多只完成 12 个子任务中的 2 个,说明真实世界长程操作还有很大方法缺口。

End-to-End Stable Imitation Learning via Autonomous Neural Dynamic Policies figure
ICRAW 20232023-05-22

End-to-End Stable Imitation Learning via Autonomous Neural Dynamic Policies

模仿学习

模仿学习机器人学习

这篇论文针对神经网络模仿策略虽通用却易产生不稳定动作、传统动力系统策略虽可证稳定却难处理图像等非本体观测的问题,提出ANDP:把状态拆成可控与不可控部分,用神经网络对多个受约束的稳定线性动力系统做非线性组合,并通过重参数化实现端到端训练,从而对可控状态给出渐近稳定保证,但这不等于整体绝对安全。实验表明,ANDP在多种模仿学习任务含图像观测上,能在稳定约束下学习更复杂行为,兼顾传统DS的可分析性与神经策略的通用性。

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model figure
arXiv2023-05-18

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model

任务规划

任务规划程序化规划语言条件操作

这篇工作针对通用机器人难以把长程、多模态指令稳定映射为可执行操作的问题,提出 Instruct2Act:不让 LLM 直接硬写底层策略,而是生成调用 SAM、CLIP 与机器人技能 API 的 Python 程序,在感知—规划—执行闭环中输出中层决策,并统一处理文本、图像占位和指点输入。实验主要在 VIMABench 桌面仿真中进行,在六类任务上零样本表现超过多种学习式基线,但增益有多少来自模块组合而非模型 scaling,文中未充分拆解。

TidyBot: Personalized Robot Assistance with Large Language Models figure
Autonomous Robots 20232023-05-09

TidyBot: Personalized Robot Assistance with Large Language Models

移动操作

移动操作任务规划程序化规划语言条件操作

这篇论文关注家庭整理中“物品该放哪”因人而异、难以逐个手工指定的问题。作者的关键洞察是把大语言模型的少样本总结能力当作个性化泛化器:先用少量用户示例归纳出可解释的收纳规则,再结合开放词汇视觉与移动操作去识别物体、选择目标容器并执行拾放。结果显示,该方法在未见物体的文本基准上达到91.2%准确率,在真实移动操作机器人 TidyBot 上完成了85.0%的正确收纳。

HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation figure
CoRL 20232023-05-06

HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation

操作

操作应用

面向抓取困难、接触过程复杂的6D非抓取操作,HACMan把动作表示成“在物体点云上选接触点+接触后的连续运动参数”,并在actor-critic中同时学习逐点Q值与逐点动作,将空间落点和时序抽象结合起来,避免纯连续或粗离散动作难以泛化的问题。该方法在随机初始姿态、随机6D目标和多类物体的位姿对齐任务中,仿真对未见物体成功率达89%,真实机零样本迁移达50%,且最难设置下明显优于基线,成功率超过最佳基线3倍。

Causal MoMa: Causal Policy Gradient for Whole-Body Mobile Manipulation figure
RSS 20232023-05-04

Causal MoMa: Causal Policy Gradient for Whole-Body Mobile Manipulation

移动操作

移动操作强化学习操作

这篇工作针对移动操作中“大动作空间+多目标奖励”使整机强化学习难以收敛的问题,提出 Causal MoMa:先用条件互信息自动发现动作维度与各奖励项的因果依赖,再让每个动作只基于相关奖励计算优势,形成更低方差的因果策略梯度。其关键点是不再手工规定底盘、机械臂、头部分别负责什么,从而保留全身协同控制能力。实验表明,该方法在多类仿真机器人和真实 Toyota HSR 上优于 PPO 与采样式规划,并实现了仿真到现实的零样本迁移。

DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics figure
ICLR 20232023-04-27

DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics

灵巧操作

灵巧操作可变形物体模仿学习数据采集操作

这篇工作关注多指手对可变形物体的灵巧操作:纯RL在软体高维状态和频繁接触切换下样本代价过高,而可微物理轨迹优化又容易陷入接触局部最优。DexDeform的关键洞察是用少量低成本遥操作示范先学“技能级”动作抽象,再在增广目标上用可微仿真做梯度细化,并把优化后轨迹回灌为新示范。实验在6个单手、双手与手内操作任务上均超过基线,对初始示范未覆盖的目标形状显示出更强探索和泛化能力。

PROGRAMPORT: Programmatically Grounded, Compositionally Generalizable Robotic Manipulation figure
ICLR 20232023-04-26

PROGRAMPORT: Programmatically Grounded, Compositionally Generalizable Robotic Manipulation

程序化规划

程序化规划泛化操作

这篇论文关注语言引导操作中“视觉语义对齐”和“动作策略学习”被混在一起,导致数据效率低、对未见物体与任务组合泛化差的问题。ProgramPort把指令先解析成可执行程序,再用视觉定位模块和操作原语模块分别负责概念 grounding 与控制参数生成,以程序化结构解耦感知和动作,并可端到端模仿学习。实验表明,它在 10 个桌面操作任务上用更少数据取得更强的零样本与组合泛化,相比 CLIPort 式方法更稳健。

ACT: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware figure
RSS 20232023-04-23

ACT: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Transformer Policy

Transformer Policy双臂机器人学习操作

论文针对精细双臂操作通常依赖昂贵机器人、精密传感与繁琐标定的问题,提出低成本 ALOHA 系统与 ACT 策略:用关节空间遥操作采集高质量示教,再让 Transformer 一次预测连续动作块并对重叠片段做时间集成,以缩短有效时域、缓解模仿学习中的误差累积和示教停顿带来的非平稳性。在不足 2 万美元硬件上,系统仅用约 10 分钟、50 条示教就学会 6 项真实任务,开杯盖、装电池等成功率达 80%–90%,且整体优于先前模仿学习基线。

LLM+P: Empowering Large Language Models with Optimal Planning Proficiency figure
arXiv2023-04-22

LLM+P: Empowering Large Language Models with Optimal Planning Proficiency

任务规划

任务规划语言条件

本文针对LLM在长时程任务规划中常生成看似合理却不可执行方案的问题,提出LLM+P:把自然语言任务先翻译成PDDL问题文件,调用经典规划器求解,再将计划回译为自然语言。其关键洞察是让LLM负责“描述/翻译”而非直接搜索,从而借用符号规划的正确性与最优性。实验表明,在多类机器人规划基准上,该方法多数情况下能得到正确且常为最优的计划,而纯LLM往往连可行解都给不出,并展示了家庭机器人操作示例;但方法依赖已知领域模型,泛化边界文中未充分说明。

SLAP: Spatial-Language Attention Policies figure
CoRL 20232023-04-21

SLAP: Spatial-Language Attention Policies

机器人学习

机器人学习操作

这篇工作针对语言引导操作长期局限于桌面场景的问题,关注移动操作中第一视角、相机位姿变化和抓取平面变化下的鲁棒技能学习。SLAP把场景点云编码为多分辨率3D token,并将策略拆成“交互点预测+相对动作预测”的语言条件注意力架构,从而摆脱固定工作空间与相机假设、以少量示教学习连续动作。实机上,单模型在8个任务上成功率80%,遇到未见杂物和新物体布局仍有47.5%,较PerAct高30%,在移动操作场景中提升约4倍。

ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes figure
ICCV 20232023-04-09

ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes

基础操作

基础操作3D 表征操作数据集/Benchmark

这篇工作针对现有机器人操作基准常把目标状态离散化、难以将“半开抽屉”“倒半杯水”等语言精确对应到连续物理状态的问题,提出了 ARNOLD。它在真实感 3D 场景中用高保真物理仿真构建 8 类单臂语言条件任务,提供连续目标、模板语言和专家演示,并专门评测对新目标状态、新物体和新场景的泛化。实验表明,现有语言条件策略在这三类泛化上都明显不足,也说明显式状态建模对性能很关键。

ChatGPT Empowered Long-Step Robot Control in Various Environments: A Case Application figure
IEEE Acess 20232023-04-08

ChatGPT Empowered Long-Step Robot Control in Various Environments: A Case Application

任务规划

任务规划程序化规划操作数据集/Benchmark应用

论文针对现有语言到机器人规划方法场景受限、迁移成本高且缺少人与机器人闭环的问题,探索用少样本 ChatGPT 做跨家庭环境的长步骤操作规划。核心做法是把动作集合、环境状态和输出格式显式程序化:让模型从自然语言与文本环境描述生成可执行的预定义动作序列(JSON),并同步预测操作后环境,以复用状态而非堆积历史对话,从而缓解 token 限制并便于接入控制/感知系统。实验表明,该提示模板可在货架、冰箱、抽屉等场景工作;VirtualHome 上一次生成同时可执行且正确的比例为 36%,经数轮自然语言反馈后接近 100%,但增益有多少来自提示设计而非模型本身,文中未充分说明。

Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets figure
RSS 20232023-04-08

Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets

数据需求量大

数据需求量大模仿学习数据采集数据检索数据集/Benchmark

论文关注少样本模仿学习中的关键瓶颈:机器人虽可借助大规模无标注离线数据,但新任务上如何把少量示教与海量、含次优甚至无关行为的数据有效结合并不清楚。作者提出Behavior Retrieval,先在离线数据上学习状态—动作相似度,再用少量任务示教检索相关转移并联合行为克隆训练。实验表明,该方法能过滤无关/有害数据,在仿真和真实图像操作任务上比只微调、直接混合数据及更复杂的目标条件方法更稳更强,平均提升约20%。

Learning Robot Manipulation from Cross-Morphology Demonstration figure
CoRL 20232023-04-07

Learning Robot Manipulation from Cross-Morphology Demonstration

可变形物体

可变形物体模仿学习操作

本文针对模仿学习在示教者与执行机器人形态差异很大时容易失效的问题,尤其是双手示教到单臂布料操作,提出 MAIL:先从仅含物体状态的演示学习时空动力学,再用间接轨迹优化把教师轨迹转成学生形态下可执行但允许次优的轨迹,最后结合 LfD/RL 学到视觉策略。实验在刚体与可变形物体任务上相对基线最高提升 24%,并可零样本部署到 Franka 单臂,完成带障碍晾布并适应多种布料变化。

End-to-end Manipulator Calligraphy Planning via Variational Imitation Learning figure
arXiv2023-04-06

End-to-end Manipulator Calligraphy Planning via Variational Imitation Learning

任务规划

任务规划模仿学习操作应用

这篇工作针对机器人书写常被简化为二维、难以表达日式书法中笔尖姿态与运笔风格的问题,提出端到端模仿学习规划器:联合第三人称图像与6DoF笔尖位姿,用VAE编码潜变量、Bi-LSTM在潜空间预测时序轨迹,再由MLP解码位姿与图像,从而缓解模仿学习中的分布偏移。实验表明该方法可在真实机械臂上完成较复杂字符书写,消融也支持各模块有效;但文中未充分说明相对基线的具体量化增益。

BESO: Goal-Conditioned Imitation Learning using Score-based Diffusion Policies figure
RSS 20232023-04-05

BESO: Goal-Conditioned Imitation Learning using Score-based Diffusion Policies

模仿学习

模仿学习Diffusion Policy机器人学习

论文针对从无奖励、未标注的 play 数据中学习目标条件策略时,多模态行为难建模、现有方法常依赖层级结构或聚类且推理较慢的问题,提出 BESO:用分数扩散模型直接表示策略,并将分数学习与采样解耦,在 Transformer 上结合 classifier-free guidance,同时学习目标相关与无关策略。实验在 Block-Push、Relay Kitchen 和 CALVIN 等基准上整体优于 C-BET、Latent Plans 等方法,并将动作生成从常见 30+ 次去噪降到 3 步,说明扩散式策略对多峰 play 数据更适合。

COTPC: Chain-of-Thought Predictive Control figure
ICML 20242023-04-03

COTPC: Chain-of-Thought Predictive Control

机器人学习

机器人学习

这篇论文针对接触丰富的低层机器人操作中示范常常次优、含噪且不连续,导致模仿学习既难优化也难泛化的问题,提出CoTPC:先无监督地按时间接近与功能相似性切分子技能,并把分段边界观测当作高层“思维链”子目标,再用带提示 token 和混合掩码的 Transformer 联合预测子技能与底层动作,在测试时动态更新指导。文中报告其在 Moving Maze、Franka-Kitchen 和 ManiSkill2 等任务上稳定优于多种强基线。

ASC: Adaptive Skill Coordination for Robotic Mobile Manipulation figure
RA-L 20232023-04-01

ASC: Adaptive Skill Coordination for Robotic Mobile Manipulation

四足操作

移动操作多智能体/多机器人四足操作操作

本文针对移动抓取放置这类长时程任务中早期失误会放大、子技能目标冲突以及顺序切换易出交接错误的问题,提出ASC:在导航、抓取、放置技能库之外,再学习一个决定何时切换技能的协调策略和一个用于分布外状态恢复的纠偏策略,并且只依赖机载视觉与本体传感。系统完全在仿真训练,却能零样本部署到Spot,在8个新环境中表现稳健;定量上成功率59/60(98%),显著优于简单顺序执行技能的44/60(73%)。

VC-1: Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence? figure
NeurIPS 20232023-03-31

VC-1: Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

Latent Learning

Latent Learning感知机器人学习

论文试图回答:具身智能是否已经有可跨导航、操作等任务泛化的“人工视觉皮层”。作者不提新算法,而是构建含17项任务的CortexBench,并用4,000多小时第一视角视频加ImageNet系统评测和训练MAE视觉表征。核心洞察是现有PVR都不通用,scaling数据规模与多样性只在平均意义上有利。结果上,VC-1平均优于既有表征但并非各任务最强;经过任务/领域适配后,VC-1在全部基准和真实机器人实验中都达到竞争性或更优表现。

Grounding Object Relations in Language-Conditioned Robotic Manipulation with Semantic-Spatial Reasoning figure
AAAIW 20232023-03-31

Grounding Object Relations in Language-Conditioned Robotic Manipulation with Semantic-Spatial Reasoning

VLA

VLA语言条件机器人学习操作

论文针对现有端到端语言操作模型能识别语义目标、却难处理“前后/中间”等多物体空间关系的问题,认为抽象关系推理与像素级抓放学习耦合过紧。其核心是两阶段解耦:先用基于CLIP特征和Transformer的对象中心语义-空间推理器筛出相关物体,再把其分割掩码作为额外输入提供给CLIPort学习抓放可供性。在自建Ravens空间关系抓放任务上,该方法在同等数据下取得非平凡成功率,而原始CLIPort几乎失效;但结果主要基于仿真定制任务,真实场景与更复杂关系的泛化文中未充分说明。

CortexBench: Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence? figure
NeurIPS 20232023-03-31

CortexBench: Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

跨本体

跨本体感知数据集/Benchmark

这篇工作针对具身智能里预训练视觉表征研究彼此不可比、难以回答“通用人工视觉皮层是否已出现”的问题,构建了覆盖17个跨本体任务的 CortexBench,并用4000多小时第一视角视频结合 ImageNet 训练 VC-1 做系统缩放分析。论文没有提出新算法,贡献主要是基准与实证结论:现有PVR都不具普适优势,增大数据规模和多样性只在平均上有帮助、并非所有任务都提升;VC-1平均最强但并非通吃,经任务或领域适配后,才在全部基准和真实机器人实验中达到或超过已知最好结果。

PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations figure
CVPR 20232023-03-29

PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations

任务规划

任务规划3D 表征泛化操作

论文关注机器人如何仅凭稀疏视角点云,在不同类别但共享可操作部件的物体上学习可泛化的操作策略,弥补以往只做同类实例泛化的不足。作者提出首个跨类别部件操作基准 PartManip,并采用“状态专家→视觉学生”的两阶段学习:用部件坐标规范化和部件感知奖励稳定训练专家,再以 SparseUNet、DAgger 和域对抗学习蒸馏出类别无关特征。仿真中该方法显著优于已有方法,尤其在未见类别的开门/开抽屉任务上成功率提升超过20%,且能迁移到真实新物体上。

Dexterous Imitation Made Easy: A Learning-Based Framework for Efficient Dexterous Manipulation figure
ICRA 20232023-03-24

Dexterous Imitation Made Easy: A Learning-Based Framework for Efficient Dexterous Manipulation

灵巧操作

灵巧操作模仿学习机器人学习操作

这篇工作针对灵巧手学习中“示教难采、强化学习样本效率低”的瓶颈,提出 DIME:仅用单目 RGB 相机和现成手部跟踪器,将人手指尖轨迹重定向到 Allegro 手,低成本采集演示,再分别用最近邻模仿和“演示增强”的 RL 在真机与仿真中学习策略。结果表明其能完成翻转、旋转、连续转动等手内操作,单条演示平均约 100 秒;但作者也指出单目存在深度歧义,真机上的 spinning 成功率仍不高。

On the Utility of Koopman Operator Theory in Learning Dexterous Manipulation Skills figure
CoRL 20232023-03-23

On the Utility of Koopman Operator Theory in Learning Dexterous Manipulation Skills

灵巧操作

灵巧操作Latent Learning机器人学习操作

论文关注灵巧操作学习为何难以走出实验室:现有深度RL/模仿学习训练开销大、调参繁琐且对初始化敏感。作者提出KODex,用Koopman算子把手与物体耦合的非线性操作动力学提升为高维线性系统,直接从示范解析学习参考轨迹,再由逆动力学控制器跟踪。其在Adroit手四项仿真任务上,成功率与样本效率接近SOTA模仿学习方法,但训练速度快一个数量级,并明显减轻超参与初始化负担。

Text2Motion: From Natural Language Instructions to Feasible Plans figure
Autonomous Robots 20232023-03-21

Text2Motion: From Natural Language Instructions to Feasible Plans

任务规划

任务规划程序化规划

针对LLM做机器人长时序操作时常只贪心选下一步、难以在执行前验证多步计划可行性的痛点,Text2Motion把语言任务规划、技能库Q函数启发式与几何可行性搜索结合起来,一边由LLM生成多步技能序列,一边显式处理跨步骤的几何依赖,并从指令中推断符号目标来判断何时完成。文中在桌面长程操作任务上取得82%成功率,显著高于SayCan/IM等方法的13%,但仍假设闭世界感知和已知物体位姿。

T-DEX: Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play figure
CoRL 20232023-03-21

T-DEX: Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play

触觉

触觉基础模型机器人学习操作

这篇论文针对多指灵巧手在遮挡严重、需感知接触力的精细操作中,视觉或力矩观测不够可靠的问题,提出 T-DEX:先用 2.5 小时遥操作“play”数据自监督预训练触觉表征,把高维触觉压成可用嵌入,再在每个任务仅 6 条示范下用非参数策略把触觉与视觉结合。五项任务上,其平均成功率较纯视觉/力矩基线提升约 1.7 倍,且触觉预训练相对不做 play 预训练再增约 58%,说明关键不只在加传感器,而在任务无关触觉表示的预训练。

Legs as Manipulator: Pushing Quadrupedal Agility Beyond Locomotion figure
ICRA 20232023-03-20

Legs as Manipulator: Pushing Quadrupedal Agility Beyond Locomotion

四足操作

四足操作操作

论文关注四足机器人长期只会走、难像动物那样用前腿与环境交互的问题。作者将能力拆成“运动”和“单腿操作”两类策略,前者负责行走与攀墙,后者负责三足平衡下按按钮、踢球等,再结合基于USE与在线自适应的 sim2real,以及由一次示范学习的行为树来稳健串联技能。实机中机器人可攀墙按高位按钮、借体重开门、踢球并完成含扰动的长程任务,说明腿可以被有效当作操纵器使用。

Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation figure
ICCV 20232023-03-20

Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation

可变形物体

可变形物体Affordance感知操作

针对绳索、布料等可变形物体操控中状态复杂、动作空间大且多步决策易陷入局部最优的问题,论文提出“前瞻性稠密视觉affordance”:不只判断当前像素/点是否值得操作,还通过类似状态价值估计聚合未来动作回报,为 pick-place 选择更有长期收益的区域。作者还设计了分阶段稳定训练和无需专家的自监督数据采集。仿真与真实实验表明,该方法在代表性的展开/整理任务上优于强化学习和模仿学习基线,但给定材料未充分说明各模块增益的精确拆分。

HANDLOOM: Learned Tracing of One-Dimensional Objects for Inspection and Manipulation figure
CoRL 20232023-03-15

HANDLOOM: Learned Tracing of One-Dimensional Objects for Inspection and Manipulation

可变形物体

可变形物体操作

这篇论文关注长线状可变形物体在多交叉、松弛遮挡下难以可靠建模的问题。相比以往依赖解析规则且通常只处理少量交叉的方法,HANDLOOM提出“自回归轨迹预测+上下穿越分类”的两阶段框架,直接从灰度图逐点追踪线缆并恢复拓扑状态,再将其用于打结模仿和自动解缠。实验中,多线场景单根线缆追踪准确率为80%,单线打结识别为77%,机器人模仿打结成功率80%,自动解缠成功率64%,对未见结型和材料的泛化为85%;但增益有多少来自模型设计、多少来自仿真与真实混合数据,文中未充分拆解。

Matcha: Chat with the Environment: Interactive Multimodal Perception Using Large Language Models figure
IROS 20232023-03-14

Matcha: Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

任务规划

任务规划多模态推理语言条件感知数据集/Benchmark

针对机器人在部分可观测环境中仅靠被动视觉难以确定物体隐属性、从而无法正确操作的问题,论文提出 Matcha:以 LLM 为高层控制器,把视觉、声音、触觉、重量等模块输出统一转成自然语言,让模型像“与环境对话”一样主动选择敲击、触摸、称重等认知动作并据此规划执行。实验表明,它能在材料相关抓取任务中结合多模态证据纠正单一感知误判并生成决策解释;但长链推理和复杂场景下仍不稳定,定量增益来源文中未充分说明。

LLM-GROP: Task and Motion Planning with Large Language Models for Object Rearrangement figure
IROS 20232023-03-10

LLM-GROP: Task and Motion Planning with Large Language Models for Object Rearrangement

任务规划

任务规划语言条件应用

针对服务机器人执行“整理餐桌”这类目标欠明确、却要求符合人类常识的多物体重排任务,传统方法要么依赖精确目标位姿,要么依赖示教数据。LLM-GROP的核心是先用提示从大语言模型提取物体间的语义空间关系,再把这些关系落地为适应不同场景几何的候选摆放,并通过任务—运动联合规划在可行性、成功率与动作代价之间做权衡。实验显示,该方法在人类评分和任务成功率上优于基线,累计动作成本相近,并完成了移动操作机器人实机验证。

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion figure
RSS 20232023-03-07

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

Diffusion Policy

Diffusion Policy机器人学习

这篇论文的动机是:把视觉观测直接回归为单步动作,往往难以应对机器人操作中的多峰决策、长时序依赖和高维连续控制。作者将策略表示为条件动作扩散过程,从噪声中迭代生成一段未来动作序列,并结合视觉条件、滚动时域的闭环重规划和时序扩散 Transformer,在训练稳定性与时序一致性之间取得更好平衡。实验覆盖 4 个基准、15 个任务,平均较当时最优方法提升 46.9%;但性能增益并非只来自扩散本身,各组件的相对贡献文中未完全拆清。

Decoupling Skill Learning from Robotic Control for Generalizable Object Manipulation figure
ICRA 20232023-03-07

Decoupling Skill Learning from Robotic Control for Generalizable Object Manipulation

强化学习

强化学习触觉泛化基础模型机器人学习操作

论文认为,RL/IL 在关节级高维动作空间上直接学操控,容易导致探索低效、对未见物体泛化差。其核心是把“做什么”和“怎么做”解耦:先让无实体的浮动末端执行器用 SAC 学习与铰接物体交互的技能动力学,再用带奇异位形与运动学约束的 QP 将末端目标转成整机控制,从而降低搜索复杂度并获得更顺滑、顺从的运动。在 ManiSkill 柜体任务上,抽屉开启训练/测试成功率分别为 74%/51%,优于纯 RL 和 IL 基线,且随训练物体数量增加,泛化进一步提升。

PaLM-E: An Embodied Multimodal Language Model figure
ICML 20232023-03-06

PaLM-E: An Embodied Multimodal Language Model

任务规划

任务规划

论文针对纯文本LLM难以把语言与真实感知对齐、因此难做机器人任务规划的问题,提出 PaLM-E:将图像、状态估计乃至3D场景表示编码为可插入词序列的连续 token,与预训练 PaLM 端到端联合训练,使模型能直接生成操作步骤或回答感知相关问题。实验显示,同一模型可在多种机器人平台完成序列操作规划,并兼顾 VQA 与描述;多任务共训带来明显迁移,562B 版本在 OK-VQA 达到 SOTA,且随规模增大更能保留语言能力,但增益中 scaling 与数据混合各自贡献文中未充分说明。

Seq2Seq Imitation Learning for Tactile Feedback-based Manipulation figure
ICRA 20232023-03-05

Seq2Seq Imitation Learning for Tactile Feedback-based Manipulation

模仿学习

模仿学习触觉机器人学习操作

针对仅靠触觉进行接触丰富操作时存在的接触建模困难、状态部分可观测和噪声问题,论文把任务拆成“先探索、再操作”的Seq2Seq模仿学习:用Transformer将探索阶段的交互历史编码为对隐藏环境状态的信念,再译码生成操作控制序列,并通过约束编码特征接近真实隐藏状态来提升性能。仿真开门和真实卡扣装配实验表明,该方法仅用50条专家示范即可学会任务,而多种强化学习和模仿学习基线失败。

Teach a Robot to FISH: Versatile Imitation from One Minute of Demonstrations figure
RSS 20232023-03-02

Teach a Robot to FISH: Versatile Imitation from One Minute of Demonstrations

模仿学习

模仿学习泛化

这篇工作针对视觉模仿学习在少样本下容易因分布偏移失效、又常依赖大量示教或手工奖励的问题,提出 FISH:先用 1–3 条、不到一分钟的人类示教得到较弱的基础策略,再用基于最优传输的视觉轨迹匹配分数作为奖励,只在线学习残差策略来修正动作,从而适应训练中未见的物体配置。作者在 3 种机器人、9 个任务上报告平均 93% 成功率,在最多 20 分钟交互内达到约 3.8 倍于已有方法的表现。

MOO: Open-World Object Manipulation using Pre-trained Vision-Language Models figure
CoRL 20232023-03-02

MOO: Open-World Object Manipulation using Pre-trained Vision-Language Models

辅助任务

辅助任务VLA感知机器人学习操作

本文针对机器人难以靠一手交互覆盖人类词汇、因而无法执行涉及未见物体指令的问题,提出 MOO:用冻结的开放词汇视觉-语言模型从图像和指令中粗定位目标物体,再将原图、语言和目标位置共同输入端到端操作策略,以降低传统检测—控制流水线的脆弱性。真实移动操作平台上 1472 次评测表明,该方法可对新类别物体和新环境实现零样本操作,显著优于近期方法,并可扩展到指点、参考图和开放词汇导航。

Learning Language-Conditioned Deformable Object Manipulation with Graph Dynamics figure
ICRA 20242023-03-02

Learning Language-Conditioned Deformable Object Manipulation with Graph Dynamics

可变形物体

可变形物体语言条件操作

这项工作针对以目标图像定义任务会过度约束、且难泛化到新指令的痛点,把可变形物体操作改为语言条件学习。其核心是用统一的 Transformer 融合语言、深度图和可见连通图表示,以刻画布料的空间结构、遮挡与非线性动态,并直接预测抓取/放置位置。实验表明,该方法在仿真与真实场景都有效,平均成功率达 87.2%,相对基线推理时间缩短 75.6%,还能泛化到未见指令和未见任务。

Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning figure
RSS 20242023-02-27

Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning

灵巧操作

灵巧操作模仿学习Diffusion Policy数据采集数据增强

论文针对模仿学习在测试时因误差累积进入示范外状态、而传统 DAgger 又依赖昂贵人工纠偏的问题,提出 DMD:在手眼相机设定下,用扩散模型从专家轨迹合成轻微偏离轨迹的图像,并依据相对位姿自动赋予纠正动作标签,以“造数据”替代“采数据”;相较依赖静态场景假设的 NeRF 增强,它更适合操作中的形变场景。实验在 pushing、stacking、pouring、挂衣四任务上均明显优于 BC,如 pushing 仅 8 条示范达 80% 对 20%,stacking 平均约 92%,pouring 80%,挂衣 90%。

Voltron: Language-Driven Representation Learning for Robotics figure
RSS 20232023-02-24

Voltron: Language-Driven Representation Learning for Robotics

3D 表征

3D 表征Latent Learning机器人学习操作

该文指出,现有机器人视觉表征在不同下游任务上存在明显割裂:MAE偏低层空间细节,对比学习偏高层语义,难以同时支持抓取、语言条件模仿和意图判断。Voltron据此将人类视频与字幕联合预训练,在掩码重建中同时引入语言条件输入与视觉落地的语言生成,并用双帧上下文建模状态变化。作者还构建了覆盖5类机器人任务的统一评测,结果显示Voltron整体优于MVP和R3M,尤其在更依赖语义的语言条件策略学习和意图评分上提升更明显,但不同变体在控制与语义任务间仍存在权衡。

MimicPlay: Long-Horizon Imitation Learning by Watching Human Play figure
CoRL 20232023-02-24

MimicPlay: Long-Horizon Imitation Learning by Watching Human Play

模仿学习

模仿学习Latent Learning机器人学习

这篇工作针对长时序机器人操作过度依赖昂贵遥操作示范的问题,提出将高层规划与低层控制分开学习:先用易采集的人类 play 视频学习面向目标图像的 3D 手部轨迹潜变量计划,再用少量机器人多任务示范学习受其引导的视觉运动控制。实验覆盖 6 个场景、14 个真实长程任务,MimicPlay 在成功率、对新子目标组合的泛化以及受扰后的实时重规划鲁棒性上均优于现有方法;从文中结果看,增益也可能主要来自 human play 数据的 scaling / data。

A Joint Modeling of Vision-Language-Action for Target-oriented Grasping in Clutter figure
ICRA 20232023-02-24

A Joint Modeling of Vision-Language-Action for Target-oriented Grasping in Clutter

抓取

抓取VLA操作

这篇工作针对杂乱场景下按语言抓取指定物体:传统流水线先做视觉指代再规划抓取,依赖手工类别/属性与规则,也容易受遮挡和指代误差影响。作者以目标框和候选抓取为对象中心表征,结合CLIP、GraspNet与跨注意力策略网络,直接联合建模视觉、语言和动作,并用强化学习学习“先清障再取目标”的抓取序列。仿真和真实实验表明,该方法在更灵活指令下以更少动作获得更高成功率,对未见物体和新指令泛化更好,且无需额外sim2real迁移数据。

ROSIE: Scaling Robot Learning with Semantically Imagined Experience figure
RSS 20232023-02-22

ROSIE: Scaling Robot Learning with Semantically Imagined Experience

数据需求量大

数据需求量大Diffusion Policy数据采集数据增强机器人学习

这篇工作针对机器人学习高度依赖大规模真实数据、而人工示教与自动采集都难扩展的问题,提出 ROSIE:在已有真实操作数据上,用文本引导的扩散模型做局部 inpainting,替换未见过的操作物体、背景和干扰物,生成语义一致的新任务样本。核心洞察是把文生图模型的语义先验蒸馏成机器人经验,同时尽量保留原轨迹的几何与动作对应关系。真实实验表明,增强后的策略能处理全新物体和未见任务,对干扰更稳健,也提升了成功检测泛化;增益看起来主要来自数据多样性扩展而非控制算法本身。

ChatGPT for Robotics: Design Principles and Model Abilities figure
IEEE Access 20232023-02-20

ChatGPT for Robotics: Design Principles and Model Abilities

任务规划

任务规划程序化规划语言条件操作

论文的动机是把 ChatGPT 的对话与代码生成能力用于机器人高层规划,让非专业用户也能用自然语言下达操作任务。核心洞察是不要让模型直接面对异构底层 API,而是先设计语义清晰的高层函数库,并结合提示工程、XML/代码约束和人类在环对话,把语言指令编译成可执行程序。结果显示该框架可在逻辑推理、无人机导航、机械臂操作和具身任务中零样本生成可用方案并通过反馈修正,但评估以案例展示为主,统一量化增益来源不清。

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning figure
ICLR 20242023-02-16

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning

模仿学习

模仿学习强化学习RL+IL触觉机器人学习

本文动机是解决离线RL/IL中由分布偏移带来的训练不稳、价值高估及方法割裂问题。作者用状态-动作访问分布的对偶形式统一了多种RL/IL算法,并据此指出以往离线IL依赖覆盖假设和判别器密度比学习,进而提出无判别器的ReCOIL;同时将XQL纳入该框架,提出以更一般损失替代Gumbel回归的f-DVL来缓解不稳定。实验在MuJoCo机器人控制与D4RL上表明,ReCOIL可利用任意离策略数据达到接近专家性能,f-DVL通常比XQL更稳定且回报更高。

GenAug: Retargeting behaviors to unseen situations via Generative Augmentation figure
RSS 20232023-02-13

GenAug: Retargeting behaviors to unseen situations via Generative Augmentation

数据需求量大

数据需求量大数据采集数据增强

这篇工作针对机器人模仿学习过度依赖昂贵且单一场景示教的问题,提出 GenAug:用预训练文生图/修补模型在保持原动作标签不变的前提下,按掩码与深度约束对抓取物、容器、干扰物和背景做“语义级”增强,把少量真实演示重定向到未见场景。其关键洞察是:许多桌面抓放任务中,视觉语义可大变,但动作在几何位置不变时仍应复用。实机结果显示,仅用约10条演示就能把对新场景和新物体的泛化成功率提升约40%,但该方法主要扩的是观测而非动作。

ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills figure
ICLR 20232023-02-09

ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills

基础操作

基础操作泛化操作数据集/Benchmark

这项工作针对现有机器人操作基准在对象几何/拓扑变化不足、缺少全动力学仿真、任务与控制接口割裂,导致“泛化操作”研究难以公平比较的问题,提出统一基准 ManiSkill2。其核心洞察是把任务多样性、控制器/观测接口和评测协议一体化,并用双向刚柔耦合与渲染服务器兼顾真实性和训练效率。最终平台覆盖20类任务、2000+物体和4M+示范帧,支持刚体/软体、单/双臂等场景,视觉RL采样约达2000 FPS且显著节省显存。

MV-MWM: Multi-View Masked World Models for Visual Robotic Manipulation figure
ICML 20232023-02-05

MV-MWM: Multi-View Masked World Models for Visual Robotic Manipulation

世界模型

世界模型感知机器人学习操作

这篇论文关注机器人操作里多相机数据常被直接堆叠输入、却没有被系统用于表征学习的问题。作者的核心洞察是,不必强行学习“视角不变”特征,而是通过随机遮蔽整路视角并做视频重建,让编码同时保留当前视角细节与跨视角互补信息,再在冻结表征上学习世界模型和策略。结果上,MV-MWM在RLBench的多视角控制、借助辅助相机的单视角控制以及强视角随机化设置中均优于单视角和多视角对比学习基线,并实现了无需相机标定的仿真到真实机器人迁移。

Zero-Shot Robot Manipulation from Passive Human Videos figure
ICRAW 20232023-02-03

Zero-Shot Robot Manipulation from Passive Human Videos

视频规划

视频规划模仿学习机器人学习操作

论文针对机器人示教难以规模化、任务与场景泛化弱的问题,尝试直接利用互联网上无任务标注的被动人类视频学操作。其关键做法不是模仿具体人,而是从单帧场景预测随机的未来人手6D轨迹,并在部署时映射到机器人末端执行器,另提供目标图像条件版以实现定向操作。在无域内机器人轨迹和无微调下,系统在开关抽屉、推动、工具使用等粗粒度真实任务上达到约40–60%的无条件成功率和30–40%的目标条件成功率。

Adversarial Imitation Learning with Preferences figure
ICLR 20232023-02-02

Adversarial Imitation Learning with Preferences

模仿学习

模仿学习强化学习安全机器人学习

这篇工作针对机器人教学里“演示信息量高但获取昂贵、偏好便宜却更稀疏”的矛盾,尝试把两类人类反馈同时纳入策略学习。其核心洞察是:对抗模仿学习中的判别器可视为密度比估计,而把标准偏好学习的静态回报直接并入AIL的差分回报会失配,因此作者设计了与AIL兼容的偏好损失,用统一判别器同时学习演示约束和轨迹偏好,并可利用不完美演示。实验表明,该方法在多个常见基准上优于多种基线,在纯偏好学习时也有接近当时先进方法的表现,并能较高效地学会更具挑战性的机器人操作任务。

Identifying Expert Behavior in Offline Training Datasets Improves Behavioral Cloning of Robotic Manipulation Policies figure
RA-L 20232023-01-30

Identifying Expert Behavior in Offline Training Datasets Improves Behavioral Cloning of Robotic Manipulation Policies

数据采集

数据采集数据增强操作数据集/Benchmark

论文针对真实机器人离线操作中“数据昂贵但混合数据难用”的瓶颈:作者发现 RRC III 的 mixed 数据里其实藏着大量未标注专家轨迹,而按回报硬筛选在 lift 任务上因分布重叠效果有限。其核心做法是用半监督分类器识别专家行为,再利用三指平台的旋转对称性做几何数据增强,然后训练 BC。结果表明,这一简单流程在两类操作任务上优于多种复杂离线 RL,并拿到比赛第一;但分类与增强各自带来的增益,文中未充分说明。

Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding figure
TASE 20252023-01-27

Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding

抓取

抓取Affordance感知操作

该文针对现有6-DoF抓取大多停留在对象级、难回答“该抓哪一部分以及为什么抓这里”的问题,尝试把部件级affordance引入抓取决策。作者构建了LangSHAPE数据集,并提出两阶段LangPartGPD:先做3D部件-语言指代对齐,再在部件约束下生成抓取位姿,使人类或LLM指令能转成可解释的细粒度抓取。仿真和真实机器人实验表明,其在3D部件定位、affordance推断和部件感知抓取上具有竞争力,但具体增益来源在给定材料中未充分说明,可能部分来自数据规模扩大。

Immersive Demonstrations are the Key to Imitation Learning figure
ICRA 20232023-01-22

Immersive Demonstrations are the Key to Imitation Learning

模仿学习

模仿学习触觉机器人学习

论文关注模仿学习中“示范质量决定策略质量”的问题:常见VR/遥操作缺少触觉与力反馈,容易产生用力过大、轨迹低效的示范。作者用反馈手套和机械臂构建沉浸式示教平台,在三种夹爪上比较无反馈、指尖反馈和指尖+手掌反馈的示范,并以行为克隆学习策略。结果表明,力反馈能显著降低示教者及最终策略的接触力与力波动,并缩短执行时间;即便训练时不输入力数据,这种更安全、更高效的特性仍会被策略继承。

SPARTN: NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis figure
CVPR 20232023-01-18

SPARTN: NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis

3D 表征

3D 表征数据增强机器人学习操作

论文关注眼在手上相机的模仿学习抓取易受分布偏移与误差累积影响、又难以依赖在线专家纠错的问题。SPARTN的关键做法是先用示范轨迹训练每个场景的NeRF,再离线对相机位姿加扰动,合成新视角图像并根据手眼标定自动生成“回到专家轨迹”的纠正动作,从而训练实时、闭环、仅RGB的6DoF抓取策略。结果上,它在仿真中较普通行为克隆成功率提升2.8倍,并缩小RGB与RGB-D差距;在真实8个抓取任务中平均绝对成功率再升22.5%。

Teleoperation of Humanoid Robots: A Survey figure
T-RO 20242023-01-11

Teleoperation of Humanoid Robots: A Survey

人形操作

人形操作数据采集遥操作操作综述

这篇综述的动机是:人形机器人最适合进入为人设计的危险或远程场景,但现有自主能力不足,而人形遥操作又长期缺少一份从系统架构到应用落地的完整梳理。文中核心贡献是给出统一的遥操作框架与分类视角,系统总结人机接口、动作重定向与控制、共享自主、通信时延补偿、评测方法及应用场景,并指出全身高维控制、有限带宽下的反馈设计与安全性是主要瓶颈。其主要结果不是量化性能提升,而是形成较完整的问题地图与方法谱系;统一基准和横向实验对比文中未充分说明。

Mastering Diverse Domains through World Models figure
Nature 20252023-01-10

Mastering Diverse Domains through World Models

强化学习

强化学习触觉轨迹生成世界模型机器人学习

论文针对强化学习一换到新领域就要大量重调超参数、难以直接落到机器人等场景的问题,提出 DreamerV3:先学习可重建观测并预测奖励/终止的世界模型,再在潜在空间中“想象”未来轨迹训练 actor-critic,并通过归一化、损失平衡和目标变换适配不同任务的信号尺度。结果表明,它用同一套配置在150多个任务上普遍优于专用基线,还首次在无人工数据和课程设计下从零学会在 Minecraft 中获取钻石。

Isaac Lab: Orbit: A Unified Simulation Framework for Interactive Robot Learning Environments figure
RA-L 20232023-01-10

Isaac Lab: Orbit: A Unified Simulation Framework for Interactive Robot Learning Environments

跨本体

跨本体机器人学习数据集/Benchmark

本文针对现有机器人仿真器常在物理精度、视觉真实性、可变形体支持与任务开发效率之间取舍的问题,提出基于 Isaac Sim 的统一模块化框架 ORBIT,用“世界—智能体”抽象解耦机器人、本体、传感器、运动生成器与任务,支持刚体和可变形体、多模态观测、交互式场景搭建,以及 GPU 并行的强化学习与示教数据采集。实验显示其在刚体与可变形操作上的吞吐最高较现有框架提升约 10 倍和 3 倍,并展示了 ANYmal 的 sim-to-real;但这些增益可能主要来自 GPU scaling 与工程整合,模块级贡献文中未充分说明。

YAY Robot: "No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy figure
HRI 20232023-01-06

YAY Robot: "No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy

人机交互

多智能体/多机器人人机交互操作

现有语言操作系统要么一次下达指令后无法在线纠偏,要么学习代价高,长时程精细操作中一旦卡住就难恢复。该文提出 LILAC,在共享自主框架下把初始任务描述和实时口头纠正共同映射为可更新的低维控制空间,让人用简易输入持续微调机器人行为,因此只需少量示教也能执行复杂操作。Franka Panda 用户实验表明,相比开环指令跟随和单轮共享自主基线,LILAC 任务成功率更高,且在可靠性、精度和易用性上更受用户偏好。

LILAC: "No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy figure
HRI 20232023-01-06

LILAC: "No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy

模仿学习

模仿学习人机交互机器人学习操作

该文针对语言操控机器人在长程精细任务中“只接收一次指令、执行中难以纠偏”且训练样本需求高的问题,提出 LILAC:在共享自主框架下,将初始任务描述与执行中的口头纠正共同编码为可实时重构的低维控制空间,让人用简易输入持续修正机器人动作。其关键洞察是把语言纠正变成控制流形的在线更新,而不是让机器人独自重规划。12 人 Franka Panda 用户实验表明,LILAC 相比单轮共享自主 LILA 和全自主模仿学习基线,任务完成率更高,且在可靠性、精度与易用性上更受偏好。

Learning from Guided Play: Improving Exploration for Adversarial Imitation Learning with Simple Auxiliary Tasks figure
arXiv2022-12-30

Learning from Guided Play: Improving Exploration for Adversarial Imitation Learning with Simple Auxiliary Tasks

模仿学习

模仿学习强化学习安全机器人学习

本文指出,对抗式模仿学习在长时程机器人操作中容易因“奖励看似像专家、探索却不够”而卡在局部最优,即只覆盖部分专家分布却学不会真正完成任务。作者提出 LfGP,将主任务与到达、抓取、移动等辅助任务的专家演示结合进分层调度式 AIL,用辅助意图强迫策略访问被忽略的关键状态,并支持跨任务复用数据。仿真实验在 Stack、Bring、Insert 等任务上表明,LfGP 明显优于 DAC 式 AIL 和行为克隆,且更省专家样本。

AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains figure
T-RO 20232022-12-16

AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains

抓取

抓取安全感知操作

论文针对机器人抓取里“静态能抓、动态就不稳,且速度与稠密度难兼得”的问题,提出统一空间—时间建模的 AnyGrasp:单次前向从深度观测密集生成 7-DoF 抓取,再用跨帧抓取对应关系做时序跟踪,并把避障可达性与物体质心意识纳入学习以提升稳定性。文中的关键洞察是少量真实数据比简单 sim-to-real 更有效:仅用 144 个真实物体训练,就在 300 多种未见物体清箱上达到 93.3% 成功率、99.8% 完成率,单臂吞吐超 900 picks/hour,还演示了水中抓游动机器鱼。

An Architecture for Reactive Mobile Manipulation On-The-Move figure
ICRA 20232022-12-14

An Architecture for Reactive Mobile Manipulation On-The-Move

移动操作

移动操作操作非学习控制

针对传统移动操作常把“底盘先停、再操作”而导致节拍慢,以及开环轨迹法难应对感知误差、扰动和目标运动的问题,本文提出一种通用的“边走边操作”反应式架构:让底盘持续驶向高层任务的下一目标,同时用闭环末端速度控制把当前抓取/放置与后续导航平滑衔接,从而兼顾效率、鲁棒性与动作自然性。作者在真实机器人静态与动态抓取放置任务上进行了120次评测,成功率超过99%,任务时间最高缩短48%,并展示了对不可预测运动目标的抓取能力及跨平台仿真的可迁移性。

RT-1: Robotics Transformer for Real-World Control at Scale figure
RSS 20232022-12-13

RT-1: Robotics Transformer for Real-World Control at Scale

VLA

VLATransformer Policy语言条件机器人学习操作数据集/Benchmark

这篇工作针对真实机器人数据昂贵、策略泛化差的问题,尝试像视觉/NLP那样训练可复用的通用操作策略。RT-1将图像、语言指令与离散动作统一成 token 序列,结合 FiLM 条件 EfficientNet、TokenLearner 和 Transformer,在 35M 参数下仍能以 3Hz 实时控制;其核心洞察是性能提升很大程度来自大规模、任务无关且多样的真实数据,而不只是一种新结构。基于 13 台机器人、17 个月采集的 13 万段 700 余任务数据,RT-1 在训练指令上达 97% 成功率,对新任务、干扰物和背景的泛化分别比最佳基线高 25%、36% 和 18%,并可支撑 SayCan 中最长 50 步的长程操作。

Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot Manipulation figure
CoRL 20222022-12-08

Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot Manipulation

泛化

泛化跨本体语言条件操作

针对端到端语言条件操作策略训练成本高、且难迁移到不同形态、外观和动力学机器人的问题,论文提出“层级模块化+监督注意力”:用注意力约束子模块学习感知、语言对齐与控制等功能,并按层级逐步训练,从而复用与机器人无关的功能块,也便于定位和重训失效模块。实验表明,该方法在仿真和真实场景中优于BC-Z、LP,可在4种机器人间实现较高样本效率的迁移,包括仿真到现实;但模块拆分仍依赖人工先验。

LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models figure
ICCV 20232022-12-08

LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models

任务规划

数据需求量大任务规划语言条件

论文针对具身任务规划对标注轨迹依赖大、且静态LLM计划难适应部分可观测环境的问题,提出LLM-Planner:用少样本提示让LLM直接生成高层子目标序列,并在执行受阻时把已观测物体写入提示做grounded re-planning,避免逐步枚举可行动作。其在ALFRED上仅用不到0.5%的配对数据,就达到接近部分全数据基线的表现,而同等few-shot设定下现有方法几乎无法成功;但低层感知与执行沿用HLSM,纯由规划带来的增益文中未充分拆解。

See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation figure
CoRL 20222022-12-07

See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation

音频

音频机器人学习操作

针对机器人操作常依赖单一感知、在遮挡和接触状态判断上脆弱的问题,本文搭建了集相机、接触麦克风和GelSight触觉于一体的系统,并提出跨时间与跨模态的自注意力融合模型MULSA,以模仿学习预测离散动作。核心洞察是三种模态分工互补:视觉给全局位姿,音频捕捉不可见接触与液位变化,触觉提供局部几何和受力信息。在密集装箱插入与定量倾倒两项真实任务上,三模态融合显著优于单/双模态及其他融合基线,但增益里模型设计与数据规模各自贡献文中未充分拆清。

Accelerating Interactive Human-like Manipulation Learning with GPU-based Simulation and High-quality Demonstrations figure
Humanoids 20222022-12-05

Accelerating Interactive Human-like Manipulation Learning with GPU-based Simulation and High-quality Demonstrations

抓取

抓取人形操作模仿学习RL+IL机器人学习操作

论文针对人形灵巧手操作中高维动作、复杂接触使纯RL样本需求过高的问题,提出把Isaac Gym大规模并行仿真与带力反馈的VR遥操作结合,既构建日常操作基准,也采集高质量示范,再用示范引导RL搜索。结果表明,16,384并行环境可实现约2.2万至5.9万步/秒,DAPG能在稀疏奖励下完成开门、开抽屉、倒水和提物等任务,整体优于仅RL或纯模仿;但两类增益的相对来源文中未充分拆解,可能主要来自scaling与数据。

SEIL: Simulation-augmented Equivariant Imitation Learning figure
ICRA 20232022-11-26

SEIL: Simulation-augmented Equivariant Imitation Learning

模仿学习

模仿学习数据采集数据生成数据增强

这篇工作针对机器人操作模仿学习中真实示范采集昂贵、少量数据难以学会闭环控制的问题,提出SEIL:在专家轨迹附近改变抓手位姿,并把观测点云重投影为新视角深度图,合成额外状态—动作过渡,而不只依赖2D图像增强;同时引入利用平面旋转与镜像对称性的O(2)等变策略网络。实验显示,在仿真和真实任务上,SEIL用10条及以下示范就能学会非平凡操作,且明显优于普通BC、仅增强或仅等变基线。

DIAL: Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models figure
RSS 20232022-11-21

DIAL: Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models

数据需求量大

数据需求量大数据采集数据生成数据增强操作

这篇论文关注机器人语言操作高度依赖大规模人工语言标注、成本很高的问题。作者的核心洞察是:同一条操作轨迹可对应多种自然语言语义,因此可用少量人工标注微调 CLIP,再为大量未标注示范自动补写视觉落地的指令,并据此训练语言条件策略。在仅 3.5% 的 8 万条真实示范带众包描述的设置下,DIAL 让策略获得颜色、相对方位、改写表达等新能力,并在 60 条训练未见指令上相对基线提升超过 41%。

Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion figure
CoRL 20222022-11-18

Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion

四足操作

移动操作四足操作人形操作操作

论文针对四足机械臂常见的“移动与操作分开控制”范式协调差、误差易传递的问题,提出用强化学习直接学习腿与臂联合的全身统一策略;其中以 Advantage Mixing 利用“腿支撑臂、臂扰动腿”的动作因果依赖缓解局部最优,再用正则化在线适应缩小高自由度控制的 Sim2Real 落差。作者在低成本 Go1+机械臂平台上、无需真实微调完成擦白板、取杯、按按钮、投垃圾等任务,表现出更大工作空间与更自然的动态协同;但具体量化增益来源判断主要基于公开摘要与项目页。

Bayesian Multi-Task Learning MPC for Robotic Mobile Manipulation figure
RA-L 20232022-11-18

Bayesian Multi-Task Learning MPC for Robotic Mobile Manipulation

四足操作

移动操作四足操作任务规划操作非学习控制

论文针对移动操作中“名义模型可得、但物体交互动力学未知且MPC又要求低计算开销”的矛盾,提出贝叶斯多任务学习MPC:先从多类相似任务中学习共享的三角基频率,再在新任务里仅在线更新任务相关线性系数,以残差形式补偿动力学误差。这样既保留了MPC的约束处理与实时性,也能利用跨任务先验快速适应未见对象。球平衡仿真和ANYmal开门硬件实验表明,该方法在跟踪与任务完成上优于名义MPC、单任务自适应方法及非正弦基线。

Transformer Adapters for Robot Learning figure
CoRLW 20222022-11-17

Transformer Adapters for Robot Learning

Transformer Policy

Transformer Policy机器人学习

这篇工作关注大型机器人Transformer在多下游任务中逐任务全量微调成本过高的问题,提出先用任务无关离线轨迹预训练自回归策略,再冻结主干、在每层插入轻量adapter,用少量示范做目标条件模仿学习。其核心洞察是把共享的操作先验留在统一主干中,仅让小模块承载任务差异。MetaWorld ML45上,adapter仅用不到2%参数、单任务存储约2MB,就能接近全量微调并优于只训练动作头和MLP基线,且预训练主干对未见任务已有一定零样本成功率。

R-NDF: SE(3)-Equivariant Relational Rearrangement with Neural Descriptor Fields figure
CORL 20222022-11-17

R-NDF: SE(3)-Equivariant Relational Rearrangement with Neural Descriptor Fields

任务规划

任务规划3D 表征

这篇工作关注机器人如何仅凭点云,把任意初始位姿的两件陌生物体调整到满足“挂、叠、放”等空间关系;难点在于既要找对交互部位,又要给两类物体建立可迁移且朝向一致的局部坐标系。R-NDF把关系重排拆成“坐标系赋予—在新物体上定位—按对齐关系求相对位姿”,并用双NDF、单个3D关键点和基于能量的联合构型精炼,减少独立定位带来的误差。仿真与真实机器人上的三类任务中,它较基线成功率更高,并能在约5–10次示教下泛化到新物体对。

DexPoint: Generalizable Point Cloud Reinforcement Learning for Sim-to-Real Dexterous Manipulation figure
CoRL 20222022-11-17

DexPoint: Generalizable Point Cloud Reinforcement Learning for Sim-to-Real Dexterous Manipulation

灵巧操作

灵巧操作3D 表征强化学习触觉泛化Sim2Real操作

这篇工作针对灵巧手强化学习常依赖单一物体、真值状态或完整几何,导致难以跨物体泛化和落地真实机器人,提出了以单视角点云加本体状态为输入的 sim2real 框架。核心做法是用运动学“想象”出的完整手部点云补齐严重遮挡,并把接触对信息写进奖励而非观测,以提升多物体联合训练的样本效率与稳定性且不依赖触觉传感器。作者在 Allegro Hand 上把纯仿真训练的策略迁移到真实抓取和开门任务,能泛化到同类新物体和新门把。

ToolFlowNet: Robotic Manipulation with Tools via Predicting Tool Flow from Point Clouds figure
CoRL 20222022-11-16

ToolFlowNet: Robotic Manipulation with Tools via Predicting Tool Flow from Point Clouds

3D 表征

3D 表征感知机器人学习操作

这篇工作针对图像会丢失3D结构、状态表征又难覆盖液体等可形变对象,探索直接从分割点云学习工具操作策略。其关键做法是让ToolFlowNet预测工具上每个点的稠密3D流,再通过SVD将流转成机器人应执行的SE(3)位姿变化,相比直接回归动作获得更强监督。文中在舀取和倾倒模仿学习中均优于非流式基线,并在真实世界50次舀取实验中取得82%成功率,但物理实验主要验证舀取,跨任务泛化文中未充分说明。

Learning Reward Functions for Robotic Manipulation by Observing Humans figure
ICRA 20232022-11-16

Learning Reward Functions for Robotic Manipulation by Observing Humans

模仿学习

模仿学习强化学习机器人学习操作

论文针对“人类视频很多、但人与机器人在外观、形态和动作空间上差异很大,难以直接模仿”的问题,提出HOLD:从无标注人类操作视频中学习以目标图像为条件的任务进度/距离奖励,用时间回归或时序对比嵌入替代跨形态动作对齐,也不需要机器人环境先验数据。实验表明,它在5个模拟操作任务中可将基于稀疏奖励的SAC训练最高加速18倍,部分任务甚至仅靠该学习奖励即可学会,但优势主要体现在短时程任务上。

Sirius: Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment figure
RSS 20232022-11-15

Sirius: Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment

模仿学习

模仿学习机器人学习

这篇工作针对学习型机械臂在真实部署中泛化脆弱、又难一次性收集足够训练数据的问题,提出Sirius:让机器人先承担其可靠部分,人在执行时监控并在高风险状态接管,同时把这些干预当作“信任”信号,对部署数据重加权并用加权行为克隆持续更新策略,还结合固定容量记忆筛选更有价值样本。结果在两类仿真和两类真实接触操作任务上,相比交互式模仿学习和离线强化学习基线,成功率分别提升约8%和27%,收敛更快且内存需求降约85%。

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation figure
CoRL 20222022-11-11

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

基础操作

基础操作Transformer Policy操作数据集/Benchmark

论文关注一个关键矛盾:Transformer擅长随数据规模扩展,但机器人操作数据昂贵且稀缺。PerAct的核心洞察是把语言条件下的6DoF操作改写为3D体素空间中的“下一最佳动作”检测,用Perceiver编码多视角RGB-D与指令,并离散预测位姿与夹爪动作,从而利用3D结构先验提升样本效率。实验中,单一模型在18个RLBench任务(249种变化)及7个真实任务上仅凭少量示教即取得明显优势,相比图像到动作基线和3D ConvNet分别提升约34倍和2.8倍。

GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts figure
CVPR 20232022-11-10

GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts

任务规划

任务规划3D 表征泛化感知操作

论文针对现有机器人方法多停留在类别内泛化、难以处理未见物体类别的问题,提出把具有相似几何与交互方式的“可泛化且可操作部件”作为基本单位,并将部件位姿定义为连接感知与操作的桥梁。作者据此构建含9类部件、27类物体的GAPartNet,并用对抗式域泛化、前景部件特征查询和多分辨率学习跨类别3D表征。结果上,部件分割在已见/未见类别达到76.5/37.2 AP50,且基于部件位姿的简单启发式可迁移到仿真和真实操作。

StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects figure
RSS 20232022-11-08

StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects

3D 表征

3D 表征Diffusion Policy机器人学习

这篇工作关注机器人在没有逐步示教时,如何依据高层语言把从未见过的物体摆成语义正确且不碰撞的结构。作者认为,直接回归单一动作序列难以同时满足语义关系与物理可行这类多解约束,因此提出 StructDiffusion:用对象中心的多模态 Transformer 编码部分点云和语言,再以扩散模型迭代生成多物体 6-DoF 目标位姿,并用判别器筛掉不真实或会碰撞的样本。仿真与真实实验中,该方法在未见物体上的结构搭建成功率较先前单任务模型和多任务基线分别提升 16.3% 与 13.5%。

Bayesian Disturbance Injection: Robust Imitation Learning of Flexible Policies for Robot Manipulation figure
NN 20232022-11-07

Bayesian Disturbance Injection: Robust Imitation Learning of Flexible Policies for Robot Manipulation

模仿学习

模仿学习安全机器人学习操作

论文关注一个核心矛盾:传统模仿学习常假设同一状态只有单一最优动作,但人类示教往往存在多种等价路径、偏离后的恢复动作,以及对风险的主动收敛,导致学到的策略泛化差、易失稳。作者据此提出贝叶斯扰动注入(BDI),用非参数多模态策略刻画多解,并引入随状态风险变化的扰动,既诱导示教者展示恢复行为,又避免朴素扰动破坏演示可行性,再通过变分贝叶斯联合学习策略与扰动。仿真和UR5e扫桌、轴到达、轴插入实验表明,该方法在任务成功率、鲁棒性、策略灵活性和示教可行性上均优于基线。

SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering figure
RSS 20232022-10-27

SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering

强化学习

强化学习触觉机器人学习

这篇工作针对模型式强化学习在真实机器人上常因原始图像难以建模、固定视角遮挡重而失效的问题,提出 SAM-RL:一方面用可微渲染对齐真实与仿真图像来在线修正物理模型,另一方面把相机位姿纳入 Q 函数优化,主动选择信息量更高的观察视角,再结合仿真中的轨迹优化与真实世界残差策略完成控制。在装配、工具操作和柔性物体穿针等任务上,方法相比常见模型自由和模型式基线显著缩短训练时间并提高成功率。

DaXBench: Benchmarking Deformable Object Manipulation with Differentiable Physics figure
ICLR 20232022-10-24

DaXBench: Benchmarking Deformable Object Manipulation with Differentiable Physics

可变形物体

可变形物体操作数据集/Benchmark

这篇工作针对现有可变形物体操作基准要么只覆盖单一对象、要么不支持可微物理,导致跨任务泛化和可微方法优劣都难以公平评估的问题,提出了 DaXBench。其核心是基于 JAX 的可微仿真器 DaX,将绳索、布料、液体等 9 个高保真任务统一为 Gym 接口,并系统比较规划、模仿学习和强化学习等 8 类代表方法。实验表明,解析梯度在部分任务上能提升样本效率和控制表现,但收益并不稳定、不同范式各有短板;此外还展示了绳索任务的直接 sim-to-real 迁移潜力。

STAP: Sequencing Task-Agnostic Policies figure
ICRA 20232022-10-21

STAP: Sequencing Task-Agnostic Policies

泛化

泛化

论文关注独立训练的操作技能在长时序任务中直接串联会因几何依赖而失效的问题。STAP的关键做法是把每个技能的Q值视为可行性估计,并结合预测未来状态的动力学模型与OOD不确定性过滤,在测试时直接优化给定技能序列的联合成功率,从而无需在长程任务上联合训练技能。仿真和真实机器人结果表明,该目标比贪心执行更少短视,能更好完成未见长时程操作,并可与任务规划器结合处理TAMP问题。

NIFT: Neural Interaction Field and Template for Object Manipulation figure
ICRA 20232022-10-20

NIFT: Neural Interaction Field and Template for Object Manipulation

模仿学习

模仿学习人机交互机器人学习操作

论文关注少样本示教下,机器人如何把一次抓取或挂放交互迁移到新物体。作者提出 NIFT:先用神经交互场 NIF 编码空间点与物体的球面距离关系,再从演示中在交互中分面 IBS 上提取带特征的神经交互模板 NIT,通过在目标物体的 NIF 中做特征匹配与位姿优化生成操作。相比基于 BPS 和 occupancy 的 NDF,这种表示更强调物体间交互本身;在三类 pick-and-place 任务中总体成功率至少提升约10%,对未见类别的泛化也更好,并做了真实机器人验证。

Learning and Retrieval from Prior Data for Skill-based Imitation Learning figure
CoRL 20222022-10-20

Learning and Retrieval from Prior Data for Skill-based Imitation Learning

数据需求量大

数据需求量大模仿学习数据采集数据检索

论文针对模仿学习在新操作任务上示范昂贵、泛化脆弱的问题,指出以往技能式方法的症结在于:学到的VAE技能表征对策略不够可预测,且先验数据只用于学技能、没用于学策略。为此提出SAILOR,在先验多任务轨迹上加入时间可预测目标学习技能,并按潜在技能相似度从历史数据中检索相关子轨迹做策略增广。结果在Kitchen、CALVIN及真实机器人上均优于BC、IQL等基线,但方法仍明显依赖较大的先验数据规模。

Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D Point Clouds figure
CoRL 20222022-10-14

Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D Point Clouds

3D 表征

3D 表征RL+IL机器人学习操作

论文关注一个常被忽略的问题:同一机器人-物体交互点云用哪个坐标系表达,会显著影响操作策略的学习效率。作者比较世界、机器人基座、末端执行器和目标部件等坐标帧,发现手系/目标部件系因能在时序上更好对齐场景,通常比常用世界系更利于视觉表征学习,且这一趋势跨不同3D骨干网络基本一致;进一步提出任务无关的 FrameMiners,自适应选择并融合多帧信息。在5个物理仿真操作任务上,该方法在不改相机布局、也不增加相机的前提下,取得与最佳单帧相当或更高的成功率和样本效率。

Eliciting Compatible Demonstrations for Multi-Human Imitation Learning figure
CoRL 20222022-10-14

Eliciting Compatible Demonstrations for Multi-Human Imitation Learning

模仿学习

模仿学习数据采集数据筛选

论文关注多用户交互式模仿学习中“演示彼此冲突”会让策略在少量新增数据上灾难性过拟合的问题。作者提出以基策略下状态—动作对的似然与新颖度定义演示兼容性,并在采集时向新用户指出不兼容片段、展示参考演示,把事后筛数据前移为主动引导演示。仿真与Franka食物摆盘实验表明,该指标既能过滤不兼容演示,也能把新增数据从拖累性能变成提升性能:相对朴素采集最高提升约25%,而无反馈时成功率可下降约20%甚至近30%。

3D4RL: Visual Reinforcement Learning with Self-Supervised 3D Representations figure
RA-L 20232022-10-13

3D4RL: Visual Reinforcement Learning with Self-Supervised 3D Representations

3D 表征

3D 表征强化学习触觉感知机器人学习

论文指出,现有视觉强化学习多依赖2D自监督,难以应对机器人操作中的遮挡和几何理解,因此引入3D归纳偏置。作者提出两阶段3D4RL:先在CO3D上预训练体素式3D自编码器,用新视角合成学习物体中心的3D表征,再与策略在任务数据上联合微调。实验表明,该方法在9个仿真操作任务上比2D表征更省样本,并能仅凭单个未标定RGB相机将策略从仿真零样本迁移到真实机械臂,在视角和光照扰动下仍较稳健,但训练期需要多视角输入。

GraspNeRF: Multiview-based 6-DoF Grasp Detection for Transparent and Specular Objects Using Generalizable NeRF figure
ICRA 20232022-10-12

GraspNeRF: Multiview-based 6-DoF Grasp Detection for Transparent and Specular Objects Using Generalizable NeRF

抓取

抓取3D 表征泛化感知操作

论文针对透明和镜面物体会让深度相机失效、从而难以稳定进行6-DoF抓取的问题,提出以稀疏多视角RGB驱动的广义NeRF,在零样本场景中直接重建TSDF,并与体素抓取网络端到端联合训练,而非先做深度修复或逐场景优化NeRF。其关键洞察是:虽然后续抓取主要依赖TSDF,加入NeRF渲染损失仍能改善对透明/高反光材质的几何感知。实验表明,该方法在真实连续抓取中相对基线成功率提升超过20%,packed/pile场景分别达到82.2%和65.9%,且约90ms即可完成一次推理。

Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials figure
RSS 20232022-10-11

Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials

强化学习

强化学习触觉基础模型机器人学习

该文针对机器人在新环境中往往只有极少任务数据、难以直接复用大规模旧数据的问题,提出PTR:用离线强化学习统一完成多任务预训练与下游微调,并在CQL上加入高容量且保留空间信息的视觉结构、GroupNorm和更合理的动作注入等关键设计。其核心洞察是价值函数能从示范中识别更“关键”的决策。实机WidowX上,基于Bridge数据预训练后仅用10–15条示范或少量自主试验即可学会新任务,优于BC、表征预训练和无预训练RL;但部分增益也可能来自数据规模与工程scaling。

VIMA: General Robot Manipulation with Multimodal Prompts figure
ICML 20232022-10-06

VIMA: General Robot Manipulation with Multimodal Prompts

基础操作

基础操作VLA语言条件机器人学习操作数据集/Benchmark

论文针对机器人任务指令形式割裂、不同操作往往依赖专用模型的问题,提出把语言指令、目标图像与单次演示统一表示为交错的多模态prompt,并据此构建含17类桌面任务、60万+专家轨迹和四级泛化评测的VIMA-Bench;模型VIMA采用以对象为中心的表征和Transformer自回归动作解码,将多任务操作统一成序列建模。结果显示,其在最难零样本泛化设置下成功率最高提升2.9倍,训练数据减少10倍时仍比最佳对比方法高2.7倍。

MVP: Real-World Robot Learning with Masked Visual Pre-training figure
CoRL 20222022-10-06

MVP: Real-World Robot Learning with Masked Visual Pre-training

3D 表征

3D 表征Latent Learning基础模型感知机器人学习

这篇工作针对真实机器人模仿学习样本效率低、视觉表征难跨任务复用的问题,提出先在450万张互联网与第一视角图像上用MAE预训练并冻结大规模ViT,再仅学习行为克隆控制头,从而让同一编码器服务两种机器人八项任务。981次真实实验表明,其成功率显著超过CLIP、ImageNet监督预训练和从零训练,最高分别提升75%、81%、81%,且用约一半示范即可达到强基线水平;文中还指出收益很大程度依赖数据与模型共同scaling。

DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Objects Based on Simulation figure
ICRA 20232022-10-06

DexGraspNet: A Large-Scale Robotic Dexterous Grasp Dataset for General Objects Based on Simulation

抓取

抓取灵巧操作基础模型操作数据集/Benchmark

针对灵巧手抓取长期缺少大规模、高多样性训练数据的问题,作者提出DexGraspNet:以可微力闭合优化替代GraspIt!式搜索,并改进初始手型、接触点筛选、穿透距离计算,加入自穿透与关节越界约束,使其能在较差网格上高效合成稳定抓取。最终为ShadowHand在5355个物体、133类上生成132万条、经Isaac Gym验证的抓取,生成1万有效样本的成本从400 GPU小时降到7小时;跨数据集训练也优于DDG,但增益可能主要来自scaling与数据多样性。

DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics figure
RA-L 20232022-10-05

DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics

Diffusion Policy

Diffusion Policy操作应用

面向家庭整理中“目标摆放姿态难以靠少量示例覆盖”的问题,本文把 DALL-E 引入重排流程,先从观测场景提取开放词表物体描述,再用扩散模型生成更像人类整理后的目标图像,并结合采样筛选、CLIP/Hungarian 匹配与掩码对齐,把生成图转成可执行的抓放目标,还支持依据人类已摆放物体做 inpainting 协作。真实机器人实验、客观指标和约3000次用户评分表明,该零样本、开放集方法能在多种日常整理任务中产生较自然且被用户接受的摆放结果。

HULC++: Grounding Language with Visual Affordances over Unstructured Data figure
ICRA 20232022-10-04

HULC++: Grounding Language with Visual Affordances over Unstructured Data

Affordance

AffordanceVLA语言条件感知机器人学习

这篇工作针对语言条件机器人技能学习过度依赖大量示教、频繁人工重置的问题,提出 HULC++:先用少量语言标注(约 1%)从离线、无重置的遥操作 play 数据中自监督学出“语言对应的可交互区域”,再用层级控制让模型先到目标附近、再切换到 7-DoF 低层视觉运动策略执行操作。实验显示其在 CALVIN 上刷新当时 SOTA,真实环境中单策略覆盖 25+ 操作任务,并在结合 LLM 分解子目标后完成长时程多阶段指令,且数据量较以往少一个数量级。

Extraneousness-Aware Imitation Learning figure
ICRA 20232022-10-04

Extraneousness-Aware Imitation Learning

模仿学习

模仿学习数据采集数据筛选

论文关注示范视频中常见的“任务无关但时间上连续”的干扰片段,如操作中途擦汗;这类噪声并非独立随机扰动,导致视觉模仿学习难以直接利用廉价人类示范。EIL的核心是先用时间循环一致性学习动作条件表征,再用无监督投票对齐不同示范的任务进度,从跨视频共性中筛掉无关片段后再做模仿学习。在仿真和真实机器人控制上,它普遍优于多种基线,并接近用完美示范训练的性能。

GenDexGrasp: Generalizable Dexterous Grasping figure
ICRA 20232022-10-03

GenDexGrasp: Generalizable Dexterous Grasping

抓取

抓取灵巧操作泛化操作

这篇工作针对灵巧抓取方法常依赖特定手型、换新手就要重学,且手无关方法很慢、手有关方法又缺少多样性的问题,提出以手型无关接触图为中间表示的 GenDexGrasp:先用 CVAE 生成物体接触图,再优化手部姿态并在物理仿真中细化,同时用 aligned distance 缓解薄壳物体的接触歧义。基于 5 种机械手、58 个物体、43.6 万条合成抓取数据训练后,它在未见手上以 16.4 秒达到 77.2% 成功率和 0.207rad 多样性;虽成功率略低于最强基线,但在速度、泛化和多样性之间更均衡,部分增益也可能来自大规模合成数据。

MonoGraspNet: 6-DoF Grasping with a Single RGB Image figure
ICRA 20232022-09-26

MonoGraspNet: 6-DoF Grasping with a Single RGB Image

抓取

抓取操作

这篇工作针对深度传感器在透明、反光等“光学困难”物体上失效,导致6-DoF抓取方法鲁棒性差的问题,转而只用单张RGB图像做抓取估计。其核心是提出RGB-only的MonoGraspNet:先预测抓取关键点热图与表面法线,再回归关键点深度、抓取方向、夹爪宽度和角度,用稀疏表征恢复6-DoF位姿。实验证明,它在普通物体上达到与深度法相当的效果,在透明/反光物体上明显优于深度基线,并配套开源了含约2000万抓取标注的多视角真实数据集。

End-to-End Affordance Learning for Robotic Manipulation figure
ICRA 20232022-09-26

End-to-End Affordance Learning for Robotic Manipulation

Affordance

Affordance机器人学习操作

论文针对传统可供性操作学习依赖人工定义动作原语、两阶段训练误差易累积,导致难泛化到不同物体、复杂流程与多机械臂协作的问题,提出把RL交互中产生的接触频率直接建模为视觉可供性图,并将其同时作为策略输入和奖励塑形信号,实现无需额外标注或示教的端到端学习。该统一“接触即交互”的视角还能覆盖体-物与物-物关系,因此适配多阶段和多智能体任务。作者在8类操作任务上报告成功率显著优于纯RL和两阶段可供性基线,并展示了仿真到真实迁移。

ProgPrompt: Generating Situated Robot Task Plans using Large Language Models figure
ICRA 20232022-09-22

ProgPrompt: Generating Situated Robot Task Plans using Large Language Models

任务规划

任务规划程序化规划语言条件

本文针对LLM做机器人任务规划时常见的两难:要么需枚举候选动作评分,要么生成难以落地的自由文本,提出ProgPrompt。其核心洞察是把可用动作接口、环境对象和示例任务组织成类Python程序,并用注释、断言与失败恢复显式注入场景状态反馈,从而约束模型生成可执行、与当前环境对齐的计划。实验表明,它在相同GPT-3骨干下于VirtualHome优于既有LLM规划方法,并已部署到真实桌面机械臂;消融还显示注释和反馈机制对增益很关键。

Learning Dexterous Manipulation from Exemplar Object Trajectories and Pre-Grasps figure
ICRA 20232022-09-22

Learning Dexterous Manipulation from Exemplar Object Trajectories and Pre-Grasps

抓取

抓取灵巧操作操作

论文针对灵巧操作强化学习严重依赖任务级奖励设计、演示数据和超参调节的问题,提出PGDM:把单个预抓取姿态当作通用探索先验,并用示例物体轨迹自动定义任务,从而无需逐任务工程即可学习复杂手物交互。作者还构建了含50个任务、3种机械手和30余物体的TCDM基准。实验表明,PGDM仅靠单帧pre-grasp监督,就能在多类抓取、重定位和动态操作上达到或接近依赖完整手轨迹、专家特征与精细奖励方法的性能。

Masked Imitation Learning: Discovering Environment-Invariant Modalities in Multimodal Demonstrations figure
IROS 20232022-09-16

Masked Imitation Learning: Discovering Environment-Invariant Modalities in Multimodal Demonstrations

模仿学习

模仿学习机器人学习数据集/Benchmark

论文关注多模态示教中的“状态过度指定”问题:某些传感模态虽对决策无用,却会在跨环境时引入分布偏移,导致模仿策略过拟合。作者提出 MIL,在策略网络前为各模态学习二值掩码,并通过“内层训练策略、外层用验证集泛化误差更新掩码”的双层优化,筛出环境不变模态。实验表明,该方法在 MuJoCo、Robomimic 和真实机器人多模态数据上普遍优于全模态/基线方法,部分场景较使用全部模态提升约 5.6%,且能较准确恢复应保留的模态。

Code as Policies: Language Model Programs for Embodied Control figure
ICRA 20232022-09-16

Code as Policies: Language Model Programs for Embodied Control

任务规划

任务规划程序化规划语言条件

论文针对以往语言机器人方法多停留在高层技能选择、难以把自然语言细化到感知—控制闭环且每增新技能都要再训练的问题,提出 Code as Policies:用代码补全型大模型在 few-shot 提示下直接生成可执行机器人策略程序,并通过递归补全未定义函数的层级式代码生成,把感知 API、控制原语及 NumPy、Shapely 等库组合成反馈回路。实验在桌面操作、绘图和移动操作等多平台上表明,该方法能处理空间几何关系、上下文化的模糊指令并泛化到新任务,同时在 HumanEval 上达到 39.8% P@1。

Model Predictive Control for Dynamic Cloth Manipulation: Parameter Learning and Experimental Validation figure
TCST 20242022-09-13

Model Predictive Control for Dynamic Cloth Manipulation: Parameter Learning and Experimental Validation

可变形物体

可变形物体操作非学习控制

针对布料高度可变形、受抓取点与目标点间接耦合且需预测未来形态的问题,论文将下角轨迹跟踪表述为上角驱动的实时MPC控制任务。其关键做法是构建只关注关键点运动的线性控制导向布料模型,并用强化学习学习模型参数与MPC权重,而非直接学习操控策略。仿真和双臂实机均实现了较准确跟踪,在30×30 cm布料上总误差约5 cm,且分析表明MPC本身贡献的误差不足30%。

PerAct: Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation figure
CoRL 20222022-09-12

PerAct: Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

3D 表征

3D 表征VLATransformer Policy机器人学习操作

论文针对机器人操作数据昂贵、传统2D图像到6DoF动作学习效率低的问题,提出将操作建模为3D体素空间中的“下一最佳动作”检测:用Perceiver联合编码语言指令与多视角RGB-D体素,并离散预测位姿与夹爪动作,利用3D观测/动作空间的结构先验提升少样本多任务学习。结果显示,单一策略在18个RLBench任务249种变化和7个真实任务上仅需少量示范即可训练,在模拟中相对2D基线和3D ConvNet分别提升约34倍和2.8倍。

Meta-Reinforcement Learning via Language Instructions figure
ICRA 20232022-09-11

Meta-Reinforcement Learning via Language Instructions

强化学习

强化学习触觉泛化

论文针对元强化学习仅靠稀疏奖励难以区分相似操作任务、样本效率低的问题,提出 MILLION:先用语言指令阶段向策略注入任务语义,再在试错阶段用 Transformer 记忆指令并配合 V-MPO 学习控制,而非依赖专家演示。它在 Meta-World ML10 上把训练任务成功率提升到接近满分,测试任务可完成约一半,明显超过既有方法,但增益究竟更多来自语言信息还是更大模型容量,文中未充分说明。

Efficient Tactile Simulation with Differentiability for Robotic Manipulation figure
CoRL 20222022-09-10

Efficient Tactile Simulation with Differentiability for Robotic Manipulation

基础操作

基础操作触觉操作数据集/Benchmark

这篇工作针对现有机器人仿真难以高效生成稠密触觉、尤其缺少剪切力反馈,导致触觉策略难在仿真中训练的问题,提出了基于刚体动力学与惩罚接触模型的可微触觉仿真器,可在任意传感器几何布局上模拟整片接触面的法向与剪切力场,并提供解析梯度以加速学习。实验表明其在单核 CPU 上可达约 1000 fps,既能支持强化学习也能用于基于梯度的控制,并在高分辨率 GelSlim 传感器的高精度插销任务上实现零样本 sim-to-real 迁移。

Optimizing Demonstrated Robot Manipulation Skills for Temporal Logic Constraints figure
IROS 20222022-09-07

Optimizing Demonstrated Robot Manipulation Skills for Temporal Logic Constraints

模仿学习

模仿学习机器人学习操作非学习控制

这篇工作针对示教模仿学习难以表达精确时序约束、任务一改就要重示教、示范本身也可能次优的问题,提出先用示教学习TP-HSMM操作技能,再把“何时到达/避开哪里”等要求写成STL公式,并用贝叶斯黑盒优化直接调技能参数。核心洞察是把形式化时序逻辑的鲁棒度当作优化目标,在不重新采集示范的情况下修补或扩展已有技能。仿真和真实工业机器人实验表明,该方法能满足新增时空约束并改进执行表现,但具体相对基线的量化增益文中未充分说明。

K-VIL: Keypoints-based Visual Imitation Learning figure
T-RO 20232022-09-07

K-VIL: Keypoints-based Visual Imitation Learning

模仿学习

模仿学习感知机器人学习

这篇论文针对机器人仅凭人类视频学习操作时,难以同时抽取任务几何关系与执行策略的问题,提出 K-VIL:用分割与稠密对应先从少量演示中自动找出物体中心的稀疏关键点,再在局部坐标系下学习点到点、点到曲线等几何约束及运动基元,并配合带优先级的关键点导纳控制实现复现。真实机器人实验表明,它在倒水、插入、清扫等任务上可支持 one-shot 和 few-shot 学习,能适应视角不匹配、杂乱场景以及类别内较大形状/位姿变化,但单次第三人称演示的泛化仍可能失败。

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training figure
ICLR 20232022-08-30

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training

模仿学习

模仿学习强化学习基础模型感知机器人学习

论文针对机器人操作中“有表征但缺通用奖励”的难题,提出 VIP:将无动作标注的人类视频预训练改写为离线目标条件强化学习,学习不依赖动作的对偶价值目标,并借此形成时间平滑的嵌入,使其到目标图像的距离可直接作为稠密视觉奖励。基于 Ego4D 训练后,冻结表征即可在仿真与真实机器人多任务上显著优于已有预训练表示,并支持仅约 20 条轨迹的少样本离线强化学习。

Touchless Interactive Teaching of Soft Robots through Flexible Bimodal Sensory Interfaces figure
NC 20222022-08-22

Touchless Interactive Teaching of Soft Robots through Flexible Bimodal Sensory Interfaces

软体机器人

软体机器人触觉操作

针对软体机器人难建模、难编程、普通用户难以让其完成具体操作的问题,论文提出一种用于交互式示教的柔性双模态智能皮肤,将摩擦电无接触感知与液态金属触觉感知结合,实现触碰与非接触刺激的实时区分,并配合距离控制和“移动传感器+示教”策略,用裸手即可教会连续体软体机械臂运动。实验表明,受试者几分钟内即可完成三维复杂轨迹示教,机器人还能以不同速度复现,并完成走迷宫、咽拭子采样和越障抓取等任务。

Ditto: Building Digital Twins of Articulated Objects from Interaction figure
CVPR 20222022-08-16

Ditto: Building Digital Twins of Articulated Objects from Interaction

任务规划

任务规划3D 表征人机交互

这篇工作针对仿真与 AR/VR 中缺少可交互关节物体资产、人工建模难扩展的问题,提出 Ditto:利用交互前后两次视觉观测,而非单帧静态图像,联合恢复物体的部件级几何与运动关节。其关键洞察是把交互诱发的运动作为分割、补全和关节估计的共同线索,并用局部隐式表示同时解码占据、分割和逐点关节参数,从而生成可用于物理仿真的部件网格与显式铰接模型。实验显示,该方法在跨类别数据集上优于基线,并可迁移到真实物体,在模拟器中直接生成可交互数字孪生。

MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis figure
CASE 20222022-08-08

MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis

抓取

抓取基础模型数据集/Benchmark

面向仓储箱内抓取中遮挡缠绕、多模态感知和多夹具选择带来的数据稀缺问题,本文提出 MetaGraspNet:用基于物理仿真的“元宇宙”流程合成 21.7 万张逼真 RGBD 场景,并统一标注检测、遮挡下完整轮廓、关键点、操作顺序及平行夹爪/吸盘双夹具抓取标签,同时给出基于力学的真空密封模型。结果表明,该合成数据与标签生成方法在真实拥挤场景的吸盘抓取上优于仅用真实数据训练,并在真实场景和不同吸盘模型上表现出较好的泛化能力。

LATTE: LAnguage Trajectory TransformEr figure
ICRA 20232022-08-04

LATTE: LAnguage Trajectory TransformEr

Transformer Policy

Transformer Policy轨迹生成机器人学习

这篇工作针对传统机器人轨迹调整依赖任务定制、指令集合僵硬且难跨平台泛化的问题,提出 LATTE:先用任意几何规划器生成满足安全与动力学约束的初始轨迹,再用 BERT 和 CLIP 编码自由文本与场景图像,并以 Transformer 编解码器对齐语义和几何,直接重塑 3D 轨迹与速度。仿真和真实实验表明,它能按人类意图改变轨迹形状与快慢,并迁移到机械臂、无人机和腿式机器人;但文中未充分拆解各模块的单独增益来源。

A System for Imitation Learning of Contact-Rich Bimanual Manipulation Policies figure
IROS 20222022-08-01

A System for Imitation Learning of Contact-Rich Bimanual Manipulation Policies

模仿学习

模仿学习Latent Learning双臂接触丰富机器人学习操作

面向双臂接触丰富装配中常见的多点接触、臂间力传递与控制易失稳问题,本文提出一个从人类示教学习顺应操作策略的系统,将导纳控制与基于Interaction Primitives的贝叶斯时空建模结合,在执行时同步估计任务阶段,并依据力与位姿扰动进行时间和空间上的纠偏。文中的关键洞察是阶段估计与监控比单纯轨迹拟合更重要;用户研究还表明,遥操作示教虽更费力,但额外的力/力矩信息对成功率至关重要,最终在四销多点插入任务上实现90%成功率。

Learning Deformable Object Manipulation from Expert Demonstrations figure
RA-L 20222022-07-20

Learning Deformable Object Manipulation from Expert Demonstrations

可变形物体

可变形物体模仿学习操作

面向绳索、布料等可变形物体因状态难估计、动力学复杂且探索空间高维而难以学习的问题,本文提出DMfD:把专家演示同时用于预填充回放池、带探索项的优势加权策略更新,以及概率式参考状态初始化,从而在模仿指导与在线探索之间取得更稳妥的折中。该方法在SoftGym的绳索拉直和布料折叠任务上,对状态观测最高超过基线12.9%,对图像观测最高超过33.44%,并在真实机器人对角折布中仅有约6%的仿真到现实性能损失。

Human-to-Robot Imitation in the Wild figure
RSS 20222022-07-19

Human-to-Robot Imitation in the Wild

模仿学习

模仿学习机器人学习

传统RL和示教模仿难以安全、低成本地扩展到真实“野外”操作,因此本文尝试让机器人直接观看非结构化人类视频学任务。WHIRL先从第三视角视频中提取手部轨迹与物体交互先验,再用与执行体无关的视频对齐目标、CEM式采样优化和探索策略,通过少量真实交互修正人机形态差异并迭代提升策略。作者在3个环境、20项真实操作任务上展示了一次观看后的泛化能力,覆盖开关门/冰箱、放物、折衣服、擦白板等,整体结果优于文中基线。

Inner Monologue: Embodied Reasoning through Planning with Language Models figure
CoRL 20222022-07-12

Inner Monologue: Embodied Reasoning through Planning with Language Models

任务规划

任务规划

针对语言模型做机器人任务规划时常默认每步都能成功、难以应对执行失败和环境变化的问题,本文提出 Inner Monologue:把成功检测、场景描述和人类反馈统一转成文本,持续写回提示词,让冻结的LLM在不额外训练下闭环规划、重规划并主动澄清歧义。结果显示,该方法在仿真与真实桌面重排及厨房移动操作中均显著提升高层指令完成率,并表现出失败重试和交互式适应能力。

DMIL: Discriminator-Guided Model-Based Offline Imitation Learning figure
CoRL 20222022-07-01

DMIL: Discriminator-Guided Model-Based Offline Imitation Learning

模仿学习

模仿学习强化学习安全机器人学习

论文针对离线模仿学习在专家数据稀缺时易因覆盖不足和协变量偏移而失效的问题,指出单纯加入动力学模型虽能扩展状态-动作覆盖,但会带来模型误差和次优 rollout。DMIL 的核心是用判别器同时判断 rollout 的动力学可信度与最优性,并将其输出作为策略和动力学学习的加权信号;扩展版 D2MIL 还能处理含大量次优示范的数据。文中在 D4RL 与真实机器人任务上表明,在小数据设置下其性能和鲁棒性优于多种现有离线 IL 基线。

Watch and Match: Supercharging Imitation with Regularized Optimal Transport figure
CoRL 20222022-06-30

Watch and Match: Supercharging Imitation with Regularized Optimal Transport

模仿学习

模仿学习强化学习RL+IL机器人学习

这篇工作针对IRL在机器人模仿学习中虽能从演示恢复奖励、但在线交互昂贵,且从BC预训练继续微调常被高方差策略梯度破坏的问题,提出ROT:先做行为克隆,再用最优传输轨迹匹配提供奖励,并以soft Q-filtering自适应调节BC正则,前期贴近示范、后期放开探索。实验显示其在20个视觉控制任务上达到专家90%性能的速度平均快7.8倍;在14个真实机械臂任务中,仅1条演示和1小时训练就有90.1%平均成功率。

Masked World Models for Visual Control figure
CoRL 20222022-06-28

Masked World Models for Visual Control

强化学习

强化学习触觉轨迹生成世界模型感知机器人学习

该文针对视觉世界模型把表征学习与动力学建模端到端绑在一起、难以精确处理小物体交互的问题,提出 MWM:先用带卷积前端和 ViT 的掩码自编码器在卷积特征而非像素块上做重建,并加入奖励预测以保留任务相关信息,再在其潜空间中单独学习动力学并在线交替更新。实验显示其在 Meta-world 与 RLBench 多个视觉操作任务上达到 SOTA,在 50 个 Meta-world 任务中的成功率为 81.7%,高于 Dreamer 基线的 67.9%。

DayDreamer: World Models for Physical Robot Learning figure
CoRL 20222022-06-28

DayDreamer: World Models for Physical Robot Learning

强化学习

强化学习触觉轨迹生成世界模型机器人学习

针对真实机器人强化学习试错成本高、仿真又难覆盖现实复杂性的矛盾,本文将 Dreamer 世界模型直接用于物理机器人在线学习:先从回放数据学习潜在动力学与奖励,再在“想象”轨迹中训练策略,并通过并行 actor-learner 满足硬件低时延。核心洞察是把多模态观测压缩为可规划的潜状态,从而减少真实交互。实验中,同一组超参数在4类机器人上均有效:四足1小时学会翻身、起立和行走,受推后10分钟内适应;双机械臂8–10小时从像素和稀疏奖励学会抓放;小车可仅凭图像导航。

Leveraging Language for Accelerated Learning of Tool Manipulation figure
CoRL 20232022-06-27

Leveraging Language for Accelerated Learning of Tool Manipulation

操作

操作应用

这篇论文关注机器人遇到新工具时适应过慢的问题,关键洞察是工具的几何形状、部件结构和常见用途可由语言显式描述,并转化为可供性先验。作者提出 ATLA:用大语言模型生成并编码工具文本,再做语言条件的元学习,让策略把已见工具经验快速迁移到未见工具。仿真结果显示,在推动、提起、清扫和锤击四类任务中,语言与元学习结合能明显加快适应并提升性能,但验证仍主要限于少量工具和仿真环境。

LAPAL: Latent Policies for Adversarial Imitation Learning figure
IROS 20232022-06-22

LAPAL: Latent Policies for Adversarial Imitation Learning

模仿学习

模仿学习强化学习Latent Learning安全机器人学习

论文针对GAIL在高维机器人控制中判别器易过拟合、利用任务无关特征而导致训练不稳的问题,提出LAPAL:先用CVAE学习动作编码器—解码器,将原始动作压缩到低维潜在动作空间,再在潜空间进行对抗式模仿学习,并支持离线任务无关和在线任务感知两种表征学习。实验表明其训练更平稳、性能近单调提升,在Ant、Humanoid和Door等高维任务上通常比GAIL收敛更快且更接近专家;但文中也指出在低维任务上潜空间压缩可能带来次优解。

Hybrid Physical Metric For 6-DoF Grasp Pose Detection figure
ICRA 20222022-06-22

Hybrid Physical Metric For 6-DoF Grasp Pose Detection

抓取

抓取感知操作

论文指出,现有6-DoF抓取常用的力闭合指标只产生离散置信度,难以区分海量候选抓取并引入标签噪声,导致杂乱场景中的预测与真实成功率脱节。作者据此将接触平坦度、重心关系和碰撞扰动与力闭合融合为混合物理指标,并设计多分辨率的FGC-GraspNet及联合损失来学习更细粒度的抓取质量。在GraspNet-1Billion和真实机器人实验中,该方法提升了检测精度,实机杂乱场景抓取成功率达到90.5%。

VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation figure
NeurIPS 20222022-06-17

VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation

基础操作

基础操作语言条件操作数据集/Benchmark

这项工作针对现有语言引导操作基准难扩展、难适配新物体、任务与语言组合性不足的问题,提出AMSolver自动生成演示,并据此构建VLMbench:按末端执行器运动约束对操作进行模块化分类,结合对象中心表示与组合式模板,自动合成多步、6DoF、语言条件的操作任务。实验用6D-CLIPort等基线评测发现整体成功率仍偏低,尤其在倒液和未见组合上更难;但对未见物体的性能下降不算剧烈,说明基准确实考验三维目标定位与姿态估计,而不仅是语言匹配。

Imitation Learning as State Matching via Differentiable Physics figure
CVPR 20232022-06-10

Imitation Learning as State Matching via Differentiable Physics

模仿学习

模仿学习机器人学习

论文针对IRL/GAIL类模仿学习依赖奖励或判别器、双层训练慢且方差大的问题,提出ILD:把可微物理模拟器直接并入策略计算图,用轨迹状态匹配替代中间监督,并以Chamfer-α为每个状态动态选择更易优化的局部目标,缓解长时反传带来的非凸优化困难。实验在Brax连续控制和布料操作上表明,ILD仅用一条专家演示就能比现有方法收敛更快、更稳,固定1小时训练时归一化得分平均提升36%,且可泛化到未见动力学或配置。

ARC - Actor Residual Critic for Adversarial Imitation Learning figure
CoRL 20222022-06-05

ARC - Actor Residual Critic for Adversarial Imitation Learning

模仿学习

模仿学习强化学习安全机器人学习

本文针对对抗式模仿学习中“判别器奖励本身可微,却仍沿用标准Actor-Critic近似策略梯度”的错配,指出若只对即时奖励直接反传会学到短视策略,因此提出ARC:用残差评论家C替代Q,只估计去掉即时奖励后的未来折扣回报,让策略对当前奖励的梯度可精确计算,并可嵌入现有基于AC的AIL框架。文中在表格情形证明了收敛性,在连续控制仿真及真实机器人操作中也普遍优于标准AIL。

Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning figure
RSS 20222022-05-30

Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning

模仿学习

模仿学习音频感知机器人学习

论文针对遮挡导致仅靠视觉难以完成的操作任务,提出将夹爪麦克风采集的声音与第三视角图像结合,并用LSTM记忆跨时序整合接触线索,再通过少量遥操作示范加在线人工干预做交互式模仿学习。核心洞察是:当目标长期不可见时,历史音频能补足视觉缺失,帮助判断物体位置与抓取时机。仿真中,音频与在线纠正可把离线模仿成功率再提升约20%;在Franka真实机器人上,取钥匙出袋等任务达到70%成功率,较无音频策略高约50%。

Chain of Thought Imitation with Procedure Cloning figure
NeurIPS 20222022-05-22

Chain of Thought Imitation with Procedure Cloning

模仿学习

模仿学习Latent Learning机器人学习

论文指出传统行为克隆只学“状态→动作”映射,丢掉了专家通过搜索、规划等多步算法得到动作的中间过程,因此容易过拟合训练环境、难以泛化。为此作者提出 Procedure Cloning,把专家“思维链”表示为中间计算序列,用自回归序列模型先生成过程再输出动作,推理时无需模拟器等特权工具。结果上,它在未见迷宫中达到100%成功率而BC为0%,机器人操作做到83.9%,并可零样本泛化到更难、更随机的博弈环境;但部分增益也可能来自更强模型与更多过程监督。

How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation figure
IROS 20222022-05-06

How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation

强化学习

强化学习RL+IL触觉基础模型感知机器人学习操作

面向真实机器人中在线交互昂贵、视觉稀疏奖励操作难以直接用RL训练的问题,论文研究应如何把有限目标任务数据预算分给次优教师策略和学生策略。作者将 kickstarting 与离线RL统一到 policy finetuning 视角,提出在 actor-critic 中同时利用教师离线数据、学生在线数据,并对这些状态加入教师动作监督/重标注的做法。五个视觉堆叠任务的仿真与实机实验表明,这种教师+学生混合训练在小数据预算下整体最好,优于纯在线、离线到在线和传统 kickstarting;但一个重要洞察是,预算足够时,仅用教师轨迹做离线RL也会出乎意料地强。

Data Augmentation for Manipulation figure
RSS 20222022-05-05

Data Augmentation for Manipulation

数据需求量大

数据需求量大数据采集数据增强操作

这篇工作针对机器人操作数据昂贵、难以支撑深度学习的问题,提出面向几何状态—动作轨迹的数据增强框架。其核心洞察是操作增强不能照搬视觉随机裁剪,而应同时满足有效性、相关性和多样性,因此把增强表述为基于物理与任务先验的优化:对运动物体轨迹施加刚体变换,并尽量保持接触关系、重力影响和近接触结构。在平面推物动力学学习与绳索约束判别两类任务上,增强数据都明显提升下游性能;在真实双臂绳索在线学习中,30次试验内成功率由27%升至50%。

One-Shot Domain-Adaptive Imitation Learning via Progressive Learning figure
TASE 20222022-04-24

One-Shot Domain-Adaptive Imitation Learning via Progressive Learning

模仿学习

数据需求量大模仿学习泛化

这篇工作针对视觉模仿学习常需大量示教、且预训练策略难迁移到新场景的问题,提出渐进式的一次示教域自适应框架:先做粗学习获得紧凑的概念表征,再用 LSTM-Attention 在细学习中生成时序动作,最后通过 GAN 合成目标域观测进行“想象”适配,使模型只需新场景一次示教即可微调。倒料实验显示,其较端到端模仿学习成功率更高、训练更高效,并能泛化到新背景、容器和颗粒组合;但具体增益幅度与各模块贡献在给定材料中未充分说明。

ZeST: Can Foundation Models Perform Zero-Shot Task Specification For Robot Manipulation? figure
L4DC 20222022-04-23

ZeST: Can Foundation Models Perform Zero-Shot Task Specification For Robot Manipulation?

模仿学习

模仿学习基础模型机器人学习操作

该文关注机器人任务目标通常依赖状态向量或同场景目标图像、对非专家不友好的问题,提出 ZeST:把机器人观测与互联网图片、手绘草图或语言指令统一送入基础模型嵌入空间,用特征差分与相似度实现零样本任务指定,并将相似度作为离线强化学习的伪奖励。实验表明 CLIP 表现最佳,在更难的多任务数据上目标选择相对随机提升近14倍,学到的策略也优于行为克隆,但增益有多少来自更强表征还是更大规模预训练数据,文中未充分拆解。

HULC: What Matters in Language Conditioned Robotic Imitation Learning over Unstructured Data figure
RA-L 20222022-04-13

HULC: What Matters in Language Conditioned Robotic Imitation Learning over Unstructured Data

模仿学习

模仿学习VLA语言条件机器人学习操作

这篇工作聚焦一个关键问题:机器人如何只依靠自然语言和离线、无结构示教数据,学会可复用且可串联的操作技能,而不依赖手工奖励或预先整理好的任务标签。作者在 CALVIN 上系统分析了语言条件模仿学习中真正重要的设计因素,并提出分层控制框架:用多模态 Transformer 学习高层离散潜在计划,再由相机坐标系下的低层局部策略执行,同时加入视频—语言自监督对比对齐。整合后形成 HULC,以单一 7-DoF 策略在 CALVIN 长时程语言操作基准上显著超过已有方法并刷新 SOTA。

3D Perception based Imitation Learning under Limited Demonstration for Laparoscope Control in Robotic Surgery figure
ICRA 20222022-04-07

3D Perception based Imitation Learning under Limited Demonstration for Laparoscope Control in Robotic Surgery

3D 表征

3D 表征模仿学习感知操作应用

论文针对腹腔镜自动控镜依赖工具跟踪、缺乏场景理解且示教稀缺的问题,提出 ILLC:先从无标注手术视频恢复腹腔镜轨迹并重建3D手术场景,再用保持形状的轨迹增强(SPTA)扩充示教,在可并行RGB-D渲染的模拟环境中结合对抗式模仿学习与强化学习训练策略。结果显示,该方法在未见过的重建手术场景中优于行为克隆等既有IL基线,说明仅凭有限视频示教也能学到更具泛化性的控镜策略。

Demonstrate Once, Imitate Immediately (DOME): Learning Visual Servoing for One-Shot Imitation Learning figure
IROS 20222022-04-06

Demonstrate Once, Imitate Immediately (DOME): Learning Visual Servoing for One-Shot Imitation Learning

模仿学习

数据需求量大模仿学习泛化感知

这篇工作针对现有模仿学习往往需要多次示范、交互收集或任务后再训练,难以在真实场景里“示范一次立刻执行”的问题,提出把任务拆成“先对齐到瓶颈位姿、再重放末端速度”。其关键是在腕部视角下,用图像条件分割先找出示范中的目标,再用学习式视觉伺服估计当前与瓶颈图像的相对位姿,从而在未知物体、重摆放和干扰物存在时仍能对齐。实测在7个日常真实任务上成功率接近100%,并优于仍需示范后训练的基线;但其泛化很可能依赖大规模仿真预训练,文中对这一数据成本未充分展开。

Saycan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances figure
CoRL 20232022-04-04

Saycan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

任务规划

任务规划Affordance操作

这篇工作针对LLM会说“合理步骤”却不了解机器人当前能力与场景、因而难以安全执行长时程指令的问题,提出SayCan:让语言模型为候选技能文本打分,再与各技能经RL学得的价值函数/可供性结合,选择既有助于任务又在当前状态可执行的动作序列。在真实厨房中的101个零样本任务上,该方法能完成抽象多步指令,相比未做现实grounding的基线成功率几乎翻倍;性能还会随底层LLM增强而提升,但增益中多少来自规划设计、多少来自模型scaling,文中未完全拆清。

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language figure
ICLR 20232022-04-01

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language

任务规划

任务规划程序化规划

论文的出发点是:视觉-语言模型与大语言模型训练域不同、常识互补,但许多多模态任务缺少标注数据。作者提出 Socratic Models,把语言当作中间表示,用提示词让多个冻结的预训练模型与外部 API 进行“对话”,在无需微调下完成组合推理,并把视频理解转写为文本世界状态历史再交给 LM 推理。结果上,它在零样本图像描述和视频文本检索上达到或刷新当时SOTA,也展示了自中心视频问答、辅助对话和基于感知的机器人顺序抓放规划。

LISA: Learning Interpretable Skill Abstractions from Language figure
NeurIPS 20222022-03-28

LISA: Learning Interpretable Skill Abstractions from Language

VLA

VLA语言条件机器人学习

LISA针对语言条件模仿学习在长时程、多任务场景中直接整句条件化易过拟合、难以组合泛化的问题,提出层级式框架:通过向量量化学习离散技能码本,用语言与状态从示范中无监督抽取可复用、可解释的子技能,再由低层策略按技能执行,以信息瓶颈促使技能与词语和行为对齐。实验表明,它在导航和机器人操作中低数据条件下优于非层级Decision Transformer,并能组合已学技能完成未见长指令,长程操作任务效果接近翻倍。

Reinforcement Learning with Action-Free Pre-Training from Videos figure
ICML 20222022-03-25

Reinforcement Learning with Action-Free Pre-Training from Videos

视频规划

视频规划强化学习触觉轨迹生成基础模型机器人学习

针对视觉强化学习从零开始训练、样本效率低且难以利用现成视频的问题,本文提出 APV:先在跨域、无动作标注的视频上预训练无动作潜在视频预测模型,学习可迁移的动力学表征;再通过堆叠式动作条件潜在模型而非直接微调,避免预训练知识被快速遗忘,并结合基于视频表征的内在奖励提升探索。实验表明,在 RLBench 预训练后迁移到 Meta-World 和 DMControl 时均显著优于 DreamerV2,六个操控任务总体成功率达 95.4%,基线为 67.9%。

R3M: A Universal Visual Representation for Robot Manipulation figure
CoRL 20222022-03-23

R3M: A Universal Visual Representation for Robot Manipulation

模仿学习

模仿学习Latent Learning感知机器人学习操作

这篇工作关注一个核心瓶颈:机器人从图像学操作常需为每个任务从头训练,数据代价高且泛化差。作者的关键洞察是用大规模人类第一视角视频替代稀缺机器人数据,结合时间对比学习、视频—语言对齐和L1稀疏约束,预训练出可冻结复用的R3M表征,使其同时编码交互动态、任务语义与紧凑特征。实验显示,R3M在12个仿真操作任务上较从头训练成功率提升超20%,较CLIP/MoCo高超10%,并让Franka在杂乱真实公寓中仅靠约20次示教学会多种操作。

Goal-conditioned Dual-action Imitation Learning for Dexterous Dual-arm Robot Manipulation figure
T-RO 20222022-03-18

Goal-conditioned Dual-action Imitation Learning for Dexterous Dual-arm Robot Manipulation

灵巧操作

灵巧操作模仿学习双臂操作

论文针对双臂机器人操作可变形物体时“长时程稳定性”和“接触时高精度反应”难以兼顾的问题,以香蕉剥皮为例提出目标条件双动作模仿学习:远离目标时输出整段全局轨迹以减少递推动作带来的累积误差,接触目标时切换为局部反应动作处理形变与扰动,并用子任务终态作为目标条件约束策略。作者在通用UR5双臂上用约21.8小时示教完成真实香蕉剥皮,消融显示全局轨迹和局部反应缺一不可;但方法仍依赖人工任务分段与动作类型标注。

Policy Architectures for Compositional Generalization in Control figure
NeurIPSW 20222022-03-10

Policy Architectures for Compositional Generalization in Control

泛化

泛化

论文针对目标条件控制在物体数量变化、子目标重组时难以泛化的问题,提出实体分解 MDP(EFMDP),把任务表示为“实体—子目标”结构,并用 Deep Sets 与自注意力设计具备置换不变性、又能建模实体交互的策略/价值网络,可端到端训练且不依赖动作原语。仿真操作实验表明,这类架构较 MLP 学习更快,复杂任务训练速度超4倍、泛化成功率提升超15倍,还能零样本外推到更多或更少实体,并在新任务组合中拼接已学技能。

TD-MPC: Temporal Difference Learning for Model Predictive Control figure
ICML 20222022-03-09

TD-MPC: Temporal Difference Learning for Model Predictive Control

任务规划

任务规划强化学习触觉机器人学习

这篇工作针对模型预测控制长时域规划代价高、精确建模又易累积误差的问题,提出TD-MPC:把短视域MPC与TD学习到的终端价值函数结合,并只学习与奖励相关的潜在动力学,而非重建完整状态或图像,从而用短模型滚动负责局部动作优化、用价值估计补足长期回报。实验表明,它在DMControl和Meta-World的状态与图像连续控制任务上都取得了更高样本效率和更强最终性能,在高维Humanoid、Dog等任务上也明显优于SAC等基线。

Learning Sensorimotor Primitives of Sequential Manipulation Tasks from Visual Demonstrations figure
ICRA 20222022-03-08

Learning Sensorimotor Primitives of Sequential Manipulation Tasks from Visual Demonstrations

模仿学习

模仿学习感知机器人学习操作

这篇工作针对复杂操作任务往往由多个连续子技能组成、而现有模仿学习多只学单一步骤的问题,提出一种从人类原始RGB-D演示视频直接学习的分层框架。方法先跟踪物体类别与6D位姿,再由高层策略动态选择“工具物体—目标物体”注意对象,中层预测SE(3)子目标,底层生成末端控制,从而无需人工分段或子任务标注。实验在堆叠、拆螺母、涂刷等任务上表明,该方法在仿真与真实机械臂上都能有效执行长序列操作,并优于常见模仿学习基线。

Learning Category-Level Generalizable Object Manipulation Policy via Generative Adversarial Self-Imitation Learning from Demonstrations figure
RA-L 20222022-03-04

Learning Category-Level Generalizable Object Manipulation Policy via Generative Adversarial Self-Imitation Learning from Demonstrations

模仿学习

模仿学习数据采集数据增强泛化安全操作

这篇工作关注关节物体的类别级操作泛化:在只有终止奖励和示范、没有手工密集奖励时,直接用 GAIL+SAC 容易因判别器过强、跨实例示范策略不一致、专家缓存被少数实例主导而失效。作者据此提出渐进式增长判别器、结合示范与自模仿的对抗学习,以及按实例均衡的 expert buffer。实验表明,该方法在 ManiSkill 四项任务上相对基线平均将训练/验证成功率提升 13% 和 18%,配合密集奖励时还获得了 ManiSkill 2021 对应赛道第一名。

RoLoMa: Robust Loco-Manipulation for Quadruped Robots with Arms figure
Auton Robot 20232022-03-02

RoLoMa: Robust Loco-Manipulation for Quadruped Robots with Arms

四足操作

移动操作四足操作安全操作非学习控制

这篇论文的动机是:四足带臂机器人在真实环境做移动操作时,单靠控制阶段补偿扰动不够,轨迹本身也要预先具备抗模型误差、传感噪声和外力冲击的能力。作者提出基于第一性原理的鲁棒性指标SUF,并将其并入全身直接转录轨迹优化,在满足接触稳定、驱动约束和接触切换的同时,最大化末端在任意方向可抵抗的最坏情况外力。实验表明,该方法在转手轮、拉杆、开门、提桶等任务中能生成与基线同样可完成任务、但抗扰范围更大的轨迹;不过接触顺序与时序仍需预先给定。

VAPO: Affordance Learning from Play for Sample-Efficient Policy Learning figure
ICRA 20222022-03-01

VAPO: Affordance Learning from Play for Sample-Efficient Policy Learning

Affordance

Affordance机器人学习

论文关注机器人在家庭场景中不仅要知道“能做什么”,还要知道该碰物体的哪里;现有可供性学习常依赖人工标注或昂贵交互,且动作模板受限。VAPO从人类遥操作play数据中利用夹爪开合信号自监督学习视觉可供性,再把“到达可操作区域”的模型规划与“局部接触/抓取”的强化学习结合,并在奖励中偏向人类常操作的区域。实验表明,该方法在仿真和真实整理任务中训练速度约提升4倍,对未见新物体的泛化也更好。

TF-Grasp: When Transformer Meets Robotic Grasping: Exploits Context for Efficient Grasp Detection figure
RA-L 20222022-02-24

TF-Grasp: When Transformer Meets Robotic Grasping: Exploits Context for Efficient Grasp Detection

抓取

抓取Transformer Policy感知操作

这篇论文针对传统CNN抓取检测在遮挡和杂乱场景中难同时建模局部几何与远距离关系的问题,提出TF-Grasp:用局部窗口注意力捕捉物体轮廓与邻域细节,再用跨窗口注意力聚合远处像素和场景关系,并结合带跳连的分层编码器—解码器做多尺度融合,从单次前向直接回归平行夹爪矩形抓取。其在Cornell和Jacquard上分别达到97.99%和94.6%,Franka Panda实机165次抓取成功率为92.1%,但方法目前主要面向平行夹爪。

Training Robots without Robots: Deep Imitation Learning for Master-to-Robot Policy Transfer figure
RA-L 20232022-02-19

Training Robots without Robots: Deep Imitation Learning for Master-to-Robot Policy Transfer

模仿学习

模仿学习数据采集遥操作

这篇工作针对接触丰富、依赖力反馈的操作学习中,双边遥操作昂贵复杂、示教机器人又会带来视觉遮挡的问题,提出无需训练机器人参与的数据采集框架:用与UR5运动学匹配、带同款夹爪和F/T传感器的主手臂做人示教,再结合注视点裁剪缓解视觉域差、简单标定减小运动学误差,并用Transformer处理双臂力/力矩信号。在真实拧瓶盖任务上,三种瓶子的旋拧成功率约为77.8%–83.3%,说明仅凭master-only示教也能迁移出可用策略。

Divide & Conquer Imitation Learning figure
IROS 20222022-02-15

Divide & Conquer Imitation Learning

模仿学习

模仿学习泛化

论文针对长时序、稀疏奖励机器人任务中“只有一条专家演示”时模仿学习样本效率低的问题,提出 DCIL:将演示轨迹按顺序切成多个技能,用单个目标条件策略分别学习,并通过 overshoot 与基于下一技能价值函数的 chaining bonus 提高技能可衔接性。实验在 Dubins 迷宫和 Fetch 抓取放抽屉任务上表明,其样本效率较 Backplay、PWIL 提升数个数量级,消融也说明链式奖励是关键。

Bayesian Imitation Learning for End-to-End Mobile Manipulation figure
ICML 20222022-02-15

Bayesian Imitation Learning for End-to-End Mobile Manipulation

移动操作

移动操作模仿学习操作

论文针对移动操作中多传感器策略在仿真到真实迁移时,RGB与深度各自存在域偏差、简单融合又常失效的问题,提出在行为克隆里为每种模态加入VIB随机编码器,学习更域无关的表示,并把VIB rate作为该模态当前不确定性的信号来做可解释融合。该方法在办公室带门闩开门任务上实现96%真实成功率,比基线提升16%,且域外泛化更稳。

Memory-based Gaze Prediction in Deep Imitation Learning for Robot Manipulation figure
ICRA 20222022-02-10

Memory-based Gaze Prediction in Deep Imitation Learning for Robot Manipulation

模仿学习

模仿学习机器人学习操作

论文针对现有模仿学习操控多依赖当前观测、在杂乱场景中难以利用过往经验的问题,提出把“记忆”放进注视预测:用基于Transformer自注意力的时序视觉模型预测操作者注视点,再据此突出与任务相关的区域供策略网络执行操作。作者在需要记住绿苹果原始位置、再把红苹果放回去的真实机器人任务上验证,Transformer最终子任务成功率达66.7%,明显高于不含时序记忆的33.3%,也优于LSTM,说明记忆化注视能抑制干扰并支持基于历史状态的操作。

BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning figure
CoRL 20212022-02-04

BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning

模仿学习

模仿学习泛化机器人学习操作数据集/Benchmark

这篇工作关注机器人在未见过的操作任务上能否零样本泛化,核心动机是通用视觉操作系统往往受限于任务外推能力。作者并未提出很复杂的新学习算法,而是把关键放在可扩展的数据采集:用VR遥操作结合HG-DAgger式人类接管纠错,收集100个真实任务、25,877段示范,并用语言或人类视频嵌入作为任务条件训练多任务行为克隆。结果表明,仅靠这类大规模模仿学习系统,机器人在24个未见任务上可达平均44%成功率,说明增益可能主要来自scaling/data与任务表征,而非更复杂策略优化。

Practical Imitation Learning in the Real World via Task Consistency Loss figure
ICRA 20232022-02-03

Practical Imitation Learning in the Real World via Task Consistency Loss

移动操作

移动操作模仿学习操作

这项工作针对真实世界模仿学习中“实采演示贵、真实评测慢”,但又希望借助仿真选模型时会遭遇 reality gap 的问题,提出 Task Consistency Loss:在 GAN 图像适配之外,再约束成对 sim/real 观测的特征表示与动作预测一致。作者在移动操作开门任务上用单个 RGB-D 端到端网络联合导航和操控,仅用13.5小时真实+2.7小时仿真示教,在16个见过/未见场景达到72%成功率,并将仿真到真实的评测落差降至21.1%。

Imitation Learning by Estimating Expertise of Demonstrators figure
ICML 20222022-02-02

Imitation Learning by Estimating Expertise of Demonstrators

模仿学习

模仿学习数据采集数据筛选

这篇工作针对众包模仿学习数据里“不同示范者在不同状态下水平不一”却常被一视同仁的问题,提出 ILEED,把策略学习与示范者熟练度估计联合建模,利用示范者身份和状态表征学习状态相关的专长,从而强化高质量行为、抑制次优动作。实验在 Robomimic、MiniGrid 和棋类任务中,23 组设置有 21 组优于基线,平均回报提升约 7%,最高达 60%,且学到的单一策略有时能超过最佳示范者。

Meta-Imitation Learning by Watching Video Demonstrations figure
ICLR 20222022-01-29

Meta-Imitation Learning by Watching Video Demonstrations

视频规划

视频规划模仿学习泛化

这篇工作针对元模仿学习在训练期严重依赖人类与机器人配对示范、动作标注难采集的问题,尝试让机器人只看人类视频就学会新操作。方法上先用带逆动力学约束的 A-CycleGAN 将人类视频翻译到机器人域,并在其学到的动作感知紧凑潜空间中,用按翻译质量自适应加权的损失训练元策略,从而以“想象出的”机器人示范替代真实机器人数据。结果表明,在仿真和真实视觉操作任务中,仅凭单个视频示范即可实现 one-shot 适应,性能与依赖人机双域示范的基线大体相当。

Transfering Hierarchical Structure with Dual Meta Imitation Learning figure
CoRL 20222022-01-28

Transfering Hierarchical Structure with Dual Meta Imitation Learning

模仿学习

模仿学习泛化

本文关注层级模仿学习虽能从长时序、未分段示范中发现子技能,却难把“高层调度+子技能”整体以少样本迁移到新任务。作者提出DMIL,在EM式HIL框架里对高层策略和各子技能交替做MAML适配:用子技能对状态-动作的似然监督高层更新,再由适配后的高层为子技能重划分数据,并给出收敛性证明及其与EM的联系。实验在Meta-World上取得少样本模仿学习SOTA,在Kitchen长程任务上也有竞争力。

LfGP: Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning figure
NeurIPSW 20212021-12-16

LfGP: Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning

模仿学习

模仿学习强化学习安全机器人学习

论文针对机器人长时程、稀疏奖励场景下,对抗式模仿学习虽能提供替代奖励却仍难有效探索、甚至可能不如行为克隆的问题,提出LfGP:利用主任务与多个辅助任务的 guided play 示范,结合层级策略与调度器,联合学习各任务奖励与策略,并通过任务组合强制探索。实验表明,该方法在堆叠、搬运、插入等主任务上整体优于单纯BC和现有AIL,辅助技能还能复用并在部分任务上带来迁移加速;但辅助任务本身常是多任务BC更强,说明其收益主要来自改善主任务探索。

NDF: Neural Descriptor Fields: SE(3)-Equivariant Object Representations for Manipulation figure
ICRA 20222021-12-09

NDF: Neural Descriptor Fields: SE(3)-Equivariant Object Representations for Manipulation

任务规划

任务规划3D 表征操作

这篇工作针对示教式操作难以泛化到同类新物体和任意6DoF初始姿态、且常依赖人工关键点的问题,提出NDF:将物体表示为SE(3)等变的连续3D描述子场,并用一组刚性查询点把抓手或支撑物的相对位姿编码成姿态描述子,测试时通过优化描述子匹配,直接联合求解任务相关局部坐标系与操作位姿,无需关键点标注且可用3D重建自监督训练。实验表明,仅用5–10次示教,方法就在仿真和真实机器人上的抓取、放置、挂杯任务中对未见实例与任意姿态实现了超过85%的总体成功率,并明显优于2D描述子基线。

Error-Aware Imitation Learning from Teleoperation Data for Mobile Manipulation figure
CoRL 20212021-12-09

Error-Aware Imitation Learning from Teleoperation Data for Mobile Manipulation

移动操作

移动操作模仿学习数据采集遥操作操作

论文关注移动操作中“示教难收集、部署易跑偏”的双重问题:机器人既要导航又要操作,状态空间大,传统模仿学习在少量演示下容易出现协变量偏移。作者提出MOMART遥操作框架,用手机加浏览器同时控制底盘与机械臂,并只给操作者第一视角机载视觉以收集更真实示教;同时用基于重建误差的错误检测器识别OOD/失败状态,在执行时触发恢复或终止。基于5个厨房长程任务、1200余条示教训练后,策略总体成功率超过45%,错误检测精度和召回超过85%;但增益也可能部分来自数据规模。

Guided Imitation of Task and Motion Planning figure
CoRL 20212021-12-06

Guided Imitation of Task and Motion Planning

任务规划

任务规划模仿学习机器人学习

这篇工作针对长时序、多子目标操作中“学习策略难规划、TAMP能规划但慢且依赖精确状态”的矛盾,提出用异步分布式TAMP持续产出监督数据,再以分层策略模仿其任务决策与低层控制;关键洞察是让部分训练好的控制器反过来加速规划,形成“规划供数—学习提速”的闭环。在7-DoF操作中,该方法将规划时间最多缩短2.6倍,并在RoboSuite四物体抓放上达到88%成功率,在RoboDesk九任务RGB输入上平均79%。

CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks figure
RA-L 20222021-12-06

CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

基础操作

基础操作语言条件机器人学习操作数据集/Benchmark

这篇工作面向一个现实痛点:机器人若要被普通人用自然语言指挥,就不能只学单一技能,而要能把多步操作组合成长时程任务。作者提出开源基准 CALVIN,在4个桌面环境中结合视觉/深度、夹爪相机、本体与触觉等多模态输入,提供约24小时 play 数据和2万条语言标注,评测语言条件下的7自由度连续操控及对新指令、新场景的零样本泛化。结果显示,现有 MCIL 基线短程任务最高仅53.9%成功率,长时程表现明显失效,说明难点不在单步模仿,而在语言落地、技能组合与跨环境泛化。

The Surprising Effectiveness of Representation Learning for Visual Imitation figure
RSS 20222021-12-02

The Surprising Effectiveness of Representation Learning for Visual Imitation

模仿学习

模仿学习Latent Learning数据采集数据检索感知

论文认为视觉模仿学习泛化差,关键在于端到端行为克隆把“表征学习”和“动作映射”绑在一起,导致示范需求高。为此提出 VINN:先用离线监督/自监督数据学视觉表征,再在潜空间用最近邻加局部加权回归直接检索并加权示范动作。结果显示,它在 pushing、stacking、开门等离线任务上可与参数化基线持平或更优;真实机器人开门仅用 71 条示范,在已见门上成功率 80%,新场景 40%,明显高于强基线的 53.3% 和 3.3%。

Visual Goal-Directed Meta-Learning with Contextual Planning Networks figure
CVPRW 20212021-11-18

Visual Goal-Directed Meta-Learning with Contextual Planning Networks

任务规划

任务规划泛化感知

这篇论文关注机器人在未见操作任务上仅凭一张目标图像就首次尝试完成任务的问题,动机是突破传统元学习仍依赖新任务样本或奖励信号的限制。作者提出 Contextual Planning Networks,将目标图像编码、潜空间反向传播规划、任务嵌入与神经调制结合,并联合学习策略与动力学来做零样本目标导向操作。在 Metaworld 的 24 个视觉操作任务中,CPN 只在 door-lock 上明显优于基线,其余多数任务只是相当,且文中承认不同任务没有统一最优方法、增益来源不清;不过它在 Kinova Jaco 的 Jenga 实验中展示了对未见目标位置的外推能力。

Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization figure
CoRL 20212021-11-15

Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization

泛化

泛化安全遥操作操作

论文关注长时序机器人操作中,前一技能的终止状态常落在后一技能未见过的起始分布外,导致简单串联失效的问题。作者的关键洞察不是继续无界扩大各子策略的起始集,而是用对抗式起始集判别器对终止状态做正则,让每个技能结束时更接近下一个技能可接收的状态,从而抑制误差沿技能链级联扩张。在两项家具装配任务上,T-STAR将基线成功率从 Chair Ingolf 的0%提到56%、Table Lack 的59%提到87%,并给出首个无需手工工程的无模型RL解法。

Distilling Motion Planner Augmented Policies into Visual Control Policies for Robot Manipulation figure
CoRL 20212021-11-11

Distilling Motion Planner Augmented Policies into Visual Control Policies for Robot Manipulation

任务规划

任务规划RL+IL数据增强基础模型遥操作感知机器人学习操作

论文针对“运动规划+强化学习”虽能处理障碍环境操作、却依赖精确状态和较高计算开销而难以真实部署的问题,提出 MoPA-PD:先用基于状态的 MoPA-RL 轨迹做视觉行为克隆,去掉规划器并平滑其抖动动作,再以 BC 轨迹引导的非对称 actor-critic 视觉强化学习继续微调,并用 BC actor 与状态 critic 初始化提升样本效率。结果表明,该方法在 3 个受遮挡操作任务上比多种 RL/IL 基线有更高成功率、更短路径和更快收敛,并结合域随机化实现对含干扰未见场景的零样本迁移。

Generalizable Imitation Learning from Observation via Inferring Goal Proximity figure
NeurIPS 20212021-11-10

Generalizable Imitation Learning from Observation via Inferring Goal Proximity

模仿学习

模仿学习强化学习RL+IL泛化遥操作机器人学习

该文针对仅有状态观测的模仿学习在新起点或新目标上易因判别式奖励过拟合无关特征而失效的问题,提出GPIL:不再只区分“专家/非专家”,而是结合专家演示与在线交互学习“目标接近度”这一任务进度估计,并用接近度差分加不确定性惩罚构造稠密奖励,驱动策略持续向更接近目标的状态推进。实验表明,在导航、运动控制和机器人操作中,尤其是演示覆盖不足时,该方法比多种LfO基线泛化更强,且表现接近使用专家动作的LfD方法。

AW-Opt: Learning Robotic Skills with Imitation and Reinforcement at Scale figure
CoRL 20212021-11-09

AW-Opt: Learning Robotic Skills with Imitation and Reinforcement at Scale

模仿学习

模仿学习强化学习RL+IL触觉机器人学习操作

本文关注机器人操作中模仿学习受示范上限约束、强化学习又探索昂贵且不安全的问题,目标是在大规模离线数据与在线微调下真正结合两者。作者并非提出全新理论,而是系统比较 AWAC 与 QT-Opt 的关键设计,形成 AW-Opt:用优势加权回归配合可扩展 Q 学习,把示范和异质离线经验统一纳入训练,并让离线初始化后的在线 RL 微调更稳定。结果显示,在 5 个仿真和真实抓取任务上,AW-Opt 相比 QT-Opt 和 AWAC 具有更高初始成功率、更稳定的微调增益和更好样本效率;其提升可能主要来自 scaling 与系统级组件组合。

A Divergence Minimization Perspective on Imitation Learning Methods figure
CoRL 20212021-11-06

A Divergence Minimization Perspective on Imitation Learning Methods

模仿学习

模仿学习强化学习触觉机器人学习

论文试图回答一个实际问题:在示范极少时,为什么IRL常比行为克隆更稳健,尽管两者在最优情况下都能恢复专家策略。作者从散度最小化视角统一重写BC、GAIL与AIRL,并提出作为AIRL推广的f-MAX,用同一分布匹配框架解释各类方法差异。高维连续控制实验表明,IRL的关键优势主要来自状态边缘分布匹配,而非奖励恢复本身;进一步地,仅手工指定目标状态分布、无需奖励或专家示范,也能在机械臂推物仿真中学到多样行为。

Dex-NeRF: Using a Neural Radiance Field to Grasp Transparent Objects figure
CoRL 20212021-10-27

Dex-NeRF: Using a Neural Radiance Field to Grasp Transparent Objects

抓取

抓取3D 表征操作数据集/Benchmark

这篇工作针对透明物体会让常规深度相机难以定位和恢复几何、从而难以稳定抓取的问题,提出将多视角 RGB 训练得到的 NeRF 接入机器人抓取流程。其关键洞察是透明表面的镜面反射会让 NeRF 学到可用的非零密度,因此作者通过额外布光增强高光,并设计了面向透明材质的深度渲染,再交给 Dex-Net 规划抓取。作者还构建了合成与真实数据集;在 ABB YuMi 上,单体、杂乱桌面和洗碗机场景取得了 90% 到 100% 的抓取成功率,基线方法则失败。

Towards More Generalizable One-shot Visual Imitation Learning figure
ICRA 20222021-10-26

Towards More Generalizable One-shot Visual Imitation Learning

模仿学习

模仿学习泛化感知

这篇工作针对现有一示范视觉模仿学习只在单一任务内做“换实例/换变体”泛化、难以支撑通用机器人的问题,提出更激进的多任务设定与一个含7类任务、61种变体的基准,并设计MOSAIC,用自注意力从演示中做任务判别、用时序对比学习强化表征。结果表明,已有方法在该设定下明显失效,而MOSAIC在学习效率和最终成功率上更好,并在新任务微调上展现出较有前景的泛化,但对全新任务的直接一示范迁移能力文中摘要未充分量化说明。

Contextual Latent-Movements Off-Policy Optimization for Robotic Manipulation Skills figure
ICRA 20212021-10-23

Contextual Latent-Movements Off-Policy Optimization for Robotic Manipulation Skills

强化学习

强化学习触觉Latent Learning基础模型机器人学习操作

论文针对示教学习中的运动基元参数维度高、真实机器人上强化学习微调样本代价大的问题,提出 LAMPO:不是只把示教当初始化,而是先用 MPPCA 在动作参数与任务上下文上预训练可条件化的低维非线性潜空间,保留多模态结构并起到降噪作用;随后在该潜空间中结合自归一化重要性采样、完整离策略梯度估计和 KL 约束做上下文策略优化,复用历史数据。RLBench 仿真及真实倒液实验显示,其在抽屉关闭等高维操作任务上较常见方法更具样本效率。

Efficient Robotic Manipulation Through Offline-to-Online Reinforcement Learning and Goal-Aware State Information figure
ICRA 20212021-10-21

Efficient Robotic Manipulation Through Offline-to-Online Reinforcement Learning and Goal-Aware State Information

强化学习

强化学习触觉机器人学习操作

论文针对视觉机器人操作中数据昂贵、稀疏奖励难学,以及离线预训练切换到在线强化学习时常出现性能骤降的问题,提出统一的offline-to-online无模型RL框架:用离线RL而非单纯模仿学习预热策略/Q函数,并向智能体注入目标/阶段感知状态信息,结合无监督表征学习与专家演示提升探索效率。其在OpenAI Gym Fetch多个操作任务上比FERM更省交互、更稳,尤其在较难稀疏奖励任务上成功率更高;但结果主要来自仿真基准,真实机器人增益文中未充分说明。

The "something something" Video Database for Learning and Evaluating Visual Common Sense figure
CVPR 20172021-10-13

The "something something" Video Database for Learning and Evaluating Visual Common Sense

视频规划

视频规划感知操作数据集/Benchmark

论文指出,静态图像难以让模型理解物体可供性、形变和时序因果,因此提出 Something-Something:让众包者按文本模板表演并填写占位词,用自然语言模板而非固定 one-hot 类别来标注细粒度人-物交互,以视频支撑视觉常识学习。主要结果是构建了 10.8 万段、174 类、平均 4.03 秒的短视频数据集,并证明大规模众包采集可行;但其对下游推理能力的实际增益,文中未充分说明,可能主要来自 scaling/data。

FERM: A Framework for Efficient Robotic Manipulation figure
NeurIPSW 20212021-10-13

FERM: A Framework for Efficient Robotic Manipulation

RL+IL

RL+IL基础模型机器人学习操作

本文针对真实机器人从像素学习操作时RL样本效率低、纯模仿学习又依赖大量示教的问题,提出FERM:先用仅10条人类示教做对比式表征预训练,再把示教与在线数据一起送入带数据增强的离策略RL(基于SAC)微调。关键洞察是,对比预训练、数据增强和少量示教单独都不够,但三者结合可显著提升稀疏奖励下的真实机械臂学习效率,在6类操作任务上以统一超参实现约15–50分钟训练、平均约30分钟学成策略。

Ego4D: Around the World in 3,000 Hours of Egocentric Video figure
CVPR 20222021-10-13

Ego4D: Around the World in 3,000 Hours of Egocentric Video

视频规划

视频规划操作数据集/Benchmark

论文面向机器人与AR中的长期第一人称感知数据缺口:现有第三人称、短片段数据难覆盖真实手物交互、情境记忆与未来动作预测。其核心贡献是构建Ego4D——包含3670小时、931名佩戴者、74地9国的非脚本化长时程多模态第一视角数据,并配套覆盖过去/当前/未来感知的5项基准与海量标注。主要结果是该数据集在规模与多样性上较既有自我中心数据集提升约一个量级,成为操作理解、视频规划与具身学习的重要benchmark;作为数据集论文,其价值可能主要来自scaling/data。

Correct Me if I am Wrong: Interactive Learning for Robotic Manipulation figure
RA-L 20222021-10-07

Correct Me if I am Wrong: Interactive Learning for Robotic Manipulation

模仿学习

模仿学习机器人学习操作

这篇工作针对机器人操作中深度强化学习样本效率低、奖励设计繁琐且不安全,以及传统模仿学习依赖预采集演示、易出现分布失配的问题,提出交互式框架CEILing:人类教师在执行时同时给出轨迹好坏的评价反馈和局部动作纠正,并异步更新随机策略,在人类修正与机器人自采经验之间动态权衡。仿真、12名参与者用户研究和真实机器人实验表明,该方法无需手工奖励,可从原始单目图像出发,在不到1小时真实训练内学会复杂操作。

Bottom-Up Skill Discovery from Unsegmented Demonstrations for Long-Horizon Robot Manipulation figure
RA-L 20222021-09-28

Bottom-Up Skill Discovery from Unsegmented Demonstrations for Long-Horizon Robot Manipulation

模仿学习

模仿学习泛化操作

这篇工作针对长时程机器人操作里“任务长、观测高维、演示未分段”使技能难以自动抽取的问题,提出 BUDS:先用自底向上的凝聚聚类从多模态遥操作演示中恢复层级任务结构,再从跨任务重复片段中发现可复用技能,并以目标条件的层级模仿学习训练技能和元控制器完成组合。仿真与真实厨房实验显示,其在多阶段视觉操作上明显优于当时层级模仿学习基线,三个任务平均成功率约 66%,较强基线高 20% 以上,真实机为 56%,跨任务联合发现技能还比单任务学习再提升约 8%。

Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain Datasets figure
CoRL 20182021-09-27

Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain Datasets

模仿学习

模仿学习泛化操作数据集/Benchmark

论文关注机器人每到新任务、新环境都要重采数据训练的问题,提出可复用的“桥接数据”思路:构建含7200条演示、覆盖71个任务和10个厨房环境的多任务多域数据集,并与目标域少量演示联合做模仿学习。结果显示,对新域中的未见任务,只用50条目标演示再加桥接数据,成功率平均提升约2倍;少量新域任务数据还可帮助迁移其他旧任务,但增益究竟来自跨域结构还是更大规模数据,文中未充分拆分。

CLIPort: What and Where Pathways for Robotic Manipulation figure
CoRL 20222021-09-24

CLIPort: What and Where Pathways for Robotic Manipulation

模仿学习

模仿学习机器人学习操作

论文针对机器人操作中“能精确执行却难理解语义”、视觉语言模型“懂概念却缺少细粒度空间感知”的断裂,提出CLIPort:将CLIP的“what”语义先验与Transporter的“where”空间可供性结合成双流语言条件模仿学习框架,以动作中心的抓取—放置预测替代显式位姿、分割和符号状态。结果表明,它在Ravens的10个仿真任务和9个真实任务上都具备较好的少样本效率与跨已见/未见概念泛化,多任务单一策略常可达到与单任务相当甚至更好的表现,但能力仍主要限于台面两步原语操作。

Adaptive Dynamic Sliding Mode Control of Soft Continuum Manipulators figure
ICRA 20222021-09-23

Adaptive Dynamic Sliding Mode Control of Soft Continuum Manipulators

软体机器人

软体机器人操作

针对软体连续体机械臂常用的增强刚体近似计算重、而将段质量集中到末端又会带来动力学失真的问题,论文在PCC建模下用拉格朗日方法把各段质心放在真实质心位置,并结合Slotine-Li自适应、扰动界在线估计和终端滑模,兼顾参数不确定性与外扰鲁棒性。两段气动软臂实验证明,其任务空间轨迹跟踪在不同负载下比逆动力学基线精度高约38%,且模型拟合与实时性更好。

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning figure
CoRL 20212021-09-17

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning

模仿学习

模仿学习机器人学习

这篇工作针对交互式模仿学习中“人类纠错能提升鲁棒性,但持续监督代价很高”的问题,提出 ThriftyDAgger:由机器人在给定干预预算下,仅在状态足够新颖或当前策略的任务失败风险较高时请求人类接管。其核心洞察是,单靠分布外新颖度不足以决定何时求助,必须结合对任务成功概率的风险估计。仿真、真实线缆布线和三机器人用户实验表明,它比已有 robot-gated 方法更好平衡任务成功率与监督负担,执行时在仿真和实物任务上都达到 100% 成功率。

A Holistic Approach to Reactive Mobile Manipulation figure
RA-L 20222021-09-10

A Holistic Approach to Reactive Mobile Manipulation

移动操作

移动操作操作非学习控制

针对传统移动操作常把底盘先停到位、再驱动机械臂,导致规划耗时长、动作停走且对扰动不稳,本文提出把底盘与机械臂自由度作为一个整体,在二次规划中同步分配运动的反应式控制器,并结合行为树把抓取、放置和错误恢复组织成可执行任务。该方法在9自由度非完整约束移动操作平台上实现闭环视觉抓取与搬运,实验表明其较既有方法更快、更高效且更鲁棒,运动也更连续流畅。

DexMV: Imitation Learning for Dexterous Manipulation from Human Videos figure
ECCV 20222021-08-12

DexMV: Imitation Learning for Dexterous Manipulation from Human Videos

灵巧操作

灵巧操作视频规划模仿学习操作

论文针对高自由度灵巧手仅靠RL样本效率低、VR示教采集昂贵且任务复杂度受限的问题,提出DexMV:先从真实人手视频恢复3D手-物体轨迹,再通过“示范翻译”把人手运动重定向为机器人状态与动作,用于模仿学习与RL联合训练。实验表明,在relocate、pour和place-inside等更复杂任务上,视频示范可显著提升成功率,解决纯RL难以完成的任务,并对未见物体实例表现出一定泛化。

Robomimic: What Matters in Learning from Offline Human Demonstrations for Robot Manipulation figure
CoRL 20212021-08-06

Robomimic: What Matters in Learning from Offline Human Demonstrations for Robot Manipulation

基础操作

基础操作模仿学习数据采集操作数据集/Benchmark

这篇论文的动机是,机器人离线学习长期依赖机器生成数据,缺少公开的人类示教数据和可复现基线,导致真实操作中“什么有效”难以判断。作者构建并开源 robomimic,在 8 个仿真/真实多阶段任务上系统比较 6 类离线算法与不同质量数据,核心洞察是人类示教具有历史依赖和显著质量差异,观测空间、超参数与早停策略都会明显影响效果。结果显示,带时序建模的模仿学习方法在单人和多人数据上明显优于离线 RL;BCQ、CQL 在机器生成数据上尚可,但在人类混合质量数据上普遍表现很差。

Transformer-based Deep Imitation Learning for Dual-arm Robot Manipulation figure
IROS 20212021-08-01

Transformer-based Deep Imitation Learning for Dual-arm Robot Manipulation

模仿学习

模仿学习Transformer Policy双臂机器人学习操作

论文针对双臂模仿学习中左右臂状态直接拼接后维度升高、无关本体感觉易干扰策略学习的问题,将视线引导的局部视觉与Transformer自注意力结合,把注视点、左右臂状态和图像嵌入统一建模为token,由模型自动选择当前任务相关信息,而不是手工划分子任务。在真实机器人上的非协调、目标协调和双手协作任务中,该方法均优于无自注意力基线,注意力分析也表明其能聚焦关键感觉输入,但具体量化增益在给定材料中未充分说明。

ManiSkill: Generalizable Manipulation Skill Benchmark with Large-Scale Demonstrations figure
NeurIPS D&B 20212021-07-30

ManiSkill: Generalizable Manipulation Skill Benchmark with Large-Scale Demonstrations

基础操作

基础操作模仿学习泛化基础模型操作数据集/Benchmark

该文针对现有机器人操作基准缺乏类内形状与拓扑多样性、难以评测未见同类物体泛化的问题,提出 ManiSkill:在 SAPIEN 全物理仿真中构建 4 类操作任务,覆盖柜门/抽屉/椅子/水桶等 162 个多样化对象,提供机器人视角点云或 RGB-D 输入、训练/测试对象划分,以及约 3.6 万条成功示范。基线结果表明,3D 感知与模仿学习虽能学到有效策略,但对未见物体的成功率仍明显受限,说明物体级泛化仍是主要瓶颈。

Demonstration-Guided Reinforcement Learning with Learned Skills figure
CoRL 20212021-07-21

Demonstration-Guided Reinforcement Learning with Learned Skills

模仿学习

模仿学习强化学习RL+IL触觉基础模型遥操作机器人学习

这篇工作针对示教引导RL每到新任务都从原子动作模仿开始、样本效率低且长时程任务易脆弱的问题,提出SkiLD:先从跨任务离线数据中学习可复用低层技能,再把示教转成技能级监督,并用“演示内跟随后验、演示外依赖技能先验+判别器奖励回到示教支持域”的方式训练高层策略。结果表明,在长程迷宫导航和两类机器人操作上,它比仅用示教的RL和仅用技能先验的方法都更省交互、成功率更高。

grasp_det_seg_cnn: End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB figure
ICRA 20212021-07-12

grasp_det_seg_cnn: End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB

抓取

抓取感知操作

针对堆叠遮挡场景中仅靠检测框难以判断“该抓哪个物体”的问题,论文提出一个共享主干的端到端多任务网络,同时预测平行夹爪矩形抓取与像素级语义分割,并设计结合两者输出的抓取精炼模块,重点提升抓取位姿、尤其角度估计的准确性。作者还扩展了OCID,补充定向抓取标注和类别标签。方法在Cornell和Jacquard上达到当时SOTA,并在扩展OCID上证明可将抓取候选分配给具体物体以支持定向抓取。

Imitation Learning with Additional Constraints on Motion Style using Parametric Bias figure
RA-L 20212021-07-10

Imitation Learning with Additional Constraints on Motion Style using Parametric Bias

模仿学习

模仿学习机器人学习

针对传统模仿学习常将多次人类示教“平均化”、难以按需求控制速度、受力和轨迹风格的问题,本文在循环模仿网络中引入参数偏置,将不同示教的动作风格编码为低维连续变量,并在执行时依据关节速度、肌肉长度速度、肌张力等软约束更新该偏置,从而无需强化学习式在线试错即可调节动作风格。PR2、MusashiLarm和1-DOF仿真实验表明,该方法能在开箱、关箱等任务中按目标改变快慢与用力方式,同时保持任务完成。

Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via Discretisation figure
CVPR 20222021-06-26

Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via Discretisation

强化学习

强化学习触觉感知机器人学习操作

这篇工作针对视觉机器人操作中连续6D动作难学、actor-critic在稀疏奖励和图像输入下不稳定且低效的问题,提出在体素化场景上递归“放大”的coarse-to-fine Q-attention:先以粗分辨率定位关键区域,再逐层细化平移位置,从而把最难的平移空间近似无损离散化,改用更稳定的离散Q学习完成6D操作。实验表明,C2F-ARM在多个RLBench稀疏奖励任务上优于既有RL/IL方法,训练更稳、更省样本,并能仅靠3个示范在数分钟内学会5类真实机器人任务。

Panda-gym: Open-source Goal-conditioned Environments for Robotic Learning figure
NeurIPSW 20212021-06-25

Panda-gym: Open-source Goal-conditioned Environments for Robotic Learning

基础操作

基础操作操作数据集/Benchmark

这项工作针对机器人强化学习在稀疏奖励下高度依赖仿真、且缺少统一开放基准的问题,提出基于 PyBullet 与 OpenAI Gym 的 panda-gym。其关键设计是将“机器人”和“任务”解耦,并统一为多目标 RL 接口,提供 reach、push、slide、pick-place、stack 五类任务,便于复现与扩展。基线实验显示,HER 配合 DDPG、TD3、SAC 可解决部分任务,但更难的堆叠任务仍未充分解决;环境单核仿真速度平均较 MuJoCo 同类实现快 9.2%。

CRIL: Continual Robot Imitation Learning via Generative and Prediction Model figure
IROS 20212021-06-17

CRIL: Continual Robot Imitation Learning via Generative and Prediction Model

模仿学习

模仿学习泛化

这篇工作针对机器人模仿学习难以一次收集多任务示范、且按任务顺序学习容易灾难性遗忘的问题,提出CRIL做持续模仿学习。其关键洞察是把旧任务轨迹回放拆成首帧生成与动作条件的视频预测:先用GAN生成轨迹起点,再结合旧策略动作由动力学感知预测器滚动合成整段伪示范,从而避免保存历史原始数据或重返旧环境。文中在Meta-World仿真和Jaco2真实操作实验中表明,该方法学习新任务时能更好保留旧技能,并取得更稳的连续多任务表现。

Demonstration-Conditioned Reinforcement Learning for Few-Shot Imitation figure
ICML 20212021-06-11

Demonstration-Conditioned Reinforcement Learning for Few-Shot Imitation

模仿学习

数据需求量大模仿学习强化学习RL+IL触觉机器人学习

论文针对少样本模仿学习中行为克隆往往需要大量带动作演示、难处理人机域偏移且难超越示范者的问题,提出示范条件强化学习DCRL:把少量演示与当前状态共同输入策略,在多任务上直接按环境奖励训练,而不是先做动作回归或为每个新任务重新学策略,测试时也无需额外探索;并用带轴向注意力的Transformer聚合多段演示。实验表明,它在导航和Meta-World操作上大幅优于BC基线,还能仅用状态演示并从次优示范中学得更好策略。

What Matters for Adversarial Imitation Learning? figure
NeurIPS 20212021-06-10

What Matters for Adversarial Imitation Learning?

模仿学习

模仿学习强化学习安全机器人学习

本文的动机是:对抗式模仿学习里高层算法选择和底层实现细节很多,但过去缺少统一、严格的横向比较,难以判断哪些设计真正重要。作者构建了一个覆盖50余种选择的通用AIL框架,并在10个连续控制任务上训练超50万智能体做大规模消融。主要结论是,合成示范并不能替代人类示范,许多只在合成数据上表现好的方案在更真实的人类数据上可能失效;同时,dropout、权重衰减等通用正则常可媲美梯度惩罚,而离策略RL、吸收状态和观测归一化往往更关键。

V-MAIL: Visual Adversarial Imitation Learning using Variational Models figure
NeurIPS 20212021-06-10

V-MAIL: Visual Adversarial Imitation Learning using Variational Models

模仿学习

模仿学习强化学习安全感知机器人学习

这篇工作针对视觉模仿学习中奖励难设计、图像表征难学且对抗式训练不稳定的问题,提出 V-MAIL:把变分潜变量动力学模型与对抗式模仿学习结合,在潜空间中生成近似 on-policy 轨迹,并用模型学习同时提供表征监督、提升样本效率并缓解分布偏移。实验显示,它在视觉运动与操作任务上比既有方法更稳定、更省环境交互,最终性能更高,多数任务接近专家水平,还能迁移已学模型,在无额外交互下学习新任务。

Option-GAIL: Adversarial Option-Aware Hierarchical Imitation Learning figure
ICML 20212021-06-10

Option-GAIL: Adversarial Option-Aware Hierarchical Imitation Learning

模仿学习

模仿学习强化学习安全机器人学习

该文针对长时程、未分段示范下层次模仿学习易出现行为克隆误差累积,或高低层分开训练导致次优解的问题,提出 Option-GAIL:用 option 显式建模任务层次,并把 GAIL 的匹配目标扩展为含 option 的占据测度匹配;再以类 EM 方式训练,在 E 步用 Viterbi 推断专家隐含子任务,M 步联合更新高低层策略,并给出收敛性证明。实验显示其在多种机器人运动与操作任务上比现有 HIL/IL 基线收敛更快、最终性能更好,且在子任务边界较清晰的场景优势更明显。

Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation figure
RA-L 20222021-05-31

Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation

RL+IL

RL+IL基础模型感知机器人学习操作

这篇论文针对视觉机器人操作中强化学习从图像训练样本效率低、在稀疏奖励下难探索的问题,提出ARM:先用Q-attention以Q-learning学习一种离策略硬注意力,在像素级选出应关注区域并裁剪RGB/点云,再由位姿策略与控制器分阶段输出6D目标位姿和关节动作;同时结合关键帧发现、演示增强和置信度感知critic,提高少量演示的利用率与训练稳定性。实验在8个RLBench任务上表明,常见方法大多失败,而ARM能以较少交互成功并泛化到未见配置。

Coarse-to-Fine Imitation Learning: Robot Manipulation from a Single Demonstration figure
ICRA 20212021-05-13

Coarse-to-Fine Imitation Learning: Robot Manipulation from a Single Demonstration

模仿学习

数据需求量大模仿学习泛化操作

这篇工作针对机器人模仿学习常依赖大量示范、任务先验或反复环境重置的问题,提出把操作拆成“粗接近+细交互”两段,并将学习目标改写为对交互起点“瓶颈位姿”的估计。机器人先用末端相机自监督采集多视角数据,测试时线性移动到预测瓶颈,再直接回放单次人类示范后半段的末端速度,而非端到端学习整条策略。实物8个日常任务结果表明,该方法在无对象先验下可由一次示范学会多种操作,并获得更稳定、可解释的控制。

REGRAD: A Large-Scale Relational Grasp Dataset for Safe and Object-Specific Robotic Grasping in Clutter figure
ICRA 20212021-04-29

REGRAD: A Large-Scale Relational Grasp Dataset for Safe and Object-Specific Robotic Grasping in Clutter

抓取

抓取安全基础模型操作数据集/Benchmark

这篇工作针对密集杂乱场景中“先移开什么、再抓目标物”的难题,指出安全的目标抓取不仅要预测稳定抓取位姿,还要理解物体间的操作关系与正确抓取顺序。作者提出大规模自动生成数据集 REGRAD,在仿真中联合标注 2D/3D 图像、点云、6D 位姿、分割、矩形/6D 抓取和操作关系图,覆盖 55 类、5 万模型,并配套真实验证集。实验表明,经适度域随机化后,用 REGRAD 训练的关系检测与抓取模型能较好迁移到真实场景;但增益可能主要来自 scaling 与数据覆盖,文中对各因素贡献拆解有限。

ManipulaTHOR: A Framework for Visual Object Manipulation figure
CVPR 20212021-04-22

ManipulaTHOR: A Framework for Visual Object Manipulation

感知

移动操作感知操作数据集/Benchmark

论文针对具身智能长期偏重导航、缺少面向复杂室内场景的移动操作平台这一问题,在AI2-THOR上加入可用正/逆运动学控制的机械臂,提出ManipulaTHOR框架与ArmPointNav基准,把“到点导航”扩展为“接近目标—抓取—搬运—放置”的联合任务,显式引入遮挡、3D避障和多物体长程规划。实验表明,端到端策略能泛化到未见场景和新物体,并优于分技能方案,但整体表现仍有明显提升空间,说明导航中有效的方法迁移到视觉操作上并不充分。

PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable Physics figure
ICLR 20212021-04-07

PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable Physics

可变形物体

可变形物体操作数据集/Benchmark

这篇工作针对现有机器人学习环境几乎只覆盖刚体、缺少可变形物体任务且难以提供可用于规划的解析梯度,提出了 PlasticineLab:一个面向橡皮泥等弹塑性软体操作的可微物理基准。其核心创新是基于 DiffTaichi/MPM 构建支持弹塑性形变、软硬接触和梯度反传的模拟器,并设计了 10 类、50 个配置的捏、擀、切、塑形等任务。实验表明,常见 RL 方法在多数任务上样本效率很差,而利用内置梯度优化开环控制序列可在几十次迭代内找到解,但对需要长期规划的多阶段任务仍明显不足。

LazyDAgger: Reducing Context Switching in Interactive Imitation Learning figure
CASE 20212021-03-31

LazyDAgger: Reducing Context Switching in Interactive Imitation Learning

模仿学习

模仿学习机器人学习

本文关注交互式模仿学习中,人类监督者频繁在人机控制间切换所带来的时间与认知负担。作者在SafeDAgger上提出LazyDAgger,通过不对称的接管/放权阈值和向监督者动作注入噪声,鼓励更连续、信息量更高的干预,并可在部署时继续用元控制器请求接管。结果显示,其在3个连续控制任务上保持接近DAgger的性能,同时比DAgger少用88%监督动作、比SafeDAgger少60%上下文切换;在YuMi布料操作中,执行成功率较SafeDAgger提升60%,切换仍减少60%。

Ergodic Imitation: Learning from What to Do and What Not to Do figure
ICRA 20212021-03-31

Ergodic Imitation: Learning from What to Do and What Not to Do

模仿学习

模仿学习机器人学习

面向新手用户难以提供高质量、近最优示教的问题,本文把任务学习从“模仿具体轨迹”改为“匹配状态空间中的轨迹统计”,用遍历性度量学习任务分布,并将正例与“不要这样做”的负例示教统一进同一目标。实验在倒立摆和Franka仿真的目标到达、擦桌任务上表明,该方法能从不完美示教中重建更稳健的技能;24人用户研究也显示,正负结合比仅用正例包含更多任务信息,甚至在倒立摆中仅负例也可学会技能。

Causal Reasoning in Simulation for Structure and Transfer Learning of Robot Manipulation Policies figure
ICRA 20212021-03-31

Causal Reasoning in Simulation for Structure and Transfer Learning of Robot Manipulation Policies

模仿学习

模仿学习安全机器人学习操作

论文关注操作任务中大量场景变量里只有少数真正决定控制的问题:若把干扰物状态也输入策略,域随机化仍可能被无关特征的分布偏移拖累。作者提出CREST,利用近似内部仿真进行因果干预,识别与控制参数真正相关的上下文变量,并据此构建只看相关输入的轻量网络,再在相关变量上做域随机化预训练后迁移微调。块堆叠和开箱实验显示,它较使用全部状态的朴素策略更稳健、更省样本,也更能扩展到大状态空间;不过主要证据来自仿真代理,真实零样本仅验证了块堆叠。

Self-Imitation Learning by Planning figure
ICRA 20212021-03-25

Self-Imitation Learning by Planning

任务规划

任务规划模仿学习数据采集数据增强

这篇工作针对长时程机械臂运动规划中示范数据难采、RL探索慢且真实环境试错代价高的问题,提出SILP:把当前策略访问过的无碰撞状态当作规划图节点,由规划器在线重连并重标注机器人自己的轨迹,自动生成示范持续辅助离策略RL。其核心洞察是早期失败或半成功轨迹也包含可复用的避障状态,可被转化为高价值训练数据。实验表明,SILP相较纯RL、行为克隆和HER有更高成功率与更好样本效率,并能从仿真迁移到真实UR5e放置任务。

Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes figure
ICRA 20212021-03-25

Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes

抓取

抓取操作

针对杂乱场景中未知物体抓取,作者指出以往6-DoF方法常依赖“分割—生成—碰撞过滤”的串行流程,既易受实例分割误差影响,也难满足闭环速度要求。该文把抓取姿态锚定到观测点云中的接触点,将并联夹爪6-DoF抓取降为更易学习的4-DoF表示,并直接从整场景深度/点云端到端生成多样、避碰的抓取候选。基于1700万仿真抓取训练后,系统在真实结构化杂乱场景中对未见物体取得超过90%成功率,相比当时方法失败率约减半、成功率提升约10个百分点。

Adversarial Imitation Learning with Trajectorial Augmentation and Correction figure
ICRA 20212021-03-25

Adversarial Imitation Learning with Trajectorial Augmentation and Correction

模仿学习

模仿学习强化学习数据增强安全机器人学习

这篇工作针对机器人模仿学习中专家轨迹稀缺且含噪、而控制任务又不能像视觉那样随意做数据增强的问题,提出先对专家动作序列随机扰动,再用半监督对抗式纠正网络把可能失败的轨迹修回成功轨迹,并以成功过滤器筛选,从而持续生成合成专家来训练模仿策略;同时设计了轨迹多样性度量。实验表明,该方法在多种环境中比直接用GAIL或RL收敛更快、训练更稳定、模仿精度更高,并基本保持与真实示范接近的轨迹多样性。

MIR: Manipulator-Independent Representations for Visual Imitation figure
RSS 20212021-03-16

MIR: Manipulator-Independent Representations for Visual Imitation

视频规划

视频规划模仿学习Latent Learning感知机器人学习操作

这篇工作关注一个更接近人类模仿的设定:机器人只看第三人称视频、拿不到示范者动作,而且示范者与执行机器人形态甚至仿真/现实域都不同。作者提出操纵器无关表征MIR,核心是让表示更关注物体与环境状态变化、弱化机械臂细节,并同时满足跨域对齐、时间平滑和可执行性;训练上结合时间对比损失、目标条件技能学习和含“隐形机械臂”的域随机化。实验表明,基于MIR的RL轨迹跟踪能模仿多物体、非平面操作,甚至可从人手或不同机器人示范迁移到另一机器人,并优于若干替代表示。

Robotic Imitation of Human Assembly Skills Using Hybrid Trajectory and Force Learning figure
ICRA 20212021-03-10

Robotic Imitation of Human Assembly Skills Using Hybrid Trajectory and Force Learning

模仿学习

模仿学习触觉机器人学习操作应用

论文针对装配中“轨迹容易示教、接触力却难从仿真可靠迁移”的痛点,将“走哪条轨迹”和“施多大力”解耦:用分层目标条件模仿学习离线生成技能级名义轨迹,再用强化学习在线调整并联位置/力控制器参数以适应不同阶段接触。仿真与UR3e实验证明,该方法在L形插入等低间隙任务中较纯RL及若干组合学习基线样本效率更高,轨迹质量更好,并能更快学到对轨迹漂移和力不确定性更鲁棒的力控制策略。

Generalization Through Hand-Eye Coordination: An Action Space for Learning Spatially-Invariant Visuomotor Control figure
IROS 20212021-02-28

Generalization Through Hand-Eye Coordination: An Action Space for Learning Spatially-Invariant Visuomotor Control

泛化

多智能体/多机器人泛化机器人学习

本文针对行为克隆式视觉操作在训练分布外场景中容易把像素与绝对动作误绑定、导致泛化差的问题,提出手眼动作网络HAN,把“先看任务相关目标、再按末端与目标的相对3D位置出手”的手眼协调机制做成可学习动作空间:从RGB预测3D关键点,阶段性切换注意目标,并据此生成末端动作。抓取、堆叠和工具使用等仿真实验表明,HAN较图像BC及多种消融在未见初始布局上的零样本泛化更强,并学到类似人类的注意切换行为。

Efficient and Interpretable Robot Manipulation with Graph Neural Networks figure
RA-L 20222021-02-25

Efficient and Interpretable Robot Manipulation with Graph Neural Networks

模仿学习

模仿学习安全机器人学习操作

长时序机器人操作常依赖手工编写的符号规则与约束,TAMP虽能泛化,但对非专家过于繁琐。本文把场景表示成包含物体与目标位的图,用GNN在模仿学习框架下决策“抓哪个、放到哪”,并结合改造的GNNExplainer给出可解释依据,前提是已知Pick-and-Place等低层原语。实验显示仅20个专家示范就能学会堆叠、重排和洗碗机装载任务,并零样本泛化到更多物体、不同目标配置以及仿真到真机,效果优于文中RL基线。

Gaze-Based Dual Resolution Deep Imitation Learning for High-Precision Dexterous Robot Manipulation figure
RA-L 20212021-02-02

Gaze-Based Dual Resolution Deep Imitation Learning for High-Precision Dexterous Robot Manipulation

灵巧操作

灵巧操作模仿学习机器人学习操作

论文针对穿针这类小间隙、线材可变形且针姿态变化大的高精度操作,指出整幅图像的端到端模仿学习难同时兼顾精度与效率。作者记录人类遥操作时的注视点,提出受人类中央/周边视觉分工启发的双分辨率策略:低分辨率周边视觉负责快速接近目标,高分辨率注视裁剪负责末端精确对位与穿线,并能在碰撞导致线材形变时调整动作。实验表明,该方法让通用UR5仅凭视觉示教完成穿针,较全图高分辨率策略在成功率和计算效率上更优,并对螺栓抓取表现出一定泛化。

Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos figure
IROS 20212021-01-18

Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos

视频规划

视频规划模仿学习强化学习RL+IL机器人学习操作

这项工作针对机器人示教依赖动作标注、采集昂贵的问题,尝试让机器人仅通过观看单个第三人称人类操作视频学习操控技能。其关键做法是先用无配对的人到机器人图像翻译缓解形态差异,再在翻译后视频上做无监督关键点发现,得到可直接用于奖励构造和策略输入的结构化状态表示,并结合强化学习完成物理可执行的模仿。实验在reaching、pushing、sliding、做咖啡和关抽屉五项仿真任务上优于当时方法。

Learning Kinematic Feasibility for Mobile Manipulation through Deep Reinforcement Learning figure
RA-L 20212021-01-13

Learning Kinematic Feasibility for Mobile Manipulation through Deep Reinforcement Learning

移动操作

移动操作强化学习触觉操作

论文针对移动底盘与机械臂联合规划难适应动态环境、而端到端动作又常产生不可达轨迹的问题,将“末端执行器按任务空间轨迹运动时,底盘如何配合保持可达”表述为强化学习。核心做法是固定任意上层生成的末端轨迹,仅学习底盘速度,并把逆运动学/运动学可行性直接作为稠密奖励,因此具备模块化和对未见末端轨迹的泛化。实验在PR2、TIAGo、HSR等平台的仿真与实机上显示,其成功率和鲁棒性普遍优于模仿式基线及PR2上的几何调制方法。

Volumetric Grasping Network: Real-time 6 DOF Grasp Detection in Clutter figure
CoRL 20202021-01-04

Volumetric Grasping Network: Real-time 6 DOF Grasp Detection in Clutter

抓取

抓取3D 表征感知操作

面向杂乱场景中未知物体,作者指出现有6自由度抓取常依赖候选采样再评分,既慢,也往往只考虑局部或单物体而需额外碰撞检测。VGN将腕载深度相机构建的TSDF整场景输入3D全卷积网络,直接为每个体素并行预测抓取质量、姿态和夹爪开口,核心洞察是利用完整3D场景让网络隐式学会避碰。实验中其单次规划约10 ms,真实清理任务可移除92%物体,且无需显式碰撞检测或额外实机微调。

KitchenShift: Evaluating Zero-Shot Generalization of Imitation-Based Policy Learning Under Domain Shifts figure
NeurIPSW 20212021

KitchenShift: Evaluating Zero-Shot Generalization of Imitation-Based Policy Learning Under Domain Shifts

基础操作

基础操作模仿学习泛化机器人学习操作数据集/Benchmark

论文针对现有模仿学习策略常在“训练环境=测试环境”的设定下被高估这一问题,提出 KitchenShift 评测协议与基准,在逼真的厨房多阶段操作中系统施加物体实例/布局、纹理、视角、光照、机器人与物体状态等7类域偏移,专测零样本泛化。实验表明,当前基于 RGB 示教的策略对轻微视觉和环境变化都很脆弱;在所比较方法里,简单行为克隆反而优于其他模仿与表征学习方法,但整体鲁棒性仍不足。

Visual Imitation Made Easy figure
CoRL 20212020-8-11

Visual Imitation Made Easy

模仿学习

模仿学习数据采集遥操作感知

论文的动机是:示教和遥操作很难在真实场景中低成本采集足够多样的操作数据,视觉模仿因此泛化受限。作者提出 DemoAT,用廉价 reacher-grabber 同时做人类演示工具和机器人末端执行器,并用 SfM+手指检测从视频中恢复轨迹与夹爪开合,再以简单行为克隆学习推和堆叠。实机在未见物体上分别达到 87.5% 推动成功率和 62.5% 堆叠成功率,说明关键增益可能主要来自可扩展的数据采集、端执行器对齐和数据增强,而非更复杂策略。

Translating Natural Language Instructions to Computer Programs for Robot Manipulation figure
IROS 20212020-12-26

Translating Natural Language Instructions to Computer Programs for Robot Manipulation

任务规划

任务规划程序化规划操作

这篇工作针对端到端语言模仿学习难以显式表达空间关系、也难接入约束求解器等非可微模块的问题,把“自然语言指令→机器人动作”改成“自然语言→Python程序→结合目标检测结果执行”,并用程序代码而非遥操作轨迹作为专家监督,使意图更结构化、可解释。实验表明,该方法在物体摆放与操作两类任务上都优于直接回归目标位置或末端位姿的基线,真实机器人25次试验成功19次;但文中未充分说明增益有多少来自程序表示本身,多少来自显式引入的检测器和求解器先验。

Offline Reinforcement Learning from Images with Latent Space Models figure
L4DC 20212020-12-21

Offline Reinforcement Learning from Images with Latent Space Models

强化学习

强化学习触觉Latent Learning轨迹生成机器人学习

论文针对视觉控制中在线RL样本代价高、真实机器人探索不安全,而离线RL又难以直接处理图像观测和模型不确定性的问题,提出LOMPO:先学习带编码器/解码器的潜变量动力学模型,再用模型集成在潜空间度量分歧并施加悲观惩罚,据此优化策略;作者还将其解释为未知POMDP下ELBO下界的优化。实验显示,该方法在4个图像化运动与操作任务及真实机器人关抽屉任务上普遍优于已有离线无模型方法,并超过当时较强的在线视觉模型方法。

Learning Multi-Arm Manipulation Through Collaborative Teleoperation figure
ICRA 20212020-12-12

Learning Multi-Arm Manipulation Through Collaborative Teleoperation

数据采集

数据采集遥操作操作

作者关注多机械臂模仿学习中的数据采集瓶颈:单人同时控制多臂负担过高。为此提出 MART,让多名异地用户各自用手机/浏览器遥操作一只机械臂协作示教。核心洞察是,多臂任务通常只在少数阶段需要强协调,长期采用全局集中策略容易学到跨臂伪相关,因此提出“基础策略+残差策略”的混合架构,用集中式主策略配合分散式残差进行补偿。五个两臂/三臂任务上,该方法优于纯集中或纯分散基线,但结果主要基于仿真,真实机器人效果文中未充分说明。

Human-in-the-Loop Imitation Learning using Remote Teleoperation figure
arXiv2020-12-12

Human-in-the-Loop Imitation Learning using Remote Teleoperation

模仿学习

模仿学习数据采集遥操作机器人学习

论文针对模仿学习在接触丰富操作中因协变量偏移而易在“瓶颈状态”失效的问题,提出了一个支持浏览器监控与手机6-DoF接管的远程遥操作采集系统。核心洞察是人通常会在策略难以进入瓶颈前接管、穿越后再交还控制,因此作者用IWR对干预片段加权、把自主执行片段作为正则,促使策略学会关键动作序列。在穿线和咖啡制作任务上,该方法优于等量普通示范和多种干预学习基线;但具体提升幅度在给定材料中未充分说明。

Offline Learning from Demonstrations and Unlabeled Experience figure
NeurIPSW 20202020-11-27

Offline Learning from Demonstrations and Unlabeled Experience

模仿学习

模仿学习强化学习RL+IL机器人学习

这篇工作针对机器人离线学习中“有少量演示、却积累了大量无奖励且质量参差经验”的现实问题,指出纯行为克隆几乎用不好这类数据。作者提出 ORIL:先用演示与未标注轨迹做对比学习奖励,并用 PU learning/TRAIL 缓解把成功片段误当负样本的问题,再把学得的奖励回填到全量数据上做离线 RL(CRR)。实验表明,在连续控制和模拟操作任务上,ORIL 比只做 BC 更稳、更省演示,且未标注数据越多通常越强,部分任务接近使用真奖励训练的上界。

SAFARI: Safe and Active Robot Imitation Learning with Imagination figure
NeurIPSW 20202020-11-18

SAFARI: Safe and Active Robot Imitation Learning with Imagination

模仿学习

模仿学习数据采集数据增强安全

这篇论文针对行为克隆在分布外状态下易累计误差、导致操作失败甚至不安全的问题,提出 SAFARI:训练时用基于未来状态重建误差的认知不确定性主动挑选最有信息量的场景并请求人类补演示,测试时结合克隆策略与学得动力学模型在线规划,把机器人拉回示范分布并在高风险 OOD 状态及时停机。作者在多项模拟操作和真实 Sawyer 推物实验中表明,相比被动模仿学习,SAFARI 用更少演示获得更高成功率,并能更早预测失败、提升安全性。

ACRONYM: A Large-Scale Grasp Dataset Based on Simulation figure
ICRA 20212020-11-18

ACRONYM: A Large-Scale Grasp Dataset Based on Simulation

抓取

抓取基础模型数据集/Benchmark

针对现有抓取数据集多局限于平面抓取、物体与场景多样性不足,且常用解析指标打标签、真实转移性有限的问题,ACRONYM用FleX物理仿真为8872个ShapeNetSem物体(262类)生成1774万条6-DoF并行夹爪抓取,并通过对跖采样、抖动测试和可程序化杂乱场景生成提升标注密度与物理真实性。结果表明,用该数据集重训6-DoF抓取规划器可显著优于原较小数据集,但具体增益拆解文中未充分说明,可能主要来自scaling/data。

SoftGym: Benchmarking Deep Reinforcement Learning for Deformable Object Manipulation figure
CoRL 20202020-11-14

SoftGym: Benchmarking Deep Reinforcement Learning for Deformable Object Manipulation

可变形物体

可变形物体强化学习触觉操作数据集/Benchmark

针对可变形物体操控中“状态高维、动力学复杂、现有强化学习工作缺少统一评测”的问题,论文提出 SoftGym:基于 Nvidia FleX 的开源仿真基准,提供符合 OpenAI Gym API 的 10 个绳索、布料与流体任务,并支持不同状态/动作空间与新环境扩展。实验系统比较了多类 RL 方法在真值状态、低维状态和纯视觉观察下的表现,结果显示视觉输入下性能普遍显著下降,说明部分可观测性与高内禀维度仍是该方向的核心瓶颈。

Sample-efficient Reinforcement Learning in Robotic Table Tennis figure
ICRA 20212020-11-06

Sample-efficient Reinforcement Learning in Robotic Table Tennis

强化学习

强化学习触觉操作应用

这项工作针对真实机器人强化学习试错代价高、乒乓回球又受来球位置、速度、旋转及系统噪声影响的问题,核心做法是把复杂挥拍控制嵌入已有感知与轨迹规划系统,化为一步决策:根据击球时球的状态,只学习球拍瞬时朝向与速度,并在奖励中同时约束落点精度和球路高度,再用基于DDPG的确定性 actor-critic 提升样本效率。结果表明,该方法无需预训练,在仿真和KUKA实机多种场景下都能在200次以内学会较准确回球,回球成功率也优于文中对比方案。

RetinaGAN: An Object-aware Approach to Sim-to-Real Transfer figure
ICRA 20212020-11-06

RetinaGAN: An Object-aware Approach to Sim-to-Real Transfer

泛化

泛化Sim2Real

论文针对仿真训练的视觉操控策略落地真实世界时受“外观鸿沟”限制、而普通GAN迁移又可能破坏可操作物体结构的问题,提出RetinaGAN:在CycleGAN中加入由预训练目标检测器提供的检测一致性约束,使仿真图像写实化的同时保留物体语义,且与具体任务损失解耦、可跨任务复用。实验中,真实抓取较既有方法提升12%,仅用5–10%真实数据时性能只降约14%;同一迁移器可零新增真实数据迁移到推物达90%,门把手开门任务配合集成版达97%成功率。

Transporter Networks: Rearranging the Visual World for Robotic Manipulation figure
CoRL 20202020-10-27

Transporter Networks: Rearranging the Visual World for Robotic Manipulation

感知

感知机器人学习操作

本文针对端到端视觉操作数据效率低、显式物体表示又难处理遮挡、变形和未知物体的问题,把操作建模为“从哪里取局部视觉区域、再把它搬到哪里”的空间位移预测;提出 Transporter Network,在3D一致的RGB-D表征上用局部注意力加特征模板匹配直接参数化抓放/推动作,不依赖关键点或物体模型。10个仿真任务中,多数任务用100条示范即可在新配置上超过90%成功率,并优于多种端到端与部分真值位姿基线,且扩展到6DoF、多步任务和真实机器人。

VIOLA: Imitation Learning for Vision-Based Manipulation with Object Proposal Priors figure
CoRL 20222020-10-22

VIOLA: Imitation Learning for Vision-Based Manipulation with Object Proposal Priors

模仿学习

模仿学习感知机器人学习操作

针对端到端模仿学习在视觉操控中易受协变量偏移、干扰物和视角变化影响、容易依赖任务无关线索的问题,VIOLA将预训练RPN生成的通用候选框作为对象先验,构建对象级表示,并用Transformer在对象token间做注意力推理,选择与当前操作相关的区域来输出闭环动作,从而提升对新物体和环境扰动的鲁棒性。仿真与真机结果表明,其成功率较最强基线提升45.8%,且仅用约50条示范就能完成摆餐桌、冲咖啡等长时程任务。

Language-Conditioned Imitation Learning for Robot Manipulation Tasks figure
NeurIPS 20202020-10-22

Language-Conditioned Imitation Learning for Robot Manipulation Tasks

模仿学习

模仿学习VLA语言条件机器人学习操作

该工作针对传统模仿学习只能从轨迹和感知中猜测任务意图、缺少人与机器人高带宽沟通通道的问题,把自然语言作为可在运行时修改的目标条件,提出由语义模块和控制模块组成的端到端策略:前者用视觉—语言注意力对齐指令与目标物体,后者输出整段运动原语参数。模型在7自由度机械臂仿真的抓取—倒水连续任务上取得84%成功率,明显优于基线,并在未约束人类指令上达到64%,说明其对自由表述具备一定泛化能力。

Mastering Atari with Discrete World Models figure
ICLR 20212020-10-05

Mastering Atari with Discrete World Models

强化学习

强化学习触觉轨迹生成世界模型机器人学习

本文针对基于像素的世界模型在 Atari 上长期难以学准、因而难以支撑高性能决策的问题,提出 DreamerV2:先独立学习带离散潜变量的 RSSM 世界模型,再在潜空间中想象轨迹训练 actor-critic,并用 KL balancing 稳定先验与后验学习。结果显示,它在 55 个 Atari 任务上以单 GPU、200M frames 达到人类水平并超过 Rainbow 和 IQN,且还能从像素学会类人机器人站立与行走;但各改动的增益占比文中未充分说明。

robosuite: A Modular Simulation Framework and Benchmark for Robot Learning figure
arXiv2020-09-25

robosuite: A Modular Simulation Framework and Benchmark for Robot Learning

跨本体

跨本体机器人学习数据集/Benchmark

本文针对机器人学习中硬件成本高、实验难复现的问题,提出基于 MuJoCo 的模块化仿真与基准框架 robosuite。其核心是把任务拆为机器人、场景与对象三层,并提供可组合控制器、多模态传感、程序化生成和人类示教接口,支持跨本体搭建操作任务。主要结果不是刷新单一算法 SOTA,而是发布了含 10 种机器人、9 类夹爪、4 类底座、6 种控制模式和 9 个标准任务的可复现实验平台与基线评测。

Imitation Learning for Autonomous Trajectory Learning of Robot Arms in Space figure
arXiv2020-08-10

Imitation Learning for Autonomous Trajectory Learning of Robot Arms in Space

模仿学习

模仿学习应用

面向碎片清除、在轨服务等任务,论文关注航天器机械臂运动会扰动母体姿态、增加ADCS能耗且机载优化计算昂贵的问题。作者用物理仿真中的MPC生成7自由度机械臂示教轨迹,再以ProMP离线学习成概率分布,对未见目标通过条件化与采样生成可复现轨迹,并从冗余解中挑选避障且姿态扰动更小的方案。结果表明该方法可更快复现轨迹、减少部署后的在线优化负担,并降低ADCS负载;但文中未充分说明具体量化增益。

TriFinger: An Open-Source Robot for Learning Dexterity figure
CoRL 20212020-08-08

TriFinger: An Open-Source Robot for Learning Dexterity

灵巧操作

灵巧操作操作数据集/Benchmark

本文针对灵巧操作研究长期受限于真实机器人实验昂贵、易损且需人工看护,导致大家偏向仿真但又难以可靠迁移的问题,提出了开源三指平台 TriFinger:以约 5000 美元的低成本硬件、1kHz 控制与软件级安全约束,支持无人值守采集数据,并提供面向强化学习与最优控制的通用接口和仿真环境。实验展示了其可在真机上完成实时最优控制、从零开始的深度强化学习、投掷和书写等任务,说明它更像是一个可复现的真实世界灵巧操作基准与研究基础设施。

Learning Context-Adaptive Task Constraints for Robotic Manipulation figure
RAS 20212020-08-06

Learning Context-Adaptive Task Constraints for Robotic Manipulation

模仿学习

模仿学习机器人学习操作非学习控制

论文针对约束式机器人控制严重依赖专家手工设定任务约束与优先级、且场景一变就需重调的问题,提出用跨上下文示教数据学习“该约束什么、约束多强”:以DPGMM建模上下文变量与任务约束/软优先级的联合分布,再用GMR在未见情境下回归控制参数。三项工业双臂操作实验表明,该方法在复现精度上优于手工设定约束的控制器,也优于只学习优先级或泛化较弱的对照方法。

GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping figure
CVPR 20202020-08-05

GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping

抓取

抓取基础模型操作数据集/Benchmark

这篇工作针对杂乱场景抓取长期受限于训练数据不足、标注稀疏且评测口径不统一的问题,提出“真实RGB-D采集+仿真解析标注”的两阶段流程,构建含97,280张图像、88个物体、超过10亿6-DoF抓取姿态的GraspNet-1Billion,并以基于力闭合分析的统一评测替代穷举真值匹配;在此基础上又给出将接近方向与操作参数解耦预测、并引入grasp affinity field提升鲁棒性的点云网络。实验显示该基准与真实机器人结果较一致,所提方法达到当时SOTA,但性能增益可能主要来自scaling/data。

Generalization Guarantees for Imitation Learning figure
CoRL 20202020-08-05

Generalization Guarantees for Imitation Learning

模仿学习

模仿学习Latent Learning泛化机器人学习

论文关注模仿学习策略在新环境中常因示范不完美或分布偏移而失效、且缺乏可验证泛化保证的问题。作者将PAC-Bayes控制引入模仿学习,提出两阶段框架:先用cVAE把多模态专家行为编码为潜变量先验,再在新训练环境上微调后验并直接优化泛化上界,从而得到带理论保证的策略分布。方法在抓取杯子、视觉推物和室内导航仿真中给出与实际表现较一致的紧上界,并在两类操作硬件实验中验证了可迁移性。

TIPS: Interactive Imitation Learning in State-Space figure
CoRL 20202020-08-02

TIPS: Interactive Imitation Learning in State-Space

模仿学习

模仿学习机器人学习

这篇工作针对交互式模仿学习常依赖动作空间示教、非专家难以给出关节或力矩级反馈的问题,提出TIPS:人只需在状态空间用增减式纠正指定“下一步该到什么状态”,再由学习到的前向动力学配合动作采样反推出可执行动作,并支持部分状态反馈。实验在CartPole、Reacher、LunarLander及KUKA操作任务上表明,TIPS在非专家示教下优于传统IL和动作空间交互法,甚至可超过示教者本人,同时显著降低示教负担。

Robust Control of a Multi-Axis Shape Memory Alloy-Driven Soft Manipulator figure
TMECH 20202020-06-03

Robust Control of a Multi-Axis Shape Memory Alloy-Driven Soft Manipulator

软体机器人

软体机器人安全操作

面向SMA驱动软体机械臂在三维多轴运动中难建模、且执行器易饱和导致闭环控制困难的问题,本文将软肢体用静态梁弯曲近似为LTI系统,并结合SVD补偿实现多轴解耦、加入anti-windup处理输入饱和,构成可证明稳定的鲁棒反馈控制。硬件实验表明,该两轴软臂可实现较低误差的姿态与轨迹跟踪,说明即便存在未建模动力学,简单模型配合反馈仍具实用性,也为多肢体软机器人控制提供了可行思路。

Language Conditioned Imitation Learning over Unstructured Data figure
RSS 20212020-05-15

Language Conditioned Imitation Learning over Unstructured Data

模仿学习

模仿学习VLA语言条件机器人学习

论文关注开放场景下机器人难以用任务ID或目标图像指定任务、且语言标注成本高的问题。作者提出多上下文模仿学习,把少量带语言说明的数据与大量无标签、无结构的遥操作 play 数据映射到共享潜在目标空间,端到端学习从像素、语言到连续控制,并借助预训练语言模型提升同义指令鲁棒性。该方法在3D桌面仿真中用不到1%的语言标注,实现18类单步任务68.6%、四步链式任务52.1%的成功率,优于仅依赖结构化语言演示的基线;但性能增益中有多少来自更大数据规模,文中拆解仍有限。

Spatial Action Maps for Mobile Manipulation figure
RSS 20202020-04-20

Spatial Action Maps for Mobile Manipulation

移动操作

移动操作操作

论文针对移动操作中常见的离散转向动作过于短视、需要长序列决策且难从鸟瞰图直接学习的问题,提出“空间动作图”:将动作表示为与俯视状态图像像素对齐的终点价值图,每个像素对应一个可沿直线或最短路到达的导航/推动端点。核心洞察是让状态与动作处于同一空间域,FCN可把局部场景特征直接映射为各位置Q值。实验在“推物入目标区”任务上表明,该表示较传统转向命令学习更快、成功率更高,并能用不足6万训练样本实现从仿真到真实机器人的零微调迁移。

State-Only Imitation Learning for Dexterous Manipulation figure
IROS 20212020-04-07

State-Only Imitation Learning for Dexterous Manipulation

灵巧操作

灵巧操作模仿学习操作

论文关注灵巧操作中示范动作难采集、纯RL样本效率低的问题,提出SOIL:先用智能体交互数据自监督学习逆动力学模型,再为仅含状态的示范补全动作,并与策略交替联合训练。该方法在四个仿真灵巧操作任务上显著优于无示范RL,与使用状态-动作示范的方法大体持平,还能利用动力学、手型或物体不匹配的示范;但结论主要来自仿真,真实机器人上的增益文中未充分说明。

Scalable Multi-Task Imitation Learning with Autonomous Improvement figure
ICRA 20202020-03-25

Scalable Multi-Task Imitation Learning with Autonomous Improvement

模仿学习

模仿学习数据采集数据增强

这篇工作针对模仿学习难以规模化、强依赖专家示教且难以像强化学习那样自我改进的问题,提出 MILI:先用多任务示教训练一次模仿策略,再把机器人自主尝试中“没做成原任务、却做成别的任务”的轨迹,经任务潜空间匹配后重标为新示教,只需稀疏的“是否完成任一有用任务”二值反馈即可扩充数据。文中结果表明该方法在不显式使用强化学习的情况下能持续提升多任务与新任务的一次泛化表现,但具体增益来源可能主要来自 scaling / data,判断基于公开摘要。

Learning to Generalize Across Long-Horizon Tasks from Human Demonstrations figure
RSS 20202020-03-13

Learning to Generalize Across Long-Horizon Tasks from Human Demonstrations

模仿学习

模仿学习数据采集泛化

这篇工作针对模仿学习在长时序操作中高度依赖示范覆盖、难以泛化到新起点—目标组合的问题,提出GTI:利用多任务示范轨迹在状态空间中的“交汇点”,先学习能在交汇处随机拼接不同轨迹片段的随机策略,再用其自生成轨迹训练目标条件策略,从而合成未被演示的新行为。实验在仿真和真实厨房机器人上表明,GTI用不到1小时的人类遥操作数据即可完成复杂长程任务,并泛化到未见的起始与目标配置。

SQUIRL: Robust and Efficient Learning from Video Demonstration of Long-Horizon Robotic Manipulation Tasks figure
IROS 20202020-03-10

SQUIRL: Robust and Efficient Learning from Video Demonstration of Long-Horizon Robotic Manipulation Tasks

视频规划

视频规划模仿学习泛化安全操作

这篇工作针对长时序机器人操作中强化学习真机试错成本高、行为克隆又易误差累积的问题,提出 SQUIRL:先用行为克隆联合学习任务编码器与条件策略,再利用单段视频示范和机器人离策略经验,直接恢复任务条件 Q 函数而非显式学习奖励,并反复重评历史轨迹加速策略改进。实验表明,在倒料、搬运等任务上,它仅需每个训练任务 1 段视频和总计 90 次真机试验,就能在新任务上达到 90% 以上成功率,且测试时无需再试错。

A Geometric Perspective on Visual Imitation Learning figure
IROS 20202020-03-05

A Geometric Perspective on Visual Imitation Learning

模仿学习

模仿学习感知机器人学习

论文针对视觉模仿学习常依赖人工示教或交互式RL、且从像素直接学动作泛化差的问题,提出几何视角的VGS-IL:先从单段人类演示视频中推断全局一致的几何特征关联与任务概念,再把该表示直接接到视觉伺服控制器,而非另训底层策略。实验表明,它在人到机器人迁移、环境变化及手臂外观差异下仍能较好泛化,并可去掉特征跟踪器;但更复杂任务的时序组合文中仍未充分展开。

Vision-based Robot Manipulation Learning via Human Demonstrations figure
arXiv2020-03-01

Vision-based Robot Manipulation Learning via Human Demonstrations

模仿学习

模仿学习Latent Learning数据采集感知机器人学习操作

论文针对机器人从人类视频学到的操作难以迁移到新物体、新场景的问题,提出一种只需单个第三人称示教视频的模仿学习框架:先以动作识别抽取动作基元,再用Mask R-CNN和PCA估计机器人场景中的物体类别与位姿,并结合日常文本语料中的对象—动作先验,用贝叶斯规划推断应与哪个物体交互。该方法不依赖在真实或仿真机器人上大量训练,在UR5多种日常及组合操作上用少量数据获得较好泛化,复杂任务成功率约90%,但文中也指出失败多来自动作规划环节。

Optimisation of Body-ground Contact for Augmenting Whole-Body Loco-manipulation of Quadruped Robots figure
IROS 20202020-02-24

Optimisation of Body-ground Contact for Augmenting Whole-Body Loco-manipulation of Quadruped Robots

四足操作

移动操作四足操作操作非学习控制

论文针对四足机器人在边移动边施力时易因力矩和接触约束不足而失稳的问题,提出在机身上加装刚性“支叉”,把难以建模的腹部触地转化为可控点接触。文中用最小不可拒绝力(SUF)及其实时近似来优化支叉与姿态设计,并在分层QP全身控制中显式加入机身触地约束。硬件实验表明,支叉能提升抗推扰鲁棒性、分担关节负载,并让机器人完成越障和双腿操纵大物体等原本更难实现的任务。

Concept2Robot: Learning Manipulation Concepts from Instructions and Human Demonstrations figure
RSS 20202020-01-30

Concept2Robot: Learning Manipulation Concepts from Instructions and Human Demonstrations

模仿学习

模仿学习强化学习RL+IL数据采集机器人学习操作

这篇论文的动机是让机器人把自然语言中的操作概念,尤其是动词,直接对应到可执行轨迹,同时避免遥操作示教和手工设计奖励。其核心做法是两阶段学习:先用在人类操作视频上训练的动作分类器给机器人执行视频打分,作为视觉奖励学出78个单任务策略;再用模仿学习把这些策略蒸馏成一个接收场景图像与指令的多任务策略。结果显示,该方法在仿真中能完成大部分78种操作,并对物体位姿变化和相近新指令有一定泛化,但仍是开环控制,真实机器人效果文中未充分说明。

Manipulating Deformable Objects by Interleaving Prediction, Planning, and Control figure
IJRR 20202020-01-27

Manipulating Deformable Objects by Interleaving Prediction, Planning, and Control

可变形物体

可变形物体任务规划操作非学习控制

面对可变形物体高维、欠驱动且难精确建模的问题,单纯全局规划常难落到目标构型,单纯局部控制又易被障碍卡住。本文提出交替使用预测、规划与控制的框架:全局规划负责“粗移动”,局部控制负责“细调整”,并用一种只传播拉伸约束的死锁预测来判断何时切换两者,还因此可为规划与控制采用不同物体表示。作者进一步证明了在无 steering function 条件下规划器的概率完备性。仿真中,该方法完成了仅靠规划或控制都难成功的绳索与布料任务,三类场景平均不到 1 秒即可找到可行路径,并在 16 自由度实体机器人上验证了有效性。

Augmenting GAIL with BC for Sample Efficient Imitation Learning figure
CoRL 20212020-01-21

Augmenting GAIL with BC for Sample Efficient Imitation Learning

模仿学习

模仿学习RL+IL机器人学习

本文针对GAIL虽省示范但需大量环境交互、而BC虽学得快却受协变量偏移和累积误差限制的问题,提出不做“先BC后GAIL”预训练,而是在对抗模仿学习过程中同步加入BC监督约束。其关键洞察是,BC预训练的warm start会妨碍后续GAIL达到最优,而联合优化能兼顾早期收敛速度与最终性能。实验在MuJoCo、GridWorld和图像版CarRacing上表明,该法在保持接近GAIL或专家表现的同时,可将收敛所需环境交互最多降到约一个数量级。

To Follow or not to Follow: Selective Imitation Learning from Observations figure
CoRL 20192019-12-16

To Follow or not to Follow: Selective Imitation Learning from Observations

模仿学习

模仿学习机器人学习

这篇论文关注“只看演示、拿不到动作标签”且演示者与机器人能力或环境不一致时,逐帧模仿常会失败的问题。作者提出SILO,用分层强化学习做选择性模仿:高层策略从演示序列中挑选当前可达的关键帧,自动对齐时序并跳过因障碍物或动力学差异而不可复现的片段,低层策略再学习如何到达该子目标。实验在仿真与真实Sawyer上的推物、抓放和家具装配任务中表明,SILO在原始状态和抽象状态表示下都能较稳定地完成由单段演示指定的新任务。

RoboCoDraw: Robotic Avatar Drawing with GAN-based Style Transfer and Time-efficient Path Optimization figure
AAAI 20202019-12-11

RoboCoDraw: Robotic Avatar Drawing with GAN-based Style Transfer and Time-efficient Path Optimization

操作

操作应用

这项工作面向机器人当众画像“写实但不够有趣、执行也偏慢”的问题,提出RoboCoDraw:先用双流AvatarGAN在无配对人脸/头像数据上把真人脸转成更像本人的卡通头像,再提取轮廓,并把绘制顺序建模为GTSP,用带两级局部改进的RKGA减少机械臂空驶。实验表明,它比CycleGAN更能保留发型、脸型和五官特征,在跨数据集测试中也更稳,并能在UR5上完成实时协作绘制;但公开片段未充分给出端到端时间收益的完整定量值。

6-DOF Grasping for Target-driven Object Manipulation in Clutter figure
ICRA 20202019-12-08

6-DOF Grasping for Target-driven Object Manipulation in Clutter

抓取

抓取操作

这篇工作针对拥挤场景中指定目标物抓取的难点:单视角点云存在严重遮挡,既要推断目标可抓区域,又要避免夹爪与周围物体碰撞。作者将问题分解为“目标物6-DoF抓取生成+场景碰撞判别”的级联框架,用学习式CollisionNet直接根据局部点云和夹爪姿态预测碰撞,因此还能推理先移开遮挡物的抓取顺序。真实机器人在9个杂乱桌面场景、23个未知物体上取得80.3%成功率,较6-DOF GraspNet基线提升17.6%。

Dream to Control: Learning Behaviors by Latent Imagination figure
ICLR 20202019-12-03

Dream to Control: Learning Behaviors by Latent Imagination

强化学习

强化学习触觉Latent Learning轨迹生成机器人学习

这篇论文针对基于图像的世界模型常因想象步长有限而策略短视、且往往依赖无导数规划的问题,提出 Dreamer:先学习潜在动力学模型,再在潜空间中用 actor-critic 同时学习策略与价值,并把想象轨迹上的多步价值梯度反传到策略,从而兼顾长时回报与训练效率。实验在 DeepMind Control Suite 的 20 个视觉控制任务上表明,Dreamer 在样本效率、计算时间和最终性能上普遍优于当时的模型基与无模型方法。

ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks figure
CVPR 20202019-12-03

ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

基础操作

基础操作任务规划操作数据集/Benchmark

论文针对现有视觉语言基准多停留在导航或静态理解、难覆盖家庭操作中长时程规划与不可逆状态变化的问题,提出 ALFRED:在 AI2-THOR 中结合第一视角视觉、高低层自然语言、像素级交互掩码与专家演示的家庭任务基准。结果表明,Seq2Seq 加进度监控在已见场景任务成功率仅约 4%、未见场景不足 1%,远低于人类 91%,说明对象状态跟踪与组合规划仍是主要瓶颈。

Third-Person Visual Imitation Learning via Decoupled Hierarchical Controller figure
NeurIPS 20192019-11-21

Third-Person Visual Imitation Learning via Decoupled Hierarchical Controller

视频规划

视频规划模仿学习世界模型感知机器人学习

这篇工作针对“机器人只看一段人类第三视角视频,就要在自己视角下操纵新物体”的难题,指出端到端学习同时承担意图理解、视角转换和动作控制过于困难。作者将“做什么”与“怎么做”解耦:高层用条件GAN把人类演示翻译成机器人第一视角的视觉子目标,低层共享控制器再从原始像素预测关节动作去逐步达成。实验在 Baxter 的倒水和放入盒中任务上表明,该层次化方案比端到端和多种基线在新物体、未见配置上的泛化更好。

IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks figure
ICRA 20212019-11-17

IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks

基础操作

基础操作遥操作操作数据集/Benchmark应用

该文针对机器人长期复杂操作缺少标准化评测平台、现有任务过短且偏玩具化的问题,提出 IKEA 家具装配环境:将装配建模为选件、抓取、对齐、连接的层级循环,并用 MuJoCo+Unity 与连接器匹配机制兼顾物理精度和视觉真实感,同时提供80多种家具、Sawyer/Baxter、分割与深度标注及域随机化。主要结果是公开了一个可同时支持感知、规划和控制研究的长时程操作基准;但文中未充分说明统一算法基线或量化性能增益。

Motion Reasoning for Goal-Based Imitation Learning figure
ICRA 20202019-11-13

Motion Reasoning for Goal-Based Imitation Learning

模仿学习

模仿学习机器人学习

这篇工作关注“看视频学目标”而非“照动作模仿”:在真实操作演示中,最终状态和高层动作常混入无意达成的子目标,导致演示者真实意图不清。作者的关键洞察是,歧义虽存在于符号动作层,但低层运动轨迹仍具可解释性;因此引入结合任务谓词与“让路”等运动谓词的逆规划/任务-运动联合推理,判断某次移动究竟是在完成任务还是仅为后续动作腾挪。基于96段厨房演示,方法较仅看动作或终态的基线成功率提升20%以上,并能把视频中自动推断出的目标迁移到真实厨房机器人执行。

IRIS: Implicit Reinforcement without Interaction at Scale for Learning Control from Offline Robot Manipulation Data figure
ICRA 20202019-11-13

IRIS: Implicit Reinforcement without Interaction at Scale for Learning Control from Offline Robot Manipulation Data

强化学习

强化学习RL+IL触觉人机交互机器人学习操作

这篇工作关注机器人操作中“大规模离线示教能否替代在线交互学习”的问题,尤其针对数据来源众多、轨迹多样且含次优解时,行为克隆和批量RL都容易失效。IRIS 的关键做法是把策略分成模仿短片段的目标条件低层控制器,以及用价值评估在候选目标中做选择的高层机制,从不同演示里拼接出更成功的执行路径。作者在教学式、强次优和 RoboTurk 众包数据集上表明,仅用离线数据和示范末端的稀疏成功信号,也能学到明显优于传统 IL 与 batch RL 基线的操作策略。

Scaling Robot Supervision to Hundreds of Hours with RoboTurk: Robotic Manipulation Dataset through Human Reasoning and Dexterity figure
IROS 20192019-11-11

Scaling Robot Supervision to Hundreds of Hours with RoboTurk: Robotic Manipulation Dataset through Human Reasoning and Dexterity

数据采集

数据采集操作数据集/Benchmark

这篇工作针对机器人数据采集的核心矛盾:自监督虽能扩规模,但噪声大、复杂任务难;人工示教质量高,却难以规模化且解法多样性不足。作者将 RoboTurk 从仿真扩展到真实机械臂,设计了基于浏览器和手机的远程遥操作流程,并补上排队调度、时延处理、安全约束和多传感器对齐等关键基础设施;同时引入需要“推理+灵巧操作”的三类任务。结果是在 1 周内由 54 名用户采集到 111 小时、3 个任务的数据集,规模较既有遥操作数据明显提升,并展示了示范成功率、多样性与后续学习价值。

Franka-Kitchen: Relay Policy Learning: Solving Long-Horizon Tasks via Imitation and Reinforcement Learning figure
CoRL 20192019-10-25

Franka-Kitchen: Relay Policy Learning: Solving Long-Horizon Tasks via Imitation and Reinforcement Learning

基础操作

基础操作模仿学习强化学习触觉机器人学习操作数据集/Benchmark

这篇工作针对长时序、多阶段机器人操作中分层强化学习常受探索困难、技能切分依赖和奖励设计繁琐限制的问题,提出中继策略学习:先把未分段、无标签的示教通过 relay 重标注转成目标条件的双层策略训练数据,再用强化学习微调,其中低层始终在固定步长内追踪子目标,因而更易持续优化。作者在 Franka Kitchen 仿真中用单一策略完成多种复合操作,效果显著优于从零开始的分层RL和纯模仿学习基线。

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning figure
CoRL 20192019-10-24

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

基础操作

基础操作强化学习触觉操作数据集/Benchmark

这篇工作针对当时元强化学习评测过于狭窄、难以检验机器人是否真能借经验快速学会新技能的问题,提出 Meta-World:包含 50 个基于 Sawyer 机械臂的桌面操作任务,并设计从多任务训练到留出新任务适应的分级评测。核心洞察是任务应既共享结构又足够多样,才能真正衡量正迁移与泛化。实验评测 7 类方法后发现,单任务不难,但一旦同时学习多任务,甚至仅 10 个任务,现有方法就明显退化,对全新留出任务的快速适应更弱。

Deep Imitation Learning of Sequential Fabric Smoothing From an Algorithmic Supervisor figure
IROS 20192019-10-23

Deep Imitation Learning of Sequential Fabric Smoothing From an Algorithmic Supervisor

可变形物体

可变形物体模仿学习操作

这篇工作面向布料在桌面上由严重褶皱到铺平的顺序操作,难点在于可变形状态高维、动力学难建模。作者的关键做法是用FEM仿真器和可访问完整状态的算法监督器生成示范,再用DAgger学习同时预测抓取点与拉拽向量,并系统比较RGB、深度和RGBD输入。仿真中学习策略达到或超过解析基线;在dVRK上的180次实物实验里,RGBD从仿真迁移后覆盖率达83%–95%。不过性能增益有多少来自策略设计、多少来自仿真数据规模与随机化,文中未充分拆解。

Self-Supervised Sim-to-Real Adaptation for Visual Robotic Manipulation figure
ICRA 20202019-10-21

Self-Supervised Sim-to-Real Adaptation for Visual Robotic Manipulation

泛化

泛化Sim2Real感知机器人学习操作

这篇工作针对视觉操作中真实机器人奖励难采集、仿真到真实图像差距大导致像素策略难落地的问题,提出先在仿真中学到隐状态与策略,再用无标签真实视频做两阶段自监督适配;关键是利用时序一致性,并设计结合动作与动力学预测的对比前向动力学损失(CFD),无需仿真/真实状态对齐。作者在视觉堆叠任务上表明,仅用5小时无标签真实数据即可把学到的技能迁移到真机,真实成功率达62%,明显优于domain randomization和DANN/TCN基线。

Task-Relevant Adversarial Imitation Learning figure
CoRL 20202019-10-02

Task-Relevant Adversarial Imitation Learning

模仿学习

模仿学习Latent Learning安全机器人学习

本文针对像素级对抗式模仿学习中判别器会把无关视觉线索误当作“专家特征”、导致奖励失真并在有干扰物时失效的问题,提出TRAIL:通过构造约束集合并要求判别器在这些样本上不可分,迫使其聚焦真正与任务成败相关的特征,并配合 actor early stopping 缓解训练后期偏移。实验显示,在多种机器人操作任务上,TRAIL无需环境奖励和专家动作即可达到或接近专家水平,明显优于BC、标准GAIL及仅加早停的变体,尤其在含干扰物场景更稳健。

Imitation Learning Based on Bilateral Control for Human–Robot Cooperation figure
RA-L 20202019-09-28

Imitation Learning Based on Bilateral Control for Human–Robot Cooperation

模仿学习

模仿学习机器人学习

论文聚焦人机协作操作中“仅学位置轨迹难以处理动态接触与快速动作”的问题。作者提出基于4ch双边控制的模仿学习框架,在示教时分离采集主从端的命令值与响应值,并在自主执行时保持与示教一致的控制结构,从而学习位置—力联合控制而非仅复现轨迹。以协作盛食/舀取与搬运任务为例,方法在柔性物体和形状不定物体上取得三种方案中最高成功率,结果表明力控制对跟随人类扰动和稳定协作是关键。

RLBench: The Robot Learning Benchmark & Learning Environment figure
RA-L 20202019-09-26

RLBench: The Robot Learning Benchmark & Learning Environment

基础操作

基础操作机器人学习操作数据集/Benchmark

这篇工作针对机器人操作研究中任务零散、复现困难、方法难横向比较的问题,提出统一仿真基准RLBench:围绕同一机械臂设计100个难度分层的操作任务,提供视觉与本体多模态观测,并用航点结合运动规划自动生成近乎无限的演示数据,同时配套可扩展的任务创建工具。其主要结果是给出一个可同时服务强化学习、模仿学习、多任务与少样本学习的大规模评测平台;基于公开摘要/项目页判断,论文更重要的贡献是标准化与数据规模,具体性能增益来源可能主要来自scaling/data。

Deep dynamics models for learning dexterous manipulation figure
CoRL 20202019-09-25

Deep dynamics models for learning dexterous manipulation

灵巧操作

灵巧操作操作

论文聚焦灵巧手操作中接触频繁切换、欠驱动物体控制和高维关节协调带来的建模与学习难题,指出解析方法难扩展、模型自由RL又过于耗数据。作者提出PDDM,将带不确定性估计的深度动力学模型与在线MPC/无梯度轨迹优化结合,通过执行时重规划替代固定策略学习。结果显示,该方法在阀门旋转、手内重定向、书写和保定球等任务上优于强基线,并在24自由度Shadow Hand上仅用约4小时真实数据学会双球协调操作。

Learning Actions from Human Demonstration Video for Robotic Manipulation figure
IROS 20192019-09-10

Learning Actions from Human Demonstration Video for Robotic Manipulation

视频规划

视频规划模仿学习数据采集机器人学习操作

这篇工作针对“看人演示视频再让机器人执行”中,通用视频描述只看整帧、难抓住被操纵物体的瓶颈,提出把抓取检测与命令生成联合起来:GNet先分割并分类目标、估计抓取位姿,同时提取局部对象特征;CNet再将局部特征与全局帧特征融合,生成机器人可执行指令。UR5实验表明,该方法较2018年V2C基线能生成更准确的操作命令,并带来更稳健的抓取表现。

Continuous Relaxation of Symbolic Planner for One-Shot Imitation Learning figure
IROS 20192019-08-16

Continuous Relaxation of Symbolic Planner for One-Shot Imitation Learning

任务规划

任务规划模仿学习

这篇工作针对单次示范学习在长时序机器人任务上通常依赖大量元训练任务、可扩展性差的问题,把“从一次示范泛化到新任务”重写为符号规划与符号落地的结合,从而将跨任务泛化和底层动作执行解耦。核心创新是提出能直接在符号概率分布上推理的连续松弛规划器,并配合模块化符号落地网络,缓解小数据下离散符号误判引发的规划失败。实验表明,该方法在两个具有挑战性的任务域上优于传统符号规划基线和当时的一次模仿学习方法,但文中片段未给出具体提升数值。

Learning to Combine Primitive Skills: A Step towards Versatile Robotic Manipulation figure
ICRA 20202019-08-02

Learning to Combine Primitive Skills: A Step towards Versatile Robotic Manipulation

泛化

泛化操作

这篇工作针对长时序机器人操作中“纯模仿难覆盖新状态、纯强化学习又难在稀疏奖励下搜索”的矛盾,提出先用少量合成示范训练视觉原语技能,再让高层RL只在技能层面做决策的层级框架。关键在于把复杂连续控制压缩为技能组合,因此学习新任务时不需要完整任务示范和中间奖励。实验显示其在FetchPickPlace上优于先前BC基线,并能在遮挡、物体位姿突变和新实例下实时重规划,且从仿真迁移到UR5实机后仍保持较高成功率。

Graph-Structured Visual Imitation figure
CoRL 20192019-07-11

Graph-Structured Visual Imitation

模仿学习

模仿学习感知机器人学习

这项工作针对“人和机器人外观、视角、背景都不同,像素级匹配难以支撑模仿”的问题,把视觉模仿转成跨场景的实体对应问题。核心做法是用分层视觉实体图表示视频:节点是物体、手指关键点和局部点特征,边是它们的相对3D空间关系,并据此定义奖励来驱动强化学习;实体检测器则按演示场景自监督构建。实机实验表明,该方法只需单次人类演示和少量机器人交互,就能在多种操作任务上稳定复现动作,对杂乱背景和视角变化更鲁棒,且明显优于整帧CNN表征基线。

Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations figure
CoRL 2019 20212019-07-09

Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations

模仿学习

模仿学习强化学习RL+IL机器人学习

这篇工作针对模仿学习常被示范者水平“卡住”,且排序示范虽能外推却依赖人工偏好的问题,提出 D-REX:先用行为克隆拟合示范策略,再通过逐步注入扰动自动生成优劣有序轨迹,用排序约束学习奖励并交给强化学习优化。文中理论上说明排序可减少 IRL 的奖励歧义,实验在机器人仿真和 Atari 上均明显优于标准模仿学习并可超过示范者,但其前提是“噪声越大性能越差”这一假设成立。

Goal-conditioned Imitation Learning figure
NeurIPS 20192019-06-13

Goal-conditioned Imitation Learning

模仿学习

模仿学习数据采集数据增强

论文针对目标条件策略在稀疏回报和状态空间瓶颈下学习很慢、HER 难以跨过关键过渡状态的问题,提出将少量示范与 hindsight relabeling、对抗式模仿结合的 goalGAIL,并对专家轨迹做目标重标注,把单条示范扩成更多“到达子目标”的训练样本;其关键洞察是既可只用状态示范、容忍次优专家,又能在无手工奖励下学到更强的到达策略。实验表明,该方法比 HER 收敛更快,最终性能也优于朴素的目标条件 GAIL 和行为克隆。

Watch, Try, Learn: Meta-Learning from Demonstrations and Reward figure
ICLR 20202019-06-07

Watch, Try, Learn: Meta-Learning from Demonstrations and Reward

模仿学习

模仿学习强化学习泛化

这篇工作针对少样本模仿学习里“看一次演示仍不足以确定策略”的问题:在物体位置变化、接触力等存在歧义时,单靠演示难以泛化。作者提出 WTL,在元学习框架下把一次演示与一次试错轨迹上的二值成败反馈结合起来,让演示缩小探索空间、让试错补足任务辨识与执行细节。结果是在按钮、抓取、推动、抓放等视觉操作任务上,对新物体仅凭 1 次演示加 1 次 trial 就明显优于元模仿、元强化学习及若干演示+RL 基线。

6-DOF GraspNet: Variational Grasp Generation for Object Manipulation figure
ICCV 20192019-05-25

6-DOF GraspNet: Variational Grasp Generation for Object Manipulation

抓取

抓取操作

该文针对机器人只看到部分点云、又缺少完整3D模型时,传统启发式抓取候选覆盖不足且难以优化的问题,将6-DoF抓取生成建模为条件VAE采样,再用抓取评估网络预测质量,并直接利用其梯度做抓取细化,以提升多样性、精度及无碰撞/可执行性。方法完全用仿真数据训练,却可零额外适配迁移到真实机器人;在17个未知物体上取得88%成功率,明显高于GPD的47%,对杯沿等细薄结构的抓取覆盖也更好。

Generative predecessor models for sample-efficient imitation learning figure
ICLR 20192019-04-01

Generative predecessor models for sample-efficient imitation learning

模仿学习

模仿学习数据采集数据增强

这篇工作针对固定且少量示范下,行为克隆容易因分布偏移而误差累积的问题,提出GPRIL:先通过自监督交互学习“给定未来专家状态,哪些更早的状态—动作会通向它”的前驱生成模型,再用生成样本扩充训练集,显式训练策略在偏离示范后如何恢复。实验表明,它在两项仿真操作任务上匹配或优于GAIL,并在真实机器人可变位置插孔任务中用显著更少的环境交互学到更稳健的策略,还可只依赖示范状态。

Hindsight Generative Adversarial Imitation Learning figure
arXiv2019-03-19

Hindsight Generative Adversarial Imitation Learning

模仿学习

模仿学习安全机器人学习

这篇工作针对机器人模仿学习高度依赖专家演示、采集代价高的问题,提出HGAIL:把HER式 hindsight 目标重标记引入GAIL,将智能体自身轨迹转成“伪专家”正样本,与原轨迹对抗训练,从而在无演示条件下学习策略;其关键洞察是这种自举过程会自然形成由易到难的课程学习。实验在到达与抓取等稀疏奖励任务上表明,HGAIL最终表现接近有演示的GAIL,明显优于单独PPO和GASIL,消融也显示课程机制与future hindsight变换是性能关键。

Modeling and Control of Soft Robots Using the Koopman Operator and Model Predictive Control figure
RSS 20192019-02-07

Modeling and Control of Soft Robots Using the Koopman Operator and Model Predictive Control

软体机器人

软体机器人操作

软体机器人难以精确控制,关键瓶颈在于其连续形变、难以建立可用于控制设计的低维模型。本文的思路是用 Koopman 算子把非线性软体动力学提升为显式线性预测模型,再结合 MPC 做轨迹跟踪,并在辨识中加入对离群点更鲁棒、促进稀疏性的改进。作者在气动软臂实机上验证后发现,该 Koopman-MPC 在多项轨迹任务中的平均误差约 1.26 cm,优于线性状态空间基线的 2.45 cm;但增益有多少来自模型表达、多少来自数据与基函数选择,文中未充分拆解。

Residual Reinforcement Learning for Robot Control figure
ICRA 20192018-12-07

Residual Reinforcement Learning for Robot Control

强化学习

强化学习触觉机器人学习

该工作针对工业装配中接触与摩擦难建模,纯反馈控制容易脆弱、纯强化学习又存在探索不安全和采样代价高的问题,提出“残差强化学习”:先用传统控制器处理可建模部分,再让模型无关RL学习剩余修正量,并将两路控制直接叠加。作者在积木插入装配的仿真与真机实验中表明,手工控制器在初始姿态存在扰动时会失败,而残差策略可在约3小时真机训练内学会稳定完成任务,体现出更好的样本效率与落地性。

Generalizing Robot Imitation Learning with Invariant Hidden Semi-Markov Models figure
WAFR 20182018-11-19

Generalizing Robot Imitation Learning with Invariant Hidden Semi-Markov Models

模仿学习

模仿学习机器人学习

这篇工作针对模仿学习在物体位置、朝向和观察视角变化下难以泛化的问题,把示教在与物体/虚拟地标相关的多个坐标系中建模为任务参数化HSMM,自动分解出可迁移的子目标,并结合LQT实现平滑执行;同时用MFA、半共享协方差和非参数在线估计降低参数复杂度。在Baxter抓取放置与避障任务中,仅用4条训练示教就能泛化到新场景,其中MFA版本以更少参数取得更低测试误差(约0.0109m,对比基础HSMM的0.014m)。

Imitation Learning for Object Manipulation Based on Position/Force Information Using Bilateral Control figure
IROS 20182018-11-09

Imitation Learning for Object Manipulation Based on Position/Force Information Using Bilateral Control

模仿学习

模仿学习触觉机器人学习操作

论文针对仅靠位置或视觉模仿难以处理接触状态与环境扰动、而人工示教时作用力和反作用力又难以分离的问题,引入4通道双边控制,让主从两台机器人分别记录操作者施力与环境反力,再用RNN学习同时依赖位置和力的信息,并比较直接预测力矩参考与预测位置/速度/力指令两种方案。在线沿尺画线实验中,系统能适应未训练过的尺子倾角,还可在无量角器先验下画曲线,说明力信息对接触型操作很关键;但文中未充分说明具体成功率提升幅度,增益来源也不够清晰。

RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation figure
CoRL 20182018-11-07

RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation

模仿学习

模仿学习数据采集操作

这篇工作针对机器人模仿学习长期受限于示范采集昂贵、规模小的问题,提出 RoboTurk:用手机充当 6-DoF 控制器,结合云端仿真和网页视频流,低门槛众包采集更自然的操作轨迹。实验表明其任务完成时间与 VR 控制器接近,且低带宽、高时延下仍能稳定完成演示;作者在 22 小时平台使用中收集到 2200+ 次成功示范、137.5 小时数据,并验证更多示范通常能提升稀疏奖励多步操作学习的一致性和最终性能,但增益可能主要来自 scaling / data。

Multiple Interactions Made Easy (MIME): Large Scale Demonstrations Data for Imitation figure
CoRL 20182018-10-16

Multiple Interactions Made Easy (MIME): Large Scale Demonstrations Data for Imitation

模仿学习

模仿学习人机交互基础模型数据集/Benchmark

这篇工作针对机器人操作数据长期停留在仿真或单任务、难以支撑复杂模仿学习的问题,构建了当时规模最大的真实世界演示数据集 MIME,覆盖20类操作、8260组人类视频—机器人本体示教轨迹配对数据。其关键洞察是把第三视角的人类演示与机器人可执行轨迹成对采集,既保留任务语义,也减少从人到机迁移时的动作空间落差,并通过多示教者训练与交叉检查提升数据质量。论文还用该数据验证了“视频到轨迹”映射的可行性,但具体量化增益文中未充分说明,判断基于公开摘要/项目页。

Dexterous manipulation with deep reinforcement learning: Efficient, general, and low-cost figure
ICRA 20192018-10-14

Dexterous manipulation with deep reinforcement learning: Efficient, general, and low-cost

灵巧操作

灵巧操作强化学习触觉操作

这篇工作针对多指灵巧手控制维度高、接触建模难、仿真到现实成本高的问题,主张直接在低成本真实硬件上做无模型深度强化学习。其关键洞察是:用通用神经策略从传感到动作端到端学习,再用少量动觉示教通过DAPG热启动,可避免手工建模并显著提速。作者在两种低成本手上完成阀门旋转、软把手开门和翻盒等任务,纯RL多在4–7小时学成,引入约20条示教后降至2–3小时。

Task-Embedded Control Networks for Few-Shot Imitation Learning figure
CoRL 20182018-10-08

Task-Embedded Control Networks for Few-Shot Imitation Learning

模仿学习

数据需求量大模仿学习泛化

这篇工作针对端到端模仿学习每学一个新操作都要从头收集大量数据、且基于梯度适配的元学习难扩展和易遗忘的问题,提出 TecNets:先把一条或多条示范编码成紧凑的任务嵌入“sentence”,再与当前视觉观测拼接输入控制网络,从度量学习角度实现 few-shot 的任务条件控制。实验上,它在两个视觉操作基准上仅用示范图像就超过 MIL,并结合域随机化实现仿真训练、真实机器人单次示范部署;但文中也说明对训练分布外任务的泛化仍有限。

One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks figure
arXiv2018-10-08

One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

模仿学习

模仿学习泛化

论文动机是让机器人像人一样,仅凭一次人类视频演示就完成由多个子技能组成的长时程操作,避免把复合任务当成单一技能而导致数据需求过高。其核心做法是把元模仿学习与层级组合结合:用相位预测器从未分段视频中识别子任务进度、决定何时切换,并为每个原语在线生成像素到动作的策略。作者在模拟Sawyer和真实PR2的拣货、厨房任务上验证了对新物体的泛化,并报告优于对比方法,但具体增益幅度在摘录中未充分说明。

QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation figure
CoRL 20182018-06-21

QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

强化学习

强化学习触觉基础模型感知机器人学习操作

论文针对传统抓取多为“先估计抓取点、再开环执行”、难以处理遮挡、滑落和扰动的问题,提出QT-Opt:在连续动作空间中直接优化Q函数、无需显式actor的可扩展离策略强化学习框架,用单目RGB和自监督真实抓取数据学习闭环控制。方法在7台机器人、58万次抓取上训练后,对未见物体达到96%成功率,并涌现重抓、试探、拨动/重定位等长时程策略;但性能增益中有多少来自算法本身、多少来自大规模数据与系统工程,文中未充分拆解。

Sim-to-Real Reinforcement Learning for Deformable Object Manipulation figure
CoRL 20182018-06-20

Sim-to-Real Reinforcement Learning for Deformable Object Manipulation

可变形物体

可变形物体强化学习触觉Sim2Real操作

针对可变形物体状态空间大、显式建模和手工规则难泛化的问题,论文将布料操作表述为端到端深度强化学习:用加入20条示范和多项改进的DDPG,在仅用稀疏成功奖励、RGB与本体状态输入下,于仿真中结合域随机化训练策略并直接迁移到真实机器人。系统在毛巾对角折叠、折到标记线、挂到衣架三项长时序任务上实现零真实数据部署;但各改进与仿真补丁的具体增益边界,文中仍未充分说明。

ILPO: Imitating Latent Policies from Observation figure
ICML 20192018-05-21

ILPO: Imitating Latent Policies from Observation

Latent Learning

Latent Learning机器人学习

这篇工作针对只拿到专家状态轨迹、拿不到动作标签且不希望大量环境交互的模仿学习问题,提出 ILPO:先离线把状态转移解释为若干离散潜在动作,用多峰前向动力学和潜在策略共同学习“哪类转移最可能发生”,再用少量真实交互把潜在动作对齐到环境动作。实验在 cartpole、acrobot、mountain car 和 CoinRun 上表明,它用很少交互即可接近或达到专家表现,并优于 BCO;但方法依赖离散动作和较确定的转移,潜在动作数设定的增益来源文中未充分拆解。

Zero-Shot Visual Imitation figure
ICLR 20182018-04-23

Zero-Shot Visual Imitation

模仿学习

数据需求量大模仿学习泛化感知

这篇工作针对传统模仿学习依赖专家动作标注、示教成本高的问题,提出先让机器人自监督探索,再把探索轨迹蒸馏成目标条件技能策略;测试时只看一串演示图片就推断动作。关键创新是前向一致性损失:不强求预测动作与记录动作完全一致,而只要求它们导向相同后继观测,以处理一目标可对应多种动作的多峰性。实验中,该方法在Baxter绳结任务上将成功率从36%提到60%,并让TurtleBot在未见办公室中按图导航;VizDoom结果还表明,更好的探索会明显提升后续模仿效果。

Closing the Loop for Robotic Grasping: A Real-time, Generative Grasp Synthesis Approach figure
RSS 20182018-04-14

Closing the Loop for Robotic Grasping: A Real-time, Generative Grasp Synthesis Approach

抓取

抓取操作

针对现有深度抓取方法依赖离散候选采样、推理延迟高,因而难以在目标运动或机器人控制不准时做闭环修正的问题,本文提出轻量级GG-CNN,直接从深度图为每个像素生成抓取质量、角度与夹爪宽度,并以约50Hz在线更新抓取。其关键洞察是用像素级生成替代候选枚举,在显著缩小网络规模的同时保持抓取效果。实机实验中,未知对抗几何物体动态抓取成功率83%,受扰动家居物体88%,动态杂乱场景81%。

Jacquard: A Large Scale Dataset for Robotic Grasp Detection figure
IROS 20182018-03-30

Jacquard: A Large Scale Dataset for Robotic Grasp Detection

抓取

抓取基础模型感知操作数据集/Benchmark

针对抓取检测高度依赖标注、而人工标注与真实机器人采集成本高且覆盖有限的问题,论文提出在接近真实物理环境的仿真中,从 ShapeNet 自动生成大规模 Jacquard 抓取数据集,提供 RGB-D 图像和超过百万个矩形抓取标注,并补充了基于物理仿真的 SGT 评测。实验表明,在相同 CNN 架构下,用 Jacquard 训练比用 Cornell 等人工标注数据训练具有更强泛化,尤其在未见物体和真实机器人抓取测试上更好,增益可能主要来自数据的规模与多样性。

Cloth Manipulation Using Random-Forest-Based Imitation Learning figure
RA-L 20192018-02-27

Cloth Manipulation Using Random-Forest-Based Imitation Learning

可变形物体

可变形物体模仿学习操作

面向布料这类高自由度、单视角观测且噪声大的可变形物体操作,论文关注的是如何学到可实时反馈的稳健控制器。其关键做法是把控制策略表示为随机森林:用迭代式模仿学习在线收集“视觉特征—专家动作”数据,同时自动生长树结构,并将动作存到叶节点,从而把状态划分与控制优化合在一起。实验在展平、折叠和扭转任务上表明,该方法随训练逐步收敛,抗观测噪声优于最近邻和神经网络基线。

Reinforcement and Imitation Learning for Diverse Visuomotor Skills figure
RSS 20182018-02-26

Reinforcement and Imitation Learning for Diverse Visuomotor Skills

模仿学习

模仿学习强化学习RL+IL触觉机器人学习

这项工作针对模型自由强化学习在长时程、多阶段、接触丰富的机器人操作中探索困难、奖励难设计且难直接上真机的问题,提出用少量人类示范辅助端到端视觉运动学习:将任务奖励与基于GAIL的模仿奖励结合,并用示范轨迹构造状态初始化课程,同时在训练期利用特权状态信息和环境随机化提升稳定性与泛化。实验表明,该方法解决了6个复杂操作任务,明显优于单独RL或IL,并在两项任务上展示了初步的零样本仿真到真实迁移效果。

Imitation Learning from Visual Data with Multiple Intentions figure
ICLR 20182018-02-16

Imitation Learning from Visual Data with Multiple Intentions

模仿学习

模仿学习Latent Learning感知机器人学习

本文针对视觉模仿学习中示范常混有多种潜在意图、而标准行为克隆会把多峰动作“平均化”成次优策略的问题,提出用随机神经网络把意图表示为隐式随机变量,并通过随机注意力将其与图像特征对齐;再配合高效训练和乐观采样/IDS,在不增加意图标签、也不需要额外交互轨迹的条件下学习多模态策略。真实机器人视觉到达实验表明,该方法能分离并复现不同操作模式,成功率显著高于确定性网络。

One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning figure
RSS 20182018-02-05

One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

模仿学习

模仿学习泛化

该文聚焦机器人如何像人一样“看一次就会”,解决人类演示与机器人执行在视角、场景和形体上的跨域差异。作者把旧任务中的人类视频与机器人示教数据用于元学习,并引入跨域、时间相关的适应损失,使策略无需手工动作对应或显式姿态跟踪,也能从单段人类RGB视频推断新任务。实验在PR2和Sawyer上表明,系统可对新物体完成放置、推动和抓取放置,但文中也说明其泛化主要限于与元训练结构相近的动作。

Learning Robust Bed Making using Deep Imitation Learning with DART figure
RA-L 20192017-11-07

Learning Robust Bed Making using Deep Imitation Learning with DART

可变形物体

可变形物体模仿学习安全操作

论文面向居家助老场景中的铺床任务,关注可变形床单在杂乱家庭环境下难感知、易累积误差且训练时存在安全风险的问题。其核心做法是把任务建模为床单覆盖率优化,分别学习抓取点选择与拉平是否成功的视觉策略,并结合YOLO迁移特征与DART噪声注入,在不让机器人频繁执行危险错误动作的前提下缓解模仿学习的分布偏移。实验中,HSR仅用50次示教就在半尺寸床和干扰物条件下达到96%覆盖率,相比轮廓角点基线提升超过200%,无干扰时也接近人工表现。

Sim-to-Real Transfer of Robotic Control with Dynamics Randomization figure
ICRA 20182017-10-18

Sim-to-Real Transfer of Robotic Control with Dynamics Randomization

泛化

泛化Sim2Real操作

这篇工作针对强化学习策略难以从仿真迁移到真实机器人、且真实训练成本高又不安全的问题,核心洞察是把“仿真—现实”差异当作训练分布的一部分:在低保真仿真中随机化摩擦、质量、时延等动力学,并用带记忆的循环策略在执行中隐式适应未见过的真实动力学,而不是依赖精细标定或真实机微调。作者在机械臂推物任务上验证,仅用仿真训练的策略即可直接部署到真实机器人,在随机初始条件下仍能稳定把物体推到目标位置,且对较大的标定误差保持鲁棒。

Domain Randomization: Sim-to-Real Transfer of Robotic Control with Dynamics Randomization figure
ICRA 20182017-10-18

Domain Randomization: Sim-to-Real Transfer of Robotic Control with Dynamics Randomization

泛化

泛化Sim2Real操作

论文针对强化学习策略易过拟合仿真、难以直接落地真实机器人这一 sim2real 瓶颈,提出在低保真仿真中对摩擦、质量、时延等动力学因素做大范围随机化,并用带记忆的循环策略在交互中隐式适应未观测动力学,而不是依赖精细系统辨识或真实机微调。作者在机械臂推物任务上表明:仅用仿真训练即可零样本部署到 Fetch 机器人,在随机初始位姿下保持接近仿真的表现,并且对显著标定误差仍具鲁棒性。

Deep Imitation Learning for Complex Manipulation Tasks from Virtual Reality Teleoperation figure
ICRA 20182017-10-12

Deep Imitation Learning for Complex Manipulation Tasks from Virtual Reality Teleoperation

模仿学习

模仿学习数据采集遥操作操作

这篇工作针对机器人操作里高质量示教难采、而像素到动作策略又依赖无遮挡对齐数据的瓶颈,提出基于消费级VR头显与手柄的PR2遥操作系统,让操作者和机器人共享同一观察/动作空间,避免视角不一致与人手入镜。随后用统一的彩色+深度视觉网络做行为克隆,在10个真实操作任务上直接学策略。核心洞察是示教质量可能比更复杂的RL或轨迹优化流程更关键:每个任务不足30分钟演示、同一套网络和超参即可得到可用策略。

Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations figure
RSS 20182017-09-28

Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

灵巧操作

灵巧操作模仿学习强化学习触觉操作数据集/Benchmark

面向多指灵巧手高维控制、接触复杂且纯强化学习样本效率过低的问题,论文在24自由度五指手仿真上构建四类任务,并提出将少量VR人类示范与策略梯度结合:先行为克隆预训练,再用带示范约束的策略优化微调。结果表明,纯强化学习虽可在奖励塑形下学会任务,但动作别扭、鲁棒性差;加入示范后,样本需求降至相当于数小时机器人经验,并在物体搬运、手内转笔、开门和用锤等任务上得到更自然且更稳健的策略,真实硬件效果文中未充分说明。

One-Shot Visual Imitation Learning via Meta-Learning figure
CoRL 20172017-09-14

One-Shot Visual Imitation Learning via Meta-Learning

模仿学习

模仿学习泛化感知

论文关注机器人若每个新操作都从零学,视觉模仿所需示范成本过高的问题。作者把MAML式梯度元学习扩展到模仿学习,先在多任务示范上学到“可快速微调”的视觉策略,并进一步元学习适配损失,使测试时有时只看单段视频也能完成1-shot适应。结果上,该方法在二维到推物、真实机器人放置任务中均能从单次视觉示范学新任务,并显著优于当时基于RNN的one-shot imitation基线。

Learning 6-DOF Grasping Interaction via Deep Geometry-aware 3D Representations figure
ICRA 20182017-08-24

Learning 6-DOF Grasping Interaction via Deep Geometry-aware 3D Representations

抓取

抓取3D 表征人机交互操作

论文关注仅凭RGBD学习平行夹爪的6-DoF抓取,动机是作者认为交互成败首先受3D形状约束,纯黑盒抓取网络难以泛化。其核心做法是先用RGBD重建场景占据体,形成几何感知表征,再结合无学习投影层从夹爪视角“想象”局部表面并预测抓取结果,随后用analysis-by-synthesis搜索抓取位姿。在101个日常物体、约15万条VR/仿真数据上,相比CNN基线成功预测提升约10%,并对新视角和新实例有更好泛化;但结论主要基于仿真,真实机器人迁移文中未充分说明。

Imitation from Observation: Learning to Imitate Behaviors from Raw Video via Context Translation figure
ICRA 20182017-07-11

Imitation from Observation: Learning to Imitate Behaviors from Raw Video via Context Translation

视频规划

视频规划模仿学习强化学习RL+IL机器人学习

这篇工作针对传统模仿学习依赖观测-动作对、且默认演示与执行处于同一环境配置的问题,提出“从观察中模仿”:只看原始视频,在存在视角、场景和操作者差异时也能学策略。核心做法是先用多上下文演示训练上下文翻译模型,把人类/第三视角演示转成机器人当前语境下的目标轨迹,再将跟踪误差作为感知奖励交给强化学习优化。实验表明,该方法在仿真和真实机器人清扫、舀取、推动等任务上有效,且较不变特征或对抗式模仿更稳健,但代价是需要较多、且跨上下文的演示数据。

Transferring End-to-End Visuomotor Control from Simulation to Real World for a Multi-Stage Task figure
CoRL 20172017-07-07

Transferring End-to-End Visuomotor Control from Simulation to Real World for a Multi-Stage Task

泛化

泛化Sim2Real

这篇工作针对强化学习策略难以直接从仿真迁移到真实机器人的“现实鸿沟”问题,提出在低保真模拟器中对摩擦、质量、时延等动力学参数做随机化,并用带记忆的循环策略学习对未知动力学的在线适应,而不是依赖精细标定。作者在机械臂推物多阶段任务上表明:策略只用仿真训练、无需真实机器人微调,就能在真实 Fetch 机器人上从随机初始状态稳定把物体推到目标位置,且对较大的标定误差仍保持较好鲁棒性。

DART: Noise Injection for Robust Imitation Learning figure
CoRL 20172017-03-27

DART: Noise Injection for Robust Imitation Learning

模仿学习

模仿学习安全机器人学习

这篇论文针对行为克隆因协变量偏移而在执行时误差累积、而 DAgger 又存在人工纠错繁琐、训练危险和计算开销大的问题,提出 DART:在示教阶段向监督者控制中注入经过优化的噪声,让示教数据主动覆盖“偏离后如何恢复”的边界状态,同时仍保持离线式采集。实验表明,DART 在 MuJoCo 行走任务上达到接近 DAgger 的鲁棒性,在 Humanoid 上计算可快约 3 倍且训练期监督者回报仅降 5%;在 Toyota HSR 杂乱抓取上平均比传统行为克隆提升 62%。

One-Shot Imitation Learning figure
NeurIPS 20172017-03-21

One-Shot Imitation Learning

模仿学习

模仿学习泛化

这篇工作针对传统模仿学习往往按单个任务分别训练、既依赖特征工程又需要较多示范,难以让机器人“看一次就会”的问题,提出单次示范模仿学习框架:在大量任务上做元学习,把一条成功示范作为任务描述,结合当前状态直接输出动作,并用软注意力对示范序列和对象槽位做对齐。实验在积木堆叠任务上表明,模型仅凭一次新任务示范即可在新的初始配置上执行,并对部分训练中未见任务实现泛化;但验证仍主要基于结构化状态输入,真实机器人规模化能力文中未充分说明。

Unsupervised Perceptual Rewards for Imitation Learning figure
RSS 20172016-12-20

Unsupervised Perceptual Rewards for Imitation Learning

模仿学习

模仿学习强化学习RL+IL机器人学习

这篇工作针对机器人强化学习中奖励难设计、终局反馈稀疏且常需额外传感器的问题,提出从少量演示视频中直接学习“感知奖励”:复用预训练视觉网络的中高层特征,无监督发现任务中的中间步骤,并自动挑选最能区分这些步骤的特征,将其组合成稠密、平滑的奖励函数,再交给强化学习完成具身无关的策略学习。实验在倒水和开门任务上表明,学得奖励与人工奖励接近,并能仅凭人手演示视频训练真实机器人学会开门;但文中也指出当前设置基本依赖固定视角。

Robotic Grasp Detection using Deep Convolutional Neural Networks figure
IROS 20172016-11-24

Robotic Grasp Detection using Deep Convolutional Neural Networks

抓取

抓取感知操作

这篇工作针对早期抓取检测准确率有限且滑窗方法过慢、难以实时处理未知物体的问题,提出以五维抓取矩形为目标、用两个并行 ResNet-50 分别提取 RGB 与深度特征,再由浅层网络预测平行夹爪位姿的多模态框架。其在 Cornell Grasp Dataset 上达到 89.21% 准确率并具备实时速度,优于当时方法;但文中也承认深度分支仍沿用 ImageNet 预训练,性能增益里多模态融合与更深骨干各自贡献并未充分说明。

Learning Dexterous Manipulation Policies from Experience and Imitation figure
arXiv2016-11-15

Learning Dexterous Manipulation Policies from Experience and Imitation

灵巧操作

灵巧操作模仿学习操作

论文针对五指灵巧手非抓持操作中高维、接触间歇且难建模的问题,提出先用经验数据学习时变局部线性动力学,再结合轨迹优化得到局部控制器,并在复杂抓取中用遥操作示范初始化,以缓解延迟奖励和局部最优。进一步,作者比较了基于初始物体姿态切换局部策略的最近邻泛化与神经网络蒸馏。结果显示,局部策略在仿真和真机上用约60次试验即可在邻域内稳定成功;更大范围上最近邻成功率更高,而神经网络虽较弱,但可仅凭触觉和本体感觉实现盲操作。

No Figure
ICAGI 20162016-06-25

Imitation Learning as Cause-Effect Reasoning

模仿学习

模仿学习机器人学习

这篇工作针对传统模仿学习只会轨迹复现、难以回答示范者“为什么这样做”而导致泛化受限的问题,提出将模仿学习视为因果推理:从示范中推断“动作—效果—意图”的层级表示,并据此组织可执行的运动技能。主要结果上,摘要称该方法能更快适应新情境并复现目标导向行为;但公开摘要/项目页未充分说明实验规模、对比基线与增益来源,判断主要基于公开摘要。

Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization figure
ICML 20162016-03-01

Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization

强化学习

强化学习RL+IL机器人学习

这篇工作针对机器人强化学习里“奖励难设计”、而传统IRL又依赖手工特征和已知动力学的问题,提出 Guided Cost Learning:把最大熵IOC改成基于采样的估计,并嵌入策略优化过程中,用策略采样去“引导”代价学习,同时以神经网络直接从原始状态表示非线性代价并配合正则化。实验表明,它在多个仿真基准和真实机器人力矩控制/视觉操作任务上较以往方法更省样本、能处理更复杂任务;但文中也指出复杂技能学到的代价常偏局部,更适合保留最终策略而非指望全局可重规划的奖励。

Real-Time Grasp Detection Using Convolutional Neural Networks figure
ICRA 20152014-12-09

Real-Time Grasp Detection Using Convolutional Neural Networks

抓取

抓取感知操作

论文针对当时抓取检测依赖滑窗分类、速度慢且易受局部误检影响的问题,提出用CNN对RGB-D整图单次前向直接回归抓取矩形,并以网格化的MultiGrasp把全局感知与局部预测结合,缓解多可抓取位姿上的“取平均”失效,还可与类别识别共享特征联合预测。该方法在Cornell数据集上达到约88%准确率、GPU上13fps,较先前方法提升约14个百分点且快逾150倍,但基础设定仍默认单图单物体,实际部署需前置分割。

OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation figure
CoRL 20242014-10-15

OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation

人形操作

人形操作视频规划模仿学习操作

这篇工作针对人形机器人示教高度依赖全身遥操作、成本高且难扩展的问题,提出 OKAMI,让机器人仅凭一段 RGB-D 人类演示视频学习操作。关键洞察是“物体感知重定向”:先用开放世界视觉找出任务相关物体并重建人类动作,再将身体轨迹与手部姿态分开重定向,并按测试时物体位置对动作进行自适应调整。实验中,其重定向执行平均成功率为 71.7%,较 ORION 提升 58.3%,进一步用生成轨迹训练闭环视觉策略后,平均成功率达到 79.2%,且无需高成本遥操作采集。

Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics figure
NeurIPS 20142014

Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics

任务规划

任务规划强化学习触觉机器人学习

这篇工作针对机器人策略学习中“无模型方法样本代价高、全局动力学模型又难以覆盖接触不连续”的矛盾,提出在未知动力学下迭代拟合局部时变线性模型,并用KL约束稳定地优化线性高斯轨迹分布,再通过 guided policy search 将这些轨迹控制器蒸馏为神经网络策略。实验表明,该方法比直接策略搜索更省样本、轨迹质量更好,还能在训练时用全状态、测试时仅用部分观测,在插销入孔、章鱼臂、游泳和双足行走等仿真任务中学到有效控制。

Learning Complex Neural Network Policies with Trajectory Optimization figure
ICML 20142014

Learning Complex Neural Network Policies with Trajectory Optimization

任务规划

任务规划强化学习触觉机器人学习

论文针对传统策略搜索难以直接训练高维神经网络控制器、且模仿单条轨迹易出现误差累积的问题,提出约束式 guided policy search:在轨迹优化与策略监督学习之间交替迭代,并用对偶梯度下降逐步强制轨迹分布与策略一致,同时借助最大熵目标扩展“好轨迹”的覆盖范围。实验在游泳、行走、崎岖地形和双足抗推恢复中表明,该方法能学到复杂神经网络策略,整体优于当时已有的 GPS 变体,并能把多种恢复动作整合为可泛化的推力恢复策略。

Towards Learning of Generic Skills for Robotic Manipulation figure
KI 20142013-12-03

Towards Learning of Generic Skills for Robotic Manipulation

模仿学习

模仿学习机器人学习操作

论文针对传统模仿/强化学习学到的操作技能过于任务专用、难以复用的问题,提出 BesMan 学习平台:先将人类示范自动分割为行为块,再用 DMP 结合模仿学习与强化学习学习运动基元,并通过迁移学习形成可按任务上下文实例化的“技能模板”,再由层次强化学习进行组合。文中主要给出仿真中的初步结果:相关任务间的运动基元可有效迁移,利用迁移不确定性控制探索能显著加快目标任务学习,但真实机器人上的完整验证文中未充分说明。

Variational Policy Search via Trajectory Optimization figure
NeurIPS 20132013

Variational Policy Search via Trajectory Optimization

任务规划

任务规划强化学习触觉机器人学习

本文针对高维复杂控制中随机探索难以找到成功轨迹、参数空间搜索又易陷入差局部最优的问题,提出把“探索”和“策略学习”解耦:用变分分解把最大似然策略目标写成交替优化,先由DDP/iLQR在兼顾任务代价与偏离当前策略惩罚的条件下优化轨迹分布,再用监督学习拟合该分布。实验在两个高难度运动控制任务上优于以随机探索或传统变分更新为主的基线,但方法依赖动力学模型与局部线性化。

Guided Policy Search figure
ICML 20132013

Guided Policy Search

任务规划

任务规划强化学习触觉机器人学习

这篇工作针对高维连续控制中,直接用策略梯度训练大规模神经网络策略时样本效率低、且容易陷入差局部最优的问题,提出 Guided Policy Search:先用基于模型的 DDP/iterative LQR 构造高回报、较高熵的引导轨迹分布,再通过带正则的重加权重要性采样把这些离策略样本并入策略学习,从而减少反复在线采样并稳定优化复杂策略。实验在平面游动、跳跃、行走和 3D 类人奔跑上都取得了比常规策略搜索更好的效果,并显示出一定跨环境泛化能力,但方法增益也明显依赖轨迹优化器质量。

Humanoid Robot Locomotion and Manipulation Step Planning figure
Adv Robotics 20122012-07

Humanoid Robot Locomotion and Manipulation Step Planning

人形操作

人形操作任务规划操作非学习控制

这篇论文的动机是把人形机器人的行走、攀扶和操作统一为“接触序列规划”问题,避免依赖预设步态或任务专用规则。其核心创新是提出面向多机器人/多物体的集中式框架,用 best-first 搜索决定每步增删哪些接触,并结合满足静力平衡与避碰约束的优化逆运动学求解姿态。结果上,方法在多种虚拟场景中生成了可执行的多接触步态与操作序列,并讨论了 HRP-2 真机落地;但文中未充分说明与其他方法的定量对比增益。

Imitation Learning of Positional and Force Skills Demonstrated via Kinesthetic Teaching and Haptic Input figure
Advanced Robotics 20112012-04-02

Imitation Learning of Positional and Force Skills Demonstrated via Kinesthetic Teaching and Haptic Input

模仿学习

模仿学习触觉机器人学习操作

论文针对机器人精细操作中“只学位置、难复现接触技能”的问题,提出用双边控制采集示教数据,把人施加的作用力与环境反作用力分离,再用两种RNN分别学习控制指令或力矩参考,实现位置—力联合模仿。在线沿直尺画线的实验里,机器人对未训练过的尺子倾角、量角器曲线约束仍有一定适应性,说明力信息对接触型操作很关键;但两模型优劣的增益来源文中未充分说明,可能也部分来自控制结构与数据归一化。

Interactive Imitation Learning of Object Movement Skills figure
Auton. Robots 20122011-12-02

Interactive Imitation Learning of Object Movement Skills

模仿学习

模仿学习机器人学习

论文面向人形机器人难以把人类示教动作迁移到新物体、新身体配置和新环境的问题,提出交互式模仿学习系统:用自动选择的任务空间表示将运动与机器人本体解耦,再用linked objects把技能从具体物体实例中抽离,并结合可在线改变身体图式的运动优化来避障与防自碰。实验表明,机器人能把单手示教泛化为不同环境下的双手物体搬运;但量化增益与各模块贡献文中未充分说明,判断基于公开摘要。

Transformers for One-Shot Visual Imitation figure
CoRL 20232011-11-11

Transformers for One-Shot Visual Imitation

模仿学习

模仿学习Latent LearningTransformer Policy感知机器人学习

论文关注机器人如何仅凭一段他者演示视频,在测试时完成新实例操作,难点是演示者与机器人在外观、形态和物体布局上的域差异,无法直接对齐动作。其核心做法是用Transformer联合建模演示帧与机器人当前观测,提取任务上下文驱动且具动力学约束的表征,并用自监督逆动力学损失稳住表示学习。实验在16个仿真抓取放置任务上将总体成功率提升到88.8%,约为DAML等基线的2倍,但真实机器人效果文中未充分说明。

Learning to Search: Functional Gradient Techniques for Imitation Learning figure
AR 20092009-06-17

Learning to Search: Functional Gradient Techniques for Imitation Learning

Affordance

Affordance模仿学习机器人学习

这篇工作针对传统行为克隆忽略规划器、容易产生短视决策的问题,将模仿学习转成“学习供搜索/规划使用的代价函数”。核心创新是提出 LEARCH,用函数梯度把 Maximum Margin Planning 扩展到非线性代价函数,同时更自然地处理代价约束与先验。结果上,方法在足式运动、抓取规划和野外自主导航中验证有效,导航实验覆盖数百公里;但具体提升幅度与增益来源,判断基于公开摘要/项目页。

APRICOT: Active Preference Learning and Constraint-Aware Task Planning with LLMs figure
CoRL 2024-

APRICOT: Active Preference Learning and Constraint-Aware Task Planning with LLMs

任务规划

多智能体/多机器人任务规划人机交互语言条件

这篇工作关注家用机器人整理任务中的核心瓶颈:用户更容易给少量示范而非完整规则,但同一示范往往对应多种偏好解释,且偏好还可能与冰箱等受限空间的几何约束冲突。APRICOT的关键洞察是让LLM“闭环”工作:先用VLM把示范转成语言,再结合贝叶斯主动偏好学习用少量提问消除歧义,并利用世界模型反馈迭代修正高层计划以保证可执行。作者在50种偏好、100个测试用例和9个真实机器人场景中报告了更高的偏好满足率与规划可行性,但具体增益在给定片段中未充分说明。