Robotics: Science and Systems · Offline Paper Notes

RSS2024 论文全集

来源：https://roboticsconference.org/2024/program/papers/。本资料库按 RSS 2024 归档。共 134 篇论文，PDF、文本、代表图和分析缓存均保存在本目录。

Stein Variational Ergodic Search figure

RSS2024Paper 001

Stein Variational Ergodic Search

Darrick Lee, Cameron Lerch, Fabio Ramos, Ian Abraham

Mathematical Institute；University of Oxford；Yale University；NVIDIA, USA；The University of Sydney, Australia

机器人学习控制模仿学习

论文针对连续空间探索中可行覆盖轨迹近乎无限、传统遍历搜索又常只给出单一路径的问题，把遍历覆盖重写为轨迹后验推断，并用带粒子排斥的 Stein 变分方法并行逼近该分布，利用遍历度量的多峰结构一次求得多条可执行且彼此差异化的覆盖策略。仿真与实机无人机实验表明，该方法能在拥挤和动态环境中在线生成、切换多种探索方案，提升探索多样性与适应性。

Parallel and Proximal Linear-Quadratic Methods for Real-Time Constrained Model-Predictive Control figure

RSS2024Paper 002

Parallel and Proximal Linear-Quadratic Methods for Real-Time Constrained Model-Predictive Control

Wilson Jallet, Ewen Dantec, Etienne Arlaud, Nicolas Mansard, Justin Carpentier

∗LAAS-CNRS, University of Toulouse；Toulouse, France；Inria - D´epartement d’Informatique de l’´Ecole Normale Sup´erieure, PSL Research University；ANITI, University of Toulouse

机器人学习控制安全规划灵巧手腿足机器人

面向全身控制中变量多、求解窗口只有几毫秒的约束MPC，本文聚焦SQP/牛顿步中最耗时的等式约束LQR子问题。作者把带对偶近端正则、隐式动力学的Riccati递推重写为块消元形式，先提升串行求解效率，再扩展为参数化LQ以按时间段并行求解多个子问题。方法集成到ALIGATOR后，相比先前串行公式更快，并在多项基准和真实四足机器人MPC上验证了实时可用性。

Differentiable Robust Model Predictive Control figure

RSS2024Paper 003

Differentiable Robust Model Predictive Control

Alex Oshin, Hassan Almubarak, Evangelos Theodorou

Georgia Institute of Technology

机器人学习控制规划安全导航自动驾驶

针对确定性MPC在真实环境中易受模型误差和外界扰动影响、而鲁棒MPC参数又难以手工调优的问题，本文用隐函数定理统一推导可微最优控制，并将其嵌入带安全屏障状态的tube-based MPC，使名义规划层和辅助跟踪层都能在线按梯度自动调整参数。该方法计算复杂度接近一次有限时域LQR，在5个非线性机器人系统（含MuJoCo与Robotarium）上相比非线性tube-MPC表现出更高的安全性、鲁棒性与任务成功率，并能适应分布外扰动。

Computation-Aware Learning for Stable Control with Gaussian Process figure

RSS2024Paper 004

Computation-Aware Learning for Stable Control with Gaussian Process

Wenhan Cao, Alexandre Capone, Rishabh Yadav, Sandra Hirche, Wei Pan

University of Manchester；Tsinghua University；Carnegie Mellon University；Technical University of Munich

控制安全数据机器人学习

这篇工作关注小型无人机等算力受限机器人在用GP在线学习动力学时，近似求解协方差逆带来的计算误差会破坏稳定性，而以往通常只考虑数据不足造成的不确定性。文中把GP后验不确定性拆成“数学不确定性+计算不确定性”，并将后者纳入Lyapunov导数、吸引域估计和CLF-SOCP控制器设计。仿真与四旋翼跟踪实验表明，该方法能避免高估安全吸引域，在固定计算预算下以更保守的约束换来更低跟踪误差和更好的稳定性。

PDF AlphaXiv Project

Decentralized Multi-Robot Line-of-Sight Connectivity Maintenance under Uncertainty figure

RSS2024Paper 005

Decentralized Multi-Robot Line-of-Sight Connectivity Maintenance under Uncertainty

Yupeng Yang, Yiwei Lyu, Yanze Zhang, Sha Yi, Wenhao Luo

机器人学习控制安全多机器人感知触觉

这篇论文关注多机器人在遮挡环境中维持视距通信时，现实定位噪声会让传统基于精确位姿或刚性编队的方法过于脆弱或保守。作者提出概率视距连通屏障证书 PrLOS-CBC，并结合双层优化与去中心化 Dec-LOS-LCT，在高斯不确定性下选择需保留的 LOS 边、最小改动原始任务控制，同时满足安全约束。理论上给出可行性与最优性分析，仿真和真实机器人实验表明该方法能以高概率保持全局及子群连通，且对原任务干扰更小。

Hamilton-Jacobi Reachability Analysis for Hybrid Systems with Controlled and Forced Transitions figure

RSS2024Paper 006

Hamilton-Jacobi Reachability Analysis for Hybrid Systems with Controlled and Forced Transitions

Javier Borquez, Shuang Peng, Yiyu Chen, Quan Nguyen, Somil Bansal

机器人学习控制安全触觉腿足机器人规划

针对接触丰富机器人常见的混合动力系统，难点在于连续状态演化与离散模式切换需要同时做安全分析，而现有HJ可达性多只适用于纯连续系统。本文将HJ可达性推广到含受控与强制切换的非线性混合系统，用统一价值函数刻画离散/连续联合状态下的后向可达管，并给出可数值求解的广义HJB框架，从而同时输出安全集与最优连续、离散控制。仿真及四足机器人多步态实验表明，该方法能在扰动和控制约束下完成安全模式规划与避障到达。

PDF AlphaXiv Project

JIGGLE: An Active Sensing Framework for Boundary Parameters Estimation in Deformable Surgical Environments figure

RSS2024Paper 007

JIGGLE: An Active Sensing Framework for Boundary Parameters Estimation in Deformable Surgical Environments

Nikhil Uday Shinde, Xiao Liang, Fei Liu, Yutong Zhang, Florian Richter, Sylvia Lee Herbert, Michael C. Yip

University of California San Diego

机器人学习安全控制操作灵巧手感知

这篇工作面向手术机器人在遮挡强、视觉有限时难以安全判断组织附着点的问题，提出 JIGGLE：把可微软体仿真与 EKF 结合，在线概率估计薄层组织的边界/缝合位置，并用优化控制主动选择既增大信息增益又约束撕裂风险的探测动作。模拟中其边界估计在多种形状上整体优于 Adam，PCD 多数接近或达到 100%；在离体鸡皮双目内镜实验中也能稳定推断缝合点，并处理切割、缝合带来的拓扑变化。

Conformalized Teleoperation: Confidently Mapping Human Inputs to High-Dimensional Robot Actions figure

RSS2024Paper 008

Conformalized Teleoperation: Confidently Mapping Human Inputs to High-Dimensional Robot Actions

Michelle D Zhao, Reid Simmons, Henny Admoni, Andrea Bajcsy

Carnegie Mellon University, Robotics Institute

机器人学习SLAM/定位人机交互控制数据导航

论文关注辅助遥操作中“低维人类输入到高维机械臂动作”映射的可信度：现有学习式映射在多峰偏好、低精度示教或分布外操作者下常会过度自信。作者让控制器预测动作分位数，并用自适应保形预测在线校准不确定区间，再将高维区间汇总为分数以检测高风险输入/状态。2D导航和7DoF抓杯、到达实验表明，该方法比未校准映射更能发现高误差样本，能揭示由用户偏好多样性和训练轨迹噪声带来的失配，但仍无法区分不确定性的具体来源。

PDF AlphaXiv Project

Optimal Non-Redundant Manipulator Surface Coverage with Rank-Deficient Manipulability Constraints figure

RSS2024Paper 009

Optimal Non-Redundant Manipulator Surface Coverage with Rank-Deficient Manipulability Constraints

Tong Yang, Li Huang, Jaime Valls Miro, Yue Wang, Rong Xiong

∗Robotics Laboratory, Zhejiang University, P.R. China；Robotics Institute, University of Technology Sydney, NSW, Australia.；¶Institute of Advanced Digital Technologies and Instrumentation, Zhejiang University, P.R. China.

机器人学习操作安全规划导航SLAM/定位

面向抛光、喷涂等表面作业，传统非冗余机械臂覆盖规划常因逆运动学多解且刻意避开奇异位形，导致频繁抬刀重构、轨迹不连续。本文提出SNCPP，核心是利用对任务仍有足够可操作性的“有效奇异位形”连接原本断开的构型区域，并通过枚举奇异处连通关系，把含奇异性的拓扑图转化为现有NCPP可求解形式，无需显式计算奇异点。仿真与真实实验在三类场景中均表明，该方法能进一步减少姿态重构并实现无中断连续覆盖。

AdaptiGraph: Material-Adaptive Graph-Based Neural Dynamics for Robotic Manipulation figure

RSS2024Paper 010

AdaptiGraph: Material-Adaptive Graph-Based Neural Dynamics for Robotic Manipulation

Kaifeng Zhang, Baoyu Li, Kris Hauser, Yunzhu Li

University of Illinois Urbana-Champaign

控制操作人机交互机器人学习数据感知

针对机器人操纵中同类物体会因刚度、粒径、受压中心等物性差异而表现出不同动力学、现有图模型又常需按材料重训的问题，AdaptiGraph将材料表示为粒子图，把材料类别与连续物性变量共同条件化到统一GNN中，并通过测试时少样本交互优化物性，实现对新物体的在线适配。实验覆盖绳索、颗粒、布料和刚体盒，结果表明其能得到较可解释的物性估计，并在真实预测与操纵任务上优于无物性条件或无自适应基线，尤其对极端和分布外物性更稳健。

PDF AlphaXiv Project

Human-oriented Representation Learning for Robotic Manipulation figure

RSS2024Paper 011

Human-oriented Representation Learning for Robotic Manipulation

Mingxiao Huo, Mingyu Ding, Chenfeng Xu, Thomas Tian, Xinghao Zhu, Yao Mu, Lingfeng Sun, Masayoshi Tomizuka, Wei Zhan

UC Berkeley；University of Hong Kong

机器人学习操作感知灵巧手人机交互数据

这篇工作关注现有机器人视觉表征多依赖自监督目标，往往缺少对手-物交互、状态变化等人类操作偏置的建模，导致下游操作泛化不足。作者提出在人类第一视角数据上对预训练视觉编码器做“面向人”的多任务微调，并用Task Fusion Decoder在对象状态变化分类、关键时刻定位和接触区域检测等任务间进行跨任务融合，使表征更聚焦操纵相关结构。实验表明，该方法能稳定提升R3M、MVP、EgoVLP在仿真与真实操作中的策略学习表现，并在Ego4D感知任务上也取得增益。

PDF AlphaXiv Project

Dynamic On-Palm Manipulation via Controlled Sliding figure

RSS2024Paper 012

Dynamic On-Palm Manipulation via Controlled Sliding

William Yang, Michael Posa

University of Pennsylvania

机器人学习操作控制规划灵巧手安全

论文面向物流场景中对速度更敏感的非抓取操作，研究传统方法常刻意回避的手掌面滑移问题。核心洞察是把滑移视为可调控接触模式而非误差源：作者用 contact-implicit MPC 在线规划粘滞、滑动和接触建立/断开，并通过低层跟踪中的力跟踪设计弥合简化模型与真实机械臂的偏差。实机在 Franka 上约5秒内完成托盘取回、抬升和放回，且无需参考轨迹或运动基元，并额外展示了借墙旋转托盘的泛化能力。

PDF AlphaXiv Project

Efficient Data Collection for Robotic Manipulation via Compositional Generalization figure

RSS2024Paper 013

Efficient Data Collection for Robotic Manipulation via Compositional Generalization

Jensen Gao, Annie Xie, Ted Xiao, Chelsea Finn, Dorsa Sadigh

Stanford University, 2Google DeepMind

机器人学习数据操作模仿学习基础模型感知

该文关注机器人操作示教数据昂贵、却难以覆盖所有环境组合的问题，核心洞察是视觉模仿学习策略具备一定“组合泛化”能力：训练中分别见过物体、桌高、纹理等因素后，可能泛化到未见组合，因此提出按因素系统变化而非穷举组合的域内采集策略（如 Stair/L）。实验表明，真实机器人在组合测试中达到59/90，迁移到全新环境成功率77.5%，明显优于无显式变化采集的2.5%；但这种提升很大程度依赖先验机器人数据，去掉 BridgeData V2 后仅27.5%。

PDF AlphaXiv Project

Demonstrating Learning from Humans on Open-Source Dexterous Robot Hands figure

RSS2024Paper 014

Demonstrating Learning from Humans on Open-Source Dexterous Robot Hands

Kenneth Shaw, Ananye Agarwal, Shikhar Bahl, Mohan Kumar Srirama, Alexandre Kirchmeyer, Aditya Kannan, Aravind Sivakumar, Deepak Pathak

Carnegie Mellon University

机器人学习灵巧手操作人机交互仿真到现实数据

论文针对灵巧手“昂贵、难制造、难用于学习”的瓶颈，集中展示三种约2000美元、可3D打印装配的开源机械手，并把硬件与学习管线打通：包括保持更大指间运动范围的LEAP Hand、软体腱驱的DASH Hand，以及更接近人手尺寸且更强的LEAP Hand v2，配套支持MoCap遥操作、人类视频/动作到机器人重定向，以及sim2real与真实世界强化学习持续改进。该文主要结果是系统级演示与开源落地，统一定量增益文中未充分说明。

PDF Project Project Project Video

Reconciling Reality through Simulation: A Real-To-Sim-to-Real Approach for Robust Manipulation figure

RSS2024Paper 015

Reconciling Reality through Simulation: A Real-To-Sim-to-Real Approach for Robust Manipulation

Marcel Torne Villasevil, Anthony Simeonov, Zechu Li, April Chan, Tao Chen, Abhishek Gupta, Pulkit Agrawal

Massachusets Institute of Technology；University of Washington

机器人学习数据模仿学习强化学习感知仿真到现实

论文关注模仿学习在真实操作中对位姿变化、物理扰动和视觉干扰缺乏鲁棒性，而纯真实世界强化学习又代价高且不安全的问题。RialTo 的核心洞察是：先用少量真实视频/演示快速构建目标场景的数字孪生，再通过“逆蒸馏”把真实演示迁入仿真，利用特权状态与稀疏奖励做强化学习增稳，最后蒸馏回可部署策略。在放盘子、摆书等多项真实任务上，方法将策略鲁棒性提升超过67%，并降低了场景建模、奖励设计和额外人工示教需求。

PDF AlphaXiv Project

SAGE: Bridging Semantic and Actionable Parts for GEneralizable Articulated-Object Manipulation under Language Instructions figure

RSS2024Paper 016

SAGE: Bridging Semantic and Actionable Parts for GEneralizable Articulated-Object Manipulation under Language Instructions

Haoran Geng, Songlin Wei, Congyue Deng, Bokui Shen, He Wang, Leonidas Guibas

Department of Computer Science, Stanford University1；CFCS, School of Computer Science, Peking University2

机器人学习操作视觉语言模型感知灵巧手人机交互

面向日常铰接物体，难点在于语言里提到的语义部件与真正决定操作方式的可动作部件常不一致，导致跨品类泛化差。SAGE先把指令解析为由部件、关节和状态变化组成的动作程序，再将语义部件映射到带运动先验的GAParts，并融合大视觉语言模型与小型领域模型完成理解和感知，辅以失败后的交互反馈闭环。仿真与真实机器人实验表明，它在多类物体和多样语言目标上优于基线，泛化性与鲁棒性更强。

Demonstrating Event-Triggered Investigation and Sample Collection for Human Scientists using Field Robots and Large Foundation Models figure

RSS2024Paper 017

Demonstrating Event-Triggered Investigation and Sample Collection for Human Scientists using Field Robots and Large Foundation Models

Tirthankar Bandyopadhyay, Fletcher Talbot, Callum Bennie, Hashini Senaratne, Xun Li, Brendan Tidd, Mingze Xi, Jan Stiefel, Volkan Dedeoglu, Rod Taylor, Tea Molnar, Ziwei Wang, Josh Pinskier, Feng Xu, Lois Liow, Ben Burgess-Limerick, Jesse Haviland, Pavan Sikka, Simon Murrell, Jane Hodgkinson, Jiajun Liu, Fred Pauling, Stanislav Funiak

机器人学习数据模仿学习感知基础模型操作

论文面向偏远、高风险环境中的科学考察，目标是把科学家从繁重遥操作和现场采样中解放出来，只保留高层决策。其核心在于把事件触发传感网络、探索/采样双机器人、语义地图、软夹爪移动操作与大基础模型结合，让系统能以自然语言提供场景语义并按指令取样。主要结果是在仿月球沙坑中完成了从震动事件发现、现场勘查到样本抓取的端到端闭环演示，但系统增益来源与各模块量化贡献文中未充分说明。

CraterGrader: Autonomous Robotic Terrain Manipulation for Lunar Site Preparation and Earthmoving figure

RSS2024Paper 018

CraterGrader: Autonomous Robotic Terrain Manipulation for Lunar Site Preparation and Earthmoving

Ryan Lee, Benjamin Younes, Alexander Pletta, John Harrington, Russell Q. Wong, William Whittaker

Carnegie Mellon University.

机器人学习SLAM/定位操作规划安全感知

论文针对月面场地准备中低能耗、无GPS、地形会随作业持续变形且难以依赖遥操作的问题，提出 CraterGrader，将在线地形感知与动态建图、基于最优传输的土方搬运规划、无GPS高精定位以及底盘—铲刀一体控制结合起来，在未知且非恒定的月壤参数下闭环整地。系统在类月环境中完成了无先验自主平整与找坡，并达到 NASA LuSTR 任务规格，说明该方法对月面土方作业具有实际可行性。

POAM: Probabilistic Online Attentive Mapping for Efficient Robotic Information Gathering figure

RSS2024Paper 019

POAM: Probabilistic Online Attentive Mapping for Efficient Robotic Information Gathering

Weizhe Chen, Lantao Liu, Roni Khardon

Luddy School of Informatics, Computing, and Engineering；Indiana University, Bloomington, IN 47408, USA

机器人学习数据SLAM/定位基础模型规划安全

论文关注机器人信息采集中，非平稳GP虽能表达空间变化和不确定性，但在大尺度在线决策中计算代价过高。作者的关键洞察是，现有在线稀疏GP与Attentive Kernel结合时，诱导点优化会干扰输入相关长度尺度学习；为此提出POAM，用变分EM按长度尺度直接构造诱导点，并对变分参数和超参数给出常数时间在线更新。主动水深测绘实验表明，它相较SSGP、OVC等方法同时提升了运行效率、预测精度和不确定性量化质量。

PDF AlphaXiv Code

Blending Data-Driven Priors in Dynamic Games figure

RSS2024Paper 020

Blending Data-Driven Priors in Dynamic Games

Justin Lidard, Haimin Hu, Asher Hancock, Zixu Zhang, Albert Gimo Contreras, Vikash Modi, Jonathan DeCastro, Deepak Gopinath, Guy Rosman, Naomi Leonard, Maria Santos, Jaime Fernández Fisac

机器人学习数据规划自动驾驶安全人机交互

论文关注自动驾驶中“按博弈最优规划”与“按数据学到的人类先验行动”之间的张力：前者常把人假设得过于理性，后者又可能忽视闭环交互与安全。作者提出 KLGame，把数据驱动参考策略以 KL 正则形式嵌入非合作动态博弈，并设计可实时求解多模态近似反馈纳什均衡的算法，用可调参数在任务最优与行为模仿之间连续切换。仿真、Waymo 数据集及真实驾驶实验表明，该方法比未正则化基线更能利用人类行为先验，在交互一致性与安全规划上更优。

PDF AlphaXiv Project

Demonstrating HOUND: A Low-cost Research Platform for High-speed Off-road Underactuated Nonholonomic Driving figure

RSS2024Paper 021

Demonstrating HOUND: A Low-cost Research Platform for High-speed Off-road Underactuated Nonholonomic Driving

Sidharth Talia, Matthew Schmittle, Alexander Lambert, Alexander Spitzer, Christoforos Mavrogiannis, Siddhartha Srinivasa

机器人学习自动驾驶安全控制灵巧手数据

这篇论文的动机是越野高速自动驾驶研究门槛高、真机试验风险大，导致类似 F1TENTH 的低成本可复用平台在越野场景仍然缺位。作者提出约 3000 美元的 1/10 比例 HOUND，把 BeamNG 的软/硬件在环测试与仅依赖 IMU 和轮速的低层防侧翻控制并入开源栈，核心思路是用主动安全替代昂贵加固。实测在泥地、草地、碎石和柏油上累计运行 50 公里，最高约 7 m/s、侧向加速度达 9 m/s²，并表明防侧翻机制与高层控制可兼容。

PDF AlphaXiv Project

Model Predictive Control for Aggressive Driving Over Uneven Terrain figure

RSS2024Paper 022

Model Predictive Control for Aggressive Driving Over Uneven Terrain

Tyler Han, Alex Liu, Anqi Li, Alexander Spitzer, Guanya Shi, Byron Boots

University of Washington

机器人学习控制安全自动驾驶规划导航

论文聚焦全尺寸越野车在7–10 m/s高速穿越山坡、侧坡和沟渠时，纯几何可通行性判据忽略惯性与地形耦合，容易引发侧翻或冲沟失效。作者提出面向采样式MPC/MPPI的物理约束框架，将风险归纳为可并行计算的侧翻约束与沟渠穿越约束，并结合低层速度控制实现无先验地图下的实时规划。实车在坡地、沟渠和2至3公里复杂越野赛道上验证，相比几何基线在保持安全运行的同时最高提速22%。

PDF AlphaXiv Project

Demonstrating CropFollow++: Robust Under-Canopy Navigation with Keypoints figure

RSS2024Paper 023

Demonstrating CropFollow++: Robust Under-Canopy Navigation with Keypoints

Arun Narenthiran Sivakumar, Mateus Valverde Gasparino, Michael McGuire, Vitor Akihiro Hisano Higuti, M. Ugur Akcal, Girish Chowdhary

Field Robotics Engineering and Sciences Hub (FRESH), University of Illinois Urbana-Champaign (UIUC)

导航感知数据可解释性机器人学习自动驾驶

论文针对作物冠层下行间仅约0.75米、GPS多路径失效且LiDAR受杂波干扰，导致农机难以稳定自主导航的问题，提出CropFollow++：用三个语义关键点表征可通行三角区域，并把热力图方差作为置信度来检测遮挡，再结合IMU与MPC求取控制。相比直接预测状态，这种表示更可解释、更模块化；在约1.9公里晚季复杂田间测试中，碰撞从33次降到13次，并在多台覆盖作物播种机器人上累计部署25公里。

SEEK: Semantic Reasoning for Object Goal Navigation in Real World Inspection Tasks figure

RSS2024Paper 024

SEEK: Semantic Reasoning for Object Goal Navigation in Real World Inspection Tasks

Muhammad Fadhil Ginting, Sung-Kyun Kim, David Fan, Matteo Palieri, Mykel Kochenderfer, Ali-akbar Agha-mohammadi

Stanford University, 2Field AI

机器人学习导航视觉语言模型规划感知腿足机器人

面向真实巡检中“目标物体在大空间里难找、仅靠机载感知缺乏常识且检测存在不确定性”的问题，SEEK把楼层/房间先验构成动态场景图，再用由 LLM 蒸馏训练的轻量关系语义网络估计目标在各房间的存在概率，并结合在线观测做概率式全局规划和局部搜索。实验显示，它在 Matterport 与 Gazebo 中比经典规划和文中比较的 LLM 规划更高效、路径更短，并在 Spot 腿足机器人办公室巡检中完成了真实目标搜索。

Yell At Your Robot: Improving On-the-Fly from Language Corrections figure

RSS2024Paper 025

Yell At Your Robot: Improving On-the-Fly from Language Corrections

Lucy Xiaoyang Shi, Zheyuan Hu, Tony Z. Zhao, Archit Sharma, Karl Pertsch, Jianlan Luo, Sergey Levine, Chelsea Finn

Stanford University；UC Berkeley

机器人学习视觉语言模型控制感知灵巧手模仿学习

针对长时序灵巧操作中任一步失败都会拖垮整体成功率、而整段示教又昂贵的问题，YAY Robot把人类口头纠正直接作为层级策略的监督信号：底层用语言条件技能即时执行细粒度指令，高层在任务中被用户语音覆盖，并在事后用这些纠正数据迭代微调，类似把 DAgger 扩展到“语言动作”。在真实双臂装袋、配零食和清理任务上，实时纠正将成功率从15%提到50%，持续训练后的自主成功率从15%升至45%，且无需额外遥操作。

PDF AlphaXiv Project

Task Adaptation in Industrial Human-Robot Interaction: Leveraging Riemannian Motion Policies figure

RSS2024Paper 026

Task Adaptation in Industrial Human-Robot Interaction: Leveraging Riemannian Motion Policies

Mike Allenspach, Michael Pantic, Rik Girod, Lionel Ott, Roland Siegwart

机器人学习人机交互控制规划安全强化学习

这篇论文面向工业人机协作中“任务顺序未知、人工遥操作又低效”的问题，提出基于RMP的纯反应式运动控制框架，把人类纠偏输入转化为各局部运动策略的在线重加权，从而在不手动控轨迹的前提下动态改任务并同时保留安全约束。定量实验在工业风格场景中验证了其能有效按操作员意图切换任务，并与代表性基线完成对比；但具体增益来源文中未充分拆解。

PDF AlphaXiv Video

Risk-Calibrated Human-Robot Interaction via Set-Valued Intent Prediction figure

RSS2024Paper 027

Risk-Calibrated Human-Robot Interaction via Set-Valued Intent Prediction

Justin Lidard, Hang Pham, Ariel Bachman, Bryan Boateng, Anirudha Majumdar

Princeton University, Princeton, New Jersey 08540

机器人学习安全人机交互控制规划操作

针对人机协作中人类意图多义、深度预测又常过度自信，机器人容易在冒险执行和频繁打扰人之间失衡的问题，本文提出 RCIP：用集合值意图预测表达不确定性，并把序列级风险控制转成多重假设检验，只调少量参数即可校准预训练风险感知策略，在有限样本下保证累计损失/失覆盖风险，仅在无法控险时请求澄清。仿真和真实分拣任务表明，RCIP 在维持设定风险水平的同时，将求助率相对基线降低约 5%–11%，双臂分拣中也降低约 8%。

Constraint-Aware Intent Estimation for Dynamic Human-Robot Object Co-Manipulation figure

RSS2024Paper 028

Constraint-Aware Intent Estimation for Dynamic Human-Robot Object Co-Manipulation

Yifei Simon Shao, Tianyu Li, Shafagh Keyvanian, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa

GRASP Laboratory, University of Pennsylvania, Philadelphia, PA, 19104 USA

机器人学习安全人机交互操作控制多机器人

面向人机共同搬运重物时“既要懂人意图、又不能过度助力”的难题，论文把人的意图表示为低维动态系统，用粒子滤波仅依据历史运动和跟踪误差，并结合人类可操作性与机器人运动学约束，在线估计完整6DoF目标与运动；再以估计置信度调节变阻抗，在主动辅助与顺从之间平滑切换，且不依赖末端力/力矩传感器。在真实动态共搬运任务中，该方法较基线取得更好的意图预测与协作表现，并更好兼顾安全性和可行性。

PDF AlphaXiv Dataset

Demonstrating HumanTHOR: A Simulation Platform and Benchmark for Human-Robot Collaboration in a Shared Workspace figure

RSS2024Paper 029

Demonstrating HumanTHOR: A Simulation Platform and Benchmark for Human-Robot Collaboration in a Shared Workspace

Chenxu Wang, Boyuan Du, Jiaxin Xu, Huaping Liu

机器人学习多机器人人机交互操作控制灵巧手

论文针对共享工作空间的人机协作研究常受限于实体平台成本高、2D游戏过简的问题，提出基于AI2THOR的HumanTHOR，用VR让人以第一视角实时进入具身仿真，并提供同步协作与图文通信，围绕目标导航和移动操作建立日常任务基准。用户实验中，规则机器人和 oracle 机器人都能有效帮助人类，且不同基线拉开明显差距，说明该平台能评测协作能力，但当前算法离高水平协作仍有明显空间。

PDF AlphaXiv Project

Developing Design Guidelines for Older Adults with Robot Learning from Demonstration figure

RSS2024Paper 030

Developing Design Guidelines for Older Adults with Robot Learning from Demonstration

Erin Hedlund-Botti, Lakshmi Seelam, Chuxuan Yang, Nathaniel Belles, Zulfiqar Haider Zaidi, Matthew Gombolay

Georgia Institute of Technology

模仿学习机器人学习操作感知人机交互

论文针对居家助老机器人必须持续适应个体偏好、而老年用户又难以用传统编程表达需求的问题，首次系统评估老年人使用实时、带随机性的示教学习（LfD）教机器人操作的体验。作者以通用设计为框架，先通过焦点小组和试点研究迭代出被动观察式全栈界面，再在32人实验中比较老年人与年轻人。结果表明老年人对机器人表现显著更挑剔，也更倾向认为示教流程不易用，由此提炼出改进反馈、可理解性与容错性的设计准则。

FLAIR: Feeding via Long-Horizon AcquIsition of Realistic dishes figure

RSS2024Paper 031

FLAIR: Feeding via Long-Horizon AcquIsition of Realistic dishes

Rajat Kumar Jenamani, Priya Sundaresan, Maram Sakr, Tapomayukh Bhattacharjee, Dorsa Sadigh

Cornell University, 2Stanford University, 3University of British Columbia

机器人学习操作灵巧手感知视觉语言模型基础模型

这篇论文关注辅助进食从“单一、规整食物”走向真实混合餐盘时的长时序决策难题：机器人不仅要会挑起不同食物，还要兼顾效率、常识搭配和用户偏好。FLAIR 的核心是把 VLM 感知、基于技能库的分层效率评估，以及 LLM 的偏好/常识规划结合起来，决定下一口该喂什么并调用相应操作技能。实验表明，它在 6 类真实餐盘上能更高效完成清盘，用户研究覆盖 42 人，并已在 3 台机器人上联动口部递送系统成功服务一位行动受限用户。

The Benefits of Sound Resound: An In-Person Replication of the Ability of Character-Like Robot Sound to Improve Perceived Social Warmth figure

RSS2024Paper 032

The Benefits of Sound Resound: An In-Person Replication of the Ability of Character-Like Robot Sound to Improve Perceived Social Warmth

Nnamdi Nwagwu, Adeline Schneider, Ibrahim Syed, Brian J. Zhang, Naomi T. Fitter

∗Collaborative Robotics and Intelligent Systems (CoRIS) Institute；Oregon State University, Corvallis, Oregon, USA；Music Department, Oregon State University, Corvallis, Oregon, USA

机器人学习感知人机交互多机器人

论文针对机器人声音研究多停留在线上、缺少线下具身协作验证的问题，在 Stretch RE2 上开展 30 人面对面复现实验，比较无附加声、功能声与将情感声和变形声合并的“角色化”声音，并额外考察可定位性与价值感。结果表明，角色化声音能显著提升机器人被感知的社会温暖度，部分复现既有在线结论；增强声音还提升了空间可定位性，而功能声对能力感和舒适性的收益较弱，增益来源不清。

Leveraging Large Language Model for Heterogeneous Ad Hoc Teamwork Collaboration figure

RSS2024Paper 033

Leveraging Large Language Model for Heterogeneous Ad Hoc Teamwork Collaboration

Xinzhu Liu, Peiyan Li, Wenju Yang, Di Guo, Huaping Liu

机器人学习多机器人视觉语言模型数据规划操作

论文关注比同构协作更难、也更贴近实际的异构临时组队场景：新机器人会在任务进行中从任意位置加入一支事先未知的队伍，既要补位又不能打乱原有协作。作者提出无需额外训练的去中心化层次规划框架，用 LLM 结合 IRoT 反思机制动态推断临时机器人的子任务与子技能，并构建基于 ProcTHOR-10K 的整理基准。仿真对比、消融和实机实验表明，该方法能更好适应不同队友能力与策略，提升团队任务效率与协作鲁棒性。

PDF AlphaXiv Video

INTERPRET: Interactive Predicate Learning from Language Feedback for Generalizable Task Planning figure

RSS2024Paper 034

INTERPRET: Interactive Predicate Learning from Language Feedback for Generalizable Task Planning

Muzhi Han, Yifeng Zhu, Song-Chun Zhu, Ying Nian Wu, Yuke Zhu

University of California, Los Angeles, 2The University of Texas at Austin

机器人学习规划视觉语言模型人机交互操作控制

这篇工作针对长时程操作中“LLM 规划灵活但缺乏可靠保证、经典规划可靠却依赖人工设计谓词”的矛盾，提出 InterPreT：让机器人在交互中从非专家语言反馈学习目标谓词和动作前提谓词，由 GPT-4 生成并迭代修正可调用感知 API 的 Python 谓词，再据此学习符号算子并在线编译成 PDDL 规划域。实验表明，它仅用简单训练任务学到的抽象就能迁移到更多物体和新目标，在最难泛化设置下仿真成功率 73%、真实世界 40%，显著优于基线。

PDF AlphaXiv Project

Safe Planning for Articulated Robots Using Reachability-based Obstacle Avoidance With Spheres figure

RSS2024Paper 035

Safe Planning for Articulated Robots Using Reachability-based Obstacle Avoidance With Spheres

Jonathan Michaux, Adam Li, Qingyi Chen, Che Chen, Ram Vasudevan

机器人学习安全规划控制导航操作

这篇论文针对机械臂在拥挤、人机共存环境中既要实时重规划又要严格避障的问题，指出现有轨迹优化常依赖离散碰撞检查或软约束，安全性不足，而既有RTD虽可证安全但可达集过于保守。SPARROWS用球形前向占据把整段运动的扫掠体上界为一组球，并结合对多面体障碍的精确符号距离，在滚动时域优化中直接施加连续时间安全约束。实验表明其可达集更紧，在单臂和双臂的密集场景中比多种SOTA更容易找到可行且无碰撞的轨迹。

PDF AlphaXiv Project

Motion Planning in Foliated Manifolds using Repetition Roadmap figure

RSS2024Paper 036

Motion Planning in Foliated Manifolds using Repetition Roadmap

Jiaming hu, Shrutheesh Raman Iyer, Jiawei Wang, Henrik I Christensen

∗Contextual Robotics Institute, University of California, San Diego

机器人学习规划导航安全操作灵巧手

本文关注抓取/搬运这类约束会随阶段变化的多模态操作问题：单用顺序流形难准确描述，改用叶状流形后又会因候选流形暴增而难规划。作者提出 FoliatedRepMap，把重复规划经验组织成动态路线图，用 GMM 同时编码成功与失败采样，并结合 atlas 近似局部切空间、按需扩展搜索范围，在新任务上为跨流形搜索提供引导。文中在多种仿真与真实操作场景中报告了更高效、更稳健的规划，但各模块分别带来的增益来源文中未充分说明。

PDF Project Project

Language-Augmented Symbolic Planner for Open-World Task Planning figure

RSS2024Paper 037

Language-Augmented Symbolic Planner for Open-World Task Planning

Guanqi Chen, Lei Yang, Ruixing Jia, Zhe Hu, Yizhou Chen, Wei Zhang, Wenping Wang, Jia Pan

∗The University of Hong Kong；Chongqing Institute of Microelectronics Industry Technology, University of Electronic Science and Technology of China；Southern University of Science and Technology；¶Texas A&M University

机器人学习规划视觉语言模型灵巧手安全基础模型

这篇工作针对开放环境中符号规划依赖完备PDDL知识、因遗漏前提或对象属性而在长时序任务里容易执行失败的问题，提出LASP：不让LLM直接替代规划器，而是在出错后结合执行观测诊断缺失知识，补全前提、属性和对象集合，并与环境交互后重新规划。实验表明，LASP在存在单个乃至多个知识缺口的开放世界任务上都能持续修复知识库并完成任务。

PDF AlphaXiv Code

Collision-Affording Point Trees: SIMD-Amenable Nearest Neighbors for Fast Motion Planning with Pointclouds figure

RSS2024Paper 038

Collision-Affording Point Trees: SIMD-Amenable Nearest Neighbors for Fast Motion Planning with Pointclouds

Clayton Ramsey, Zachary Kingston, Wil Thomason, Lydia E Kavraki

Rice University

机器人学习安全规划感知导航数据

论文针对仅有传感器点云时，采样式运动规划被碰撞检测拖慢的问题，提出面向SIMD的CAPT数据结构。其核心洞察是利用边验证查询的空间相关性进行批量早停，并通过复制局部潜在碰撞点换取无分支、并行友好的精确点云查询；另给出基于空间填充曲线的降采样方法且保持规划可行性。实验表明，单核CPU上平均查询时间低于10ns，规划可在1ms内生成有效路径，端到端速度超过60FPS。

Homotopic Path Set Planning for Robot Manipulation and Navigation figure

RSS2024Paper 039

Homotopic Path Set Planning for Robot Manipulation and Navigation

Jing Huang

Department of Mechanical and Automation Engineering, The Chinese University of Hong Kong

机器人学习规划导航多机器人操作安全

论文关注在障碍密集环境中，为多机器人群体或可变形物体关键点同时生成满足拓扑约束的路径集，动机是单一路径或时空联合规划难以兼顾效率、可行性与协同性。其核心做法是先用扩展可见性判据稀疏提取关键通道，再以通道感知代价在路径长度与可容纳自由空间之间折中规划枢轴路径，并通过可变形路径迁移集中生成同伦路径集。仿真和实物实验表明，该流程比逐条分别规划更高效，且较传统基于间隙的规划更能得到可行、协调的导航与操作路径。

Practice Makes Perfect: Planning to Learning Skill Parameter Policies figure

RSS2024Paper 040

Practice Makes Perfect: Planning to Learning Skill Parameter Policies

Nishanth Kumar, Tom Silver, Willie McClinton, Linfeng Zhao, Stephen Proulx, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Jennifer L. Barry

The AI Institute, ‡MIT CSAIL, §Northeastern University

机器人学习规划操作灵巧手安全控制

面向由参数化技能串联而成的长时程操作任务，论文关注机器人在部署后如何利用“空闲时间”自主决定该练哪项技能，以最快提升未来任务成功率。作者提出 EES：先估计各技能当前熟练度，再外推出“继续练习能涨多少”，并结合任务分布与到达可练状态的规划成本进行能力感知规划，从而选择最值得练的技能。仿真中该方法比7个基线更具样本效率；在两项真实移动操作任务上，Spot 机器人无需环境重置、仅数小时自主练习后成功率明显提升。

World Models for General Surgical Grasping figure

RSS2024Paper 041

World Models for General Surgical Grasping

Hongbin Lin

The Chinese University of Hong Kong；Lipscomb University

机器人学习灵巧手控制感知生成模型SLAM/定位

这篇论文针对手术机器人抓取过度依赖位姿估计或特征跟踪、因而难以泛化到陌生器械并易受感知与控制扰动影响的问题，提出基于世界模型与深度强化学习的 GAS，直接学习像素级视觉运动策略；其关键在于用物体尺寸先验补全并显式建模不可靠深度区域的不确定性，再把目标的 mask 与 depth 通过动态放大编码为紧凑输入，以缓解手术场景中小目标、低信噪比带来的学习困难。系统可由仿真零微调迁移到真实机器人，在复杂场景下对未见过的 5 类目标和不同夹爪平均成功率达 69%，并在 6 类扰动下保持较强鲁棒性。

PDF AlphaXiv Project

SpringGrasp: Synthesizing Compliant, Dexterous Grasps under Shape Uncertainty figure

RSS2024Paper 042

SpringGrasp: Synthesizing Compliant, Dexterous Grasps under Shape Uncertainty

Sirui Chen, Jeannette Bohg, Karen Liu

Department of Computer Science, Stanford University

机器人学习灵巧手规划触觉操作控制

这篇论文针对灵巧手在单/双视角深度观测下存在形状不确定、传统依赖精确几何和接触点优化易失效的问题，提出 SpringGrasp：把抓取视为从预抓取到稳定平衡的顺应性动态过程，用“虚拟弹簧”建模手指阻抗，并设计可微解析指标联合优化预抓取位姿、目标接触位置和每指增益，同时显式规避高不确定区域。真实机器人在14个日常物体上两视角成功率达89%、单视角84%，较基于 force closure 的规划器至少提升18%，消融显示不建模不确定性会明显降性能。

PDF AlphaXiv Code

DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation figure

RSS2024Paper 043

DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation

Chen Wang, Haochen Shi, Weizhuo Wang, Ruohan Zhang, Li Fei-Fei, Karen Liu

Stanford University

机器人学习灵巧手数据感知操作模仿学习

针对灵巧操作数据采集依赖昂贵遥操作、单目视觉又易遮挡且缺少精确3D信息的问题，论文提出便携式手部动捕系统DexCap，并设计DexIL把人手mocap直接转成机器人策略：用电磁手套、腕部相机SLAM和胸前RGB-D/LiDAR采集手腕/手指运动与场景点云，再以逆运动学重定向、点云扩散式行为克隆和可选的人在环纠错跨越人手与机械手差异。实验表明其在6个灵巧任务上优于基线，纠错还能再提升约10%，并在剪刀裁切、泡茶等高难任务上取得可观成功率。

PDF AlphaXiv Project

GRaCE: Balancing Multiple Criteria to Achieve Stable, Collision-Free, and Functional Grasps figure

RSS2024Paper 044

GRaCE: Balancing Multiple Criteria to Achieve Stable, Collision-Free, and Functional Grasps

Tasbolat Taunyazov, Kelvin Lin, Harold Soh

˚Dept. of Computer Science, National University of Singapore；:Smart Systems Institute, National University of Singapore

机器人学习灵巧手安全生成模型数据

论文关注抓取中“稳定、可达、避碰、功能性”常相互冲突且优先级不同的问题。作者提出 GRaCE，用分层规则和保序效用把多种抓取准则统一到概率框架中，并允许用可插拔分类器估计各准则满足概率；再以 GRaCE-OPT 结合进化策略与效用下界的梯度优化，兼顾全局探索和收敛速度。仿真与真实实验表明，在拥挤场景中它比传统采样后过滤方法用更少样本和时间获得相当或更优的抓取效果。

PDF AlphaXiv Code

Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots figure

RSS2024Paper 045

Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

Cheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song

Stanford University, 2 Columbia University, 3Toyota Research Insititute

数据灵巧手操作模仿学习机器人学习感知

论文针对实验室遥操作采集成本高、野外人类视频又难直接迁移到机器人这一矛盾，提出 UMI：用手持夹爪而非真实机器人在任意环境采集示范，再学习可部署策略。其核心是以鱼眼腕部相机、侧镜隐式双目和 IMU 提升视觉上下文与轨迹恢复精度，并通过推理时延匹配、相对轨迹动作表示和 Diffusion Policy 缩小采集到部署的差异。实验显示，该方法仅靠更换训练数据即可在多机器人平台上零样本完成动态、双手、精细和长时程任务，OOD 测试成功率达 70%。

PDF AlphaXiv Project

Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering figure

RSS2024Paper 046

Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering

Snehal Jauhri, Ishikaa Lunawat, Georgia Chalvatzaki

机器人学习灵巧手操作移动操作安全生成模型

面向移动操作中单视角、遮挡严重杂乱场景下难以稳定进行6DoF抓取的问题，论文将抓取重释为神经表面渲染：先用隐式场景表示做全局重建与遮挡区域候选采样，再以共享特征空间中的局部表面特征评估夹爪—物体几何匹配，从而隐式预测任意SE(3)抓取质量。实验表明该方法在不同难度仿真中优于现有隐式/半隐式方法，并能在真实移动机械臂上实现无需额外探索的杂乱场景抓取，但对细薄物体和计算开销仍有局限。

PDF AlphaXiv Project

Demonstrating Adaptive Mobile Manipulation in Retail Environments figure

RSS2024Paper 047

Demonstrating Adaptive Mobile Manipulation in Retail Environments

Max Spahn, Corrado Pezzato, Chadi Salmi, Rick Dekker, Cong Wang, Christian Pek, Jens Kober, Javier Alonso-Mora, Carlos Hernandez Corbato, Martijn Wisse

机器人学习操作移动操作规划感知人机交互

面向营业中超市拣货这一与顾客共享空间的场景，论文聚焦传统仓储机器人难以处理的人为扰动，如错放商品、通道受阻和顾客直接干预。其核心是把故障鲁棒的任务规划、可快速重规划的反应式运动生成，以及基于示教的新商品/新抓取动作接入，整合到一套较简化的移动操作平台中，说明系统级自适应比复杂专用硬件更关键。机器人在实验室复刻超市和荷兰零售商测试门店中都能从错抓、商品移位和人机交互中恢复，但对象主要限于吸盘可抓且前方可见、可达的商品。

Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning figure

RSS2024Paper 048

Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning

Xiaoyu Zhang, Matthew Chang, Pranav Kumar, Saurabh Gupta

University of Illinois at Urbana-Champaign

机器人学习模仿学习数据扩散策略灵巧手操作

论文针对眼在手模仿学习中“执行误差不断累积、策略一旦偏离专家轨迹就失效”的问题，提出 DMD：不再像 DAgger 那样昂贵地补采失败状态，而是用扩散模型从专家轨迹合成轻微偏移的离轨图像，并依据相对位姿扰动自动赋予纠偏动作标签，从而用少量示范提升鲁棒性。实机四项任务中，推物仅 8 条示范达 80% 成功率（BC 为 20%），堆叠平均 92%（BC 40%），倒豆 80%，挂衣 90%。

PDF AlphaXiv Project

RT-H: Action Hierarchies using Language figure

RSS2024Paper 049

RT-H: Action Hierarchies using Language

Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quan Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh

Google DeepMind, 2Stanford University

机器人学习数据操作可解释性感知模仿学习

论文针对仅靠高层任务语言直接预测机器人动作时，跨语义差异大的多任务数据难共享、示范成本高的问题，引入“语言动作”作为中间层：先结合视觉与任务预测如“前移手臂”“闭合夹爪”的细粒度动作短语，再据此输出连续控制，并用自动规则从轨迹中抽取出大规模语言动作标签。实验表明，RT-H在多任务操作、新场景泛化和纠错学习上均优于RT-2及动作层级消融，而且从语言干预中学习比从遥操作干预中学习更有效。

PDF AlphaXiv Project

RoboCasa: Large-Scale Simulation of Household Tasks for Generalist Robots figure

RSS2024Paper 050

RoboCasa: Large-Scale Simulation of Household Tasks for Generalist Robots

Soroush Nasiriany, Abhiram Maddukuri, Lance Zhang, Adeet Parikh, Aaron Lo, Abhishek Joshi, Ajay Mandlekar, Yuke Zhu

The University of Texas at Austin, 2NVIDIA Research; ∗Denotes equal contribution

数据基础模型生成模型感知机器人学习模仿学习

论文针对机器人缺少大规模真实操作数据、难以训练通用机器人的瓶颈，提出RoboCasa：在RoboSuite/MuJoCo上搭建高保真厨房仿真，用生成式AI扩充场景与物体，并用LLM辅助设计复合家务任务，形成120个厨房、2500余物体、100项任务和10万级轨迹的数据平台。实验显示，模仿学习性能随合成数据规模明显提升，与真实数据联合训练也能提高真实厨房任务成功率，增益可能主要来自scaling与数据多样性。

Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning figure

RSS2024Paper 051

Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning

Vitalis Vosylius, Younggyo Seo, Jafar Uruç, Stephen James

Imperial College London

扩散策略感知SLAM/定位机器人学习数据操作

论文关注RGB观测到低层控制在小样本下难学的问题，关键原因是图像与连续动作属于异质空间。作者提出 Render and Diffuse：先用机器人3D模型把候选动作渲染成“执行后机器人在图像中的姿态”，再用扩散模型在图像空间或图像-动作联合空间中迭代去噪并还原为控制量，把动作预测转成更具空间结构的匹配问题。仿真与6个真实日常操作结果表明，它比直接图像到动作的扩散行为克隆更省样本，并且对物体位置变化有更强泛化。

PDF AlphaXiv Project

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers figure

RSS2024Paper 052

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi

Google DeepMind Robotics；Carnegie Mellon University；University of Toronto

操作模仿学习数据机器人学习感知基础模型

这篇工作针对文本指令难表达细粒度操作、目标图像又缺少“怎么做”的问题，探索让机器人直接看人类示范视频学操作。作者提出端到端的 Vid2Robot，用跨注意力 Transformer 融合提示视频与当前机器人观测，并用配对的人-机/机-机视频轨迹及对比损失对齐两种表征，从而跨场景、跨 embodiment 推断任务并生成动作。真实机器人实验中，面对人类提示视频时相对 BC-Z 提升超过 20%，跨物体动作迁移也提升约 17%。

PDF AlphaXiv Project

Offline Imitation Learning Through Graph Search and Retrieval figure

RSS2024Paper 054

Offline Imitation Learning Through Graph Search and Retrieval

Zhao-Heng Yin, Pieter Abbeel

UC Berkeley EECS

机器人学习模仿学习操作强化学习人机交互灵巧手

论文关注灵巧操作中人类示教常含失败重试、难以提供专家轨迹，直接行为克隆会学到低质动作，而离线RL在长时程视觉任务上又不稳定。作者提出GSR：用预训练表征把离线交互组织成图，通过图搜索评估哪些片段更可能通向目标，再用检索为每个状态挑选或重加权更优动作，最后仍以行为克隆训练策略。该方法在仿真与真实机器人多项精细操作上将成功率提升10%–30%，熟练度提升30%以上，且预处理开销仅约10–30分钟。

PDF AlphaXiv Project

RVT-2: Learning Precise Manipulation from Few Demonstrations figure

RSS2024Paper 055

RVT-2: Learning Precise Manipulation from Few Demonstrations

Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

NVIDIA

操作感知模仿学习机器人学习灵巧手人机交互

论文关注一个现实痛点：现有少样本多任务操作模型虽能理解语言并做3D操作，但在插销、插头等毫米级精密任务上常失效。RVT-2的关键洞察是把精度瓶颈拆成表示与系统两层改进：用多阶段coarse-to-fine推理逐步“放大”关键区域预测末端位姿，并以凸上采样、位置条件旋转特征和自定义虚拟视图渲染器降低显存与加速训练/推理。结果上，它在RLBench上将成功率从65%提升到82%，训练快6倍、推理快2倍，并能在真实世界仅用约10次示教完成插销/插头等高精度任务。

PDF AlphaXiv Code Project Dataset

Imitation Bootstrapped Reinforcement Learning figure

RSS2024Paper 056

Imitation Bootstrapped Reinforcement Learning

Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh

Stanford University；Stanford Univeristy

机器人学习强化学习模仿学习触觉数据控制

这篇工作针对机器人稀疏奖励控制中“纯模仿难覆盖分布偏移、纯强化学习又探索慢且样本昂贵”的矛盾，提出IBRL：先单独训练模仿策略，再在在线交互和Q目标自举两处都让模仿策略与RL策略同时提议动作，由Q函数选更优者执行或用于训练，从而直接利用示范策略的高质量动作，并避免额外模仿正则的权衡。实验在6个仿真和3个真实任务上均优于现有方法，且任务越难优势越大，最难仿真与真实挂布任务分别约达到次优方法的2倍和2.4倍。

PDF AlphaXiv Video

Rethinking Robustness Assessment: Adversarial Attacks on Learning-based Quadrupedal Locomotion Controllers figure

RSS2024Paper 057

Rethinking Robustness Assessment: Adversarial Attacks on Learning-based Quadrupedal Locomotion Controllers

Fan Shi, Chong Zhang, Takahiro Miki, Joonho Lee, Marco Hutter, Stelian Coros

National University of Singapore

控制腿足机器人强化学习机器人学习安全触觉

论文针对四足机器人常用的随机噪声、推力恢复等测试难以覆盖高维时序长尾失效这一问题，把鲁棒性评估转成在现实幅值约束下学习序列式对抗者，在观测、速度指令和扰动力等多模态通道中联合搜索最小致败扰动。实验表明，连 DARPA SubT 级鲁棒策略也会在平地上被低幅攻击击倒：常规基线千次未能致败，而学习到的攻击可稳定复现，约3°姿态误差配合指令扰动已能在仿真和真机中诱发失稳，并可进一步用于对抗微调提升原策略鲁棒性。

PDF AlphaXiv Project

Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning figure

RSS2024Paper 058

Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning

Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen

Tsinghua University；Shanghai Qi Zhi Institute

机器人学习腿足机器人控制强化学习生成模型扩散策略

论文针对类人机器人因高重心、摆腿不稳和传感受限而难以在复杂地形上实现强化学习控制的问题，提出DWL：在仿真中注入环境、动力学、传感和遮蔽噪声，用循环编码器—解码器从历史观测中恢复潜在真实状态，再配合策略梯度训练统一步行策略，并结合主动2自由度闭链踝机构提升稳定性。实验在两款XBot上实现同一网络零样本迁移到雪地斜坡、上下楼梯和极不平地面，并展示了明显的抗扰能力。

Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion figure

RSS2024Paper 059

Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi

Carnegie Mellon University

安全腿足机器人控制导航强化学习机器人学习

针对腿足机器人在拥挤环境中“快就不安全、安全就跑不快”的矛盾，ABS把端到端敏捷策略与恢复策略结合，并用学习得到的、以敏捷策略为条件的可达-避障价值网络评估风险、决定策略切换，还为恢复策略提供优化方向；再通过深度图到射线距离的外感知表征提升泛化。实机 Go1 在全机载感知与计算下，可在室内外静态和动态障碍间实现无碰撞高速运动，峰值约 3.1 m/s，平均约 1.5–2.3 m/s。

PDF AlphaXiv Code Project

RL2AC: Reinforcement Learning-based Rapid Online Adaptive Control for Legged Robot Robust Locomotion figure

RSS2024Paper 060

RL2AC: Reinforcement Learning-based Rapid Online Adaptive Control for Legged Robot Robust Locomotion

Shangke Lyu, Xin Lang, Han Zhao, Hongyin Zhang, Pengxiang Ding, Donglin Wang

控制腿足机器人强化学习仿真到现实触觉机器人学习

针对腿足机器人强化学习策略在真实部署中易受模型失配和外扰影响、难以快速适应的问题，本文从控制机理出发提出RL2AC：将RL步态策略解释为类似“前馈补偿+反馈跟踪”的结构，并在线利用关节跟踪误差构造1000Hz自适应力矩补偿，无需与策略联合训练。仿真和实机表明，该方法在负载变化、单腿受扰、侧向力矩、仿真到现实偏差及多种地形下都能显著提升速度跟踪与运动鲁棒性。

HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation figure

RSS2024Paper 061

HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation

Carmelo Sferrazza, Dun-Ming Huang, Xingyu Lin, Youngwoon Lee, Pieter Abbeel

UC Berkeley1；Yonsei University2

腿足机器人操作灵巧手控制强化学习机器人学习

针对人形机器人研究受限于硬件昂贵、脆弱且难以快速试错，本文提出 HumanoidBench：一个基于 MuJoCo 的高维仿真基准，使用配备灵巧手的 H1，在 61 维动作、75 自由度下覆盖 15 个全身操作和 12 个行走任务，突出手、臂、腿协同与长时序控制。实验表明主流强化学习在多数任务上普遍吃力，而建立在稳健低层走路/到达技能上的分层学习更有效，说明瓶颈主要在复杂动力学控制与技能组合。

PDF AlphaXiv Code Code Code Code Project Dataset Dataset Dataset Dataset

MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting figure

RSS2024Paper 062

MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

Kuan Fang, Fangchen Liu, Pieter Abbeel, Sergey Levine

机器人学习视觉语言模型感知操作基础模型数据

论文关注一个核心难点：互联网预训练的VLM虽有常识与概念能力，却难直接理解三维接触与机器人控制。MOKA的关键洞察是引入由关键点和路径点组成的点式affordance表示，并用图像打标把动作生成拆成VQA式多选，让VLM在2D观测上选出抓取点、目标点和运动轨迹。实验表明，它在工具使用、可变形物体操作和物体重排等桌面任务上取得较强零样本泛化与SOTA表现，并可用自身采集的成功轨迹做上下文学习和策略蒸馏进一步提升。

PDF AlphaXiv Project

Collaborative Planar Pushing of Polytopic Objects with Multiple Robots in Complex Scenes figure

RSS2024Paper 063

Collaborative Planar Pushing of Polytopic Objects with Multiple Robots in Complex Scenes

Zili Tang, Yuming Feng, Meng Guo

College of Engineering, Peking University

机器人学习操作控制触觉规划导航

这篇工作面向没有机械臂的低成本移动机器人，解决其在障碍密集场景中协同推动多面体物体时，接触模式频繁切换和受限接触力带来的欠驱动规划控制问题。核心是不预设 pushing primitive，而由准静态多方向可行性分析生成足够接触模式，再以分层混合搜索沿弧段路径联合选择模式与推力，并用非线性MPC在线跟踪。文中给出温和假设下的完备性保证，高保真仿真和实物实验验证了方法的效率、有效性及对运动和执行不确定性的鲁棒性。

PDF AlphaXiv Project

AutoMate: Specialist and Generalist Assembly Policies over Diverse Geometries figure

RSS2024Paper 064

AutoMate: Specialist and Generalist Assembly Policies over Diverse Geometries

Bingjie Tang, Iretiayo Akinola, Jie Xu, Bowen Wen, Ankur Handa, Karl Van Wyk, Dieter Fox, Gaurav S. Sukhatme, Fabio Ramos, Yashraj Narang

University of Southern California, 2NVIDIA Corporation, 3University of Washington, 4University of Sydney

机器人学习操作基础模型仿真到现实强化学习感知

面向高混合装配场景中零件几何与初始位姿高度多样、传统治具和手工轨迹难以泛化的问题，AutoMate提出一套仿真到现实的统一框架：先构建100个可仿真且可真实装配的数据集与并行环境，再用“先拆后装”生成轨迹，结合带模仿奖励的强化学习和动态时间规整学习专家策略，并通过几何编码、策略蒸馏与课程微调得到通才策略。结果上，专家策略在80个装配任务中仿真成功率约80%+，通才策略可联合完成20类任务且达80%+，零样本迁移到真实机器人后，20类任务上的专家/通才成功率分别为86.5%和84.5%，感知初始化装配也达到86%–90%。

PDF AlphaXiv Project

An abstract theory of sensor eventification figure

RSS2024Paper 065

An abstract theory of sensor eventification

Yulin Zhang, Dylan Shell

Amazon Robotics⇤；⇤This work was done prior to joining Amazon.；Texas A&M University；College Station, TX, USA.

机器人学习安全操作数据

本文从“事件相机为何有用”出发，追问任意传感器能否只上报变化量而不丢失机器人任务所需信息。核心洞察是：事件化是否可行，不只取决于信号本身，还受机器人—环境结构、下游输入输出计算及同步/轮询/触发/异步访问方式共同决定。文中提出统一的可替代行为与 observation variator 理论及构造算法，并证明最小化差分字母表是 NP-hard，同时给出轮询与事件触发等价、异步情形所需额外结构与稳定性条件。

Octopi: Object Property Reasoning with Large Tactile-Language Models figure

RSS2024Paper 066

Octopi: Object Property Reasoning with Large Tactile-Language Models

Samson Yu, Lin Kelvin, Anxing Xiao, Jiafei Duan, Harold Soh

Dept. of Computer Science, National University of Singapore；University of Washington, ‡NUS Smart Systems Institute

机器人学习触觉视觉语言模型感知数据操作

论文面向机器人操作中“视觉和语言看不出来、必须摸一摸”的物理推理问题，核心思路是把触觉先转成可语言化的中间物性，再交给大模型做常识推断。作者构建了含74个日常物体、408段GelSight触觉视频的PhysiCLeAR，并提出将触觉编码器对齐到Vicuna的Octopi，显式预测硬度、粗糙度和起伏度后再完成描述、比较与选择等任务。实验表明，这种“物性中介”设计在PhysiCLeAR的五类触觉相关任务上能稳定提升表现，也更能支持如成熟度判断这类具身决策。

PDF AlphaXiv Code

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations figure

RSS2024Paper 067

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu

Shanghai Qizhi Institute；Shanghai Jiao Tong University；Tsinghua University, IIIS

感知模仿学习扩散策略机器人学习灵巧手安全

这篇工作针对视觉模仿学习在真实机器人上往往依赖大量示范、且2D观测泛化与安全性不足的问题，提出DP3：把稀疏点云经轻量MLP编码为紧凑3D表征，再作为条件驱动扩散策略生成动作序列。其关键洞察是，简单点云表示比图像、深度或更复杂3D编码更适合这类策略。实验中，DP3在72个仿真任务仅用10条示范就较基线相对提升24.2%，在4个真实任务每类40条示范下达到85%成功率，并显著减少安全违规。

PDF Code Project

HRP: Human affordances for Robotic Pre-training figure

RSS2024Paper 068

HRP: Human affordances for Robotic Pre-training

Mohan Kumar Srirama, Sudeep Dasari, Shikhar Bahl, Abhinav Gupta

Carnegie Mellon University

数据灵巧手感知基础模型模仿学习机器人学习

论文针对机器人表征学习受限于真实机器人数据昂贵、现有人类视频自监督预训练又难稳定优于 ImageNet 基线的问题，提出 HRP：从互联网规模人类视频中自动挖掘手部姿态、活跃物体和接触点等可供性标签，用这些监督信号微调任意现成视觉编码器，使表征更关注“该抓什么、如何接近”。在 3000 余次真实机器人试验中，HRP 在 5 个任务、3 种机器人形态和 3 个相机视角上带来至少 15% 的成功率提升，最佳较 SOTA 高约 20%，且 OOD 泛化更强。

PDF AlphaXiv Code Code

MIRAGE: Cross-Embodiment Zero-Shot Policy Transfer with Cross-Painting figure

RSS2024Paper 069

MIRAGE: Cross-Embodiment Zero-Shot Policy Transfer with Cross-Painting

Lawrence Yunliang Chen, Karthik Dharmarajan, Kush Hari, Chenfeng Xu, Quan Vuong, Ken Goldberg

UC Berkeley；Google DeepMind

机器人学习数据控制操作灵巧手感知

为减少为每台新机器人重新采集数据和微调的成本，论文关注相似工作空间、双指夹爪机器人间的零样本策略迁移。其核心洞察是将视觉差异与控制差异解耦：用cross-painting在执行时遮掉目标机器人并实时补绘源机器人外观，再结合笛卡尔末端位姿对齐、前向动力学与阻塞控制完成动作映射。仿真和Franka/UR5实验在抓取、堆叠、装配等9个任务上表明，该方法能以很小性能损失实现跨机械臂和夹爪迁移，并显著优于通用策略。

PDF AlphaXiv Project

Broadcasting Support Relations Recursively from Local Dynamics for Object Retrieval in Clutters figure

RSS2024Paper 070

Broadcasting Support Relations Recursively from Local Dynamics for Object Retrieval in Clutters

Yitong Li, Ruihai Wu, Haoran Lu, Chuanruo Ning, Yan Shen, Guanqi Zhan, Hao Dong

CFCS, School of CS, PKU；Weiyang College, THU；University of Oxford；National Key Laboratory for Multimedia Information Processing, School of CS, PKU

机器人学习控制操作安全感知灵巧手

面向杂乱场景中“安全取出目标物”的长时程操作难题，论文认为远距离物体间的支撑关系难以直接可靠预测，而相邻物体的局部动力学更准确。作者据此从目标物出发递归传播局部动力学，逐步构建全局支撑DAG，并据图决定需先移走哪些直接或间接受支撑的物体。其在包含上千种物体组合的新基准、仿真与真实机器人实验中，相比直接关系推断方法显著提升了支撑关系预测和取物规划效果。

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation figure

RSS2024Paper 071

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

Aaditya Prasad, Kevin Lin, Jimmy Wu, Linqi Zhou, Jeannette Bohg

Stanford University；Princeton University

机器人学习扩散策略基础模型安全操作生成模型

面向机载或移动机器人算力受限、扩散策略推理过慢而难以实现低时延闭环控制的问题，本文将一致性蒸馏引入视觉运动策略：先用EDM训练教师策略，再沿教师去噪轨迹施加自一致约束，蒸馏出可单步或少步生成动作的 Consistency Policy；关键设计包括局部 CTM 目标、降低初始采样方差和预设 chaining 步。实验覆盖6个仿真与3个真实任务，在笔记本 GPU 上也能部署，推理较最快基线平均快约一个数量级，同时成功率基本保持竞争力。

PDF AlphaXiv Project

CLOSURE: Fast Quantification of Pose Uncertainty Sets figure

RSS2024Paper 072

CLOSURE: Fast Quantification of Pose Uncertainty Sets

Yihuai Gao, Yukai Tang, Han Qi, Heng Yang

机器人学习感知SLAM/定位数据控制安全

论文针对6D位姿估计中高斯噪声假设不可靠、单点结果缺少可验证不确定性的问题，转而在未知有界噪声下刻画位姿不确定集PURSE。核心洞察是将这一难处理的非凸集合几何化为受约束动力系统/多个测地球的交，并用GPU并行随机游走采样其边界，再以miniball快速内近似最小包围测地球并给出与GRCC外近似的紧致度证书。在LM-O、3DMatch和LM上，其相对比率达91%–97%，平均耗时低于0.3秒，且比GRCC快23.6–833倍。

GOAT: GO to Any Thing figure

RSS2024Paper 073

GOAT: GO to Any Thing

Matthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot

∗Indicates equal contribution, †Work done at Fair, Meta

机器人学习导航操作感知SLAM/定位规划

这篇工作面向家庭与仓储中的长期部署机器人：导航目标不应只是一类物体，还可能是某张图里的具体实例或一句自然语言描述，而且机器人应利用过往探索经验而非每次重找。GOAT的核心是将SLAM、规划与感知模块化结合，并引入持续更新的实例级语义记忆，保存物体的多视角外观与位置，从而区分类内不同实例并支持图像、语言和类别三种目标检索。真实9个家庭、90多小时、675个目标评测中，GOAT成功率达83%，较基线绝对提升32%，并随经验从首个目标的60%升至充分探索后的90%。

Demonstrating Arena 3.0: Advancing Social Navigation in Collaborative and Highly Dynamic Environments figure

RSS2024Paper 074

Demonstrating Arena 3.0: Advancing Social Navigation in Collaborative and Highly Dynamic Environments

Linh Kästner, Volodymyir Shcherbyna, Huajian Zeng, Tuan Anh Le, Maximilian Ho-Kyung Schreff, Halid Osmaev, Nam Truong Tran, Diego Diaz, Jan Golebiowski, Harold Soh, Jens Lambrecht

Technical University Berlin (TUB), Germany；National University of Singapore (NUS), Singapore；Technical University Munich (TUM), Germany

导航人机交互触觉规划仿真到现实机器人学习

这篇论文的动机是现有社会导航平台常局限于单一规划范式或单一仿真器，且人类行为建模过于简化，导致人机协作场景中的 sim2real 落差和评测覆盖不足。Arena 3.0 作为一套平台化工作，核心是整合更真实的人-人/人-机社交力与交互模式、可动态生成的办公室/食堂/仓储等任务环境，以及 Flatland、Gazebo、Unity 三仿真器上的统一接口和 MBF 规划框架。基准测试与社区用户评测表明其较前代版本有明显改进并更具可扩展性，但具体量化增益来源文中未充分说明。

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Multi-Modal Large Language Model Learning figure

RSS2024Paper 075

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Multi-Modal Large Language Model Learning

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd

University of Oxford 2Beijing Academy of Artificial Intelligence

机器人学习自动驾驶视觉语言模型数据控制感知

这篇工作针对自动驾驶解释模型面临的标注稀缺、跨数据集域差大和部署后难以持续微调的问题，提出 RAG-Driver：在多模态大语言模型推理时检索相似驾驶场景及专家示范，通过检索增强的 in-context learning 联合生成驾驶动作、动作理由和控制信号，从而提升可解释性与跨域泛化。实验显示，它在 BDD-X 上取得解释任务 SOTA，并在自建 Spoken-SAX 上无需再训练即可零样本泛化到未见环境，整体优于 ADAPT、DriveGPT4 等基线。

Dynamic Adversarial Attacks on Autonomous Driving Systems figure

RSS2024Paper 076

Dynamic Adversarial Attacks on Autonomous Driving Systems

Amirhosein Chahe, Chenan Wang, Abhishek Jeyapratap, Kaidi Xu, Lifeng Zhou

Drexel University

机器人学习自动驾驶感知安全人机交互操作

论文针对自动驾驶在路口等多车交互中的安全脆弱性，指出传统印刷补丁难以覆盖变化的距离与视角，因此将可动态变化的对抗补丁显示在另一辆移动载具的屏幕上，以远距离诱导目标车误识交通标志并影响决策。方法上提出SIT-Net模拟屏幕图像经环境与相机成像后的失真，并在训练中加入位置损失提升攻击对目标框的对齐。实车实验表明，该方法可把直行、转弯、行人等标志误判为停车标志，效果与置信度均明显优于静态和打印补丁，且在更大距离范围内仍有效。

PDF AlphaXiv Code

Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation figure

RSS2024Paper 077

Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation

Abdelrhman Werby, Chenguang Huang, Martin Büchner, Abhinav Valada, Wolfram Burgard

University of Freiburg；University of Technology Nuremberg

机器人学习感知导航数据基础模型SLAM/定位

这篇论文针对稠密开放词汇地图在大尺度室内环境中存储开销高、且难以支撑“某层某房间里的某物体”这类抽象语言导航的问题，提出 HOV-SG：先通过聚类融合多种 CLIP 特征获得更稳健的3D分段语义，再构建楼层—房间—物体三级开放词汇场景图，并结合跨楼层 Voronoi 图实现可执行导航。实验显示其在三个数据集上均提升了物体、房间和楼层级语义准确率，表示规模较稠密开放词汇地图减少75%，并在真实多层建筑中完成了长程语言导航。

PDF AlphaXiv Project

ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection figure

RSS2024Paper 078

ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection

Arpit Bahety, Priyanka Mandikal, Ben Abbatematteo, Roberto Martín-Martín

The University of Texas at Austin

机器人学习灵巧手操作模仿学习人机交互感知

这篇论文针对双臂操作自由度高、时空同步难、且人类演示难直接迁移到机器人的问题，提出将双手相对运动建模为一自由度螺旋关节，把单个RGB-D人类视频投影到 screw action 空间，再从点云预测双臂抓取与螺旋轴，并用自监督交互微调适配机器人本体。实验在6类复杂双臂任务上表明，该方法可由单次人类演示学会行为，且优于直接在原始双臂运动空间模仿或微调的基线。

PDF AlphaXiv Project

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation figure

RSS2024Paper 079

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang

CFCS, School of Computer Science, Peking University；University of Adelaide；Australian National University

机器人学习视觉语言模型导航感知数据仿真到现实

针对连续视觉语言导航在新场景和仿真到现实中易受里程计噪声、深度与地图域差影响的问题，NaVid将任务改写为仅依赖单目RGB视频流和语言指令的下一步动作预测：用视频VLM联合编码历史与当前观测，并直接输出带距离和转角的可执行动作。结合51万导航样本与76.3万网页数据训练后，它在仿真和真实机器人上都达到SOTA级表现，跨数据集与Sim2Real泛化更强，但增益有多少来自更大数据规模，文中未充分拆清。

PDF AlphaXiv Code Project

RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes figure

RSS2024Paper 080

RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes

Kyle Stachowicz, Sergey Levine

UC Berkeley

机器人学习安全自动驾驶强化学习触觉控制

论文关注真实世界越野高速驾驶中“想开得快就得贴近失稳边界”，而训练期碰撞、翻车会拖慢学习并损伤平台的问题。RACER的核心是用分布式价值网络集成同时刻画回报的偶然不确定性与认知不确定性，以CVaR学习风险敏感策略，并按安全置信度逐步放宽动作范围做课程式探索。实车1/10拉力车实验显示，其收敛速度提升超过10%，训练期安全违规减少一半以上，且几乎消除高速事故，在相关仿真任务中也优于基线。

PDF AlphaXiv Project

Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments figure

RSS2024Paper 081

Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments

Lukas Schmid, Marcus Abate, Yun Chang, Luca Carlone

机器人学习SLAM/定位控制感知安全基础模型

这篇论文面向机器人在人机共处动态环境中仅做“静态地图”不够的问题，提出时空度量-语义SLAM（SMS）并实现系统Khronos。其关键洞察是利用时空局部一致性将问题分解为两条异步链路：快速前端在活动时间窗内跟踪短时运动，慢速后端用因子图推理回访后的长期变化，从而统一移动体跟踪与变化检测。实验在仿真和两类真实机器人上表明，Khronos可实时构建稠密4D语义地图，并在背景重建、运动检测与跟踪、长期变化检测等指标上优于基线。

PDF AlphaXiv Code

Demonstrating Agile Flight from Pixels without State Estimation figure

RSS2024Paper 082

Demonstrating Agile Flight from Pixels without State Estimation

Ismail Geles, Leonard Bauersfeld, Angel Romero, Jiaxu Xing, Davide Scaramuzza

Robotics and Perception Group, University of Zurich, Switzerland

感知强化学习控制触觉SLAM/定位机器人学习

论文针对敏捷无人机通常依赖显式状态估计、机载算力和专用硬件这一瓶颈，探索像人类FPV飞手那样仅凭机载相机视频直接输出总推力与机体系角速度控制。核心做法是用门框内缘作为可模拟的视觉抽象，在训练中结合带特权信息的非对称actor-critic强化学习，部署时再由Swin Transformer检测门框。实机在标准硬件、无显式状态估计条件下完成赛道穿门，最高40 km/h、加速度达2g，说明结构化环境中端到端像素控制的高敏捷飞行是可行的。

PDF AlphaXiv Video

You’ve Got to Feel It To Believe It: Multi-Modal Bayesian Inference for Semantic and Property Prediction figure

RSS2024Paper 083

You’ve Got to Feel It To Believe It: Multi-Modal Bayesian Inference for Semantic and Property Prediction

Parker Ewen, Hao Chen, Yuzhen Chen, Anran Li, Anup Bagali, Gitesh Gunjal, Ram Vasudevan

University of Michigan, Ann Arbor, USA

机器人学习感知数据腿足机器人触觉安全

论文针对机器人仅靠视觉难以稳定识别语义、又难在线估计摩擦等物性的问题，提出把语义类别与物理属性联合建模的多模态贝叶斯框架：用视觉给出语义先验并诱导属性分布，再用触觉属性测量通过共轭先验做闭式更新，反向修正语义判断。实验表明，仅需少量触觉信息就能在语义分类和物性估计上优于纯视觉基线，并在腿足机器人上据地面摩擦概率切换步态，避免湿滑地形打滑跌倒。

PDF Project Project

AnyFeature-VSLAM: Automating the Usage of Any Feature into Visual SLAM figure

RSS2024Paper 084

AnyFeature-VSLAM: Automating the Usage of Any Feature into Visual SLAM

Alejandro Fontan, Javier Civera, Michael Milford

Queensland University of Technology1；University of Zaragoza2

机器人学习SLAM/定位感知安全数据操作

传统特征点式VSLAM常把前端与某一类视觉特征深度绑定，换用SIFT、AKAZE或R2D2时往往要重新手调阈值、匹配和词袋等细节，难以在不同场景切到更合适的特征。本文基于ORB-SLAM2，将这类特征相关的6个流程自动化，提出可无人工调参切换特征的AnyFeature-VSLAM。实验在4个公开数据集30段序列、7种关键点/描述子组合上表明，它整体上比原始或朴素替换基线更稳健，在多种特征下保持有竞争力的轨迹精度，并能在部分困难序列避免ORB-SLAM2的跟踪崩溃。

iMESA: Incremental Distributed Optimization for Collaborative Simultaneous Localization and Mapping figure

RSS2024Paper 085

iMESA: Incremental Distributed Optimization for Collaborative Simultaneous Localization and Mapping

Daniel McGann, Michael Kaess

The Robotics Institute, Carnegie Mellon University, Pittsburgh PA, USA

机器人学习SLAM/定位多机器人安全数据规划

论文针对多机器人在带宽受限、链路间歇且需在线重规划时，现有C-SLAM后端难同时兼顾精度、实时性与分布式协同的问题，提出增量式分布优化iMESA：用带偏置先验的可分ADMM在共享变量上逐步收紧一致性约束，并结合iSAM2高效吸收新观测，且适用于通用C-SLAM而非仅位姿图。实验表明，它在真实与合成数据上以稀疏两两通信实现更好的精度/时延表现，并优于现有增量分布式方法。

PDF AlphaXiv Code

Scalable Distance-based Multi-Agent Relative State Estimation via Block Multiconvex Optimization figure

RSS2024Paper 086

Scalable Distance-based Multi-Agent Relative State Estimation via Block Multiconvex Optimization

Tianyue Wu, Fei Gao

Institute of Cyber-Systems and Control；Zhejiang University, Hangzhou 310027

机器人学习多机器人安全基础模型数据控制

论文针对大规模多机器人仅靠距离测量进行相对状态估计时，现有方法虽鲁棒但难扩展、局部优化又强依赖初始化的问题，提出以“广义图实现”为统一建模，并设计两个可分解的块多凸模型：用于全局初始化的边式凸松弛和用于精修的快速局部搜索，均可用块坐标下降实现分布式求解且给出收敛保证。实验表明，该组合在精度上与现有集中式凸松弛方法相当或更优，同时显著提升可扩展性与计算效率，并在连续时间场景中比单独使用局部搜索更稳健。

Experience-based multi-agent path finding with narrow corridors figure

RSS2024Paper 087

Experience-based multi-agent path finding with narrow corridors

Rachel A Moan, Courtney McBeth, Marco Morales, Nancy Amato, Kris Hauser

University of Illinois at Urbana-Champaign

机器人学习规划多机器人数据安全导航

针对经验式多机器人路径规划以往几乎只适用于宽敞仓储地图、难以处理单格门洞和狭窄走廊的问题，本文把冲突局部化为可复用模板子问题，新增 5×2 门洞模板与容量约束，并改进子问题选择、临时目标分配和等待策略，以减少局部死锁和无谓绕行。实验表明，该方法可在拥挤含门洞环境中于数秒内处理数百机器人，相比现有最优 MAPF 方法更常在时限内找到解，单机器人等待步数最高下降 94%，路径偏离解耦路径最高下降 71%。

Event-based Visual Inertial Velometer figure

RSS2024Paper 088

Event-based Visual Inertial Velometer

Xiuyuan LU, Yi Zhou, Junkai Niu, sheng zhong, Shaojie Shen

CKS Robotic Institute, Hong Kong University of Science and Technology, Hong Kong, China；School of Robotics, Hunan University, Changsha, China

机器人学习感知数据SLAM/定位生成模型控制

这篇工作针对事件相机里程计在剧烈运动下常因局部地图更新滞后、数据关联困难而跟踪失效的问题，提出放弃以位姿为中心的建图式估计，转而依据事件相机的微分成像机理直接恢复瞬时线速度。方法构建了无地图的连续时间事件—惯性测速器，用双目事件相机提供法向流与深度约束，并与IMU异步增量融合。仿真和真实实验表明，该方法能以公制尺度、低延迟估计线速度，并在激烈机动场景下更稳。

PDF AlphaXiv Video

Explore until Confident: Efficient Exploration for Embodied Question Answering figure

RSS2024Paper 089

Explore until Confident: Efficient Exploration for Embodied Question Answering

Allen Z. Ren, Jaden Clark, Anushri Dixit, Masha Itkina, Anirudha Majumdar, Dorsa Sadigh

∗Princeton University † Stanford University ‡ Toyota Research Institute

机器人学习视觉语言模型感知数据SLAM/定位人机交互

面向EQA中机器人需边探索边回答、却常因VLM缺乏跨时记忆和置信度失准而早停或过度搜索的问题，本文将VLM对当前视野的语义判断写入由深度构建的全局语义地图，优先引导机器人前往与问题相关的区域，并用多步保形预测维护答案集合，在集合收缩为单一选项时再停止。作者还基于HM3D构建了HM-EQA数据集；仿真和Fetch实机实验表明，该方法相较不利用VLM语义或不做置信校准的基线，在回答成功率与探索效率上都更好。

PDF AlphaXiv Project

Octo: An Open-Source Generalist Robot Policy figure

RSS2024Paper 090

Octo: An Open-Source Generalist Robot Policy

Dibya Ghosh, Homer Rich Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Lawrence Yunliang Chen, Quan Vuong, Ted Xiao, Pannag R Sanketi, Dorsa Sadigh, Chelsea Finn, Sergey Levine

UC Berkeley 2Stanford 3Carnegie Mellon University 4Google Deepmind；Berkeley Insertion；Stanford Coffee；Berkeley Bimanual

基础模型数据操作控制机器人学习灵巧手

论文针对通用机器人策略难以同时兼容多机器人形态、传感器和动作空间、且下游迁移成本高的问题，提出开源的Octo：以Transformer为骨干，通过统一token接口接入语言或目标图像任务、不同相机/本体观测及不同动作空间，并可用少量目标域数据在数小时内完成适配微调。基于Open X-Embodiment的80万条轨迹预训练后，Octo在9个机器人平台上展示了开箱即用控制与跨新观测/动作空间微调的有效性；消融显示收益很大程度来自更大规模、更多样的数据混合和更灵活的模型设计。

PDF AlphaXiv Project

Demonstrating OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics figure

RSS2024Paper 091

Demonstrating OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

Peiqi Liu, Yaswanth Orru, Jay Vakil, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto

New York University1, AI at Meta2

机器人学习操作灵巧手导航感知视觉语言模型

论文关注一个反常现象：物体识别、导航和抓取单项能力已较成熟，但开放词汇家庭操作仍很脆弱。作者提出系统优先的OK-Robot，用iPhone预扫描构建VoxelMap语义记忆，再串联OWL-ViT/CLIP定位、Lang-SAM+AnyGrasp抓取与投放启发式，在零训练下完成家庭搬运。核心洞察不是更大的模型，而是查询措辞、可达导航点、抓取器选择和机器人物理补偿等集成细节决定成败；其在10个真实家庭中的开放式搬运成功率为58.5%，较先前OVMM方法约提升1.8倍，较整洁环境可达82.4%。

PDF AlphaXiv Project

Any-point Trajectory Modeling for Policy Learning figure

RSS2024Paper 092

Any-point Trajectory Modeling for Policy Learning

Chuan Wen, Xingyu Lin, John Ian Reyes So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel

UC Berkeley；IIIS, Tsinghua University；Stanford University；Shanghai AI Laboratory；Shanghai Qi Zhi Institute

数据模仿学习机器人学习控制操作感知

论文针对机器人模仿学习中动作标注演示昂贵、无标签视频难以提取控制信息的问题，提出ATM：先在无动作视频上自监督学习“任意点未来轨迹”预测，再把相机坐标系下的2D点轨迹作为策略的结构化引导，比静态表征或像素级视频预测更直接编码物体运动与时序。其在仿真和真实世界130多个语言条件操作任务上平均成功率达63%，显著高于最强基线37%，并展示了从人类视频和异构机器人视频迁移操作技能的能力。

PDF AlphaXiv Project

Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation figure

RSS2024Paper 093

Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation

Jonathan Heewon Yang, Catherine Glossop, Arjun Bhorkar, Dhruv Shah, Quan Vuong, Chelsea Finn, Dorsa Sadigh, Sergey Levine

∗Stanford University；University of California, Berkeley；Google Deepmind

机器人学习数据操作导航基础模型控制

论文追问跨具身学习的边界：导航与操作这两类看似差异极大的数据，能否在同一策略中互相迁移。作者将不同机器人统一为目标到达任务，在18个异构数据集上训练单一目标条件策略，并通过动作坐标粗对齐让机械臂、移动底盘、四足和无人机共享表示。结果显示，引入导航数据可使腕视角操作成功率较仅操作训练提升约20%，联合训练也让导航提升5%–7%，且仅用导航+静态操作数据即可零样本控制新型移动操作机器人；但增益来源未被完全拆解，可能部分来自数据规模与混合训练。

PDF AlphaXiv Project Project

DrEureka: Language Model Guided Sim-To-Real Transfer figure

RSS2024Paper 094

DrEureka: Language Model Guided Sim-To-Real Transfer

Yecheng Jason Ma, William Liang, Hung-Ju Wang, Yuke Zhu, Linxi Fan, Osbert Bastani, Dinesh Jayaraman

eureka-research.github.io/dr-eureka；University of Pennsylvania；NVIDIA；University of Texas, Austin

机器人学习仿真到现实视觉语言模型强化学习腿足机器人灵巧手

这篇工作针对 sim-to-real 仍依赖人工反复调奖励和仿真参数、效率低且经验门槛高的问题，提出 DrEureka：让大语言模型联合自动生成带安全约束的奖励函数，并通过策略在扰动物理中的表现构造 reward-aware physics prior，再据此生成更合理的 domain randomization 分布。实机上，四足前进速度和行进距离较人工方案分别提升34%和20%，灵巧手转方块次数提升近300%，还在几乎无人工迭代下完成了四足在瑜伽球上的平衡行走。

PDF AlphaXiv Project

Set It Up!: Functional Object Arrangement with Compositional Generative Models figure

RSS2024Paper 095

Set It Up!: Functional Object Arrangement with Compositional Generative Models

Yiqing Xu, Jiayuan Mao, Yilun Du, Tomás Lozano-Pérez, Leslie Pack Kaelbling, David Hsu

⇤School of Computing, Smart System Institute, National University of Singapore；CSAIL, Massachusetts Institute of Technology

机器人学习数据视觉语言模型安全生成模型扩散策略

论文关注机器人理解“把桌子布置好”这类欠明确指令的难题：系统既要从极少示例中学到功能性摆放规则，又要泛化到未见物体。SetItUp 的核心洞察是先预测抽象空间关系、再求具体位姿：用少样本示例和人工程序草图提示 LLM 生成关系约束，再组合关系级扩散模型把约束落地为整体布局。在书桌、餐桌和咖啡桌任务上，规则指标与人工评测都表明它优于纯 LLM 和端到端生成基线，摆放更物理可行、更符合功能且更美观。

PDF AlphaXiv Project

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics figure

RSS2024Paper 096

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics

Norman Di Palo, Edward Johns

Imperial College London

模仿学习感知数据基础模型机器人学习扩散策略

论文针对机器人少样本模仿学习依赖大量示教、难以快速部署新技能的问题，提出KAT：把视觉观测中的关键点轨迹和末端动作离散成文本样式token，直接让现成文本Transformer以提示学习方式从少量示教中续写动作序列，无需机器人数据预训练或额外微调。真实世界多项日常任务实验表明，在10次左右示教的低数据区间，KAT在空间泛化、新物体和6DoF轨迹上与扩散策略相当或更优，但文中也指出其随示教数增大扩展性较差。

PDF AlphaXiv Video

ConTac: Continuum-Emulated Soft Skinned Arm with Vision-based Shape Sensing and Contact-aware Manipulation figure

RSS2024Paper 097

ConTac: Continuum-Emulated Soft Skinned Arm with Vision-based Shape Sensing and Contact-aware Manipulation

Tuan Tai Nguyen, Quan Khanh Luu, Dinh Quang Nguyen, Van Ho

机器人学习感知触觉控制操作安全

面向连续体/超冗余机械臂在拥挤环境中难以同时获得形状感知与接触感知的问题，论文提出 ConTac：在带标记的柔性皮肤内置鱼眼相机，用两个仅基于仿真训练的视觉模型统一完成姿态重建与触点定位，并零样本迁移到真实机器人，再结合导纳控制实现碰撞后的顺应操作。实验中末端位置平均误差为 8.83 mm、触点定位误差为 28.86 mm，且可迁移到另一同结构模块而无需额外微调。

Function Based Sim-to-Real Learning for Shape Control of Deformable Free-form Surfaces figure

RSS2024Paper 098

Function Based Sim-to-Real Learning for Shape Control of Deformable Free-form Surfaces

Yingjun Tian, Guoxin Fang, Renbo Su, Weiming Wang, Simeon Gill, Andrew Weightman, Charlie C. L. Wang

The University of Manchester；The Chinese University of Hong Kong

机器人学习仿真到现实控制数据SLAM/定位感知

这篇工作针对可变形自由曲面形状控制中“仿真形变与真实硬件不一致”、且动捕标记稀疏甚至缺失的问题，提出函数式 sim-to-real 学习：用 B 样条控制点表征模拟曲面，再由网络直接预测基于 RBF 的空间变形函数，而不是只回归标记点位置，因此能端到端利用不完整观测。该方法嵌入气动软体人体模型的前向/逆运动学管线后，相比不做迁移或标记点预测基线能更准确逼近真实表面，并将单个目标形状的求解时间压到 10 秒内。

Safe & Accurate at Speed with Tendons: A Robot Arm for Exploring Dynamic Motion figure

RSS2024Paper 099

Safe & Accurate at Speed with Tendons: A Robot Arm for Exploring Dynamic Motion

Simon Guist, Jan Schneider, Hao Ma, Le Chen, Vincent Berenz, Julian Martus, Heiko Ott, Felix Grüninger, Michael Muehlebach, Jonathan Fiene, Bernhard Schölkopf, Dieter Büchler

机器人学习安全触觉控制灵巧手强化学习

论文关注机器人在高速、精准与碰撞安全之间长期难以兼得的问题，提出4自由度肌腱驱动机械臂PAMY2：把驱动放到基座以降低运动惯量，并结合气动人工肌肉的被动顺应性与低摩擦导索/关节轴承设计，缓解肌腱方案常见的摩擦、磨损和控制难题。实验显示，它在约4倍于Franka Panda和UR5e的速度下仍能产生相近冲击力，连续运行25天验证了耐久性；在从零强化学习的动态乒乓扣杀任务中，球速翻倍且精度更高。

Evolution and learning in differentiable robots figure

RSS2024Paper 100

Evolution and learning in differentiable robots

Luke Strgar, David Matthews, Tyler Hummer, Sam Kriegman

Northwestern University

机器人学习控制安全仿真到现实

针对机器人形态—控制协同设计长期受限于串行、不可微评估且缺乏仿真到现实验证的问题，本文提出“外层进化搜形态、内层可微仿真学控制”的双层框架：遗传算法离散地增删重组机体结构，海量并行可微仿真则为每个候选体型分别训练神经控制器并据此评分。关键洞察是，进化会稳定地产生“更可微”的身体结构，使控制学习的损失地形更平滑、训练路径更好。实验表明该方法可比以往多探索数个数量级的设计，并将一种高可微形态成功落地到真实机器人且基本保留优化后的行为。

PDF AlphaXiv Project

Construction of a Multiple-DOF Underactuated Gripper with Force-Sensing via Deep Learning figure

RSS2024Paper 101

Construction of a Multiple-DOF Underactuated Gripper with Force-Sensing via Deep Learning

Jihao Li, Keqi Zhu, Guodong Lu, I-Ming Chen, HUIXU DONG

机器人学习灵巧手触觉控制安全

论文针对欠驱动夹爪常见的抓取模式单一、载荷与稳定性不足、且缺少低成本力反馈的问题，提出一种单电机驱动的双三指节夹爪：机械上用双四连杆堆叠成五连杆手指，实现平行抓取与包络抓取的自适应切换；控制上将电机电流统计、LSTM抓取模式识别与运动/传力解析模型结合，在无力传感器条件下估计接触力并闭环控制。实验表明，该夹爪可覆盖更大尺寸物体，并在抓取力、载荷、稳定性和力感知方面优于对比夹爪（如 Robotiq85）。

PDF AlphaXiv Video

A Single Motor Nano Aerial Vehicle with Novel Peer-to-Peer Communication and Sensing Mechanism figure

RSS2024Paper 102

A Single Motor Nano Aerial Vehicle with Novel Peer-to-Peer Communication and Sensing Mechanism

Jingxian Wang, Andrew G. Curtis, Mark Yim, Michael Rubenstein

Center for Robotics and Biosystems, Northwestern University；GRASP Lab, University of Pennsylvania

机器人学习安全多机器人自动驾驶操作人机交互

这篇工作针对群体微型无人机难以同时兼顾机载通信、相对定位、低成本与人机安全的问题，提出单电机纳米飞行器 MP3。其关键洞察是把单旋翼飞行时约25Hz的机体自旋从控制负担变成感知资源：3个定向红外接收器随机体完成全向扫描，再利用红外报文到达时刻做单机三角测量，恢复邻居的方位、距离和仰角，并据此做全局定位与位置控制。实验表明，这台仅20g、部分包覆桨叶的飞行器可实现对等通信、自定位、稳定飞行和航点机动。

Design and Control of a Bipedal Robotic Character figure

RSS2024Paper 103

Design and Control of a Bipedal Robotic Character

Ruben Grandia, Espen Knoop, Michael A. Hopkins, Georg Wiedebach, Jared Bishop, Steven Pickles, David Müller, Moritz Bächer

∗Disney Research, Switzerland, †Disney Research, USA, ‡Walt Disney Imagineering R&D, USA

腿足机器人控制强化学习触觉人机交互机器人学习

论文面向娱乐和人机交互场景中双足机器人“既要稳定运动、又要具备角色表现力”的难题，提出从角色化机械设计、动画制作到控制与实时操控的一体化流程：机器人形态由创意目标驱动，控制上将不同动作类别拆分为强化学习模仿策略，并由动画引擎输出低维指令实现动作混合、切换与抗扰执行，再配合木偶式操控界面完成实时演出。结果表明，该系统能在真实平台上完成非脚本化表演、与人和道具互动，验证了艺术化动作与动态移动的兼容性，但多策略训练开销较大。

POLICEd RL: Learning Closed-Loop Robot Control Policies with Provable Satisfaction of Hard Constraints figure

RSS2024Paper 104

POLICEd RL: Learning Closed-Loop Robot Control Policies with Provable Satisfaction of Hard Constraints

Jean-Baptiste Bouvier, Kartik Nagpal, Negar Mehr

ICON Lab, University of California Berkeley

机器人学习安全强化学习触觉控制人机交互

面向人机交互等安全关键任务，作者指出常见安全强化学习多靠惩罚项实现“软约束”，难以证明闭环系统永不越界。POLICEd RL 的核心是在危险集合外构造仿射“排斥缓冲区”，并强制策略在该区域内保持仿射，使其可对黑盒动力学下是否会触碰仿射状态约束进行解析验证，同时把安全策略是否存在转化为线性可解问题。MuJoCo 中的倒立摆和 7 自由度机械臂实验表明，该方法既能满足硬约束，也在安全性和累计回报上优于多种基线。

PDF AlphaXiv Code

Demonstrating Language-Grounded Motion Controller figure

RSS2024Paper 105

Demonstrating Language-Grounded Motion Controller

Ravi Tejwani, Chengyuan Ma, Paco Gomez-Paz, Paolo Bonato, Haruhiko Asada

Massachusetts Institute of Technology；Harvard Medical School

机器人学习控制人机交互多机器人灵巧手模仿学习

这篇工作关注接触式人机协作中“机器人一边带动人、一边说话”常出现的节奏失配问题，尤其当人的配合度实时变化时，固定语速和固定运动容易让指导变得生硬。作者从康复治疗师带病人训练的观察中提炼原则，设计语言落地运动控制器，把导纳控制、语音播放速度和沿轨迹的语句改写联合起来，使机器人能随用户阻力同步调整动作快慢与指令长短。12名用户实验表明，该方法相比基线更能对齐语音与运动的完成时序，协作表现更流畅。

PDF Code Project Project

VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation figure

RSS2024Paper 106

VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation

Wentao Zhao, Jiaming Chen, Ziyu Meng, DonghuiMao, Ran Song, Wei Zhang

School of Control Science and Engineering, Shandong University, China

机器人学习视觉语言模型感知规划控制操作

该文针对两类方法的缺口：传统MPC能预测未来却缺少开放环境感知，VLM式规划能理解场景却缺乏对动作后果的前瞻。作者提出VLMPC，将VLM嵌入MPC闭环，用目标图像或语言条件化采样候选动作，再结合轻量动作条件视频预测与像素级、知识级分层代价评估未来结果，从而在无需手工原语的情况下选出更合理的操作序列。实验表明，其在公开基准和多项真实机器人操作任务上均优于现有方法。

PDF AlphaXiv Code

Expressive Whole-Body Control for Humanoid Robots figure

RSS2024Paper 107

Expressive Whole-Body Control for Humanoid Robots

Xuxin Cheng, Yandong Ji, Junming Chen, Ruihan Yang, Ge Yang, Xiaolong Wang

机器人学习腿足机器人控制数据强化学习灵巧手

论文针对人形机器人难以直接复现人类动捕动作的问题：机器人自由度更少、驱动能力更弱，逐关节模仿会牺牲稳定性。其核心洞察是把“表达性”和“行走稳健性”解耦：上半身尽量跟踪参考动作保留风格，下肢只需稳健满足根部速度/朝向命令，并在随机地形中做 sim2real 强化学习训练单一策略。结果是在 Unitree H1 上实现多风格行走、挥手、握手、拥抱、与人共舞等真实世界行为，且比更强下肢模仿约束更稳健。

PDF AlphaXiv Project

From Compliant to Rigid Contact Simulation: a Unified and Efficient Approach figure

RSS2024Paper 108

From Compliant to Rigid Contact Simulation: a Unified and Efficient Approach

Justin Carpentier, Quentin Le Lidec, Louis Montaut

Inria, ´Ecole normale sup´erieure；CNRS, PSL Research University

机器人学习人机交互灵巧手控制腿足机器人强化学习

论文针对机器人接触仿真中的两难：现有引擎常靠物理松弛换稳定性，或在多接触、病态条件下扩展性很差。作者将刚性与柔顺接触统一为非线性互补问题，用ADMM结合近端算法同时求解前向/逆向动力学，并提出基于谱性质的自适应参数更新以加速收敛。实验表明，该方法在简单场景与经典求解器相当，但在几十个接触点、质量差异大或条件数差的机器人与颗粒场景中更稳健、效率更高。

PDF AlphaXiv Code Video

MPCC++: Model Predictive Contouring Control for Time-Optimal Flight with Safety Constraints figure

RSS2024Paper 109

MPCC++: Model Predictive Contouring Control for Time-Optimal Flight with Safety Constraints

Maria Krinner, Angel Romero, Leonard Bauersfeld, Melanie Zeilinger, Andrea Carron, Davide Scaramuzza

Institute for Dynamics Systems and Control, ETH Zurich, Switzerland；Robotics and Perception Group, University of Zurich, Switzerland

控制安全规划强化学习机器人学习灵巧手

针对传统无人机竞速MPCC把过门要求揉进代价函数、导致进度与贴线持续权衡且难以调参的问题，本文提出MPCC++：用棱柱形赛道约束和终端集合把安全直接写成空间约束，避免撞门；再以真实数据学习残差动力学补偿气动与推力误差，并用TuRBO自动调超参。仿真和实机中，该方法在满足约束下取得与最强RL接近的圈速、优于既有模型法，并以100%成功率实现无撞门、速度超过80km/h的飞行。

PDF AlphaXiv Dataset Video

Linear-time Differential Inverse Kinematics: an Augmented Lagrangian Perspective figure

RSS2024Paper 110

Linear-time Differential Inverse Kinematics: an Augmented Lagrangian Perspective

Bruce Wingo, Ajay Suresha Sathya, Stéphane Caron, Seth Hutchinson, Justin Carpentier

Inria, ´Ecole normale sup´erieure, CNRS, PSL Research University, 75005 Paris, France；∗Institute for Robotics and Intelligent Machines, Georgia Institute of Technology, Atlanta, GA 30332, USA

机器人学习安全灵巧手腿足机器人控制规划

论文针对微分逆运动学长期依赖QP、在控制环和规划内循环中计算开销偏大的问题，提出从增广拉格朗日/ADMM重构IK求解：在混合空间速度—关节坐标中显式利用运动学树稀疏性，用三遍递归在线性时间内求解等式约束子问题，并以投影式ADMM处理关节与任务不等式约束。作者实现了开源C++库LOIK，在机械臂和类人步行基准上相较现有QP方法获得约2–3倍加速，且复杂度由立方级降为线性。

A Trajectory Tracking Algorithm for the LSMS Family of Cable-Driven Cranes figure

RSS2024Paper 111

A Trajectory Tracking Algorithm for the LSMS Family of Cable-Driven Cranes

Javier Puig-Navarro, Dominic R Bisio, John E Pye, Yotam Granov, Joshua N Moser, Jessica S. Friz, Walter J Waltz, Julia E Cline, B. Danette Allen

NASA Langley Research Center, Hampton, Virginia, USA 23666

机器人学习操作控制安全灵巧手

面向月球/火星表面施工中，LSMS 这类高载荷比长臂缆驱起重机因缆绳几何、关节耦合、撑杆接触切换和张力保持而难以精确跟踪任意轨迹，论文先推导其非线性、耦合、混杂动力学，再基于 Lyapunov 与切换系统理论设计非线性轨迹跟踪律。主要结果是：理想条件下关节角误差局部指数稳定；考虑几何不确定性和电机跟踪误差后，误差一致最终有界，并在 LSMS-L35 上完成复杂轨迹实机验证。

AutoGPT+P: Affordance-based Task Planning using Large Language Models figure

RSS2024Paper 112

AutoGPT+P: Affordance-based Task Planning using Large Language Models

Timo Birr, Christoph Pohl, Abdelrahman Younes, Tamim Asfour

Karlsruhe Institute of Technology, Germany

机器人学习规划视觉语言模型数据感知灵巧手

针对LLM结合经典规划仍受闭世界假设限制、难从真实场景动态构造初始状态的问题，本文提出AutoGPT+P：用目标检测与ChatGPT生成的对象-可供性映射构建场景表示，再从可供性自动生成规划域，并在缺失关键物体时通过搜索、功能替代或部分计划继续执行，同时加入语义/语法纠错提升规划稳健性。在SayCan指令集上其规划成功率达98%，在自建150个含缺失物体的复杂场景上达79%，并完成了人形机器人实机验证。

Implicit Graph Search for Planning on Graphs of Convex Sets figure

RSS2024Paper 113

Implicit Graph Search for Planning on Graphs of Convex Sets

Ramkumar Natarajan, Chaoqi Liu, Howie Choset, Maxim Likhachev

∗The Robotics Institute at Carnegie Mellon University；Department of Computer Science at the University of Illinois at Urbana-Champaign

机器人学习规划导航安全操作

本文针对 GCS 需要对整张凸集图进行与规划查询无关的大规模批量优化、现实问题中常含数百万约束而速度受限的痛点，提出 IxG/IxG*：把 INSAT 的隐式图搜索与局部凸轨迹优化交错执行，只在搜索实际触及的少量凸集上增量求解并复用已有部分轨迹。实验显示，该方法在多类导航与操作任务上通常能以数量级加速获得更低代价的平滑无碰轨迹，并相对 GCS 提供更强的完备性与最优性保证，覆盖到 18 自由度多臂装配场景。

PDF AlphaXiv Project

Real-Time Anomaly Detection and Reactive Planning with Large Language Models figure

RSS2024Paper 114

Real-Time Anomaly Detection and Reactive Planning with Large Language Models

Rohan Sinha, Amine Elhafsi, Christopher Agia, Matt Foutter, Edward Schmerling, Marco Pavone

机器人学习视觉语言模型安全控制感知规划

论文针对机器人在分布外异常下，LLM虽有零样本泛化却难以实时落地、也难与安全控制闭环结合的问题，提出AESOP两阶段框架：先在LLM嵌入空间中利用与历史正常经验的相似性做快速异常检测，再触发慢速生成式推理判断异常是否真正危险并选择回退策略，同时用MPC维持多条恢复轨迹在推理延迟内始终可行。实验表明，该嵌入式检测即使用小模型也优于GPT类自回归推理，可在Jetson上20Hz运行，并在四旋翼和自动驾驶场景中提升异常下的安全性与可信性。

PDF AlphaXiv Project

iHERO: Interactive Human-oriented Exploration and Supervision Under Scarce Communication figure

RSS2024Paper 115

iHERO: Interactive Human-oriented Exploration and Supervision Under Scarce Communication

Zhuoli Tian, Yuyang Zhang, Jinsheng Wei, Meng Guo

College of Engineering, Peking University

机器人学习感知数据多机器人导航安全

面向地下搜救等只能依赖近距离自组网的多机器人探索，本文指出现有受限通信方法多只优化覆盖效率，忽视操作者对任务进度、重点区域和自身移动的在线监督需求。iHERO将前沿探索、机器人间间歇换图、以及回到操作者处汇报统一成一套在线协调框架，支持优先区域与操作者动态移动，并对状态反馈时延给出可满足的保证。大规模人在环仿真和实机实验表明，它在复杂场景中能同时维持较好的探索面积、效率和监督可用性。

PDF AlphaXiv Project

Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots figure

RSS2024Paper 116

Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots

Haimin Hu, Gabriele Dragotto, Zixu Zhang, Kaiqu Liang, Bartolomeo Stellato, Jaime Fernández Fisac

∗Department of Electrical and Computer Engineering, Princeton University, United States；Department of Operations Research and Financial Engineering, Princeton University, United States；Department of Computer Science, Princeton University, United States

机器人学习自动驾驶多机器人控制安全规划

论文关注安全关键的多机器人协同中“谁先决策”会显著影响整体效率，而对所有先后顺序做穷举会因组合爆炸而失效。作者将最优出手顺序表述为 N 人 Stackelberg 轨迹博弈上的混合整数优化，提出精确的 Branch-and-Play 分支定界算法，并结合、扩展顺序轨迹规划高效求解给定顺序下的局部均衡；同时证明在碰撞规避这类偏好一致的交互中，STP 单次前向规划即可得到局部 Stackelberg 均衡。空管、无人机编队和配送车队的仿真与硬件实验表明，该方法稳定优于先来先服务和 Nash 等基线，并能找到社会最优均衡。

PDF AlphaXiv Video

Goal-Reaching Trajectory Design Near Danger with Piecewise Affine Reach-avoid Computation figure

RSS2024Paper 117

Goal-Reaching Trajectory Design Near Danger with Piecewise Affine Reach-avoid Computation

Long Kiu Chung, Wonsuhk Jung, Chuizheng Kong, Shreyas Kousik

机器人学习安全规划控制自动驾驶灵巧手

论文关注“近危险”目标到达：机器人虽已接近目标，却被窄缝障碍阻挡，现有基于可达性的安全规划常因模型跟踪误差和数值近似过保守而无法真正到达。文中提出 PARC，在规划器-跟踪器框架下把低维规划模型写成时变分段仿射系统，利用固定模式序列将局部动力学化为仿射形式，并用 H-多面体更紧地欠近似后向到达-避障集，同时处理时变跟踪误差。实验显示其在 near-danger 场景中优于现有方法，还实现了具安全保证的漂移泊车仿真与 TurtleBot3 初步硬件验证。

PDF AlphaXiv Code Code

Partially Observable Task and Motion Planning with Uncertainty and Risk Awareness figure

RSS2024Paper 118

Partially Observable Task and Motion Planning with Uncertainty and Risk Awareness

Aidan Curtis, George Matheos, Nishad Gothoskar, Vikash Mansinghka, Joshua B. Tenenbaum, Tomás Lozano-Pérez, Leslie Pack Kaelbling

MIT Computer Science and Artificial Intelligence Laboratory

机器人学习规划控制安全导航操作

针对传统TAMP默认全可观测、动作效果确定，因而难以主动探测环境并规避不可逆风险的问题，文中提出TAMPURA：用闭环控制器的粗粒度前提与可能效果，先由确定化规划引导在抽象信念空间中学习稀疏MDP，再进行风险感知规划并细化为连续执行。实验覆盖遮挡、位姿、物理与SLAM等多种不确定性，并在仿真和两项真实任务中优于确定化TAMP、MCTS和RL，尤其更擅长信息收集与安全决策。

Logic-Skill Programming: An Optimization-based Approach to Sequential Skill Planning figure

RSS2024Paper 119

Logic-Skill Programming: An Optimization-based Approach to Sequential Skill Planning

Teng Xue, Amirreza Razmjoo, Suhan Shetty, Sylvain Calinon

Idiap Research Institute

机器人学习操作强化学习规划触觉控制

该文针对独立训练的操作技能在“只给最终几何目标、没有显式符号目标”时难以最优串联的问题，提出 Logic-Skill Programming：将长时序技能规划表述为一阶逻辑约束下的优化，以各技能价值函数之和与终态评分为目标，并用张量列车压缩价值空间，在符号骨架搜索与子目标价值优化之间交替求解。实验显示，其累计回报近似优于若干强化学习基线，并在三类抓取/非抓取任务及真实机器人上，在实验设置中找到完整逻辑—几何路径的最优方案，并能应对接触不确定性与外部扰动。

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset figure

RSS2024Paper 120

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Alexander Khazatsky, Karl Pertsch, Suraj Nair, Ashwin Balakrishna, Sudeep Dasari, Siddharth Karamcheti, Soroush Nasiriany, Mohan Kumar Srirama, Lawrence Yunliang Chen, Kirsty Ellis, Peter David Fagan, Joey Hejna, Masha Itkina, Marion Lepert, Yecheng Jason Ma, Patrick Tree Miller, Jimmy Wu, Suneel Belkhale, Shivin Dass, Huy Ha, Arhan Jain, Abraham Lee, Youngwoon Lee, Marius Memmel, Sungjae Park, Ilija Radosavovic, Kaiyuan Wang, Albert Zhan, Kevin Black, Cheng Chi, Kyle Beltran Hatch, Shan Lin, Jingpei Lu, Jean Mercat, Abdul Rehman, Pannag R Sanketi, Archit Sharma, Cody Simpson, Quan Vuong, Homer Rich Walke, Blake Wulfe, Ted Xiao, Jonathan Heewon Yang, Arefeh Yavary, Tony Z. Zhao, Christopher Agia, Rohan Baijal, Mateo Guaman Castro, Daphne Chen, Qiuyu Chen, Trinity Chung, Jaimyn Drake, Ethan Paul Foster, Jensen Gao, David Antonio Herrera, Minho Heo, Kyle Hsu, Jiaheng Hu, Donovon Jackson, Charlotte Le, Yunshuang Li, Roy Lin, Zehan Ma, Abhiram Maddukuri, Suvir Mirchandani, Daniel Morton, Tony Nguyen, Abigail O'Neill, Rosario Scalise, Derick Seale, Victor Son, Stephen Tian, Emi Tran, Andrew E. Wang, Yilin Wu, Annie Xie, Jingyun Yang, Patrick Yin, Yunchu Zhang, Osbert Bastani, Glen Berseth, Jeannette Bohg, Ken Goldberg, Abhinav Gupta, Abhishek Gupta, Dinesh Jayaraman, Joseph J Lim, Jitendra Malik, Roberto Martín-Martín, Subramanian Ramamoorthy, Dorsa Sadigh, Shuran Song, Jiajun Wu, Michael C. Yip, Yuke Zhu, Thomas Kollar, Sergey Levine, Chelsea Finn

Laboratory

机器人学习数据操作基础模型人机交互安全

论文动机是现有机器人操作数据多来自少量实验室场景，难以支撑策略在真实家庭和办公室中的泛化。DROID的核心贡献不是提出新模型，而是设计了可跨机构复现的统一采集平台与流程，在13家机构的564个场景、86类任务上收集7.6万条野外示教数据，并附带多视角图像、深度、标定和语言标注。实验表明，用DROID训练的扩散策略在6个任务、4类地点平均较现有大规模数据方案提升约20%，更稳健且更能跨场景泛化；增益可能主要来自scaling/data。

PDF AlphaXiv Project

Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals figure

RSS2024Paper 121

Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals

Moritz Reuss, Ömer Erdinç Yağmurlu, Fabian Wenzel, Rudolf Lioutikov

Intuitive Robots Lab, Karlsruhe Institute of Technology, Germany

机器人学习数据扩散策略模仿学习操作基础模型

论文针对机器人模仿学习过度依赖全量语言标注、难以利用稀疏标注 play 数据的问题，提出 MDT：用多模态扩散 Transformer 学习目标条件状态表征，对齐图像目标与语言目标，并以 MGF 未来帧重建和 CLA 对比对齐两种自监督目标增强长时程操作。结果上，MDT 在 CALVIN 和 LIBERO 共164项任务上表现领先，在仅约1%语言标注的 CALVIN 上较既有 SOTA 绝对提升15%，在少于2%语言标注的 LIBERO 版本也保持竞争力，且无需大规模预训练。

PDF AlphaXiv Project Project

Don't Start From Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion figure

RSS2024Paper 122

Don't Start From Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion

Kaiqi Chen, Eugene Lim, Lin Kelvin, Yiyang Chen, Harold Soh

Dept. of Computer Science, National University of Singapore.；Smart Systems Institute, NUS.

机器人学习扩散策略模仿学习生成模型数据灵巧手

论文指出，扩散式模仿学习通常从高斯噪声开始生成动作，但机器人目标策略常是高维、多峰且与高斯分布相差很大，因而在少步采样和小数据场景下容易失效。作者提出 BRIDGeR，用随机插值框架把任意源策略（如启发式或数据驱动策略）桥接到专家策略，相当于先从“更像样”的初始行为出发，并给出源策略质量影响最终策略的理论分析。仿真厨房、抓取、灵巧手及真实机器人实验表明，信息更强的源策略通常明显优于高斯起点，BRIDGeR 也在推理速度与成功率的权衡上超过现有扩散策略。

PDF AlphaXiv Code

Learning Manipulation by Predicting Interaction figure

RSS2024Paper 123

Learning Manipulation by Predicting Interaction

Jia Zeng, Qingwen Bu, Bangjun Wang, Wenke Xia, Li Chen, Hao Dong, Haoming Song, Dong Wang, Di Hu, Ping Luo, Heming Cui, Bin Zhao, Xuelong Li, Yu Qiao, Hongyang Li

Shanghai Jiao Tong University；Renmin University of China；Peking University；Northwestern Polytechnical University

机器人学习人机交互操作数据感知基础模型

这篇工作针对现有机器人操作表征学习多借助人类视频、却偏重语义对齐或掩码重建，难以捕捉决定操作成败的交互动态这一问题，提出 MPI：输入初始/结束关键帧与语言指令，同时预测中间过渡帧以学习“怎么交互”，定位被操作物体以学习“在哪交互”，并在统一 Transformer 中联合建模。实验表明，它在真实机器人、Franka Kitchen、指代表达定位等任务上相对以往方法提升约 10%–64%，在 Meta-World 上小模型也能优于更大基线。

PDF AlphaXiv Code

URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images figure

RSS2024Paper 124

URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images

Qiuyu Chen, Aaron Walsman, Marius Memmel, Kaichun Mo, Alex Fang, Dieter Fox, Abhishek Gupta

University of Washington；Nvidia

机器人学习数据生成模型控制感知操作

这篇工作针对机器人学习中仿真场景仍依赖人工搭建、难同时具备视觉真实感与关节结构的问题，提出URDFormer：先用可控文生图把程序生成的URDF场景转成逼真图像，构造大规模图像-URDF配对数据，再训练Transformer从真实图片与部件框恢复带语义、运动学和动力学信息的仿真环境，并配合目标化随机化训练控制策略。实验中其生成约11.8万单体与20万厨房场景样本，部件检测F1提升到79.7%，real2sim2real在真实铰接物操作上总体成功率78%，开关任务达85%。

PDF AlphaXiv Project

Learning to Learn Faster from Human Feedback with Language Model Predictive Control figure

RSS2024Paper 125

Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Jacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Maria Attarian, Maria Bauza Villalonga, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil J Joshi, Ben Jyenis, J Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Kenneth Oslund, Dushyant Rao, Allen Z. Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, brian ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada

机器人学习视觉语言模型控制人机交互规划强化学习

论文关注机器人用代码生成型LLM接收人类多轮反馈时，受上下文窗口限制而“学得快但忘得也快”的问题。作者将人机教学过程建模为POMDP，提出把补全历史交互的微调视作学习交互动力学，并结合MPC形成LMPC，在推理时搜索更短的纠错到成功路径。基于5种机器人形态、78个任务的实验表明，LMPC将未见任务的非专家教学成功率提升26.9%，平均纠错轮数从2.4降到1.9，并使未见机器人/API上的上下文学习成功率再提升31.5%。

PDF AlphaXiv Code Project

Natural Language Can Help Bridge the Sim2Real Gap figure

RSS2024Paper 126

Natural Language Can Help Bridge the Sim2Real Gap

Albert Yu, Adeline Foote, Ray Mooney, Roberto Martín-Martín

机器人学习感知数据仿真到现实灵巧手模仿学习

这篇工作针对视觉模仿学习中真实数据昂贵、而仿真与现实在外观、视角和动力学上差异很大时难以迁移的问题，提出把图像的自然语言描述当作跨域统一信号：若仿真和真实观测对应相近描述，策略就应预测相近动作；据此先让图像编码器预测语言嵌入或描述距离，学到域不变表征，再用大量仿真和少量真实示教联合训练IL策略。在多步长时程任务与可变形物体操作上，该方法较已有sim2real方法以及CLIP、R3M等预训练基线提升25%–40%。

PoCo: Policy Composition from and for Heterogeneous Robot Learning figure

RSS2024Paper 127

PoCo: Policy Composition from and for Heterogeneous Robot Learning

Lirui Wang, Jialiang Zhao, Yilun Du, Edward Adelson, Russ Tedrake

数据机器人学习操作灵巧手触觉基础模型

论文关注机器人操作数据高度异构：仿真、人类视频与真机数据在模态、具身和任务上都难以直接混训。PoCo 的关键思路是把各数据源分别训练成轨迹扩散策略，并在推理时按任务、行为和域进行概率组合，甚至叠加解析代价函数，实现无需重训的策略拼接与调节。作者在四类工具使用任务上验证，组合策略在仿真和真实机器人中都比单一数据源或简单混合训练更稳健，成功率约提升 20%，且对干扰、视角变化和动态场景更鲁棒。

PDF AlphaXiv Project

Tilde: Teleoperation for Dexterous In-Hand Manipulation Learning with a DeltaHand figure

RSS2024Paper 128

Tilde: Teleoperation for Dexterous In-Hand Manipulation Learning with a DeltaHand

Zilin Si, Kevin Lee Zhang, Zeynep Temel, Oliver Kroemer

Robotics Institute, Carnegie Mellon University

机器人学习灵巧手操作模仿学习人机交互控制

论文针对灵巧手手内操作中“策略难学、示教难采”的瓶颈，提出 Tilde：以低成本 DeltaHand 为本体，设计与其运动学同构的 TeleHand，实现一对一关节遥操作，并结合手内相机与扩散式模仿学习训练视觉闭环策略。作者还改进手指结构以提升受力和运动精度。系统在抓取、平移、旋转、形状插入、注射器推动等 7 类任务上达到平均 90% 成功率，但遥操作、硬件改进和学习算法各自的增益文中未充分拆分说明。

HACMan++: Spatially-Grounded Motion Primitives for Manipulation figure

RSS2024Paper 129

HACMan++: Spatially-Grounded Motion Primitives for Manipulation

Bowen Jiang, Yilin Wu, Wenxuan Zhou, Chris Paxton, David Held

CMU, 2AI at Meta

灵巧手操作强化学习感知触觉机器人学习

面向长时序操作中低层连续控制难探索、且技能库方法难泛化到不同物体姿态与几何的问题，HACMan++把动作表示为“做什么原语、在点云哪里落地、如何执行参数”，并用逐点、逐原语的 critic map 同时选择原语和接触位置，再由 actor 预测具体参数，从而兼顾时序组合与跨物体泛化。实验显示其在6个任务上优于非空间落地的技能方法；Double Bin 上训练/未见类别成功率为89.5%/84.9%，真实机器人零样本迁移为73%。

PDF AlphaXiv Project

RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing figure

RSS2024Paper 130

RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing

Bo Ai, Stephen Tian, Haochen Shi, Yixuan Wang, Cheston Tan, Yunzhu Li, Jiajun Wu

Stanford University, USA；University of Illinois Urbana-Champaign, USA；IHPC, Agency for Science, Technology and Research, Singapore；CFAR, Agency for Science, Technology and Research, Singapore

机器人学习触觉控制操作人机交互数据

针对密集装箱和非抓取操作中遮挡严重、仅靠视觉难以判断物体软硬与可插入空间的问题，RoboPack用真实交互数据学习触觉感知动力学：以关键点粒子表示场景，并用循环图网络从视觉—触觉历史中估计潜在物理属性，再结合MPC做规划。系统在配备Soft-Bubble传感器的真实机器人上仅用每任务约30分钟数据，就在长时预测和真实操作中优于纯视觉学习方法及物理模拟器。

PDF AlphaXiv Project

Configuration Space Distance Fields for Manipulation Planning figure

RSS2024Paper 131

Configuration Space Distance Fields for Manipulation Planning

Yiming Li, Xuemin Chi, Amirreza Razmjoo, Sylvain Calinon

Idiap Research Institute；Zhejiang University

机器人学习操作规划控制感知安全

针对传统操作规划常将任务空间距离评估与关节空间逆运动学分开处理，因而容易出现多次迭代、奇异性和梯度失真的问题，论文提出配置空间距离场CDF，直接在关节空间表示到接触/碰撞零水平集的角度距离，并设计了可在线融合多障碍的高效构建方法与MLP神经表示。实验在平面避障和7轴Franka的逆运动学、操作规划与反应式避障中表明，CDF可用一步梯度投影求解接触IK，产生更自然的绕障轨迹，并提升查询与规划效率。

PDF AlphaXiv Project

Towards Tight Convex Relaxations for Contact-Rich Manipulation figure

RSS2024Paper 132

Towards Tight Convex Relaxations for Contact-Rich Manipulation

Bernhard Paus Graesdal, Shao Yuan Chew Chia, Tobia Marcucci, Savva Morozov, Alexandre Amice, Pablo Parrilo, Russ Tedrake

机器人学习规划控制操作强化学习灵巧手

论文针对接触丰富操作里“接触模式离散切换、模式内动力学连续且双线性”带来的全局规划难题，提出将任务表述为凸集图上的最短路：图中路径对应接触序列，每个接触模式再用半定规划对同时优化物体位姿、接触点和接触力的非凸准静态约束做紧松弛，并通过舍入恢复可行轨迹与最优性界。以平面推动为例，大量实验显示其平均最优性差距约10%、无需初始猜测，且比现有接触规划基线更稳健，并完成了真机验证。

THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation figure

RSS2024Paper 133

THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation

Wilbert Pumacay, Ishika Singh, Jiafei Duan, Ranjay Krishna, Jesse Thomason, Dieter Fox

University of Washington；Allen Institute for Artifical Intelligence；University of Southern California；NVIDIA

机器人学习操作数据感知模仿学习基础模型

论文指出，现有机器人操作评测大多贴近训练环境，难以检验真实部署所需的环境泛化。作者提出 THE COLOSSEUM，在 RLBench 上构建含20个任务、14类系统扰动的基准，并配套可复现实物与仿真-现实对照评测。对5个SOTA模型的测试表明，单一扰动会使成功率下降30%–50%，多扰动叠加时下降超过75%；其中干扰物数量、目标颜色和光照最伤性能，而3D方法整体比2D方法更稳健，且仿真与真实结果具有较强相关性。

PDF AlphaXiv Project

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation figure

RSS2024Paper 134

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

Xinyu Zhang, Abdeslam Boularias

Rutgers University

模仿学习操作感知机器人学习灵巧手仿真到现实

这篇工作针对多任务操作策略只能覆盖训练任务、学习新任务又需大量示教的问题，提出 IMOP：不直接回归末端位姿，而是从离线示教中发现与语义动作相关的不变区域，在单次无标注示教与测试场景间做图匹配，再用点集配准解析求出动作。该方法在18个RLBench基准任务上平均成功率较SOTA高4.5%，对22个未见任务无需微调、仅凭一次示教仍提升11.5%，并展示了形状泛化与单次仿真到现实迁移能力。

PDF AlphaXiv Project

Tactile-Driven Non-Prehensile Object Manipulation via Extrinsic Contact Mode Control figure

RSS2024Paper 135

Tactile-Driven Non-Prehensile Object Manipulation via Extrinsic Contact Mode Control

Miquel Oller, Dmitry Berenson, Nima Fazeli

Department of Robotics, University of Michigan

机器人学习触觉操作灵巧手控制感知

这篇论文关注机器人抓着一个物体去推动、顶起或转动外部物体时，接触非线性、多模态且易失稳，传统方法难同时管好位姿与传力。作者的核心创新是把高分辨率柔顺触觉既作为手内物体位姿与外部接触位置的观测来源，也作为可参数化的被动弹性元件；再在预先指定的粘着/滑动接触模式内，把静力平衡、摩擦与运动学约束写成可微优化，从而用梯度法联合求解末端运动、抓持物体姿态和接触力。实验在多种几何体上验证了非抓取平面滑动和枢转等技能，并比较了4种控制实现，说明该方法能在真实系统上复现目标位姿与受力目标。