精读笔记

Problem Setting

实际要解决的问题是：在自然语言任务到机器人可执行计划之间，如何处理不完整场景、对象缺失和替代选择，而不被闭世界假设直接卡死。真正困难不在“把话翻成动作”，而在于当前世界状态往往不完整、对象是否可用并不由类别决定、而且计划必须在执行前就具备足够的符号一致性。以前方法要么假设场景完整，要么把不完整性留给 LLM 瞎补，结果都不稳。

Motivation

作者的核心观察是，已有 LLM+planner 方法虽然能提高 generalization，但它们默认“世界状态已经被正确地给出来了”，这在机器人任务里几乎总是假的。缺的不是更多语言理解，而是一个能把场景里的物体功能、缺失情况和可替代性显式编码出来的中间层。正因为这个缺口，他们选择了 affordance 作为桥梁：它既足够符号化，能进 planner；又足够功能化，能支持替代。

Core Idea

这篇论文真正改变的是“规划前如何表示世界”。它不再把对象视作唯一的规划基本单位，而是把对象映射到可供性集合，再用可供性来驱动域编译、动作复用和替代推理。这样一来，规划器面对的不是一个脆弱的、按对象名展开的庞大域，而是一个更抽象、更强类型化的功能域。直觉上，这种重表征带来两层收益：一是域更小，搜索更容易；二是泛化维度从“是否见过这个对象”转成“是否见过这个功能结构”。

Method

机制上最关键的是三步：先把 RGB 场景编译成对象-可供性-关系图，这一步让后续推理建立在功能而不是类别上；再让 LLM 生成/修正符号 goal，并用语法与语义检查约束它，避免纯文本生成的不一致；最后在信息不完整时，不是强行规划，而是让系统选择探索、替代或部分计划这三类补救动作。这里的必要性在于：每一步都在把原本不适合直接由 LLM 处理的问题，改写成更接近经典规划的形式。

Key Insight / Why It Works

最值得记住的点是：增益大概率主要来自 better inductive bias，而不是 LLM 突然学会了更强的规划。可供性把对象替换和动作复用编码进表示层，实质上是在降低状态空间复杂度并引入功能等价类；这比单纯在 prompt 里列对象更有结构。其次，Plan Tool 的自纠错机制有明显价值，但它更像是把符号生成错误变成可反馈、可修复的工程闭环，属于 test-time compute 和程序化约束的收益。相对而言，LLM 负责选工具、补 goal、找替代物，这些都更像路由与检索式常识调用，核心能力未必来自推理。换句话说，这篇工作的关键不是“LLM 更会想”，而是“把任务改写成 LLM 和规划器都更容易的形式”。

Relation To Prior Work

它最接近的是 LLM+P / LLM with Planner 这条线，但本质上又吸收了 affordance-based planning 的老思路。不同点在于：以前的 affordance 规划更多是为经典规划器提供一个更合适的动作域，而这篇论文把 affordance 提升成了连接 perception、替代推理和 planner 的统一中间表示。看起来新的是“AutoGPT 风格的工具循环”，但真正新增的信息不是 AutoGPT 这个外壳，而是用可供性重组了 planning domain，并让 LLM 只做策略路由和符号修正。它更像是把两条成熟谱系重新拼接，而不是提出一种全新的规划范式。

Dataset / Evaluation

评估覆盖了三件事：可供性抽取是否可靠、缺失对象下的替代是否有效、以及整体规划是否能处理多种家居操作任务。它有自建的含缺失物体场景集，并且不是只做单一动作，而是跨抓取、倒水、打开、清理、搬运等长时程任务；也做了少量真机验证，这对机器人论文是必要的。但评价仍然更像“在一个被设计得很适合这套表示的任务集合上证明系统能工作”，而不是严格证明其具备开放世界泛化。

Limitation

它的上限很可能受制于两件事：一是 OAM 的知识覆盖，二是场景感知的完整性。可供性若定义得不够细，就会把真正有区别的对象压平；定义得太细，又会失去抽象带来的泛化收益。论文对这种粒度权衡没有给出原则性答案。更重要的是，系统看起来能处理缺失对象，但那其实是在已知可替代性、可探索位置、以及有限动作集合时的局部补救；并不等于开放世界问题被解决。再往深处看，它把“规划难题”部分转移到了“如何维护一个足够好的 affordance scene representation”上，所以核心瓶颈从 planner 移到了 perception + knowledge alignment。

Takeaway

第一，可供性不是一个装饰性的标签，它如果被做成规划域的类型系统，确实能显著改变问题难度。
第二，很多所谓 LLM 规划增益，来源并不在模型“推理变强”，而在于把状态表示、动作类型和错误检查做得更可验证。
第三，处理缺失物体这件事，本质上是把开放世界问题局部化到替代与探索；这是一个有用的工程突破，但离真正开放世界自治还差很远。
第四，这篇工作最可迁移的 insight 是：先设计一个能把功能等价类显式编码出来的中间表示，再谈 LLM+planner，会比直接让 LLM 面对原始场景更靠谱。

一句话总结

这是一篇把“对象级规划”改写为“可供性级规划”的 LLM+planner 工作：真正贡献在于用 affordance 作为中间表示，把缺失对象、替代物和符号规划统一到同一个更强归纳偏置里，而不是单纯提升了 LLM 的推理能力。