AutoGPT+P: Affordance-based Task Planning using Large Language Models figure
在线论文 PDF(可滚动查看)

精读笔记

Problem Setting

实际要解决的问题是:在自然语言任务到机器人可执行计划之间,如何处理不完整场景、对象缺失和替代选择,而不被闭世界假设直接卡死。真正困难不在“把话翻成动作”,而在于当前世界状态往往不完整、对象是否可用并不由类别决定、而且计划必须在执行前就具备足够的符号一致性。以前方法要么假设场景完整,要么把不完整性留给 LLM 瞎补,结果都不稳。

Motivation

作者的核心观察是,已有 LLM+planner 方法虽然能提高 generalization,但它们默认“世界状态已经被正确地给出来了”,这在机器人任务里几乎总是假的。缺的不是更多语言理解,而是一个能把场景里的物体功能、缺失情况和可替代性显式编码出来的中间层。正因为这个缺口,他们选择了 affordance 作为桥梁:它既足够符号化,能进 planner;又足够功能化,能支持替代。

Core Idea

这篇论文真正改变的是“规划前如何表示世界”。它不再把对象视作唯一的规划基本单位,而是把对象映射到可供性集合,再用可供性来驱动域编译、动作复用和替代推理。这样一来,规划器面对的不是一个脆弱的、按对象名展开的庞大域,而是一个更抽象、更强类型化的功能域。直觉上,这种重表征带来两层收益:一是域更小,搜索更容易;二是泛化维度从“是否见过这个对象”转成“是否见过这个功能结构”。

Method

机制上最关键的是三步:先把 RGB 场景编译成对象-可供性-关系图,这一步让后续推理建立在功能而不是类别上;再让 LLM 生成/修正符号 goal,并用语法与语义检查约束它,避免纯文本生成的不一致;最后在信息不完整时,不是强行规划,而是让系统选择探索、替代或部分计划这三类补救动作。这里的必要性在于:每一步都在把原本不适合直接由 LLM 处理的问题,改写成更接近经典规划的形式。

Key Insight / Why It Works

最值得记住的点是:增益大概率主要来自 better inductive bias,而不是 LLM 突然学会了更强的规划。可供性把对象替换和动作复用编码进表示层,实质上是在降低状态空间复杂度并引入功能等价类;这比单纯在 prompt 里列对象更有结构。其次,Plan Tool 的自纠错机制有明显价值,但它更像是把符号生成错误变成可反馈、可修复的工程闭环,属于 test-time compute 和程序化约束的收益。相对而言,LLM 负责选工具、补 goal、找替代物,这些都更像路由与检索式常识调用,核心能力未必来自推理。换句话说,这篇工作的关键不是“LLM 更会想”,而是“把任务改写成 LLM 和规划器都更容易的形式”。

Relation To Prior Work

它最接近的是 LLM+P / LLM with Planner 这条线,但本质上又吸收了 affordance-based planning 的老思路。不同点在于:以前的 affordance 规划更多是为经典规划器提供一个更合适的动作域,而这篇论文把 affordance 提升成了连接 perception、替代推理和 planner 的统一中间表示。看起来新的是“AutoGPT 风格的工具循环”,但真正新增的信息不是 AutoGPT 这个外壳,而是用可供性重组了 planning domain,并让 LLM 只做策略路由和符号修正。它更像是把两条成熟谱系重新拼接,而不是提出一种全新的规划范式。

Dataset / Evaluation

评估覆盖了三件事:可供性抽取是否可靠、缺失对象下的替代是否有效、以及整体规划是否能处理多种家居操作任务。它有自建的含缺失物体场景集,并且不是只做单一动作,而是跨抓取、倒水、打开、清理、搬运等长时程任务;也做了少量真机验证,这对机器人论文是必要的。但评价仍然更像“在一个被设计得很适合这套表示的任务集合上证明系统能工作”,而不是严格证明其具备开放世界泛化。

Limitation

它的上限很可能受制于两件事:一是 OAM 的知识覆盖,二是场景感知的完整性。可供性若定义得不够细,就会把真正有区别的对象压平;定义得太细,又会失去抽象带来的泛化收益。论文对这种粒度权衡没有给出原则性答案。更重要的是,系统看起来能处理缺失对象,但那其实是在已知可替代性、可探索位置、以及有限动作集合时的局部补救;并不等于开放世界问题被解决。再往深处看,它把“规划难题”部分转移到了“如何维护一个足够好的 affordance scene representation”上,所以核心瓶颈从 planner 移到了 perception + knowledge alignment。

Takeaway

一句话总结

这是一篇把“对象级规划”改写为“可供性级规划”的 LLM+planner 工作:真正贡献在于用 affordance 作为中间表示,把缺失对象、替代物和符号规划统一到同一个更强归纳偏置里,而不是单纯提升了 LLM 的推理能力。