微软推出GroundedPlanBench新基准，让机器人同时解决做什么与在哪里做

2026-03-27 10:36:45

微软与多家学术研究机构合作，共同构建了一个名为GroundedPlanBench的新基准，旨在解决机器人长期面临的一个核心难题：同时决定“做什么”和“在哪里做”时出现的决策分离问题。

当前大多数机器人系统将决策过程分为两步：首先由视觉-语言模型用自然语言制定计划，再由另一个模型将计划转化为具体动作。这种分离往往导致错误累积。这一问题在日常任务中表现明显：当要求机器人丢弃纸杯时，它可能混淆该拾取哪个杯子，甚至凭空创造出未被要求的步骤。在杂乱环境中，这类错误更为频繁。

规划与空间定位的融合

为解决这一问题，研究团队开发了GroundedPlanBench，用于测试AI模型在执行任务规划的同时，能否精确识别每个动作发生的具体位置。在该基准中，每个动作不再仅依赖文本描述，而是与图像中的特定位置绑定。抓取、放置、打开、关闭等基本动作均与物体或位置相关联，迫使系统将决策与物理世界建立连接。

该基准包含超过1000个基于真实机器人交互构建的任务。部分指令较为直接，如“将勺子放在盘子上”；另一些则更为开放，如“整理桌子”。这种混合设计至关重要，因为当指令模糊时，机器人往往容易出错。人类容易理解的日常语言对机器而言可能过于含混，尤其在多个物体外观相似的情况下。

在一项测试中，系统被要求“将四张餐巾纸放到沙发上”，却反复选择同一张餐巾纸，因为指令未能清晰区分不同餐巾纸。即使是“左上角的餐巾纸”这类更具体的描述，也未能达到可靠执行所需的精度。研究人员指出，“模糊的语言会导致无法执行的动作”，凸显了当前系统的一个核心局限。

从真实任务中学习

为提升性能，团队还开发了一种名为“视频到空间定位规划”（V2GP）的训练方法。该系统从机器人执行任务的视频中学习，检测机器人与物体交互的时机，识别相关物体并追踪其位置变化，最终生成一份将每个动作与具体位置关联的结构化计划。

通过这一方法，团队生成了超过4万个定位规划，涵盖从单步动作到长达26步的多步序列。经过这些数据训练后，模型在动作选择和位置定位方面的表现均有所提升，减少了重复作用于同一物体的错误。然而，长序列、复杂任务的处理仍具挑战性，尤其是在指令较为间接的情况下。研究人员表示，模型需要能够在更长动作序列中进行推理，并在多个步骤中保持一致性。

研究还将该新方法与传统的规划与定位分离的系统进行了对比。传统系统在面对模糊指令时表现不佳，常将多个动作映射到同一物体或位置。而新方法将两个步骤合二为一，有效减少了这种不匹配。研究团队建议，未来可将该方法与预测模型结合，在执行前预估动作结果，帮助机器人实时规避错误。目前的成果为机器人技术指明了一个清晰方向：能够同时理解动作与位置关联的系统，在现实环境中更具应用潜力。

人工智能机器人视觉语言模型

16300

微软推出GroundedPlanBench新基准，让机器人同时解决做什么与在哪里做

评论 (0)