微软与多家学术研究机构合作,共同构建了一个名为GroundedPlanBench的新基准,旨在解决机器人长期面临的一个核心难题:同时决定“做什么”和“在哪里做”时出现的决策分离问题。
当前大多数机器人系统将决策过程分为两步:首先由视觉-语言模型用自然语言制定计划,再由另一个模型将计划转化为具体动作。这种分离往往导致错误累积。这一问题在日常任务中表现明显:当要求机器人丢弃纸杯时,它可能混淆该拾取哪个杯子,甚至凭空创造出未被要求的步骤。在杂乱环境中,这类错误更为频繁。
规划与空间定位的融合
为解决这一问题,研究团队开发了GroundedPlanBench,用于测试AI模型在执行任务规划的同时,能否精确识别每个动作发生的具体位置。在该基准中,每个动作不再仅依赖文本描述,而是与图像中的特定位置绑定。抓取、放置、打开、关闭等基本动作均与物体或位置相关联,迫使系统将决策与物理世界建立连接。
该基准包含超过1000个基于真实机器人交互构建的任务。部分指令较为直接,如“将勺子放在盘子上”;另一些则更为开放,如“整理桌子”。这种混合设计至关重要,因为当指令模糊时,机器人往往容易出错。人类容易理解的日常语言对机器而言可能过于含混,尤其在多个物体外观相似的情况下。
在一项测试中,系统被要求“将四张餐巾纸放到沙发上”,却反复选择同一张餐巾纸,因为指令未能清晰区分不同餐巾纸。即使是“左上角的餐巾纸”这类更具体的描述,也未能达到可靠执行所需的精度。研究人员指出,“模糊的语言会导致无法执行的动作”,凸显了当前系统的一个核心局限。
从真实任务中学习
为提升性能,团队还开发了一种名为“视频到空间定位规划”(V2GP)的训练方法。该系统从机器人执行任务的视频中学习,检测机器人与物体交互的时机,识别相关物体并追踪其位置变化,最终生成一份将每个动作与具体位置关联的结构化计划。
通过这一方法,团队生成了超过4万个定位规划,涵盖从单步动作到长达26步的多步序列。经过这些数据训练后,模型在动作选择和位置定位方面的表现均有所提升,减少了重复作用于同一物体的错误。然而,长序列、复杂任务的处理仍具挑战性,尤其是在指令较为间接的情况下。研究人员表示,模型需要能够在更长动作序列中进行推理,并在多个步骤中保持一致性。
研究还将该新方法与传统的规划与定位分离的系统进行了对比。传统系统在面对模糊指令时表现不佳,常将多个动作映射到同一物体或位置。而新方法将两个步骤合二为一,有效减少了这种不匹配。研究团队建议,未来可将该方法与预测模型结合,在执行前预估动作结果,帮助机器人实时规避错误。目前的成果为机器人技术指明了一个清晰方向:能够同时理解动作与位置关联的系统,在现实环境中更具应用潜力。
评论 (0)