华为诺亚方舟实验室(Huawei Noah’s Ark Lab)、达姆施塔特工业大学(Technical University of Darmstadt)和苏黎世联邦理工学院(ETH Zurich)的研究人员开发出一种新框架,将大语言模型(LLM)与机器人操作系统(ROS)相连接,使机器人能够理解自然语言指令并在物理环境中执行相应动作。该成果发表于《自然·机器智能》(Nature Machine Intelligence)期刊。
该框架将人类指令分解为机器人可执行的步骤。例如,当收到“捡起绿色方块,放到黑色架子上”的指令时,系统会将其转化为一系列动作,并通过ROS控制机器人完成。框架支持两种执行模式:一种是生成小型代码片段直接控制机器人;另一种是构建行为树(behavior tree),在某个步骤失败时提供备选路径,从而提高任务执行的鲁棒性。
系统还能通过模仿学习获取新的原子技能,并利用人类或环境反馈进行自动优化和反思,持续改进性能。研究团队在多种真实场景下进行了测试,包括长周期任务、桌面物体重排、动态任务优化及远程监控控制等,结果显示出良好的鲁棒性、可扩展性和适应性。所有测试均基于开源预训练大语言模型完成,未使用专用模型。
研究人员表示,将语言理解与物理执行相连接,有望加速机器人在家庭、工作场所及公共空间等动态环境中的部署。未来工作将聚焦于将系统扩展至更复杂的任务和更广泛的机器人平台。该框架的完整实现已作为开源代码公开发布。
评论 (0)