英伟达推出Cosmos Policy技术 实现机器人未来预测能力

2026-01-30 11:15:30

英伟达推出机器人控制新方案Cosmos Policy,这是该公司推动物理人工智能系统世界基础模型发展的重要进展。该框架通过改造大型视频预测模型以适应控制与规划任务,旨在简化机器人的行动决策机制。

策略架构革新
在机器人领域,"策略"指将摄像头图像和传感器数据等观测信息转化为关节运动或抓取动作的决策层。传统机器人策略通常由任务专用神经网络构建,需要独立的感知、规划与控制模块。这类系统往往需要大量标注数据,并需针对不同机器人或环境进行定制化调整。

Cosmos Policy采用全新路径:英伟达基于预训练视频世界模型Cosmos Predict,通过机器人示范数据进行后训练,而非从头构建控制模型。该模型已通过大规模视频数据学习,理解物理世界的时间演变规律。在后训练过程中,机器人动作、物理状态和任务结果被纳入模型内部时序表征体系,使其能同步预测机器人后续行动及行动结果。

架构优势与基准测试
这种设计让Cosmos Policy可在单一架构内联合预测动作、未来状态和预期任务成功率。通过仅需单阶段后训练,该框架降低了架构复杂度,避免拼接多个专用感知与控制模型的需求。

基准测试表明该方法成效显著:在标准机器人操作基准测试中,Cosmos Policy在需要长期推理的多步骤任务中实现高成功率。部分案例中,其在使用更少训练示范数据的情况下,达到或超越了现有方法性能。这种数据效率对机器人领域尤为关键——现实世界训练数据收集往往成本高昂且耗时。通过利用大型视频模型中已嵌入的知识,Cosmos Policy显著减少了学习可靠控制行为所需的机器人专用数据量。

实时规划能力
Cosmos Policy的另一核心特征是在推理阶段执行规划的能力。该模型不仅能生成即时动作,还可创建并评估多组候选动作序列。通过预测这些序列的未来结果与预期奖励,机器人能选择更可能实现长期成功的行动方案。这种规划能力使机器人在面对复杂任务时,能从被动响应转向战略决策。该框架已在真实机器人系统进行验证:在涉及双臂操作的物理实验中,策略仅凭视觉输入即可完成长周期任务,证明该方法具备从仿真环境向现实场景迁移的能力。

生态定位与行业趋势
Cosmos Policy属于英伟达Cosmos生态系统组成部分,该生态专注于为机器人与自主系统构建通用世界模型。其宏观目标是提供共享基础设施,帮助机器理解、预测并干预物理世界,减少任务专用工程开发需求。该技术并非作为规则手册或安全标准,而是机器人控制的技术基础——安全、合规与监管仍由高层级系统及监管机构负责。随着机器人能力与自主性持续提升,Cosmos Policy此类框架正凸显行业标准化连接AI推理与实体行动的核心决策层的趋势。


0

世界模型 视频预测模型 机器人控制 行动规划 仿真迁移

1100

评论 (0)