生数科技(ShengShu Technology)近日发布了Motubrain——一个面向机器人的通用人工智能模型,将感知、推理、预测与行动整合进单一系统。公司表示,该模型取代了机器人领域传统上碎片化、任务特定的架构,用一个统一的框架来应对多种任务和环境,旨在减少对传感、规划、执行等分离模块的依赖。
基准测试:WorldArena 63.77分,随机环境突破95分
Motubrain在多项基准测试中表现强劲。其在WorldArena上获得63.77分,在RoboTwin 2.0的50项任务中平均得分达到96.0。据生数科技披露,该模型是唯一在随机化环境中得分超过95.0的系统。Motubrain能够执行包含多达10个原子动作的多步骤任务,远超当前许多机器人系统通常只能处理的2-3个原子动作,从而让机器人能够一次性完成更复杂的真实世界活动。
技术架构:三流混合Transformer,从视频数据中学习
Motubrain构建为一个统一的多模态模型,能够同时从视频、语言和动作中学习。其核心采用三流混合Transformer(Mixture-of-Transformers)架构,整合来自不同模态的输入,使机器人能够理解指令、预判环境变化并生成适当的动作——全部在一个连续的闭环中完成。与严重依赖标注数据集的传统系统不同,Motubrain使用更广泛的未标注视频、仿真数据和多机器人任务记录进行训练。一个隐式动作框架直接从这些输入中提取运动模式,减少了对人工标注的依赖。
生数科技创始人朱军表示:“一个真正的世界模型必须能够构建真实世界的统一表征,并预测其如何演化。”该公司认为,通用世界模型不应该被构建为拼接而成的模块,而应该是一个将感知、推理、预测、生成和行动统一在同一系统中的架构。
实际测试:自适应重试,无需预设场景
在实际测试中,采用Motubrain训练的机器人展现了执行过程中的自适应能力。例如,当某个中间动作失败(如抓取物体未成功)时,系统能够识别失败并自动重试,而无需针对该特定场景进行预先训练。公司称,该模型已在多家机器人企业的工业、商业及家庭环境培训项目中使用,合作伙伴包括Astribot、SimpleAI和Anyverse Dynamics。
背景:从视频生成到具身智能
生数科技此前以生成式视频模型Vidu为人所知。Motubrain正是利用了大规模视频数据来训练机器人理解和交互真实环境的能力。2025年4月,生数科技完成由阿里云(Alibaba Cloud)领投的2.93亿美元B轮融资,将Motubrain定位为迈向可跨真实世界场景运行的通用具身智能系统的关键一步。
评论 (0)