1月29日,宇树科技开源了面向通用人形机器人操作的VLA大模型——UnifoLM-VLA-0。
据介绍,针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练,深度融合了文本指令与2D/3D空间细节,显著增强了模型的空间感知能力。同时,模型构建了全链路动力学预测数据,使其具备更强的任务泛化能力。
该模型基于开源的Qwen2.5-VL-7B构建,宇树科技打造了覆盖机器人及通用场景的多任务数据集,并进行了持续预训练。针对操作类任务,团队对开源数据集进行了系统化清洗,最终仅用约340小时的真机数据,完成了离散动作的预测训练。
宇树科技表示,通过仿真环境与真机实验的多任务训练验证,结果显示该模型具备单一模型处理多任务的通用能力。在LIBERO仿真基准测试中,该多任务模型取得了接近最优的性能。在真机验证环节,仅需单一策略即可高质量完成12类复杂的操作任务。
(澎湃新闻记者 秦盛)

https://finance.sina.com.cn/jjxw/2026-01-29/doc-inhiyrwf4224170.shtml