
本报讯(综合报道) 在今年的英伟达GTC大会上,上城企业群核科技自主研发的空间理解模型SpatialLM正式开源。
就像人们环顾四周环境便可以理解背后的空间结构一样,SpatialLM模型能够基于从视频中提取的点云数据,准确认知和理解其中的结构化场景信息,并将它以脚本语言的形式呈现出来。
也就是说,给SpatialLM“刷”一段视频,它便能生成物理正确的3D场景布局。
这意味着,SpatialLM突破了大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,为具身智能等相关领域提供空间理解基础训练框架。
超能干的新模型
SpatialLM拥有多项过人之处:
首先是更通用的数据输入模式。SpatialLM无须借助智能穿戴设备作为传感器输入数据,手机、相机所拍摄的视频均可以成为数据来源,大大降低了开发者的数据采集门槛。
其次是物理正确的场景创建能力。空间场景是否符合物理正确原则,是影响机器人空间理解效果的关键。
群核科技在过去十余年中积累了海量的3D数据和空间认知数据,这让SpatialLM具有创建物理正确的场景布局的“真”本事。
先“上学” 再“上岗”
SpatialLM模型“教”的是如何让机器人更好地感知世界。
而去年上线的群核空间智能解决方案(以下称为“SpatialVerse”),则通过合成数据方案为机器人搭建起接近物理真实的“数字道场”,帮助它们在仿真环境下完成例如叠被子、递送水杯、开关冰箱门等行动的交互训练。
有了SpatialLM模型和SpatialVerse这对“神仙老师”,机器人将获得从认知理解到行动交互的完整闭环训练——既能“看懂”世界,又能学会行动决策,进而在真实世界里顺利“上岗”,更好地完成人类指令、服务好千行百业。
群核科技认为,具身智能正处在爆发式发展的新阶段,希望以空间模型和数据开源为契机,让更多具身智能从业者有机会参与二次创新,共同推动产业技术底座持续进化。
据悉,SpatialLM模型目前已在HuggingFace、Github、魔搭社区等平台开源,全球开发者均可免费下载并进行部署。