
扫一扫 观看精彩视频
本报讯(记者 敖煜华)“我们这次开源的‘SpatialLM模型’,用户只需输入一段视频,模型就能够准确认知和理解其中的结构化场景信息,随即可生成物理正确的3D场景布局,某种意义上说建立起了物理世界和数字世界之间的桥梁。”日前,杭州群核信息技术有限公司董事长黄晓煌在GTC2025(全球技术大会2025)上宣布,开源其自主研发的空间理解模型“SpatialLM”,这是一个基于大语言模型的3D场景语义生成框架。
通过演示,记者看到,用户输入一段室内空间的视频,物理空间里包含了沙发、茶几、电视柜、电视机等常规物品,“SpatialLM”大模型通过自主理解,就能生成每一个物品的虚拟素材,可以被应用到机器人训练场景中。
这类大模型有什么用处?不久前召开的全国两会,“具身智能”首次被写入政府工作报告。何为“具身智能”?从字面意思理解,就是具身化的人工智能,也可以理解为“会行动的AI”。
黄晓煌说:“我们的SpatialLM模型突破了传统大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,将为具身智能等相关领域提供空间理解基础训练框架,将大大加快具身智能产业发展。”
试想一下,通过“SpatialLM”模型,任何带有场景的视频可以轻松实现从视频到结构化场景的转化,将现实世界的数据转化为虚拟环境中的丰富场景。再基于群核空间智能平台“SpatialVerse”的合成数据引擎,一个结构化场景又可泛化生成亿万级新场景。这也意味着,现实世界将成为“SpatialVerse”“数字道场”的原料和海量素材的来源。
“简而言之,通过这个模型和我们的智能空间平台结合,1段视频相当于亿万个虚拟场景,未来机器人的训练场景将更加丰富,训练成本和门槛也将大大降低。”黄晓煌说。