1段视频=亿万个虚拟场景

群核科技开源空间理解模型，降低机器人训练门槛

2025-03-20

扫一扫观看精彩视频

本报讯（记者敖煜华）“我们这次开源的‘SpatialLM模型’，用户只需输入一段视频，模型就能够准确认知和理解其中的结构化场景信息，随即可生成物理正确的3D场景布局，某种意义上说建立起了物理世界和数字世界之间的桥梁。”日前，杭州群核信息技术有限公司董事长黄晓煌在GTC2025（全球技术大会2025）上宣布，开源其自主研发的空间理解模型“SpatialLM”，这是一个基于大语言模型的3D场景语义生成框架。

通过演示，记者看到，用户输入一段室内空间的视频，物理空间里包含了沙发、茶几、电视柜、电视机等常规物品，“SpatialLM”大模型通过自主理解，就能生成每一个物品的虚拟素材，可以被应用到机器人训练场景中。

这类大模型有什么用处？不久前召开的全国两会，“具身智能”首次被写入政府工作报告。何为“具身智能”？从字面意思理解，就是具身化的人工智能，也可以理解为“会行动的AI”。

黄晓煌说：“我们的SpatialLM模型突破了传统大语言模型对物理世界几何与空间关系的理解局限，让机器具备空间认知与推理能力，将为具身智能等相关领域提供空间理解基础训练框架，将大大加快具身智能产业发展。”

试想一下，通过“SpatialLM”模型，任何带有场景的视频可以轻松实现从视频到结构化场景的转化，将现实世界的数据转化为虚拟环境中的丰富场景。再基于群核空间智能平台“SpatialVerse”的合成数据引擎，一个结构化场景又可泛化生成亿万级新场景。这也意味着，现实世界将成为“SpatialVerse”“数字道场”的原料和海量素材的来源。

“简而言之，通过这个模型和我们的智能空间平台结合，1段视频相当于亿万个虚拟场景，未来机器人的训练场景将更加丰富，训练成本和门槛也将大大降低。”黄晓煌说。

	20 三月 2025
0:000:050:100:150:200:250:300:350:400:450:500:55
今天
Clear

	20 三月 2025
0:001:002:003:004:005:006:007:008:009:0010:0011:0012:0013:0014:0015:0016:0017:0018:0019:0020:0021:0022:0023:00
今天
Clear

	三月 2025
日	一	二	三	四	五	六
23	24	25	26	27	28	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31	1	2	3	4	5
今天
Clear

	2020-2029
201920202021202220232024202520262027202820292030
今天
Clear