
黄仁勋和黄晓煌(右)
记者 沈积慧
一身黑色皮衣的老黄站在英伟达GTC 2025的舞台上,一口气演讲了两个小时。他揭秘了一种训练机器人的新方式:完全实时仿真模拟,以及背后的人形机器人基础模型:GR00T N1,并表示“机器人的时代已经到来”。
就在老黄走下舞台的几个小时后,他的老同事,群核科技创始人兼董事长黄晓煌在GTC大会上发布并开源了自主研发的空间理解模型SpatialLM,与空间智能解决方案SpatialVerse一起,组成了一对“神仙老师”,联手让机器人完成从认知理解到行动交互的完整闭环训练。
和老同事兼领导见面后,黄晓煌发了条朋友圈:“总被调侃如果不卖英伟达股票用来创业,和创立群核科技的回报,哪个更大?我觉得从GPU高性能计算到今天具身智能训练,创业一路受到Nvidia和老黄的思想影响,是毕生财富。谈钱就没意思了。”
杭州小龙发布“神仙老师”
这是一个客厅,这面是客厅的墙,这张是沙发……给SpatialLM“刷”一段视频,它就能生成物理正确的3D场景布景,像人类环顾四周环境就能理解背后的空间结构一样,能够基于从视频中提取的点云数据,准确认知和理解其中的结构化场景信息,并将它以脚本语言的形式呈现出来。
它的意义在于,突破了大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,为具身智能等相关领域提供空间理解基础训练框架。
相比其他让机器学习物理世界的方式,SpatialLM的过人之处,首先是更通用的数据输入模式。不需要借助智能穿戴设备作为传感器输入数据,手机、相机拍摄的视频都可以成为数据来源,大大降低了开发者的数据采集门槛。
其次,空间场景符合物理正确原则。所谓的物理正确,就是虚拟场景里反映的一切,都是符合物理基础的。比如毛毯,看上去具有绒颗粒感;装有热水的玻璃杯,散发出腾腾热气;人坐在柔软的沙发上,能看到接触面压出的褶皱。
SpatialLM具有创建物理正确的场景布局的“真”本事,背后是群核科技这家因为“杭州六小龙”而被大众认识的科技公司,过去10多年积累下来的海量的3D数据和空间认知数据。
如果说SpatialLM模型“教”的是如何让机器人更好地感知世界,那么去年群核科技发布的空间智能解决方案SpatialVerse,则通过合成数据方案为机器人搭建起接近物理真实的“数字道场”,帮助它们在仿真环境下完成例如叠被子、递送水杯、开关冰箱门等行动的交互训练。
有了这对“神仙老师”,机器人将获得从认知理解到行动交互的完整闭环训练。
老同事之间的不谋而合
严格说来,黄晓煌和黄仁勋的关系不只是同事。当年,在浙大完成本科学业后,他能够远赴美国伊利诺伊大学香槟分校(UIUC)攻读计算机硕士,拿的就是英伟达全额奖学金。而他的研究方向,就是用GPU做高性能计算。
2010年,黄晓煌从UIUC硕士毕业,按部就班进入英伟达工作,并参与了CUDA开发。只不过当时在硅谷,英伟达还是一家不太起眼的小公司。
没想到兜兜转转15年,英伟达成了当下全球最有影响力的科技公司,黄晓煌创立的群核科技也开启了IPO征程,他们和黄仁勋正在眺望同一片和具身智能相关的星辰大海。
早在两个月前的CES大会上,黄仁勋称,“AI下一个前沿就是物理AI”,同时重磅官宣了世界基础模型开发平台——Cosmos。
Cosmos是一个能通过现在画面,去预测未来画面的模型。它可以从文本/图像输入数据,生成详细的视频,并通过将其当前状态(图像/视频)与动作(提示/控制信号)相结合来预测场景的演变。它可以让机器人准确地理解物理世界,和SpatialLM想要扮演的角色和达到的目标一样。
本届GTC上,英伟达还一口气推出了两个新的蓝图,由NVIDIA Omniverse™和Cosmos平台提供支持,为开发人员提供大规模、可控的合成数据生成引擎,主要用于训练后的机器人和自动驾驶汽车。
Cosmos与Omniverse搭配使用,虚实结合,让虚拟世界的设计搬到现实世界训练。
让机器人“看懂”物理世界有多难?
如何让扫地机器人分别地板上的一坨狗屎和一堆形状像屎的普通垃圾?这个问题曾难倒大多数扫地机器人公司。
刚开始,扫地机器人公司试图用摄像头替换激光雷达来识别宠物粪便,随之而来的问题是:训练的时候几乎找不到一个充满猫屎狗屎的真实场景做实验。
早在疫情时,群核科技就跟一家扫地机器人公司合作,通过数据合成在数字世界完成了机器人对宠物粪便识别的训练。
为了模拟真实宠物粪便的样子,当时,群核科技做数据合成的设计师花了好几天时间,专门研究各种形状的猫屎和狗屎,最后因为合成得过于逼真,被其他设计师在微博吐槽:猫屎有必要做得这么逼真吗?
就像棋手,只有经过无数次的厮杀,才能从一个小白变成高手一样,机器人在真正走进现实生活成为人类帮手之前,也要经过大量的学习和训练,通过一遍遍感知、行动、反馈,从而形成动态学习能力。所以空间认知是机器人与现实交互的基础能力。
合成数据的方式可以把训练机器人的环境放到数字世界里,不仅时间可以被压缩,物理世界里要用1万天跑完的数据,数字世界里也许1天就可以跑完,仿真场景还可以无限泛化出海量的场景供机器人学习,从而实现“举一反无数”。
这也是为什么不久前群核科技所在的杭州上城区宣布启动具身智能虚拟训练场共建计划,专门为具身智能建了一座“学校”。其中一份“教案”,就是群核科技旗下的“群核空间智能平台”SpatialVerse。
目前,在空间和具身智能训练上,群核科技也已经与硅谷头部科技企业等在内的一批国内外具身智能企业达成合作。