他们都说:王兴兴“说错了”

2025-09-27

记者 童蔚

银河通用联合创始人兼大模型负责人张直政,千寻智能联席首席科学家解浚源,自变量机器人创始人兼CEO王潜,清华大学助理教授、星海图首席科学家赵行,傅利叶智能创始人兼首席执行官顾捷,加速进化副总裁赵维晨,北京人形机器人创新中心CTO唐剑……

当人形机器人领域的这些活跃人物,出现在云栖大会同一场活动——2025阿里云具身智能行业论坛,气氛变得微妙起来。

一方面,他们对一个终极愿景抱有高度共识:让机器人能在家庭和工业场景中自如完成各类任务,最终迈向通用人工智能的“圣杯”。

然而,当话题转向“如何抵达”这一现实路径时,瞬间呈现出紧张感,各家的尝试天马行空,甚至互不兼容。

有人认为仿真数据能解决99%的问题,也有人直言最核心的数据必须源于现实世界;有人推崇端到端的统一模型,也有人主张分层系统更为实际,还有人试图跳出非此即彼的框架:“别争了,其实可以整合到一起。”

与文本、图像等可轻松抓取的互联网数据不同,具身智能依赖的是机器人与物理世界交互的行为数据。

这类数据天然稀缺、获取门槛极高,已成为行业共识,但如何破解这一瓶颈成了“非共识”的问题。于是,便有了“真机数据采集”与“仿真数据生成”之争。

另一个问题是,具身智能的“智”,究竟要怎么衡量?

解读的维度很多:比如空间智能(对于位置、距离和环境的精准感知),时间智能(记忆过去、预测未来),又比如执行智能(拆解复杂任务并自主执行),泛化能力(将所学迁移到新场景)等。

当下一个热门的解决方案,就是VLA(视觉-语言-动作)端到端模型。它试图让机器人通过摄像头“看见”世界,通过自然语言“听懂”人的指令,并直接执行相应“动作”,从而构建起“感知-理解-决策-执行”的闭环。

除此之外,还有大小脑分层架构、世界模型,目前这些技术路线并行探索,催生了多种解决方案。

并未参会的王兴兴,因此前在2025世界机器人大会上的观点,在圆桌环节意外被提到。当时,他在公开演讲中表示,机器人数据被过分关注了,“现在最大的问题是模型,并不是数据问题”。

同时,他对大热门的VLA持较为怀疑态度,认为这就是一个“相对傻瓜式的架构”,在和真实世界交互时,数据质量、能采集的数据都不太够用。

有趣的是,刚才还在为端到端与分层路线交锋的嘉宾,此时却立场一致,或委婉或直接地表达了对这一观点的不认同。

这其实是一件很有意思且极为重要的事。技术路径的分化,标志着一个更具深度的探索阶段的到来。而在这个过程中出现的每一条岔路,都可能藏着通向终极答案的钥匙。