界面新闻记者 | 陆柯言

界面新闻编辑 | 文姝琪

接连拿到阿里巴巴、美团、字节跳动三家互联网巨头投资之后,自变量机器人动作变得更加频繁。

在刚刚结束的3月,自变量作为主办方之一,举办了“首届具身智能开发者大会(Embodied AI Developers Conference,EAIDC 2026),通过不限模型的方式,搭建线下真机评测竞技平台,吸引开发者并发掘人才。大赛期间,自变量CTO王昊接受了媒体采访,披露了这家备受关注的机器人公司的最新进展。

图片来源:自变量机器人

自变量创始人兼CEO王潜是曾在美国机器人实验室从事机器人学习与人机交互研究,也是全球最早提出Attention机制(Transformer结构核心)的研究者之一。回国创办自变量之后,CTO王昊成为了他找到的第一个合伙人。王昊拥有IDEA研究院经历,曾主导开发了多个知名开源模型。

两位关键技术决策者的背景,让自变量从一开始就成为了坚定的端到端技术路线推动者。2024年,自变量发布了其自研的端到端具身智能大模型——Great Wall系列WALL-A模型,其分支WALL-OSS在去年宣布开源。

王昊表示,自变量近期的一条工作主线,是将世界模型与VLA(Vision-Language-Action,视觉语言动作模型)融合为一个联合框架,让动作和视觉实现联合建模,从而让模型更好地理解物理定律。“短期来讲,我们希望引入更多多模态输出架构,减少误差累积,中期和长期来看,我们还是希望在基模上实现绝对意义的通用场景泛化。”

和宇树等硬件为先的厂商不同,自变量更倡导做强基础模型的重要性。因此,自变量从成立之初就在数据和算力上进行大规模投入。王昊认为,越早建立规模化效应,资源聚集效应就越明显,后来者追赶要花数倍的资源。

不是说你先把技术做到完全泛化,再去考虑场景。恰恰相反,场景给你迭代,迭代让基模更强,更强的基模再反哺商业,才能形成完整的闭环。"王昊说。

今年,自变量的一个重要举措是进军家庭场景。同样在3月,自变量宣布与58同城合作,由58到家平台随机调度阿姨与机器人组成搭档,共同进行家政服务。目前这一服务已在深圳开启,未来几个月计划进入更多城市。在家庭场景中,机器人已经可以承担清理垃圾、收拾桌面等基础工作。

家庭是公认标准化程度最低、最难落地的场景,业内普遍判断家庭场景成熟应用需要等待5-10年。相比之下,多数厂商在现阶段的商业化选择上更倾向于工业场景,这是因为后者环境可控、任务单一、ROI(投入产出比)可核算,是落地的最佳切入点。厂商能拿到多少工厂订单,甚至等同于在资本市场的认可度。

但在自变量看来,家庭场景才是机器人最终的目标。自变量CTO王昊在接受采访时表示,家庭代表最开放的环境和最广泛的任务,解决了家庭任务,就代表模型可以实现完全泛化。只有一开始就直面最复杂的场景,才能提升模型的智能化水平。

“不管从什么时候开始,越早开始越好,这是最重要的。”王昊说。

当然,工厂同样是自变量切入的场景之一。此前自变量创始人王潜曾在采访中提到,今年就能看到机器人以正ROI的方式实现商业化落地

王昊也提到了落地工业场景的桎梏:机器人本体的基模能力不足,但商业压力要求快速落地,于是厂商会在工程上做许多弥补。例如发现机器人在视觉上有盲区,就叠加视觉小模型。短期来看这种做法可以加速落地,但长期来,基模得不到真正有价值的迭代反馈,能力也会陷入停滞。

这背后的事实是,即便各大厂商的工厂订单量正在高歌猛进,但真正在工厂上规模化应用的人形机器人仍然有限。这是个老生常谈的话题:现有的机器人缺乏足够好用的“大脑”,不够聪明,无法像人一样丝滑思考。背后的核心原因,还是数据量不足。

当前业内有几种主流的数据采集方式:真机遥操、仿真合成、互联网挖掘等。其中真机采集的数据含金量最高,但成本高、效率低。王昊表示,自变量会坚持真机采集,这是最重要的数据来源。

但他也提到,随着模型规模扩大,2026年会越来越依赖于Ego-Centric的方式采集数据,即通过在真人头上佩戴摄像头等传感器,让AI通过第一人称视角来学习人类如何与真实世界交互。“这一定是个大趋势,但要和真机采集形成很好的配比,这个数据策略会决定模型的上限。”

而模型的上限,或许也将决定这个行业的上限。