对话自变量机器人CTO：看好家庭方向，不能为了追求落地牺牲基模模型的上限，或许也将决定这个行业的上限。

界面新闻记者 | 陆柯言

界面新闻编辑 | 文姝琪

接连拿到阿里巴巴、美团、字节跳动三家互联网巨头投资之后，自变量机器人动作变得更加频繁。

在刚刚结束的3月，自变量作为主办方之一，举办了“首届具身智能开发者大会（Embodied AI Developers Conference，EAIDC 2026），通过不限模型的方式，搭建线下真机评测竞技平台，吸引开发者并发掘人才。大赛期间，自变量CTO王昊接受了媒体采访，披露了这家备受关注的机器人公司的最新进展。

自变量创始人兼CEO王潜是曾在美国机器人实验室从事机器人学习与人机交互研究，也是全球最早提出Attention机制（Transformer结构核心）的研究者之一。回国创办自变量之后，CTO王昊成为了他找到的第一个合伙人。王昊拥有IDEA研究院经历，曾主导开发了多个知名开源模型。

两位关键技术决策者的背景，让自变量从一开始就成为了坚定的端到端技术路线推动者。2024年，自变量发布了其自研的端到端具身智能大模型——Great Wall系列WALL-A模型，其分支WALL-OSS在去年宣布开源。

王昊表示，自变量近期的一条工作主线，是将世界模型与VLA（Vision-Language-Action，视觉语言动作模型）融合为一个联合框架，让动作和视觉实现联合建模，从而让模型更好地理解物理定律。“短期来讲，我们希望引入更多多模态输出架构，减少误差累积，中期和长期来看，我们还是希望在基模上实现绝对意义的通用场景泛化。”

和宇树等硬件为先的厂商不同，自变量更倡导做强基础模型的重要性。因此，自变量从成立之初就在数据和算力上进行大规模投入。王昊认为，越早建立规模化效应，资源聚集效应就越明显，后来者追赶要花数倍的资源。

“不是说你先把技术做到完全泛化，再去考虑场景。恰恰相反，场景给你迭代，迭代让基模更强，更强的基模再反哺商业，才能形成完整的闭环。"王昊说。

今年，自变量的一个重要举措是进军家庭场景。同样在3月，自变量宣布与58同城合作，由58到家平台随机调度阿姨与机器人组成搭档，共同进行家政服务。目前这一服务已在深圳开启，未来几个月计划进入更多城市。在家庭场景中，机器人已经可以承担清理垃圾、收拾桌面等基础工作。

家庭是公认标准化程度最低、最难落地的场景，业内普遍判断家庭场景成熟应用需要等待5-10年。相比之下，多数厂商在现阶段的商业化选择上更倾向于工业场景，这是因为后者环境可控、任务单一、ROI（投入产出比）可核算，是落地的最佳切入点。厂商能拿到多少工厂订单，甚至等同于在资本市场的认可度。

但在自变量看来，家庭场景才是机器人最终的目标。自变量CTO王昊在接受采访时表示，家庭代表最开放的环境和最广泛的任务，解决了家庭任务，就代表模型可以实现完全泛化。只有一开始就直面最复杂的场景，才能提升模型的智能化水平。

“不管从什么时候开始，越早开始越好，这是最重要的。”王昊说。

当然，工厂同样是自变量切入的场景之一。此前自变量创始人王潜曾在采访中提到，今年内就能看到机器人以正ROI的方式实现商业化落地。

但王昊也提到了落地工业场景的桎梏：机器人本体的基模能力不足，但商业压力要求快速落地，于是厂商会在工程上做许多弥补。例如发现机器人在视觉上有盲区，就叠加视觉小模型。短期来看这种做法可以加速落地，但长期来，基模得不到真正有价值的迭代反馈，能力也会陷入停滞。

这背后的事实是，即便各大厂商的工厂订单量正在高歌猛进，但真正在工厂上规模化应用的人形机器人仍然有限。这是个老生常谈的话题：现有的机器人缺乏足够好用的“大脑”，不够聪明，无法像人一样丝滑思考。背后的核心原因，还是数据量不足。

当前业内有几种主流的数据采集方式：真机遥操、仿真合成、互联网挖掘等。其中真机采集的数据含金量最高，但成本高、效率低。王昊表示，自变量会坚持真机采集，这是最重要的数据来源。

但他也提到，随着模型规模扩大，2026年会越来越依赖于Ego-Centric的方式采集数据，即通过在真人头上佩戴摄像头等传感器，让AI通过第一人称视角来学习人类如何与真实世界交互。“这一定是个大趋势，但要和真机采集形成很好的配比，这个数据策略会决定模型的上限。”

而模型的上限，或许也将决定这个行业的上限。