前苹果AI Platform技术负责人，回国加入具身大模型战场-鼎盛独峰考研官网

界面新闻记者 | 陆柯言
界面新闻编辑 | 刘方远

具身智能厂商关于未来技术方向的争议，又有了一条新的思路。

6月末，具身智能公司RoboScience机器科学发布了通用具身大模型Visics，以及其技术架构VLOA（Vision-Language-Object-Action，视觉-语言-物体轨迹-行动）。在发布会现场，RoboScience机器科学展示了模型在多项真实场景的应用，包括最复杂的具身操作任务——家具拼装。

RoboScience机器科学成立于2024年末，由前苹果AI Platform技术负责人田野与新加坡国立大学助理教授邵林共同创立。公司迄今已完成多轮融资，包括今年5月刚刚结束的10亿元A轮融资，累计融资数十亿元，投资方包括零一创投、京东、招商局创投、商汤国香资本、普华资本、达晨财智等。

具身智能领域目前主要有两条技术路线。一条是VLA（Vision-Language-Action，视觉-语言-动作），即机器人通过大量人类示教数据来模仿学习动作，优点是能直接理解自然语言指令、训练流程相对成熟，但同时高度依赖与具体硬件绑定的真机，换一个物体往往需要重新训练。

另一条则是世界模型：先学习并预测环境与物体在物理世界中将如何变化，再据此推导出应执行的动作，相当于让机器人动手前先在大脑中预演后果。这种路线理论上泛化能力更强，但代价是训练成本更大，且存在不小的工程难度。

而RoboScience机器科学提出的VLOA架构，可理解为在Vision-Language和Action之间加入了一个"O"——Object Trajectory（物体轨迹）。

田野在接受界面新闻等媒体采访时表示，具身智能的复杂之处在于要同时覆盖三个维度的多样性：做各种不同的任务、操作各种属性不同的物体，以及适配各种构型不同的机器人。如果没有一个统一的格式把这三个维度都囊括进来，模型很难真正通用，类似于大语言模型中的Token（词元）。

在他看来，物体的动态轨迹就是具身智能领域的“Token”，它是被操作物体在三维空间中的位置和形态变化。不同于VLA天然与硬件绑定，这种路线从训练之初就与硬件解耦，只关注物体本身的变化，不受机器人本体、任务类型和环境的限制，天然具有更强的泛化能力。

Visics大模型由两个部分组成：一是具身世界模型，输入视觉画面和语言指令后，先进行物体移动的路线推演；二是通用操作模型，把推演结果转换成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹进行连接。RoboScience机器科学的逻辑是，数据决定了模型能力的上限，而这套架构设计，决定的是模型到底能学到什么。

在具身智能真正大规模落地之前，几乎所有厂商都被同一个问题困扰：训练数据从哪里来。

RoboScience机器科学执行总裁汪涛算了一笔账：具身智能所需数据量不会低于语言大模型，但全球机器人真机数据积累量，比大语言模型训练数据量少了10的6次方～8次方倍。

许多具身智能厂商认为，只有依靠海量的真实物理交互数据，才能真正训出可落地的机器人。这也是为什么过去几年，几乎所有厂商都在重金投入真机数据采集，如素材工厂、动作捕捉设备采集等。

汪涛表示，行业现有真机数据采集方式的每条数据成本大致几块钱，每人每天最多采集几百条，全行业月产能仅在万条级别。尤其是到了后训练阶段，单任务的复杂操作演示需要上万条人工标注数据，人力与时间成本随任务数量线性累加。更重要的是，数据工厂环境采集的数据与真实应用场景存在分布差异，模型难以在实际落地中稳定泛化。

RoboScience机器科学选择了一条截然不同的路径。

由于预训练阶段需要的数据必须多样且海量，很难从真实环境中获得， RoboScience机器科学在预训练环节依靠互联网视频和自研仿真引擎RoboMirage生成数据，使其达到优秀水平后再进入真实场景。而真机数据则更多用于具体场景的后训练，提供模型在预训练阶段难以覆盖的高难度失败案例。

据汪涛测算，这套数据生产流程只与算力挂钩、不依赖人力，单条数据成本可做到几分钱，为传统方案的1/20到1/200，且理论上加GPU就能扩大产能、没有上限。

目前，RoboScience机器科学积累的视频数据已达数百万小时，仿真操作轨迹数据达十亿到百亿次级别，今年目标是视频数据超千万小时、仿真数据达万亿次级别。

在发布会现场，RoboScience机器科学演示了机器人自主读取宜家说明书完成家具拼装，过程中即便人为拆除已装配的部件，机器人也能自动恢复并接续完成。此外，机器人也能完成打领带、立硬币、开信封、抓取薯片和蛋壳等任务。据介绍，打领带这一任务就是基于仿真数据训练完成的。

行业的一种共识是，2026年不会是具身智能的“ChatGPT时刻”，越来越多的厂商不再急于追求全场景泛化，而是聚焦特定场景，先跑通商业模式，再逐步扩展泛化边界。某种程度上，RoboScience机器科学选择了相反的路径，先做相对通用的基座模型，再用场景去验证和反哺。

田野认为，基座模型迭代与场景落地这两件事并不完全冲突，但场景选择会决定未来的技术路线：选择狭窄场景容易导向小数据、小模型的过拟合方案，而选择泛化要求高的场景则会倒逼基座模型持续迭代。

在他看来，基座模型是很多场景落地的基础，因此RoboScience机器科学选择从一开始就由场景牵引训练模型，使其具备相对通用的泛化能力。同时，RoboScience机器科学也在自研机器人本体，以便本体与场景深度耦合。

无论基座模型如何迭代，最终还是要回到商业化落地上来。RoboScience机器科学目前主要有三种商业化路径：以License形式对外授权纯软件能力，已经产生一定收入，客户主要是机器人本体公司和已有机器人的场景方或集成商；二是提供搭载自研大模型的域控制器，服务于工业机械臂或协作臂；三是自有机器人本体，目的是把商业和数据链条彻底闭环。

汪涛表示，在具体落地场景上，RoboScience机器科学会从物流、商超、零售这类行业切入，它们最能体现公司技术相对传统非标自动化方案的优势，也能较早实现商业化。谈及具身智能企业的盈利时间，他认为需要从模型和硬件两个层面一起降本，规模做大后才更有机会实现大规模盈利。

RoboScience机器科学留给自己的下一个考题，是8月即将发布的自研机器人本体。届时，VLOA架构能否在真实场景中跑出预期中的泛化能力，将是检验这套技术路线成色的第一道关口。

相关文章