界面新闻记者 |
界面新闻编辑 | 刘方远
具身智能厂商关于未来技术方向的争议,又有了一条新的思路。
6月末,具身智能公司RoboScience机器科学发布了通用具身大模型Visics,以及其技术架构VLOA(Vision-Language-Object-Action,视觉-语言-物体轨迹-行动)。在发布会现场,RoboScience机器科学展示了模型在多项真实场景的应用,包括最复杂的具身操作任务——家具拼装。
RoboScience机器科学成立于2024年末,由前苹果AI Platform技术负责人田野与新加坡国立大学助理教授邵林共同创立。公司迄今已完成多轮融资,包括今年5月刚刚结束的10亿元A轮融资,累计融资数十亿元,投资方包括零一创投、京东、招商局创投、商汤国香资本、普华资本、达晨财智等。
具身智能领域目前主要有两条技术路线。一条是VLA(Vision-Language-Action,视觉-语言-动作),即机器人通过大量人类示教数据来模仿学习动作,优点是能直接理解自然语言指令、训练流程相对成熟,但同时高度依赖与具体硬件绑定的真机,换一个物体往往需要重新训练。
另一条则是世界模型:先学习并预测环境与物体在物理世界中将如何变化,再据此推导出应执行的动作,相当于让机器人动手前先在大脑中预演后果。这种路线理论上泛化能力更强,但代价是训练成本更大,且存在不小的工程难度。
而RoboScience机器科学提出的VLOA架构,可理解为在Vision-Language和Action之间加入了一个"O"——Object Trajectory(物体轨迹)。
田野在接受界面新闻等媒体采访时表示,具身智能的复杂之处在于要同时覆盖三个维度的多样性:做各种不同的任务、操作各种属性不同的物体,以及适配各种构型不同的机器人。如果没有一个统一的格式把这三个维度都囊括进来,模型很难真正通用,类似于大语言模型中的Token(词元)。
在他看来,物体的动态轨迹就是具身智能领域的“Token”,它是被操作物体在三维空间中的位置和形态变化。不同于VLA天然与硬件绑定,这种路线从训练之初就与硬件解耦,只关注物体本身的变化,不受机器人本体、任务类型和环境的限制,天然具有更强的泛化能力。
Visics大模型由两个部分组成:一是具身世界模型,输入视觉画面和语言指令后,先进行物体移动的路线推演;二是通用操作模型,把推演结果转换成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹进行连接。RoboScience机器科学的逻辑是,数据决定了模型能力的上限,而这套架构设计,决定的是模型到底能学到什么。
在具身智能真正大规模落地之前,几乎所有厂商都被同一个问题困扰:训练数据从哪里来。
RoboScience机器科学执行总裁汪涛算了一笔账:具身智能所需数据量不会低于语言大模型,但全球机器人真机数据积累量,比大语言模型训练数据量少了10的6次方~8次方倍。
许多具身智能厂商认为,只有依靠海量的真实物理交互数据,才能真正训出可落地的机器人。这也是为什么过去几年,几乎所有厂商都在重金投入真机数据采集,如素材工厂、动作捕捉设备采集等。
汪涛表示,行业现有真机数据采集方式的每条数据成本大致几块钱,每人每天最多采集几百条,全行业月产能仅在万条级别。尤其是到了后训练阶段,单任务的复杂操作演示需要上万条人工标注数据,人力与时间成本随任务数量线性累加。更重要的是,数据工厂环境采集的数据与真实应用场景存在分布差异,模型难以在实际落地中稳定泛化。
RoboScience机器科学选择了一条截然不同的路径。
由于预训练阶段需要的数据必须多样且海量,很难从真实环境中获得, RoboScience机器科学在预训练环节依靠互联网视频和自研仿真引擎RoboMirage生成数据,使其达到优秀水平后再进入真实场景。而真机数据则更多用于具体场景的后训练,提供模型在预训练阶段难以覆盖的高难度失败案例。
据汪涛测算,这套数据生产流程只与算力挂钩、不依赖人力,单条数据成本可做到几分钱,为传统方案的1/20到1/200,且理论上加GPU就能扩大产能、没有上限。
目前,RoboScience机器科学积累的视频数据已达数百万小时,仿真操作轨迹数据达十亿到百亿次级别,今年目标是视频数据超千万小时、仿真数据达万亿次级别。
在发布会现场,RoboScience机器科学演示了机器人自主读取宜家说明书完成家具拼装,过程中即便人为拆除已装配的部件,机器人也能自动恢复并接续完成。此外,机器人也能完成打领带、立硬币、开信封、抓取薯片和蛋壳等任务。据介绍,打领带这一任务就是基于仿真数据训练完成的。
行业的一种共识是,2026年不会是具身智能的“ChatGPT时刻”,越来越多的厂商不再急于追求全场景泛化,而是聚焦特定场景,先跑通商业模式,再逐步扩展泛化边界。某种程度上,RoboScience机器科学选择了相反的路径,先做相对通用的基座模型,再用场景去验证和反哺。
田野认为,基座模型迭代与场景落地这两件事并不完全冲突,但场景选择会决定未来的技术路线:选择狭窄场景容易导向小数据、小模型的过拟合方案,而选择泛化要求高的场景则会倒逼基座模型持续迭代。
在他看来,基座模型是很多场景落地的基础,因此RoboScience机器科学选择从一开始就由场景牵引训练模型,使其具备相对通用的泛化能力。同时,RoboScience机器科学也在自研机器人本体,以便本体与场景深度耦合。
无论基座模型如何迭代,最终还是要回到商业化落地上来。RoboScience机器科学目前主要有三种商业化路径:以License形式对外授权纯软件能力,已经产生一定收入,客户主要是机器人本体公司和已有机器人的场景方或集成商;二是提供搭载自研大模型的域控制器,服务于工业机械臂或协作臂;三是自有机器人本体,目的是把商业和数据链条彻底闭环。
汪涛表示,在具体落地场景上,RoboScience机器科学会从物流、商超、零售这类行业切入,它们最能体现公司技术相对传统非标自动化方案的优势,也能较早实现商业化。谈及具身智能企业的盈利时间,他认为需要从模型和硬件两个层面一起降本,规模做大后才更有机会实现大规模盈利。
RoboScience机器科学留给自己的下一个考题,是8月即将发布的自研机器人本体。届时,VLOA架构能否在真实场景中跑出预期中的泛化能力,将是检验这套技术路线成色的第一道关口。
