蚂蚁灵波科技全面开源LingBot-VLA具身大模型及LingBot-Depth空间感知模型,推动真实机器人跨本体泛化与高精度三维感知
SmartHey1月28日消息,蚂蚁集团旗下具身智能公司——蚂蚁灵波科技今日宣布全面开源 LingBot-VLA 具身大语言动作模型(VLA)及其后训练代码。目前,LingBot-VLA 已完成与星海图、松灵、乐聚等主流机器人厂商的深度适配,成功验证其在多种机器人构型上的跨本体迁移能力。

为提升训练效率与工程可复现性,蚂蚁灵波科技同步构建了一套轻量高效、开箱即用的后训练工具链。在仅需8卡GPU的配置下,该工具链实现单卡每秒261个样本的吞吐量,训练效率达StarVLA、OpenPI等主流框架的1.5~2.8倍,显著降低数据标注与算力投入成本。

依托海量真实世界机器人操作数据,团队首次系统性探究了VLA模型性能随预训练数据规模增长所呈现的Scaling Law规律。

实验表明:当预训练数据时长从3,000小时逐步扩展至6,000、13,000、18,000,最终达20,000小时,模型在下游真实任务中的成功率持续显著提升。

尤为关键的是,即使在20,000小时数据量下,模型性能仍未见饱和,仍呈稳定上升趋势,印证VLA模型仍有较大扩展潜力。

基于上述发现,蚂蚁灵波科技构建了当前业界规模最大的20,000小时真实机器人训练数据集,覆盖AgileX Cobot Magic、Galaxea R1Pro/R1Lite、AgiBot G1等9种主流双臂机器人构型,全面支撑多样化硬件部署需求。

在上海交通大学发布的具身智能权威评测基准GM-100(含100项真实操作任务)中,LingBot-VLA在三个不同物理机器人平台上展现出优异的跨本体泛化能力:无深度信息(w/o Depth)条件下,平均任务成功率由Pi0.5的13.0%提升至15.7%;引入深度输入(w/ Depth)后,空间理解能力增强,平均成功率进一步跃升至17.3%。

此外,蚂蚁灵波科技已于1月27日开源LingBot-Depth空间感知模型。该模型专为真实场景设计,聚焦深度补全任务,采用奥比中光Gemini 330系列双目3D相机采集高质量RGB-Depth数据,并基于其深度引擎芯片直出的原始深度图进行端到端训练与优化,旨在将噪声大、缺失多、尺度模糊的原始深度信号,转化为高精度、高覆盖率、具备真实物理尺度的三维测量结果,全面提升机器人与智能终端的环境建模与空间推理能力。
实测结果显示,LingBot-Depth在深度精度(RMSE)与有效像素覆盖率两项核心指标上均超越当前顶级工业级深度相机。在NYUv2、ETH3D等国际主流基准测试中,其在深度补全、单目深度估计及双目立体匹配任务上均达到SOTA(State-of-the-Art)水平,并在不依赖显式时序建模的前提下,天然保持视频级时间一致性。
目前,LingBot-Depth已通过奥比中光深度视觉实验室的全维度专业认证,在精度稳定性、弱光/反光/透明物等复杂场景适应性方面均达到行业领先水准。
