蚂蚁灵波科技全面开源LingBot-VLA具身大模型及LingBot-Depth空间感知模型，推动真实机器人跨本体泛化与高精度三维感知

推荐 2026-01-28 14:46

字号

SmartHey1月28日消息，蚂蚁集团旗下具身智能公司——蚂蚁灵波科技今日宣布全面开源 LingBot-VLA 具身大语言动作模型（VLA）及其后训练代码。目前，LingBot-VLA 已完成与星海图、松灵、乐聚等主流机器人厂商的深度适配，成功验证其在多种机器人构型上的跨本体迁移能力。

为提升训练效率与工程可复现性，蚂蚁灵波科技同步构建了一套轻量高效、开箱即用的后训练工具链。在仅需8卡GPU的配置下，该工具链实现单卡每秒261个样本的吞吐量，训练效率达StarVLA、OpenPI等主流框架的1.5~2.8倍，显著降低数据标注与算力投入成本。

依托海量真实世界机器人操作数据，团队首次系统性探究了VLA模型性能随预训练数据规模增长所呈现的Scaling Law规律。

实验表明：当预训练数据时长从3,000小时逐步扩展至6,000、13,000、18,000，最终达20,000小时，模型在下游真实任务中的成功率持续显著提升。

尤为关键的是，即使在20,000小时数据量下，模型性能仍未见饱和，仍呈稳定上升趋势，印证VLA模型仍有较大扩展潜力。

基于上述发现，蚂蚁灵波科技构建了当前业界规模最大的20,000小时真实机器人训练数据集，覆盖AgileX Cobot Magic、Galaxea R1Pro/R1Lite、AgiBot G1等9种主流双臂机器人构型，全面支撑多样化硬件部署需求。

在上海交通大学发布的具身智能权威评测基准GM-100（含100项真实操作任务）中，LingBot-VLA在三个不同物理机器人平台上展现出优异的跨本体泛化能力：无深度信息（w/o Depth）条件下，平均任务成功率由Pi0.5的13.0%提升至15.7%；引入深度输入（w/ Depth）后，空间理解能力增强，平均成功率进一步跃升至17.3%。

此外，蚂蚁灵波科技已于1月27日开源LingBot-Depth空间感知模型。该模型专为真实场景设计，聚焦深度补全任务，采用奥比中光Gemini 330系列双目3D相机采集高质量RGB-Depth数据，并基于其深度引擎芯片直出的原始深度图进行端到端训练与优化，旨在将噪声大、缺失多、尺度模糊的原始深度信号，转化为高精度、高覆盖率、具备真实物理尺度的三维测量结果，全面提升机器人与智能终端的环境建模与空间推理能力。

实测结果显示，LingBot-Depth在深度精度（RMSE）与有效像素覆盖率两项核心指标上均超越当前顶级工业级深度相机。在NYUv2、ETH3D等国际主流基准测试中，其在深度补全、单目深度估计及双目立体匹配任务上均达到SOTA（State-of-the-Art）水平，并在不依赖显式时序建模的前提下，天然保持视频级时间一致性。

目前，LingBot-Depth已通过奥比中光深度视觉实验室的全维度专业认证，在精度稳定性、弱光/反光/透明物等复杂场景适应性方面均达到行业领先水准。