高德发布全球首款开放环境全自主具身机器人“途途”，同步开源ABot全栈具身技术体系

推荐 2026-04-19 12:06

字号

SmartHey4月19日消息，4月19日，在2026北京亦庄机器人半程马拉松上，阿里巴巴旗下高德正式发布全球首款面向开放环境的全自主四足具身机器人——‘高德途途’。该机器人成功完成视障导引、复杂避障、高密度人群穿行等真实场景挑战，首次实现具身智能从实验室验证到城市级开放环境的规模化落地。

支撑‘途途’应对导盲等严苛任务的核心，是高德全新推出的ABot全栈具身技术体系。该体系基于上万种真实城市与生活场景数据，融合千万级多模态Clip训练样本，将高德长期积累的空间智能资产系统性转化为具身智能训练资源，构建出全球首个以通用人工智能（AGI）为终极目标的端到端具身智能技术框架。

ABot体系打破传统具身智能‘模块拼凑、孤立验证’的发展路径，以AGI为导向，首次实现数据引擎、基座模型与执行中枢三大组件的深度耦合与协同演进。目前，ABot系列模型已在全球15项主流具身智能基准测试中斩获SOTA（State-of-the-Art）成绩。

ABot体系：三层飞轮式架构，打造持续进化的具身智能闭环

ABot采用‘数据—模型—应用’三层闭环飞轮设计，三者并非线性堆叠，而是深度咬合、互为驱动力：高质量数据驱动模型进化，先进模型赋能实际应用，真实应用又反哺高质量反馈数据，从而系统性攻克行业长期存在的数据稀缺、仿真-现实鸿沟、技能泛化不足三大瓶颈，形成自我增强的正向循环。

数据是具身智能的‘第一燃料’，其规模与质量直接决定机器人的泛化上限。区别于大语言模型的数据可扩展性，真机采集成本高昂且难以规模化。

作为数据层核心，ABot-World通过批量合成Video、Depth、Point Cloud和Trajectory四类高保真训练数据，并结合强化学习训练引擎（RL Training Engine），在虚拟环境中定义物理奖惩机制、开展海量试错训练。该方案以高精度仿真替代昂贵真机采集，显著弥合Sim-to-Real鸿沟，将数据构建成本降低数个数量级。

模型层聚焦具身操作的通用性与导航的长程鲁棒性，核心由ABot-M（操作模型）与ABot-N（导航模型）构成。二者采用统一架构设计，支持分工训练与协同调用，通过Model Skill机制灵活组合，高效执行跨区域、多步骤的复杂任务。

应用层的核心是具身版‘龙虾’执行中枢——ABot-Claw。它将异构机器人统一接入共享认知框架，具备任务调度、长期记忆、分层控制及社会行为对齐能力，从根本上解决长程任务闭环难、知识无法复用、系统孤岛化等行业痛点。

ABot体系的设计逻辑，根植于高德独有的‘空间智能飞轮’：依托近10亿月活用户产生的实时时空数据与行为反馈，算法在真实世界中持续迭代，模型对物理世界的理解每日深化。这一飞轮不依赖单点技术突破，而靠真实场景中的高频、自动、闭环运转构筑体系化护城河。

ABot-World：全球首个深度嵌入物理定律的可微分动力学引擎

当主流世界模型仍受限于视觉幻觉与动力学失配时，ABot-World率先实现物理规律在生成全流程的可微分嵌入，成为全球首个兼具可进化性与严格物理一致性的动力学仿真基座。作为ABot体系的底层支柱，它直接决定了上层模型在真实世界部署的可靠性与泛化天花板，并彻底打通‘虚拟训练→真实部署’的技术闭环。

在架构层面，ABot-World创新采用14B参数DiT（Diffusion Transformer）结构，以多模态观测与动作指令为输入，直接在潜空间生成符合时空动力学约束的未来状态序列；依托千万级真实轨迹数据与多层级采样治理策略，突破单一任务泛化的局限性。

在场景构建方面，其3DGS冷启动空间基座支持手机视频、航拍图等稀疏输入，通过‘粗建模→高保真修复→蒸馏回环’全自动流程，将低质影像转化为高质量3D场景，大幅降低高质量三维数据生产门槛。

在训练范式上，ABot-World首创Diffusion-DPO物理偏好对齐框架：由视觉语言模型（VLM）自动生成物理规则清单并独立判别，构建优劣样本对，引导模型主动规避违反物理规律的行为；同时融合拉格朗日动力学建模与3DGS重建，使每一帧画面均承载质量、摩擦系数、接触力等可微分物理属性。

此外，ABot-World构建了‘训练引擎+数据引擎’双轨并行架构，实现模型自进化能力。系统已基于高德自有地图与脱敏真实数据，累计生成超万级高精度3D城市生活场景、百万级推理样本与千万级训练轨迹，覆盖99%典型日常场景；通过接入VLA（Vision-Language-Action）闭环，真正实现‘预测即训练、演练即学习’，并借助跨形态动作映射，统一支持四足、轮式、双臂等多种机器人本体的精确控制。

在PBench、EZSbench、WorldArena、Agibot World Challenge等国际主流评测中，ABot-World持续领跑，并成为全球唯一在物理合规性、动作可控性、零样本泛化三大核心维度全部达成SOTA的世界模型。

ABot-N & ABot-M：全球首个‘运动双核’基座模型，11项SOTA验证导航与操作新范式

若将ABot全栈体系比作具身智能的‘运行大脑’，ABot-N与ABot-M便是其协同工作的‘运动双核’——前者掌管‘去哪里’（导航），后者主导‘做什么’（操作），共同响应物理世界的基础指令。二者基于统一可解耦架构，首次实现跨机器人形态与跨任务场景的通用适配能力。

ABot-N是全球首个实现五大核心导航任务‘大一统’的视觉语言动作（VLA）基座模型，具备意图理解、自主决策与在线进化能力，是‘途途’走向开放城市环境的核心导航引擎。其采用层级式‘大脑-动作’协同架构，通过多模块联合优化，以单一模型覆盖全部导航子任务，彻底突破传统专用模型的泛化瓶颈。

ABot-N发布后，迅速在VLN-CE（R2R/RxR）、HM3D-OVON、EVT-Bench等7大权威导航基准上全面刷新SOTA，并在导航精度、社会合规性（如礼让行人、避让障碍）及zero-shot跨场景泛化能力上实现断层领先。

ABot-M则是全球首个统一架构的具身操作基座模型，支持‘一个通用大脑’驱动多种机械构型（如四足+机械臂、轮式+夹爪等），显著提升操作模型在异构平台与多样化任务间的迁移效率。

ABot-M提出全球首个‘动作流形学习’范式，将建模目标从传统去噪重构转向流形空间投影，大幅提升动作生成稳定性与解码速度，在全身高自由度控制等复杂场景中展现出卓越可扩展性；感知端则采用语义流与动作流双流并行架构，进一步提升精细操作（如开关门、取物、导引手势）的执行精度。

在LIBERO、LIBERO-Plus、RoboCasa GR1、RoboTwin 2.0等主流操作评测中，ABot-M全面超越π0.5、UniVLA、OpenVLA-OFT等强基线模型，在泛化能力、系统鲁棒性与跨形态迁移性能三大维度实现系统性领先。

值得一提的是，ABot-N与ABot-M多项关键技术成果已入选ICLR、CVPR等人工智能顶会，正逐步成为具身智能领域导航与操作任务的新范式标准。

ABot-Claw：首创‘Map as Memory’集中式Harness架构，定义具身记忆新范式

记忆能力是机器人跨越‘感知’与‘执行’鸿沟的关键基石。传统方法受限于视野边界，记忆呈碎片化、不可迁移，严重制约长期任务与跨场景泛化。

为此，ABot-Claw首创‘Map as Memory’理念，重构具身智能的记忆范式。作为ABot体系的‘执行中枢’，它采用集中式Harness架构，将高德地图与用户私有地图作为全局认知锚点，把多源多模态感知数据统一映射至共享语义空间，构建起可动态刷新、持久沉淀、跨终端复用的‘世界记忆’。新设备接入后，仅需加载全局上下文即可零成本继承已有环境认知，彻底消除场景孤岛。

ABot-Claw还采用‘云端大脑—边缘响应’两级协同设计，在保障智能深度的同时兼顾实时性与可靠性。在任务调度层面，该架构支持多类型异构机器人并行协作与无缝任务接力：当某节点故障时，系统自动接续上下文并移交任务，实现跨设备、跨形态的连续服务。这标志着机器人正从‘单体智能’迈向‘体系智能’——每个终端都是共享记忆、统一调度、协同进化的智能网络节点。

此外，ABot-Claw内置闭环反馈与主动纠错机制，在模糊指令理解、跨机导引、多轮交互等复杂人机协同场景中，已充分验证其高鲁棒性与强泛化性。

伴随‘高德途途’全球首秀，高德正式宣布将ABot全栈技术体系全面开源。此举不仅是‘AMAP AI Inside’战略的深度践行，更将推动具身智能研发从封闭定制走向开放共建，加速通用人工智能（AGI）时代的到来。