中国移动发布移动模型服务平台MoMA:接入300+主流AI模型,首创Token集约化运营模式
5月8日,在2026移动云大会主论坛上,中国移动正式发布移动模型服务平台MoMA。该平台已接入超300款业界主流AI模型,模型覆盖广度与生态丰富度位居行业前列;同时首创Token集约化运营模式,致力于让人工智能像水和电一样‘随时可得、随处可用’,加速AI在千家万户与千行百业的深度落地。

开放普惠,让AI触手可及
MoMA打造了‘一次接入、智能优选、普惠可用、安全可信’的一站式模型服务架构,显著降低企业及开发者应用AI的技术门槛与使用成本。
统一API网关,全模型即插即用:用户仅需一次集成,即可调用平台全部AI能力。目前,MoMA已全面接入中国移动自研‘九天’基座大模型,并汇聚DeepSeek、通义千问、豆包、Kimi、GLM等头部模型,能力涵盖文本生成、语音识别与合成、多模态理解等,广泛适配政务、金融、工业、医疗、教育等关键领域场景。
智能路由引擎,动态匹配最优模型:平台内置自研路由系统,可基于用户请求实时分析语义意图与业务目标,自动切换‘成本优先’‘效果优先’或‘均衡优先’策略,实现模型毫秒级智能调度;当任一模型发生超时、限流或异常时,系统自动无缝切换至备用模型,保障服务连续性与SLA稳定性。
国产算力+智能调度,大幅降本增效:MoMA基于国产化AI算力集群部署自研高性能推理引擎,并通过智能路由对长尾模型进行精细化资源调度,单位Token推理成本降低约30%,GPU资源占用率下降超50%。叠加智能缓存、上下文复用、Token压缩等优化技术,进一步提升资源利用效率;其中立路由机制,帮助用户在性能、成本与体验之间实现科学平衡。
机密计算加持,筑牢AI安全底座:平台推出‘机密模型’服务,将敏感模型运行于硬件级隔离的机密容器中,依托可信执行环境(TEE)实现‘数据可用不可见、模型可用不可取’。该能力贯穿芯片、框架到应用全栈,为政务、金融等高安全要求场景提供端到端可信支撑。
集约运营,赋能Token高效治理
在开放普惠基础上,MoMA同步构建Token全生命周期管理体系,聚焦‘用得好、管得住’核心诉求,形成从精准计量、风险防控到经营分析的闭环运营范式,推动算力资源透明化、规范化、集约化使用。
流式实时计费,用多少、算多少:平台采用毫秒级Token流式采集与分钟级账单结算机制,端到端计费延迟≤60秒,真正实现‘即用即付、按量计价’,彻底告别传统包年包月模式下的资源闲置与账单不透明问题。
专属风控体系,全程可溯可审计:MoMA建立独立Token风控中台,覆盖申请、调用、计费、结算全链路,确保每一笔Token消耗可追踪、可验证、可回滚,有效防范资源滥用、费用溢出与服务中断风险,保障商业合作公平可信。
全链路可观测,决策有据可依:平台提供覆盖客户侧、订购侧、调用侧、收入侧的多维指标监控能力,实时采集时延、吞吐量、Token消耗、GPU利用率等核心参数,并融合告警、根因诊断与趋势预测,构建一体化AI运营仪表盘,助力用户量化评估AI投入产出比,驱动智能化经营决策。

未来,中国移动将持续升级MoMA平台服务能力,深化与产业链伙伴协同创新,共同激发算力新潜能、拓展智能新边界,加速人工智能在经济社会各领域的规模化、高质量、可信赖应用。
