英伟达整合Groq技术推出Groq 3 LPU，强化Rubin平台多智能体推理性能

推荐 2026-03-17 08:50

字号

SmartHey3月17日消息，在3月17日美国圣何塞举行的GTC主题演讲中，黄仁勋公布了英伟达如何将2025年从Groq收购的核心知识产权深度融入Rubin平台，显著拓展其AI推理能力边界。

Rubin平台现已集成全新芯片——英伟达Groq 3 LPU（Language Processing Unit），这是一款专为大模型推理优化的加速器，可支持超低延迟、高吞吐量的token交付，从而在前沿AI模型中实现前所未有的实时交互体验。

与主流AI加速器普遍依赖HBM（高带宽内存）作为主工作内存不同，每颗Groq 3 LPU均内置500 MB片上SRAM——这种常用于CPU/GPU缓存的超高速内存，虽容量远小于Rubin GPU搭载的最高288GB HBM4，却可提供高达150 TB/s的内存带宽，较HBM4的22 TB/s提升近7倍。这一特性使其在带宽敏感的AI解码任务中展现出显著优势。

在此基础上，英伟达将部署由256颗Groq 3 LPU组成的Groq 3 LPX机架系统：单机架提供总计128GB SRAM和40 PB/s的推理加速带宽，并通过专用扩展接口实现640 TB/s的芯片间互联带宽。

据英伟达超大规模副总裁Ian Buck介绍，Groq LPX被定位为Rubin GPU的关键协处理器，可全面提升“AI模型每一层在每个token上的解码效率”，助力Rubin平台支撑人工智能下一阶段核心范式——多智能体系统。此类系统需同时推理万亿参数级模型，并在百万级token上下文窗口中维持毫秒级响应能力。

随着AI代理越来越多地与其他AI而非人类用户交互，传统面向人机对话设计的响应节奏已显滞后。对人类而言尚属流畅的每秒百token生成速率，在AI代理间的协作场景中近乎不可用。在Buck描绘的架构下，Rubin GPU与Groq LPU协同工作，可将AI代理间通信吞吐量从每秒约100 token跃升至1500 token以上，为自主协作型智能体生态奠定底层算力基础。

英伟达整合Groq技术推出Groq 3 LPU，强化Rubin平台多智能体推理性能

猜你喜欢