英伟达整合Groq技术推出Groq 3 LPU,强化Rubin平台多智能体推理性能
SmartHey3月17日消息,在3月17日美国圣何塞举行的GTC主题演讲中,黄仁勋公布了英伟达如何将2025年从Groq收购的核心知识产权深度融入Rubin平台,显著拓展其AI推理能力边界。
Rubin平台现已集成全新芯片——英伟达Groq 3 LPU(Language Processing Unit),这是一款专为大模型推理优化的加速器,可支持超低延迟、高吞吐量的token交付,从而在前沿AI模型中实现前所未有的实时交互体验。
与主流AI加速器普遍依赖HBM(高带宽内存)作为主工作内存不同,每颗Groq 3 LPU均内置500 MB片上SRAM——这种常用于CPU/GPU缓存的超高速内存,虽容量远小于Rubin GPU搭载的最高288GB HBM4,却可提供高达150 TB/s的内存带宽,较HBM4的22 TB/s提升近7倍。这一特性使其在带宽敏感的AI解码任务中展现出显著优势。
在此基础上,英伟达将部署由256颗Groq 3 LPU组成的Groq 3 LPX机架系统:单机架提供总计128GB SRAM和40 PB/s的推理加速带宽,并通过专用扩展接口实现640 TB/s的芯片间互联带宽。
据英伟达超大规模副总裁Ian Buck介绍,Groq LPX被定位为Rubin GPU的关键协处理器,可全面提升“AI模型每一层在每个token上的解码效率”,助力Rubin平台支撑人工智能下一阶段核心范式——多智能体系统。此类系统需同时推理万亿参数级模型,并在百万级token上下文窗口中维持毫秒级响应能力。
随着AI代理越来越多地与其他AI而非人类用户交互,传统面向人机对话设计的响应节奏已显滞后。对人类而言尚属流畅的每秒百token生成速率,在AI代理间的协作场景中近乎不可用。在Buck描绘的架构下,Rubin GPU与Groq LPU协同工作,可将AI代理间通信吞吐量从每秒约100 token跃升至1500 token以上,为自主协作型智能体生态奠定底层算力基础。
