DeepSeek联合北大清华发布DualPath推理系统,大幅提升智能体场景下大模型推理效率
在业界热切期待新一代旗舰模型DeepSeek V4之际,DeepSeek团队联合北京大学、清华大学悄然发布一项重要研究成果。该研究聚焦于影响大模型实际落地的核心瓶颈——推理速度,旨在为日益复杂的AI智能体提供高效、可扩展的底层推理系统支持。
论文提出名为DualPath的创新推理架构,专为智能体工作负载下的大语言模型(LLM)推理性能优化而设计。其核心突破在于引入‘双路径读取KV-Cache’机制(即并行访问键值缓存,类比人类的双重记忆调用),通过重构存储与计算协同逻辑,显著缓解内存带宽压力。实验表明:该方案使离线推理吞吐量最高提升1.87倍,在线服务场景下每秒可支撑的智能体运行数量平均提升1.96倍。
论文指出,当前大模型正加速从单轮问答式对话助手,演进为具备自主规划、工具调用与多轮环境交互能力的AI智能体系统。
这一范式跃迁带来推理负载的根本性变化:交互流程由传统‘人→模型’单向模式,升级为‘人→模型→环境’闭环链路,单任务交互轮次常达数十乃至上百轮,对低延迟、高并发、长上下文推理能力提出全新挑战。DualPath正是针对此类真实智能体工作负载所构建的系统级解法。
