DeepSeek测试百万级上下文新模型,V4或将于春节前后发布
SmartHey2月14日消息,据澎湃新闻报道,近日,DeepSeek 网页端及 App 正在内测一种新型长文本模型架构,支持高达 100 万(1M)token 的上下文长度。其现有 API 接口保持不变,仍沿用 V3.2 版本,该版本当前最大上下文支持为 128K。
此举被业内广泛解读为 DeepSeek 或将在今年春节档期正式推出全新大模型 V4,有望复刻去年春节期间引发全网热议的“现象级发布”盛况。
今年1月12日,DeepSeek联合北京大学发布重要论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),DeepSeek 创始人梁文锋位列共同作者。该研究聚焦当前大语言模型在长期记忆与高效检索方面的瓶颈,创新性提出“条件记忆”机制,为超长上下文建模提供了新思路。
论文发布后,业界普遍预期 DeepSeek V4 将于春节前后正式亮相,进一步强化其在长文本理解、复杂推理与智能体任务中的领先优势。
回溯来看,去年12月1日,DeepSeek 曾同步上线两款正式版模型:DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale。目前,官网网页端、官方 App 及公开 API 均已默认启用 V3.2;Speciale 版本则以限时开放的实验性 API 形式供开发者与研究社区评测使用。
据悉,DeepSeek-V3.2 的核心设计目标是在推理能力与输出效率之间取得更优平衡,适用于日常问答、多步任务规划及通用智能体(Agent)等典型场景。在多项公开推理类基准测试中,V3.2 综合表现已达 GPT-5 水平,仅小幅落后于 Gemini-3.0-Pro;相较 Kimi-K2-Thinking,其输出长度显著缩短,在保障质量的同时大幅降低计算资源消耗与用户响应延迟。
