DeepSeek 全面上线「识图模式」：支持文物鉴定、空间推理与截图转码，首创「视觉原语思考」框架

推荐 2026-05-09 09:31

字号

SmartHey5月9日消息，上个月底，DeepSeek 开始灰度测试“识图模式”。该模式并非简单的文字 OCR，而是真正具备了图像识别与语义理解能力。据最新用户反馈，DeepSeek 已大范围开放该功能，目前几乎所有测试账号均可在界面中看到“识图模式”入口。

拥有灰度权限的用户会发现，输入框上方新增了一个与“快速模式”“专家模式”并列的“识图模式”按钮。实测显示，开启后用户可直接上传图片，让 DeepSeek “看”懂世界——其能力远超基础图文提取，覆盖认知、推理与交互多个维度。

在图像认知层面，它化身“数字博物学家”：有用户上传博物馆拍摄的未知文物照片，启用“深度思考”后，DeepSeek 不仅细致描述了纹饰、光泽与材质特征，更精准推断出某件玉器属于18世纪清代乾隆时期的“痕都斯坦风格”；面对高难度空间逻辑题（如 mentally rotating and assembling cubes），普通模式易出错，而开启深度思考并耗时约4分钟之后，模型成功给出正确解法；它还展现出敏锐的网络语感——上传流行梗图或表情包，能同时准确识别合影中特朗普与动漫角色鲁路修，并解读小猫照片中流露的“无奈情绪”，甚至捕捉网民转发时的幽默逻辑；在生产力场景中，它可作为高效“截图转码器”：对含代码、复杂UI界面的技术报告或网页截图，不仅能完整提取所有文本信息，还能一键反向生成结构清晰、功能完整的可交互 HTML 代码，包括原网页中的跳转按钮等交互元素均被精准复现。

伴随识图模式上线，DeepSeek 上月底同步公开了其多模态技术架构，提出名为“Thinking with Visual Primitives（以视觉原语思考）”的核心框架。

据 DeepSeek 技术报告解释，传统多模态大模型在处理密集图像时常陷入“指代鸿沟”困境：模型虽能看见图像，但在推理链中依赖“左边那个大的”等模糊自然语言描述，极易导致注意力偏移、逻辑断裂。

DeepSeek 的突破在于，将点、边界框等空间定位型视觉元素直接嵌入推理过程，使其成为模型“思维的基本单元”。这种机制如同人类用“赛博手指”在脑海中边想边指，实现目标物的精准锚定，从而显著提升复杂空间布局下的推理稳定性与准确性。

尤为突出的是，该框架在效率上优势明显：处理一张 800×800 分辨率图片，DeepSeek 仅消耗约 90 个 tokens；而 GPT、Claude 等主流模型在同等任务下需消耗 870–1100 tokens。与此同时，DeepSeek 在多项计数与空间推理基准测试中，表现已达甚至超越当前前沿模型水平。

不过需理性看待：刚迈出“睁眼第一步”的 DeepSeek 识图能力仍有优化空间。综合大量实测反馈，当前存在以下局限：

一是知识库更新存在滞后。例如识别2025年底发布的新型号手机时，因训练数据截止于2025年，模型虽能通过副屏细节合理推断为旧款系列，却仍错误输出已停产的具体型号；
二是对反直觉图形题（如视错觉、老虎数量统计等）仍显吃力，答案不确定性高；个别案例中，即使启动长时间“深度思考”，反而诱发更强幻觉，导致推理链崩溃。

还需明确的是，当前上线的识图模式为纯视觉理解模块，聚焦于图像识别、分析与推理，尚未集成图像生成、视频理解或跨模态实时交互等更广义的多模态能力。

DeepSeek 全面上线「识图模式」：支持文物鉴定、空间推理与截图转码，首创「视觉原语思考」框架

猜你喜欢