DeepSeek 全面上线「识图模式」:支持文物鉴定、空间推理与截图转码,首创「视觉原语思考」框架
SmartHey5月9日消息,上个月底,DeepSeek 开始灰度测试“识图模式”。该模式并非简单的文字 OCR,而是真正具备了图像识别与语义理解能力。据最新用户反馈,DeepSeek 已大范围开放该功能,目前几乎所有测试账号均可在界面中看到“识图模式”入口。
拥有灰度权限的用户会发现,输入框上方新增了一个与“快速模式”“专家模式”并列的“识图模式”按钮。实测显示,开启后用户可直接上传图片,让 DeepSeek “看”懂世界——其能力远超基础图文提取,覆盖认知、推理与交互多个维度。
在图像认知层面,它化身“数字博物学家”:有用户上传博物馆拍摄的未知文物照片,启用“深度思考”后,DeepSeek 不仅细致描述了纹饰、光泽与材质特征,更精准推断出某件玉器属于18世纪清代乾隆时期的“痕都斯坦风格”;面对高难度空间逻辑题(如 mentally rotating and assembling cubes),普通模式易出错,而开启深度思考并耗时约4分钟之后,模型成功给出正确解法;它还展现出敏锐的网络语感——上传流行梗图或表情包,能同时准确识别合影中特朗普与动漫角色鲁路修,并解读小猫照片中流露的“无奈情绪”,甚至捕捉网民转发时的幽默逻辑;在生产力场景中,它可作为高效“截图转码器”:对含代码、复杂UI界面的技术报告或网页截图,不仅能完整提取所有文本信息,还能一键反向生成结构清晰、功能完整的可交互 HTML 代码,包括原网页中的跳转按钮等交互元素均被精准复现。
伴随识图模式上线,DeepSeek 上月底同步公开了其多模态技术架构,提出名为“Thinking with Visual Primitives(以视觉原语思考)”的核心框架。
据 DeepSeek 技术报告解释,传统多模态大模型在处理密集图像时常陷入“指代鸿沟”困境:模型虽能看见图像,但在推理链中依赖“左边那个大的”等模糊自然语言描述,极易导致注意力偏移、逻辑断裂。
DeepSeek 的突破在于,将点、边界框等空间定位型视觉元素直接嵌入推理过程,使其成为模型“思维的基本单元”。这种机制如同人类用“赛博手指”在脑海中边想边指,实现目标物的精准锚定,从而显著提升复杂空间布局下的推理稳定性与准确性。
尤为突出的是,该框架在效率上优势明显:处理一张 800×800 分辨率图片,DeepSeek 仅消耗约 90 个 tokens;而 GPT、Claude 等主流模型在同等任务下需消耗 870–1100 tokens。与此同时,DeepSeek 在多项计数与空间推理基准测试中,表现已达甚至超越当前前沿模型水平。
不过需理性看待:刚迈出“睁眼第一步”的 DeepSeek 识图能力仍有优化空间。综合大量实测反馈,当前存在以下局限:
一是知识库更新存在滞后。例如识别2025年底发布的新型号手机时,因训练数据截止于2025年,模型虽能通过副屏细节合理推断为旧款系列,却仍错误输出已停产的具体型号;
二是对反直觉图形题(如视错觉、老虎数量统计等)仍显吃力,答案不确定性高;个别案例中,即使启动长时间“深度思考”,反而诱发更强幻觉,导致推理链崩溃。
还需明确的是,当前上线的识图模式为纯视觉理解模块,聚焦于图像识别、分析与推理,尚未集成图像生成、视频理解或跨模态实时交互等更广义的多模态能力。
