5 月 9 日,DeepSeek 的“识图模式”迎来明显提速。继 4 月底小范围灰度测试后,DeepSeek 已经向更多测试账号开放图片理解入口。
在对话界面中,“识图模式”与“快速模式”“专家模式”并列出现,虽然页面仍提示“图片理解功能内测中”,但这已经足以说明:DeepSeek 正在把多模态能力放到更核心的产品位置。

过去一段时间,DeepSeek 给外界最深的印象是文本推理、代码能力、成本效率和开源生态;但在 ChatGPT、Gemini、Claude 等产品持续把语音、图片、视频、屏幕理解融入日常工作流后,单纯的文本能力已经不再足够。
用户真正需要的是一个能读文档、看截图、识图表、理解页面结构,甚至能把图片里的信息转化为下一步行动的 AI 助手。
不是 OCR,而是“看图后理解问题”从目前公开测试反馈看,DeepSeek 识图模式并不只是把图片里的文字提取出来。
它更接近图像理解:可以识别图片中的物体、结构、人物关系、图表信息和上下文语义,并根据用户提问给出解释。
比如,一张网页截图不只是被识别为“有文字的图片”,模型需要理解页面层级、按钮位置、提示信息和用户真正想解决的问题;一张图表也不只是读取数字,而是要看出趋势、异常点和业务含义。
这也是多模态大模型真正有价值的地方。OCR 解决的是“读字”,多模态理解解决的是“看懂”。前者像扫描仪,后者才更像助手。
DeepSeek 为什么现在补多模态?原因很直接:AI 产品竞争已经从“谁会聊天”进入“谁能处理真实世界输入”。
文本是最低门槛,图片、音频、视频、文件、屏幕和工具调用才是下一阶段的核心入口。谁能把这些输入统一到一个稳定、低成本、响应快的系统里,谁就更接近真正的 AI 助手。
DeepSeek 过去的优势在于性价比和推理能力。如果识图模式能延续其高效率路线,就可能在企业办公、教育解题、工业巡检、图表分析、电商内容审核、客服质检等场景中打开更大空间。
国产大模型进入图文交互硬仗DeepSeek 识图模式大范围内测,会直接加剧国内大模型在多模态方向的竞争。此前,通义千问、Kimi、豆包、智谱、文心等产品都在不断强化文件理解、图片理解和智能体能力。
DeepSeek 此次补上视觉入口后,竞争焦点将不再只是“谁的文本回答更好”,而是“谁能把多模态能力做得更便宜、更快、更稳、更适合中文场景”。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233