> 自媒体 > (AI)人工智能 > DeepSeek 开放识图模式,跨入图文交互时代
DeepSeek 开放识图模式,跨入图文交互时代
来源:DoNews
2026-06-04 15:38:57
80
管理

据IT之家报道,上个月底,DeepSeek 开始灰度测试“识图模式”。该模式并非简单的文字 OCR,而是终于具备了图片识别理解能力。最新据用户反馈,DeepSeek 已经大范围开放“识图模式”供用户体验,目前几乎所有测试账号都能看到该入口。

拥有灰度测试资格的用户会发现,输入框上方与“快速模式”和“专家模式”并列,出现了一个全新的“识图模式”按钮。在具体的实测体验中,开启该模式后,用户可以直接上传图片让 DeepSeek“看”世界,其能力边界远超简单的文字提取。

在基础的图像识别领域,它成功变身为一名“博物学家”,例如有网友上传了在博物馆拍摄的不明文物,开启“深度思考”后,DeepSeek 不仅详细描述了纹理与材质,甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”;在面对烧脑的逻辑题时,它同样展现出硬核的推理能力,在一项需要在脑海中拼合立方体的高难度空间推理题中,虽然不开思考模式容易给出错误答案,但一旦开启深度思考并耗费了长达 4 分钟左右的时间,最终给出了正确的答案;此外,它还被验证了极强的“网感”,上传时下流行的表情包或梗图,它能精准识别合照中的人物(例如从一张合影中同时精确区分出特朗普和鲁路修),甚至能解读出小猫的无奈情绪,准确理解网民的转发笑点;在生产力方面,它还可以充当万能的“截图转码器”,直接将包含代码、复杂 UI 界面的技术报告或网页截图进行解析,提取出所有文字,甚至能一键反向生成可交互的 HTML 代码,连原网页的跳转按钮都能原封不动地予以复原。

伴随着识图模式的上线,DeepSeek 上月底还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives(以视觉原语思考)”的核心框架。

据 DeepSeek 发布的技术报告解释,传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境,模型虽然能看见图片,但在推理过程中用“左边那个大的”等模糊的自然语言构建逻辑链时,很容易因描述不准导致注意力漂移。

DeepSeek 给出的解法是,将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条,使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样,边想边指,从而完美解决了复杂空间布局中的逻辑难题。

更令人惊叹的是,这种高效的框架在实际运算中对算力资源非常友好,在处理一张 800×800 分辨率的图片时,DeepSeek 仅消耗约 90 个 tokens,而 GPT 和 Claude 等其他主流模型在处理同等图片时则需要消耗约 870 到 1100 个 tokens,且 DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越了前沿模型的水平。

另外需要提醒的是,刚学会“睁眼”的 DeepSeek 并没有大家想象中那么完美。综合大量用户实测反馈来看,目前的识图模式仍存在几处明显不足:

首先是知识库更新的滞后性,在某些测试中,虽然模型的推理过程和分析逻辑完全正确,但最终答案却张冠李戴 —— 例如在识别某款 2025 年底发布的最新型号手机时,因其知识库停留在 2025 年,虽然能通过副屏细节推断出旧型号,但仍给出了完全错误的具体型号;

其次,在面对数图中老虎数量、视错觉等高难度反直觉图形题目时,它的答案依然存在很大的不确定性,甚至有时在经过长时间“深度思考”后,反而出现了更严重的幻觉,导致最终逻辑崩溃。

还有一点需要明确的是,目前 DeepSeek 上线的识图模式本质上是纯视觉理解模块,它主要集中在图片识别与分析层面,尚未集成图像生成、视频理解或跨模态交互等更为广义的多模态功能。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
从ChatGPT到机器人:什么是物理AI?主攻方向一文讲透
第一层:感知相当于人的眼睛和耳朵。包括:摄像头;激光雷达;传感器;负..
机器人板块随市调整,机器人ETF汇添富(159213)跌超1%,资金逢跌坚定涌入!..
6月1日,A股市场缩量回调,科创50指数再度大跌5%,机器人板块随市调整。..
OpenAI进军机器人领域 当ChatGPT拥有身体 AI的iPhone时刻正在降临..
2026年6月1日,人工智能领域迎来了一场迟到的“官宣”。OpenAI联合创始人..
比 ChatGPT 更可怕!人形机器人从 \u0026#34;不听话\u0026#34; 到 \u0026#3..
当人们还在争论 ChatGPT 是否会取代人类工作时,一个更危险的技术趋势正..
用ChatGPT开挂了两年,我来说说我真实的使用状态
说实话,我一直没怎么专门写过ChatGPT的使用心得,因为觉得这事太常见了..
独家专访张亚勤:物理AI迎“ChatGPT时刻”还需5年,中国科技出海如何以“向..
“未来机器人的数量可能比人还要多,”近期,清华大学智能产业研究院(AI..
谷歌不想再追赶ChatGPT
(本文作者为 强调Next,钛媒体经授权发布)文 | 强调NextGoogle I/O 202..
ChatGPT即将合并Codex,3大更新改变一切
ChatGPT要没了?名字还在,内核已经变了今天几乎所有科技媒体都在传一个..
OpenAI ChatGPT解锁AI填表:图像识别、语音输入和自动补全..
IT之家 5 月 23 日消息,OpenAI 今天(5 月 23 日)发布公告,宣布 ChatG..
关于作者
醉看夕阳(普通会员)
文章
2136
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112559

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索