鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
今天,你被DeepSeek识图模式灰度到了吗?

今天眼睛一睁,俺也喜提灰度,这就来展示一下实测成果。
实测DeepSeek识图模式在识图模式下,可以选择是否开启深度思考。

那么思考和非思考模式下,DeepSeek识图模式的推理能力会有什么样的差别?
推理能力先上一道空间推理题:要想使右侧图形在不旋转的情况下拼合成左侧的正方体造型,还需在问号处添加的图形是哪个?

但可以看到,它思考这个问题整整用了4分多钟。
这个思考过程的冗长程度,我们可以直观地感受一下——
在思考的中段,其实DeepSeek已经找到了正确答案:

但……不知道是不是图片本身的原因,幻觉更多了。
实用功能推理部分还有进步空间,那么在实用功能方面,DeepSeek的识图模式是否靠谱呢?
试试OCR。
把DeepSeek V4技术报告的摘要丢进DeepSeek识图模式,不开深度思考的情况下,它依然是闪电出结果,还贴心地给开源链接给超链了。

但在色盲测试中,偶见翻车。

而从它的世界知识中,有博主发现了端倪:视觉模型知道Ta,而V4 flash/pro则并不了解Ta。
是不是说,识图模式中的视觉模型,是独立训练的?

实测下来坦白说,DeepSeek Vision还有不少可以精进之处。
但话说回来,谁又能想到DeepSeek的多模态,来的这么快呢?
当DeepSeek在V4的技术报告中写下,“我们也正在努力将多模态能力整合到我们的模型中”,大家都以为这还只是个优先级没那么高的目标,不少朋友都在惋惜的同时,也认同“资源有限的情况下优先做好纯文本是对的”。
而现在看来,DeepSeek做到的或许比外界想象的更多、更快。
那么论文中提到的“在MoE和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度”,是不是也……

参考链接:[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106250