> 自媒体 > (AI)人工智能 > DeepSeek V4迷宫导航准确率66.9%:如何破解多模态指代鸿沟
DeepSeek V4迷宫导航准确率66.9%:如何破解多模态指代鸿沟
来源:科技棱镜
2026-05-02 09:17:24
76
管理

给一张密集的人群照片,问 GPT-5.4 “图里有多少人”,它很可能数错。给 Claude Sonnet 4.6 一张复杂迷宫图,问“从起点到终点有没有路”,它的回答正确率接近 50%——和随机猜硬币差不多。

这不是模型“看不清”的问题。它们能识别出图片里的每个元素,但一旦开始用语言“思考”,逻辑就崩了。你说“左边那个红色的”,在拥挤的场景里,这个“红色的”到底指哪一个?模型的注意力在推理过程中像没拴住的船,慢慢漂移,最后得出错误结论。

DeepSeek 把这个问题命名为 “指代鸿沟”(Reference Gap),并在 V4 的多模态模型中,给出了一套像外科手术般精准的解决方案。

问题出在“指”,不在“看”

业界之前的思路,是让模型“看得更清”:提高图片分辨率、动态切割分块。这解决的是“感知鸿沟”(Perception Gap)——确保模型能看见细节。

但 DeepSeek 的论文指出,看见和能说清楚在说哪个,是两件完全不同的事。这就像你向一个看不见你屏幕的朋友描述复杂的棋盘布局,你说“左边那个棋子要吃掉中间偏右那个”,对方根本无从下手。

自然语言天生模糊,而视觉空间要求精确。当模型只能用“左边那个大的”、“靠近中央的红色物体”来构建思维链时,在密集场景中必然导致指代混淆和逻辑崩塌。此前的主流模型,都困在这个死胡同里。

把“图钉”变成思维的基本单位

DeepSeek V4 的解法,简单说就是:让模型“边想边指”。

它不再只用文字思考,而是把点坐标和边界框这些视觉基元,变成了思维链的基本单位,像文字一样穿插在推理过程中。例如,它的思考过程会这样呈现:

找到一只熊[452,23,804,411],正在爬树,排除,再往左下看,找到另一只[50,447,647,771],站在岩石边缘,符合条件。

这里的坐标,不再是事后标注的答案,而是推理过程中消除歧义的空间锚点。每提到一个对象,就用一个“图钉”(坐标或框)把它钉死在图像的物理位置上,彻底杜绝了注意力漂移的可能。

边界框用于需要精确定位和尺寸的对象(比如计数、比较大小)。点坐标用于追踪路径、迷宫导航这类需要连续空间描述的任务。

这套机制的训练逻辑也很“外科”:团队先分别训练边界框和点坐标两个“专科医生”(专家模型),再用强化学习优化,最后通过在线策略蒸馏合并成一个“全科医生”,确保模型原生掌握精确指代的能力。

效率秘诀:只保留“破案”的关键线索

让模型每一步思考都带坐标,听起来计算量会爆炸。但 DeepSeek 通过一项名为压缩稀疏注意力(CSA) 的机制,实现了极致的效率。

你可以把它理解为一个侦探办案的流程:

压缩:面对海量监控录像(视觉信息),先快速把每4个连续时间段的画面合并成1个摘要片段(压缩KV条目)。筛选:通过一个“闪电索引器”,瞬间挑出与当前线索最相关的几个摘要片段。聚焦计算:侦探(模型)只仔细观看这几个精选片段,而不是从头到尾看完所有录像。

通过这套流程,一张756×756的图片,最终在模型记忆中仅保留81个视觉KV条目。相比之下,处理同样一张图:

Claude Sonnet 4.6 需要约 870个 tokenGemini-3-Flash 需要约 1100个 token

这意味着 DeepSeek V4 实现了 7056倍的视觉压缩比。模型思考的每一步都前所未有地“轻量”,无需在记忆的汪洋里反复打捞被稀释的视觉信息。

实际效果:从“掷硬币”到“真会走”

在需要精确指代的任务上,这种“双轨思维”模式带来了质变。

最典型的例子是迷宫导航。任务很简单:给一张迷宫图,判断从起点到终点是否有路,有则画出路径。

其他主流模型(GPT-5.4、Claude、Gemini等)的准确率在 48.9% 到 50.6% 之间——几乎就是在随机猜(50%)。DeepSeek V4 的准确率达到 66.9%。它不是靠猜,而是像人一样,用点坐标记录探索路径,遇到死胡同就回溯,一步步走出来的。

在复杂场景计数(Pixmo-Count)任务中,其精确匹配得分为 89.2%,超过了 Gemini-3-Flash(88.2%),更大幅领先 GPT-5.4(76.6%)。

总结:一次范式的精准转向

所以,DeepSeek V4 破解多模态指代鸿沟,靠的不是在“看得更清”的老路上堆料,而是完成了一次精准的范式转向:

诊断核心:指出问题的根源是“指代”而非“感知”。手术方案:将视觉基元(点、框)作为思维的基本单位植入推理链,实现“边想边指”,用空间坐标锚定逻辑。支撑系统:通过压缩稀疏注意力(CSA)实现高达7056倍的视觉信息压缩,让这种精细操作在成本上变得可行。

其结果,是让AI在多模态推理时,终于能像人一样,一边用语言分析,一边用手指着图说:“看,我说的是这里。” 这不仅是技术的进步,更是对智能如何理解世界的一次深刻重构。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
2026年GPT-5.2与Gemini 3 Pro技术解析:架构、性能与国内平台体验..
对于国内AI开发者和技术爱好者来说,想要深度研究GPT-5.2、Gemini 3 Pro..
Gemini 3 vs GPT-5.4技术拆解对比:2026年两大顶级模型如何选?..
2026年的大语言模型赛道上,Gemini 3与GPT-5.4代表了两种截然不同的技术..
OpenAI CEO回应关停Sora视频生成:集中算力聚焦核心业务,与GPT-3发布前策..
【太平洋科技快讯】4月7日消息,OpenAI 于上个月突然宣布关停其 Sora 视..
GPT-5.3 Instant上线:ChatGPT终于不说教了
好好好,OpenAI和谷歌新模型又撞车了!3月4日凌晨,谷歌前脚刚发完Gemini..
Brockman独开发模式缩短GPT-6周期至3-4个月,为何引发人才流失?..
从技术效率的视角看,Brockman模式是AI研发不确定性的“最优解”。其核心..
GPT-5.3 Instant上线:ChatGPT终于不说教了
好好好,OpenAI和谷歌新模型又撞车了!3月4日凌晨,谷歌前脚刚发完Gemini..
GPT-4训练耗电2.4亿度电:能源行业变革将走向何方
当GPT-4单次训练需要消耗2.4亿度电,相当于2.7万户家庭一年的用电量时,..
Llama 4全面实测:本地部署+多模态拉满,真能超越GPT-4?..
一、230万播放引爆科技圈,Llama 4实测视频火出圈近期,一条关于Llama 4..
GPT-4训练耗电2.4亿度:AI算力如何重塑能源投资?
AI的尽头是算力,算力的尽头是电力。当GPT-4单次训练耗电2.4亿度,相当于..
关于作者
冷冷的太阳..(普通会员)
文章
1957
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106263

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索