> 自媒体 > (AI)人工智能 > DeepSeek 开始测试识图模式,国产模型又近了一步
DeepSeek 开始测试识图模式,国产模型又近了一步
来源:opendotnet
2026-05-02 09:07:19
91
管理
看到消息说 DeepSeek 正在灰度测试识图模式。

说实话,这个消息让我有点兴奋。

DeepSeek 这个团队我一直在关注。他们的模型开源、便宜、效果还不错,之前在开发者圈子里热度很高。但一直有一个短板,就是不支持多模态。

你只能跟它聊文字,发图片给它,它会说「我不支持图片输入」。

现在终于补上了。

先说说识图这个能力本身。

「识图」听起来好像很玄乎,但坦率的讲,就是让 AI 能「看懂」图片。你发一张截图给它,它能告诉你这张图里有什么。你发一个表格给它,它能帮你分析数据。你发一个报错截图给它,它能告诉你问题出在哪。

这个能力有多重要?

我跟你说,重要到你一旦习惯了,就回不去了。

举个例子。

你写代码的时候遇到一个报错,传统做法是什么?复制报错信息,粘贴到 Google 或 StackOverflow,搜索解决方案。

现在呢?直接截图,发给 AI,AI 告诉你问题出在哪,怎么修。

你说这个差别大不大?

再举个例子。

你看到一篇文章,很长,不想读完。直接截图关键段落,发给 AI,让它给你总结。

你说这个效率高不高?

我自己的感受是,识图能力已经从「锦上添花」变成了「刚需」。GPT-4V 出来之后,我发图片给 AI 的频率越来越高了。有时候甚至懒得打字,直接截图完事。

再聊聊 DeepSeek 这个产品本身。

DeepSeek 是国产开源模型里的一匹黑马。

它的特点是什么?便宜,快,效果还行。

坦率的讲,不是最好的,但性价比极高。你用 GPT-4 的 API,一个月可能要花几百块。用 DeepSeek,可能只要几十块。

对于很多开发者来说,这个差价是实打实的成本。

而且 DeepSeek 是开源的,你可以自己部署。对于有数据安全需求的企业来说,这是一个很大的优势。

但之前 DeepSeek 最大的短板就是没有多模态能力。你只能用它来处理文本任务。发图片?不支持。

现在补上这个短板之后,DeepSeek 的可用场景一下子拓宽了很多。

但我也要说说我的顾虑。

识图这个能力,听起来简单,但做好其实很难。

GPT-4V 刚出来的时候,就被曝出过不少问题。比如把人种识别错,比如看不懂某些专业图表,比如被一张图骗过去回答错误的问题。

DeepSeek 的识图能力能做到什么水平?

目前还在灰度测试阶段,我没有亲自用过,所以不能给出评价。但从小模型的一般规律来看,识图精度可能不如 GPT-4V。

这是取舍。

你要便宜、开源、可自部署,就得接受精度上的差距。你要精度高,就得接受付费和云端调用。

但我觉得,精度差距是可以接受的。

因为绝大多数的日常场景,不需要 GPT-4V 那个级别的精度。你让它看一个报错截图,它只要能识别出关键信息就行了。你让它看一个菜单翻译,它只要能翻译个大概就行了。

完美主义在这里没有意义。

能用、便宜、离你近,这三个特点加起来,才是 DeepSeek 的核心竞争力。

说到这块,我想聊聊国产模型的整体态势。

过去两年,我们看着 GPT-4 一骑绝尘,国产模型在后面追赶。说没有焦虑感是假的。

但这个焦虑感最近在慢慢减轻。

为什么?

因为我们发现,追赶的速度比想象中快。

国产模型在文本能力上已经追得差不多了,现在在多模态能力上也在补课。文心一言、通义千问、智谱、DeepSeek,都在陆续推出多模态能力。

差距还在,但不再是那种「遥不可及」的差距了。

我一直觉得,AI 这个赛道是一场马拉松,不是百米冲刺。GPT-4 跑得快,不代表它能一直领先。技术的扩散速度比想象中快,今天的护城河,明天可能就被填平了。

最后说说我怎么看待这个消息。

DeepSeek 测试识图模式,不是什么惊天动地的大新闻。但它是国产模型在多模态领域的又一次进步。

对于开发者来说,多了一个选择。你可以继续用 GPT-4V,也可以试试 DeepSeek,看看性价比和精度的平衡点在哪里。

对于普通用户来说,国产模型的能力越来越全,意味着你可以用更低的成本享受到 AI 的能力。

对于行业来说,竞争会越来越激烈。大厂会被迫加速迭代,创业公司会被迫找到差异化定位。

这些都是好事。

AI 正在从一个「贵族工具」变成「大众工具」。从云端走向终端,从付费走向免费,从闭源走向开源。

这个趋势,我觉得不可逆转。

DeepSeek 只是这个趋势中的一个节点。但它代表了一个更大的方向,AI 能力正在快速扩散,扩散到每个普通人的口袋里。

这个未来,值得期待。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
2026年GPT-5.2与Gemini 3 Pro技术解析:架构、性能与国内平台体验..
对于国内AI开发者和技术爱好者来说,想要深度研究GPT-5.2、Gemini 3 Pro..
Gemini 3 vs GPT-5.4技术拆解对比:2026年两大顶级模型如何选?..
2026年的大语言模型赛道上,Gemini 3与GPT-5.4代表了两种截然不同的技术..
OpenAI CEO回应关停Sora视频生成:集中算力聚焦核心业务,与GPT-3发布前策..
【太平洋科技快讯】4月7日消息,OpenAI 于上个月突然宣布关停其 Sora 视..
GPT-5.3 Instant上线:ChatGPT终于不说教了
好好好,OpenAI和谷歌新模型又撞车了!3月4日凌晨,谷歌前脚刚发完Gemini..
Brockman独开发模式缩短GPT-6周期至3-4个月,为何引发人才流失?..
从技术效率的视角看,Brockman模式是AI研发不确定性的“最优解”。其核心..
GPT-5.3 Instant上线:ChatGPT终于不说教了
好好好,OpenAI和谷歌新模型又撞车了!3月4日凌晨,谷歌前脚刚发完Gemini..
GPT-4训练耗电2.4亿度电:能源行业变革将走向何方
当GPT-4单次训练需要消耗2.4亿度电,相当于2.7万户家庭一年的用电量时,..
Llama 4全面实测:本地部署+多模态拉满,真能超越GPT-4?..
一、230万播放引爆科技圈,Llama 4实测视频火出圈近期,一条关于Llama 4..
GPT-4训练耗电2.4亿度:AI算力如何重塑能源投资?
AI的尽头是算力,算力的尽头是电力。当GPT-4单次训练耗电2.4亿度,相当于..
关于作者
赶海的老阿姨..(普通会员)
文章
2026
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106263

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索