刚刚我看了一下 DeepSeek 的新界面,目前能明确看到的是两种模式:快速模式和专家模式。如果再细分一点,其实还可以算上一个 Vision Mode,也就是视觉模式。

从产品设计上看,它已经不再是“一个模型打天下”的思路了,而是明显开始做场景分层:轻任务走快速,复杂任务走专家,文字识别走视觉。
这背后最值得看的,不只是 V4 本身,而是大模型产品已经越来越重视一件事:成本。
先说结论:现在看到的,其实是“两种模式 半个视觉模式”从截图里可以很清楚地看到,快速模式和专家模式最大的区别之一,就是是否支持上传文件。
快速模式:支持上传文件专家模式:暂不支持上传文件
DeepSeek 当前页面可见快速模式与专家模式,最直观的差异就是是否支持文件上传。
这个差异其实很关键。
因为它说明 DeepSeek 现在并不是单纯按“能力强弱”来分模式,而是在按使用成本和应用场景做切分。
我简单测了一下:上传图片后,它并没有表现出传统多模态模型那种“看图理解”的能力我做了一个很简单的测试:上传一张图片,让它识别内容。
结果系统提示的是:“未提取到文字。”

这句话其实已经很说明问题了。
因为这意味着它对图片的处理逻辑,更像是在先做一层 OCR 提取文字,而不是像传统多模态模型那样直接理解整张图像的语义信息。
我上传的那张图片里,确实没有任何文字。
所以从这个结果看,目前这个所谓的视觉模式,更像是:
支持“图中取字”,但未必支持完整意义上的“图像理解”。
这就印证了一个比较可靠的判断:Vision Mode 很可能还是 OCR 路线,不是完全开放的多模态能力结合目前外部流出的信息来看,DeepSeek 这次的 Vision Mode 更像是在 OCR 技术基础上做的扩展。
换句话说,它现在更像是:
能识别图片里的文字能处理截图、文档图、表单图这类场景但未必已经向 C 端完整开放传统意义上的多模态模型能力所以严格来说,它并不是“看懂万物”的视觉模型,而更像是一个“文字识别能力更强的视觉入口”。
说白了,就是:DeepSeek 可能已经有更完整的多模态能力,但现在没有完全放给普通用户。
这其实也不难理解。
毕竟训练一个多模态模型,在今天已经不是什么遥不可及的事情了。
真正难的,不是“能不能做出来”,而是:做出来之后,怎么以一个能承受的成本开放给用户。
关于V4参数、架构、多模态能力,目前大多数仍属于“爆料和知情信息”,不能当官网实锤目前官网还没有更新特别完整的 V4 信息,所以外面流传的很多参数、架构、训练芯片信息,现阶段都更适合归类为“爆料”“知情人消息”或“非官方资料”。

综合目前多方流出的说法,大概有这些版本:
项目
爆料中的V4信息
V3公开信息
总参数量
约1万亿(1T)MoE
V3约671B
活跃参数
推理时约32B
V3约37B
上下文窗口
原生100万Token
V3为128K
架构
新一代连接结构 记忆架构
已公开MoE路线
多模态
爆料称支持文本 图像 视频
V3偏纯文本
训练芯片
爆料称大量使用华为昇腾
非官方确认
这里我要强调一下:
这些都不是现阶段官网正式确认的信息。
尤其像“1T 参数”“100万上下文”“原生图像 视频”“全量华为昇腾训练”这些说法,讨论可以讨论,但如果写成“已经官宣”,那就容易翻车。
更稳妥的表达应该是:
目前多方爆料指向 V4 会有明显升级,但具体参数和能力,仍以官方后续披露为准。
如果关于国产芯片训练的爆料属实,那意义确实非常大虽然现阶段还不能当成百分百实锤,但如果外界流传的说法最后被证实—也就是 DeepSeek V4 在训练阶段大规模使用国产芯片,甚至主要依赖华为昇腾—那这件事的意义,确实不只是模型强不强的问题了。
因为推理阶段用国产芯片,这几年已经不算特别新鲜。
但如果一个万亿级别的大模型,真的能在训练阶段大规模跑在国产芯片体系上,那意味着什么?
意味着大模型的发展路径,开始不再完全依赖英伟达这一条线。
这件事的战略意义会非常大。
因为过去很多模型再强,底层训练资源始终绕不开海外高端芯片。
一旦卡脖子,问题就不是“慢一点”,而是“你还能不能继续往上做”。
所以这条路哪怕现在还不算完美,哪怕还有性能差距,只要能跑通,意义就已经不一样了。因为一条能跑通的路,后面就有持续优化的空间。
但我看完这次灰测后,真正最有感触的,还不是参数,而是“AI开始认真算账了”说实话,看完 DeepSeek 这次的三个模式,
我最大的感受不是“V4 到底有多强”,
而是:大模型产品现在越来越注重成本控制了。
这其实很正常。
因为过去一段时间,AI 产品都在拼能力、拼速度、拼体验。
但随着 Agent 越来越火,大家也开始越来越清楚地意识到一件事:
Token 在 AI 时代,本质上就是“水电煤”。
你以为调用模型是在“问一个问题”,但在平台眼里,这背后是:
token 消耗推理资源占用响应延迟高峰时段并发压力免费用户的使用成本尤其是 Agent 场景一起来之后,这笔账会变得非常现实。
因为 Agent 不是一次提问,而是多轮调用、长链路推理、持续消耗 token。
所以 DeepSeek 这次给出的处理方式,其实非常明确:
1、快速模式:做轻量任务适合日常问答、简单总结、一般查询。优先的是速度和成本。
2、专家模式:做复杂任务适合高要求推理、复杂结构生成、对正确率要求更高的工作。代价就是更重、更贵,甚至高峰期可能需要等待。
3、视觉模式:做OCR类任务如果你只是要识别截图里的文字、提取图片中的文本,那就没必要把最重的模型拉出来。
这其实说明,AI产品开始从“炫技阶段”进入“产业阶段”了以前很多大模型产品喜欢给人一种感觉:一个模型,什么都能干。
但现在越来越多产品开始承认现实:
不是所有任务都值得用最贵的模型不是所有用户都需要最强能力不是所有输入都要走同一条推理链路这其实不是退步,反而是成熟。因为真正成熟的产业,最后一定会走到成本优化这一步。
就像云计算不会让所有请求都跑最高配置,大模型也不可能让所有问题都走最贵的推理通道。
DeepSeek 现在做的,本质上就是把这件事摆在明面上了。
我自己的建议:高频使用AI的人,真的要学会选模式如果你是那种每天都会频繁用 AI 的人,那我觉得可以这么选:
第一种情况:默认用快速模式因为绝大多数请求,真的不需要太多步的复杂思考。
比如:
问概念写几个标题改一小段文案简单总结做信息整理这些东西,用快速模式就够了。
第二种情况:只有在乎正确率、推理和结构质量时,再切专家模式比如:
写复杂代码做严谨分析拆逻辑链处理更难的问题写结构要求很高的长文这时候再切专家模式更合适。因为你是在为结果质量买单,而不是为“心理安慰”买单。
第三种情况:要做文字识别,就走视觉模式如果你的工作里经常遇到:
截图识别图片转文字文档拍照提取内容表格图片取字那视觉模式会更合适。至少从现在的表现来看,它在 OCR 路线上还是有实用价值的。
最后说一句看完 DeepSeek 这次的新模式后,我觉得最值得关注的,不是它把按钮做成了几个,而是它传递出一个很清晰的信号:
AI行业已经从“谁更会讲故事”,慢慢走向“谁更会算成本”。
快速模式也好,专家模式也好,视觉模式也好,本质上都在回答同一个问题:
什么样的任务,值得用什么样的算力去解。
而这,可能比单纯讨论“V4 到底强不强”,更接近大模型行业下一阶段真正的竞争点。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体107746