2026年4月24日,DeepSeek V4发布。它带来的最直观冲击不是某项能力登顶,而是一个价格:处理一百万字的上下文,最低只要2毛钱。

在此之前,处理百万Token(约70万字)的长文本,是Google Gemini等少数巨头的“高端玩具”,成本高昂到普通开发者甚至不敢想。而DeepSeek V4一出手,就把这个能力变成了全系标配,价格打到了地板。这背后不是简单的补贴,而是一场从算法根源开始的效率革命。
传统架构的“死结”,被一个巧妙的类比解开要理解V4的突破,得先看传统大模型处理长文本的困境。标准的Transformer注意力机制,可以想象成一场没有主持人的会议:每个人发言时,都要转头跟之前所有发言者逐一确认眼神、交流意见。参会者从10人增加到100人,交流次数不是变成10倍,而是100倍。
这就是计算量随序列长度平方级增长的“死结”,让百万上下文的商业化成本高不可攀。
DeepSeek V4的解法则像引入了一个聪明的“会议纪要员”系统,它由两种角色交替工作:
CSA(压缩稀疏注意力):好比一个速记员。每4个人的发言,他快速总结成1条要点。当新发言人需要参考时,他不用去读所有原始记录,而是先快速浏览这些要点,只挑出最相关的几条,再去看详细内容。这解决了“算什么”的问题,大幅减少了计算量。HCA(高度压缩注意力):像一个做宏观摘要的秘书。他把每128个人的发言,压缩成1条高度概括的总结。虽然信息很粗,但确保了新发言者能感知到整个会议的全局脉络和遥远话题。这解决了“存什么”的问题,把需要存储的“记忆”(KV缓存)体积压到极致。这两种机制在模型的不同层级交替使用,形成“细粒度抓局部,粗粒度管全局”的组合拳。效果是颠覆性的:在百万上下文场景下,V4-Pro模型处理每个词元(Token)所需的计算量,骤降至前代V3.2的27%;而临时记忆(KV缓存)的占用,更是降到了只有10%。
V4-Pro版本:输出价格仅为Claude Opus 4.7的14%。这个定价不是赔本赚吆喝,而是技术重构成本结构后的自然结果。官方也明确表示,当前价格仍受高端国产算力产能限制,随着下半年昇腾芯片批量上市,价格还有进一步下探空间。
开源普惠,让“基础设施”的定义权易主DeepSeek V4选择了一条更激进的路:全栈开源。它不仅以MIT协议开源了1.6万亿参数的模型权重,还发布了58页的详细技术报告。知名开源开发者Simon Willison根据报告,成功复现了其核心压缩模块,将百万上下文的缓存内存从12GB压到了850MB。
这种“可验证、可复现、可商用”的彻底开源,让开发者不仅能“用车”,还能研究“发动机”、甚至自己“改装”。ModelScope平台数据显示,V4上线72小时内下载量超12万次,开发者基于它微调出了金融、医疗等27个垂直领域模型。
开源,将百万上下文从一项需要付费调用的“服务”,变成了开发者可以自由集成、优化的“基础设施组件”。
市场的反馈是分裂而真实的。中小开发者欢欣鼓舞,“百万上下文只要1-2元,用来做翻译爽翻了”。但专业用户也指出其短板:百万上下文中间区域信息召回率不足60%,有效覆盖约50万字;响应速度比GPT-4 Turbo慢30%;复杂推理偶发错误。
这清晰表明,V4的战略是以工程效率的极致优化,换取普惠的价格和可用性,在绝对精度和响应速度上则有所妥协。
所以,DeepSeek V4何以让百万上下文成标配?它用一套“混合压缩注意力”的算法巧思,解开了平方级复杂度的死结;用MoE稀疏激活和量化技术,把算力需求打了下来;再结合国产算力的深度适配,重构了成本曲线;最后用彻底的开源策略,将这项能力像水电一样接入千行百业的工具箱。
它不是单纯赢得了某项评测,而是重新定义了“一项AI核心能力该如何被规模化、低成本地交付”。从此,处理超长文本,不再是一个需要反复权衡成本的“奢侈选项”,而是一个可以随手使用的“默认配置”。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233