
最后一次减半,标记总数剩下 2 个,并让 DeepSeek 指出第二个的位置。这回 DeepSeek 总算两个任务都成功了。

最后这个版本大概 10 万字,大约相当于 10 万 token,已经只有十分之一总长度了。
到此,对 DeepSeek V4 的有效上下文还没有明确的边界。只是在实战中,简单写个网页的初版都能达到 5 到 8 万个 token,DeepSeek V4 能在实战中稳住幻觉率吗?
那就直接试试吧。直接用之前测试过 GPT-5 和 Gemini 3 Pro 的网页版 Excel 案例来上难度。
DeepSeek 给到的第一版,先别说其它错误有多少,刚要点击单元格输入,网页就白屏了。

但这并不意味着 DeepSeek V4 Flash 模型没有发挥作用,更具体的数据表明,DeepSeek V4 Flash 模型的调用次数和 DeepSeek V4 Pro 相当,就是 token 消耗量少一个量级。

到这里测评就结束了。
从目前测试结果来看,DeepSeek V4 的百万上下文长度有效性百分比不是很高,幻觉率较高导致不管在简单还是较困难的任务中都有可能出现低级错误,导致表现不稳定。在 Claude Code 中的代码审查阶段,有时要消耗三分之一到一半的时间来改代码。
思考时间过长可能是最尴尬的问题。即便是网页版 Excel 也不算很复杂的案例,而 DeepSeek V4 动辄十几分钟的思考时间,加上执行时间就更久了,总时长经常达到三十分钟左右。
其实人们现在对思维链已经祛魅了,它顶多是通过提升算力来提升准确率的工程手段,在 Coding Agent 场景中可能大部分都被忽略不看。
模型能力上限使其不太可能在实际编程任务中担任主导角色,作为执行者速度又太慢,关闭 Thinking 模式或者换成 Flash 模型是否还能保证执行准确率,时间原因,目前知危这里还没有测试案例可循。
总的来说,从我们测试的这些案例的视角来看,DeepSeek V4 的表现没有想象中的好,并且能力表现似乎也不是特别稳定。但是其实官方技术报告里本来也就大大方方的说了自己跟闭源顶级模型仍有差距,本次更新只是缩小了差距,所以这个结果也不意外。
但是吧,还是那句话,你再看看它的价格,都这么便宜了,能忍。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106436