
Deepmind CEO Demis Hassabis 发文称:
令人兴奋的进展!我们在不断提升质量的同时,努力降低成本。Gemini 2.0系列是性价比和性能方面的领先模型。通过今天的发布,大家都可以利用它们强大的推理和多模态能力,这也为我们的智能工作奠定了基础。
Gemini 2.0 系列模型主要特点如下:
2.0 Pro Experimental:主打编码性能和处理复杂提示能力,在知识理解和逻辑推理方面表现出色。2.0 Flash:专门面向开发者提供 API 接口,支持快速构建 App。2.0 Flash-Lite:在保持高性能的同时实现了更优的成本效益和响应速度。2.0 Flash Thinking Experimental:已在 Gemini App 中开放使用,供用户体验。不到 1 美元能干啥?Google 新模型能给 4 万张图片配标题具体来说,Gemini 2.0 系列全家桶模型各具特色。
其中,已全面发布的 Gemini 2.0 Flash 支持多模态输入和文本输出,具备 100 万tokens 的上下文窗口,并支持结构化输出、函数调用和代码执行等功能。
值得注意的是,其多模态实时 API 目前仍处于「beta」阶段,图像和音频输出功能也将在后续推出。

该模型的定价方案也已确定,文本、图像和视频输入每百万 tokens 收费 0.10 美元,音频输入则为 0.70 美元,(2 月 20 日起正式生效)。文本输出每百万 tokens 收费 0.40 美元。
各类缓存费用也都维持在较低水平。文本/图像/视频缓存费用为每百万 token 收费 0.025 美元,音频缓存费用为 0.175 美元。
在此基础上,Google 还推出了更具性价比的「轻量版」——Gemini 2.0 Flash-Lite 。
虽然这款模型在功能上做了一定取舍,暂不支持多模态实时 API、搜索工具和代码执行,但它保留了 100 万 tokens 的上下文窗口,以及多模态输入、文本输出和函数调用等核心功能。


据 Google 介绍,使用该模型为 4 万张独特图片生成标题的成本仅需不到 1 美元。
产品线的顶端则是 Gemini 2.0 Pro Experimental 版本。这款模型拥有 200 万 tokens 的超大上下文窗口,相当于可以一次性处理约 150 万个单词,能同时消化整个《哈利·波特》系列的七本书还绰绰有余。
在功能上,它也是最为全能的选手,不仅支持多模态输入和文本输出,还具备结构化输出、函数调用、搜索工具和代码执行等全方位能力。

在图像渲染方面,有开发者要求模型使用 p5.js 编写脚本,生成了一个包含 100 个动态弹跳黄球的三维场景。并且,球体内的黄球还要能够正确相互碰撞,球体缓慢旋转,以及始终保持在球体内。

去年当 OpenAI CEO Sam Altman 被问及公司产品的命名策略时,他也坦言相当头疼。
包括 Anthropic CEO Amodei 曾表示,虽然 Claude 的命名方式在早期看起来不错,但随着模型的快速迭代和更新,沿用的命名体系同样变得捉襟见肘。
他指出,目前没有任何 AI 公司真正「搞定命名」这一问题,大家都在努力寻找更简单、更清晰的命名方式。这或许也是 AI 巨头们少有达成的共识。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
爱范儿|原文链接· ·新浪微博
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523