谷歌Gemini 3夜袭全球，暴击GPT-5.1，奥特曼罕见祝贺-工信会

> 自媒体 > （AI）人工智能 > 谷歌Gemini 3夜袭全球，暴击GPT-5.1，奥特曼罕见祝贺

谷歌Gemini 3夜袭全球，暴击GPT-5.1，奥特曼罕见祝贺

来源：36氪

2025-11-20 13:02:14

205

管理

凌晨，谷歌终极杀器Gemini 3重磅来袭，一出手就是Pro顶配版，号称「史上最强推理多模态氛围编程」三合一AI战神！基准测试横扫全场，就连GPT-5.1也被斩于马下，AI的下一个时代开启。

它来了，它来了！

就在刚刚，万众期待的年度压轴之王，谷歌新一代旗舰Gemini 3炸裂登场。

而且，一上来就是顶配的Gemini 3 Pro——

迄今推理最强，多模态理解最强，以及「智能体」「氛围编程」最强的模型！

从实测来看，也的确如此。

在众多基准测试中，Gemini 3 Pro一举封神——

不仅相较于2.5 Pro实现了性能的全方位跃升，甚至直接把OpenAI刚上新的GPT-5.1甩出了好几条街。

不仅如此，增强推理模式下的Gemini 3 Deep Think，更是在HLE拿下41%、GPQA 93.8%，以及ARC-AGI-2上45.1%的成绩。

三大重点（浓缩版）

Gemini 3的诞生，标志着谷歌在通往AGI的道路上，迈出了又一大步！

首先，它思考能力特别强，能深入理解问题，回答更有见地。

尤其是，特别擅长回答各种复杂的科学问题。

Gemini 3 Pro博士级推理碾压一切

凭借顶尖推理与多模态能力，Gemini 3 Pro可以将任何想法变为现实！

它全面碾压前代2.5 Pro，所有核心基准测试成绩，断层领先。

·LMArena排行榜上名列榜首，狂揽1501 Elo突破性高分；

·人类最后考试（HLE）上，在不使用任何工具的情况下拿下37.5%成绩；

·GPQA Diamond上斩获91.9%的高分，展现出博士级的推理能力；

·MathArena Apex上以23.4%刷新SOTA，在数学领域树立新标杆。

在一系列关键AI基准测试中，Gemini 3遥遥领先

除了在文本测试中的优异表现，Gemini 3 Pro还是多模态王者——

MMMU-Pro强势斩获81%高分，以及Video-MMMU更以87.6%成绩，重新定义了多模态推理。

它还在SimpleQA Verified上获72.1%业界领先分数，在事实准确性方面进步巨大。

这意味着 Gemini 3 Pro具备超高可靠性攻克科学、数学等众多领域的复杂问题的能力。

在搜索中的AI模式下，可通过生成式UI学习像RNA聚合酶如何工作这样的复杂主题

氛围编程，纯靠嘴

在2.5 Pro成功的基础上，Gemini 3兑现了——为开发者将任何想法变为现实的承诺。

它在零样本学习（zero-shot）生成方面表现出色，并能处理复杂的提示词和指令，以渲染更丰富、更具交互性的 Web UI。

如前所述，Gemini 3是谷歌迄今为止打造的最优秀的「氛围编程」和智能体编码模型。

在WebDev Arena排行榜上，Gemini 3以1487 Elo高分强势登顶。

它在Terminal-Bench 2.0上也获得了54.2%高分，该测试衡量模型通过终端操作计算机的工具使用能力；

并且在衡量编码智能体SWE-bench Verified测试上，以76.2%成绩远超2.5 Pro。

接下来一波演示中，便可见识Gemini 3真正实力。

编写一个复古3D太空飞船游戏，要有丰富的视觉效果，以及更强的交互性——没问题。

与其他前沿模型相比，Gemini 3 Pro展示了更好的长程规划能力，从而产生显著更高的回报

这意味着， Gemini 3能在日常生活中更好地帮人类完成任务。

它把更深度的推理与改进、更一致的工具使用相结合，通过从头到尾处理更复杂、多步骤的工作流来代表人采取行动。

就比如，帮你预定本地服务，或是整理收件箱。而人类，全程只需把控方向，下达指令。

今天起，Google AI Ultra订阅用户可在Gemini应用中，通过Gemini Agent抢先体验智能体能力。

「谷歌反重力」革命性智能体开发平台

Gemini 3的问世，谷歌在智能体能力上已开始迈入一个新的阶段：

模型能够在多个平台上长时间运行，且无需人工干预。

虽尚未达到「完全无人干预连续运行数天」的程度，但谷歌正日益接近这样一个世界——

不再通过单个提示词或工具调用，而是在更高的抽象层面上与智能体进行交互。

因此，谷歌智能体开发平台Google Antigravity正式上线，一个让开发者以「任务」为维度与智能体协同的全新平台。

除了Gemini 3 Pro，Google Antigravity还与Gemini 2.5 计算机使用模型，以及图像编辑模型Nano Banana（Gemini 2.5 Image）紧密集成。

网友玩疯了

现在，Gemini 3承包了全网热点，一系列惊艳实测demo全部放出了。

Google AI Studio负责人Logan进行了弹跳球测试，并且难度提升了10倍。

结果，Gemini 3 Pro一次就完美搞定！（并非N选一，真的是第一个提示词就生成了）

曾在Anthropic担任AI工程师的MagicPath创始人Pietro Schirano，首先让Gemini 3 Pro创建了一个3D乐高编辑器。

没想到，它仅凭一次生成就完美实现了用户界面、复杂的空间逻辑以及所有功能。

同时，Gemini 3 Pro在游戏开发方面的表现也令人惊叹。

仅仅通过一个文本提示词，它就重现了经典的iOS游戏《荒谬钓鱼》（Ridiculous Fishing），甚至包括了音效和背景音乐。

此外，它还完成了一项之前大模型几乎都做不到的任务——构建一个功能完备的Game Boy模拟器。

而且没错，它甚至直接用SVG绘制出了Game Boy的外观。

参考资料：

https://blog.google/products/gemini/gemini-3/

本文来自微信公众号“新智元”，作者：新智元，编辑：桃子好困，36氪经授权发布。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

AI大模型：Gemini 3 Pro 正面硬刚 GPT-5.1、Claude，谁能领跑？

谷歌Gemini 3把GPT-5.1打成计量单位！马斯克奥特曼都服了

相关文章

AIGC行业报告:ChatGPT国内算力，拐点之时

报告出品方：华西证券以下为报告原文节选------01 全球科技巨头指引，算..

V人文｜#ChatGPT为啥要急着加广告# ，最懂你的AI咋都开始出卖你..

【V人文｜#ChatGPT为啥要急着加广告# ，最懂你的AI咋都开始出卖你】ChatG..

OpenAI悄悄筹备上市，GPT官宣聊天已死，你的工作模式彻底变了..

#观点创作激励赛#刚刷到最新行业消息，OpenAI已经秘密递交IPO上市申请，..

Wolfram语言之父：ChatGPT到底能做什么？

值得注意和出乎意料的是，这个过程可以成功地产生与互联网、书籍等中的内..

当客户开始问ChatGPT，你的企业准备好了吗？

当客户开始向ChatGPT提问时，很多企业还没有意识到变化已经发生。过去是..

2万字大模型调研：横向对比文心一言、百川、Minimax、通义千问、讯飞星火、..

2万字、47张图表、对6大模型进行了测评和体验。本文注重产品使用感受、实..

V人文｜#ChatGPT回应将植入广告#

【V人文｜#ChatGPT回应将植入广告#】#ChatGPT官宣6月22日开始植入广告# O..

大揭秘！激发聊天欲的35个话题告别聚会冷场

聊天技巧：在极短时间内，让对方感受到一种极其稀缺的体验..

大多数人的聊天，都陷入了“廉价式社交”的误区。寒暄客套、敷衍回应、模..

关于作者

赶海的老阿姨..(普通会员)

文章

2192

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113556

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索