> 自媒体 > (AI)人工智能 > 谷歌Gemini 3夜袭全球,暴击GPT-5.1,奥特曼罕见祝贺
谷歌Gemini 3夜袭全球,暴击GPT-5.1,奥特曼罕见祝贺
来源:36氪
2025-11-20 13:02:14
200
管理

凌晨,谷歌终极杀器Gemini 3重磅来袭,一出手就是Pro顶配版,号称「史上最强推理 多模态 氛围编程」三合一AI战神!基准测试横扫全场,就连GPT-5.1也被斩于马下,AI的下一个时代开启。

它来了,它来了!

就在刚刚,万众期待的年度压轴之王,谷歌新一代旗舰Gemini 3炸裂登场。

而且,一上来就是顶配的Gemini 3 Pro——

迄今推理最强,多模态理解最强,以及「智能体」 「氛围编程」最强的模型!

从实测来看,也的确如此。

在众多基准测试中,Gemini 3 Pro一举封神——

不仅相较于2.5 Pro实现了性能的全方位跃升,甚至直接把OpenAI刚上新的GPT-5.1甩出了好几条街。

不仅如此,增强推理模式下的Gemini 3 Deep Think,更是在HLE拿下41%、GPQA 93.8%,以及ARC-AGI-2上45.1%的成绩。

三大重点(浓缩版)

Gemini 3的诞生,标志着谷歌在通往AGI的道路上,迈出了又一大步!

首先,它思考能力特别强,能深入理解问题,回答更有见地。

尤其是,特别擅长回答各种复杂的科学问题。

Gemini 3 Pro博士级推理碾压一切

凭借顶尖推理与多模态能力,Gemini 3 Pro可以将任何想法变为现实!

它全面碾压前代2.5 Pro,所有核心基准测试成绩,断层领先。

·LMArena排行榜上名列榜首,狂揽1501 Elo突破性高分;

·人类最后考试(HLE)上,在不使用任何工具的情况下拿下37.5%成绩;

·GPQA Diamond上斩获91.9%的高分,展现出博士级的推理能力;

·MathArena Apex上以23.4%刷新SOTA,在数学领域树立新标杆。

在一系列关键AI基准测试中,Gemini 3遥遥领先

除了在文本测试中的优异表现,Gemini 3 Pro还是多模态王者——

MMMU-Pro强势斩获81%高分,以及Video-MMMU更以87.6%成绩,重新定义了多模态推理。

它还在SimpleQA Verified上获72.1%业界领先分数,在事实准确性方面进步巨大。

这意味着 Gemini 3 Pro具备超高可靠性攻克科学、数学等众多领域的复杂问题的能力。

在搜索中的AI模式下,可通过生成式UI学习像RNA聚合酶如何工作这样的复杂主题

氛围编程,纯靠嘴

在2.5 Pro成功的基础上,Gemini 3兑现了——为开发者将任何想法变为现实的承诺。

它在零样本学习(zero-shot)生成方面表现出色,并能处理复杂的提示词和指令,以渲染更丰富、更具交互性的 Web UI。

如前所述,Gemini 3是谷歌迄今为止打造的最优秀的「氛围编程」和智能体编码模型。

在WebDev Arena排行榜上,Gemini 3以1487 Elo高分强势登顶。

它在Terminal-Bench 2.0上也获得了54.2%高分,该测试衡量模型通过终端操作计算机的工具使用能力;

并且在衡量编码智能体SWE-bench Verified测试上,以76.2%成绩远超2.5 Pro。

接下来一波演示中,便可见识Gemini 3真正实力。

编写一个复古3D太空飞船游戏,要有丰富的视觉效果,以及更强的交互性——没问题。

与其他前沿模型相比,Gemini 3 Pro展示了更好的长程规划能力,从而产生显著更高的回报

这意味着, Gemini 3能在日常生活中更好地帮人类完成任务。

它把更深度的推理与改进、更一致的工具使用相结合,通过从头到尾处理更复杂、多步骤的工作流来代表人采取行动。

就比如,帮你预定本地服务,或是整理收件箱。而人类,全程只需把控方向,下达指令。

今天起,Google AI Ultra订阅用户可在Gemini应用中,通过Gemini Agent抢先体验智能体能力。

「谷歌反重力」革命性智能体开发平台

Gemini 3的问世,谷歌在智能体能力上已开始迈入一个新的阶段:

模型能够在多个平台上长时间运行,且无需人工干预。

虽尚未达到「完全无人干预 连续运行数天」的程度,但谷歌正日益接近这样一个世界——

不再通过单个提示词或工具调用,而是在更高的抽象层面上与智能体进行交互。

因此,谷歌智能体开发平台Google Antigravity正式上线,一个让开发者以「任务」为维度与智能体协同的全新平台。

除了Gemini 3 Pro,Google Antigravity还与Gemini 2.5 计算机使用模型,以及图像编辑模型Nano Banana(Gemini 2.5 Image)紧密集成。

网友玩疯了

现在,Gemini 3承包了全网热点,一系列惊艳实测demo全部放出了。

Google AI Studio负责人Logan进行了弹跳球测试,并且难度提升了10倍。

结果,Gemini 3 Pro一次就完美搞定!(并非N选一,真的是第一个提示词就生成了)

曾在Anthropic担任AI工程师的MagicPath创始人Pietro Schirano,首先让Gemini 3 Pro创建了一个3D乐高编辑器。

没想到,它仅凭一次生成就完美实现了用户界面、复杂的空间逻辑以及所有功能。

同时,Gemini 3 Pro在游戏开发方面的表现也令人惊叹。

仅仅通过一个文本提示词,它就重现了经典的iOS游戏《荒谬钓鱼》(Ridiculous Fishing),甚至包括了音效和背景音乐。

此外,它还完成了一项之前大模型几乎都做不到的任务——构建一个功能完备的Game Boy模拟器。

而且没错,它甚至直接用SVG绘制出了Game Boy的外观。

参考资料:

https://blog.google/products/gemini/gemini-3/

本文来自微信公众号“新智元”,作者:新智元,编辑:桃子 好困,36氪经授权发布。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
汽车省油/省电攻略 一月轻松剩下几百块
【ZOL中关村在线原创技术解析】对于车主而言,油费、电费是每月固定且可..
规模增长效益承压 中国汽车产业加速换道超车
来源:证券时报 时报财经图库/供图证券时报记者 严翠2025年,中国车企加..
我说一句,零跑D19、小鹏GX、智己LS8、大唐价格会高度重合..
对于购买六座SUV的人,老图相信,在2026年关注度最高的价位区间,会是25..
理想 i8 蔚来 ES8 极限二选一?双料车主扒透用车隐藏真相..
在理想 i8 和蔚来 ES8 之间纠结不已,觉得理想智驾更智能,又被蔚来的换..
问界汽车通报广东惠州车辆起火事件:车辆三电系统状态正常,且未见车辆其它..
2月23日,问界汽车发布关于广东省惠州市车辆起火的说明:经初步调查,车..
去年我国汽车产量是美日德总和的1.5倍!今年有望再创新高..
2025年,全球每卖出三辆新车,就有一辆是中国制造,这个数字有实实在在的..
2026,没有“新技术”?
2026年中国汽车行业的技术演进,呈现出一个共识:没有颠覆性技术涌现,竞..
新技术密集发布,2026补贴少了,反而更适合买高端电车?..
价格战的后遗症还没痊愈,2026的新能源汽车,不止比价格,还要比同价谁给..
YU7销量远超特斯拉!谁能告诉我:到底是谁在买小米汽车啊?..
小米YU7,可以说是继吉利星愿之后,又一台“非典型”神车。1月份,在绝大..
关于作者
赶海的老阿姨..(普通会员)
文章
1966
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103569

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索