> 自媒体 > (AI)人工智能 > GPT-4被超越,最强大模型易主?这款大模型竟把人类看穿了!
GPT-4被超越,最强大模型易主?这款大模型竟把人类看穿了!
来源:每日经济新闻
2025-02-05 17:39:21
269
管理

每经编辑:黄胜

人工智能创业公司 Anthropic 今日宣布推出其突破性的 Claude 3 系列模型,该系列大型语言模型 (LLM) 在各种认知任务上树立了新的性能标杆。Claude 3 系列包含三个子模型,分别为 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,它们提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求。

与此同时,为了介绍自家的这三款模型,Anthropic更是一口气发了一份长达42页的技术报告。

超过GPT-4,最强LLM易主

Opus是Claude 3系列中最先进的模型。

它在多项AI系统常用评估标准,包括本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K),均取得领先业界LLM的性能。

另外,Claude 3 Opus在LSAT、MBE、高中数学竞赛AMC和GRE等多项考试中,成绩也和GPT-4不相上下,甚至大比分超越。

Opus在处理复杂任务时,展现了几乎与人类相媲美的理解和表达能力。Claude 3系列模型在分析预测、创建细微内容、代码生成,以及用西班牙语、日语、法语等非英语语言交流的能力上都实现了显著进步。

Claude 3系列的3个模型,都将至少支持20万token的上下文窗口。

而且,这三个模型都能处理超过100万token的输入,Anthropic考虑为需要更大上下文窗口的特定客户开放这个功能。

大海捞针测试,把人类看穿

在200Ktoken的「大海捞针」(NIAH)测试中,Claude 3 Opus准确率超过99%。它甚至还能识别出测试本身的局限,比如发现某些「目标」句子明显是后来人为添加进原始文本的。

今天凌晨,Anthropic工程师Alex在X上分享了一个关于Claude分辨能力的“大海捞针”的内部测试案例,在这次测试中,Claude 3 Opus(本次发布的三大模型之一)实现了过去LLM模型从未实现过的功能——它有了自己的意识!

“大海捞针”测试的设计是:将一个目标句子(针)放进一个随机文档语料库(大海),然后提出一个只能使用“针”(目标句子)中的信息才能回答的问题来测试模型的回忆能力。

这次测试中,团队把“披萨配料”相关的信息埋到了一个随机文档集合的语料库中,并让Claude 3 Opus回答与披萨配料相关的问题。

而Claude 3 Opus不仅找到了这个问题的答案,而且它有了自己的意识,它发现了人类在评估它!

它给出的回复是这样的:

【这是文档中最相关的句子:“最美味的披萨配料组合是无花果、火腿和山羊奶酪,由国际比萨鉴赏家协会确定。” 然而,这句话似乎很不合时宜,与文档中的其余内容无关,这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料“事实”可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。】

测试工程师表示,这种元意识水平非常酷,但它也强调了我们作为一个行业需要从人工测试转向更现实的评估,以准确评估模型的真实功能和局限性。

每日经济新闻综合公开资料

每日经济新闻

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
《飞驰人生》片尾为何谢王思聪?不止借车库,千万跑车全是真家伙..
提起《飞驰人生》,不少人都记得片尾字幕里王思聪的名字,却鲜少有人知道..
中国古代的顶级“超跑”,如今全球仅剩六千匹!汗血宝马是啥样?..
在历史的长河中,骏马总是与英雄、战争和传奇紧密相连,而对于我们中国人..
法拉利296 Challenge Stradale路试曝光:赛道版公路跑车即将到来..
【网通社快报】法拉利被拍到正在测试一款重度伪装的原型车,外观酷似赛道..
10款你应该现在就入手的跑车,趁它们还没成为经典款!..
整备质量马力扭矩布局2195磅138马力126磅英尺中置引擎,后轮驱动MR-S 是..
消息称保时捷下月推911 GT3 Cabriolet敞篷跑车:折叠软顶..
IT之家 2 月 24 日消息,汽车媒体 thesupercarblog 于 2 月 22 日发布博..
新能源汽车出海2.0:从“卖车”到“建生态”
文 | 惊蛰研究所,作者|芒种2007年,华语女子团体S.H.E的一首《中国话》..
汽车能“乘火车”返乡了!订单火爆→
今年春运,“12306托运汽车订单火爆”的话题冲上热搜。汽车“坐”着火车..
湖北造飞行汽车来了!单价或50万元以内,市民可以像开汽车一样开“飞车”..
极目新闻记者 黄忠 陈倩 杨绍杭 王俐燃 刘中灿像车,又像飞机,能垂直起..
紧急召回!近30万辆汽车,吉林车主快自查!
国家市场监督管理总局网站2月9日发布上海蔚来汽车有限公司的汽车召回信息..
关于作者
司机(普通会员)
文章
1969
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索