> 自媒体 > (AI)人工智能 > GPT-4远不如人类?正确率仅15%,Meta领衔发布通用AI助手基准
GPT-4远不如人类?正确率仅15%,Meta领衔发布通用AI助手基准
来源:学术头条
2023-11-25 13:04:09
560
管理

当前,大型语言模型(LLMs)或许是通用人工智能(AGI)得以实现的“最优解”。

然而,尽管大模型在流利性和知识广度方面貌似已接近人类水平,但评估它们的挑战日益突显。随着大模型的迅猛发展,一些传统基准已经失效。因此,新的测评基准亟需制定。

近日,来自 Meta、HuggingFace 和 AutoGPT 的研究团队共同提出了一个用于测试通用 AI 助手的基准——GAIA,该基准提出了现实世界中需要一系列基本能力的问题,如推理、多模态处理、网络浏览和通用工具使用熟练技能。

研究团队表示,这些问题在概念上对人类来说非常简单,但对大多数大模型来说,却很有挑战性:一个直观的数据,人类回答这些问题的成功率为 92%,而即使是带有插件的 GPT-4 仅有 15% 的成功率。这与近年来大模型在法律或化学等需要专业技能的任务中表现优于人类的趋势形成了鲜明对比。

相关研究论文以“GAIA:A Benchmark for General AI Assistants”为题,已发表在预印本网站 arXiv 上。

从图中可以看出,人类的网络搜索在 Level 1 方面表现良好,但在更复杂的查询上效果不佳,而且速度稍慢。与没有插件的 GPT-4 相比,使用插件的 GPT-4 在提高答案准确性和执行计划方面表现更好。AutoGPT-4 自动使用工具,但在 Level 2 和甚至 Level 1 方面的表现令人失望,可能是由于其依赖 GPT-4 API 的方式。总体而言,与使用插件的 GPT-4 合作的人类似乎在分数和时间之间找到了最佳的平衡。

评估 AI 助手潜力的第一步

GAIA 的出现让我们重新思考当前和未来 AI 系统评估的范式。

封闭在 API 后面的模型可能会随着时间的推移而改变,这意味着在不同时间点进行的评估可能无法复制或重现。另外,问题可能会更加复杂,因为像 ChatGPT 插件这样的工具和它们的功能会定期更新,而不是通过 ChatGPT 的 API 进行访问。

由于研究人员在评估模型性能时通常依赖于真实世界的基准,而这些基准可能会随着时间的推移而改变,所以实现可重现性可能会变得更加困难。然而,GAIA 对于生成随机性的处理是鲁棒的,因为它只关注最终的答案,即只接受一个正确的响应进行评估。

此外,相较于规模更大但多项选择问题的数据集,GAIA 注重问题质量而非数量。GAIA 的持续发展有望成为更全面评估 AI 系统泛化能力和稳健性的关键组成部分。

GAIA 任务可能涉及调用各种模块来完成,比如图像分类器可能返回错误的标签。有些人可能会觉得这样的评估有些含糊,因为 GAIA 看待系统为一个整体,而不是把错误归因于系统的子部分,比如网络浏览或视觉模块。然而,将 LLMs 与其他工具紧密结合以完成所有任务可能不是可持续的方法。未来的模型可能会在语言模型和其他能力之间更加集成,如视觉语言模型。

GAIA 的目标是评估整个 AI 系统,而不仅仅是特定的架构标准。更广泛地说,对于复杂生成的自动、事实和可解释的评估一直是生成式 AI 中的一个长期难题。

目前的评估方法可能存在一些限制,未来可能需要更复杂的方法,比如结合多模态系统,通过对图像进行复杂的序列修改,并在自然语言中提出明确问题的方式来改进生成模型的评估。

尽管深度学习在各领域取得了进展,但全自动化目前仍面临无法预测的失败,如自动驾驶汽车的挑战。解决 GAIA 问题需要全自动化,但这可能导致社会经济格局的改变,存在技术所有者主导价值捕获的风险。

另外,GAIA 也存在一些局限。首先,GAIA 无法评估不同路径通向正确答案的情况。论文作者建议未来考虑人类和模型评估,以弥补这一缺陷。

此外,由于 OpenAI 的 API 未提供详细工具调用日志,当前只评估了具有工具访问权限的最强大的语言模型。研究团队希望在未来能够在开源领域添加其他具备足够工具使用能力和日志记录的模型。

为了创建现实且易于使用的基准,需要两轮注释,第一轮由注释者设计明确问题,第二轮由两位独立注释者回答问题并排除歧义,尽管这过程彻底,仍可能存在歧义。

最后,GAIA 的一个重大限制在于它缺乏语言多样性:所有问题只能用“标准”英语提出,而且许多问题主要依赖于英语网页。

因此,GAIA 只是评估通用 AI 助手潜力的第一步,不应视为它们成功的绝对证明。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
颜值即正义!5款网红轿车:最高续航破千+仅20万起,谁最值得等?..
#丰田品质B级纯电家轿9.38万##长文创作激励计划#​兄弟们,最近比亚迪的..
安全性高的轿车推荐:速腾L与四款主流家轿安全配置实测对比..
近年来,A 级家用轿车市场愈发“内卷”:合资品牌持续下探,自主品牌向上..
预算不到10万家用轿车别乱选:这4款车,各自适合什么人一次说清..
很多人到了年底想换车,第一反应就是一句话:“预算不多,但想买个靠谱的..
家用轿车常青树再升级!2026款丰田卡罗拉实测:省油、可靠、好开..
外观方面,2026款卡罗拉延续家族化设计语言,整体风格简约大气,同时向年..
手握 20 万预算买台新车回家过年,到底该怎么选?轿车篇..
临近春节,20 万预算的新能源轿车市场早已是神仙打架。既要撑得起返乡排..
经济实惠、价格门槛低 四款“平民轿车”来袭 吉利银河星耀7领衔..
对于普通家庭来说,一款给力的“出行搭子”至关重要。马年马上要到了,很..
厌倦了BBA,这四款冷门豪华中大型轿车值得考虑,有你喜欢的吗?..
在豪华C级车市场,聚光灯几乎从未离开过奔驰E级、宝马5系与奥迪A6L这“老..
四款“华系”中大型新能源轿车集中亮相,智能化与颜值成竞争关键..
【网通社快报】2026年国内车市竞争加剧,“含华量”与设计颜值成为关键因..
即将上市的5款全新旗舰级SUV,每款都有望成为“爆款”..
零跑D19——预计上市时间2026年4月份作为零跑汽车的全新旗舰级SUV车型,..
关于作者
冰冷的开水..(普通会员)
文章
1960
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体109414

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索