> 自媒体 > (AI)人工智能 > 用过GPT-4 Turbo以后,我们再也回不去了
用过GPT-4 Turbo以后,我们再也回不去了
来源:机器之心Pro
2023-11-22 14:34:48
577
管理

机器之心报道

编辑:泽南、陈萍

GPT 变得好用了,但真的更聪明了吗?

昨天,很多人彻夜未眠 —— 全球科技圈都把目光聚焦在了美国旧金山。

短短 45 分钟时间里,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。

设计个 UI,几个小时的工作变成几分钟:

GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。

至此,生成式 AI 的竞争似乎进入了新的阶段。很多人认为,当竞争对手们依然在追求更快、能力更强的大模型时,OpenAI 其实早就已经把所有方向都试过了一遍,这一波更新会让一大批创业公司作古。

这项测试是如何进行的呢,具体而言,研究者让 Aider 尝试完成 133 个 Exercism Python 编码练习。对于每个练习,Exercism 都提供了一个起始 Python 文件,文件包含所要解决问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。

基准测试分为两步:

第一次尝试时,Aider 向 GPT 提供要编辑的桩代码文件以及描述问题的自然语言指令。这些指令反映了用户如何使用 Aider 进行编码。用户将源代码文件添加到聊天中并请求更改,这些更改会被自动应用。如果测试套件在第一次尝试后失败,Aider 会将测试错误输出提供给 GPT,并要求其修复代码。Aider 的这种交互式方式非常便捷,用户使用 /run pytest 之类的命令来运行 pytest 并在与 GPT 的聊天中共享结果。

然后就有了上述结果。至于 Aider ,对于那些不了解的小伙伴,接下来我们简单介绍一下。

Aider 是一个命令行工具,可以让用户将程序与 GPT-3.5/GPT-4 配对,以编辑本地 git 存储库中存储的代码。用户既可以启动新项目,也可以使用现有存储库。Aider 能够确保 GPT 中编辑的内容通过合理的提交消息提交到 git。Aider 的独特之处在于它可以很好地与现有的更大的代码库配合使用。

简单总结就是,借助该工具,用户可以使用 OpenAI 的 GPT 编写和编辑代码,轻松地进行 git commit、diff 和撤消 GPT 提出的更改,而无需复制 / 粘贴,它还具有帮助 GPT-4 理解和修改更大代码库的功能。

为了达到上述功能,Aider 需要能够准确地识别 GPT 何时想要编辑用户源代码,还需要确定 GPT 想要修改哪些文件并对 GPT 做出的修改进行准确的应用。然而,做好这项「代码编辑」任务并不简单,需要功能较强的 LLM、准确的提示以及与 LLM 交互的良好工具。

操作过程中,当有修改发生时,Aider 会依靠代码编辑基准(code editing benchmark)来定量评估修改后的性能。例如,当用户更改 Aider 的提示或驱动 LLM 对话的后端时,可以通过运行基准测试以确定这些更改产生多少改进。

此外还有人使用 GPT-4 Turbo 简单和其他模型对比了一下美国高考 SAT 的成绩:

同样,看起来聪明的程度并没有拉开代差,甚至还有点退步。不过必须要指出的是,实验的样本数量很小。

综上所述,GPT-4 Turbo 的这一波更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。业务落地速度慢的公司要小心了。

另一方面,从这次开发者日的发布内容来看,OpenAI 也从一个极度追求前沿技术的创业公司,变得开始关注起用户体验和生态构建,更像大型科技公司了。

再次颠覆 AI 领域的 GPT-5,我们还得再等一等。

参考内容:

https://venturebeat.com/ai/what-can-you-make-with-openais-gpt-builder-5-early-examples/

https://aider.chat/docs/benchmarks-1106.html

https://weibo.com/2194035935/N8pSZCdxH

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
豆包使用手册(2026完整版)
很多人只拿豆包聊聊天,其实它早成了2026年超实用的全能助手,不管是办..
收藏级!豆包超全使用教程,从新手到大神一篇吃透!..
如今AI已经全面融入日常生活,不管是办公学习、生活规划还是文案创作,大..
2026年豆包技术深度评测:谁将引领行业新标准?
在生成式AI技术日新月异的今天,以“豆包”为代表的主流AI应用平台,其技..
我真的悔哭了!用了半年豆包,才发现这10个隐藏玩法,太香了..
好多人用豆包,就只会问问题、聊聊天,压根不知道它藏着这么多好用的功..
豆包有实用价值也有相当离谱的情况发生
使用豆包给股票投支出谋划策搞出了笑话![笑哭][捂脸][泣不成声][赞][不..
宁波高二女生把豆包当“灵魂伴侣”,经常聊到后半夜!白天打瞌睡,甚至选择..
随着AI助手的普及,越来越多的人习惯在工作生活中向它们求助。但对一小部..
2026年豆包品牌深度评测:究竟哪家更正规、更值得信赖?..
你是否发现,在豆包、文心一言等AI对话中搜索你的行业或产品时,自家公司..
实测豆包询问“未来配偶”:提供的电话能打通,陌生机主被骚扰!律师:AI不..
红星资本局4月24日消息,近日,一种新的AI玩法正在社交平台上流行起来。..
2026 AI大模型战国时代DeepSeek V4 · GPT-5.5 · Claude Opus 4.7 全面横..
三大巨头4月密集发布,谁才是最强?成本差距6倍意味着什么?一文看懂AI格..
关于作者
我是歌王(普通会员)
文章
2009
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106501

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索