> 自媒体 > (AI)人工智能 > RAG+GPT-4 Turbo让模型性能飙升!大海捞针实验成本仅4%
RAG+GPT-4 Turbo让模型性能飙升!大海捞针实验成本仅4%
来源:新智元
2023-12-13 14:25:04
906
管理

编辑:桃子

【新智元导读】RAG或许就是大模型能力飙升下一个未来。

RAG GPT-4,4%的成本,便可拥有卓越的性能。

这是最新的「大海捞针」实验得出的结论。

如上图所示,assistant API (GPT-4 RAG)的性能近乎完美。

注意:这一性能仅适用于搜索式查询。大型上下文窗口还有其他用例(如少样本学习)。

成本

上下文窗口填充仅产生每个token的成本,而RAG产生每个token的成本,以及额外的固定LLM推理成本。

以下是每个token的成本:

延迟

RAG通常是针对离线数据进行的,检索延迟以毫秒为单位,端到端延迟主要由LLM调用决定。

但作者认为,比较一下从文件上传到返回结果的端到端延迟时间,看看RAG是否能与「在线」(而非离线)数据竞争,会很有意思。

以下是对128k token文档进行查询的端到端延迟:

- LlamaIndex RAG最低,平均为12.9秒。

- 其次是GPT4-Turbo,平均用时21.6秒,但差距很大,为7-36秒。

- assistant API RAG检索时间为24.8秒。

此外,大多数应用程序都能从乐观的文档上传中获益,从而最大限度地减少感知延迟。由于RAG索引的成本很低,通常不会有太大损失。

成本

RAG 成本分析有点微妙,因为它只是部分确定性的。RAG 的第一部分是检索,根据一些启发式(通常是矢量搜索)从更广泛的数据集中选择最「有前途」的文档块。

第二部分是生成增强,选择的块被输入到「标准」LLM调用中(并且随着通用性的增加,被输入到智能体LLM循环中)。

原则上,检索可以使用多种技术来实现,从关键字搜索到关系搜索,再到混合技术。

在实践中,大多数当代RAG方法主要使用矢量搜索,这会产生一次性、按token索引的成本。随着生态系统的成熟,混合技术的使用可能会越来越多。

每个token的成本

让我们首先看一下每个token的成本:

- GPT-4-Turbo 以 $0.01/1k token的价格。(与GPT-4和GPT-4-32k相比,价格分别降低了3倍和6倍) - OpenAI 的 ada v2 嵌入模型收费 0.0001 美元/1k token。这比GPT-4-Turbo便宜100倍。

- OpenAI 的助手 API 的检索功能价格更加昂贵。它以「无服务器」方式收费,0.20 美元/GB/助手/天。假设 1 个token ~ 5 个字节,即1×10^-6 美元/1k 个token/助手/天。

固定开销

开销部分很难计算(或者说不可能,在 OpenAI 的情况下),所以作者也只是凭经验测量它。

如结果部分所述,RAG还会产生固定开销,该开销源自LLM推理步骤。对于128k上下文,此固定成本为GPT-4上下文窗口的4%。

延迟

原则上,嵌入计算是高度可并行化的。因此,考虑到市场需求,未来的基础设施改进可能会将延迟降低到单个块嵌入的往返。

在这种情况下,可以看到即使是「在线」RAG管道延迟也会大大减少,以至于「在线」RAG延迟仅由LLM思维链循环的延迟主导。

参考资料:

https://www.reddit.com/r/MachineLearning/comments/18bivxa/d_needle_in_a_haystack_experiment_assistants_api/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
丰田为何没有变成另一个诺基亚?
五年前小鹏汽车创始人何小鹏嘲笑丰田章男对待EV(电动汽车)的态度,并在..
试驾过广汽丰田威兰达,开了950公里,憋了一肚子话要说..
最近汽车圈的大新闻,莫过于广汽丰田威兰达AIR版正式上市了,权益价直接..
丰田员工解释“技师”与“修理工”区别,引发行业热议..
【网通社快报】近日,美国印第安纳州拉法叶市Rohrman丰田dealership发布..
面对中国车厂冲击,本田与丰田在欧洲急得跳脚?
欧盟执行委员会在 2025 年底时计划推出「Made In Europe」欧洲制造政策,..
丰田的“清醒”与汉兰达的“变奏”:合资神车的反击战..
在中国汽车市场的版图上,丰田汉兰达曾是一个图腾。它代表了溢价、保值以..
新车|售16.98万元起/权益价13.78万元起,丰田威兰达AIR版新政策..
文:懂车帝原创 张凯[懂车帝原创 产品] 日前,我们从广汽丰田官方获悉,..
卡罗拉:换代不是跟风,是丰田读懂中国家用车的务实转身..
大家好我是心心念念,每天给大家带来最新动态,不赶节奏,内容随缘更,但..
狂跌420亿元,丰田利润大跳水
全球第一大车企丰田,一个季度净利下滑420亿!车东西2月11日消息,日前,..
2026年日系新车盘点,丰田/日产是主力,雷克萨斯ES将换代..
内饰设计很中式化,配备悬浮式中控屏、液晶仪表和电子怀挡,其中鸿蒙智能..
关于作者
清水大树(普通会员)
文章
2139
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113974

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索