GPT-4最强竞品突然升级10万token，啃论文代码演示全搞定-工信会

> 自媒体 > （AI）人工智能 > GPT-4最强竞品突然升级10万token，啃论文代码演示全搞定

GPT-4最强竞品突然升级10万token，啃论文代码演示全搞定

来源：新智元

2023-05-17 20:01:08

714

管理

编辑：编辑部

【新智元导读】GPT-4 32K还没用上，ChatGPT最强竞品已经秒读「了不起的盖茨比」了。

在GPT-4 32K还在内测阶段，OpenAI的劲敌直接把上下文长度打了上去。

就在今天，初创公司Anthropic宣布，Claude已经能够支持100K的上下文token长度，也就是大约75,000个单词。

Claude 100k，倍儿香！

前段时间，在OpenAI的开发者社区中，许多人讨论GPT-4 32K正在推出。

已经解锁这一版本的网友，让其访问了数百个来自卸载HyperWrite用户的数据点，GPT-4便准确地告诉他接下来该做怎样的改进。

他称赞道，GPT-4 32k是世界上最好的产品经理。

Claude还可以是你的「代码伴侣」，分分钟就能做个演示。

比如，上传一个240页的Langchain API文档，让它基于这个文档，用Anthropic的语言模型做一个Langchain的简单演示。

此外，Claude 100k还能处理大约6小时的音频量。

比如说，AssemblyAI把一个卡马克的播客的内容转录成了58k个token量的文本，然后用Claude进行了总结和问答。

官网也给出了具体价格：

Claude Instant

Prompt：$0.00163 / 1K tokens

Completion：$0.00551 / 1K tokens

Claude-v1

Prompt：$0.01102 / 1K tokens

Completion：$0.03268 / 1K tokens

网友实测

这么重磅级的更新，一定少不了网友的体验。

有网友称100k简直难以置信，能够处理多篇完整的论文，部分完整的代码库，甚至一本250页的小说。

英伟达科学家Jim Fan表示，这是Anthropic抛出的杀手锏。未来在上下文长度的军备赛正快速升温。

对于支持100k的意义，网友称，泰裤辣！这很好地展示了为什么长文本对LLM很重要。

就连Sam Altman称我们要的是32k token。

前段时间，来自DeepPavlov、AIRI、伦敦数学科学研究所的研究人员发布了一篇技术报告，使用循环记忆Transformer（RMT）将BERT的有效上下文长度提升到「前所未有的200万tokens」，同时保持了很高的记忆检索准确性。

论文地址：https://arxiv.org/abs/2304.11062

该方法可以存储和处理局部和全局信息，并通过使用循环让信息在输入序列的各segment之间流动。

不过，虽然RMT可以不增加内存消耗，可以扩展到近乎无限的序列长度，但仍然存在RNN中的记忆衰减问题，并且需要更长的推理时间。

实际上，RMT背后是一个全新的记忆机制。

具体操作方法是，在不改变原始Transformer模型的前提下，通过在输入或输出序列中添加一个特殊的memory token，然后对模型进行训练以控制记忆操作和序列表征处理。

与Transformer-XL相比，RMT需要的内存更少，并可以处理更长序列的任务。

当然，在最终实现百万token之前，Claude 100k已经是相当大的起步了。

参考资料：

https://www.anthropic.com/index/100k-context-windows

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI震撼研究：用GPT-4解释30万神经元，原来AI黑盒要AI去打开

2023-05-17 20:01

微软宣布将把GPT-4用于医疗领域，帮助医护回复患者和分析记录

2023-05-17 19:58

相关文章

NeurIPS 2025放榜：阿里Qwen门控注意力获最佳论文

嘻疯发自凹非寺量子位 | 公众号 QbitAI刚刚，NeurIPS 2025最佳论文奖、..

阿里千问开源4款Qwen3.5小尺寸模型，满足资源受限至轻量应用不同需求..

【太平洋科技快讯】3月3日消息，阿里千问近日开源四款Qwen3.5更小尺寸模..

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%..

它用时四分钟左右，写完了1200多行代码。从实测结果来看，游戏设计与前端..

阿里亲身入局具身智能！Qwen内部组团，通义千问技术负责人带队..

衡宇发自凹非寺量子位 | 公众号 QbitAIQwen团队内部组建了一个全新的具..

Qwen紧追OpenAI开源4B端侧大模型，AIME25得分超越Claude 4 Opus..

衡宇发自凹非寺量子位 | 公众号 QbitAI三天不开源，Qwen团队手就痒。昨..

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒

全球最快的开源大模型来了——速度达到了每秒2000个tokens！虽然只有320..

激活170亿参数 Qwen3.5实测重构大模型性价比逻辑

2月16日Qwen3.5正式开源，以3970亿总参数、仅170亿激活参数的架构实现性..

Qwen最新闭源模型曝光！实测夸克“对话助手”

10月23日，阿里旗下夸克正式上线“对话助手”。从界面上看，它像是“塞进..

林俊旸离职后，Qwen的变与不变

来源：视觉中国OpenAI早期也曾采用垂直整合的架构模式，并集中资源完成了..

关于作者

御赐铲屎官..(普通会员)

文章

1895

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106516

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索