> 自媒体 > (AI)人工智能 > GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍
GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍
来源:新智元
2023-05-24 14:17:36
674
管理

来源:lifearchitect

编辑:好困

【新智元导读】GPT-4将会有高达10兆个参数?近日,有网友在分析了GPT-3和其他语言模型之后大胆预测,GPT-4将会达到GPT-3的57倍!而「开源版本」则会达到和GPT-3同等的规模。

对于机器学习来说,参数可以算得上算法的关键:它们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。而OpenAI的GPT-3则是迄今为止最大的语言模型之一,有1750亿个参数。

那么,GPT-4会是什么样子的?

近日有网友就对GTP-4及其「开源版」GPT-NeoX进行了大胆的预测。

作者认为,GPT-4的参数或许可以达到10T,是现在GPT-3模型的57倍还多,而GPT-NeoX的规模则可以和GPT-3持平。

等下,如果是这样,程序员们还能不能在GPT-NeoX上愉快地调参了?

模型

发布时间

Tokens

参数

占1.75T的百分比

训练文本

GPT-2

(OpenAI)

Feb 2019

10B

1.5B

0.09%

40GB

GPT-J

(EleutherAI)

Jun 2021

400B

6B

0.34%

800GB

GPT-3

(OpenAI)

May 2020

499B

175B

10.00%

570GB

PanGu (Chinese)

Apr 2021

40B

200B

11.43%

1.1TB

HyperCLOVA (Korean)

May 2021

560B

204B

11.66%

1TB?

Wudao 2.0 (Chinese)

Jun 2021

500B?

1.75T

100.00%

2.4TB

LaMDA

(Google)

Jun 2021

1T?

200B?

11.43%

1TB?

GPT-4

(OpenAI)

TBA

20T?

10T?

571.43%

5TB?

GPT-NeoX

(EleutherAI)

TBA

500B?

175B?

10.00%

825GB?

数据集分析

目前应用最广的GPT-3的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引,分类,过滤和加权,而且还针对重复的部分也做了大量的删减。

专门为Openai开发并由Microsoft Azure托管的世界最强超算之一完成了对GPT-3的训练 。超算系统有超过285,000个CPU核心,超过10,000个 GPU,并且以400Gbps的速度运行。

GPT-3

Wikipedia DataSet是来自于Wikipedia的英文内容。由于其质量,写作风格和广度,它是语言建模的高质量文本的标准来源。

WebText数据集(以及扩展版本WebText2)是来自从Reddit出站的大于4500万个网页的文本,其中相关的帖子会有两个以上的支持率(upvotess)。

由于具有大于4.3亿的月活用户,因此数据集中的内容可以被认为是最 「流行 」网站的观点。

Books1和Books2是两个基于互联网的书籍数据集。类似的数据集包括:

BookCorpus,是由未发表的作者撰写的免费小说书籍的集合,包含了至少10,000本书。Library Genesis (Libgen),一个非常大的科学论文、小说和非小说类书籍的集合。

Common Crawl是一个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台:

八年来PB级的数据(数以千计的TB,数以百万计的GB)。25B个网站。数以万亿计的链接。75%英语,3%中文,2.5%西班牙语,2.5%德语等。排名前10域名的内容:Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。

GPT-3使用的数据集

GPT-Neo和GPT-J

今年3月,Eleuther AI在Github上推出了GPT-Neo开源项目,可以在Colab上进行微调。

虽然GPT-Neo与GPT-3比,参数量仍然很小(1.3B和2.7B),但开源又免费,仍然得到了「同性好友们」的认可。

今年6月Eleuther AI再次推出GPT-J-6B,它可以说是GPT-Neo的增强版本,顾名思义,模型的参数量增加到了6B。

GPT-J的训练也是基于The Pile数据库——一个825GB的多样化开源语言建模数据集,由22个较小的、高质量的数据集合组成。

The Pile除了专业论坛和知识库,如HackerNews、Github和Stack Exchange,论文预印本网站ArXiv以外,还包括如Youtube字幕,甚至安然邮件(Enron Emails)语料库。

GPT-Neo和GPT-J使用的数据集

在zero-shot任务上,GPT-J性能和67亿参数的GPT-3相当,也是目前公开可用的Transformer语言模型中,在各种下游zero-shot任务上表现最好的。

这么看来,确实可以期待一下和GPT-3相同规模的GPT-NeoX的表现了。

网友评论

GPT-4怎么这么大?

「GPT-3已经接近理论上每个token的最大效率了。如果OpenAI模型的工作方式是正确的,更大的模型只是对算力的浪费。」

有网友解答说:「规模确实可以带来改善。因为本质上是一种关系隐喻模型,『了解更多的关系 』意味着能够对更多的事情或以更细微的方式做出反应。当然,这也同时是一个营销的方式。」

参考资料:

https://lifearchitect.com.au/ai/models/#contents

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
豆包使用手册(2026完整版)
很多人只拿豆包聊聊天,其实它早成了2026年超实用的全能助手,不管是办..
收藏级!豆包超全使用教程,从新手到大神一篇吃透!..
如今AI已经全面融入日常生活,不管是办公学习、生活规划还是文案创作,大..
2026年豆包技术深度评测:谁将引领行业新标准?
在生成式AI技术日新月异的今天,以“豆包”为代表的主流AI应用平台,其技..
我真的悔哭了!用了半年豆包,才发现这10个隐藏玩法,太香了..
好多人用豆包,就只会问问题、聊聊天,压根不知道它藏着这么多好用的功..
豆包有实用价值也有相当离谱的情况发生
使用豆包给股票投支出谋划策搞出了笑话![笑哭][捂脸][泣不成声][赞][不..
宁波高二女生把豆包当“灵魂伴侣”,经常聊到后半夜!白天打瞌睡,甚至选择..
随着AI助手的普及,越来越多的人习惯在工作生活中向它们求助。但对一小部..
2026年豆包品牌深度评测:究竟哪家更正规、更值得信赖?..
你是否发现,在豆包、文心一言等AI对话中搜索你的行业或产品时,自家公司..
实测豆包询问“未来配偶”:提供的电话能打通,陌生机主被骚扰!律师:AI不..
红星资本局4月24日消息,近日,一种新的AI玩法正在社交平台上流行起来。..
2026 AI大模型战国时代DeepSeek V4 · GPT-5.5 · Claude Opus 4.7 全面横..
三大巨头4月密集发布,谁才是最强?成本差距6倍意味着什么?一文看懂AI格..
关于作者
无根草(普通会员)
文章
1849
关注
0
粉丝
2
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106501

1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索