GPT-3 1750 亿参数,已经不是一般机构玩转的动,要分析GPT-3 参数构成,我们先分析 Transformer 中核心结构由encoder-decoder 构成,当前的LLMs模型基本是encoder 结构或者decoder 结构,而一个encoder 块,由Mutil-Head-Attention 和FFN 构成,然后在这中间,LayerNorm 穿插其中,下面主要从这三部分进行解析: 是模型的输入/输出维度(单词的嵌入embedding 维度)
表示模型的前馈神经网络FFN隐藏层维度;
表示注意力头的个数
表示注意的层数
1.Mutil-Head-Attention

GPT-3 相关结构参数
从这个表中可以看出,在训练GPT-3规模上,参数规模越大,barch 越大,学习率越小。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523