GPT-3中Embeding和Umbedding | Transformers explained visually 02-工信会

> 自媒体 > （AI）人工智能 > GPT-3中Embeding和Umbedding | Transformers explained visually 02

GPT-3中Embeding和Umbedding | Transformers explained visually 02

来源：Anlaa

2025-02-06 15:40:46

618

管理

对3Blue1Brown的「Transformers (how LLMs work) explained visually | DL5」笔记，以及一些自己的理解。

本来想写完所有参数，可是还需要看完两个视频，而且「Attention in transformers, visually explained | DL6」还有好多没看懂，根本做不了笔记。

算了，就先记Embeding和Umbedding吧。

GPT-3 总权重: 175,181,291,520；总矩阵： 27,938

Embedding Matrix：词汇表大小为 50,257，向量的维度为 12,288。那么 embedding matrix 的参数大小为 50,000 × 12,288，包含约 6.17 亿个权重。

embedding matrix 的作用是将词汇表中的每个 token 映射到一个高维向量空间。在初始化时，模型为 embedding matrix 中的每一行（每个 token）分配一个随机的向量。输入一个文本时，模型会根据该 token 在词汇表中的索引，查找到对应的词向量（即在 embedding matrix 中的某一行），这就是该 token 的初始表示。这个初始向量并不具备语义上的任何含义，它只是一个随机值。通过训练，模型会不断调整这些向量，使它们能更好地表达词语之间的语义关系。

Unembedding Matrix：词汇表大小为 50,257，向量的维度为 12,288。那么 unembedding matrix 的参数大小为 50,000 × 12,288，包含约 6.17 亿个权重。

训练后的 unembedding matrix，每一行（对应词汇表的每个token）学会了表示这个token的特征。由于 Transformer 已经将整个上下文的信息都编码到上下文最后一个嵌入，所以只需使这个嵌入，通过 unembedding matrix 映射为词汇表的 logits，经归一化就能预测下一个词。

#头条深一度#

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

Claude 3全面碾压GPT-4成最强大模型？《科创板日报》记者实测报告来了！

2025-02-06 15:41

全球最强大模型一夜易主，Claude 3提前狙击GPT-5，理解力接近人类

2025-02-06 15:39