Transformer 架构速览：从 Self-Attention 到 GPT

它为什么会取代 RNN/CNN，Self-Attention 在做什么，整块网络是怎么一路走到 GPT 这类大模型上的。

从 RNN/CNN 到 Transformer：为什么要换一套架构？

在自然语言建模上，传统做法主要是 RNN/LSTM、1D-CNN 这两类：

RNN/LSTM 擅长“按时间一步步读”，可以记住前面的信息，但：
- 序列太长时，梯度传播困难，长依赖容易衰减；
- 无法很好地并行训练，一次只能处理一个时间步。
1D-CNN 可以并行一些，但卷积核的感受野有限，想覆盖长距离依赖就要堆很多层。

Transformer 做的事情，就是直接把“按顺序一格格读”的束缚拆掉，用 Self-Attention 一步看全局。

它的几个关键点：

先用一个直觉版的说法：

Self-Attention 的核心公式是：

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V $$

可以按步骤理解：

结果就是：每个位置的表示，不再只是自己那一个向量，而是“看了整句之后重新编码”的向量。

如果只有一个头，整个注意力层只能在一个子空间里学习“谁该看谁”。
Multi-Head 的做法是：

这样做的好处是：
不同的头可以学习到不同的模式 —— 有的强调句法关系，有的关注语义，有的偏位置特征等。

Self-Attention 本身对输入顺序是不敏感的：
如果你把序列整体打乱，它依然可以算出一堆注意力分数，但这显然不符合“语言是有顺序的”这一事实。

为了解决这个问题，Transformer 在输入 token 向量时，会额外加上一个 位置向量：

1输入向量 = token embedding + position embedding

常见的做法有两类：

正弦位置编码（Sinusoidal）：
- 用不同频率的正弦、余弦函数生成一个固定的向量序列；
- 好处是：位置关系在数学上“连续”，模型在较长序列外推时更自然。
可学习的位置编码（Learned Positional Embedding）：
- 把每个位置当成一个“可学习的 embedding”；
- 好处是灵活、简单，但外推到比训练时更长的序列会稍微麻烦一些。

在后来的模型里，又出现了 RoPE（旋转位置编码）、ALiBi 等方案，本质上都是在解决一个问题：
怎么在注意力里优雅地编码“谁在前、谁在后、谁离谁更近”。

以最常见的 Encoder/Decoder Block 为例，可以把一层 Block 里发生的事拆成几步：

如果只看一层，可以简化理解为：

堆叠很多层这样的 Block，再配合输入/输出头部（embedding、分类/生成头），就是整套 Transformer 网络。

最初的 Transformer（机器翻译场景）是 Encoder-Decoder 结构：

后来几个主流方向做了不同的裁剪：

BERT 一类（Encoder-only）：
- 只保留 Encoder 部分，做双向编码，用来做分类、匹配、抽取等任务；
- 训练目标通常是 Masked Language Modeling（挖空再预测）。
GPT 一类（Decoder-only）：
- 只保留 Decoder，自回归地预测“下一个 token”；
- 通过因果 Mask（Causal Mask）保证当前位置只能看到“自己左边”的 token。

对使用者来说，最重要的差别是：

在 GPT 这类模型里，训练和推理都遵循一个简单原则：
当前位置的预测只能依赖它左边已经看到的 token。

在 Attention 的实现里，这通过一个 上三角 Mask 矩阵 来完成：

自回归生成过程可以简单理解为：

有了这一整块的骨架，后面无论是看论文里的各种改造，还是理解大模型推理/微调时发生了什么，都会轻松很多。