Transformer 架构讲解

Transformer 是现代大模型最重要的底层架构之一。无论是 ChatGPT、Claude、Gemini，还是大量文本、代码、语音、图像模型，本质上都深受 Transformer 思想影响。

它最早来自 Google 在 2017 年发表的论文 Attention Is All You Need。这篇论文最初面向机器翻译任务，但真正改变行业的，不是“翻译效果更好”这件事，而是它提出了一种全新的序列建模方式：

不再依赖 RNN 那种一步一步顺序传递的信息流，而是让序列中的每个 token 直接和其他 token 建立关系。

这就是 Transformer 的核心。

一、为什么 Transformer 会出现

在 Transformer 之前，NLP 领域主流是 RNN、LSTM、GRU 这类循环神经网络。它们的问题很明显：

必须按顺序处理，难以并行训练
序列一长，信息容易衰减
长距离依赖建模效果有限
工程扩展性一般，不适合超大规模训练

举个例子：

“我昨天在上海见到的那位做芯片的朋友，今天说他已经拿到新一轮融资了。”

模型在理解“他”指代谁时，往往要关联前面很远的“那位做芯片的朋友”。

RNN 需要把前面的信息层层传到后面；而 Transformer 的思路更直接：

当前 token 可以直接关注和自己最相关的 token。

于是，长距离依赖问题被大幅缓解，训练效率也明显提升。

二、Transformer 的核心思想：Attention

Transformer 最关键的设计就是 Attention（注意力机制）。

你可以把它理解成一句话：

模型在处理当前 token 时，不是平均看待上下文，而是动态判断“哪些位置更重要”。

比如句子：

“The animal didn’t cross the street because it was too tired.”

当模型处理 it 时，它需要判断 it 指的是 animal，而不是 street。注意力机制的价值就在这里：

它允许 it 去“看”前面的所有词
给不同词分配不同权重
最后重点吸收最相关的信息

所以，Attention 本质上是在做一件事：

从全局上下文中，筛选出当前最值得参考的信息。

三、Self-Attention 是怎么工作的

Transformer 里最常见的是 Self-Attention（自注意力）。

所谓“自注意力”，就是：

一个序列内部的 token 彼此计算相关性。

每个 token 进入注意力层后，都会被映射成三组向量：

Query（查询）：我现在想找什么信息
Key（键）：我身上有什么信息可供匹配
Value（值）：如果我被关注，我实际提供什么内容

计算流程可以粗略理解为：

当前 token 拿自己的 Query 去和所有 token 的 Key 做匹配
匹配分数越高，说明两个位置越相关
对这些分数做归一化，得到注意力权重
用权重对所有 Value 加权求和
得到当前 token 融合上下文后的新表示

公式通常写成：

Attention(Q, K, V) = softmax(QK^T / √d_k) V

不用死记公式，重点理解两件事：

相关性由 Q 和 K 决定
真正传递的信息来自 V

这就是 Transformer 能“看全局、抓重点”的原因。

四、为什么要做 Multi-Head Attention

单次注意力只能从一个角度理解关系，但语言里的关系是多维的。

比如同一句话里，模型可能同时需要关注：

语法关系
指代关系
时间关系
因果关系
主题词之间的语义关系

所以 Transformer 不只做一次 Attention，而是做 Multi-Head Attention（多头注意力）。

也就是把表示空间切成多个子空间，让不同“头”分别学习不同类型的关联模式。最后再把这些结果拼接起来。

直观理解就是：

不是只让模型用一种视角看句子，而是同时开多个观察通道。

这会显著增强模型对复杂语义结构的表达能力。

五、Transformer 的整体结构

经典 Transformer 采用 Encoder-Decoder 结构。

1. Encoder

Encoder 负责“读懂输入”。

它通常由多层堆叠组成，每层主要包含：

Multi-Head Self-Attention
Feed Forward Network（前馈网络）
Residual Connection（残差连接）
Layer Normalization（层归一化）

作用是不断把原始 token 表示，转化成更高层、更抽象的上下文表示。

2. Decoder

Decoder 负责“生成输出”。

它的结构和 Encoder 类似，但多了两个关键点：

Masked Self-Attention：只能看当前位置之前的 token，不能偷看未来
Cross-Attention：在生成时参考 Encoder 输出的表示

如果是机器翻译任务：

Encoder 读入英文
Decoder 逐步生成中文

3. 为什么现在大模型大多只用 Decoder

现代 LLM，比如 GPT 系列，通常采用 Decoder-only Transformer。

原因很现实：

目标主要是“根据前文预测下一个 token”
自回归生成天然适合 Decoder-only 架构
工程实现更统一，更容易扩展到超大参数规模

所以今天大家常说的“大模型 Transformer”，很多时候其实指的是 Decoder-only 变体，而不是原论文中的完整 Encoder-Decoder 结构。

六、位置编码为什么重要

Attention 本身不包含顺序概念。

也就是说，如果只把一堆 token 扔进去，模型并不知道：

谁在前
谁在后
哪些词是相邻的
整体顺序是什么

但自然语言高度依赖顺序，所以 Transformer 需要引入 Positional Encoding（位置编码）。

位置编码的作用就是：

把“位置信息”注入到 token 表示里。

这样模型才能区分：

“狗咬人”
“人咬狗”

这两个词几乎一样，但顺序不同，含义完全不同。

现在常见的位置处理方式包括：

固定正弦余弦位置编码
可学习位置向量
RoPE 旋转位置编码
ALiBi 等相对位置方法

在大模型实践里，位置编码已经从“辅助模块”变成影响上下文长度、泛化能力和推理效果的关键设计点。

七、为什么 Transformer 这么强

Transformer 能成为主流，不只是因为“效果更好”，更重要的是它兼顾了 算法能力 和 工程扩展性。

1. 并行训练效率高

RNN 必须按时间步串行计算，而 Transformer 可以同时处理整段序列，极大提升 GPU / TPU 利用率。

2. 更擅长建模长距离依赖

任意两个 token 都可以直接交互，不需要经过很长的信息传递路径。

3. 可扩展性非常强

Transformer 很适合做大规模堆叠：

更多层数
更大隐藏维度
更多训练数据
更长上下文窗口

而且在很多场景下，模型能力会随着规模提升持续增强，这也是“大模型时代”成立的重要前提。

4. 通用性极强

Transformer 不只适用于文本，还被广泛用于：

大语言模型
代码生成
文本检索与问答
图像分类与生成
语音识别与语音生成
多模态理解与生成

它本质上已经从一个 NLP 架构，演化成了现代 AI 的通用计算框架。

八、Transformer 的代价和局限

Transformer 很强，但并不完美。

1. 注意力计算成本高

标准 Self-Attention 的计算复杂度与序列长度平方相关。上下文越长，显存和算力消耗越夸张。

这也是为什么长上下文模型一直在做各种优化，比如：

稀疏注意力
FlashAttention
分块注意力
状态空间模型混合结构

2. 对数据和算力依赖极强

Transformer 的上限很高，但通常要建立在：

海量高质量数据
大规模训练算力
复杂的工程优化

如果数据不够、训练不稳，模型效果未必理想。

3. 不是所有任务都天然最优

对于某些强结构化、低延迟、超长序列场景，Transformer 并不一定是唯一最优方案，所以近年来也出现了 Mamba、RWKV、RetNet 等替代或补充路线。

九、今天该怎么理解 Transformer

如果只记一句话，可以这样理解：

Transformer 是一种基于注意力机制的序列建模架构，它通过让每个 token 动态关注全局上下文，替代了传统循环结构，最终成为大模型时代的基础设施。

它真正厉害的地方，不只是“能理解一句话”，而是提供了一种可扩展、可并行、可跨模态迁移的统一建模方式。

从机器翻译到 ChatGPT，从文本到图像再到多模态，Transformer 之所以重要，不在于它解决了某个单点任务，而在于它定义了现代 AI 系统的一种主流组织方式。

十、总结

Transformer 的核心可以压缩成 5 个关键词：

Attention：决定看哪里
Self-Attention：序列内部建立全局关系
Multi-Head：从多个角度理解上下文
Positional Encoding：补上顺序信息
Scalability：适合大规模训练和泛化

如果说 CNN 定义了视觉时代的基础网络范式，那么 Transformer 基本定义了大模型时代的主流架构范式。

理解 Transformer，不只是理解一篇经典论文，更是在理解今天绝大多数 AI 系统的底层逻辑。