通俗易懂大模型核心原理

title: "通俗易懂大模型核心原理"

date: "2026-05-13" tags: ["AI", "大模型", "Transformer", "GPT", "深度学习"] summary: "用通俗语言讲清楚大模型为什么能理解上下文，以及 Token、词嵌入、注意力机制和 Transformer 之间的关系。" draft: false ticker:

大模型看起来像在“思考”，但最底层做的事情可以浓缩成一句话：把输入拆成 token，把 token 变成向量，计算它们之间的关系，再预测下一个最可能出现的 token。

这篇笔记尽量不用复杂公式，只讲最关键的几件事：

GPT、ChatGPT、Transformer 分别是什么
为什么大模型几乎都建立在 Transformer 上
大模型如何“理解上下文”
Token、词嵌入、注意力机制各自负责什么

1. 先厘清：GPT、ChatGPT、Transformer 是什么关系

可以把三者理解成三层关系：

Transformer：底层架构
GPT：基于 Transformer 训练出来的一类生成式语言模型
ChatGPT：把 GPT 模型做成可对话、可交互的产品形态

OpenAI 在 2022 年 11 月 30 日发布 ChatGPT。它之所以能像聊天助手一样和人对话，底层依赖的是 GPT 系列模型，而 GPT 的核心基础架构就是 Transformer。

GPT 发展时间线

2017 年：Transformer 论文提出，奠定今天大模型的基础
2018 年：BERT、GPT 等代表性预训练语言模型兴起
GPT-1（2018 年 6 月）：把 Transformer 与无监督预训练结合起来
GPT-2（2019 年 2 月）：参数规模提升到 15 亿，文本生成能力显著增强
GPT-3（2020 年 6 月）：1750 亿参数，通用生成能力大幅提升
GPT-3.5 / ChatGPT（2022 年 11 月）：让普通用户第一次大规模感受到大模型的对话能力
GPT-4（2023 年 3 月）：推理、复杂任务处理、多模态能力进一步提升
GPT-4o（2024 年 5 月）：支持文本、图像、语音等更自然的实时交互
之后的迭代：重点持续转向更强推理、更低延迟、更自然交互和更高可靠性

注：公开模型的参数规模并不总是被官方完整披露，很多流传数字更适合作为量级参考，而不是绝对结论。

GPT 时间线

什么叫“生成式”

“生成式（Generative）”的核心意思是：模型不是只做分类判断，而是一个 token 接一个 token 地往后生成内容。

比如你输入一句话开头：

今天的天气真……

模型会根据上下文预测下一个最可能出现的 token，例如：

好
热
不错
差

它不是先把整段答案一次性想完，而是不断重复下面这个过程：

读取当前上下文
预测下一个最可能的 token
把这个 token 接到后面
继续预测下一个 token

所以，大模型本质上是一个基于概率的连续生成系统。

2. 为什么大模型最终走向 Transformer

在 Transformer 出现之前，研究者一直在尝试让机器更好地处理图像、文本、语音这类复杂数据。

2.1 神经网络：基础起点

神经网络（ANN） 是受人脑启发设计的一类计算模型，由大量相互连接的节点组成，能够从数据中学习规律。

深度学习 本质上就是用多层神经网络学习更复杂的表示。

TensorFlow 神经网络可视化

2.2 CNN：擅长图像

卷积神经网络（CNN） 特别擅长处理图像，比如识别猫狗、人脸、道路标志等，因为它很适合提取局部特征。

2.3 RNN：开始处理序列

循环神经网络（RNN） 主要用于处理序列数据，比如一句话、一段语音、一串时间序列。

它的特点是：

当前计算会参考前面的内容
理论上可以“记住”过去的信息
适合处理顺序很重要的数据

但它有两个明显问题：

序列太长时，容易遗忘早期信息
难以高效并行计算，训练速度慢

2.4 LSTM：RNN 的增强版

长短时记忆网络（LSTM） 可以看作 RNN 的升级版。它通过门控机制提升了长期信息保留能力。

相比 RNN，LSTM：

更能处理长距离依赖
更适合语言、时间序列等任务
但计算仍然偏重，并行能力依旧有限

2.5 Transformer：关键突破

Transformer 基本解决了前面这些架构在长文本建模和训练效率上的核心瓶颈。

它不再主要依赖“按顺序一步一步传递记忆”，而是引入更强大的注意力机制（Attention），让每个 token 都能直接关注句子里其他重要 token。

这也是为什么今天绝大多数先进大模型——包括 GPT、Claude、Gemini、DeepSeek 等——都建立在 Transformer 或其变体之上。

2.6 Transformer 架构延伸阅读

Transform架构讲解Transformer 架构讲解Transformer 架构讲解 Transformer 是现代大模型最重要的底层架构之一。无论是 ChatGPT、Claude、Gemini，还是大量文本、代码、语音、图像模型，本质上都深受 Transformer 思想影响。它最早来自 Google 在 2017 年发表的论文 Attention Is All You Need。这篇论文最初面向机器翻译任务，但真正改变行业的，不是“翻译效果更好”这件事，而是它提出了一种全新的序列建模方式：不再依赖 RNN 那种一步一步顺序传递的信息流，而是让序列中的每个 token 直接和其他 token 建立关系。这就是 Transformer 的核心。 image.png image.png 一、为什么 Transformer 会出现在 Transformer 之前，NLP 领域主流是 RNN、LSTM、GRU 这类循环神经网络。它们的问题很明显： - 必须按顺序处理，难以并行训练 - 序列一长，信息容易衰减 - 长距离依赖建模效果有限 - 工程扩展性一般，不适合超大规模训练举个例子： “我昨天在上海见到的那位做

3. 大模型的最小工作流程

如果把大模型的工作过程做一个极简概括，可以分成 4 步：

分词（Tokenization）：把输入拆成 token
向量化（Embedding）：把 token 变成机器可计算的向量
关系建模（Attention）：计算 token 之间谁更重要、谁和谁更相关
预测生成（Next Token Prediction）：输出下一个最可能的 token

大模型工作流程

4. Token：模型真正处理的最小单位

大模型并不是直接“看懂整句话”，而是先把文本拆成更小的处理单元，这个单元就叫 Token。

例如：

中文：长沙的雨 → [长沙] [的] [雨]
英文：Rain in Changsha → [Rain] [in] [Changsha]
句子：长沙明天暴雨，记得带伞 → [长沙] [明天] [暴雨] [记得] [带伞]

注意：不同模型的分词规则并不完全一样。一个中文词、一个英文单词、一个数字，甚至半个单词，都可能成为 token。

Token 是大模型最基础的“阅读单位”，模型后续所有理解、计算、生成，都是围绕 token 展开的。

5. 为什么模型不能直接理解文字

对人来说，“长沙”“暴雨”“明天”天然有意义；但对机器来说，文字本身只是符号。

模型真正擅长处理的是：

数字
向量
矩阵
概率

所以，大模型必须先把 token 转成数字表示，才能进行后续计算。

问题还不止于此。词和词之间还存在复杂关系：

有些词出现频率很高，比如“的”“是”“the”“and”
有些词经常一起出现，形成稳定语义
有些词意思接近，有些词意思相反
同一个词在不同语境下，含义可能完全不同

比如：

鲜花 里的 花 表示植物
花钱 里的 花 表示消费

所以，大模型不仅要把文字变成数字，还要尽量把语义关系也编码进去。

6. 词嵌入：把 token 变成“有语义的向量”

这里有两个容易混淆的概念：

词嵌入（Word Embedding）：把 token 映射成高维向量的过程或方法
词向量（Word Vector）：某个 token 最终对应的具体数值表示

6.1 什么是词嵌入

词嵌入的目标不是随便分配一串数字，而是尽量让：

语义相近的词，在向量空间里彼此更接近
语义差异大的词，在向量空间里距离更远

也就是说，模型把“词的含义”压缩进了一串数字中。

词嵌入示意

6.2 什么是词向量

词向量就是某个词在向量空间中的具体表示。比如：

长沙 可能被表示成 [0.8, -0.3, 0.5, ...]
暴雨 可能被表示成 [0.2, 0.9, -0.1, ...]

真实模型里的维度通常很高，可能是几百维、几千维，甚至更高。为了方便理解，可以先把它想象成二维坐标。

词向量示意

例如：

长沙 简化为 [4, 2]

那它就可以被理解为坐标系中的一个点。

二维坐标示意

再比如：

黑 = [-0.4, -0.2]
白 = [0.4, 0.2]

它们方向接近相反，就能直观体现语义上的对立关系。

所以可以先建立这样一个直觉：模型不是直接“认识”文字，而是通过向量空间中的位置关系来“理解”文字。

7. 注意力机制：模型如何理解上下文

接下来最关键的一步是：模型不仅要知道每个 token 是什么，还要知道在当前上下文里，谁更重要，谁和谁更相关。

7.1 先看一个简单例子

如果只看“苹果”两个字，后面接什么都可能：

苹果 -> 熟了
苹果 -> 手机

但一旦放进上下文：

树上的苹果熟了
我去手机店，新买了一个苹果手机

你就会发现，“苹果”的含义完全不同。

对大模型来说也是一样。它必须结合上下文，判断当前 token 到底是什么意思，接下来最可能出现什么。

7.2 什么是注意力机制

注意力机制（Attention） 可以理解为：

模型在处理当前 token 时，会动态判断“句子里哪些 token 更值得重点关注”。

比如这句话：

天气预报说长沙明天有暴雨

当模型处理“暴雨”时，它可能会更关注：

长沙：地点信息
明天：时间信息
天气预报：背景信息

也就是说，模型会给不同 token 分配不同权重。比如：

暴雨 -> 长沙（0.8）：强相关
暴雨 -> 明天（0.7）：强相关
暴雨 -> 预报（0.3）：弱相关
暴雨 -> 其他词（0.1）：较弱相关

这些分数不是人手工写进去的，而是模型在训练过程中自己学出来的。

注意力机制示意

8. 案例：一句“国王有个女儿”，模型内部发生了什么

为了把前面的概念串起来，可以看一个更完整的例子：

国王有个女儿，

为什么模型看到这句话后，往往能继续写出一个还不错的下文？本质上还是前面那 4 步，只不过内部计算会复杂得多。

8.1 第一步：分词，得到 Token

模型首先会按自己的分词规则，把输入切成 token。

分词示意

注意：不同模型的分词算法并不完全相同，但推理阶段使用的分词方式一定和训练时保持一致。

8.2 第二步：词嵌入，把 Token 变成词向量

可以把模型想象成有一个很大的“词表仓库”：

词表里有很多 token
每个 token 都有一组高维特征
输入一句话后，模型会先把这些 token 对应的初始向量取出来

词表与嵌入示意

以“女儿”为例，可以把它粗略想象成带有一组语义特征：

女性
晚辈
亲属
年轻
被保护对象
与“公主”存在一定关联

当然，这只是帮助理解的类比。真实模型里不是“标签列表”，而是高维向量。

8.3 第三步：加入位置，并在上下文中不断更新表示

词向量不是固定不变的。模型会经历一个逐层更新的过程：

初始嵌入：先取出 token 的基础向量
加入位置信息：让模型知道谁在前、谁在后
自注意力更新：结合其他 token 动态调整当前表示
前馈网络再加工：把信息进一步提炼
多层重复：一层层叠加，逐渐形成更强的上下文理解

表示逐层演化

可以把这个过程理解为：

初始时，“女儿”只是一个静态词典概念
看到“国王”后，它会更强地带上“皇室成员”的语义
看到逗号后，模型会意识到后面大概率还有补充描述

也就是说，同样是“女儿”，在不同上下文里，它最终得到的表示并不一样。

8.4 自注意力：让 token 彼此“交流”

在自注意力阶段，每个 token 都会参考其他 token 来更新自己。

以“女儿”为例，它可能会从上下文里学到：

国王：说明父亲身份特殊
有：说明它在句子中和谓语有明确关系
个：说明它是被计量的对象
，：说明句子大概率还没结束，后面会继续描述

于是，“女儿”的表示就不再只是一般意义上的“女儿”，而更接近：

是国王的女儿
可能与皇室、公主等概念相关
很可能会成为后文描述重点

自注意力示意

8.5 多层 Transformer：从语法到语义，再到下文预期

Transformer 不是只做一轮更新，而是会堆很多层。可以粗略理解为：

浅层：更偏向语法和局部关系
中层：更偏向语义关系
深层：更偏向整句含义、角色关系和下文预测

所以到最后，“女儿”这个 token 可能已经不再只是字典里的一个词，而是一个带有完整上下文信息的动态表示。

最终上下文表示

8.6 第四步：基于上下文预测下一个 token

最后，模型会基于当前上下文，给下一个 token 分配概率。

比如在：

国王有个女儿，她美丽又

这个上下文里，下一个词的候选概率可能类似：

善良：30%
温柔：20%
聪明：15%
邪恶：5%
...

然后模型从这些候选里选出一个 token，接到句子后面，再继续预测下一个。

于是文本就是这样一步步生成出来的：

国王有个女儿，她
国王有个女儿，她美丽
国王有个女儿，她美丽又
国王有个女儿，她美丽又善良……

Next Token Prediction

9. 一句话总结

如果只记住一句话，可以记这句：

大模型并不是像人一样先“想完再说”，而是把文本拆成 token，转成向量，利用注意力机制理解上下文，再一个 token 一个 token 地往后预测。

这也是为什么大模型既像“会思考”，又本质上仍然是一个建立在概率、向量和大规模训练之上的系统。