Deep Read

通俗易懂大模型核心原理


title: "通俗易懂大模型核心原理"

date: "2026-05-13" tags: ["AI", "大模型", "Transformer", "GPT", "深度学习"] summary: "用通俗语言讲清楚大模型为什么能理解上下文,以及 Token、词嵌入、注意力机制和 Transformer 之间的关系。" draft: false ticker:

大模型看起来像在“思考”,但最底层做的事情可以浓缩成一句话:把输入拆成 token,把 token 变成向量,计算它们之间的关系,再预测下一个最可能出现的 token。

这篇笔记尽量不用复杂公式,只讲最关键的几件事:

  • GPT、ChatGPT、Transformer 分别是什么
  • 为什么大模型几乎都建立在 Transformer 上
  • 大模型如何“理解上下文”
  • Token、词嵌入、注意力机制各自负责什么

 

1. 先厘清:GPT、ChatGPT、Transformer 是什么关系

可以把三者理解成三层关系:

  • Transformer:底层架构
  • GPT:基于 Transformer 训练出来的一类生成式语言模型
  • ChatGPT:把 GPT 模型做成可对话、可交互的产品形态

OpenAI 在 2022 年 11 月 30 日发布 ChatGPT。它之所以能像聊天助手一样和人对话,底层依赖的是 GPT 系列模型,而 GPT 的核心基础架构就是 Transformer。

GPT 发展时间线

  • 2017 年:Transformer 论文提出,奠定今天大模型的基础
  • 2018 年:BERT、GPT 等代表性预训练语言模型兴起
  • GPT-1(2018 年 6 月):把 Transformer 与无监督预训练结合起来
  • GPT-2(2019 年 2 月):参数规模提升到 15 亿,文本生成能力显著增强
  • GPT-3(2020 年 6 月):1750 亿参数,通用生成能力大幅提升
  • GPT-3.5 / ChatGPT(2022 年 11 月):让普通用户第一次大规模感受到大模型的对话能力
  • GPT-4(2023 年 3 月):推理、复杂任务处理、多模态能力进一步提升
  • GPT-4o(2024 年 5 月):支持文本、图像、语音等更自然的实时交互
  • 之后的迭代:重点持续转向更强推理、更低延迟、更自然交互和更高可靠性

注:公开模型的参数规模并不总是被官方完整披露,很多流传数字更适合作为量级参考,而不是绝对结论。

GPT 时间线

什么叫“生成式”

“生成式(Generative)”的核心意思是:模型不是只做分类判断,而是一个 token 接一个 token 地往后生成内容。

比如你输入一句话开头:

  • 今天的天气真……

模型会根据上下文预测下一个最可能出现的 token,例如:

  • 不错

它不是先把整段答案一次性想完,而是不断重复下面这个过程:

  1. 读取当前上下文
  2. 预测下一个最可能的 token
  3. 把这个 token 接到后面
  4. 继续预测下一个 token

所以,大模型本质上是一个基于概率的连续生成系统

2. 为什么大模型最终走向 Transformer

在 Transformer 出现之前,研究者一直在尝试让机器更好地处理图像、文本、语音这类复杂数据。

2.1 神经网络:基础起点

神经网络(ANN) 是受人脑启发设计的一类计算模型,由大量相互连接的节点组成,能够从数据中学习规律。

深度学习 本质上就是用多层神经网络学习更复杂的表示。

TensorFlow 神经网络可视化

2.2 CNN:擅长图像

卷积神经网络(CNN) 特别擅长处理图像,比如识别猫狗、人脸、道路标志等,因为它很适合提取局部特征。

2.3 RNN:开始处理序列

循环神经网络(RNN) 主要用于处理序列数据,比如一句话、一段语音、一串时间序列。

它的特点是:

  • 当前计算会参考前面的内容
  • 理论上可以“记住”过去的信息
  • 适合处理顺序很重要的数据

但它有两个明显问题:

  • 序列太长时,容易遗忘早期信息
  • 难以高效并行计算,训练速度慢

2.4 LSTM:RNN 的增强版

长短时记忆网络(LSTM) 可以看作 RNN 的升级版。它通过门控机制提升了长期信息保留能力。

相比 RNN,LSTM:

  • 更能处理长距离依赖
  • 更适合语言、时间序列等任务
  • 但计算仍然偏重,并行能力依旧有限

2.5 Transformer:关键突破

Transformer 基本解决了前面这些架构在长文本建模训练效率上的核心瓶颈。

它不再主要依赖“按顺序一步一步传递记忆”,而是引入更强大的注意力机制(Attention),让每个 token 都能直接关注句子里其他重要 token。

这也是为什么今天绝大多数先进大模型——包括 GPT、Claude、Gemini、DeepSeek 等——都建立在 Transformer 或其变体之上。

2.6 Transformer 架构延伸阅读

Transform架构讲解Transformer 架构讲解Transformer 架构讲解 Transformer 是现代大模型最重要的底层架构之一。无论是 ChatGPT、Claude、Gemini,还是大量文本、代码、语音、图像模型,本质上都深受 Transformer 思想影响。 它最早来自 Google 在 2017 年发表的论文 Attention Is All You Need。这篇论文最初面向机器翻译任务,但真正改变行业的,不是“翻译效果更好”这件事,而是它提出了一种全新的序列建模方式: 不再依赖 RNN 那种一步一步顺序传递的信息流,而是让序列中的每个 token 直接和其他 token 建立关系。 这就是 Transformer 的核心。 image.png image.png 一、为什么 Transformer 会出现 在 Transformer 之前,NLP 领域主流是 RNN、LSTM、GRU 这类循环神经网络。它们的问题很明显: - 必须按顺序处理,难以并行训练 - 序列一长,信息容易衰减 - 长距离依赖建模效果有限 - 工程扩展性一般,不适合超大规模训练 举个例子: “我昨天在上海见到的那位做


3. 大模型的最小工作流程

如果把大模型的工作过程做一个极简概括,可以分成 4 步:

  1. 分词(Tokenization):把输入拆成 token
  2. 向量化(Embedding):把 token 变成机器可计算的向量
  3. 关系建模(Attention):计算 token 之间谁更重要、谁和谁更相关
  4. 预测生成(Next Token Prediction):输出下一个最可能的 token

大模型工作流程

4. Token:模型真正处理的最小单位

大模型并不是直接“看懂整句话”,而是先把文本拆成更小的处理单元,这个单元就叫 Token

例如:

  • 中文:长沙的雨[长沙] [的] [雨]
  • 英文:Rain in Changsha[Rain] [in] [Changsha]
  • 句子:长沙明天暴雨,记得带伞[长沙] [明天] [暴雨] [记得] [带伞]

注意:不同模型的分词规则并不完全一样。一个中文词、一个英文单词、一个数字,甚至半个单词,都可能成为 token。

Token 是大模型最基础的“阅读单位”,模型后续所有理解、计算、生成,都是围绕 token 展开的。

5. 为什么模型不能直接理解文字

对人来说,“长沙”“暴雨”“明天”天然有意义;但对机器来说,文字本身只是符号。

模型真正擅长处理的是:

  • 数字
  • 向量
  • 矩阵
  • 概率

所以,大模型必须先把 token 转成数字表示,才能进行后续计算。

问题还不止于此。词和词之间还存在复杂关系:

  • 有些词出现频率很高,比如“的”“是”“the”“and”
  • 有些词经常一起出现,形成稳定语义
  • 有些词意思接近,有些词意思相反
  • 同一个词在不同语境下,含义可能完全不同

比如:

  • 鲜花 里的 表示植物
  • 花钱 里的 表示消费

所以,大模型不仅要把文字变成数字,还要尽量把语义关系也编码进去。

6. 词嵌入:把 token 变成“有语义的向量”

这里有两个容易混淆的概念:

  • 词嵌入(Word Embedding):把 token 映射成高维向量的过程或方法
  • 词向量(Word Vector):某个 token 最终对应的具体数值表示

6.1 什么是词嵌入

词嵌入的目标不是随便分配一串数字,而是尽量让:

  • 语义相近的词,在向量空间里彼此更接近
  • 语义差异大的词,在向量空间里距离更远

也就是说,模型把“词的含义”压缩进了一串数字中。

词嵌入示意

6.2 什么是词向量

词向量就是某个词在向量空间中的具体表示。比如:

  • 长沙 可能被表示成 [0.8, -0.3, 0.5, ...]
  • 暴雨 可能被表示成 [0.2, 0.9, -0.1, ...]

真实模型里的维度通常很高,可能是几百维、几千维,甚至更高。为了方便理解,可以先把它想象成二维坐标。

词向量示意

例如:

  • 长沙 简化为 [4, 2]

那它就可以被理解为坐标系中的一个点。

二维坐标示意

再比如:

  • = [-0.4, -0.2]
  • = [0.4, 0.2]

它们方向接近相反,就能直观体现语义上的对立关系。

所以可以先建立这样一个直觉:模型不是直接“认识”文字,而是通过向量空间中的位置关系来“理解”文字。

7. 注意力机制:模型如何理解上下文

接下来最关键的一步是:模型不仅要知道每个 token 是什么,还要知道在当前上下文里,谁更重要,谁和谁更相关。

7.1 先看一个简单例子

如果只看“苹果”两个字,后面接什么都可能:

  • 苹果 -> 熟了
  • 苹果 -> 手机

但一旦放进上下文:

  • 树上的苹果熟了
  • 我去手机店,新买了一个苹果手机

你就会发现,“苹果”的含义完全不同。

对大模型来说也是一样。它必须结合上下文,判断当前 token 到底是什么意思,接下来最可能出现什么。

7.2 什么是注意力机制

注意力机制(Attention) 可以理解为:

模型在处理当前 token 时,会动态判断“句子里哪些 token 更值得重点关注”。

比如这句话:

天气预报说长沙明天有暴雨

当模型处理“暴雨”时,它可能会更关注:

  • 长沙:地点信息
  • 明天:时间信息
  • 天气预报:背景信息

也就是说,模型会给不同 token 分配不同权重。比如:

  • 暴雨 -> 长沙(0.8):强相关
  • 暴雨 -> 明天(0.7):强相关
  • 暴雨 -> 预报(0.3):弱相关
  • 暴雨 -> 其他词(0.1):较弱相关

这些分数不是人手工写进去的,而是模型在训练过程中自己学出来的。

注意力机制示意

8. 案例:一句“国王有个女儿”,模型内部发生了什么

为了把前面的概念串起来,可以看一个更完整的例子:

国王有个女儿,

为什么模型看到这句话后,往往能继续写出一个还不错的下文?本质上还是前面那 4 步,只不过内部计算会复杂得多。

8.1 第一步:分词,得到 Token

模型首先会按自己的分词规则,把输入切成 token。

分词示意

注意:不同模型的分词算法并不完全相同,但推理阶段使用的分词方式一定和训练时保持一致。

8.2 第二步:词嵌入,把 Token 变成词向量

可以把模型想象成有一个很大的“词表仓库”:

  • 词表里有很多 token
  • 每个 token 都有一组高维特征
  • 输入一句话后,模型会先把这些 token 对应的初始向量取出来

词表与嵌入示意

以“女儿”为例,可以把它粗略想象成带有一组语义特征:

  • 女性
  • 晚辈
  • 亲属
  • 年轻
  • 被保护对象
  • 与“公主”存在一定关联

当然,这只是帮助理解的类比。真实模型里不是“标签列表”,而是高维向量。

8.3 第三步:加入位置,并在上下文中不断更新表示

词向量不是固定不变的。模型会经历一个逐层更新的过程:

  1. 初始嵌入:先取出 token 的基础向量
  2. 加入位置信息:让模型知道谁在前、谁在后
  3. 自注意力更新:结合其他 token 动态调整当前表示
  4. 前馈网络再加工:把信息进一步提炼
  5. 多层重复:一层层叠加,逐渐形成更强的上下文理解

表示逐层演化

可以把这个过程理解为:

  • 初始时,“女儿”只是一个静态词典概念
  • 看到“国王”后,它会更强地带上“皇室成员”的语义
  • 看到逗号后,模型会意识到后面大概率还有补充描述

也就是说,同样是“女儿”,在不同上下文里,它最终得到的表示并不一样。

8.4 自注意力:让 token 彼此“交流”

在自注意力阶段,每个 token 都会参考其他 token 来更新自己。

以“女儿”为例,它可能会从上下文里学到:

  1. 国王:说明父亲身份特殊
  2. :说明它在句子中和谓语有明确关系
  3. :说明它是被计量的对象
  4. :说明句子大概率还没结束,后面会继续描述

于是,“女儿”的表示就不再只是一般意义上的“女儿”,而更接近:

  • 是国王的女儿
  • 可能与皇室、公主等概念相关
  • 很可能会成为后文描述重点

自注意力示意

8.5 多层 Transformer:从语法到语义,再到下文预期

Transformer 不是只做一轮更新,而是会堆很多层。可以粗略理解为:

  • 浅层:更偏向语法和局部关系
  • 中层:更偏向语义关系
  • 深层:更偏向整句含义、角色关系和下文预测

所以到最后,“女儿”这个 token 可能已经不再只是字典里的一个词,而是一个带有完整上下文信息的动态表示。

最终上下文表示

8.6 第四步:基于上下文预测下一个 token

最后,模型会基于当前上下文,给下一个 token 分配概率。

比如在:

国王有个女儿,她美丽又

这个上下文里,下一个词的候选概率可能类似:

  • 善良:30%
  • 温柔:20%
  • 聪明:15%
  • 邪恶:5%
  • ...

然后模型从这些候选里选出一个 token,接到句子后面,再继续预测下一个。

于是文本就是这样一步步生成出来的:

  • 国王有个女儿,她
  • 国王有个女儿,她美丽
  • 国王有个女儿,她美丽又
  • 国王有个女儿,她美丽又善良……

Next Token Prediction

9. 一句话总结

如果只记住一句话,可以记这句:

大模型并不是像人一样先“想完再说”,而是把文本拆成 token,转成向量,利用注意力机制理解上下文,再一个 token 一个 token 地往后预测。

这也是为什么大模型既像“会思考”,又本质上仍然是一个建立在概率、向量和大规模训练之上的系统。