通俗易懂大模型核心原理
目录+
title: "通俗易懂大模型核心原理"
date: "2026-05-13" tags: ["AI", "大模型", "Transformer", "GPT", "深度学习"] summary: "用通俗语言讲清楚大模型为什么能理解上下文,以及 Token、词嵌入、注意力机制和 Transformer 之间的关系。" draft: false ticker:
大模型看起来像在“思考”,但最底层做的事情可以浓缩成一句话:把输入拆成 token,把 token 变成向量,计算它们之间的关系,再预测下一个最可能出现的 token。
这篇笔记尽量不用复杂公式,只讲最关键的几件事:
- GPT、ChatGPT、Transformer 分别是什么
- 为什么大模型几乎都建立在 Transformer 上
- 大模型如何“理解上下文”
- Token、词嵌入、注意力机制各自负责什么
1. 先厘清:GPT、ChatGPT、Transformer 是什么关系
可以把三者理解成三层关系:
- Transformer:底层架构
- GPT:基于 Transformer 训练出来的一类生成式语言模型
- ChatGPT:把 GPT 模型做成可对话、可交互的产品形态
OpenAI 在 2022 年 11 月 30 日发布 ChatGPT。它之所以能像聊天助手一样和人对话,底层依赖的是 GPT 系列模型,而 GPT 的核心基础架构就是 Transformer。
GPT 发展时间线
- 2017 年:Transformer 论文提出,奠定今天大模型的基础
- 2018 年:BERT、GPT 等代表性预训练语言模型兴起
- GPT-1(2018 年 6 月):把 Transformer 与无监督预训练结合起来
- GPT-2(2019 年 2 月):参数规模提升到 15 亿,文本生成能力显著增强
- GPT-3(2020 年 6 月):1750 亿参数,通用生成能力大幅提升
- GPT-3.5 / ChatGPT(2022 年 11 月):让普通用户第一次大规模感受到大模型的对话能力
- GPT-4(2023 年 3 月):推理、复杂任务处理、多模态能力进一步提升
- GPT-4o(2024 年 5 月):支持文本、图像、语音等更自然的实时交互
- 之后的迭代:重点持续转向更强推理、更低延迟、更自然交互和更高可靠性
注:公开模型的参数规模并不总是被官方完整披露,很多流传数字更适合作为量级参考,而不是绝对结论。

什么叫“生成式”
“生成式(Generative)”的核心意思是:模型不是只做分类判断,而是一个 token 接一个 token 地往后生成内容。
比如你输入一句话开头:
今天的天气真……
模型会根据上下文预测下一个最可能出现的 token,例如:
好热不错差
它不是先把整段答案一次性想完,而是不断重复下面这个过程:
- 读取当前上下文
- 预测下一个最可能的 token
- 把这个 token 接到后面
- 继续预测下一个 token
所以,大模型本质上是一个基于概率的连续生成系统。
2. 为什么大模型最终走向 Transformer
在 Transformer 出现之前,研究者一直在尝试让机器更好地处理图像、文本、语音这类复杂数据。
2.1 神经网络:基础起点
神经网络(ANN) 是受人脑启发设计的一类计算模型,由大量相互连接的节点组成,能够从数据中学习规律。
深度学习 本质上就是用多层神经网络学习更复杂的表示。
2.2 CNN:擅长图像
卷积神经网络(CNN) 特别擅长处理图像,比如识别猫狗、人脸、道路标志等,因为它很适合提取局部特征。
2.3 RNN:开始处理序列
循环神经网络(RNN) 主要用于处理序列数据,比如一句话、一段语音、一串时间序列。
它的特点是:
- 当前计算会参考前面的内容
- 理论上可以“记住”过去的信息
- 适合处理顺序很重要的数据
但它有两个明显问题:
- 序列太长时,容易遗忘早期信息
- 难以高效并行计算,训练速度慢
2.4 LSTM:RNN 的增强版
长短时记忆网络(LSTM) 可以看作 RNN 的升级版。它通过门控机制提升了长期信息保留能力。
相比 RNN,LSTM:
- 更能处理长距离依赖
- 更适合语言、时间序列等任务
- 但计算仍然偏重,并行能力依旧有限
2.5 Transformer:关键突破
Transformer 基本解决了前面这些架构在长文本建模和训练效率上的核心瓶颈。
它不再主要依赖“按顺序一步一步传递记忆”,而是引入更强大的注意力机制(Attention),让每个 token 都能直接关注句子里其他重要 token。
这也是为什么今天绝大多数先进大模型——包括 GPT、Claude、Gemini、DeepSeek 等——都建立在 Transformer 或其变体之上。
2.6 Transformer 架构延伸阅读
Transform架构讲解Transformer 架构讲解Transformer 架构讲解 Transformer 是现代大模型最重要的底层架构之一。无论是 ChatGPT、Claude、Gemini,还是大量文本、代码、语音、图像模型,本质上都深受 Transformer 思想影响。 它最早来自 Google 在 2017 年发表的论文 Attention Is All You Need。这篇论文最初面向机器翻译任务,但真正改变行业的,不是“翻译效果更好”这件事,而是它提出了一种全新的序列建模方式: 不再依赖 RNN 那种一步一步顺序传递的信息流,而是让序列中的每个 token 直接和其他 token 建立关系。 这就是 Transformer 的核心。 image.png image.png 一、为什么 Transformer 会出现 在 Transformer 之前,NLP 领域主流是 RNN、LSTM、GRU 这类循环神经网络。它们的问题很明显: - 必须按顺序处理,难以并行训练 - 序列一长,信息容易衰减 - 长距离依赖建模效果有限 - 工程扩展性一般,不适合超大规模训练 举个例子: “我昨天在上海见到的那位做
3. 大模型的最小工作流程
如果把大模型的工作过程做一个极简概括,可以分成 4 步:
- 分词(Tokenization):把输入拆成 token
- 向量化(Embedding):把 token 变成机器可计算的向量
- 关系建模(Attention):计算 token 之间谁更重要、谁和谁更相关
- 预测生成(Next Token Prediction):输出下一个最可能的 token

4. Token:模型真正处理的最小单位
大模型并不是直接“看懂整句话”,而是先把文本拆成更小的处理单元,这个单元就叫 Token。
例如:
- 中文:
长沙的雨→[长沙] [的] [雨] - 英文:
Rain in Changsha→[Rain] [in] [Changsha] - 句子:
长沙明天暴雨,记得带伞→[长沙] [明天] [暴雨] [记得] [带伞]
注意:不同模型的分词规则并不完全一样。一个中文词、一个英文单词、一个数字,甚至半个单词,都可能成为 token。
Token 是大模型最基础的“阅读单位”,模型后续所有理解、计算、生成,都是围绕 token 展开的。
5. 为什么模型不能直接理解文字
对人来说,“长沙”“暴雨”“明天”天然有意义;但对机器来说,文字本身只是符号。
模型真正擅长处理的是:
- 数字
- 向量
- 矩阵
- 概率
所以,大模型必须先把 token 转成数字表示,才能进行后续计算。
问题还不止于此。词和词之间还存在复杂关系:
- 有些词出现频率很高,比如“的”“是”“the”“and”
- 有些词经常一起出现,形成稳定语义
- 有些词意思接近,有些词意思相反
- 同一个词在不同语境下,含义可能完全不同
比如:
鲜花里的花表示植物花钱里的花表示消费
所以,大模型不仅要把文字变成数字,还要尽量把语义关系也编码进去。
6. 词嵌入:把 token 变成“有语义的向量”
这里有两个容易混淆的概念:
- 词嵌入(Word Embedding):把 token 映射成高维向量的过程或方法
- 词向量(Word Vector):某个 token 最终对应的具体数值表示
6.1 什么是词嵌入
词嵌入的目标不是随便分配一串数字,而是尽量让:
- 语义相近的词,在向量空间里彼此更接近
- 语义差异大的词,在向量空间里距离更远
也就是说,模型把“词的含义”压缩进了一串数字中。

6.2 什么是词向量
词向量就是某个词在向量空间中的具体表示。比如:
长沙可能被表示成[0.8, -0.3, 0.5, ...]暴雨可能被表示成[0.2, 0.9, -0.1, ...]
真实模型里的维度通常很高,可能是几百维、几千维,甚至更高。为了方便理解,可以先把它想象成二维坐标。

例如:
长沙简化为[4, 2]
那它就可以被理解为坐标系中的一个点。

再比如:
黑=[-0.4, -0.2]白=[0.4, 0.2]
它们方向接近相反,就能直观体现语义上的对立关系。
所以可以先建立这样一个直觉:模型不是直接“认识”文字,而是通过向量空间中的位置关系来“理解”文字。
7. 注意力机制:模型如何理解上下文
接下来最关键的一步是:模型不仅要知道每个 token 是什么,还要知道在当前上下文里,谁更重要,谁和谁更相关。
7.1 先看一个简单例子
如果只看“苹果”两个字,后面接什么都可能:
苹果 -> 熟了苹果 -> 手机
但一旦放进上下文:
树上的苹果熟了我去手机店,新买了一个苹果手机
你就会发现,“苹果”的含义完全不同。
对大模型来说也是一样。它必须结合上下文,判断当前 token 到底是什么意思,接下来最可能出现什么。
7.2 什么是注意力机制
注意力机制(Attention) 可以理解为:
模型在处理当前 token 时,会动态判断“句子里哪些 token 更值得重点关注”。
比如这句话:
天气预报说长沙明天有暴雨
当模型处理“暴雨”时,它可能会更关注:
长沙:地点信息明天:时间信息天气预报:背景信息
也就是说,模型会给不同 token 分配不同权重。比如:
暴雨 -> 长沙(0.8):强相关暴雨 -> 明天(0.7):强相关暴雨 -> 预报(0.3):弱相关暴雨 -> 其他词(0.1):较弱相关
这些分数不是人手工写进去的,而是模型在训练过程中自己学出来的。

8. 案例:一句“国王有个女儿”,模型内部发生了什么
为了把前面的概念串起来,可以看一个更完整的例子:
国王有个女儿,
为什么模型看到这句话后,往往能继续写出一个还不错的下文?本质上还是前面那 4 步,只不过内部计算会复杂得多。
8.1 第一步:分词,得到 Token
模型首先会按自己的分词规则,把输入切成 token。

注意:不同模型的分词算法并不完全相同,但推理阶段使用的分词方式一定和训练时保持一致。
8.2 第二步:词嵌入,把 Token 变成词向量
可以把模型想象成有一个很大的“词表仓库”:
- 词表里有很多 token
- 每个 token 都有一组高维特征
- 输入一句话后,模型会先把这些 token 对应的初始向量取出来

以“女儿”为例,可以把它粗略想象成带有一组语义特征:
- 女性
- 晚辈
- 亲属
- 年轻
- 被保护对象
- 与“公主”存在一定关联
当然,这只是帮助理解的类比。真实模型里不是“标签列表”,而是高维向量。
8.3 第三步:加入位置,并在上下文中不断更新表示
词向量不是固定不变的。模型会经历一个逐层更新的过程:
- 初始嵌入:先取出 token 的基础向量
- 加入位置信息:让模型知道谁在前、谁在后
- 自注意力更新:结合其他 token 动态调整当前表示
- 前馈网络再加工:把信息进一步提炼
- 多层重复:一层层叠加,逐渐形成更强的上下文理解

可以把这个过程理解为:
- 初始时,“女儿”只是一个静态词典概念
- 看到“国王”后,它会更强地带上“皇室成员”的语义
- 看到逗号后,模型会意识到后面大概率还有补充描述
也就是说,同样是“女儿”,在不同上下文里,它最终得到的表示并不一样。
8.4 自注意力:让 token 彼此“交流”
在自注意力阶段,每个 token 都会参考其他 token 来更新自己。
以“女儿”为例,它可能会从上下文里学到:
国王:说明父亲身份特殊有:说明它在句子中和谓语有明确关系个:说明它是被计量的对象,:说明句子大概率还没结束,后面会继续描述
于是,“女儿”的表示就不再只是一般意义上的“女儿”,而更接近:
- 是国王的女儿
- 可能与皇室、公主等概念相关
- 很可能会成为后文描述重点

8.5 多层 Transformer:从语法到语义,再到下文预期
Transformer 不是只做一轮更新,而是会堆很多层。可以粗略理解为:
- 浅层:更偏向语法和局部关系
- 中层:更偏向语义关系
- 深层:更偏向整句含义、角色关系和下文预测
所以到最后,“女儿”这个 token 可能已经不再只是字典里的一个词,而是一个带有完整上下文信息的动态表示。

8.6 第四步:基于上下文预测下一个 token
最后,模型会基于当前上下文,给下一个 token 分配概率。
比如在:
国王有个女儿,她美丽又
这个上下文里,下一个词的候选概率可能类似:
善良:30%温柔:20%聪明:15%邪恶:5%...
然后模型从这些候选里选出一个 token,接到句子后面,再继续预测下一个。
于是文本就是这样一步步生成出来的:
国王有个女儿,她国王有个女儿,她美丽国王有个女儿,她美丽又国王有个女儿,她美丽又善良……

9. 一句话总结
如果只记住一句话,可以记这句:
大模型并不是像人一样先“想完再说”,而是把文本拆成 token,转成向量,利用注意力机制理解上下文,再一个 token 一个 token 地往后预测。
这也是为什么大模型既像“会思考”,又本质上仍然是一个建立在概率、向量和大规模训练之上的系统。