Transformer

可以先理解为:自注意力并行处理序列

在 Transformer 之前,机器读句子更像排队读:一个字一个字往后传。Transformer 像把整句话摊在桌上,让每个字同时去看其他字,再判断谁和谁最相关。

关键结构图

当前相关远处弱强

一排 token 作为节点,每个节点都能连向其他节点;几条粗线标出当前 token 最相关的位置,旁边对比一条 RNN 式的单向传递链。

What

Transformer 是一种用注意力机制处理序列的神经网络架构。它让模型同时比较序列中不同位置的信息,而不是只按顺序一步步传递记忆。

Transformer 是一种处理序列数据的深度学习模型架构。它最初用于机器翻译,后来成为 BERT、GPT 等现代语言模型的重要基础。

它解决的核心问题是:模型怎样在一句话、一个段落,甚至更长上下文里,判断哪些位置的信息彼此相关。它的边界是,Transformer 是架构,不是某个具体产品;具体能力仍取决于训练数据、模型规模、目标函数和系统设计。

StructureTransformer = 序列输入 + 全局关系比较 + 并行训练

When

当你看到 GPT、BERT、长上下文、注意力瓶颈、模型可解释性、并行训练这些话题时,Transformer 都是底层锚点。它特别适合用来解释三类问题:为什么现代语言模型能处理上下文关系;为什么大模型训练能吃掉大量并行算力;为什么 Attention、Token、Embedding、Context Window 会成为理解 LLM 的基础词。

How

Transformer 的核心变化是把"顺序传递记忆"改成"全局比较关系"。 Self-Attention 让同一序列内部的 token 彼此比较:谁和我有关,关系有多强,我应该从谁那里拿信息。 Multi-Head Attention 让模型从多个角度同时看关系。Positional Encoding 给模型补上位置信息,因为注意力本身不天然知道词序。Feed-Forward、残差连接和层归一化继续加工注意力结果,让表示更稳定。

Examples

在句子"小明把书递给小红,因为她需要复习"里,模型需要判断"她"更可能指谁。Transformer 会让不同位置直接比较关系,而不是只靠前一个位置把信息慢慢传过来。

在 GPT 里,模型生成下一个词时,会参考前文中相关的位置,而不是只机械地看最后一个词。这就是为什么上下文窗口、注意力计算和推理成本会一起变成工程问题。

来源

类型:技术论文 / 模型架构

事实线:Vaswani 等人在 2017 年论文 Attention Is All You Need 中提出 Transformer 架构。

依据:arXiv 论文 1706.03762 与 NeurIPS 2017 论文页面。

边界:Transformer 是一种序列建模架构,不是某一个具体产品;GPT、BERT 是基于 Transformer 的模型路线或模型家族。

常见误读:不要把 Transformer 直接等同于 GPT;GPT 使用的是 Transformer 的 decoder 路线之一。也不要以为 Transformer 完全不需要顺序,它不靠循环结构处理顺序,但仍需要位置编码或其他位置表示。