Transformer是什么架构？注意力机制有哪些？

2024-11-11

Transformer是一种基于自注意力（Self-Attention）机制的深度学习模型，最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出。它完全基于注意力机制构建，摒弃了传统的循环和卷积结构，用于解决自然语言处理领域的任务，如机器翻译、文本生成等。

Transformer

一、Transformer的本质

什么是Transformer？Transformer模型是一种强大的深度学习架构，它利用自注意力机制和多头注意力来捕捉序列内部的依赖关系，并通过位置编码来引入位置信息。

Transformer的本质是什么？Transformer的本质是一个基于自注意力机制的编码器-解码器架构，它能够有效地处理序列到序列的任务，并捕捉输入序列中的长距离依赖关系。Transformer左边是N个编码器，右边是N个解码器，其中N为6。

二、Transformer的架构

Transformer的架构是什么？Transformer遵循编码器-解码器总体架构，使用堆叠的自注意力机制和全连接层，分别用于编码器和解码器，如图中的左半部分和右半部分所示。

自注意力（Self- Attention）机制是什么？自注意力机制用于计算输入序列中各个元素之间的相关性，并据此更新每个元素的表示。与传统的注意力机制不同，自注意力机制不需要外部信息或额外的查询（Query）来引导注意力的分配，而是仅依赖于输入序列本身。

在自注意力机制中，输入序列首先被转换为三个不同的表示：查询（Query）、键（Key）和值（Value）。这些表示通常是通过将输入序列与相应的权重矩阵相乘得到的。然后，计算查询与每个键之间的点积，得到注意力分数，这些分数反映了查询与每个键之间的相关性。

Transformer注意力机制有哪些？Transformer模型中注意力机制有三个主要用途。Encoder中的Self-Attention用于捕捉输入序列内部各元素之间的关系，Decoder中的Self-Attention用于生成目标序列时考虑已生成的部分，而Decoder中的Encoder-Decoder-Attention则用于将输入序列的信息融入到目标序列的生成过程中。

Transformer的核心组件有哪些？Transformer模型包含输入嵌入、位置编码、多头注意力、残差连接和层归一化、带掩码的多头注意力以及前馈网络等组件。

输入嵌入：将输入的文本转换为向量，便于模型处理。
位置编码：给输入向量添加位置信息，因为Transformer并行处理数据而不依赖顺序。
多头注意力：让模型同时关注输入序列的不同部分，捕获复杂的依赖关系。
残差连接与层归一化：通过添加跨层连接和标准化输出，帮助模型更好地训练，防止梯度问题。
带掩码的多头注意力：在生成文本时，确保模型只依赖已知的信息，而不是未来的内容。
对输入进行非线性变换，提取更高级别的特征。

来源：AllenTang 架构师带你玩转AI

THE END

RAG（检索增强生成）LLM的最佳开发实践

<<上一篇

上手Python枚举(enum)：提升代码质量的捷径

下一篇>>