手把手教你了解Transformer

用户4567

2024年5月29日修改

✍️

作者：Tim在路上@知乎

收起

1. 输入和位置编码（Inputs and Positional Encoding）

步骤 1 （定义数据）

步骤 2（计算词汇量）

步骤 3（编码和嵌入）

步骤 4（位置嵌入）

2. 编码器（Encoder）

步骤 1 （执行single-head attention）

本文引用和翻译自 Fareed Khan 的文章。

作为计算机的方面的从事人员，每个人应该或多或少的了解下Transformer。​

我知道Transformer 架构可能看起来很可怕，您也可能已经在视频网站或博客上看到过各种各样的解释。然而，在我这里，我将尽可能的通过最简单的示例，一点点的来阐明Transformer的原理。通过这样做，希望能够简化我们对 Transformer 架构的理解。​

让我们开始吧！

1. 输入和位置编码（Inputs and Positional Encoding）

我们首先来解决最开始的部分，即确定Inputs和positional encoding。​

步骤 1 （定义数据）

第一步是定义我们的数据集（即语料库）。

这里我们取自**《权力的游戏》中的三段对话来作为我们的数据集。​

尽管这个数据集看起来很小，但较小的数据集有助于我们更好的一步步通过数学方程推导出我们的结果。​

步骤 2（计算词汇量）

手把手教你了解Transformer​