TransformerTransformer 架构本页总览Transformer 架构 架构总览 分层设计 嵌入层:Embedding 输入嵌入层 Input Embedding 输出嵌入层 Output Embedding 位置编码层:Positional Encoding 堆叠层 注意力层: Multi-Head 注意力机制 Mask 注意力机制 前馈神经网络 其他 參差网络 Residual Add 层归一化 Layer Normalization 预测词输出 Linear & SoftMax 架构矩阵