跳到主要内容

Transformer 架构

架构总览

分层设计

  • 嵌入层:Embedding
    • 输入嵌入层 Input Embedding
    • 输出嵌入层 Output Embedding
  • 位置编码层:Positional Encoding
  • 堆叠层
    • 注意力层:
      • Multi-Head 注意力机制
      • Mask 注意力机制
    • 前馈神经网络
  • 其他
    • 參差网络 Residual Add
    • 层归一化 Layer Normalization
    • 预测词输出 Linear & SoftMax

架构矩阵