颠覆常规：创新性的无归一化层 Transformer 架构探索新境界-星火智游网

在深度学习领域，归一化层被视为现代神经网络中不可或缺的组件之一。最近，一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。这项研究不仅提出了一种名为动态 tanh（Dynamic Tanh，DyT）的新技术，还展示了在不使用传统归一化层的情况下，Transformer 架构依然可以实现高效的训练和推理。

归一化层，尤其是层归一化（Layer Normalization，LN），在过去的十年中对优化深度学习模型起到了至关重要的作用。LN 层通过将输入激活进行缩放和压缩，从而加速模型的收敛速度。然而，研究者们发现，LN 层的广泛使用并不是唯一的选择。他们的研究始于观察 LN 层的行为，提出了一种新的替代方法 DyT。这种元素级运算不仅能够模拟 LN 层的缩放和压缩效果，而且省去了复杂的激活数据计算。

云计算互联网元宇宙 (3)

图源备注：图片由AI生成，图片授权服务商Midjourney

在实验中，研究团队用 DyT 替换了多个 Transformer 架构中的传统归一化层，结果显示，使用 DyT 的模型能够稳定训练并获得更高的最终性能。更令人振奋的是，这种新方法通常不需要对原始架构进行超参数调整，降低了模型训练的复杂度。

研究者们通过对三个不同 Transformer 模型的前向传播过程进行分析，发现早期的 LN 层表现出线性关系，但在更深层次的 LN 层中，输入和输出之间的关系却呈现出与 tanh 函数相似的 S 型曲线。这种发现让研究团队感到惊讶，也为 DyT 的有效性提供了有力的实证支持。

刘壮表示，这项工作帮助他深入理解了归一化层的作用，并期待 DyT 能够为降低模型训练和推理的成本带来新的可能性。未来，DyT 有望成为效率导向的网络设计中重要的候选方案，推动深度学习的进一步发展。

文章详情

最新星火攻略

最新星火智能

最新星火游戏