无归一化Transformer:用Dynamic Tanh (DyT)取代层归一化(Layer Normalization, LN)
论文Transformers without Normalization的研究证明了Transformer可以 […]
无归一化Transformer:用Dynamic Tanh (DyT)取代层归一化(Layer Normalization, LN) Read More »
论文Transformers without Normalization的研究证明了Transformer可以 […]
无归一化Transformer:用Dynamic Tanh (DyT)取代层归一化(Layer Normalization, LN) Read More »
在神经网络中,归一化(Normalization) 是一种用于调整和标准化神经元激活值的方法,主要目的是 加速
浅谈神经网络的归一化(Normalization) Read More »
论文Genome modeling and design across all domains of life
Evo 2:涵盖所有生命领域基因组数据集的生物学基础模型 Read More »
论文Native Sparse Attention: Hardware-Aligned and Nativel
NSA(Native Sparse Attention)机制:原生可训练的稀疏注意力架构,通过硬件对齐优化和算法创新实现高效长序列建模 Read More »
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解
UltraMem:利用大规模的超稀疏内存层(Ultra-Sparse Memory Layer)显著提升Transformer模型性能 Read More »
论文Token Statistics Transformer: Linear-Time Attention v