无归一化Transformer:用Dynamic Tanh (DyT)取代层归一化(Layer Normalization, LN)
论文Transformers without Normalization的研究证明了Transformer可以 […]
无归一化Transformer:用Dynamic Tanh (DyT)取代层归一化(Layer Normalization, LN) Read More »
论文Transformers without Normalization的研究证明了Transformer可以 […]
无归一化Transformer:用Dynamic Tanh (DyT)取代层归一化(Layer Normalization, LN) Read More »
在神经网络中,归一化(Normalization) 是一种用于调整和标准化神经元激活值的方法,主要目的是 加速
浅谈神经网络的归一化(Normalization) Read More »
深度神经网络(DNN)在各种任务上取得了巨大成功,其中一个关键因素是大规模训练数据的可用性。然而,在存储受限的
论文Lossless Compression of Vector IDs for Approximate Ne
采用非对称数字系统(ANS)和波列树(Wavelet Trees)的无损压缩方法,对近似最近邻搜索(ANNS)中的向量ID和图结构进行优化 Read More »
论文rStar-Math: Small LLMs Can Master Math Reasoning with
rStar-Math:有效提升小型语言模型(Small Language Models, SLMs)在数学推理任务中的表现 Read More »
论文Image segmentation with traveling waves in an exactly
复值循环神经网络(Complex-Valued Recurrent Neural Network,cv-RNN):从数学层面理解神经网络的决策过程 Read More »