测试时训练层Test-Time Training(TTT),一种新的序列建模层
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限 […]
测试时训练层Test-Time Training(TTT),一种新的序列建模层 Read More »
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限 […]
测试时训练层Test-Time Training(TTT),一种新的序列建模层 Read More »
论文《A Review of Large Language Models and Autonomous Age
化学中的LLMs,Large Language Models and Autonomous Agents in Chemistry Read More »
计算机图像和模式识别2024年度大会(Computer Vision and Pattern Recognit
CVPR2024最佳论文:Rich Human Feedback for Text-to-Image Generation Read More »
Federico Barbero等近期发表论文:Transformers need glasses👓: Inf
Transformer需要戴上眼镜😎 Read More »
论文《BAKU:用于多任务策略学习的高效transformer架构》BAKU: An Efficient Tr
BAKU:用于多任务策略学习的高效transformer架构 Read More »
Transformer是个框,啥都往里装😀,只要是广义的时序数据就行,自然语言、音频、视频、传感数据,以及这篇
Transformer是个框,啥都往里装😀 Read More »