Transformer模型

测试时训练层Test-Time Training(TTT)，一种新的序列建模层

发表评论 / Tech, 科学 / NullThought

自注意力机制在长上下文中表现良好，但其复杂度为二次方。现有的RNN层具有线性复杂度，但其在长上下文中的性能受限 […]

测试时训练层Test-Time Training(TTT)，一种新的序列建模层 Read More »

化学中的LLMs，Large Language Models and Autonomous Agents in Chemistry

发表评论 / Tech, 科学 / NullThought

论文《A Review of Large Language Models and Autonomous Age

化学中的LLMs，Large Language Models and Autonomous Agents in Chemistry Read More »

CVPR2024最佳论文：Rich Human Feedback for Text-to-Image Generation

发表评论 / Tech, 科学 / NullThought

计算机图像和模式识别2024年度大会（Computer Vision and Pattern Recognit

CVPR2024最佳论文：Rich Human Feedback for Text-to-Image Generation Read More »

Transformer需要戴上眼镜😎

发表评论 / Tech, 科学 / NullThought

Federico Barbero等近期发表论文：Transformers need glasses👓: Inf

Transformer需要戴上眼镜😎 Read More »

BAKU：用于多任务策略学习的高效transformer架构

发表评论 / Tech, 科学 / NullThought

论文《BAKU：用于多任务策略学习的高效transformer架构》BAKU: An Efficient Tr

BAKU：用于多任务策略学习的高效transformer架构 Read More »

Transformer是个框，啥都往里装😀

发表评论 / IT, Tech, 科学 / NullThought

Transformer是个框，啥都往里装😀，只要是广义的时序数据就行，自然语言、音频、视频、传感数据，以及这篇

Transformer是个框，啥都往里装😀 Read More »