Llama 3大模型组
Meta近日发布了Llama 3基础模型组,模型支持多语言、编程、推理和工具使用。最大的模型具有4050亿参数 […]
Nvidia这两天发布了MambaVision,即一种新型混合Mamba-Transformer视觉Backb
MambaVision:一种新型混合Mamba-Transformer视觉Backbone Read More »
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限
测试时训练层Test-Time Training(TTT),一种新的序列建模层 Read More »
论文《A Review of Large Language Models and Autonomous Age
化学中的LLMs,Large Language Models and Autonomous Agents in Chemistry Read More »