Apple 基础模型 (AFM)
Apple 在其 2024 年全球开发者大会上介绍了 Apple Intelligence,这是一种集成在 i […]
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限
测试时训练层Test-Time Training(TTT),一种新的序列建模层 Read More »
论文《MobileLLM:优化适用于设备上使用的十亿参数以下语言模型》(MobileLLM: Optimizi
MobileLLM:优化适用于设备上使用的十亿参数以下语言模型 Read More »