测试时训练层Test-Time Training(TTT),一种新的序列建模层
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限 […]
测试时训练层Test-Time Training(TTT),一种新的序列建模层 Read More »
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限 […]
测试时训练层Test-Time Training(TTT),一种新的序列建模层 Read More »
论文《MobileLLM:优化适用于设备上使用的十亿参数以下语言模型》(MobileLLM: Optimizi
MobileLLM:优化适用于设备上使用的十亿参数以下语言模型 Read More »
Meta发布了Meta LLM Compiler,这是一个基于Meta Code Llama构建的模型家族,具
大语言模型编译器:Meta LLM Compiler Read More »