Transfusion:用一个多模态模型同时处理文本和图像
论文《Transfusion: Predict the Next Token and Diffuse Imag […]
Transfusion:用一个多模态模型同时处理文本和图像 Read More »
论文《Transfusion: Predict the Next Token and Diffuse Imag […]
Transfusion:用一个多模态模型同时处理文本和图像 Read More »
论文MoMa: Efficient Early-Fusion Pre-training with Mixtur
MoMa:自带模态感知组合专家的高效早期融合预训练 Read More »
论文Meta-Rewarding Language Models: Self-Improving Alignm
元奖励(Meta-Rewarding)模型:角色扮演(演员actor、评审judge和元评审meta-judge)的大语言模型 Read More »
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限
测试时训练层Test-Time Training(TTT),一种新的序列建模层 Read More »
论文《MobileLLM:优化适用于设备上使用的十亿参数以下语言模型》(MobileLLM: Optimizi
MobileLLM:优化适用于设备上使用的十亿参数以下语言模型 Read More »