Transformer模型

Hymba：用于小型语言模型的混合头架构（Hybrid-head Architecture）

发表评论 / Tech / NullThought

论文《Hymba: A Hybrid-head Architecture for Small Language […]

Hymba：用于小型语言模型的混合头架构（Hybrid-head Architecture） Read More »

AlphaQubit：基于深度学习的量子纠错（Quantum Error Correction, QEC）解码器

发表评论 / Tech, 科学 / NullThought

量子计算机有望彻底变革多个科学领域，例如药物开发、材料科学和基础物理研究。其最突出的特点是能够在极短的时间内解

AlphaQubit：基于深度学习的量子纠错（Quantum Error Correction, QEC）解码器 Read More »

通过令牌选择（Token Selection），实现Transformer的内存高效微调

发表评论 / Tech / NullThought

微调是利用预训练的大型模型在特定下游任务上获得最佳性能的一种有效方法，特别是对于大型语言模型（LLMs）和其他

通过令牌选择（Token Selection），实现Transformer的内存高效微调 Read More »

物理法则视角的视频生成

发表评论 / Tech / NullThought

论文How Far is Video Generation from World Model: A Physi

物理法则视角的视频生成 Read More »

MoICL：上下文学习混合模型

发表评论 / Tech / NullThought

论文Mixtures of In-Context Learners提出了一种名为“上下文学习混合模型（MoIC

MoICL：上下文学习混合模型 Read More »

腾讯混元大模型（Hunyuan-Large）

发表评论 / Tech / NullThought

论文Hunyuan-Large: An Open-Source MoE Model with 52 Billi

腾讯混元大模型（Hunyuan-Large） Read More »