通过令牌选择(Token Selection),实现Transformer的内存高效微调
微调是利用预训练的大型模型在特定下游任务上获得最佳性能的一种有效方法,特别是对于大型语言模型(LLMs)和其他 […]
通过令牌选择(Token Selection),实现Transformer的内存高效微调 Read More »
微调是利用预训练的大型模型在特定下游任务上获得最佳性能的一种有效方法,特别是对于大型语言模型(LLMs)和其他 […]
通过令牌选择(Token Selection),实现Transformer的内存高效微调 Read More »
论文Distilling System 2 into System 1(《将系统2蒸馏到系统1》)研究了一种将
用蒸馏(Distilling)让复杂推理(System 2)“转换”为快速、直觉化推理(System 1) Read More »
论文“Global Lyapunov functions: a long-standing open prob
用symbolic transformers发现李雅普诺夫(Lyapunov)函数 Read More »
近日,Meta发布了多媒体基础模型集Movie Gen,号称最先进(the most advanced med
Movie Gen:来自Meta的先进多媒体基础AI模型集 Read More »
论文The Perfect Blend: Redefining RLHF with Mixture of Ju
约束生成策略优化(CGPO)框架解决基于人类反馈强化学习(RLHF)在多任务学习(MTL)中的局限性 Read More »
论文《Robot Utility Models: General Policies for Zero-Shot
机器人效用模型(Robot Utility Models, RUM)实现零样本部署(Zero-Shot Deployment) Read More »