Gated DeltaNet架构:结合门控机制和Delta更新规则,提升线性Transformer在长序列建模和信息检索任务中的表现
论文Gated Delta Networks: Improving Mamba2 with Delta Rul […]
Gated DeltaNet架构:结合门控机制和Delta更新规则,提升线性Transformer在长序列建模和信息检索任务中的表现 Read More »
论文Gated Delta Networks: Improving Mamba2 with Delta Rul […]
Gated DeltaNet架构:结合门控机制和Delta更新规则,提升线性Transformer在长序列建模和信息检索任务中的表现 Read More »
诺贝尔奖得主、Google DeepMind首席执行官Demis Hassabis于1月21日(周二)表示,他
人工智能(AI)设计的药物有望在2025年年底前进入临床试验 Read More »
论文A survey on FPGA-based accelerator for ML models对基于现场
基于现场可编程门阵列(FPGA)机器学习(ML)加速器的研究现状及发展趋势 Read More »
论文Do generative video models learn physical principles
Physics-IQ(物理智商?)基准数据集:测试生成性视频模型在理解物理原则方面的能力 Read More »
论文rStar-Math: Small LLMs Can Master Math Reasoning with
rStar-Math:有效提升小型语言模型(Small Language Models, SLMs)在数学推理任务中的表现 Read More »
论文Agents Are Not Enough认为,仅具有代理能力不足以解决问题,构建一个包含智能代理、用户偏
智能代理(Agents)+用户偏好模拟(Sims)+助理(Assistants)=新型智能代理生态系统 Read More »