UltraMem:利用大规模的超稀疏内存层(Ultra-Sparse Memory Layer)显著提升Transformer模型性能
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解 […]
UltraMem:利用大规模的超稀疏内存层(Ultra-Sparse Memory Layer)显著提升Transformer模型性能 Read More »
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解 […]
UltraMem:利用大规模的超稀疏内存层(Ultra-Sparse Memory Layer)显著提升Transformer模型性能 Read More »
OpenAI o3-mini是 OpenAI 研发的一款增强推理能力的语言模型,其核心训练方法采用大规模强化学
OpenAI o3-mini 系统说明(OpenAI o3-mini System Card) Read More »
论文Improving LLM Leaderboards with Psychometrical Method
心理测量学(Psychometrical Methodology)技术可用于优化大语言模型LLM的基准测试 Read More »
论文Evolving Deeper LLM Thinking提出了一种创新的进化搜索策略——Mind Evol
Mind Evolution:结合基因搜索算法与LLM的生成能力,利用进化策略在自然语言空间中高效搜索解决方案 Read More »
论文Gated Delta Networks: Improving Mamba2 with Delta Rul
Gated DeltaNet架构:结合门控机制和Delta更新规则,提升线性Transformer在长序列建模和信息检索任务中的表现 Read More »