不同大模型有其特有的AI味儿—大模型的“癖好”或特质(idiosyncrasy)
ChatGPT的输出文本中,中文常出现“旨在”,英文“Delve”一词有较高的出现频率,这是其特有的AI味儿。 […]
不同大模型有其特有的AI味儿—大模型的“癖好”或特质(idiosyncrasy) Read More »
ChatGPT的输出文本中,中文常出现“旨在”,英文“Delve”一词有较高的出现频率,这是其特有的AI味儿。 […]
不同大模型有其特有的AI味儿—大模型的“癖好”或特质(idiosyncrasy) Read More »
论文Native Sparse Attention: Hardware-Aligned and Nativel
NSA(Native Sparse Attention)机制:原生可训练的稀疏注意力架构,通过硬件对齐优化和算法创新实现高效长序列建模 Read More »
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解
UltraMem:利用大规模的超稀疏内存层(Ultra-Sparse Memory Layer)显著提升Transformer模型性能 Read More »
OpenAI o3-mini是 OpenAI 研发的一款增强推理能力的语言模型,其核心训练方法采用大规模强化学
OpenAI o3-mini 系统说明(OpenAI o3-mini System Card) Read More »
论文Improving LLM Leaderboards with Psychometrical Method
心理测量学(Psychometrical Methodology)技术可用于优化大语言模型LLM的基准测试 Read More »