可视化查看deepseek R1蒸馏(llama-8B)模型结构
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op […]
可视化查看deepseek R1蒸馏(llama-8B)模型结构 Read More »
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op […]
可视化查看deepseek R1蒸馏(llama-8B)模型结构 Read More »
ChatGPT的输出文本中,中文常出现“旨在”,英文“Delve”一词有较高的出现频率,这是其特有的AI味儿。
不同大模型有其特有的AI味儿—大模型的“癖好”或特质(idiosyncrasy) Read More »
论文Native Sparse Attention: Hardware-Aligned and Nativel
NSA(Native Sparse Attention)机制:原生可训练的稀疏注意力架构,通过硬件对齐优化和算法创新实现高效长序列建模 Read More »
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解
UltraMem:利用大规模的超稀疏内存层(Ultra-Sparse Memory Layer)显著提升Transformer模型性能 Read More »
OpenAI o3-mini是 OpenAI 研发的一款增强推理能力的语言模型,其核心训练方法采用大规模强化学
OpenAI o3-mini 系统说明(OpenAI o3-mini System Card) Read More »
论文Improving LLM Leaderboards with Psychometrical Method
心理测量学(Psychometrical Methodology)技术可用于优化大语言模型LLM的基准测试 Read More »