站内搜索

大语言模型LLM

可视化查看deepseek R1蒸馏（llama-8B）模型结构

发表评论 / Tech / NullThought

可视化查看了一下deepseek R1蒸馏（llama-8B）模型（ONNX格式）的结构。模型360层，op […]

可视化查看deepseek R1蒸馏（llama-8B）模型结构 Read More »

不同大模型有其特有的AI味儿—大模型的“癖好”或特质（idiosyncrasy）

发表评论 / Tech / NullThought

ChatGPT的输出文本中，中文常出现“旨在”，英文“Delve”一词有较高的出现频率，这是其特有的AI味儿。

不同大模型有其特有的AI味儿—大模型的“癖好”或特质（idiosyncrasy） Read More »

NSA（Native Sparse Attention）机制：原生可训练的稀疏注意力架构，通过硬件对齐优化和算法创新实现高效长序列建模

发表评论 / Tech / NullThought

论文Native Sparse Attention: Hardware-Aligned and Nativel

NSA（Native Sparse Attention）机制：原生可训练的稀疏注意力架构，通过硬件对齐优化和算法创新实现高效长序列建模 Read More »

UltraMem：利用大规模的超稀疏内存层（Ultra-Sparse Memory Layer）显著提升Transformer模型性能

发表评论 / Tech / NullThought

论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构，解

UltraMem：利用大规模的超稀疏内存层（Ultra-Sparse Memory Layer）显著提升Transformer模型性能 Read More »

OpenAI o3-mini 系统说明（OpenAI o3-mini System Card）

发表评论 / Tech / NullThought

OpenAI o3-mini是 OpenAI 研发的一款增强推理能力的语言模型，其核心训练方法采用大规模强化学

OpenAI o3-mini 系统说明（OpenAI o3-mini System Card） Read More »

心理测量学（Psychometrical Methodology）技术可用于优化大语言模型LLM的基准测试

发表评论 / Tech / NullThought

论文Improving LLM Leaderboards with Psychometrical Method

心理测量学（Psychometrical Methodology）技术可用于优化大语言模型LLM的基准测试 Read More »