蒸馏（Distillation）

Top 5 AI 模型优化技术

发表评论 / Tech / NullThought

Top 5 AI 模型优化技术：实现更快、更聪明的推理 1️⃣ 训练后量化（Post-Training Qua […]

Top 5 AI 模型优化技术 Read More »

基于神经特征函数匹配（Neural Characteristic Function Matching, NCFM）方法的数据集蒸馏：GPU 内存使用量减少300倍以上，处理速度提升20倍

发表评论 / Tech / NullThought

深度神经网络（DNN）在各种任务上取得了巨大成功，其中一个关键因素是大规模训练数据的可用性。然而，在存储受限的

基于神经特征函数匹配（Neural Characteristic Function Matching, NCFM）方法的数据集蒸馏：GPU 内存使用量减少300倍以上，处理速度提升20倍 Read More »

可视化查看deepseek R1蒸馏（llama-8B）模型结构

发表评论 / Tech / NullThought

可视化查看了一下deepseek R1蒸馏（llama-8B）模型（ONNX格式）的结构。模型360层，op

可视化查看deepseek R1蒸馏（llama-8B）模型结构 Read More »

DeepSeek-R1技术报告概述

发表评论 / Tech / NullThought

近年来，大规模语言模型（LLMs）的快速发展使其在推理、代码生成、科学计算等任务上展现出越来越强的能力，逐步缩

DeepSeek-R1技术报告概述 Read More »

rStar-Math：有效提升小型语言模型（Small Language Models, SLMs）在数学推理任务中的表现

发表评论 / Tech, 科学 / NullThought

论文rStar-Math: Small LLMs Can Master Math Reasoning with

rStar-Math：有效提升小型语言模型（Small Language Models, SLMs）在数学推理任务中的表现 Read More »

VLsI模型：逐层蒸馏，逐层对齐，实现从大规模到小规模视觉-语言模型（VLM）的高效知识迁移

发表评论 / Tech / NullThought

论文《VLsI: Verbalized Layers-to-Interactions from Large t

VLsI模型：逐层蒸馏，逐层对齐，实现从大规模到小规模视觉-语言模型（VLM）的高效知识迁移 Read More »