基于神经特征函数匹配(Neural Characteristic Function Matching, NCFM)方法的数据集蒸馏:GPU 内存使用量减少300倍以上,处理速度提升20倍
深度神经网络(DNN)在各种任务上取得了巨大成功,其中一个关键因素是大规模训练数据的可用性。然而,在存储受限的 […]
深度神经网络(DNN)在各种任务上取得了巨大成功,其中一个关键因素是大规模训练数据的可用性。然而,在存储受限的 […]
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op
可视化查看deepseek R1蒸馏(llama-8B)模型结构 Read More »
论文rStar-Math: Small LLMs Can Master Math Reasoning with
rStar-Math:有效提升小型语言模型(Small Language Models, SLMs)在数学推理任务中的表现 Read More »
论文《VLsI: Verbalized Layers-to-Interactions from Large t
VLsI模型:逐层蒸馏,逐层对齐,实现从大规模到小规模视觉-语言模型(VLM)的高效知识迁移 Read More »
论文Re-Invoke: Tool Invocation Rewriting for Zero-Shot To
Re-Invoke:完全无监督的大模型调用工具的检索方法 Read More »