BitDistill:LLM权重从FP16量化到1.58-bit,精度基本无损,内存消耗下降显著,推理速度提升
论文BitNet Distillation提出 BitNet Distillation(BitDistill) […]
BitDistill:LLM权重从FP16量化到1.58-bit,精度基本无损,内存消耗下降显著,推理速度提升 Read More »
论文BitNet Distillation提出 BitNet Distillation(BitDistill) […]
BitDistill:LLM权重从FP16量化到1.58-bit,精度基本无损,内存消耗下降显著,推理速度提升 Read More »
论文LLMs Can Get “Brain Rot”!提出并实证验证“LLM 脑腐化(
LLM 脑腐化(Brain Rot):碎片化、吸睛但低信息的内容会在持续预训练中“腐蚀”模型的思考链条与长程记忆,且很难被事后微调完全补救 Read More »
经典CFD(Computational Fluid Dynamics)仿真在汽车与航空航天外流场分析中耗时高、
AB-UPT(Anchored-Branched Universal Physics Transformer):具备较高准确性和效率的CFD建模替代 Read More »
当今大模型在处理长文本时,注意力计算随长度二次增长,算力与显存压力巨大。DeepSeek的最新模型DeepSe
DeepSeek-OCR:不是“一目十行”,而是“百行”乃至“千行”的上下文理解 Read More »
论文AI models collapse when trained on recursively genera
模型坍塌(model collapse) Read More »