站内搜索

大语言模型LLM

基于AI的规模化数学探索和发现

发表评论 / 科学 / NullThought

论文Mathematical exploration and discovery at scale系统展示了由 […]

基于AI的规模化数学探索和发现 Read More »

BitDistill：LLM权重从FP16量化到1.58-bit，精度基本无损，内存消耗下降显著，推理速度提升

发表评论 / Tech / NullThought

论文BitNet Distillation提出 BitNet Distillation（BitDistill）

BitDistill：LLM权重从FP16量化到1.58-bit，精度基本无损，内存消耗下降显著，推理速度提升 Read More »

LLM 脑腐化（Brain Rot）：碎片化、吸睛但低信息的内容会在持续预训练中“腐蚀”模型的思考链条与长程记忆，且很难被事后微调完全补救

发表评论 / Tech / NullThought

论文LLMs Can Get “Brain Rot”!提出并实证验证“LLM 脑腐化（

LLM 脑腐化（Brain Rot）：碎片化、吸睛但低信息的内容会在持续预训练中“腐蚀”模型的思考链条与长程记忆，且很难被事后微调完全补救 Read More »

SINQ：无校准均匀量化

发表评论 / Tech / NullThought

大型语言模型（LLM）在部署端最常用的压缩路径是后训练量化（Post-training quantizatio

SINQ：无校准均匀量化 Read More »

DeepSeek-OCR：不是“一目十行”，而是“百行”乃至“千行”的上下文理解

发表评论 / Tech / NullThought

当今大模型在处理长文本时，注意力计算随长度二次增长，算力与显存压力巨大。DeepSeek的最新模型DeepSe

DeepSeek-OCR：不是“一目十行”，而是“百行”乃至“千行”的上下文理解 Read More »

用于自驱动实验室（self-driving laboratories, SDL）的AI智能体

发表评论 / Tech, 科学 / NullThought

大型语言模型（LLM）正被用于构建“自驱动实验室（self-driving laboratories, SDL

用于自驱动实验室（self-driving laboratories, SDL）的AI智能体 Read More »