“大事不决看英国”,凯末尔说过这句话吗?
综合ChatGPT, Gemini和Deepseek的回答,应该是没有说过。 尽管查无实据,但这句话本身的有道 […]
“大事不决看英国”,凯末尔说过这句话吗? Read More »
综合ChatGPT, Gemini和Deepseek的回答,应该是没有说过。 尽管查无实据,但这句话本身的有道 […]
“大事不决看英国”,凯末尔说过这句话吗? Read More »
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op
可视化查看deepseek R1蒸馏(llama-8B)模型结构 Read More »
用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA。上传FlashMLA工
用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA Read More »
论文Native Sparse Attention: Hardware-Aligned and Nativel
NSA(Native Sparse Attention)机制:原生可训练的稀疏注意力架构,通过硬件对齐优化和算法创新实现高效长序列建模 Read More »
论文rStar-Math: Small LLMs Can Master Math Reasoning with
rStar-Math:有效提升小型语言模型(Small Language Models, SLMs)在数学推理任务中的表现 Read More »