可视化查看deepseek R1蒸馏(llama-8B)模型结构
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op […]
可视化查看deepseek R1蒸馏(llama-8B)模型结构 Read More »
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op […]
可视化查看deepseek R1蒸馏(llama-8B)模型结构 Read More »
ChatGPT的输出文本中,中文常出现“旨在”,英文“Delve”一词有较高的出现频率,这是其特有的AI味儿。
不同大模型有其特有的AI味儿—大模型的“癖好”或特质(idiosyncrasy) Read More »
SpaceX发布了星舰Starship第七次飞行测试(IFT7)的调查报告。报告称谐波响应(harmonic
谐波响应(harmonic response)导致星舰Starship在第七次飞行测试(IFT7)中解体? Read More »
论文Learning from Reward-Free Offline Data: A Case for Pl
用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA。上传FlashMLA工
用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA Read More »
近期,法国科学家在核聚变研究方面取得的重要进展,他们在2025年2月12日成功地在西南法国的WEST托卡马克装
核聚变新纪录:高温等离子体维持长达1337秒 Read More »