跳至内容
思空,简观

Null Thought

  • Home
  • 技术
  • 人工智能AI
  • SpaceX
  • 杂谈
  • 读书
  • 旅游
  • 摄影
  • 万载
  • Feeling
  • 诗否诗否
  • 火星(Mars)
    • 火星探测(Mars Exploration)
    • 火星车(Mars Rover)
思空,简观

Null Thought

  • Home
  • 技术
  • 人工智能AI
  • SpaceX
  • 杂谈
  • 读书
  • 旅游
  • 摄影
  • 万载
  • Feeling
  • 诗否诗否
  • 火星(Mars)
    • 火星探测(Mars Exploration)
    • 火星车(Mars Rover)

可视化查看deepseek R1蒸馏(llama-8B)模型结构

Tech | AI Deepseek 大语言模型LLM 蒸馏(Distillation) | 作者: NullThought | 2025-03-01 | 发表评论

可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。

模型360层,op节点884个。

可视化查看deepseek R1蒸馏(llama-8B)模型结构

Just visually examined the structure of the DeepSeek R1 distilled (llama-8B) model (in ONNX format). The model has 360 layers and 884 op nodes.


相关文章:

  1. DeepSeek-R1技术报告概述
  2. MobileLLM:优化适用于设备上使用的十亿参数以下语言模型
  3. Apple 基础模型 (AFM)
  4. 通过裁剪(Pruning)和知识蒸馏(Knowledge Distillation)实现紧凑的语言模型
  5. 让大模型扮演猴子
  6. 诺奖得主Geoffrey Hinton的一篇老论文,关于知识蒸馏(Distilling)
  7. 用蒸馏(Distilling)让复杂推理(System 2)“转换”为快速、直觉化推理(System 1)
  8. Re-Invoke:完全无监督的大模型调用工具的检索方法
  9. VLsI模型:逐层蒸馏,逐层对齐,实现从大规模到小规模视觉-语言模型(VLM)的高效知识迁移
  10. DeepSeek-V3技术报告概述
← 前一篇文章
后一篇文章 →

发表评论 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注


Welcome to connect

微信/WeChat/WeXin: NullThought
✦博主为AI时代老码农一枚,欢迎加微信交流🤝
✦Anyone with personal interets on AI, IoT, IT, Space, Aviation, History and so on is welcome.

精选视频

特别推荐

人工智能AI

AI时代
老码农日常

机器人Robotics

星舰Starship

宇航Space eXploration

站内搜索

标签

AI AI安全 AI时代老码农 AI模型泛化 aviation BlueOrigin ChatGPT Deepseek Elon Musk Meta military NASA NVIDIA OneHourResearch OpenAI RAG shanghai-lockdown spacex Starlink starship Transformer模型 voyager 万载 互联网 人文 代理型AI/Agentic AI/AI代理/AI智能体/AI Agent 体育 健康 制造 医疗/生物医药 历史 哲学 多模态 大语言模型LLM 宇航 尼古拉斯•赵四 工程 影视 微软 心理 政治 教育 数学 机器人 杂谈 法律 游戏 物理 物联网 环保 电商 电子电气 社会 管理 经济 能源 自然 苹果公司 营销 蒸馏(Distillation) 计算机视觉(CV) 诗歌 谷歌 财经 足球 量子计算 金融 集成电路 音乐

最热文章

  • 对人工智能AI的一些胡思乱想
  • “点戍、横戌、戊中空”
  • SpaceX火箭的栅格翼(Grid fin)
  • SpaceX火箭返回降落时的推力控制
  • SpaceX火箭精准着陆的算法
  • 龙河
  • 马云
  • 托马斯定理
  • iOS上实现单点登录(SSO)
  • NASA开放API—NASA Open APIs
  • 历史真地会走向终结?
  • “边缘力量”考
  • 真假消息传播的事实
  • 寒潮
  • 没啥特别意义的纪录片—徒手攀岩(Free Solo)
  • 火星表面的操作系统
  • 一张简图了解哈佛招生的秘密
  • “一代人只能干一代人的事”
  • 【明天会更好】原版歌词,罗大佑

Special

  • 人工智能AI
  • AI时代老码农日常
  • SpaceX星舰(Starship)
  • Shanghai Lockdown 2022
  • 军事Military
  • 航空Aviation
  • 物联网IoT
  • 机器人Robot
  • 医疗Medicine

近期文章

  • 无人机正在改变战争:廉价平台能摧毁昂贵目标,决定胜负的不再只是少数‘顶级平台’,而是规模、速度、组织与产业韧性 2026-02-22
  • 《孤星之旅•苏东坡传》 2026-02-21
  • 航天器再入大气时的烧蚀形成污染 2026-02-21
  • MapTrace:让AI读懂地图的几何与拓扑关系 2026-02-21
  • DeepRare:智能体式罕见病循证推理诊断系统 2026-02-21
  • Conformer-PhyFaultNet:滚动轴承故障诊断的泛化尝试 2026-02-21
  • 乡愁 2026-02-18
  • SpaceX轨道数据中心申请 2026-02-14
  • 让大模型忘掉部分内容 2026-02-13
  • 让大语言模型当“裁判”评判“共情(empathic)” 2026-02-13
  • 一个Embedding visualizer demo 2026-02-12
  • 用Codex实现设备控制叙述(Control Narrative)到PLC控制逻辑FBD(Functional Block Diagram,功能块图) 2026-02-11
  • 常见的五种 PLC 编程语言/表示法 2026-02-10
  • 让 AI Agent 接管 PLC 输出端口?😱 2026-02-09
  • 浅谈Matter协议 2026-02-06
  • AI智能体如何推动生命科学企业工作流重塑 2026-02-05
  • 大模型(LLM)正在如何改变学术研究生态:论文产量激增,但质量信号被“打乱”,同行评审与科研评估体系承压 2026-02-03
  • CoreWeave : 专做 GPU/AI 计算 的“新型云(neocloud)/AI hyperscaler” 2026-02-02
  • 让AI为火星车规划行进路线 2026-02-01
  • 被苹果公司收购的Q.ai : 唇语解读技术公司? 2026-02-01
  • 基于多智能体群体协作的蛋白序列设计 2026-02-01
  • 制造业/工业数字化在 2026 年的 8 条预测 2026-01-20
  • SpaceX Dragon飞船返回舱溅落(splashdown)后,操作人员在执行回收操作时,为何要戴防毒面具? 2026-01-15
  • MedGemma 1.5 系统说明(MedGemma 1.5 model card) 2026-01-15
  • 办公场所,禁止摆烂 2026-01-14
  • SB-1 Defiant vs. V-280 Valor(现 MV-75) 2026-01-11
  • Eat Real Food(吃真正的食物) 2026-01-09
  • OpenAI推出ChatGPT Health 2026-01-09
  • Physical AI(物理AI)综述 2026-01-08
  • Physical AI 开始走向实用 2026-01-06
  • Boston Dynamics 与 Google DeepMind 宣布建立 AI 合作伙伴关系 2026-01-06
  • 一份投研摘要 2025-12-31
  • 详解:采用Model Context Protocol(MCP)连接AI和应用系统 2025-12-30
  • 工业领域AI Agent/工业智能体 2025-12-30
  • Manus后端依托的大模型有哪些? 2025-12-30
  • 大模型的几何式记忆(Geometric Memory)? 2025-12-30
  • VIRAL:实现完全在仿真中学会类人机器人移动操作技能,并且无需真实世界微调就能直接部署到真机(零样本 sim-to-real) 2025-12-30
  • 静默数据损坏(Silent Data Corruption, SDC) 2025-12-26
  • 储能电池公司 Eos Energy 2025-12-26
  • Top 5 AI 模型优化技术 2025-12-24
  • Stoke Space:把“火箭”做成“飞机式周转”的运输系统 2025-12-22
  • Google Pixel手机如何开启VoLTE 2025-12-21
  • 浅谈ARC 测试(ARC-AGI) 2025-12-21
  • 用三维雷达把隧道变成“可计算”的对象:从数据采集到预警仿真平台的工程化路线 2025-12-16
  • 浅谈数据治理(Data Governance) 2025-12-15
  • URANIA:严格差分隐私(Differential Privacy, DP)约束下,对海量 LLM 聊天记录做“用例洞察/主题总结”的框架 2025-12-12
  • Clio(Claude insights and observations):让AI助手把数百万对话归纳成可探索的聚合洞察 2025-12-12
  • NASA X59验证飞机,能够消除超音速飞行的音爆? 2025-12-10
  • 多Agent系统架构选择的量化评估 2025-12-10
  • AI时代老码农日常-20251210 2025-12-10
  • 太空数据中心时代来临? 2025-12-10
  • Anduril:AI-native 军工企业 2025-12-10
  • AI对【明天会更好】原版歌词(罗大佑)的分析 2025-12-06
  • 地球基础模型AlphaEarth Foundations (AEF) 2025-12-06
  • 代码智能/代码大模型实践指南 2025-12-06
  • 笔 2025-12-05
  • “没崩、也没跑路…” 2025-12-04
  • 主流 TTS / 配音平台对比 2025-11-30
  • Google Earth + Gemini 2025-11-30
  • 用丝瓜络(loofah)做飞机隐身涂层材料?🤔🤔 2025-11-29
  • AI能否有情商? 2025-11-28
  • Agent0:不依赖外部标注数据,基于双智能体 + 工具 + 强化学习,让基础模型在推理能力上持续“自我升级” 2025-11-28
  • 凸优化(Convex Optimization):用于火箭助推器的回收降落控制 2025-11-27
  • GPU vs. TPU 2025-11-27
  • 新型模型架构HOPE:基于嵌套学习(Nested Learning),在推理和使用过程中也会更新记忆 2025-11-25
  • WenHai(问海):全球海洋预报AI模型 2025-11-25
  • Gemini 3 Pro 模型说明(Gemini 3 Pro Model Card) 2025-11-24
  • 试了一下Nano Banana Pro 2025-11-23

历史文章

Find Us

Shanghai…✈️

Online Personal Notes Happily Shared

Null thought cannot be understood through tough thorough thought, though. So buy me a coffee☕️

Copyright © 2026 思空,简观 | Powered by Astra WordPress 主题