1661年至1912年,中英美日四国历史并行时间线图(政治、军事、经济、教育事件)
听一个历史讲座视频时,临时起意,想了解清朝同年代英、美、日的一些重要历史事件。于是乎让ChatGPT Deep […]
1661年至1912年,中英美日四国历史并行时间线图(政治、军事、经济、教育事件) Read More »
听一个历史讲座视频时,临时起意,想了解清朝同年代英、美、日的一些重要历史事件。于是乎让ChatGPT Deep […]
1661年至1912年,中英美日四国历史并行时间线图(政治、军事、经济、教育事件) Read More »
在神经网络中,归一化(Normalization) 是一种用于调整和标准化神经元激活值的方法,主要目的是 加速
浅谈神经网络的归一化(Normalization) Read More »
一、引言GPT-4.5 是 OpenAI 迄今为止最大、最具知识性的 AI 模型,其目标是相较于前代模型(如
OpenAI GPT-4.5 系统说明(OpenAI GPT-4.5 System Card) Read More »
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op
可视化查看deepseek R1蒸馏(llama-8B)模型结构 Read More »
ChatGPT的输出文本中,中文常出现“旨在”,英文“Delve”一词有较高的出现频率,这是其特有的AI味儿。
不同大模型有其特有的AI味儿—大模型的“癖好”或特质(idiosyncrasy) Read More »
论文Native Sparse Attention: Hardware-Aligned and Nativel
NSA(Native Sparse Attention)机制:原生可训练的稀疏注意力架构,通过硬件对齐优化和算法创新实现高效长序列建模 Read More »