人工智能AI

一、引言GPT-4.5 是 OpenAI 迄今为止最大、最具知识性的 AI 模型,其目标是相较于前代模型(如 GPT-4o)更具通用性,同时保持高效的 STEM 领域推理能力。该模型采用了扩展预训练规模的策略,并结合了先进的监督微调(supervised fine-tuning, Read more
综合ChatGPT, Gemini和Deepseek的回答,应该是没有说过。 尽管查无实据,但这句话本身的有道理程度大于67.89%(Kidding, but seriously)。 "For major decisions, look to the UK"—did Kemal Read more
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op节点884个。 Just visually examined the structure of the DeepSeek R1 distilled (llama-8B) Read more
ChatGPT的输出文本中,中文常出现“旨在”,英文“Delve”一词有较高的出现频率,这是其特有的AI味儿。 论文Idiosyncrasies in Large Language Models专门研究了上述现象。该论文详细探讨了大型语言模型(LLMs)中的特征差异,特别是它们生 Read more
论文Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models中的研究中,使用了经过方差-协方差正则化(Variance-Covariance regulariza Read more
用ChatGPT o3-mini-high分析Deepseek刚开源的FlashMLA。上传FlashMLA工程压缩包,通过向ChatGPT o3-mini-high提问获得分析内容。可持续提问,让分析逐步深入。 没有Delve得太深,得到如下一些初步分析: FlashMLA 概 Read more
论文Genome modeling and design across all domains of life with Evo 2介绍了Evo 2,一个训练于涵盖所有生命领域的基因组数据集的生物学基础模型,该模型可用于深入理解和设计生命中的基因组功能。Evo 2在9.3万亿个D Read more
ChatGPT输出的中文内容,常喜欢用“旨在”这词儿。故每次用AI辅助写作时,只要有“旨在”,俺都要将其改掉,避免文章的AI味儿过浓。我承认我这样做有点儿虚伪,有点儿掩耳盗铃。当然,对“旨在”这词也着实不太喜欢。 “Delve”(意为“钻研”)这一不常用的词,在AI生成英文内容中 Read more
论文Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention提出了NSA(Native Sparse Attention)机制。NSA为一种硬件对齐的稀疏注意力架构,能够有效 Read more
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解决传统Transformer模型在推理过程中因内存访问高开销导致的性能瓶颈问题。UltraMem通过引入大规模的超稀疏内存层(Ultra-Sparse Memory La Read more
论文Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction提出的Token Statistics Transformer(ToST)通过引入TSSA(Token Stat Read more
论文Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search提出了一种基于非对称数字系统(ANS)和波列树的无损压缩方法,专门针对近似最近邻搜索中的向量ID和图结构进行优化。通过无损压缩, Read more