人工智能AI

FireSat计划的核心目标是利用人工智能(AI)和卫星技术实现早期野火探测,以在火灾扩散前进行有效干预。该项目由 Google Research 牵头,并与卫星制造商 Muon Space 及多个合作伙伴共同推进,最终形成一个由 50 余颗卫星组成的星座网络。FireSat可填 Read more
论文Transformers without Normalization的研究证明了Transformer可以在无归一化的情况下稳定训练,并提出了一种简单的替代方法 DyT。DyT 通过 动态缩放 tanh 取代 LN,成功复现了归一化层的作用,并在多个实验中达到了等同或更优的性 Read more
在神经网络中,归一化(Normalization) 是一种用于调整和标准化神经元激活值的方法,主要目的是 加速训练、提高稳定性、改善泛化能力。归一化方法最早是在深度学习训练中为了解决梯度消失和梯度爆炸问题提出的,随着研究的深入,其作用已扩展到 优化优化器的行为、提高模型泛化能力, Read more
论文SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation研究成果为SANA-Sprint模型,该模型通过训练自由的 TrigFlow 变换、稳定一致性蒸馏、对抗蒸馏和实时交互能力 Read more
时代变了,大辫子派不上用场。适应时代,改用枪。 神鞭傻二说得好:“辫剪了,神留着。祖宗的东西再好,该割的时候就得割。无论怎么变,也难不死咱们,什么新玩意儿都能玩到家,一变还得是绝活。” AI是IT新时代的新玩意儿。我等码农对于新玩意儿,也得能玩到家。其他行业,恐怕也得如此。 Read more
AI辅助编程,把需求定义清楚,尽可能定义到细节,可让效率大增。需求定义多花10分钟,大概率会在后续编程调试中节省数小时甚至更多时间✌️ AI-assisted programming benefits greatly from clearly defining requireme Read more
深度神经网络(DNN)在各种任务上取得了巨大成功,其中一个关键因素是大规模训练数据的可用性。然而,在存储受限的情况下,高效训练深度网络仍然是一个重大挑战。数据集蒸馏(Dataset Distillation)技术被提出用于将大规模数据集压缩成小规模的合成数据,同时尽可能保留原始数 Read more
一、引言GPT-4.5 是 OpenAI 迄今为止最大、最具知识性的 AI 模型,其目标是相较于前代模型(如 GPT-4o)更具通用性,同时保持高效的 STEM 领域推理能力。该模型采用了扩展预训练规模的策略,并结合了先进的监督微调(supervised fine-tuning, Read more
综合ChatGPT, Gemini和Deepseek的回答,应该是没有说过。 尽管查无实据,但这句话本身的有道理程度大于67.89%(Kidding, but seriously)。 "For major decisions, look to the UK"—did Kemal Read more
可视化查看了一下deepseek R1蒸馏(llama-8B)模型(ONNX格式)的结构。 模型360层,op节点884个。 Just visually examined the structure of the DeepSeek R1 distilled (llama-8B) Read more
ChatGPT的输出文本中,中文常出现“旨在”,英文“Delve”一词有较高的出现频率,这是其特有的AI味儿。 论文Idiosyncrasies in Large Language Models专门研究了上述现象。该论文详细探讨了大型语言模型(LLMs)中的特征差异,特别是它们生 Read more
论文Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models中的研究中,使用了经过方差-协方差正则化(Variance-Covariance regulariza Read more