ChatGPT输出的中文内容,常喜欢用“旨在”这词儿。故每次用AI辅助写作时,只要有“旨在”,俺都要将其改掉,避免文章的AI味儿过浓。我承认我这样做有点儿虚伪,有点儿掩耳盗铃。当然,对“旨在”这词也着实不太喜欢。 “Delve”(意为“钻研”)这一不常用的词,在AI生成英文内容中 Read more
论文Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention提出了NSA(Native Sparse Attention)机制。NSA为一种硬件对齐的稀疏注意力架构,能够有效 Read more
论文Ultra-Sparse Memory Network提出了一种名为UltraMem的新型神经网络架构,解决传统Transformer模型在推理过程中因内存访问高开销导致的性能瓶颈问题。UltraMem通过引入大规模的超稀疏内存层(Ultra-Sparse Memory La Read more
论文Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction提出的Token Statistics Transformer(ToST)通过引入TSSA(Token Stat Read more
论文Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search提出了一种基于非对称数字系统(ANS)和波列树的无损压缩方法,专门针对近似最近邻搜索中的向量ID和图结构进行优化。通过无损压缩, Read more
近年来,机器人技术和具身人工智能(Embodied AI)领域取得了显著进展,特别是在模仿学习(Imitation Learning)和强化学习(Reinforcement Learning)方面。这些进展使得智能体可以在不同的任务中学习并执行复杂的行为。然而,尽管已经取得了这些 Read more
论文The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Kno Read more
近年来,具身智能体(Embodied Agents)在人工智能研究中受到了越来越多的关注。这些智能体需要具备理解环境、感知视觉信息以及执行复杂任务的能力。多模态大型语言模型(Multi-modal Large Language Models, MLLMs)的兴起,使得基于大规模预 Read more
OpenAI o3-mini是 OpenAI 研发的一款增强推理能力的语言模型,其核心训练方法采用大规模强化学习,并能够运用“思维链”(Chain of Thought,CoT)进行推理。这一方法允许模型在生成最终回答之前先进行逻辑推理,并得出合理的结论,从而提高答案的准确性,同 Read more
物理信息神经网络(Physics-Informed Neural Networks,PINNs)是一种新兴的深度学习方法,它结合了前馈神经网络(Feedforward Neural Network,FNN)与用常微分方程(ODE)或偏微分方程(PDE)表示的系统先验知识。这种方法 Read more
论文Improving LLM Leaderboards with Psychometrical Methodology通过心理测量学方法(Psychometrical Methodology)分析 LLM 排行榜(Leaderboards)的测量质量,发现其存在测量效度不足、排 Read more
近年来,大规模语言模型(LLMs)的快速发展使其在推理、代码生成、科学计算等任务上展现出越来越强的能力,逐步缩小了与人工通用智能(AGI)之间的差距。然而,即使是最先进的 LLM,如 OpenAI 的 GPT-4o 和 Claude-3.5-Sonnet,仍然在一些高阶推理任务上 Read more