Miles Cranmer是剑桥大学助理教授,他于2024年4月在Simons Foundation发表的演讲The Next Great Scientific Theory is Hiding Inside a Neural Network很有启发性。 俺对视频内容的总结:先“ Read more
Google Research近日提到,在其从事连接组学(Connectomics,一门研究神经元之间连接模式的科学,旨在揭示大脑功能和行为的基础)研究十年之后,其实才刚刚开始。展望未来,谷歌研究团队与哈佛大学及其他机构的合作伙伴正在努力绘制小鼠海马体的图谱,海马体是大脑中与学习 Read more
摘要 论文Gradient Boosting Reinforcement Learning介绍了梯度增强强化学习(GBRL),它将梯度增强树(GBT)与强化学习(RL)结合。作者指出,尽管神经网络在各种任务中取得了显著成果,但它们通常缺乏可解释性,不适合处理分类数据或在边缘设备上 Read more
论文DoRA: Weight-Decomposed Low-Rank Adaptation(权重分解低秩适配)介绍了一种新的参数高效微调方法(PEFT)——DoRA,其旨在缩小LoRA和完全微调(FT)之间的准确性差距。通过将预训练权重分解为幅度和方向两个部分,DoRA专门采用L Read more
训练AI模型就像是炼丹…😄 #AI模型训练 #炼丹看公司小伙伴训练AI模型,通过优化输入层例如拉宽数值时间区间和增加典型特征值,调整隐藏层层级和改变部分层的类型,模型的验证精度提升了30多个百分点。 #炼丹⚗️持续中~公司小伙伴报告,服务器端AI模型经过低位整型化处理后,运行效率 Read more
对于深度学习推理的整数量化(Quantization),这篇论文《用于深度学习推理的整数量化:原理与经验评估》(Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluatio Read more
Nvidia这两天发布了MambaVision,即一种新型混合Mamba-Transformer视觉Backbone。针对的MambaVision的研究在论文《MambaVision: A Hybrid Mamba-Transformer Vision Backbone》有具体阐 Read more
PaliGemma 是一个开放的视觉语言模型(VLM),它结合了 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型。其目标是提供一个多功能的基础模型,能够有效迁移到各种任务,在近40个不同的任务中表现出色,包括标准的 VLM 基准测试以及更专业的任务如遥感和分 Read more
Gartner于2023年4月发布题为《4 Top Practices That Help EA/TI Leaders Add Value to Artificial Intelligence Initiatives》的报告,详细探讨了如何通过企业架构(EA)和技术创新(TI)领 Read more
一、LoRA(Low-Rank Adaptation) LoRA(Low-Rank Adaptation)是一种在机器学习和深度学习领域使用的技术,主要用于在大规模预训练模型(如BERT、GPT等)上进行高效的参数微调。LoRA的核心思想是通过限制模型参数的变化范围来减少微调所需 Read more
来自Roboflow的Piotr Skalski正在研究的足球AI项目⚽,很有趣。实现了如下功能: 1.训练一个自定义目标检测模型来检测球、球员和裁判;2.球员跟踪(尝试使用ByteTRACK、StrongSORT等方法);3.训练一个自定义关键点检测模型来检测足球场的特征点;4 Read more
自注意力机制在长上下文中表现良好,但其复杂度为二次方。现有的RNN层具有线性复杂度,但其在长上下文中的性能受限于其隐藏状态的表达能力。论文Learning to (Learn at Test Time): RNNs with Expressive Hidden States提出了 Read more