人工智能AI

Google Deepmind近日发布报告A new golden age of discovery---Seizing the AI for Science opportunity(《把控赋予科学发现全新机遇的人工智能,迎接科学发现黄金时代》)。该报告以极其详尽的方式探讨了AI Read more
论文Understanding Transformer Reasoning Capabilities via Graph Algorithms《通过图算法理解 Transformer 的推理能力》主要探索了Transformer 在解决图推理任务时的理论与实践表现。Transfo Read more
论文NaVILA: LEGGED ROBOT VISION-LANGUAGE-ACTION MODEL FOR NAVIGATION提出了一个用于腿式机器人导航的新型视觉语言行动模型框架NaVILA。NaVILA框架通过创新性的分层设计,成功实现了腿式机器人在复杂场景中的视觉-语 Read more
论文Pretraining Codomain Attention Neural Operators for Solving Multiphysics PDEs提出新型架构Codomain Attention Neural Operator (CoDA-NO)。CoDA-NO通过引 Read more
论文Learning the rules of peptide self-assembly through data mining with large language models(《通过大型语言模型的数据挖掘学习肽自组装的规则》)系统性研究了肽的自组装行为,重点在于结合实验 Read more
论文LLM-based agentic systems in medicine and healthcare探讨了基于大语言模型(LLM)的代理系统在医学和医疗保健中的应用。文章的核心目标是展示如何将LLM扩展为具备感知、思考和行动能力的“智能代理系统”(agentic syst Read more
论文PaliGemma 2: A Family of Versatile VLMs for Transfer(《PaliGemma 2: 用于迁移学习的多功能视觉-语言模型家族》)详细介绍了PaliGemma模型的升级过程。PaliGemma 2基于Gemma 2系列语言模型,是 Read more
论文Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction提出了一种全新的视觉自回归生成框架——视觉自回归建模(VAR),通过多尺度的生成策略,有效解决了传统自回归模型 Read more
论文PINNs4Drops: Convolutional feature-enhanced physics-informed neural networks for reconstructing two-phase flows(“PINNs4Drops: 用卷积特征增强的物理信息 Read more
论文Extending Video Masked Autoencoders to 128 frames(《扩展视频掩码自动编码器至128帧》)研究了如何通过改进的视频掩码自动编码器(MAE)策略来增强视频理解的效果,尤其是在长视频(128帧)上的表现。论文提出了一种适应性解码器掩 Read more
Google DeepMind刚推出了Genie 2。Genie 2是一种基础世界模型,能够生成无限多样的、可控动作和可玩的3D环境,用于训练和评估具身代理。基于单一提示图像,它可以通过键盘和鼠标输入由人类或AI代理进行操控。 Genie 2可以模拟虚拟世界,包括采取任意动作(例 Read more
论文《VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models》提出了一种新型的视觉语言模型家族——VLsI,针对如何在保持模型性能的前提下实现更高效的视觉-语言模型(VL Read more