人工智能AI

现实应用中的多模态大模型(MLLM)在知识密集与信息检索型视觉问答任务上常受限于静态训练语料与长尾知识分布,难以及时获取最新事实与开放世界知识;传统RAG与“搜索代理”方案又常存在检索管线僵硬、查询构造欠佳、过度检索与噪声注入等问题。论文DeepMMSearch-R1: Empo Read more
论文Paper2Video: Automatic Video Generation from Scientific Papers提出了一个面向学术场景的“从论文自动生成学术展示视频”方案:基准数据集 Paper2Video(101 篇论文与作者录制的展示视频/幻灯片/说话人元数据 Read more
现代人获取健康信息的入口极多,但也伴随低质信息、理解偏差与焦虑等风险。大型语言模型(LLMs)虽然在医学知识与问答任务上表现不俗,但若缺乏对个体情境的主动“问诊式”追问,回答常会失焦或误导。文章Towards Better Health Conversations: The Be Read more
大型语言模型(LLM)驱动的智能体正被用于长期、持续的真实世界任务(如网页浏览、软件工程自动化),但主流智能体在“跨任务学习”上存在明显短板:它们往往把每个任务当作孤立事件处理,既无法从历史交互中汲取可迁移的推理策略,也难以避免重复犯错。这种“无记忆或弱记忆”的模式不仅浪费了宝贵 Read more
论文Barbarians at the Gate: How AI is Upending Systems Research主张:在“可靠验证”的系统研究场景中,AI(以LLM为核心)能够通过“生成多样方案—自动评测—择优迭代”的范式,有效搜寻并进化算法,进而在若干实际任务上超越或 Read more
Agentic Design Patterns(《智能体设计模式》),作者:Antonio Gulli 目录 - 共 424 页 = 1+2+1+1+4+9+103+61+34+114+74+5+4 11 Dedication(致谢词),1 页 Acknowledgment(致谢 Read more
论文Less is More: Recursive Reasoning with Tiny Networks针对在数独、迷宫、ARC-AGI 等“硬推理”任务上,传统大语言模型(LLMs)即便结合链式思维(CoT)与测试时计算(TTC)仍难以达成人类级表现的问题,提出了一个显著更 Read more
随着人工智能(AI)和机器学习(ML)的迅猛发展,数据科学领域取得了显著进展,广泛应用于机器翻译、推荐系统、社会模拟和医学诊断等领域。然而,伴随数据日益异构与高维化,数据科学任务的复杂性也持续上升,需要更高水平的专业知识和工程能力。尽管Kaggle等众包平台部分缓解了这一挑战,但 Read more
扩散模型在图像生成上长期以卷积式 U-Net 为主干,但论文Scalable Diffusion Models with Transformers提出以 Transformer 作为扩散模型的主干(Diffusion Transformer,简称 DiT),并系统研究其“可扩展性 Read more
看了OpenAI DevDay 2025:Sam Altman 开场演讲,感觉ChatGPT逐渐地要包打一切了。 一、总体定位与数字 二、ChatGPT 内的“Apps”与 Apps SDK(预览) 三、AgentKit:面向生产的智能体全栈 四、模型与 API 更新 五、Cod Read more
个人健康与日常福祉高度相关,但传统“单体式”对话大模型在面对真实用户的多样化健康诉求(数据解读、医学知识查证、行为改变指导等)时往往力不从心。论文The Anatomy of a Personal Health Agent提出并系统评估了一个面向个人健康的多智能体框架——Pers Read more
世界运行本就基于概率,AI让概率运行更显式了。 The world has always run on probability; AI just makes that probabilistic operation more explicit. Reality has alway Read more