人工智能AI

大型语言模型(LLM)驱动的智能体正被用于长期、持续的真实世界任务(如网页浏览、软件工程自动化),但主流智能体在“跨任务学习”上存在明显短板:它们往往把每个任务当作孤立事件处理,既无法从历史交互中汲取可迁移的推理策略,也难以避免重复犯错。这种“无记忆或弱记忆”的模式不仅浪费了宝贵 Read more
论文Barbarians at the Gate: How AI is Upending Systems Research主张:在“可靠验证”的系统研究场景中,AI(以LLM为核心)能够通过“生成多样方案—自动评测—择优迭代”的范式,有效搜寻并进化算法,进而在若干实际任务上超越或 Read more
Agentic Design Patterns(《智能体设计模式》),作者:Antonio Gulli 目录 - 共 424 页 = 1+2+1+1+4+9+103+61+34+114+74+5+4 11 Dedication(致谢词),1 页 Acknowledgment(致谢 Read more
论文Less is More: Recursive Reasoning with Tiny Networks针对在数独、迷宫、ARC-AGI 等“硬推理”任务上,传统大语言模型(LLMs)即便结合链式思维(CoT)与测试时计算(TTC)仍难以达成人类级表现的问题,提出了一个显著更 Read more
随着人工智能(AI)和机器学习(ML)的迅猛发展,数据科学领域取得了显著进展,广泛应用于机器翻译、推荐系统、社会模拟和医学诊断等领域。然而,伴随数据日益异构与高维化,数据科学任务的复杂性也持续上升,需要更高水平的专业知识和工程能力。尽管Kaggle等众包平台部分缓解了这一挑战,但 Read more
扩散模型在图像生成上长期以卷积式 U-Net 为主干,但论文Scalable Diffusion Models with Transformers提出以 Transformer 作为扩散模型的主干(Diffusion Transformer,简称 DiT),并系统研究其“可扩展性 Read more
看了OpenAI DevDay 2025:Sam Altman 开场演讲,感觉ChatGPT逐渐地要包打一切了。 一、总体定位与数字 二、ChatGPT 内的“Apps”与 Apps SDK(预览) 三、AgentKit:面向生产的智能体全栈 四、模型与 API 更新 五、Cod Read more
个人健康与日常福祉高度相关,但传统“单体式”对话大模型在面对真实用户的多样化健康诉求(数据解读、医学知识查证、行为改变指导等)时往往力不从心。论文The Anatomy of a Personal Health Agent提出并系统评估了一个面向个人健康的多智能体框架——Pers Read more
世界运行本就基于概率,AI让概率运行更显式了。 The world has always run on probability; AI just makes that probabilistic operation more explicit. Reality has alway Read more
大模型在推理任务中已可调⽤代码解释器与搜索等外部工具,但“何时用文本推理、何时写代码、何时检索、以及如何把这些能力组合起来”并无清晰实证范式。现有 Code Interpreter 的实现常在“文本 vs 代码”的取舍上失衡,且学界对“代码+搜索+自推理”的联合利用仍缺系统方法与 Read more
维度OpenEvidenceGlass HealthMedwiseUpToDate (Wolters Kluwer)ClinicalKey AI (Elsevier)核心定位医生用循证搜索/问答 + Visits 就诊工作流 + Deep Consult 研究诊断与治疗计划起草( Read more
结论是:当你的问题涉及“专有、时效、现场/上下文、合规与可追溯、或强工作流耦合”时,垂直 RAG 依然非常有价值;当问题只是大众常识或公开静态知识时,直接用通用大模型更省心。 下面用决策视角把话说透: 一、为什么通用大模型“吃掉一切”的叙事并不成立 二、什么时候“别急着上垂直 R Read more