人工智能AI

让OpenAI的Codex改代码,基本上“一击命中”,每次所下达的指令都能被有效执行并得到预期结果。 前提还是:需求尽可能描述清楚,把能想到的需求细节尽可能完整地写出来。 Read more
一、PaddleOCR-VL 是什么(核心设计与能力) 二、DeepSeek-OCR 是什么(核心理念与能力) 三、两者侧重点的本质差异 维度PaddleOCR-VLDeepSeek-OCR问题导向文档解析全流程(文本/表格/公式/图表),追求小而强、快而稳长上下文成本问题:用视 Read more
论文Exploring Network-Knowledge Graph Duality: A Case Study in Agentic Supply Chain Risk Analysis针对“供应链风险分析”这一强网络属性、强多模态的数据场景,批判了传统做法:其一,依赖专项微 Read more
论文BitNet Distillation提出 BitNet Distillation(BitDistill)框架,将现成全精度大模型(如 Qwen 系列)以极低成本微调为 1.58-bit(三值 {-1,0,1})权重量化模型,用于具体下游任务,同时在 CPU 上实现约 10× Read more
论文LLMs Can Get "Brain Rot"!提出并实证验证“LLM 脑腐化(Brain Rot)假说”:当大语言模型在持续预训练阶段长期暴露于“垃圾网络文本”(junk web text)时,其认知能力会出现持久性退化,包括推理、长上下文理解、安全规范以及“黑暗人格特质 Read more
经典CFD(Computational Fluid Dynamics)仿真在汽车与航空航天外流场分析中耗时高、算力成本大,促使工业界寻求“神经替代(neural surrogate)”以数量级加速。AB-UPT(Anchored-Branched Universal Physic Read more
大型语言模型(LLM)在部署端最常用的压缩路径是后训练量化(Post-training quantization, PTQ)。但在≤4bit的低比特权重量化下,均匀、无校准的经典方法(如RTN)常因“离群值”而显著劣化——同一缩放因子被迫同时服务于极大值与普通权重,导致整行或整列 Read more
聚合物具有多尺度、强相互作用耦合等复杂性,传统经典力场(如 PCFF/OPLS)在可迁移性与精度上常受限,而从头算方法又难以覆盖需要的体系规模与时间尺度。论文SimPoly: Simulation of Polymers with Machine Learning Force F Read more
当今大模型在处理长文本时,注意力计算随长度二次增长,算力与显存压力巨大。DeepSeek的最新模型DeepSeek-OCR提出用“视觉—文本”通道进行“光学压缩”:把长文本渲染为高分辨率图像,经视觉编码器压成少量“视觉token”,再由解码器还原为文本。作者以端到端OCR为试验台 Read more
论文AI models collapse when trained on recursively generated data关注一个将长期影响生成式AI生态的核心问题:当模型不断在由前代模型生成的数据上再训练时,会发生什么?作者提出并系统刻画了“模型坍塌(model colla Read more
大型语言模型(LLM)正被用于构建“自驱动实验室(self-driving laboratories, SDL)”,期望把复杂实验的“规划—执行—分析”全链条自动化。但现有SDL多依赖“固定脚本+单一目标”,缺少专家在现场做出的灵活调参、跨工具协同与异常处置能力。论文Evalua Read more
短答:不能在“普通新建聊天”里直接指定某几段“历史对话”作为上下文自动载入。 但有几种官方支持的替代方案,能实现“把既往内容带进来”的效果: 给你的可落地做法 In a brand-new ChatGPT chat, can I designate one or more pas Read more