人工智能AI

今日略研究了一下整合MinerU + Chonkie + RAG-Anything 的 RAG系统技术实现: MinerU:开箱即用的高保真版面解析(表格/跨页/公式/图题),且输出结构化 JSON + Markdown,特别适合后续切块与证据回显。 Chonkie:专注“切块就 Read more
Reducto 和 RAG-Anything 都利用视觉-语言模型(VLM)来增强对多模态文档的理解,确保图像、表格等非文本内容被转化为 LLM-ready 的数据 或整合为上下文以提供更深入的洞察。然而,两者在架构、目的和 VLM 实施重点上存在显著差异。 1. 架构焦点与系统 Read more
论文RAG-Anything: All-in-One RAG Framework提出 RAG-Anything,一个“面向一切模态”的统一 RAG 框架,用于弥合现实世界多模态知识库(文本、图片/图表、表格、公式)与现有以纯文本为中心的 RAG 方案之间的错配。作者指出,把多模态 Read more
大型语言模型(LLM)在多任务上表现强劲,但“编造/幻觉”导致事实性不足,限制了实际可信度。论文SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models指出,相比训 Read more
投资公司Andreessen Horowitz(a16z)对AI应用初创公司的建议:可以转向规模不重要的赛道,用“稀缺性”来打造护城河。可防御性来自那些私有、可信且难以复制的数据领域。 围墙花园的果实 当基础设施沿着技术栈向上攀升 生成式 AI 起步时许诺的是分层生态:底层是模型 Read more
Robot Learning: A Tutorial是一篇面向研究者与实践者的“机器人学习”教程型综述,主张在不抛弃传统动力学/控制学成果的前提下,以数据驱动的学习范式(RL/BC 与通用语言条件化策略)重塑从“感知到动作”的端到端控制栈。作者不仅体系化梳理了传统与学习范式的分野 Read more
论文REFRAG: Rethinking RAG based Decoding介绍了一种名为 REFRAG (REpresentation For RAG) 的新型高效解码框架,专为检索增强生成 (RAG) 应用设计。简单来说,REFRAG 的目标是解决大型语言模型 (LLMs) Read more
Chunking的目标不是“平均分字数”,而是让每个块都在语义上自洽、可被独立检索,且能回到原文定位,以支撑 RAG 的“召回→重排→引用”。因此原则是: Read more
今日试用了Reducto的产品,可以用于RAG,例如专业文档的chunking。 Reducto公司介绍 一、公司与定位 Reducto 是一家面向开发者与企业的“文档智能(Document Intelligence)/数据摄取(Document Ingestion)”平台,核心 Read more
现实应用中的多模态大模型(MLLM)在知识密集与信息检索型视觉问答任务上常受限于静态训练语料与长尾知识分布,难以及时获取最新事实与开放世界知识;传统RAG与“搜索代理”方案又常存在检索管线僵硬、查询构造欠佳、过度检索与噪声注入等问题。论文DeepMMSearch-R1: Empo Read more
论文Paper2Video: Automatic Video Generation from Scientific Papers提出了一个面向学术场景的“从论文自动生成学术展示视频”方案:基准数据集 Paper2Video(101 篇论文与作者录制的展示视频/幻灯片/说话人元数据 Read more
现代人获取健康信息的入口极多,但也伴随低质信息、理解偏差与焦虑等风险。大型语言模型(LLMs)虽然在医学知识与问答任务上表现不俗,但若缺乏对个体情境的主动“问诊式”追问,回答常会失焦或误导。文章Towards Better Health Conversations: The Be Read more