人工智能AI

DeepSeek-OCR:不是“一目十行”,而是“百行”乃至“千行”的上下文理解

DeepSeek-OCR:不是“一目十行”,而是“百行”乃至“千行”的上下文理解

当今大模型在处理长文本时,注意力计算随长度二次增长,算力与显存压力巨大。DeepSeek的最新模型DeepSe...
Read More

模型坍塌(model collapse)

论文AI models collapse when trained on recursively genera...
Read More

ChatGPT的新建聊天中,能否指定一个或多个历史聊天记录作为本次对话的context?其实这是一个硬需求

短答:不能在“普通新建聊天”里直接指定某几段“历史对话”作为上下文自动载入。 但有几种官方支持的替代方案,能实...
Read More

整合MinerU + Chonkie + RAG-Anything 的 RAG系统技术实现

今日略研究了一下整合MinerU + Chonkie + RAG-Anything 的 RAG系统技术实现:...
Read More
Reducto 与 RAG-Anything 的比较与分析

Reducto 与 RAG-Anything 的比较与分析

Reducto 和 RAG-Anything 都利用视觉-语言模型(VLM)来增强对多模态文档的理解,确保图像...
Read More

AI应用初创公司的护城河:专有数据

投资公司Andreessen Horowitz(a16z)对AI应用初创公司的建议:可以转向规模不重要的赛道,...
Read More
包含数据/模型/工程三位一体内容的机器人学习(Robot Learning)教程

包含数据/模型/工程三位一体内容的机器人学习(Robot Learning)教程

Robot Learning: A Tutorial是一篇面向研究者与实践者的“机器人学习”教程型综述,主张在...
Read More

RAG Chunking原则

Chunking的目标不是“平均分字数”,而是让每个块都在语义上自洽、可被独立检索,且能回到原文定位,以支撑...
Read More
Reducto:给LLM/RAG喂料(结构化数据)的产品

Reducto:给LLM/RAG喂料(结构化数据)的产品

今日试用了Reducto的产品,可以用于RAG,例如专业文档的chunking。 Reducto公司介绍 一、...
Read More
DeepMMSearch-R1:通过“多工具、多轮交互”检索增强推理循环,实现面向真实网页的多模态检索/推理一体化

DeepMMSearch-R1:通过“多工具、多轮交互”检索增强推理循环,实现面向真实网页的多模态检索/推理一体化

现实应用中的多模态大模型(MLLM)在知识密集与信息检索型视觉问答任务上常受限于静态训练语料与长尾知识分布,难...
Read More
Paper2Video:从论文自动生成学术展示视频

Paper2Video:从论文自动生成学术展示视频

论文Paper2Video: Automatic Video Generation from Scientif...
Read More
寻路型AI(Wayfinding AI):打造“更像医生”的健康对话系统

寻路型AI(Wayfinding AI):打造“更像医生”的健康对话系统

现代人获取健康信息的入口极多,但也伴随低质信息、理解偏差与焦虑等风险。大型语言模型(LLMs)虽然在医学知识与...
Read More