今日试用了Reducto的产品,可以用于RAG,例如专业文档的chunking。

Reducto公司介绍
一、公司与定位
Reducto 是一家面向开发者与企业的“文档智能(Document Intelligence)/数据摄取(Document Ingestion)”平台,核心作用是把复杂的 PDF、图片、表格/幻灯片等非结构化文档,转成结构化、可追溯、适配 LLM/RAG 的数据。官网将其定位为“将文档变成数据,构建不受束缚的 AI 工作流”,已服务从初创到 Fortune 10 的客户。其方法同时结合传统版面分析与视觉—语言模型(VLM)的多轮纠错与理解,目标是达到“像人类一样读文档”的准确度。
二、产品与技术路线(“像人读文档”的多通道流水线)
Reducto 的解析流程大致为三步:
- 版面/布局建模:先用“布局感知”模型切分页面区域、表格、图表与文本;
- Agentic OCR 纠错:类似人工校对,用 VLM 对 OCR 小错进行矫正;
- VLM 语义复核:在上下文中链接标签-数值、理解表格与区段类别,输出结构化结果。
在功能层,Reducto 提供四大类 API:
- Parse(解析):保留版面结构与语义;
- Split(切分):自动把大 PDF 或多文档打散成可用单元;
- Extract(抽取):按自定义 schema抽取关键字段;
- Edit(编辑):自动填充表格/空格/复选框(无需模板/框选)。
同时配有智能分块(chunking)、图表/图形理解与摘要、图/表提取、自动旋转、多语 OCR、嵌入优化等能力,强调“LLM-ready”。
三、功能速览(选摘)
- 版面与边界框:保留 bbox 与结构(适合可视核查与引用)。
- 表格/图形/公式/图片:面向复杂财报、科研/医疗图表等的解析。
- 多文件切分与聚类:把长表格/多单据批量拆分。
- 多语言 + 手写体 OCR:适应扫描件/传真/低质图像。
- Extraction Citations:抽取项可附来源定位。
- Studio 评估:可在可视化界面评估不同配置与质量。
四、开发者体验(API + Studio)
- API:上传、解析、抽取、编辑、切分均有 REST 端点,支持异步作业、Webhook、批处理与速率限制升级;官方文档包含 OCR 配置、页面范围、表格输出格式、分块方法与 Agentic 模式等详解。
- Reducto Studio:交互式工作台,用于快速试验、评估、对比配置并导出管线。
五、安全、合规与部署形态
- 合规:通过 SOC 2 Type II;提供 HIPAA 合规处理流水线(可签 BAA)。
- 数据策略:面向 Growth 及以上客户提供 Zero Data Retention(24 小时自动清除) 与“训练零使用”的承诺;S3 加密存储、传输全程 TLS。
- 部署:除托管外,企业版支持 VPC/本地化/隔离部署,满足数据驻留与合规需求。
六、价格与计费(2025 年 10 月)
- Standard(按量):前 15,000 credits 免费(实测下来为1000 credits),之后 $0.015/credit;含 Parse/Extract/Edit/Split、30+ 文件类型、至多 5 个 Studio 席位、无页数上限。
- Growth(定制):在 Standard 基础上增加批量折扣、Zero Data Retention 协议、BAA、优先速率与请求、优先支持、EU/AU 数据驻留、无限席位、Studio 评估等。
- Enterprise(定制):再加 VPC/本地化部署、自定义 MSA/SLA/吞吐、专属 on-call、RBAC、SSO/SAML 等。
官方还提供“信用消耗/费率”计算说明与速率档位(1/10/100+ QPS)。
计费单位为 credit:一次解析/抽取/切分/编辑调用会按操作类型、配置与页数消耗 credit;支持“简单页(无表格/图形摘要)0.5x 折算”的自动优惠(以官方说明为准)。
七、团队、融资与发展动态
- 创始团队:公开信息显示由 Adit Abraham(CEO) 与 Raunak Chowdhuri(CTO) 共同创立;公司参加过 Y Combinator,YC 页面称其为“最准确的文档解析 API”。
- 融资:
- 2025 年 4 月:宣布 $24.5M Series A(First Round 播客稿件同时提及 0→7 位数 ARR、每月处理量千万级页面)。
- 2025 年 10 月 14 日:宣布 $75M Series B,由 a16z 领投,Benchmark、First Round、BoxGroup、YC 等参投;累计融资 $108M。
- 市场定位:主攻“高准确度、可生产落地”的文档智能底座,典型客户来自法律、金融、医疗与企业级 AI 团队。
八、典型应用与行业适配
- 金融:从投研材料、SEC 文件、报表/图表中抽取结构化指标与引文;
- 医疗:HIPAA 场景下的病历/影像报告字段抽取与图表理解;
- 法律:红线 PDF → 文本/结构化摘要,条款/要素抽取;
- 保险/政企:表单/理赔/合同等批量处理,驱动自动化与 RAG 检索。
这些场景均由官网“Use cases”与客户案例风格化展示与表述。
九、与常见替代方案的区分要点(简述)
- 不是传统 OCR:强调 VLM 复核 + Agentic 纠错,提升复杂表格/图表与跨页结构理解的可靠性;
- LLM-ready 输出:提供结构化 JSON、分块与嵌入优化,直接喂入向量库/LLM 的 RAG 与自动化链路;
- 企业特性:SOC2/HIPAA、ZDR、驻留/本地化与 RBAC/SSO,降低落地门槛与合规阻力。
十、适合谁 / 可能不适合谁
适合:
- 有复杂文档(大表格、图表、扫描件、多语言/手写体)的生产级解析/抽取需求;
- 需要RAG/自动化中高质量分块与字段抽取、并要求可审计/可追溯;
- 对合规与驻留/本地化有严格要求的医疗/金融/法律/政府等。
可能不适合:
- 仅需极简 OCR、无结构保持/无 LLM 管线集成的轻量场景;
- 对本地离线完全断网和极端资源受限设备上的运行有刚性需求,但不考虑企业版本地化部署的团队。
十一、快速上手(实务建议)
- 在 Studio 里用少量样例文件试跑 Parse/Extract,观察版面结构与字段映射;
- 在文档 API 中对比不同 OCR/VLM 配置、分块策略与表格输出格式,借助“评估”功能做 A/B;
- 若涉及 PHI/PII,选择 Growth/Enterprise,启用 ZDR + BAA 与数据驻留;
- 需要大吞吐或内网部署时,联系企业版开通 VPC/On-prem 与自定义 SLA。