结论是:当你的问题涉及“专有、时效、现场/上下文、合规与可追溯、或强工作流耦合”时,垂直 RAG 依然非常有价值;当问题只是大众常识或公开静态知识时,直接用通用大模型更省心。
下面用决策视角把话说透:
一、为什么通用大模型“吃掉一切”的叙事并不成立
- 专有与授权边界:你企业的维保手册、内控流程、CAD/BOM、客户工况数据、质检报告,通常不可能“被整合进”公共模型语料,即便模型厂商能接入,也涉及版权/隐私/数据驻留与责任归属。
- 时效性与局部事实:通用模型再强,也无法“事先知道”你昨天刚更改的 SOP、今天刚出的一线巡检记录、现场异常日志。RAG 的检索层才能把这些最新的局部事实注入推理。
- 可验证与合规:监管/审计场景要求出处可追溯、答案可复核。RAG 的“检索-生成-引用”链路天然提供可证明的依据,而端到端内化到权重里的“知识”难以满足留痕与举证需求。
- 延迟/成本与确定性:很多行业问答是低温高频(例如工单诊断、料号匹配、参数对照)。在有好索引的情况下,RAG 直接命中文档段落+轻量推理,比长上下文大模型更快、更便宜、更稳定。
- 工作流与工具耦合:真实场景需要“读文档→查台账→拉设备实时数据→生成表单/工单→入库闭环”。RAG 是一个粘合层:把检索、结构化查询、工具调用、模板化输出粘在一起;不是单纯“回答问题”。
二、什么时候“别急着上垂直 RAG”
- 需求仅限公开常识(比如“什么是PID”),不涉及你家的私域数据与流程;
- 数据规模小、更新慢、问答频率低,不足以覆盖建设与运维成本;
- 没有明确的落地 KPI(例如首次解决率、人均处理时长、减少误派单率、合规命中率)——此时做 RAG 很容易流于“演示工程”。
三、有效的中道方案:把“行业知识”做成一层“可检索的接口”,而非“重复造模型”
理念:用通用大模型做推理/语言/多模态理解;用垂直 RAG 管“事实层、上下文与工具层”。
落地要点:
- 数据建模:不是把 PDF 全丢进向量库。要做分层索引:结构化库(参数、SOP、料号)、半结构化库(表格/表单/点表)、非结构化库(手册、日报)、图谱/关系(部件-故障-原因-处置)。
- 多检索融合:关键词/倒排 + 向量 + 重排(cross-encoder)+ 结构化 SQL/Graph 查询;必要时加规则/本体(术语别名、部件层级、工况语义)。
- 短上下文模板:提示词遵循“问题→候选证据→思考→结论→引用”,控制上下文长度与可复核性。
- 工具路由:把实时系统(SCADA/CMMS/ERP/PLM/传感器流)封装成函数调用,RAG 告诉模型“什么时候该查库,什么时候该算FFT/拉时序/生成工单”。
- 质量与风控:建立离线基准集(golden set)+ 在线 A/B,指标至少包含:答案正确率、引用有效率、幻觉率、时延、单位成本、一次解决率、合规模板覆盖率。
- 人机协作闭环:引入反馈与纠错(审阅、标注、申诉流),把一线纠偏反哺索引与模板,形成“越用越准”的知识运营。
四、ROI 快速评估清单(拿这个自查)
- 问题是否依赖企业私有或最新信息?
- 是否需要引用出处、保留证据链?
- 是否与工具/数据库联动(查台账、开工单、生成报告)?
- 对延迟/成本是否敏感(≥QPS 级别)?
- 是否有监管或合同合规要求?
→ 若 3 项以上回答“是”,垂直 RAG 基本值得做;否则以通用模型直答为主,叠一层轻量检索即可。
五、常见误区
- 只做“向量库 + 大模型”而不治理数据(命名不统一、版本混乱、旧文未标时效),效果会越来越差;
- 过度追求“端到端私有大模型”,忽略迭代成本与落地周期;
- 不做评测集与回放,上线后不知道哪里在退化;
- 把“生成报告”当目标,却没有结构化输出/模板/字段校验,无法入库复用。
六、给一个务实路线图
- 用通用大模型(ChatGPT/Gemini/本地 SOTA)做推理与语言;
- 先做最小可用 RAG:倒排+向量+重排三件套,覆盖 10–20 个高频问题;
- 并行做数据治理:术语表/本体、SOP 版本控制、结构化台账抽取;
- 加工具路由:把 1–2 个关键系统(如工单/设备台账/时序数据库)接成函数;
- 建立评测与观测:离线基准 + 在线指标看板;
- 再谈“行业深耕”:加入知识图谱、规则引擎、报告模板、合规模板与审批流。
一句话总结:
通用大模型会“越来越懂世界”,但你的业务价值在“世界里那一小块独有、最新、需要被证明且要落到动作上的事实”。这块,垂直 RAG 不是可有可无的“知识补丁”,而是把模型变成可用系统的关键胶水。