一、数据治理到底是什么
数据治理(Data Governance)不是“做一套文档/建个数据仓库/上个数据平台”,而是:
- 一套组织机制:明确“谁对什么数据负责、怎么决策、怎么协作、怎么追责/激励”
- 一套制度体系:标准、规范、流程(定义、口径、权限、质量、变更、审计)
- 一套技术与运营能力:目录、血缘(数据血缘,Data Lineage)注、质量规则、主数据、权限与审计、数据服务化
- 一个持续运营的闭环:问题发现 → 分派 → 修复 → 复盘 → 规则固化 → 指标提升
一句话:让数据变成“可用、可信、可控、可持续”的资产。
.jpg)
二、数据治理要解决哪些“真实痛点”
你可以把治理目标拆成四类(也是绝大多数企业上治理的原因):
- 可用(Availability)
数据找不到、拿不到、拿到太慢;跨部门要数据像“走关系”。 - 可信(Trustworthiness)
指标口径打架(GMV/营收/活跃用户各算各的);报表对不上;领导不信数。 - 可控(Control & Compliance)
权限乱、敏感数据外泄风险、审计追不动;合规(隐私/行业监管)压力大。 - 可增值(Value)
数据资产沉睡,复用率低;同一套数据反复采、反复清洗;AI/BI成本高效果差。
三、数据治理“管什么”:八大治理域(最常用视角)
你可以把数据治理理解成对以下八块的系统管理(不同企业侧重不同):
- 数据标准:命名、字段定义、编码规则、时间口径、单位、枚举值等
- 指标体系:指标定义、口径、计算逻辑、归属与版本(“指标即产品”)
- 元数据管理:数据的“说明书”(表/字段/报表/接口/负责人/使用场景)
- 数据质量(DQ):准确性、完整性、一致性、及时性、唯一性、合理性
- 主数据(MDM):客户/供应商/物料/门店/设备等“全局唯一的核心实体”
- 数据安全与权限:分类分级、最小权限、脱敏、加密、审计、留痕
- 数据生命周期:产生、存储、使用、归档、删除(含合规保留期)
- 数据血缘与影响分析:指标/报表/模型变更会影响谁(减少“改一处炸全站”)
四、谁来管:组织与角色(这是成败关键)
很多治理失败,不是技术不行,是角色不清、权责不对等。
1) 典型组织形态
- 数据治理委员会(Data Council):跨部门最高决策(业务 + IT + 安全 + 合规)
- CDO/数据负责人:推动、协调、资源与KPI对齐
- 数据治理办公室(DGO):制度、流程、指标、运营(“中枢”)
- 数据Owner(数据所有者):对数据定义与业务正确性负责(通常在业务部门)
- 数据Steward(数据管家):日常维护、口径落地、质量规则与问题闭环
- 数据Custodian(数据保管者):平台/权限/备份/安全技术实现(通常IT/数据平台团队)
2) 一句很好用的分工原则
- 业务对“含义与正确性”负责(定义、口径、主数据规则)
- 技术对“可用与可控”负责(平台、权限、血缘、质量执行与监控)
- 治理团队对“机制与闭环”负责(制度、流程、度量、推动)
五、怎么管:把治理做成“可运行的操作系统”
建议把数据治理做成 4 个闭环系统:
闭环A:标准与口径闭环(“说清楚”)
- 业务术语表/数据字典(Glossary)
- 指标管理(Metric Store / 指标口径版本)
- 变更流程:新建/变更/废弃必须走评审(影响分析 + 通知机制)
核心产物:可查询、可版本化、可追责的“定义系统”。
闭环B:质量闭环(“盯住它”)
- 质量规则库:唯一性、范围、参照完整性、波动检测、异常阈值等
- 质量监控:日报/告警/趋势
- 问题工单:定位 → 责任人 → 修复 → 复盘 → 固化规则
关键点:质量不是“报表上贴个分数”,而是能自动发现、能有人负责、能持续下降问题存量。
闭环C:安全与合规闭环(“管住它”)
- 数据分类分级(如公开/内部/敏感/机密)
- 权限模型(RBAC/ABAC)、最小权限
- 脱敏策略(静态脱敏/动态脱敏)、水印、审计
- 合规要求落到“可执行策略”(比如:数据保留期/删除请求/访问日志)
闭环D:资产与服务闭环(“用起来”)
- 数据目录(Catalog):能搜、能懂、能申请、能看负责人
- 数据产品化:把数据集/指标/特征做成“可订阅的服务”
- 数据SLA:刷新频率、延迟、可用性、质量阈值
六、用什么管:能力地图(从工具到体系)
你不一定要全买全做,但能力缺哪块,治理就会“断腿”。
- 数据目录/元数据:Catalog、Glossary、Owner/Steward、使用热度、申请入口
- 血缘:从ETL/SQL/调度/BI/指标一路贯通的lineage
- 数据质量平台:规则编排、任务执行、告警、工单联动
- 主数据平台:主数据建模、匹配合并、黄金记录、分发
- 权限与审计:统一身份、细粒度授权、行为审计
- 数据开发与发布规范:数据分层、命名、分区、版本、回滚
- 数据契约(Data Contract)(很值得重视):上游数据结构/语义/质量的“承诺”,下游依赖清晰
七、如何落地:一套不容易“空转”的实施路线
很多团队一上来就“建制度、做标准、搞全域治理”,最后变成 PPT 工程。更稳的路径是:先打赢一两个业务战役。
0)选一个“高价值场景”当突破口
特征:指标争议大、影响面广、跨部门扯皮多、领导痛感强
例如:营收口径、渠道转化、库存周转、设备故障率、客户统一视图等。
1)90天最小闭环(强推荐)
第1-2周:盘点现状
- 关键指标清单 + 口径冲突点
- 关键数据链路(数据从哪来、怎么加工、谁在用)
- 当前质量问题Top10
第3-6周:建立“可运行机制”
- 术语表 + 指标口径(先做最关键的20个)
- Owner/Steward落位(写进RACI)
- 质量规则(先做最痛的10条)+ 告警 + 工单闭环
第7-12周:服务化与推广
- 数据目录可搜索可申请
- 指标/数据集发布为可复用资产
- 周例会/看板:问题存量、修复时长、口径覆盖率、复用率
2)治理成熟度指标(用来防止“只做动作不见效果”)
- 指标口径覆盖率:关键指标有无唯一权威定义
- 质量指标:DQ得分趋势 + 重大事故次数
- 问题闭环效率:MTTR(平均修复时长)、超时工单占比
- 资产复用率:重复开发减少、被订阅次数
- 权限合规:敏感数据访问审计覆盖率、越权事件次数
八、常见误区(踩坑率极高)
- 把治理当成IT项目:业务不背责,最后变成数据团队“自嗨”
- 只做标准不做闭环:文档写得漂亮,数据还是脏
- 没有Owner/Steward:没人认领问题,治理只能停在口号
- 治理范围过大:全域铺开导致资源分散,没一个点做出成果
- 只看DQ分数:不解决根因(流程/系统/责任),分数是“化妆”
- 缺变更与影响分析:一改口径,报表/模型一片红
注:数据血缘(Data Lineage):用来描述一份数据(表/字段/指标/报表/模型特征)从哪里来、经过哪些加工、最后被哪些地方使用的“来龙去脉”。
1) 它长什么样
可以把血缘想成一张有向图:
- 上游(源头):业务系统/日志/传感器/接口 → 原始表
- 加工过程:清洗、过滤、Join、聚合、补全、口径计算、特征工程、ETL/ELT作业、调度任务
- 下游(去向):数据集市、指标库、BI报表、API数据服务、机器学习特征/模型
血缘的粒度常见有三种:
- 表级血缘:A表由哪些表生成?会影响哪些表/报表?
- 字段级血缘:某个字段来自哪里?是直接映射还是计算出来的?
- 指标/报表级血缘:某指标的SQL/逻辑依赖哪些字段?哪些报表用它?
2) 为什么它很重要
血缘主要解决两类“痛点”:
- 影响分析(Impact Analysis):
你改了上游某字段/口径/表结构,会影响哪些下游报表、指标、模型?——避免“改一处炸一片”。 - 追溯与排障(Root Cause / Debug):
报表数不对,到底是哪一步引入了错误?是源系统数据异常、ETL逻辑变更、还是口径被改了?
(顺带还用于审计合规:敏感字段从哪来、被谁用过、流向了哪里。)
3) 一个直观例子
- 源系统
orders(订单明细) - ETL生成
dwd_orders(清洗后的明细) - 聚合生成
dws_user_day(用户日汇总) - 指标
GMV在ads_metrics里计算 - BI报表 “日GMV趋势” 引用该指标
如果“日GMV趋势”突然飙升,血缘能帮助你按链路往上追:
报表 → 指标 → 指标SQL → 汇总表 → 明细表 → 源系统/采集。
4) 血缘通常怎么获取
- 自动解析:从调度系统、ETL作业、SQL、BI报表、数据建模工具里抓依赖关系
- 手工补充:对一些黑盒处理(脚本/外部API/人工Excel)需要标注或“数据契约”补齐