浅谈数据治理(Data Governance)

一、数据治理到底是什么

数据治理(Data Governance)不是“做一套文档/建个数据仓库/上个数据平台”,而是:

  • 一套组织机制:明确“谁对什么数据负责、怎么决策、怎么协作、怎么追责/激励”
  • 一套制度体系:标准、规范、流程(定义、口径、权限、质量、变更、审计)
  • 一套技术与运营能力:目录、血缘(数据血缘,Data Lineage)、质量规则、主数据、权限与审计、数据服务化
  • 一个持续运营的闭环:问题发现 → 分派 → 修复 → 复盘 → 规则固化 → 指标提升

一句话:让数据变成“可用、可信、可控、可持续”的资产

数据治理(Data Governance)

二、数据治理要解决哪些“真实痛点”

你可以把治理目标拆成四类(也是绝大多数企业上治理的原因):

  1. 可用(Availability)
    数据找不到、拿不到、拿到太慢;跨部门要数据像“走关系”。
  2. 可信(Trustworthiness)
    指标口径打架(GMV/营收/活跃用户各算各的);报表对不上;领导不信数。
  3. 可控(Control & Compliance)
    权限乱、敏感数据外泄风险、审计追不动;合规(隐私/行业监管)压力大。
  4. 可增值(Value)
    数据资产沉睡,复用率低;同一套数据反复采、反复清洗;AI/BI成本高效果差。

三、数据治理“管什么”:八大治理域(最常用视角)

你可以把数据治理理解成对以下八块的系统管理(不同企业侧重不同):

  1. 数据标准:命名、字段定义、编码规则、时间口径、单位、枚举值等
  2. 指标体系:指标定义、口径、计算逻辑、归属与版本(“指标即产品”)
  3. 元数据管理:数据的“说明书”(表/字段/报表/接口/负责人/使用场景)
  4. 数据质量(DQ):准确性、完整性、一致性、及时性、唯一性、合理性
  5. 主数据(MDM):客户/供应商/物料/门店/设备等“全局唯一的核心实体”
  6. 数据安全与权限:分类分级、最小权限、脱敏、加密、审计、留痕
  7. 数据生命周期:产生、存储、使用、归档、删除(含合规保留期)
  8. 数据血缘与影响分析:指标/报表/模型变更会影响谁(减少“改一处炸全站”)

四、谁来管:组织与角色(这是成败关键)

很多治理失败,不是技术不行,是角色不清权责不对等

1) 典型组织形态
  • 数据治理委员会(Data Council):跨部门最高决策(业务 + IT + 安全 + 合规)
  • CDO/数据负责人:推动、协调、资源与KPI对齐
  • 数据治理办公室(DGO):制度、流程、指标、运营(“中枢”)
  • 数据Owner(数据所有者):对数据定义与业务正确性负责(通常在业务部门)
  • 数据Steward(数据管家):日常维护、口径落地、质量规则与问题闭环
  • 数据Custodian(数据保管者):平台/权限/备份/安全技术实现(通常IT/数据平台团队)
2) 一句很好用的分工原则
  • 业务对“含义与正确性”负责(定义、口径、主数据规则)
  • 技术对“可用与可控”负责(平台、权限、血缘、质量执行与监控)
  • 治理团队对“机制与闭环”负责(制度、流程、度量、推动)

五、怎么管:把治理做成“可运行的操作系统”

建议把数据治理做成 4 个闭环系统:

闭环A:标准与口径闭环(“说清楚”)
  • 业务术语表/数据字典(Glossary)
  • 指标管理(Metric Store / 指标口径版本)
  • 变更流程:新建/变更/废弃必须走评审(影响分析 + 通知机制)

核心产物:可查询、可版本化、可追责的“定义系统”。

闭环B:质量闭环(“盯住它”)
  • 质量规则库:唯一性、范围、参照完整性、波动检测、异常阈值等
  • 质量监控:日报/告警/趋势
  • 问题工单:定位 → 责任人 → 修复 → 复盘 → 固化规则

关键点:质量不是“报表上贴个分数”,而是能自动发现、能有人负责、能持续下降问题存量

闭环C:安全与合规闭环(“管住它”)
  • 数据分类分级(如公开/内部/敏感/机密)
  • 权限模型(RBAC/ABAC)、最小权限
  • 脱敏策略(静态脱敏/动态脱敏)、水印、审计
  • 合规要求落到“可执行策略”(比如:数据保留期/删除请求/访问日志)
闭环D:资产与服务闭环(“用起来”)
  • 数据目录(Catalog):能搜、能懂、能申请、能看负责人
  • 数据产品化:把数据集/指标/特征做成“可订阅的服务”
  • 数据SLA:刷新频率、延迟、可用性、质量阈值

六、用什么管:能力地图(从工具到体系)

你不一定要全买全做,但能力缺哪块,治理就会“断腿”。

  • 数据目录/元数据:Catalog、Glossary、Owner/Steward、使用热度、申请入口
  • 血缘:从ETL/SQL/调度/BI/指标一路贯通的lineage
  • 数据质量平台:规则编排、任务执行、告警、工单联动
  • 主数据平台:主数据建模、匹配合并、黄金记录、分发
  • 权限与审计:统一身份、细粒度授权、行为审计
  • 数据开发与发布规范:数据分层、命名、分区、版本、回滚
  • 数据契约(Data Contract)(很值得重视):上游数据结构/语义/质量的“承诺”,下游依赖清晰

七、如何落地:一套不容易“空转”的实施路线

很多团队一上来就“建制度、做标准、搞全域治理”,最后变成 PPT 工程。更稳的路径是:先打赢一两个业务战役

0)选一个“高价值场景”当突破口

特征:指标争议大、影响面广、跨部门扯皮多、领导痛感强
例如:营收口径、渠道转化、库存周转、设备故障率、客户统一视图等。

1)90天最小闭环(强推荐)

第1-2周:盘点现状

  • 关键指标清单 + 口径冲突点
  • 关键数据链路(数据从哪来、怎么加工、谁在用)
  • 当前质量问题Top10

第3-6周:建立“可运行机制”

  • 术语表 + 指标口径(先做最关键的20个)
  • Owner/Steward落位(写进RACI)
  • 质量规则(先做最痛的10条)+ 告警 + 工单闭环

第7-12周:服务化与推广

  • 数据目录可搜索可申请
  • 指标/数据集发布为可复用资产
  • 周例会/看板:问题存量、修复时长、口径覆盖率、复用率
2)治理成熟度指标(用来防止“只做动作不见效果”)
  • 指标口径覆盖率:关键指标有无唯一权威定义
  • 质量指标:DQ得分趋势 + 重大事故次数
  • 问题闭环效率:MTTR(平均修复时长)、超时工单占比
  • 资产复用率:重复开发减少、被订阅次数
  • 权限合规:敏感数据访问审计覆盖率、越权事件次数

八、常见误区(踩坑率极高)

  1. 把治理当成IT项目:业务不背责,最后变成数据团队“自嗨”
  2. 只做标准不做闭环:文档写得漂亮,数据还是脏
  3. 没有Owner/Steward:没人认领问题,治理只能停在口号
  4. 治理范围过大:全域铺开导致资源分散,没一个点做出成果
  5. 只看DQ分数:不解决根因(流程/系统/责任),分数是“化妆”
  6. 缺变更与影响分析:一改口径,报表/模型一片红

注:数据血缘(Data Lineage):用来描述一份数据(表/字段/指标/报表/模型特征)从哪里来、经过哪些加工、最后被哪些地方使用的“来龙去脉”。

1) 它长什么样

可以把血缘想成一张有向图:

  • 上游(源头):业务系统/日志/传感器/接口 → 原始表
  • 加工过程:清洗、过滤、Join、聚合、补全、口径计算、特征工程、ETL/ELT作业、调度任务
  • 下游(去向):数据集市、指标库、BI报表、API数据服务、机器学习特征/模型

血缘的粒度常见有三种:

  • 表级血缘:A表由哪些表生成?会影响哪些表/报表?
  • 字段级血缘:某个字段来自哪里?是直接映射还是计算出来的?
  • 指标/报表级血缘:某指标的SQL/逻辑依赖哪些字段?哪些报表用它?

2) 为什么它很重要

血缘主要解决两类“痛点”:

  • 影响分析(Impact Analysis)
    你改了上游某字段/口径/表结构,会影响哪些下游报表、指标、模型?——避免“改一处炸一片”。
  • 追溯与排障(Root Cause / Debug)
    报表数不对,到底是哪一步引入了错误?是源系统数据异常、ETL逻辑变更、还是口径被改了?

(顺带还用于审计合规:敏感字段从哪来、被谁用过、流向了哪里。)

3) 一个直观例子

  • 源系统 orders(订单明细)
  • ETL生成 dwd_orders(清洗后的明细)
  • 聚合生成 dws_user_day(用户日汇总)
  • 指标 GMVads_metrics 里计算
  • BI报表 “日GMV趋势” 引用该指标

如果“日GMV趋势”突然飙升,血缘能帮助你按链路往上追:
报表 → 指标 → 指标SQL → 汇总表 → 明细表 → 源系统/采集。

4) 血缘通常怎么获取

  • 自动解析:从调度系统、ETL作业、SQL、BI报表、数据建模工具里抓依赖关系
  • 手工补充:对一些黑盒处理(脚本/外部API/人工Excel)需要标注或“数据契约”补齐

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注