
EDW2025|数据治理的神话破除——从误区到现实
在当今数据驱动的世界中,数据治理已成为企业成功的关键因素。然而,许多组织在实施数据治理时,常常被一些常见的误区所困扰。本文将逐一破除这些误区,揭示数据治理的真实面貌。误区一:你需要一个大的预算!许多人认为实施数据治理需要大量的财务资源,但事实并非如此。许多组织通过关注对业务成果影响最大的数据元素,成功地在有限的预算内实现了有效的数据治理。以下是一些关键点:1. 有效的数据治理可以在有限的预算内实现通过专注于最重要的数据元素,组织可以在不增加大量支出的情况下取得成功。2. 利用现有资源利用当前的软件和平台,最大限度地减少额外支出。3. 渐进式实施从小规模项目开始,逐步展示价值并扩大规模,避免前期的大量投资。如上图所示,通过在每个数据领域实施有效的管理措施,可以显著降低成本。误区二:你不能从小处着手!许多人认为数据治理必须大规模启动才能取得成果,但实际情况是,小规模的项目同样可以带来显著的成效。以下是一些关键点:1. 试点项目可以带来大成果在一个部门或流程中实施数据治理,可以实现可管理的项目范围和快速的、可衡量的成果。2. 渐进式实施采用分阶段的方法,可以持续改进和适应,减少大规模推广的风险。3. 资源效率小规模项目需要的资源较少,适合预算有限的组织。根据一项研究,从小数据治理项目开始的组织在六个月内报告的数据质量提高了20%。误区三:你需要几个月才能看到结果!许多人认为数据治理需要很长时间才能见效,但正确的做法可以迅速展示影响。以下是一些关键点:1. 快速见效推动即时价值实施小规模、有针对性的改进,如标准化关键数据元素,可以在几周内提高数据质量。2. 试点项目提供快速反馈在一个部门运行数据治理试点,可以快速获得洞察,允许立即调整和扩展。3. 敏捷数据治理实现更快结果使用敏捷方法,团队可以逐步实施和评估治理流程,更快地实现可见的影响。误区四:你需要一个庞大的团队!许多人认为数据治理需要一个庞大的团队,但实际情况是,利益相关者的参与比团队规模更重要。以下是一些关键点:1. 小团队可以产生重大影响许多组织仅靠一两个人或一个小团队就能成功启动数据治理。2. 利益相关者的支持比团队规模更重要有效的数据治理依赖于跨部门的广泛支持,小团队可以通过积极吸引关键利益相关者来实现显著成果。3. 精益方法实现更快的原型和结果小团队可以更灵活,能够测试、迭代和展示快速见效,从而建立势头并获得未来的资源。根据Gartner的另一项调查,40%的公司从少于5人的团队开始数据治理,通常从一个“数据治理倡导者”开始。误区五:数据质量会随着时间自行改善!许多人认为数据质量会随着时间的推移而自行改善,但实际情况是,主动管理对于数据质量的提升至关重要。以下是一些关键点:1. 数据会自然退化由于系统变化、人为错误和过时信息,数据质量会自然下降。定期监控和清理是保持准确性的必要条件。2. 主动管理防止代价高昂的错误数据质量差可能导致错误的决策、运营效率低下和合规风险。主动解决数据质量问题可以长期节省资源。3. 根本原因分析解决持久性问题识别和纠正数据质量问题的根本原因,可以确保持久的改进。根据Gartner的估计,数据质量差每年平均给组织造成1290万美元的损失。案例研究:公共交通运输公司的基础建设**目标**:建立一个基础数据治理框架,以支持更大规模的数据质量计划。**关键成果**:- 识别关键痛点:通过挑战地图研讨会,确定了近600个数据相关问题。- 战略对齐:通过战略研讨会定义了数据治理的目的和指导原则。- 未来发展的基石:为可扩展和可持续的数据质量改进奠定了基础。案例研究:小型团队和预算的项目成功**目标**:为一家保险公司建立一个结构化的数据治理框架,提高数据质量,支持合规性,并与组织的战略目标保持一致。**关键成果**:- 快速见效:解决了客户数据不一致等即时问题。- 战略对齐:将数据治理与公司的主要业务目标对齐。- 可扩展的基础:建立了可扩展的数据治理框架。误区六:数据治理对非专家来说太复杂! 为何简化框架反而更有效?许多人认为数据治理需要深厚的技术背景或专业知识,但事实并非如此。通过简化和结构化框架,非技术人员也能快速掌握核心概念。以下是关键点:1. 简化框架降低理解门槛许多数据治理框架将复杂概念拆解为可操作的步骤(如定义数据质量规则、创建业务术语表),即使非专业人士也能参与其中。 *案例*:某零售企业通过“漫画式培训手册”向员工普及数据治理,使数据素养提升40%。 2. 工具与培训赋能全员参与使用低代码工具(如Excel模板)和定制化培训,让各部门员工轻松上手数据管理任务。 *数据支持*:麦肯锡研究发现,60%的企业通过简化培训模块显著提升了跨部门协作效率。 3. 明确角色分工消除技术壁垒通过定义“数据所有者”“数据管家”等角色,明确每个人的职责边界,无需技术专长即可贡献价值。 误区七:数据治理只适用于大型企业!中小企业如何从中受益?许多人误以为数据治理仅是大企业的“专利”,但中小型企业同样能通过灵活策略实现高效治理: 1. 敏捷性与成本优势中小企业通常数据环境更简单,可通过轻量级工具快速搭建治理框架。 *案例*:某欧洲物流初创公司仅用2人团队和$15K预算,通过Excel和SharePoint实现了数据质量提升30%。 2.聚焦核心业务场景中小企业可优先治理直接影响收入的关键数据(如客户信息、库存数据),而非追求全面覆盖。 *数据支持*:Experian调研显示,70%的中小企业通过基础数据治理实现了更高效的决策。 案例启示:从理论到落地 案例1:制造业巨头西门子的“100天计划”目标:在100天内提升供应链数据准确性 方法:1. 定义10个关键物料属性 2. 使用Power BI构建实时监控面板 3. 培训20名一线员工成为“数据哨兵” 成果:数据错误率下降58%,年节约成本€2.3M 最终神话破除总结:真相 vs. 误区 误区现实需要大预算!战略规划和数据治理专项工具即可启动。必须大规模启动!60%的企业通过试点项目(如标准化客户数据)在3个月内实现ROI。成果需要数月显现!敏捷方法(如2周数据质量冲刺)可在数周内提升关键指标(如数据准确性+25%)。 必须组建庞大团队!40%的企业由1-2名“数据治理倡导者”牵头,通过跨部门协作实现成功。数据质量会自动改善!主动管理(如每日监控+根因分析)可将数据错误率降低65%(MIT研究)。只适合大企业!中小企业通过轻量化工具和聚焦关键场景,数据治理成功率提升至70%(Experian数据)。实施数据治理的行动指南 **关键交付物** 1. 基础文档- 业务术语表 - 数据治理章程(1页战略摘要) - 关键数据元素清单 2. 流程工具- 数据质量仪表盘 - 问题跟踪矩阵(Jira或Trello看板) 3. 文化构建- 季度“数据故事会”(分享治理成功案例) - 数据治理勋章制度(激励员工参与) **成功要素与避坑指南** 1. 启动前必做:绘制数据流图(30分钟白板会议即可完成) 2. 优先级公式:CDE = 业务影响 × 数据质量缺口 × 治理可行性常见陷阱: ❌过度追求“完美框架” ❌忽视业务部门的语言习惯(如使用IT术语而非业务术语) ❌缺乏持续沟通(每月更新治理进展报告) 结语 数据治理并非少数人的专属游戏,而是每个组织都可驾驭的战略工具。通过破除上述七大误区,结合敏捷方法、低成本工具和全员参与文化,任何规模的企业都能释放数据的真正价值。通过正确的方法和工具,数据治理可以成为组织成功的重要驱动力。正如DAMA-DMBOK指南所言:“数据治理不是技术项目,而是管理变革。” 现在,就是您开启这场变革的最佳时机!
查看详情
数据血缘新纪元:SQLink8.0全链路血缘监测平台重磅发布
引言:数据治理的 “最后一公里”难题 国内企业全面投入数据治理工程建设,算来已近十年有余。重点耕耘的地方主要还是集中在数据标准、数据质量、数据安全、数据资产之内。而 数据治理却 一直在 面临 “ 看得见、摸不着 ” 的困境 —— 数据从何而来?流经哪些环节?如何影响下游业务?变更风险能否提前预判?这些问题如同一张隐形的网,束缚着企业数据价值的释放。 SQLink 历数了三个阶段打磨:与 Datablau DAM 数据治理产品共生,再到以独立插件模块放之官网给各位 SQL 大神公测锤炼,于去年 6 月份独立脱产,直至今天,我们脱胎换骨 推出全新 架构 的 SQLink8.0数据血缘监测分析平台 。 我们终于还是来了。 作为国内首个实现全链路、高精度血缘解析的智能工具,SQLink8.0以 “ 精准溯源、动态监测、智能决策 ” 为核心,助力企业打通数据治理的 “ 最后一公里 ” ,让数据真正成为业务增长的引擎。 SQLink8.0产品亮点:四大核心能力,破解数据治理困局1. 全链路血缘解析:从毛细血管到全局脉络,无一遗漏精准到字段级 :支持从数据源(如核心系统、数据湖)到加工层(ETL、存储过程)再到应用层( BI 报表、 API 接口)的全链路血缘解析,覆盖表、字段、指标、脚本等实体,彻底告别 “ 盲人摸象 ” 。动态兼容复杂场景 :无论是信创迁移中的异构数据库(Oracle→Hive)、嵌套 SQL 脚本,还是临时表干扰的加工链路, SQLink8.0 均可自动穿透冗余节点,还原真实数据流向。AI增强解析 : 基于 Datablau AIC 智能平台 , 支持从 Python 、 Java 等代码中自动识别并提取 SQL 语句;对不合规 SQL (如语法错误、书写不规范)进行 AI 自动修复,转化为可解析、可用的标准化 SQL 。2. 智能变更管理:从黑盒到透明,让风险无处遁形事前预测 :数据模型变更(如字段删除、表结构重构)前,自动分析对ETL任务、 BI 看板及 API 接口的级联影响,生成影响报告并邮件通知相关方。 事中拦截 :内置质量门禁规则(如禁止SELECT *、强制字段注释),在 CI/CD 流水线中自动拦截血缘不完整或合规性不足的脚本,杜绝 “ 带病上线 ” 。事后溯源 :结合版本管理功能, 图形化展示 CRUD 血缘变更类型 ,解决 “ 误删字段导致反洗钱报表中断 ” 等典型问题。3. 数据资产保鲜:从静态到动态,激活标签价值智能标签扩散 :基于血缘链路自动打标(如 “ 客户隐私数据 ”“ 高风险表 ” ),支持纵向( Schema→Table→Field )与横向(上下游系统)双向穿透,标签随数据变更实时更新,避免价值衰减。 动态监控预警 :当上游数据源断连、ETL任务异常时,自动标记故障节点并推送告警(如 “ 用户行为日志清洗失败,影响下游 3 个画像标签 ” ),实现分钟级根因定位。4. 极简交互体验:从专业工具到全民可用零代码操作 :业务人员通过自然语言提问即可获取血缘分析结果,技术团队则可借助SQL IDE插件实时解析脚本并生成图谱,提升协作效率。 多维度可视化 :提供 “ 系统 → 实体 → 属性 → 加工逻辑 ” 五级钻取视图,支持临时表筛选、环路依赖检测、血缘链路动画播放等功能,满足不同角色的探查需求。 自然语言问血缘 : 结合数据治理 MCP Server ,提高跨业务交互会话灵活度 ,支持自然语言查询(如 “ 资本充足率统计口径是什么?如果调整其参数,下游有哪些业务受到影响? ” ),并 在 实时 对话框内 生成可视化血缘图谱,大幅降低非技术人员的使用门槛。 技术突破:AI+图计算,重新定义数据关系管理 SQLink8.0采用 “AI 驱动、图库为基 ” 的双引擎架构,突破传统血缘工具的三大瓶颈: 精准度 :自研SQL解析器兼容 20+ 数据库方言,结合元数据动态校验,确保血缘链路与真实环境 100% 匹配,杜绝 “ 幽灵表 ”“ 错误关联 ” 等问题。实时性 :支持在线血缘解析,开发人员在IDE中编写 SQL 时可实时查看血缘图谱,并联动调度系统(如 Dolphin Scheduler )监测任务运行状态,实现 “ 开发即治理 ” 。灵活性 :与第三方数据治理平台(如数据建模工具、数据目录)无缝集成,提供开放API与插件生态,支持企业按需扩展功能。未来展望:让数据血缘成为企业核心基础设施 随着《数据二十条》等政策的落地,数据要素的价值释放离不开扎实的治理底座。SQLink8.0将持续深耕三大方向:场景化深度适配 :推出金融、制造、政务等行业的专属解决方案,例如制造业的 “ 供应链数据溯源 ” 、政务的 “ 一网通办血缘地图 ” 。智能化升级 :引入大模型技术,实现血缘链路自动优化建议、数据异常智能归因等高级功能。生态化融合 :与云厂商、信创生态伙伴共建数据治理联盟,推动国产化替代进程。立即行动:开启您的数据治理觉醒之旅SQLink8.0已正式上线,诚邀您免费体验全链路血缘分析能力! 试用链接 : http://lineage.datablau.cn:28080 联系我们 :400-6033-738 | marketing@datablau.com 数据治理不是选择题,而是生存题。让SQLink8.0为您厘清数据脉络,唤醒沉睡的数据价值! 数语科技 —— 让数据治理更简单 微信搜索 “ 数语科技 ” 公众号,获取更多数据治理实战案例与行业洞察。
查看详情
企业运营数据的大模型实践之路
随着大模型全员化的快速普及,每个人手机上都装了好几个大模型APP,到处跟朋友侃侃而谈不同大模型的优劣势。 同时,很多人自然开始对企业私域大模型有所期望。我作为企业的一号位,打算试试将企业运营数据都灌给大模型会有什么化学反应。数语科技核心业务域及对应的业务系统如下:销售域:销售易;研发域:禅道;交付域:禅道;财务域:用友;人资域:钉钉;售后域:odooV1:数据库导出Excel灌给大模型知识库将业务系统后台的数据库表批量导出成Excel,然后灌给大模型的知识库。如图导出结构化数据给大模型知识库:我们来试试大模型的表现如何,是不是已经无所不知无所不晓了。先来个简单的问题,“客户清单”。大模型反馈:“从提供的数据中,我们无法直接得到一个格式化的客户清单,没有具体的客户名称或标识。我们只能列出独特的项目编号作为可能的客户代表。”可见大模型无法给出有效的应答。所谓数据灌给大模型就无所不知了,纯属发挥想像力。根据大模型的反馈,我们从数据库导入的数据没有上下文,大模型并不知道问题“客户清单”跟知识库里灌进去的数据有什么关系。 大模型只能胡猜。V1问答效果如下:V2:数据库数据上下文附加数据治理的业务名称为了让大模型懂业务,我们开始对RAG进行治理,补全语义到RAG。V2我们将数据库的数据模型(ER图逻辑模型)采集出来,给表、字段补充业务名称。再将每条数据带上字段对应的业务名称作为上下文,灌给大模型。此时大模型已经知道表、字与业务的对应关系了。我们再问大模型“客户清单”,反馈的效果已经好很多了。单表数据对应的简单问题都可以得到有效回答。但是涉及跨表的问题还是无法得到有效应答。V2问答效果如下:同时,一些深度问题可以得到出色的答案。如:对某商机跟进情况的分析。不仅可以给出商机跟进分析,还能给出下一步的行动计划。但是,我们发现大模型无法对大量明细数据进行统计,背后原因是由于大模型切片的限制,导致大模型无法载入全量数据再进行统计。V3:通过NL2SQL解决统计分析问题我想统计一下“销售最好的产品”,统计分析类问题需要遍历全部合同,这种大数据量的场景,由于大模型切片限制,需要先转到数仓上进行查询。我们在V4重点解决统计分析类问题的需求。我们在RAG编排中设计分支,统计分析类问题进行NL2SQL转换,到数仓中去查询。深度分析类仍到大模型中去直接查询。 这版改进的核心仍然是数据模型的准确性和充足率。在数据治理体系中,数据标准是用来解决业务不一致问题的,通过数据标准来统一业务口径。数据模型上要落标,每个属性关联业务唯一的数据标准。通过数据模型落标,我们更进一步规范了RAG语义层。从数据模型生成DDL脚本,落地为数据库schema,这是最靠谱的语义信息,也是“保鲜”的信息源作为语义层。NL2SQL需要准确的语义与物理数据库的表、字段完全一致。当然,也可以用多个“小模型”,通过模型协作来处理来解决大模型切片限制问题,但与数仓查询相比,多个小模型协作仍会有幻觉问题。V3问答效果如下:基于自然查询生成可执行、准确的SQL进行统计分析但是,当我们查询涉及更复杂的连接,多表的操作时,会发现大模型又陷入幻觉了。当前市场上的NL2SQL准确率平均水平只能达到50%多,这在企业应用上还是无法接受的。V4:在数据模型上补充关联关系在数据模型上补充关联关系,让大模型懂数据的关联关系,解决NL2SQL准确性问题。为了解决V3跨表查询问题,我们继续对RAG进行治理。V3我们的问题是跨表的查询无法得到有效反馈。跨表即表与表之间的关系要补充进语义层,让大模型理解表与表之间是如何连接的。因此,我们梳理数据模型实体间的关联关系,业务键、外键。很多系统的数据都是用代理键,这里识别业务键是非常关键的。将这部分语义也灌入RAG语义层,譬如:我们建立合同、商机、产品之间的关联关系。此时,大部分业务场景涉及多表关联也都可以得到有效回答,如:合同按产品进行统计归集。数据模型补充的效果:这里我们问:“合同大小与成单周期有没有正向关系”我们主要看大模型如何基于关联关系进行推理V4问答效果如下:V5:增加图表输出我们继续在大模型编排中针对统计分析类问题,增加结构化输出和图表展示。这里我们问大模型“对提前验收的项目进行统计分析”V5问答效果如下:V6:将统计分析结果增加深度洞察将统计分析的客观数据再喂给大模型进行深度洞察。这通常是最出彩的部分,也是大模型最擅长的部分。因为我们已经将企业全域数据灌入大模型,我们尝试大模型对交付域进行问答。“2024年12月ROI最高的员工”。V6问答效果如下:V7:针对问答效果不好的问题,专项进行数据治理调优增加问答对,增加同义词库等手段进行调优。譬如:以上是我以数语科技的企业全域数据在大模型中的应用实践。从V1到V7,七个版本的实践迭代演进,大模型工作起来的核心改进都是在做数据治理工作,尤其是在数据模型上不断补全业务名称、关联关系,落标,才能达到真正的AI-Ready!AI ready是个不断进化的过程,过程如下:针对不同的问题采用不同的技术方案:结论,企业数据应用到大模型的确可以有明确的业务洞察,如上面的商机跟进分析和下一步销售工作计划,可以作为销售的大脑指挥销售工作。此外,推理型大模型是未来的方向,将企业全业务域的数据打通,结构化与非结构化数据打通,关联关系完善,才能进行深度业务推理。能够帮助企业获得更大的价值。AI在企业中的应用落地方兴未艾,未来大有可为。数语科技的大模型团队,已经进行了诸多预研和落地,希望可以共同探索,合作研发。数语科技启动RAG治理5-8周速赢计划。欢迎各位企业AI创新先锋接洽合作。
查看详情
大模型与数据治理的双向奔赴:以AI驱动企业数据价值跃升的实践
在今天的智能化浪潮中,大模型与数据治理正成为推动企业智能化升级的“双引擎”。一方面,大模型以其强大的语义理解与生成能力,为数据治理提供了全新的技术路径;另一方面,数据治理体系的完善又为大模型应用奠定了高质量的数据基础。二者的深度融合,不仅破解了传统数据治理的痛点,更开启了企业数据资产价值释放的新篇章。大模型的发展现状与未来趋势从技术突破到产业落地近年来,大模型技术以惊人的速度重塑人工智能领域。以ChatGPT、Deepseek为代表的通用大模型,展现了跨任务、跨领域的通用智能能力;而聚焦垂直行业的Claude等模型,则通过领域知识增强实现了专业场景的深度适配。据权威机构预测,到2025年底,全球90%的企业将部署大模型应用,推动其在数据分析、客户服务、研发创新等领域的规模化落地。然而,大模型的广泛应用也面临两大挑战:1.幻觉问题:模型生成内容的不可控性,可能导致错误信息传播;这对于企业级应用是个严重问题,需要大幅提升准确率(>95%),才可以在企业的关键场景落地。2.数据依赖:大模型应用依赖企业治理好的数据,输出质量也高度依赖数据的完整性与准确性;大部分企业需要边做大模型,边做数据治理。这些痛点的解决,恰恰需要数据治理体系的深度介入——通过构建“高质量数据+领域知识增强”的闭环,为大模型提供可信的“知识底座”。数据治理赋能大模型以数据治理破解幻觉难题在企业的大模型实践中,检索增强生成(Retrieval-Augmented Generation, RAG) 已成为平衡大模型能力与数据可控性的关键技术。通过将大模型与企业的结构化数据、知识库、业务规则相结合,RAG能够显著降低幻觉风险,提升生成内容的准确性与可解释性。而这一过程的核心支撑,正是企业级数据治理能力的深度整合。通用数据库NL2SQL实践案例:在与某大型金融机构的数据开发场景的共研中,我们通过以下三步实现数据库查询的优化:1.RAG优化:目前市场上的NL2SQL项目,主要基于SQL训练以及反馈,来优化SQL的准确性,对于数据库只使用Schema范式输入,我们认为这是非常不足的。基于数据建模工具DDM,我们开发了智能建模套件,整合了数据库的实体元数据,实体关系,数据标准,指标标准等,整合数据模型,元数据和数据资产,生成完整的带有业务与数据上下文的数据库文档。实际测试中可以完成基于数据标准,码表,指标的自然语言查询,查询准确率提高了10%左右。2.算法优化:通过实体关系和数据血缘分析,提高复杂SQL查询的准确率。目前市场的大模型开发平台如Dify,RAG系统的查询主要是基于语义空间的向量查询,这对于复杂的数据模型来说,是有遗漏的。因此我们特别优化了语义的选择,能够完成多表连接,间接表连接等复杂SQL,实际测试中可以完成大模型容易幻觉的少量场景,查询准确率提高了10%左右。3.提示词优化:用户提供的需求,我们需要附加提示词,让大模型基于模型与需求,进行扩展和联想,从而给出更精准的SQL语句。根据我们的实际,提示词主要优化在需求完善,查询计划编制,防SQL漏写和表连接错误上。同时,通过将用户对生成结果的评价反馈至数据治理系统,持续优化知识库的覆盖范围与更新该方案,使自然语言查询准确率提升到95%左右,基本达到了企业应用的人手写的准确率程度。通过项目实践,我们用数据治理的方法论,通过对面向大模型应用的数据治理,完成了AI赋能业务的能力。也充分证明了数据治理不是大模型的“旁观者”,而是确保其可靠落地的“基石”。大模型驱动数据治理升级从被动管理到主动增值大模型的应用需求的迅速发展,正在倒逼企业数据治理体系向更高维度进化。传统的数据治理往往聚焦于“合规性”与“可用性”,而大模型时代的数据治理更需要关注“知识化”与“场景化”。关于智能化数据治理,我们的实践从三个方向实现突破:1.元数据治理智能化通过大模型自动解析数据表注释、API文档等非结构化内容,生成标准化的元数据描述,然后用一定人力进行确认。这解决人工维护成本高、更新滞后的问题,同时人工确认投入是必须的步骤,解决大模型的预料信任问题。2.数据关系与血缘追踪利用脚本解析能力和大模型的因果推理能力,自动识别数据加工链路中的关联关系。数据的知识图谱是大模型进行数据连接和查询的必备基础。有条件的企业建议用数据模型工具,对重要数据进行基础模型梳理,让数据层可以很好的连接业务语义,供给大模型进行消费。3.数据资产与分类分级基于大模型分析数据表的查询访问、关联应用、数据分类等智能技术,构建数据资产目录。我们已经建立基于LLM的数据资产梳理任务,对数据资产的智能分类,准确率有不小的提升。我们正在研发智能化的数据治理平台3.0,让大模型将数据治理从“成本中心”转化为“价值中心”——通过主动识别高潜力数据资产、深度面向大模型消费的数据治理方向,推动数据管理向以大模型知识运用的业务价值对齐。双向奔赴开启数据智能新纪元面对大模型带来的机遇与挑战,数据治理团队需要坚定两个认知:一是要破解焦虑,坚定方向:大模型不是数据治理的替代者,而是放大其价值的“倍增器”,缺乏治理的大模型如同没有好路的跑车,任其技术先进,也在泥泞的路上艰难前行;我们要进行数据生态共建,建设面向LLM的企业级数据治理平台,让企业都能从大模型中受益,可以从数据治理中看到价值。二是主动进化,做大做强:通过构建“治理-模型-应用”的飞轮效应,让数据治理体系成为企业智能化的核心基础设施。开发数据治理与大模型的联合优化框架,实现知识抽取、质量评估、隐私保护的端到端自动化;降低数据治理的成本,提高企业数据的AI可用度和实践效果。在这场双向赋能的智能进化中,数据治理这个老话题需要新的打开方式,同时也让数据从未如此重要,也从未如此充满想象力。我们坚信,当严谨的数据治理遇见灵动的大模型,必将催生一个更加智慧、可靠、可持续的数字未来。
查看详情
从数据驱动到知识驱动:数据治理+RAG技术推动知识治理与服务的智能化
在人工智能和大数据技术的快速发展下,企业正面临着从数据驱动到知识驱动的转型。RAG(Retrieval-Augmented Generation,检索增强生成)技术作为一种结合了信息检索和生成模型的先进技术,正在成为推动企业智能化转型的重要工具。知识库是企业知识管理和应用的核心平台,通过RAG技术,企业可以动态检索和应用这些知识,显著提升大模型的精确性和专业性,帮助企业更高效地利用内部和外部的知识资源。而数据治理在知识库的构建和管理中扮演着关键角色,通过系统化的治理工作,确保数据质量、安全性、一致性和可用性。两者的结合,为企业提供了更高效、更智能的知识检索和应用能力。RAG:知识管理领域的重要突破RAG技术通过结合信息检索和生成模型,实现了对私域知识的深度挖掘和智能应用。RAG能够实时捕捉新知识,自动更新知识库内容,并通过自然语言处理技术,实现知识的智能检索和生成。它为知识管理带来了以下优势:· 精准知识检索: 利用语义理解和上下文分析,快速定位用户所需的知识点,提高检索效率和准确性。· 自动化知识生成: 根据用户需求,自动生成报告、摘要、FAQ等知识内容,降低人工成本,提高知识产出效率。· 个性化知识推荐: 基于用户画像和行为数据,推荐相关知识和资源,提升用户体验和知识获取效率。· 智能问答系统: 构建智能客服、虚拟助手等应用,为用户提供实时、准确的知识服务。RAG可读取的数据类型RAG技术能够处理多种类型的数据,包括:1.非结构化数据:最常见的类型,包括文本(如百科类知识、领域知识库、论文等)以及图片、视频、音频等多模态数据。2.半结构化数据:包含文字与表格的混合内容,例如带有标签的文档或部分结构化的报告。3.结构化数据:以知识图谱为主,利用企业已经整理和提炼的存量数据,提供更精确的信息。通过向量数据库等技术,RAG能够将以上各种类型的数据转化为统一的数值向量表达形式,便于在企业内部知识库中进行检索和分析。RAG的优势1.解决敏感数据的使用问题企业的一些敏感数据(如商业秘密、客户信息等)不便于直接用于模型训练,但可以通过RAG技术在应用中使用。这种方式避免将这些数据用于微调模型所带来的高成本和权责边界模糊的问题。2.降低训练成本和更新滞后问题RAG技术通过动态检索的方式,能够实时结合最新的企业数据,避免了重新训练模型的麻烦。3.保持大模型与数据的权责分离RAG技术使得大模型提供方和企业之间的权责边界更加清晰。企业可以保留对数据的控制权,而模型提供方只需提供基础的大模型能力。数据治理+RAG提升知识检索和应用能力数据治理为知识的生成、管理和应用提供坚实的基础。下面我们来探讨一下数据治理与RAG技术是如何结合的:1.数据上下文补全通过数据治理确保RAG技术能够动态检索知识库中的数据,为大模型提供更完整的上下文信息,并通过数据标准化和整合,消除数据孤岛,确保上下文信息的全面性和一致性,从而提升大模型的输出质量。2.数据整合与关联知识库需要整合来自不同来源的数据,并建立数据之间的关联关系。通过数据模型的管控,确保数据关联关系和外键的准确性和完整性,为RAG技术提供清晰的逻辑结构;并通过数据血缘分析,追踪数据的来源和流向,确保关联关系的可追溯性。3.元数据管理元数据是描述数据的数据,如数据表的中文名、字段含义、数据来源等。通过对元数据管理,确保表中文名和字段中文名的准确性和一致性,便于用户理解和使用数据。同时,元数据的版本控制和更新机制,可以确保元数据的时效性,为RAG技术提供最新的数据描述信息。4.业务域为导向以业务域为导向的知识库能够更好地满足具体业务需求。通过企业的业务领域(如财务、人力资源、供应链等)划分数据,确保知识库的结构与业务需求相匹配;并通过业务键(如订单号、客户ID等)唯一标识业务实体,确保知识的准确性和一致性;同时通过定义和管理业务规则,确保知识库中的知识符合业务逻辑。5.数据安全管理知识库中的知识往往涉及企业的核心业务数据和商业秘密,企业需要建立完善的数据治理体系,在确保知识库的安全性和合规性的同时平衡知识的开放性和保密性。通过权限管理,确保只有授权用户能够访问和操作知识库中的数据,并对敏感数据进行加密存储和传输,防止数据泄露。同时,记录数据访问和操作日志,可以及时发现和处理安全风险。总结RAG技术与数据治理的结合,为知识治理与服务的智能化提供了新的可能性。通过数据治理,企业可以确保数据的质量、安全性和可用性,为RAG技术的应用提供坚实的基础。而RAG技术则通过动态检索企业内部的专有知识,为大模型提供更精确、专业的支持,同时避免了敏感数据用于模型训练所带来的成本和权责问题。在未来,数据治理与RAG技术的深度融合将进一步推动知识治理与服务的发展,帮助企业在激烈的竞争中脱颖而出,引领行业的创新与变革。参考文章:《治理之智 | 检索增强:解决企业“上云用模”的数据安全隐忧》;文章图片来源于网络,如有侵权,联系小编删除
查看详情
数据流动的密码:揭开血缘关系的全貌
数据血缘描述了数据从源头到目的地的流动和转换过程,尽管各类业务利益相关者对数据血缘的期望和需求各不相同,但对其核心认知是一致的。本文将深入探讨数据血缘的不同类型及其依赖关系,帮助大家更好地理解这一复杂但关键的主题。一、数据血缘类型的全貌主题:数据血缘可以分为元数据血缘和数据值血缘。元数据血缘关注数据的处理和转换文档,而数据值血缘则侧重于数据实例层的转换和跟踪。层次:数据血缘可以在四个层次上记录:业务层、概念层、逻辑层和物理层。不同层次使用不同的元数据来描述数据血缘。方向:根据数据血缘的方向,可以分为横向数据血缘和纵向数据血缘。横向血缘展示数据从起点到终点的流动,而纵向血缘则连接不同层次的数据组件。方法:数据血缘的记录方法分为描述型和自动型。描述型血缘通过手工记录元数据,而自动型血缘则通过自动化工具采集和记录元数据。数据血缘分类概念图1、元数据血缘和数据值血缘数据血缘的主题可以分为元数据血缘和数据值血缘,不同的利益相关者对每种血缘类型的关注点也不一样。元数据血缘数据管理和IT专业人员通常将数据血缘理解为由元数据进行的数据处理和转换文档。元数据血缘可以在任何抽象层记录描述,不同层次使用不同的元数据。数据值血缘业务利益相关者更加关注数据实例层的转换,希望看到整个数据链中跟踪数据值的变化。例如,如果管理报告中总收入为100万欧元,他们希望将它追溯到单个合同金额以及了解从合同金额到100万欧元间的转换规则。这种需求被称为“数据值血缘”,通常只在物理层记录。因此,在与不同利益相关者群体进行沟通时,应该考虑到元数据血缘和数据值血缘间的差异。2、不同记录层的数据血缘数据血缘的记录层次包括业务层、概念层、逻辑层和物理层。详情可点击《数据血缘元模型:架起业务与技术的桥梁》这篇文章查看。此外,还想强调以下两点:· 不同企业采用不同数量的层级和组件来描述数据血缘,且对这些层级的命名和定义也各有差异。· 根据我的实践经验总结,建议分类是基于通用实践的,每家企业应根据自身需求选择适合的分类方式。3、横向和纵向数据血缘数据血缘记录的方向分为横向和纵向数据血缘,如下图。自由格式的数据血缘元模型横向数据血缘是最常见的数据血缘类型,描述了数据链上两个位置之间数据路径的数据血缘,展示数据从创建点到应用点的流动。可以在业务层、概念层、逻辑层和物理层上记录横向数据血缘。纵向数据血缘是链接不同层级中组件的数据血缘。例如业务主题域、数据实体、数据属性以及数据库表和列之间的关系。4、描述型和自动型数据血缘数据血缘的分类依据之一是记录方法,这是第四个关键因素。记录方法主要分为描述型和自动型两种。描述型数据血缘:指将元数据数据血缘手工记录到数据存储库中。自动型数据血缘:将通过实施自动扫描并采集元数据的过程,并将元数据数据血缘记录到存储库中。这两种方法各有其适用的场景,同时也具备各自的优点和局限性。可从以下几个方面来选择数据血缘的记录方法:1)数据模型层描述型数据血缘适合在业务层、概念层和逻辑层记录元数据血缘,但在物理层手工记录数据血缘是非常困难的。以我的实践经验为例,整理包含数千行数据的Excel文件可能需要耗费数百个工时,效率极低。相比之下,自动型数据血缘更适用于采集物理层的数据血缘信息。但需要注意的是,从逻辑层到物理层的数据血缘映射,通常仍需通过手工方式完成,以确保准确性和一致性。2)所需资源无论是创建还是维护阶段,数据血缘的记录都是一项时间和资源密集型的工作。我们需要持续关注数据血缘的变化,并及时调整。自动型数据血缘在初始阶段,创建读取和上传元数据的自动化流程需要大量资源;之后,随着新版本的发布,数据血缘信息应能自动更新;然而,如果涉及新应用程序,则需要手工编码来完成。描述型数据血缘,在设计和维护阶段需要持续投入资源。二、数据血缘间的相互依赖之所以想分享下各种数据血缘之间的依赖,是因为在实践中,我经常遇到有关沟通数据血缘的挑战。比如:元数据架构师说:“我们要开发一个横向数据血缘的未来态架构(FSA)。”我的第一反应是:”在哪个层上?横向数据血缘可以在四个层级上记录。”很明显,元数据架构师说的是物理层元数据血缘,只是将其简称为横向数据血缘。我们先来分析这些数据血缘间可能的组合和依赖,如下:数据血缘的主题与其他数据血缘分类之间的依赖关系· 数据血缘的主题和数据血缘的记录层级元数据血缘可在被记录在每个抽象层级上,记录的元数据组件和元素会有所差异。无论何种情况,元数据血缘都用于描述数据流和数据转换的过程。而数据值血缘仅能在物理层记录,本文仅针对物理层中存在的数据实例进行讨论。· 数据血缘的主题和数据血缘的记录方向元数据血缘可从两个方向进行记录:横向数据血缘展示数据沿数据链的流动路径,而纵向数据血缘则连接不同抽象层级的元数据组件。数据值血缘仅能记录在横向数据血缘中,因为数据实例仅存在于物理层。· 数据血缘的主题和数据血缘的记录方法元数据血缘的记录可采用描述型和自动型方法,而数据值血缘由于仅存在于物理层,因此更适合通过自动型方法进行记录。数据血缘的记录方法和记录层级之间的依赖关系· 数据血缘的记录方法和数据血缘的记录层级记录数据血缘的描述性方法适用于所有层级。在实践中,我曾见过使用Excel或Word文件记录物理层数据血缘的情况,但这是一种最不推荐的方式。描述性方法更适合用于记录业务层和概念层的数据血缘,因为这些层级缺乏自动记录的方法。对于物理层,强烈建议仅采用自动型数据血缘记录方法。逻辑层则是一个分区:逻辑模型既可以通过逆向工程从物理模型中生成,也可以在数据建模工具中手动创建。综上所述,数据血缘作为数据管理中的核心概念,其复杂性和多样性要求我们在实际应用中采取灵活且系统化的方法。通过深入理解数据血缘的四大因素——主题、层次、方向和方法,希望大家能够更好地满足不同利益相关者的需求,并有效应对数据管理中的挑战。无论是元数据血缘还是数据值血缘,无论是横向还是纵向数据血缘,亦或是描述型与自动型记录方法,每种类型都有其独特的应用场景和优势。在实际操作中,企业应根据自身的业务需求和技术架构,选择合适的数据血缘记录方式,并确保其与整体数据治理策略保持一致。同时,随着数据环境的不断变化,数据血缘的记录和维护也需要持续投入资源和精力,以确保其准确性和时效性。
查看详情
数据血缘元模型:架起业务与技术的桥梁
在当今数据驱动的商业环境中,数据血缘(Data Lineage)已成为确保数据透明性、可追溯性和合规性的关键工具。数据血缘不仅帮助组织理解数据的来源、流转和变化,还为数据治理、数据质量管理、审计和业务决策提供了坚实的基础。本文将深入探讨数据血缘元模型的结构,从业务层到物理层,逐层解析其核心组件和逻辑,并结合实际应用场景,帮助读者全面掌握数据血缘的构建与应用。一、数据血缘元模型的结构数据血缘元模型是描述数据血缘模型的元数据框架,它通过不同抽象层(业务层、概念层、逻辑层和物理层)来记录数据的流转路径。每个层次都有其独特的组件和元数据元素,共同构成了完整的数据血缘体系。数据血缘元模型的核心目标是通过分层结构,确保数据从业务需求到技术实现的完整映射,从而支持数据的全生命周期管理。数据血缘元模型的结构■ 业务层业务层是数据血缘的起点,其核心是满足业务利益相关者的需求。业务层的主要任务是将业务需求与数据流转路径进行映射,确保数据的业务价值得以体现。业务层的主要组件包括:业务能力:业务能力描述了组织的核心能力,描述业务能力的两个元数据是:业务能力层次、实现维度;业务能力层次分为战略能力、核心能力和支持能力;而流程、工具、角色及数据等可以实现业务能力。流程:流程是实现业务能力的具体活动,可以分解为子流程或活动链,通过使用流程来记录业务、技术和操作元数据。角色:在数据血缘场景中,角色可以分配给各种对象,例如组织、特定人员和IT系统/应用程序。业务主题域(数据):业务主题域是描绘业务能力所需数据的蓝图。以客户管理为例,其业务主题域聚焦于客户数据的方方面面。业务主题域是在最高抽象级别上描述数据的元数据元素。IT资产:对于数据血缘来说,“IT资产”是指IT系统、应用程序、数据库和ETL工具。业务层的概念图在业务层数据血缘组件中,最首要的是业务能力。流程支持一个或多个业务能力,角色和IT资产支持流程的实现,角色使用IT资产完成工作,业务能力定义了业务主题域。业务层的关键作用:通过业务能力、流程和角色的映射,明确数据的业务价值。通过IT资产和业务主题域的定义,确保数据与业务需求的一致性。■ 概念层概念层是数据血缘的中间层,其主要任务是定义数据实体及其之间的关系。概念层通过语义模型,确保业务术语和定义的一致性,为逻辑层的数据建模提供清晰的业务上下文。概念层模型的概念图概念层包括数据实体和它们之间的关系。业务规则标识了不同数据实体之间的约束。数据实体具有唯一业务术语和相应定义。业务术语和定义在概念层内容中保持唯一。在概念层中,业务元数据元素描述数据血缘的组件,包括:所有者所有者是负责描述和维护组件的角色。创建、修改、删除日期表示对象生命周期的阶段状态关系类型概念层的核心价值:通过语义模型,解决传统概念模型在业务术语和定义上的不足。为逻辑层的数据建模提供清晰的业务上下文。■ 逻辑层逻辑层是数据血缘的核心建模层,其主要任务是将概念层的数据实体和业务规则转化为具体的数据模型。逻辑层通过定义数据实体、数据属性和业务规则,确保数据的准确性和一致性。逻辑层主要包括以下组件:数据实体:是逻辑数据模型中的元数据对象,用于标识、描述或度量业务主题如客户、订单等。数据属性:是逻辑数据模型中的元数据组件,用于标识、描述或度量数据实体。如客户姓名、订单金额等。数据元素:数据元素是一个“在语境中不可分割的数据单元”。这意味着数据实体和数据属性在不同语境中都会是数据元素。数据实体是概念业务模型中的数据元素,而数据属性是逻辑模型中的数据元素。逻辑层的概念图数据血缘在逻辑层的首要组件是数据实体。一个数据实体有一个或多个数据属性;同一抽象层的数据实体和数据属性相互间有对应关系;业务规则定义了适用于数据元素或数据属性组合的条件和限制;数据实体和数据属性都在具体内容中有唯一业务术语和定义。在逻辑层中,业务元数据和技术元数据都可以描述数据血缘的组件:业务元数据:逻辑模型本身就是元数据对象,因此对于逻辑模型及组成它的元数据对象,都需要记录其所有者。技术元数据:根据DAMA-DMBOK2(31),应将以下元数据元素识别为数据属性-数据实体或属性的标识符和名称-数据值域:这是数据元素的所有允许值清单。-数据类型:数字、日期和时间是数据类型实例。逻辑层的关键特点:数据实体和数据属性之间的关系清晰可见。业务规则定义了数据的转换和验证逻辑,确保数据的准确性和一致性。■ 物理层物理层是数据血缘的技术实现层,其主要任务是将逻辑层的数据模型转化为具体的数据库结构和ETL作业。物理模型的关键需求之一是有能将逻辑数据模型和物理数据模型之间的元数据对象连接在一起。例如,如果采用关系数据库,数据实体应对应于一个或多个数据表,数据属性对应于一个或多个数据列,如图所示:物理层的概念图各种自动型数据血缘解决方案可能记录各种各样的物理层的元数据组件。例如SAS数据血缘应用程序能记录SAS应用程序中使用的400多个元数据对象,因此,元数据组件、组件间的关系类型,以及描述组件的元数据元素等记录内容,会因企业的实际情况及需要记录的物理层数据血缘的选择而变化。二、业务规则:数据血缘的核心挑战业务规则是数据血缘中最复杂的组件之一,其挑战主要体现在:术语多样性:不同语境下,业务规则的定义和表示方式不同。层次依赖性:业务规则在概念层、逻辑层和物理层有不同的表现形式。技术实现:隐式规则(如嵌入程序逻辑的规则)难以记录和分析。业务规则的分类:概念层:约束是定义特定数据实体的特征或描述不同数据实体间关系的规范。逻辑层:根据业务规则目的,至少可以分为两种类型:转换规则和验证规则。转换规则:数据间的转换规范,定义一个数据属性或一组数据属性应该进行的转换方式,以创建新的数据属性。通常,新创建数据属性的值与原始数据属性的值不同。转换规则的例子有计算、聚合等。验证规则:一种控制数据属性的值与预定的质量需求间的对应规范。验证规则可以应用于单个数据属性或一组数据属性。物理层:逻辑层确定的转换或验证规则在物理层转变为用编程语言编写的程序代码。物理层的业务规则可以在(数据链)不同位置上执行,有显式规则和隐式规则两类。隐式业务规则是指那些嵌入在程序逻辑中的业务规则。显式业务规则存储在一个数据库中。业务规则的概念图三、总结数据血缘元模型通过业务层、概念层、逻辑层和物理层的逐层细化,为企业提供了全面的数据流转视图。它不仅帮助满足法规需求,还支持业务变更、数据质量管理和审计需求。然而,记录和管理业务规则仍然是数据血缘的最大挑战,需要企业在技术和业务层面投入更多资源。随着数据技术的不断发展,数据血缘将更加智能化和自动化,为企业提供更高效的数据管理解决方案。未来,数据血缘将不仅仅是数据治理的工具,更将成为企业数字化转型的核心驱动力。
查看详情
数据血缘:企业数据管理的“胡萝卜与大棒”
企业通常有强大的驱动因素来启动数据管理,特别是数据血缘工作。这些工作可能会带来许多与所需资源相关的挑战。这些驱动因素通常同时扮演“胡萝卜和大棒”角色。因此,企业应该在实现数据血缘的需求和实施后带来的收益间寻求平衡。本文将深入探讨数据血缘的四大业务驱动因素。· 满足法规需求· 业务变更· 数据管理工作· 审计需求一、满足法规需求随着全球监管环境的日益复杂,企业面临着越来越多的法规要求。数据血缘作为一种强大的工具,能够帮助企业满足这些法规需求。例如,巴塞尔银行监管委员会发布的《有效风险数据汇总和风险报告原则》(BCBS 239)、欧盟的《通用数据保护条例》(GDPR)等,都要求企业具备高度的数据透明度和可追溯性。尽管这些法规文件并未直接提及“数据血缘”,但数据管理专业人员通过分析法规需求,将其转化为数据管理语言,特别是数据血缘模型,从而确保企业合规。例如,BCBS 239和GDPR的翻译实例展示了如何将法规需求与数据血缘组件(如业务流程、IT资产、数据模型等)进行匹配。到目前为止,将这些法规需求与特定的数据血缘组件间进行匹配,确定了以下组件:· 业务流程· 涉及的业务职能和角色· IT资产,如系统、应用程序、数据库、网络· 概念层、逻辑层和物理层的数据模型· 以ETL过程的形式实现的业务规则及其技术实现二、业务变更企业在经营过程中,会经常处理各种类型的业务变更,比如信息需求的变化、应用程序环境的变化、组织结构的变化。影响分析和根因分析是执行这些变更时要用到的工具。记录数据血缘对完成这些分析有很大的帮助。1、影响分析影响分析允许自始至终跟踪数据链上的变化。数据库内的变化也需要进行影响分析。这些变化会影响数据链上的后续数据库和最终报告。数据血缘有助于预测整个数据链上必需的变化。2、根因分析新的信息需求需要进行根本原因分析。根因分析有助于从数据应用点回溯到数据源点。这些分析结果将可以:· 说明数据需求· 评估所需数据的可用性· 评价潜在的数据源数据血缘能简化根本原因分析的执行。三、数据管理举措数据质量、参考数据和主数据管理、数据仓库和商业智能(DWH和BI),以及数据集成都是重要的数据管理能力,需要数据血缘作为输入来完成它们的活动。1、数据质量如果没有数据血缘支撑,有两类数据质量关键活动就很难得到执行。· 解决数据质量问题:通常信息问题是在数据和信息链末端发现。大多数信息问题的突出问题是报告数据的不一致。为了找出问题原因,需要对数据转换进行彻底而详细的逆向分析。· 聚焦于数据问题的预防:通过收集数据和信息质量要求,并在数据和信息链上构建数据检查和控制来实现预防。2、参考数据和主数据参考数据和主数据是组织中共享和使用最多的数据。要正确地管理这些数据,需要协同数据源。数据血缘允许跟踪参考数据和主数据的来源。它还可帮助优化使用这些数据的数据链。3、DWH和BI,数据集成从DWH和BI的角度来看,优化数据集成过程是有效利用IT资源的关键。被记录下来的数据血缘和业务规则有助于数据转换更加透明。四、审计需求财务和风险专业人员花费大量时间来满足审计要求。这些要求集中在对报告中数字的解释。这项任务需要数据链上数据转换的知识。正确记录的数据血缘有助于提供数据的可跟踪性和透明性。五、结语数据血缘不仅是企业满足法规需求的工具,更是业务变更、数据管理举措和审计需求中的关键支撑。通过实现数据血缘,企业能够在复杂的数据环境中保持透明、可追溯和高效,从而在激烈的市场竞争中脱颖而出。注:文章来源《数据血缘理论与业务实践》
查看详情
数据新时代:如何选择现代数据治理平台
谈现代数据治理系统的十大架构特征最近一位老友找到我,咨询他的数据治理平台到底该不该换,背景是这样的:若干年前采购了一个市场主流的数据治理平台,功能大概就是数据治理三件套——标准、元数据和质量等经典数据治理的功能。现在企业要信创,该平台无法支持上云、新数据库等诉求,原厂也不再提供升级支持。这位朋友考虑到动迁成本以及多年累积的付出,犹豫是否再缝缝补补凑合一阵子。这种情况在市面上还是比较普遍的,经常有某客户抛弃老平台,重新采购新系统的案例。(这点不得不说,相比于西方企业市场,我国企业的外购系统的生命周期明显偏短的,具体个中原因暂且不表)。如果您也是正在做类似平台的选型,除了关注功能,更要关注到基础架构层面,那才是工具长期可持续的保证。作为一家专业的数据治理产品提供商,在最近发布的Datablau产品7x版本的研发中,我们也一直在探索,如何让产品在企业运营中可持续发展,如何保护客户的投资,如何让产品在客制化和标准化之间平衡,并保持持续的升级能力。这里结合我们的实践,谈一谈现代数据治理平台,具备的十大架构特性,供您参考。基础架构特征(上)现代应用程序架构的特征反映了当前技术的发展趋势和业务需求的变化。随着云计算、容器化、微服务、人工智能等技术的普及,应用程序的架构也变得更加复杂、灵活、可扩展和高效。以下是现代数据治理平台架构的一些主要特征:1.微服务架构微服务架构(Microservices Architecture)是一种将应用程序分解为一组小的、独立的服务架构模式。每个服务都围绕一个特定的业务功能构建,能够独立部署、扩展、开发和维护。特征:· 高度的模块化,每个服务独立运行,且可以使用不同的技术栈。· 独立部署、扩展和更新。· 服务之间通过API通信。微服务是云化时代软件架构的基本特征,数据治理平台的早期版本功能是单一的,大多是个前后端一体的单体应用程序。随着企业数据量增加和数据管理活动的细化,已经演化为一个复杂的应用程序,它包含了多个数据治理功能域,如标准、元数据、质量、安全、资产等,与数据领域的生态系统,如数据开发、服务、BI、分析等都有了集成应用。所以现代数据治理系统已经是一个贯穿开发,投产,生产三个环节的,一个企业级的综合数据治理平台。微服务架构让这个平台更容易云化,实现高可用,生态集成,在大数据量下提高负载能力和稳定性。当然微服务的粒度是个架构哲学问题,把握应用与分工的平衡性非常重要。在Datablau平台中共有20个左右的微服务,涵盖了原子的业务模块和公共的服务模块和基础设施模块等。《Datablau平台微服务架构》2.API驱动架构开放API成为现代应用程序架构的核心。应用程序通过RESTful API、GraphQL或gRPC等接口进行服务交互和数据交换。这种架构使得系统能够与外部系统进行集成,并且提供灵活的通信方式。特征:· 标准化的接口,简化服务间的通信。· 支持跨平台访问和异构系统的集成。· API文档(如OpenAPI)成为接口规范的重要部分。正如在《Datablau平台微服务架构》所述,早期的应用系统用JSP这种前后一体程序构建,虽然开发调试成本低,但是带来了耦合性和封闭性的弊端,所以现代软件平台必须是API驱动的前后分离的。3.事件驱动架构(EDA)事件驱动架构基于事件的触发和响应进行工作。应用程序中的事件(如用户行为、系统变化等)会引发一系列的操作和流程。这种架构适用于高并发、异步处理和实时响应的场景。特征:· 异步处理和消息队列(如Kafka、RabbitMQ)用于事件的传播和处理。· 支持实时数据处理和流处理。· 提高系统的解耦性和可伸缩性。Datablau产品中主要通过Kafka建立多服务的信息同步通道,记录跨服务的日志和对象状态同步,保证多服务间的事务最终一致性。参考上图《Datablau平台微服务架构》。4.API网关和服务中心API网关:用于处理和管理客户端请求,负责路由、负载均衡、认证、日志等功能。API网关通常作为所有微服务的入口点。服务中心:服务中心是一个基础设施层,提供微服务之间的通信、监控、安全和管理功能,通常与容器化和Kubernetes集成。特征:· 简化客户端与后端微服务的通信。· 提供流量控制、负载均衡、故障恢复、认证授权等功能。· 支持微服务之间的可靠通信和可观测性。Datablau产品中主要通过Gateway建立API路由通道,管理微服务的入口点,进行多服务的系统集成和参数配置。参考上图《Datablau平台微服务架构》。5.用户体验(UE)现代应用程序对用户体验(UE,User Experience)的要求比以往任何时候都更为严格和复杂。随着互联网和移动应用的普及,过去工业化风格的UI已经无法被习惯好的UE体验的用户所容忍。作为一个数据管理应用,其用户也跨出了数据管理人员的范围,更多角色包括业务侧人员的加入,让好的UIUE已经成为衡量数据治理平台是否更容易推广的重要指标之一。专业的UIUE是一个专业的领域,主要的内容包括简单直观的界面,减少学习成本、功能流畅等,现代的数据治理平台在此基础上更加强调:智能化体验:随着人工智能和机器学习的普及,现代数据治理平台不仅仅是工具,还需要通过智能化功能提升用户体验和工作效率。例如:智能推荐、自动化建模等智能功能,可以大大提升用户的交互体验。互动性体验:主动元数据治理(Active Metadata Management)是近年来流行的数据治理方法,数据治理平台需要有主动驱动的功能支持,在数据设计与加工过程中,通过通知、互动、联动等智能化方式,达到第一时间进行数据治理的目的,事半功倍。《Datablau元数据平台界面》以上介绍了一个现代数据治理平台,应该具备的基础软件架构,它保证了应用程序的云化能力、开放性和易用性等核心的架构能力。那么作为数据领域的应用,还需要一些高级的架构特性,来应对大数据量,迭代迅速的数据工具生态、成本效益考量等核心问题。高级架构特征现代数据治理平台是一个面向数据的企业级的现代应用,其需要特别的架构来适应快速发展的数据行业,适应大型企业的客制化需求,提高应用平台的可维护性。如下特征是我们在Datablau 7.x系统中重点打造的能力。1.数据库插件化近年来,国产化的数据库获得了蓬勃发展,在企业应用中也是百花齐放,接到了一个前所未有的数据库支持请求,这种情况在数据管理领域其实并不罕见。同时国产数据库还在快速发展中,版本迭代的连续性和兼容性问题都很大,意味着不同版本和方言的支持也是很重要的。数据库插件通常包含原生数据库驱动和采集插件两个部分,它们是可以热插拔的,也就是可以不停掉程序,进行更新支持。插件需要支持版本的隔离和类空间隔离,保证同类不同版本数据库可以在平台同时采集。《Datablau平台数据库驱动和插件管理》2.元模型驱动元模型(Metamodel)是描述模型的模型,是元数据的元数据,它提供了一个抽象框架,用于定义、描述和约束其他模型的结构和行为。换句话说,元模型本身是对特定领域或系统中各种模型的结构、关系、元素等规范化的描述。它不仅定义了模型的组成部分(如对象、属性、关系等),还规定了这些组成部分如何组合和交互。元模型的定义要素:1)对象:元模型描述的基本构建块,通常是“类”或“实体”,它们在具体模型中可能对应数据对象或业务对象。例如,在数据管理领域,元模型中的元素可以是“数据表”、“字段”、“数据类型”等。2)属性:这些是元素的特征或属性。在元模型中,元素可以具有不同的属性,比如数据类型、约束条件、默认值等。3)关系:元模型定义了元素之间的关系,这些关系可能是层次结构(如继承)、关联、依赖等。在数据管理中,这些关系可能是表与表之间的外键关系,或数据对象之间的依赖关系。4)约束:元模型还会规定哪些规则和约束是必须遵守的,比如数据格式要求、参照完整性、唯一性约束等。这些约束确保了模型及其实例的一致性和有效性。元模型驱动(Metamodel Driven)是现代数据治理平台的重要能力,通过定义所管理的数据对象的构成和规则,使得复杂的数据对象可以得到抽象化表示,使得这些对象可以共享相同的结构或规则,减少冗余和重用能力。其最重要的价值是快速应对业务需求或系统变化,支持定制和扩展。Datablau数据治理平台广泛具有元模型驱动的能力,根据数十年模型领域的积累,将元模型分为三层架构。《Datablau元模型架构》特别需要注意的是,元模型带来高扩展性好处的同时,也带来了一些副作用:· 过于专业,对于终端用户定义元模型要求很高。Datablau产品中特别有UDP(user defined property)这种动态的元模型,给到用户快速定义扩展的属性,简单易用。· 元模型高度抽象,底层数据存储非常集中,导致数据访问的性能降低。Datablau产品中主要通过缓冲层进行提速,大量使用了ES,Reddis和图数据库进行提速。· 过于通用的界面,导致用户难以使用。Datablau产品中主要通过开发个性化UI,从用户视角进行UE设计,将高难专业的内容进行包装,对于用户使用产品非常容易。3.二次开发解耦二次开发通常是指在已有的商业软件、开源软件或者平台上进行二次开发,以满足特定的业务需求、实现个性化功能或集成其他系统。在二次开发的过程中,架构设计尤为重要,它决定了系统的可扩展性、可维护性、灵活性和稳定性。数据治理系统是一类特殊的管理系统,在国情下存在各行各业的管理流程不一致的情况,造成比较频繁的定制开发需求。目前国内大部分厂商的产品大多是基于产品源码进行开发,这种开发应该称之为一次开发,即产品定制开发。产品定制开发造成的问题是比较多的,尤其是产品架构二次开发架构不好的时候,会造成系统的大规模质量衰退,同时,定制的系统长期维护成本是非常高的,以至于系统处于无法更新升级,处于安全的风险之中。Datablau 7x系列产品采用全面的二次开发架构,支持高扩展,低成本,长期可维护的二次开发能力,支持三种模式,可混用搭配:· API集成开发:通过Restful API进行二次开发是成本最低,质量最可靠的开发方式,大量的系统集成,功能自动化等使用此方式。这种开发方式的局限是无法浸入式功能和UI扩展。· SDK二次开发:通过SDK二次开发是开发能力更强的一种方式,它可以调整UI,扩充系统能力。这种开发方式的局限是开发曲线较长。· 插件式二次开发:通过Plugin的扩充可以对系统的特定部分进行能力扩展,比如集成和数据库插件等。这种开发方式的局限是只能在特定支持的部分扩展。《Datablau二次开发架构》4.信创支持未来几年内,数据治理平台对于国产信创系统的支持,已经成为一个刚需和必选的能力项。Datablau 7x系列产品全面支持新的信创系统架构,完成了与主流厂家的认证,同时具备快速支持能力。参考清单如下(不是最新):《Datablau信创支持证书清单》5.自动化与智能化数据正在呈爆炸式增长:每天估计会产生2千万亿字节的数据。鉴于数据的规模和速度,自动化和智能化的数据治理越来越有必要,以确保用户能够找到并使用相关的数据。目前AI与数据分为两个方向,即AI4Data 和 Data4AI。大模型提供商和训练者更关注Data4AI,旨在为AI训练提供更高质量更合规的数据集。在本文中更关注的是AI4Data,就是如何利用大模型和AIGC技术,赋能数据治理活动,减少付出的人力成本。在可见的未来,智能驱动(AI-Powered)的数据治理平台将成为标准化的能力。Datablau 7x系列产品已经引入了全新的AI Center模块,作为自动化与智能化的数据智能中心,与数据治理平台进行生态集成。参考架构如下:《Datablau AIC智能治理》AIGC作为一个新兴的技术,让我们对其带来的解决问题的能力给与了较高的期望。我们已经在如下方面取得不错的效果:· 数据语义的生成:对于数据中的元数据语义,通过AIGC进行自动补全。· 智能数据分类:AIC可以根据数据的内容或特征,自动进行分类和分组。自动识别其主题、类别或类型,并进行标注。· 数据标准的生成:AIC可以根据数据的内容或特征,建立适合行业的数据标准,并对数据标准的分布进行智能推荐。· 质量自动评估:AIC可以分析数据集的完整性、准确性、一致性、及时性等维度,自动评估数据质量,并提出优化建议。我们已经取得不错的进展,伴随AI增强的数据管理能力还在不断的探索和成熟中,我们未来会进一步更新我们的进展。总结从2014年以来,数据治理平台已经演化为一系列生态服务集成的大型应用程序集合,这和十年前的平台完全不是一个量级的产品。试图自研该系统的企业越来越少,一方面是成本效益的考量,另一方面市场的产品成熟度已经到达一定程度。作为数据治理产品的专业提供商,我们具有二十几年的产品设计开发经验和数据治理的Knowhow能力,立志为企业提供专业的、架构优良的、技术先进的、易用好用的数据治理平台,并与客户一同成长,保持平台的升级与演进,让用我们平台的企业永远走在数据治理的前沿!
查看详情
数据治理2025年的趋势与展望
序言2025年初,蓝天暖阳,春天正在走近。然而我们仍能感到经济的寒冷,全球政治波谲云诡,局部战争硝烟弥漫,贸易战此起彼伏,经济持续下行。在这样的大环境之下,企业经营面临外部环境的挑战,如何推进或保住主营业务,数字化转型要如何开展,数据治理要如何持续,如何持续以前的数字化投资,这都是企业管理在做预算规划时,所面临的战略难题。作为数据治理一线的参与者,通过我们遍布各行各业的客户群体,根据对当下数据治理进展的理解和观察,分享数据治理2025年发展趋势的观点,供您参考。目录 序言 1.数据治理的持续投资与深化应用 2.数据治理的自动化与智能化 3.架构驱动的数据治理 4.数据治理左移与源头治理 5.数据血缘治理 6.数据资产的价值外延 7.数据中台的归位,与数据治理的再融合 8.数据安全,监管强化与信创 其他观察与说明 结语:数据治理人的使命一、数据治理的持续投资与深化应用鉴于严峻的外部环境,特将数字化与数据治理的持续并深化作为一个首要趋势,它是后面八个趋势的基础。根据宏观机构报告,当下企业超越周期的策略,如果用两个字总结就是“经营”,2025年将是企业的运营之年,数据分析则是经营必备的手段,这个过程中数据治理在业务、IT和数据三个方面是必须要持续投资的:1)业务战略,聚焦主业在2025年,中国乃至全球很多行业都已经进入存量经济状态,企业选择聚焦主业,精简业务结构,提升核心竞争力。在全球经济下行和市场动荡中,专注于最具增长潜力的领域,优化资源配置,提升效率,才能在激烈竞争中立足并实现长期可持续发展。在这个背景下,进行数据治理,运用数字化和AI技术,加强精益经营,尤其是大型企业,这将是必然和唯一的选择,因为我们已经到了精益经营的阶段。图1:《企业经营ROI》2)IT战略,运营与管理在2025年,企业IT战略将聚焦于加强系统的业务运营和提升IT管理效率。通过优化现有系统,减少重复建设,将更多资源投入到业务赋能上,提升业务响应速度与创新能力。借助新技术推动业务增长,强化数据分析和自动化,确保IT与业务深度融合,助力企业在复杂环境中快速应变、持续发展。很多IT部门面临自证价值的窘境,需要从过去建设新系统进而功成名就的技术思维模式中走出来,多建立业务分析组织,加强与业务部门沟通能力。同时也建议加强架构管理,在应用系统上走向高质量建设,比如在老系统中置入数据洞察和AI助理,可能让业务有惊喜,而投入更少,风险更小。所以IT也应该更加关注数据治理和AI的应用。3)数据战略,去冗存精有人比喻数据是一把照妖镜,可以照出业务的真伪,也可以照出IT建设质量,更可以照出企业资源配置和业务产出(ROI)的关系,帮助企业决策哪里应该继续投入,哪里应该瘦身。然而在今天的大多数企业数据方面的投资还是很少的,可能是IT预算的几十分之一到上百分之一。让企业真的从数据中获得价值,吸引到更多投资,是数据部门的核心任务。总结一下,企业2025年将选择聚焦主体业务,持续用数据精准变革企业。数据人的使命是当好数据的管家,做好数据应用和数据管理上的提升,让企业数据素养水平可持续发展,辅助企业的业务经营的精益和提升。二、数据治理的自动化与智能化如果说近年来有什么最令人期待的技术革新的话,那一定是AI技术。从机器学习(ML)进化到内容生成(AIGC),再到智能体(Agent),AI已经逐步应用到垂直行业和具化的业务场景中。图2:《人工智能时代的数据治理》,来自AWS按照DAMA经典理论,数据治理是PPT(不是PPT忽悠,是People,Process,Technology)的三要素的有机结合与运营闭环。人工智能驱动的数据治理(AI-Powered Data Governance)将是未来的趋势,有望从技术侧的技术革新,减少人员的投入和数据治理流程带来的溢出成本。然而需要注意的是,AI技术并不是数据治理开展不起来的企业的救命稻草,反过来数据治理可能是AI技术在企业应用的救命稻草,这是个很有戏剧性的逻辑,现在已经得到引证,未来会进一步显性化这个趋势。大模型已经逐步部署到企业,AI应用逐步落地,在数据治理领域也有很多探索。目前通过大模型和智能化的算法,在数据语义建模,数据标准化落标、数据质量监控、数据查询和清洗、ChatBI等领域,已经取得不错的效果,我们期待2025年有更多进展。三、架构驱动的数据治理近年来,越来越多的企业将数字化转型和科技赋能上升至组织战略层面,从3A(业务架构,应用架构、数据架构)企业架构视角进行规划和实施,这是符合数据治理发展规律的趋势。在金融业,以银行业的建设银行数据架构方法(ABCD四层模型)为代表,我们看到了其新一代建设的十年后,在股份行和先进城商行进行持续实践和探索,在各行的新一代核心建设中,我们看到经典信息架构的思维,在数据管理领域,重提数据架构的管理与落地。这标志着无论是IT建设还是数据管理的工作,从系统局部走向企业全局,加强企业级别数据标准的统一,目标是实现“一点生成,多处共享,数出同源,口径一致”的管理要求。图3:《业务架构与信息架构的关系》在制造业,以华为的五层数据架构为代表,以业务对象为核心,通过将业务与数据紧密结合,实现了数据的有效管理和应用。具体来说,该架构从L1的主题域分组到L5的属性,逐步细化,确保数据的层次清晰和一致性。在制造业中,华为通过数据架构将生产管理、供应链、设备监控等业务对象进行数字化建模和管理,实现了数据的实时采集、分析和应用。通过数据的标准化和治理,华为确保了数据的准确性和一致性,为制造业的智能化转型提供了坚实的基础。数据治理本身就是企业级的,能够从架构视角出发是业界数据治理实践进步的表现,也是必然的发展趋势。需要注意的是企业仍需从自身出发,深刻了解TOGAF的精神和各种裁剪方案,制定适合自己的开展策略。不要陷入晦涩难懂的方法论陷阱和得其形不得其神的教条主义中。四、数据治理的左移(Shift-Left)数据治理的“左移(Shift-Left)”与源头数据治理将成为2025年的数据治理的重要趋势之一。传统的数据治理多集中在数据采集后的数据清洗和管理,但近年来的数据治理实践发现,事后数据治理事倍功半,随着企业对数据质量和实时性要求的提升,数据治理的重心开始左移——从数据源头开始进行治理。图4:《Shift-Left Data Governance》数据治理左移(Shift-Left)和源头治理是同义理念,国内和国际的两种叫法。了解我们的朋友应该知道,我们从18年以来一直倡导源头治理的理念,并在各行各业有着广泛的成功案例。经常有以本企业对源端开发没有掌控,就认为不适用源端治理的观点,这其实是非常片面的理解,源头治理是一种思想,管控应用开发环节只是这种思想的具体举措之一。实际上这个思想之下,企业任何IT管理模式,都有适用的措施,只要数据对企业是重要的,是要使用的。源头治理意味着,在应用开发、数据采集、数据生产的初期就开始进行规范化管理,避免数据质量问题在后期出现。数据治理的左移不仅仅是技术上的转变,更是管理理念的转型,强调数据质量、数据合规和数据安全的早期介入,从而减少后期的治理成本。五、数据血缘治理数据血缘治理(Data Lineage Governance)简单定义就是对数据从源头到终端的流动路径的管理和应用。随着数据量和复杂度的增加、监管要求的加强,以及数据驱动决策的重要性,数据血缘治理成为企业数据治理的重点,将成为2025年数据治理的重要趋势之一。数据血缘的作用可以简单地总结为以下五条:1)提高数据透明度:清晰显示数据的来源、流向和变更过程,确保数据的可追溯性。2)确保数据质量:帮助识别和纠正数据流转中的问题,保证数据的准确性和一致性。3)指标口径溯源:帮助确定指标加工的路径以及数据问题的根因分析。4)增强数据安全:通过监控数据流动路径,识别潜在的安全风险,防止数据泄露或篡改。5)促进数据驱动决策:帮助决策者理解数据背景和来源,提高分析结果的可信度和决策的准确性。图5:《基于算法和口径的血缘追溯》来自Datablau SQLink数据血缘管理并不是一个新的产物,而是一个存在二十多年的经典数据治理内容。那为什么在2025年会热门起来呢,原因是因为国内的数据治理到了一定阶段,就像街面已经清扫干净,开始关注地下管道的疏导一样,是数据治理深化的必然结果。那么建设数据血缘治理项目,有哪些注意的点呢1.数据血缘治理需要多团队结合,信任是关键数据血缘治理不仅是IT部门的任务,成功的实施需要跨部门的协作和管理, 也依赖于高质量的数据管理。一些企业在实施数据血缘治理时忽视了质量管理工作,只关注技术上的血缘解析,一旦链路不准确,进而影响到后续的分析和决策,则数据部门将失去信任,甚至背负问题责任。2. 自动化工具至关重要,但并非万能在实施数据血缘治理时,普遍采用自动化工具来跟踪和可视化数据流动。自动化工具能大大提高效率,减少人工跟踪和记录的工作量,同时还能确保实时更新和监控数据流向。但是,一些复杂的业务流程或定制的数据处理方式可能无法完全通过现有工具自动化。因此,企业需要结合人工干预和工具的双重优势,以确保数据血缘的准确性和完整性。3. 数据血缘治理需要持续维护现在数据血缘技术基本是依赖于语法解析技术,然而数据库SQL语法也是一个不断升级的,所以需要一个持续的定期更新和维护,避免技术滞后导致的血缘不准确,影响分析结果的不准确和决策的失误。六、数据资产的价值外延在数字经济时代,数据作为一种新型生产要素的地位日益突出,推动了数据资产的财政入表、数据生产要素化及基于数据空间的数据交易的快速发展。图6:《Data Space Architecture》,来自IDSA首先,数据资产的财政入表是指将数据作为国家经济的一部分纳入正式的财政核算体系。这一举措使得数据不再仅仅是企业的资源,而是具有公共价值和战略意义的国家资产。通过明确数据的经济价值,政府能够制定更加科学的政策,推动数据的合理利用与流通。其次,数据生产要素化将数据视为类似土地、劳动力和资本的核心生产要素。现代企业通过收集、分析海量数据来优化决策、提高效率,推动创新。例如,人工智能、机器学习等技术的进步离不开海量的高质量数据,这进一步强化了数据作为生产要素的地位。最后,基于可信数据空间的数据交易平台的兴起,推动了数据的流通与共享。通过这些平台,企业可以在安全合规的环境下交换数据资源,提升数据的利用效率。这不仅促进了不同领域的数据合作,也为各行业带来了创新驱动和竞争优势。总之,数据的财政入表、生产要素化及数据交易,正在推动数据资源的价值化与市场化,成为数字经济发展的重要推动力。七、数据中台的归位,与数据治理的再融合2024年围绕数据中台产生了各种争议话题,有先知先觉的批判,也有恨铁不成钢的惋惜,甚至知名机构给打了个小红叉。作为行业20年数据治理的入局者,始终理性看待每个新技术新概念的出现,我们将数据中台回归本位,继续跟踪数据治理平台的发展与趋势:图7《Modern Data Warehouse》1.企业仍然需要数据汇聚与挖掘计算的基础平台,无论它叫数据中台,还是数智基建,亦或是现代数据仓库(我更喜欢这个叫法)。数据底座层面的技术仍在快速发展(如Lakehouse等),企业也有了更多选择,从实际出发,选择经典Hadoop系列,或是选择迅猛发展的MPP(如Doris),抑或是直接MySQL走起,只要适合企业情况即可。在计算方面,并行计算技术让数据处理越来越快,而维护成本越来越低。2.数据中台与数据治理的融合,数据中台是企业数据治理中非常重要的一部分,是DAMA车轮图中的一个辐条;但是反过来讲则不合适了,道理很简单,就像接不起业务变革这个责任一样,数据中台也接不起数据治理的责任。让我们建立标准化的整合模型,提供统一高质量的数据,提供高性能的数据访问,配合做好企业统一的数据治理,继续做好做强数据中台的本分工作。八、数据安全,监管强化与信创随着数据安全的法律法规的发布,企业大部分实施了数据的分类分级,发布了内部的数据安全管理办法,这些措施已经在逐步发挥作用。监管强化也是明确的趋势,金融行业和银保行业的一表通,逐步发展到了T+1和在线监管的程度。大型的政府和央企组织也已经逐步增强监管的数据范畴,增加数据规则,提高数据的质量。信创,众所周知的原因,正在从核心软硬件到终端软硬件发展。其他观察说明篇幅有限,认知有限,还有很多趋势未观察到,并不代表这些不是未来方向。1.Data Fabric: 数据编织(Data Fabric)是一种通过构建统一的数据架构来实现跨系统、跨平台的数据访问与治理的技术框架。近年来被Gartner标记为趋势,企业受制于IT架构和发展水平,国内仍在探索期,尚未观察到显著案例。2.Data Mesh: 数据网格(Data Mesh)是一种去中心化的数据架构理念,强调将数据治理分散到各个领域中,而非依赖于单一的中心化平台。近年来新兴的概念,虽然被Gartner合并到Data Fabric,但是却有其理念的独特性。在国内仍在探索期,可能因为我们企业的现有治理架构之下,尚无法广泛建立这样的落地实践。3.Active Metadata Management: 主动元数据治理是指能够动态变化并具有自我更新能力的元数据管理理念。在国内仍在探索期,因为企业当前元数据的应用水平和数据使用的群体受限。4.Data Vault Modeling:DV模型是一种高扩展和离散式的建模范式,在国外有广泛的应用。在国内仍在探索期,这可能与我们实施数据仓库的方法与团队,以及云计算等应用有一定关系。结语:数据治理人的使命2025年,企业将迎来更加深刻的变革,数据治理人员肩负着推动企业数字化转型、确保数据质量与安全的重要使命。在这个充满挑战和机遇的时代,让我们勇敢地承担起这个时代赋予我们的责任,持续推动数据治理的深入实施,帮助企业在时代洪流中找到前行的方向。同时也不断提升自己,成就自己,共勉!
查看详情