20图学懂从0到1搭建企业级数据治理体系
如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。下面笔者结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。如有遗漏之处,欢迎评论区探讨。一、数据治理到底是在做什么?数据治理的核心工作:在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。整个过程,如图所示。我们先做一些类似数据同步的工作将数据放入到大数据系统中数据进来后需要管理和存储,即参考建模理论和实际场景建设数仓经过主题规划、维度确定、标签计算输出等步骤处理数据输出到报表、应用端使用整体流程数据治理体系将全程监管。要确认进出系统的数据质量怎么样?是否可转化数据资产?数据血缘是否可追溯、数据安全等问题。二、为什么要做数据治理有一些企业对这个问题的概念很模糊,认为目前的数据规模很小,人为可控,暂时不需要做数据治理。但是在实际使用中还是会遇到很多问题:数据监管力度不够,出现脏数据数据体系逐渐规模变大,管理混乱数据的血缘丢失,无法回溯旧、老的数据无论企业的数据规模如何,笔者认为还是提起做好数据治理的规划。考虑到成本的问题,可以分阶段进行。有剑在手不用和无剑可用是两回事。提前做好数据治理规划,会节省后续的改造成本,避免过程冗余重构或者推倒重来等情况的发生。数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。三、数据治理体系企业数据治理体系包括数据质量管理、元数据管理、主数据管理、数据资产管理、数据安全及数据标准等内容。1)数据质量一般采用业内常用的标准来衡量数据质量的好坏:完整性、准确性、一致性和及时性。完整性:数据的记录和信息是否完整,是否存在缺失情况准确性:数据汇总记录的信息和数据是否准确,是否存在异常或者错误一致性:多个业务数仓间的公共数据,必须在各个数据仓库中保持一致及时性:数据能及时产出和预警2)元数据管理元数据是关于数据的组织、数据域及其关系的信息,通俗理解,元数据就是描述数据的数据。元数据包含技术元数据、操作元数据和业务元数据。可以帮助数据分析人员清楚了解企业拥有什么数据,它们存储在哪里,如何抽取、清理、维护z这类数据,也即数据血缘。帮助构建业务知识体系,确立数据业务含义可解释性提升数据整合和溯源能力,血缘关系可维护建立数据质量稽核体系,分类管理监控3)主数据管理企业主数据指企业内一致并共享的业务主体,大白话理解就是各专业公司和业务系统间共享的数据。常见的主数据比如公司的员工、客户数据、机构信息、供应商信息等。这些数据具有权威性和全局性,可归约至公司的企业资产。一般主数据管理需要遵循如下几点:管理和监管各组织机构、子公司、部门对主数据的访问,制定访问规范和管理原则定期进行主数据评估,判断既定目标的完善程度组织相关人员和机构,统一完善主数据建设提供技术和业务流程支持,全集团集中统筹4)数据资产管理一般企业在数字化转型时都会考虑数据资产梳理。你的数据有没有被合理利用?如何产生最大价值?这是数据资产管理关心的核心工作。在构建企业资产时一般会考虑不同角度,即业务角度和技术角度,最后进行合并,输出统一的数据资产分析,并向外提供统一的数据资产查询服务。如何盘活数据,形成数据资产,提供完整的数据资产全景视图,可方便运营者全局、宏观地掌控企业资产动态。5)数据安全数据安全是企业数据建设必不可少的一环,我们的数据都存储在大大小小的磁盘中,对外提供不同程度的查询和计算服务。需要定时对数据进行核查、敏感字段加密、访问权限控制,确保数据能够被安全地使用。6)数据标准企业需要在组织内定义一套关于数据的规范,保障所有人员对数据的理解一致。今天张三说这个客户号是办理银行卡的客户,明天李四又说是借贷过的客户。对比一看,两者的字段类型和长度一致,到底要采纳哪个意见呢?数据标准是保障数据的内外部使用和交换的一致性和准确性的规范性约束,通过统一规范,消除二义性。四、企业数据治理实施过程1、数据治理实施框架数据治理体系是为了规范业务数据规范、数据标准、数据质量和数据安全中的各类管理任务活动而建立的组织、流程与工具。通过一个常态化的数据治理组织,建立数据集中管理长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平。2、数据治理组织架构企业数据治理体系除了在技术方面的实施架构,还需要管理方面的组织架构支撑。一般在数据治理建设初期,集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。1)组织架构①决策层提供数据标准管理的决策职能,通俗理解即拍板定方案。②管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准事项,提交信息科技管理委员会审议③执行层业务部门:负责业务线数据标准的制定、修改、复审,推广落实数据标准等科技开发:承担治理平台、数据标准、数据质量等实施工作;系统设计和开发工作中遵循数据标准科技运营:负责技术标准的制定和技术推广2)管理层职责①项目经理确定项目目标、范围和计划制定项目里程碑管理跨项目协同②专家评审组评审项目方案,确定方案的合理性③PMO确保项目按计划执行管理项目重大风险执行跨项目协同、沟通组织项目关键评审④数据治理专项组执行各项目的落地实施和运营推广,推动执行层的实施数据治理技术落地和项目进展。3)执行层职责数据架构师、数据治理专家和业务专员形成数据治理"铁三角”,紧密协作,推进数据治理与数据架构落地。①业务专员业务专员作为业务部门数据治理的接口人,在标准、质量、应用等领域组织业务人员开展工作定义数据规则保障数据质量提出数据需求②数据治理专家数据治理专家作为数据治理组成员,负责设计数据架构,运营数据资产;牵头组织业务、IT达成数据治理目标。构建数据逻辑模型监控数据质量运营数据资产③数据架构师数据架构师作为IT开发部门的专家,承担数据标准落地、模型落地的重任,协助解决数据质量问题。数据标准落地逻辑模型落地物理模型落地3、数据治理平台在确定了技术实施方案和组织管理架构,下面需要进行数据治理体系的落地实施。在大型企业中一般会开发一个完整的数据治理平台,囊括所有数据治理功能,对外提供平台服务。1)核心功能数据治理平台作为数据治理的产品体系,旨在保障数据平台的数据是安全、可靠的、标准的、有价值的。数据资产管理:提供面向用户的场景化搜索,提供全景数据资产地图,方便快速查找资产和资产分析数据标准管理:统一定制数据标准,提高包括字段、码值、数据字典管理,保障业务数据和中台数据的统一标准数据质量监控:提供事前、事中、事后的数据质量体系,支持数据质量监控规则配置、告警管理等功能数据安全:提供数据安全脱敏、安全分级和监控数据建模中心:统一建模,提供业务系统建模和模型管理2)元数据管理元数据管理系统作为数据治理平台的前端展示门户,帮助实现对数据资产的快速检索能力,提高数据使用有效性和效率。通过建立完整且一致的元数据管理策略,提供集中、统一、规范的元数据信息访问、查询和调用功能。3)数据质量数据质量监控:支持所有用户进行数据质量监控规则配置规则阻断:配置数据质量监控阻断规则,数据质量出现差异可实时阻断下游作业运行,屏蔽错误结果链路扩散告警:数据质量出现预设偏差,及时发出预警通知及时修复4)数据标准支持定制统一的数据标准平台,包括字段标准管理,码值标准管理以及字典管理,业务源数据和中台数据统一标准。5)数据安全基于集团数据资产实现数据安全分级管理,自动识别安全信息;提供数据访问安全行为监测,及时识别访问风险。4、数据治理评估数据治理平台开发完成并运行,需要对整体数据治理体系的效果进行验证和评估。数据是否可以消除“脏、乱、差”的现象数据资产是否最大价值化所有数据的血缘是否完整可追溯1)数据资产通过构建数据资产管理体系,实现资产全覆盖,并支持全局搜索和精准定位目标资产。实现全局搜索,面向用户提供场景化检索服务支持标签、数据地图、表名和字段名等多种检索维度支持进行数据地图,源业务数据字典的结果筛选比如支持PV/UV用户搜索和资产展示,明确服务目标2)数据标准新旧数据标准沉淀,打通了数据建模工具、数据标准库和词根标准库,落地数据标准和词根。实现数据标准库100%拉通智能识别数据标准和引用客户端同步更新数据标准、词根3)数据安全保持事前制度建设、事中技术管控、事后监控审计的原则建立全流程数据安全管控体系。基于以上数据安全管控体系,支持数据安全定级,构建灵活的数据安全共享流程。4)数据质量通过数据质量雷达图,定期进行数据和任务质量打分,综合考察数据质量效果。数据完整性:查看数据项信息是否全面、完整无缺失告警响应程度:日常管理、应急响应、降低影响;避免数据损毁和丢失监控覆盖程度:确保数据遵循统一的数据标准和规范要求作业稳定性:监控作业稳定性,是否存在作业异常等问题作业时效性:检查任务对应的数据项信息获取是否满足预期要求五、数据治理的误区1、数据治理是否要做得大而全这是一个经典问题,一般对于不同阶段和规模的企业,数据治理的实施程度会有所不同。一般建议先根据自身的数据状况分阶段进行,避免盲目铺开规模,过程中可调整。2、数据治理只是技术考虑的事情正如文中所说,数据治理不仅仅是技术团队的事情,而是整个集团一起协作完成。其中就包括各业务线以及其他管理组织,没有一个好的实施方案和协作机制,往往事倍功半。3、数据治理可以短期见效数据治理是个长期过程,会跟随着企业数据的规模和数仓规划的变更同步调整,部分功能可能会在短期内卓有成效,完整体系搭建短期很难实现。4、必须得有工具平台,才能开展数据治理俗话说工欲善其事必先利其器,有好的工具当然是更好,前提是已经有了成熟的数据治理体系规划和策略。工具和技术手段目前市面上很成熟,先把理论给铺垫好。5、数据治理感觉很模糊?不知道最后的落地结果数据治理是一个长期工作,需要相关从业者根据企业的数据现状和管理模式去构建和调整,建议边做实践边总结归纳,小步慢跑是一个很好的方式。注:本文转自“大鱼的数据人生”,侵删,如需转载请联系原作者!
查看详情24张架构图讲透数据治理核心内容
一、数据治理的框架和核心内容不同的利益相关者群体对数据治理的关注点不一样,因此各自的视图也不一样。其中管理者视图可以概括为“五域模型”,分别是“管控域”、“过程域”、“治理域”、“技术域”、“价值域”。图1、管理者视角-数据治理五域模型管控域:在数据治理战略指导下制订企业数据治理组织,明确组织的责、权、利,岗位编制及技能要求。治理域:是数据治理的主体,明确数据治理的对象和目标。技术域:数据治理的支撑手段,指的工具平台。过程域:是数据治理的方法论。价值域:通过对数据资产的管控挖掘数据资产的价值,并通过数据的流动、共享、交易变现数据资产。图2、技术视角:企业大数据治理实践指南框架数据治理体系,包括数据战略、数据治理管控体系(数据治理组织、制度、流程、管控机制、绩效体系及标准体系)、数据架构、主数据、元数据、指标数据、时序数据、数据质量、数据安全、数据集成与交换、数据开放和共享、数据资产管理能力成熟度评估以及数据价值、数据共享、数据变现等多方面。图3、数据治理车轮图接下来从数据战略、数据管控(组织管理、制度体系、流程管理及绩效)、三个核心体系(数据标准体系、数据质量体系、数据安全体系)和工具等分别进行介绍。图4、企业数据管控和三个核心体系1、数据战略数据战略是整个数据治理体系的首要任务,关注整个组织数据战略的规划,愿景和落地实施,为组织数据管理、应用工作的开展提供战略保障,应由数据治理组织中的决策层制定,需要指明数据治理的方向,包括数据治理的方针、政策等。图5、数据治理顶层规划设计方法论正确的顶层设计是企业家对未来形势的正确判断,对机会和战略,治理与架构,资本和模式,供应链和数字化,品牌和营销,产品和客户等整体一盘棋的布局。如果说商战就是没有硝烟的战争,那么顶层设计则是整体战的部署。2、组织管理组织保障是数据治理成功的关键。组织建设一般包括组织架构设计、部门职责、人员编制、岗位职责及能力要求、绩效管理等内容。数据治理是一项需要企业通力协作的工作,而有效的组织架构是企业数据治理能够成功的有力保障。为达到数据战略目标,非常有必要建立体系化的组织架构,明确职责分工。图6、某集团数据治理组织架构设置范例图7、某央企数据治理组织架构设置范例3、制度体系保障组织架构正常运转和数据治理各项工作的有序实施,需要建立一套涵盖不同管理粒度、不同适用对象,异覆盖数据治理过程的管理制度体系,从“法理”层面保障数据治理工作有据、可行、可控。图8、数据治理制度框架企业的数据治理制度通常根据企业的IT制度的总体框架和指导原则制定,往往包含数据质量管理、数据标准管理、数据安全管理等制度,以及元数据管理、主数据管理、数据指标管理等办法及若干指导手册。图9、数据治理制度框架体系图10、数据资产管理规定目录4、流程管理制定数据治理的流程框架也是数据治理的重要工作。数据治理流程包括从数据的生产、存储、处理、使用、共享、销毁全生命周期过程中所遵循的活动步骤,以及元数据管理、主数据管理、数据指标管理等流程。图11、数据治理流程框架体系5、绩效管理数据治理考核是保障数据治理制度落实的根本,通过系统的方法、原理来评定和测量企业员工在一段时间内数据治理相关的工作行为和工作效果,进一步激发员工的积极性和创造性,提供员工的数据治理责任心和基本素质。图12、数据治理绩效体系6、标准体系数据标准是实现数据标准化、规范化的前提,是保证数据质量的必要条件。数据标准一般分为元数据标准、主数据标准、数据指标标准、数据分类标准、数据编码标准、数据集成标准等内容。图13、数据标准化体系7、质量体系数据质量管理是对数据的分析、监控、评估和改进的过程。包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性,提高数据对业务和管理的满足度。重点关注数据质量需求、数据质量检查、数据质量分析和数据质量提升的实现能力。图14、数据质量框架体系数据质量管理贯穿数据生命周期的全过程,除了明确数据质量管理的策略,还要善于使用数据质量管理的手段及工具,覆盖数据质量需求、数据探查、数据诊断、质量评估、质量提升等方面。8、安全体系数据安全管理是为了确保数据隐私和机密性得到维护,数据不被破坏。数据安全体系框架通过3个维度构建而成,包括政策法规、技术层面和安全组织人员。数据安全治理体系框架在符合政策法规及标准规范的同时,需要在技术上实现对数据的实时监管,并配合经过规范培训的安全组织人员,构成了数据安全治理整体架构的建设。图15、数据安全治理体系数据安全治理能力建设是一个覆盖数据全部生命周期和使用场景的数据安全体系,需要从决策到技术,从制度到工具,从组织架构到安全技术通盘考虑。图16、数据数据全部生命周期9、平台工具搭建一体化数据平台,满足前台应用准确性、快速性和多样性的数据需求,缩短研发周期、降低技术成本,将数据中心逐步由成本中心向资产中心转变,提升数据价值,实现五个打通:(1)横向打通:破除部门壁垒,横向跨专业间的分析挖掘融通;(2)纵向打通:内部多层级数据打通,形成统一资源目录。上下级数据共享交换;(3)内外打通:消除内外数据的鸿沟,实现内外部数据的关联分析;(4)管理打通:建立企业标准,实现统一管理统计口径;(5)服务打通:数据中台统一对外提供数据服务和应用构建,与业务系统和数据应用充分协同。图17、两体系两平台一服务的数据平台总体框架面向数据全生命周期,提供的一站式数据规划、集成、开发、治理、服务、应用等产品。图18、数据平台能力框架从数据接入整合能力、数据共享应用能力、数据综合管理能力、基础组件支撑能力四方面,全面建设数据能力,培育能力体系,以多类型大数据量的汇聚为基础,以统一模型为标准,为前端应用提供灵活的统一数据服务。图19、数据平台四大支撑能力数据治理需要多种数据治理工具软件的支撑,包括以主数据为核心的套装软件、以数据资产目录为核心的数据资源管理工具、以元数据和数据模型为核心的数据中台,此外还有时序数据、数据交换等。数据治理管理工具包括数据架构工具、元数据管理工具、数据指标管理工具、主数据管理工具、时序数据管理工具、数据交换与服务工具、质量管理工具和安全管理工具等。图20、数据治理工具集图21、以元数据治理为核心的数据治理工具主数据服务业务视图包括8个业务域、32个业务子域及相关业务活动,主数据管理工具是主数据全生命周期管理的平台,也是主数据标准、运维体系落地的重要保障。图22、以主数据治理为核心的数据治理工具主数据治理平台是企业数据规划、数据标准落地的载体,实现数据治理统一标准、统一规则的支撑。图23、主数据管理工具-逻辑架构二、人工智能是大数据治理核心方向“无治理、不分析”,没有高质量的数据,就不会有可信的AI。数据治理是人工智能基础,为人工智能提供高质量的数据输入。有了人工智能加持,数据治理将变得更加高效和智能。人工智能技术在数据采集、数据建模、元数据管理、主数据管理、数据标准、数据质量及数据安全等领域有着深入的应用。图24、人工智能技术在数据治理中的应用三、结束语数据治理的发展是伴随着不同行业对数据资源资产化、数据确权与合规、数据价值创造与共享、隐私保护的认识、研究和实践的一个演进过程,是一项繁杂、长期的工作,需要工匠精神、锲而不舍。注:本文转自源架构师修炼之道,侵删,如需转载请联系原作者!
查看详情如何通过数据治理来提升业务价值——业务场景治理
数据治理,一方面是为了对数据的规范管理和控制,还有一方面是让数据能够为业务提供服务和创造价值。近些年来,随着数据治理技术发生着日新月异的变化,行业对数据治理的需求和指导也被逐步推进和实践,从宏观上看,数据治理的组织架构、规章制度、标准规范日趋完善,实现了数据规范化管理,但在支撑业务减本增效、支持业务创新等方面尚存距离。具体体现在以下几点:与业务过程脱节无法针对业务过程中的数据需求与痛点进行问题解决,导致治理的数据无法真正满足业务需要或带来价值。低治理效率没有在业务流程中嵌入数据质量管理等机制,无法发现并解决早期的数据问题,需要在业务运行过程中不断纠错和补救,效率低下业务过程指标缺失没有与业务场景密切结合的数据治理,无法为业务过程提供准确和及时的业务指标,无法实现数据驱动的业务管理数据安全隐患只专注企业横向的数据分类分级,而忽略考虑了纵向业务流程中的数据安全与授权要求,可能导致重要业务数据的泄露、篡改和滥用,或者过高的数据分级影响了业务流程的流畅性业务创新受限不结合业务场景去炫新技术、鼓吹大模型,没有高质量和标准化的数据支持,难以实现真正的业务创新与赋能,大数据、人工智能只是工具与手段而已。至此,数据治理进入了一个新的发展阶段,为了避免数据治理成为数据管理部门、IT部门的一厢情愿,而忽视业务部门的需求和参与,形成数据治理的怪圈,企事业机构的数据管理部门开始从宏观的数据治理框架和策略,转向具体的业务流程和场景的数据治理,以此为业务提供有效的数据支持和决策依据,增强业务的参与度和满意度。一、结合业务场景的数据治理业务参与到数据治理过程中,业务流程是一道绕不开的主题。业务流程是企业为实现特定目的而执行的一系列活动或任务。业务流程是企业运营的基础,也是数据产生和消费的场景。数字化、可视化业务流程,可以通过数据来更好提高业务问题识别度、专注业务问题实际解决,从而增强企业的竞争优势和客户满意度。企业的业务流程可以看作是数据的源头,数据都是在各种业务场景和业务流程中产生和使用的。如果脱离了业务流程,进行的数据治理就可能变成空中楼阁,无法产生真正的业务价值。因此,将数据治理融入到业务流程中,进行业务场景化的数据治理,就变得极为重要。下面以一个大家比较熟悉的保险行业业务来描述如何以业务场景进行数据治理作为例子。我们都买过保险产品,日常也体验过诸如车险、商业医疗险等这些日常险种服务,来年如果不续保、想更换保险公司的最大原因通常也都是对理赔服务不满意而导致,因此保险公司如何提高客户满意度、降低客户流失率,就可将保险理赔选作为数据治理的一个业务场景,定位业务问题与流程、联动各利益相关者制定数据方案。我想通过下面这张图来说明数据治理如何结合理赔业务场景来提升业务价值的。第一步:明确业务目标在选定业务场景的数据治理同时,首先须明确该场景的治理目标。通过客户满意度调查和客户流失数据分析,发现理赔业务中存在客户查询理赔进度困难、理赔流程自动化程度低等问题。因此,确定项目的业务目标是:改善理赔效率,提升客户满意度。第二步:分析业务问题,确定关键数据要素根据业务目标,识别出两个关键业务问题,分析这两个业务问题的根因,确定保单记录、理赔记录、代理商和客服中心的记录作为关键数据要素。这些数据要素关系到理赔进度跟踪和自动化流程执行。第三步:对数据要素按业务和技术维度梳理1)业务维度设置理赔时长、客户满意度、自动化程度为关键绩效指标(KPI)确定量化考核指标,如理赔时长减少5%,满意度达到4.5分等制定数据治理规则,如理赔政策一致性规则、数据质量规则2)技术维度明确关键数据要素的来源系统,如保单系统、理赔系统数据集或表单,如保单标头、理赔内容等信息项与属性,如理赔类型、理赔金额等第四步:建立规则与属性的关联将业务规则与技术属性关联,例如将理赔政策一致性规则与理赔类型属性关联。第五步:构建血缘关系通过关联保单系统和理赔系统中的数据要素,构建起端到端的血缘关系,包括业务血缘、数据血缘,应用血缘实现业务监控与行动。通过对理赔业务场景的数据治理,明确了业务目标,找到影响目标的关键问题,针对问题建立了数据KPI和数据核查规则,通过数据血缘、业务血缘的联动来跟踪和监控数据,提醒、督促利益相关者及时处理问题,最终实现了提升理赔效率和客户满意度的目标。这充分体现了业务场景数据治理的重要性。与脱离业务的数据治理相比,业务场景治理结合具体业务流程和问题,可以更好发挥数据治理的价值,解决实际业务痛点,而不是停留在一味的落标率、数据仓库质量达标率、血缘覆盖度等纯治理过程中。二、如何实现业务场景数据治理北京数语科技有限公司致力于做技术最先锋的数据治理厂商,如何将先进的数据治理技术与客户业务流程相结合,通过智能化和自动化创建数据治理业务场景,帮助企业快速落实业务流程的数据和规则,技术驱动的数据治理与业务流程结合,从而实现企业的数字化转型和价值增长。数据治理和业务流程之间存在着紧密的联系和相互影响。一方面,数据治理为业务流程提供了可靠、准确和及时的数据支持,帮助企业做出更好的决策和行动。另一方面,业务流程为数据治理提供了清晰的目标、需求和反馈,帮助企业优化数据的生命周期和价值。根据上述保险理赔的例子,通过将数据集、属性、数据标准、关键指标以及法规政策等元素融入业务流程,将人和行为活动关联起来,理解数据在其中的上下文,实现数据治理的业务场景化。如何通过技术进行业务场景治理落地呢?我将以下面三个步骤综合描述。第一步:创建数据治理业务场景数据治理业务场景是指将数据治理与业务流程相结合,形成一个完整的数据治理视角,包括业务流程、业务节点、业务数据、业务指标、业务规则、业务利益相关者等元素。创建数据治理业务场景的步骤如下:1)围绕业务场景构建数据治理基础平台:维护好数据标准、做好指标定义,逆向应用系统数据模型,对数据进行分类分级、开发数据质量检核与清洗规则、采集全面的元数据生成血缘。这些是数据治理的基础工作,为数据治理业务场景提供数据的规范性、完整性、准确性、可信性和可用性。2)创建关键业务流程:根据业务场景与业务方进行协作梳理核心业务流程,在画布中定义出关键业务节点形成业务流程。这些是业务场景治理的核心工作,为数据治理业务场景提供业务的流程性、连贯性、逻辑性和可视化。3)关联业务节点中的全方位元素:围绕业务流程智能、自动关联业务场景中的利益相关者、数据集等元素,自动形成人、事、物、活动于一体的数据治理业务场景。为数据治理业务场景提供业务的全面性、关联性、动态性和智能化。 第二步:配置数据治理目标与规则数据治理目标是指根据业务目标分解出业务问题,将问题落地成KPI与指标、规则,通过数据治理业务场景中的人和制度落实考核,设计考核标准、时限。配置数据治理目标与规则的步骤如下:1)明确业务目标:业务目标是数据治理的出发点和归宿,需要明确业务的期望和方向,如改善理赔效率、提升客户满意度。2)分解业务问题:业务问题是数据治理的驱动力和挑战,需要分解业务目标,找出影响业务目标的关键因素和障碍,如查询理赔进度困难、理赔流程自动化程度低。3)落地KPI与指标、规则:KPI与指标、规则是数据治理的衡量和执行,需要将业务问题具体化,定义出可量化和可执行的KPI与指标、规则。如理赔登记资料完整率、现场调查时长、审批时长、付款时长。4)设计考核标准、时限:考核标准、时限是数据治理的激励和约束,需要根据KPI与指标、规则,设计出合理和可达的考核标准、时限,如数据质量达标率、数据治理完成率、数据治理周期、数据治理奖惩等。三、驱动业务流程提升与改进业务流程提升与改进是指根据数据治理目标与规则,实时监控业务场景中设定KPI变化、分析业务指标趋势发展,对触碰设定的阀值预警,根据规则进行预案决策。驱动业务流程提升与改进的步骤如下: 1)实时监控KPI变化:KPI变化是数据治理的反馈和结果,需要实时监控业务场景中设定的KPI,如业务指标、数据质量、数据安全等,及时发现数据治理的效果和问题。2)分析业务指标趋势发展:业务指标趋势发展是数据治理的分析和预测,需要分析业务场景中的业务指标,如审批时长、赔付时长、客户满意度的现状和趋势。3)对触碰阀值预警:阀值预警是数据治理的告警和响应,需要对业务场景中触碰设定的阀值,如数据质量低于标准、数据安全出现风险、数据一致性出现差异、数据分析出现异常、数据应用出现问题等,及时发出预警和通知。4)根据规则进行预案决策:预案决策是数据治理的决策和改进,需要根据业务场景中的规则,如数据质量修复、数据安全处理、数据一致性协调、数据分析优化、数据应用改进、紧急业务行动等,采取相应的措施和方案,提升和改进业务流程。三、业务场景数据治理提升业务价值通过上述保险业案例,我们可以理解业务场景数据治理的核心思想是将数据治理的目标、原则、流程、标准、指标、工具和组织等要素与业务场景相结合,形成一套完整的数据治理体系,从而实现数据治理的有效性和高效性。业务场景数据治理是一种以业务目标为导向,以业务流程为切入点,以数据为支撑的数据治理方法,它能够更好地满足业务的多样化和动态化的需求,实现数据和业务的协同和共赢。业务场景数据治理的优势在于,它能够更贴近业务的实际需求和场景,更灵活地应对业务的变化和发展,更有效地解决数据治理的难点和痛点,更有利于提升数据治理的成熟度和水平,从而为业务流程提供更有价值的数据支持,帮助企业实现业务的创新和优化,提升业务的效率和效益,增强业务的竞争力和可持续性。总之,业务场景数据治理是一种符合数据治理的本质和目标的数据治理方法,它能够实现数据治理和业务流程的有机结合,为企业提供更高质量、更安全合规、更具价值的数据,从而为企业的发展和转型提供强大的数据动力和保障。
查看详情数据指标的华丽蜕变:治理之路
指标类文章在朋友圈和公众号中隔三差五就能阅读到,说明此类文章颇受广大群众欢迎。同时,这也意味着企业指标管理尤为重要。作为数据指标的产品经理,我也一直默默关注同行的分享。今天,我想从指标治理角度来分享一些我的看法。指标建设通常相对容易,但确保指标的长期良好运营、保持其新鲜度、规范性、高质量和安全性,却是指标管理上的难题。那么,数据治理部门对数据指标有哪些主要工作要点呢?以下几点最受瞩目:⦁ 统一数据指标的定义和管理流程:确保不同团队和部门对指标的理解一致,避免混淆和误解。⦁ 保证数据指标的质量与安全可管、可控:建立数据质量评估机制,监控数据指标的准确性、完整性和一致性。同时,确保数据的安全性,防止数据泄露和滥用。⦁ 更好地为企业更多用户赋能:指标不仅仅是数据分析人员的工具,还应该为企业的各个层级和角色提供有用的信息。数据治理部门需要积极推动指标的广泛应用,让更多人受益。为了给数据治理的同仁们提供更好的数据指标全生命周期治理服务,我将详细阐述以下几个方面:需求规范化管理:指标的需求应该明确、具体,并且能够满足不同用户的需求。规范化管理可以帮助确保指标的一致性和有效性。指标标准定义:明确每个指标的定义、计算方法和数据来源,避免歧义和混淆。打通数据链路:指标的数据来源可能分散在不同系统和数据库中,数据治理部门需要协调各方打通元数据各堵点,梳理数据从源头到目标指标生成的全流程路径。保障指标质量:建立数据质量评估机制,监控指标的数据质量,及时发现和解决问题。确保安全合规:数据指标涉及敏感信息,需要确保数据的安全性和合规性。最大化应用价值:指标不仅仅是数据的展示,还应该为企业决策提供有力支持。数据治理部门需要积极推动指标的应用,让其发挥最大的价值。一、指标需求规范化——确保源头权威在公众号发表的指标文章中,都提到了一个业务痛点是“同名不同义、同义不同名”。这种现象的一个重要原因是脱离需求评审管理、多处随意定义和随意创建所致。数据指标质量的根源在于对需求的准确理解和描述,因此,统一规范的指标需求管理,是指标全生命周期治理的基石,下面我们一起来分析指标需求现状及如何做好指标需求管理。现状分析随着企业数字化转型的推进,各类业务指标需求的频率和复杂程度与日俱增。但由于缺乏统一的需求语言和流程,企业里普遍存在需求表述不一、流程效率低下、冗余和重复等现象,这些问题的根源在于没有规范的需求管理。为了确保需求能够得到有效执行,企业推行需求规范化过程中通常会面临以下主要挑战:1) 业务人员需求习惯根深蒂固业务人员长期习惯了自由表述需求的方式,改变这一习惯存在很大的惯性。2) 跨系统需求协同沟通的成本高 不同职能系统之间的协作沟通成本较高,容易导致规范在系统之间存在分歧和偏差。3) 缺乏规范执行的问责和激励机制仅依赖体系很难有效执行,需要制度的支撑。需求规范指标需求规范化主要包括以下三个核心要素:1) 需求字段标准化针对需求的描述要素制定统一规范,包括指标名称、指标描述、计算公式、维度描述、使用场景等。采用统一的字段设计,避免歧义表述。2) 需求内容规范化针对不同类型需求的内容要素,制定统一的规范模板,如数据开发需求、指标衍生需求、定期调度需求等。确保需求内容的完整性和规范性。3) 需求流程标准化制定统一的需求处理流程,包括需求受理、评估审核(业务与技术参与)、优先级排序、分派实施、验收发布等环节,并结合IT系统进行流程化管理。二、指标定义标准化——确保质量一致指标定义的标准化是指标治理的基础,正如企业数据标准体系梳理一样,能够为企业构建一个通用、高质量的指标体系,避免重复建设和定义分歧,提升数据指标的可复用性和一致性。然而,在传统的数据治理模式下,往往缺乏统一的指标定义标准。现状分析1) 指标定义存在认知分歧不同业务团队或IT团队对同一指标存在不同的定义方式,导致指标的计算结果不一致。2) 指标定义质量参差不齐缺乏规范指导,指标定义的完整性、准确性和可用性无法保证。3) 指标定义的冗余和重复建设由于无法高效复用已有指标,导致大量重复劳动和资源浪费。 4) 新兴业务领域缺乏指标参考 对于新兴业务,缺少成熟的指标定义模型供参考。这些问题导致企业无法将指标视为一种可复用的标准化数据资产,从而难以充分释放数据的价值。指标定义为了提高指标定义的质量和一致性,标准化需要着力于以下几个核心要素:1) 基本属性定义标准保证指标的定义来自于需求,包括指标名称、编码、描述、维度、度量、归属主题域等基本属性的统一定义规范。2) 计算逻辑定义标准 明确计算公式、SQL/脚本逻辑、汇总粒度、时间属性等计算逻辑,以确保指标计算的规范表达。3) 分类定义标准设计统一的分类体系,方便对不同维度/度量的指标进行分门别类的治理。4) 生命周期规范 指标定义应紧密与需求管理相结合,包括设计、审核、发布、变更、废弃等全生命周期各环节的标准流程和规范。5) 质量控制标准制定评估和控制指标定义质量的标准,包括完整性、一致性、规范性等维度。通过综合运用这些标准化要素,企业可以构建一个内涵丰富且质量可控的标准化指标定义体系。三、指标元数据管理 —— 打通数据链路指标元数据是指关于数据指标本身的描述性信息,包括但不限于指标定义、计算逻辑、数据来源、更新频率、业务含义、业务场景以及关系等。通过对这些元数据进行系统化、结构化的管理和维护,可以确保组织内部所有利益相关者对关键业务指标有共同且准确的理解。在打通数据链路的过程中,指标元数据管理首先能够清晰地揭示数据从源头到目标指标生成的全流程路径,即所谓的“数据血缘”。现状分析结合我们对企业指标元数据的一些调研,总结有如下现象:1) 现有系统缺乏标准元数据接口企业若没有系统性地构建指标管理体系,业务指标往往会分散在各处(包括老旧IT系统、甚至存在一些文件当中),以至于无法直接获取标准化元数据,采集成本较高。2) 元数据质量问题困扰传统的元数据管理散乱,现有元数据质量问题严重,给集中治理带来挑战。 3) 跨系统元数据融合的复杂性 不同系统的元模型差异较大,数据融合面临技术挑战。总结来说,指标元数据管理对于打通并优化数据链路而言,不仅是技术层面的架构设计,更是推动企业数据文化形成和数据驱动战略实施的关键要素。打通链路要实现指标的元数据管理以打通数据链路,首先需要建立一套全面而规范的元数据管理体系。这一体系应涵盖从数据采集、处理、整合到最终形成业务指标的全过程,对每一环节涉及的元数据进行统一管理和维护,确保数据生命周期的全程可见与可控。1) 建立指标元数据业务场景应用体系设计指标元数据链路应用场景,将指标的定义、计算逻辑、场景所涉等完整信息得以记录、跟踪、采集。2) 实现指标资产化将指标转化为可复用的资产,支持跨系统、跨项目的共享和引用。 3) 打通上下游链路上游数据资产与下游应用之间的链路得以贯通,支持影响分析。4)主动元数据捕获与更新采用工具和技术手段自动捕获和更新指标元数据,减少人工干预带来的错误风险,同时确保元数据时效性和准确性。总之,通过对数据指标元数据进行精细化、智能化的管理,我们能够建立起透明、可靠的数据链路,为组织提供高质量、高可用的数据基础,进而支撑高效的数据驱动决策和业务运营。四、指标质量监控—— 保障数据资产价值在数据治理中,指标质量监控是保障数据资产价值的关键环节。有效的指标质量监控可以保证数据的完整性、一致性、准确性和可靠性。这涉及定期检查数据的来源、采集方法、处理过程以及验证指标的计算逻辑。及时发现和纠正数据错误、缺失或异常,有助于提高数据的可信度和可用度。现状分析然而,在传统的指标管理模式下,由于缺乏系统性质量监控,常常面临以下挑战:1) 质量问题无法防患于未然缺乏质量预警机制,质量隐患无法提前发现和纠正。2) 质量问题反馈效率低下质量问题被动暴露,反馈链路冗长,响应效率低下。3) 质量问题修复效果无法持续跟踪缺乏闭环管理,修复后无法持续验证,容易复发。4) 质量责任无法可视化问责缺乏质量度量体系,责任主体无法准确问责。这些问题不仅影响数据指标的可靠性与信任度,还直接导致了大量的质量成本支出和价值损失。因此,建立系统的质量监控体系至关重要。质量管理以下是构建指标质量监控体系的关键要素:1) 质量规则库构建涵盖不同质量维度的规则库,如完整性、准确性、及时性等。2) 自动化检测机制通过工具或平台,实现质量规则的自动化执行和检测。3) 风险分级预警根据问题严重程度,设置风险分级预警机制,提示关注。4) 主动监控触发支持定期全量扫描和按需主动触发,以及基于事件驱动的监控。5) 质量度量体系建立指标质量量化评分体系,实现可视化展示和追踪。6) 反馈闭环管理形成问题清单反馈、责任分派、修复跟踪、验证闭环的管理机制。这些要素环环相扣,构成一个完整的质量监控体系,贯穿预防、发现、反馈、管控和持续优化全过程。质量监控是一项持续改进的过程,需要持之以恒地投入。除了前面提到的规则库、检测平台等基础设施,更重要的是形成一种质量文化。一方面要通过制度机制和绩效挂钩,形成合规的内生动力;另一方面也要从外部施加压力,将质量监控理念贯穿于指标需求、设计、开发、测试各个环节,形成全面质量管理的闭环。只有从根本上重视质量,将质量思维内化于业务生命周期,才能真正保障数据指标价值,赢得业务信任与支持。五、指标权限管理 —— 确保数据安全合规通过合理的指标权限管理,我们可以明确不同角色和用户对数据指标的访问权限,从而避免数据的未授权访问和滥用。这有助于保护关键指标的敏感性。同时,指标权限管理还应与相关法规和行业标准保持一致,确保企业的数据处理活动符合法律要求。建立完善的审计和监控机制,追踪和审查指标的使用情况,及时发现并处理潜在的安全风险和违规行为。现状分析数据权限管控关乎企业指标的安全可靠。然而,在传统的管理模式下,由于缺乏系统的权限管控,常常面临以下风险:1) 数据权限管理混乱指标权限管理过于粗放,缺乏统一的标准和机制。2) 数据被滥用和泄露缺乏有效审计机制,导致数据权限的授权和使用无法得到有效管控。 3) 数据应用效率低下权限分散管理,数据的复用和共享受限。4) 缺乏合规性保障 无法有效满足监管合规要求,面临合规风险。安全合规上述问题不仅影响数据指标的安全保护,也直接制约了数据的应用价值释放。建立统一的权限管控体系,是解决这一问题的根本之策。具体而言,指标权限管控包括以下几个核心要素:1) 权限模型设计基于职责分工和数据分类,我们可以对指标预览、管理、授权、预警等相关权限进行统一配置,从而设计出一个合理的权限模型。2) 权限分级分域按照数据安全级别和业务领域,划分不同的权限级别和分域。3) 统一认证和授权 基于权限模型,实现统一身份认证和规则化授权。 4) 权限生命周期管控包括审批流程、变更跟踪、过期回收等全生命周期管控。5) 权限审计监控建立系统化审计机制,跟踪权限分配和使用情况,形成审计报告。6) 权限分析服务支持用户权限查询、应用权限查询等分析服务。以上要素构成了一个完整、规范的权限管控体系,贯穿权限设计、分配、使用、审计和维护全流程。重点梳理关键指标的权限合规审计要求,将合规理念贯穿始终。五、指标应用服务 —— 最大化数据资产价值经过前面章节的规范化实践,我们已经为指标治理奠定了坚实的基础,并从需求、定义、开发、链路、质量、权限等多个维度对指标全生命周期进行了全方位管控,显然,我们不能为了管控而管控,输出价值才是核心。然而,数据治理的价值往往很难被明确定义和衡量,这恰是本章要重点探讨的内容:如何最大化释放指标数据资产的应用价值。现状分析数据资产的核心价值在于被广泛复用和应用。在传统的管理模式下,由于缺乏复用机制和应用服务能力,通过与数据治理同仁一些调研和讨论得知在企业中常常存在以下现象:1) 指标缺乏可复用性缺乏指标元数据管理,无法实现指标跨系统、跨领域复用。2) 指标应用效率低下缺乏标准化接口和服务能力,指标应用需求响应效率低下。3) 指标使用体验差终端应用无法自动获取指标元数据,指标内涵无法直观感知。4) 冗余重复建设严重 由于复用成本高,重复建设同类指标导致资源浪费严重。这些问题严重制约了指标数据资产的价值释放。通过构建指标复用和应用服务体系,可以从根本上解决上述难题。应用赋能:以下是构建指标复用和应用服务体系的关键要素:1) 指标查询服务为内外部系统提供标准化的指标查询接口和API服务。2) 指标计算引擎基于查询服务,提供指标实时或离线计算执行能力。3) 指标影响分析分析指标上下游的关联依赖关系,评估变更影响。将指标应用到具体业务流程和业务场景中,结合业务KPI分析指标的趋势变化和业务影响。4) 指标目录服务展现企业级指标资产目录,支持检索、浏览和订阅。5) 指标可视化插件集成到报表工具等应用系统中。使报表用户能够即时列举、解释报表中指标,向指标所有者提出问题,并根据指标血缘分析理解指标的加工过程。6) 指标知识库服务基于知识图谱,提供指标语义理解和智能问答服务。7) 指标市场化运营建立指标开放复用的标准定价、交付和计费体系。8) 指标复用质量监控复用指标指导数据模型设计与开发,监控指标复用质量和复用程度等核心指标。以上能力无论是支撑内部应用,还是对外赋能生态,最大限度地拓展指标资产的应用边界和价值空间。总之,构建指标资产的复用和应用服务体系是数据治理现代化的最高阶目标。它不仅需要完备的技术支撑,更重要的是要从战略层面重塑运营模式,以服务思维驱动组织变革。
查看详情EDW国际数据管理最新趋势(二)|信息供应链与数据产品
最近Data Fabric、Data Mesh、DataOps等话题非常火。其实,信息供应链谈的也是同样的东西,那就是如何将数据治理与数据集成整合在一起的解决方案。下图虽然简单但涵盖了非常大的信息量。将4A架构进行了拆解,应用架构与技术架构主要是支撑业务,业务架构与数据架构驱动企业进行数字化变革,在这个过程中靠数据架构打通数据与业务。下面讲述如何设计一个数据产品。类似敏捷开发的Use Case设计,数据产品的设计也可以用一张画布来展示,包括数据产品的输入、输出接口设计,元数据设计,使用场景设计等。接下来是一个具体的数据产品的画布例子。《设备错误修复》这样一个数据产品,输入是IoT数据,通过过滤与加工,捕获异常数据,并进行修复。回到信息供应链,从经典的Bill Inmon数仓体系,从贴源层到数仓到数据集市也在逐步升级,越来越多数仓模型采用更为灵活的Data Vault模型。数据集市变化更大,除了传统的维度模型支撑BI报表和数据可视化,也输出面向数据挖掘平台的数据资产目录,面向AI的知识图谱,面向SOA的流式数据输出等。 最后我们看一下信息供应链全景图第一:数据产品的设计,包括数据产品业务需求(Use Case)设计和数据模型设计(业务逻辑模型)第二:从数据生产到数据消息,中间分为三层:贴源层、中间层Data Vault、信息访问层(多种形态) 总结一下,信息供应链的核心是数据产品,数据产品的核心是设计(业务需求与数据模型)。
查看详情EDW国际数据管理最新趋势(一):数据战略与数据治理
今天有幸给大家分享一下,我在前不久参加刚刚召开的EDW2023的一些内容。考虑到分享内容是原汁原味的,所以很多PPT就用的原始英文版。我会给予相应的讲解。EDW大会全称Enterprise Data World,是DAMA International(国际数据管理协会)的年度峰会,由Dataversity主办,是最全面的关于数据和信息管理的全球会议,至今已举办26届。EDW期待什么:为期5天的会2天的深入教程和研讨会50多个案例研究200小时的教育行业专家和从业者专业认证(CDMP)培训和测试1,000多名与会者介绍高级主题最佳实践尖端技术展厅和新产品展示EDW的参与者:由下图可以看出,也是以大型企业为主。各行业都有参与,金融、能源、制造、零售、政府等,与国内情况类似。 这是一些EDW的演讲者,我们熟悉的行业大咖Robert Seiner,《数据质量十步法》的作者Danette Mcgilvray, John O’Brien, Donna Burbank, Peter Aiken。EDW2023在洛杉矶的Anaheim举办,著名的Disney Land就在旁边。我是唯一一位从中国来参加EDW2023的,也是唯一一位华人演讲者。所以今天给大家讲讲EDW2023的见闻及数据治理的国际趋势。(EDW2023开幕式)下图是我在EDW2023的演讲现场,演讲内容是关于数据模型管控与DataOps,现场座无虚席,大家听的很专注,时不时有人提问题讨论,演讲之后有很多人也过来找我单独讨论,对我的演讲很认可,我很有信心的讲我们的数据模型管控解决方案在国际上是很先进的。下面,我会精简四个EDW2023的演讲主题。第一个是《数据战略与数据治理》,由大咖Donna Burbank演讲, Donna是我的老同事、老朋友,曾任Erwin产品营销VP,我们之前经常一块出差。在本次DAMA中国数据管理峰会上,DAMA国际副主席Marilu Lopez也分享了数据战略的主题演讲。数据战略这个话题比较泛,Donna的演讲很诙谐,我觉得值得拿出来分享一下。定位业务场景是数据战略的首要任务。业务场景无非是在降本、增效、合规、安全这几个大的方向里面找,根据企业的实际情况。其次,如何将数据治理通俗化,你可以先拿家里人做练习,听听非专业人士如何理解数据,试试如何说服他,把数据治理的价值灌输给他。因此,数据战略的推进执行更多需要的是业务视角和通俗化,而不是专业大佬。像下面这张图,数据架构师在大声疾呼“你的数据模型不是三范式将会世界末日”这显然不适合数据战略的宣导。业务高管都是结果导向,跟他们的沟通要简单直接,像“将客户数据与产品使用数据关联,可以提高销售额”,直接讲数据对业务的帮助。可见,西方数据治理发展了40年,仍然需要不断地将数据治理通俗化、业务导向的宣贯。经典的2分钟电梯营销。当你跟CEO在电梯偶遇,你如何介绍你的项目给CEO? 讲“跨数据源的元数据采集,确保一致性”?显然CEO不知道你在说什么。 “获取线上营销活动的客户画像”,CEO听了兴奋点就来了,数据治理继续加大投入!所以,我们做数据治理的人还要学会将其通俗化,跟专业外的人士交流,尽量通俗化,讲业务场景。先将更多的人拉入自己阵营,而不是高高在上的专业老学究,与别人无法对话。团结了利益相关方,我们就可以逐步开展体系性数据治理。 “胡萝卜加大棒”、“阴阳”,一方面管控,一方面共同决策(拉着干活)。除了战略,相关制度、组织架构、衡量标准、平台工具都是需要搭建的。 下面的文化和沟通是重要基础,需要不断地培训和宣贯。这是细化的关键步骤,大家可以参照一下自己企业的数据战略进行补充。
查看详情数据资产与自助BI的一体化实践
01数据资产中的数据治理随着数据资源被提高到数据资产的高度,数据治理成为确保有效管理和利用数据资产的一组流程和技术,而数据资产目录是包含企业数据资产的全息描述信息的存储库,并充当有效管理数据资产的(逻辑上的)单一事实来源。组织中的分析师和数据科学家有效地使用数据资产目录来回答业务问题,数据治理专员通过数据资产目录实施数据治理策略,并促进数据的正确使用。通过资产目录发布的数据资产,通过以下数据治理能力达成资产认证:数据质量保障 :数据资产是在有效数据质量监控下的有效数据,通过业务规则承袭,业务用数需求等建设数据治理度量规则,确保用户在使用数据时,或者数据管道搬运数据时,系统把数据质量问题及时提醒数据分析师,以便评估数据质量对数据分析的可用性。权威源头认证:数据资产目录帮助我们识别哪些数据集是数据的权威源头,并通过认证的方式发布资产,并跟踪数据所有权和认证随时间的变化。数据分类分级:数据安全治理要求根据数据敏感度、PII 以及其他关键元数据对数据进行数据安全的分类分级。数据安全等级是数据资产如何共享和流通的依据,是数据资产必备的属性。数据血脉关系:在使用数据集之前,分析师必须首先了解基础数据的来源。数据血缘关系图是对数据来源的可视化展示,为数据集成建立了完整的数据加工流向说明,可以帮助用户确定数据是否具有正确信息,以帮助回答特定业务问题。指标与标准:如果一个组织对关键企业指标和业务属性没有一套一致的定义,那么随着时间的推移,不同的分析师总是会使用一组不同的规则来衡量同一个指标。这种不一致给企业带来了一组相互矛盾的分析结果,并导致对数据缺乏信任。其它重要信息:使用情况统计信息是从基础 BI 工具中收集的,并在数据治理工具中呈现给用户。这些统计信息标识了业务用户对每个数据集的使用程度,并由业务用户来确定哪些数据集在用户群中获得了使用,哪些数据集则尚未发掘业务应用。02数据资产与企业级BI数据资产目录提供的丰富业务元数据,对于数据分析师和数据科学家来说是非常宝贵的,因为他们可以了解更多的数据上下文信息,并决定在分析中使用哪些现有资产。不过,只靠这个工具还不能完全满足组织的完整治理需求,因为它们无法支持企业中所有数据使用者的需求。典型的业务用户不会将数据目录工具用作其日常工作的一部分,市场上的BI和分析工具通常没有与数据资产进行有效集成,用户不会从其中包含的大量信息中受益。因此,许多组织都难以从维护这些工具中的治理数据所需的大量持续投资中实现业务价值。另一方面,随着数据管理的发展,企业级BI成为企业数据管理要求,越来越多的企业要求数据分析在数据安全可靠,可管可控的背景下开展:数据安全和合规性: 受管理的BI解决方案包括强大的数据安全措施,以确保敏感数据的保护。这有助于确保企业数据不会被未经授权的人访问。此外,它还有助于确保企业符合法规和合规性要求,如数据安全法,个保法等。数据整合和质量控制: 受管理的企业级BI解决方案通常包括数据整合和质量控制功能,以确保数据的一致性和准确性。这有助于减少数据错误和冗余,提高数据可信度。用户权限和访问控制: 受管理的企业级BI解决方案允许企业管理员配置用户权限和访问控制,以确保只有授权人员能够访问特定数据和报表。这有助于保护数据的安全性。综上所述,数据资产的治理和BI可视化分析是相辅相成的关系,将两者结合起来,可以让BI的自服务能力更强,惠及更多业务用户。同时也让数据治理有的放矢,数据资产落地可用,发挥数据治理的显性价值。下面我分享一下Datablau的探索。03数据分析治理一体化方案(即D&A治理方案)数据与分析(D&A)治理方案是一种组织内部的框架和策略,用于确保数据和分析活动在组织内部有效管理、保护和利用。一个健全的D&A治理方案有助于确保数据的质量、合规性、安全性和可用性,以支持决策制定和业务运营。整个方案涉在产品和工具上,主要达到这几个点:3.1 数据视图统一数据资产的统一编目,可以按照业务的架构关系或者分析主题,将数据进行分类,非常便于用户找到有用的数据。BI工具中通常从数据库中采集到的元数据,是没有业务视角的技术元数据,业务用户需要在技术人员的帮助下,将数据进行分类并进行补全,这在一个企业级发生时,对企业整体分析造成很大的阻碍,不利于数据驱动的数据分析。在我们的产品中,通过BI的接口,我们将元数据的业务语义等信息写入BI数据集中,并将数据目录和数据权限信息同步到用户视角之下,这对于最终用户是非常好的体验,也是数据治理组织应该赋能的方式。 (以FineBI和YonghongBI为例)3.2 数据权限统一数据安全与合规是企业级数据管理的关键要求。在数据资产的定义中,完善了数据的所有者,技术管理者,参与者等干系人信息。同时也定义了数据的安全类别和等级。最后我们需要定义数据和组织间的数据访问策略和授权体系,这使得数据具备了标准化的流通和共享,同时在安全体系的审计和监控之下。传统BI应用都采用了主题集市,这是一个分布式的以部门为单位的数据使用模式。这种模式之下,数据的授权和复制是很难追踪的。现在企业的数据授权,大多是基于权限电子流的授权体系,这在数据比较少的情况下,还可以运转,但是一旦多到授权部门无法执行的地步,我们可能会被迫放松甚至放开数据权限的管理。这在过去很多企业都发生过。根据这些痛点,Datablau发布了基于企业岗权体系统一数据访问的方案。 (基于岗权体系的数据授权与访问)在这个方案中,个人对数据的访问,完全由所在岗位决定。数据的权限粒度到行级和列级,按照对岗位的授权,进行RBAC粒度的权限绑定。最后数据的访问完全由数据网关进行控制。这个方案的优点是管理简单,融入到岗位体系中。最终用户无感知,权限约束由数据网关完成。 (数据网关技术架构)3.3 建立可用数据资产开发流程数据资产的可用性(Availebility)是保持数据资产活力的重要指标。业界过去进行了大量的数据资产盘点的工作,对数据的业务实体进行了整合定义(参见华为L3-L4实体定义),这对于推动业务对数据的理解和管理,数据的业务化连接等方面起很大的作用。然而这对于本文的数据资产与企业BI的一体化运营,还是远远不够的。此项工作的问题主要是盘点的数据资产是一个初级产品,距离可交付的数据产品,还需要大量的工作。在我们的实践中,将数据资产的逻辑层盘点和数据交付进行了拉通,确保发布到BI的数据资产是可应用的数据,并对此进行的专项管理。通过对数据资产的分类,我们将数据资产分为物理态,逻辑态,以及可交付。通过将数据资产和BI数据交付融入到一个体系中,更好的服务了用户。也是我们践行主动数据治理的理念,发挥数据治理的价值。04总结BI工具是我们业务部门最重要的数据分析工具,通过这个集成方案,达到数据资产的赋能,更有利于提高业务部门数据分析能力。同时这也是数据治理非常好的机会,融治于用的主动治理方法,让数据治理价值显性化,提高了组织的业务可连接性。Datablau的产品矩阵和解决方案,为以上方案提供支撑,经过数个案例验证,取得不错效果,希望对您有借鉴意义。
查看详情2023DAMA演讲回顾|数据资产入湖管理新实践
下文为Datablau数语科技创始人&CEO王琤先生在2023DAMA中国管理峰会发表的《数据治理新实践与发展趋势》主题分享实录第二部分:数据资产入湖管理这个话题,我们从数据模型管控的经典流程讲起。 这个图在《华为数据管理之道》或Datablau的模型管控解决方案都可以看到。但我们发现很多企业还是不知道怎么做,其中主要问题是模型设计怎么做。 TP侧-业务系统设计阶段,业务系统需求方与开发方会共同做模型设计,这个是传统系统开发的基本功,非常成熟。如果可以打通模型管理与DevOps(CI/CD)会将TP侧管控的更落地。所以,TP侧的模型管控主要是推动业务系统开发要做设计,形成这个习惯,就自然落下来。AP侧是主要有挑战的。首先模型设计谁干?如何建统一数据底座(标准数据模型层),进而数据资产入湖?模型与数据资产目录如何联动?面向业务的数据资产目录?有的企业是照搬数仓的模型设计到数据湖,问题是模型对应的数据资产目录是按数据域,对业务很不友好,对业务不可用。所以AP侧的数据模型是需要拉通业务一起建设的,数据模型与数据资产目录只设计一次,而不是各建各的。所以,今天我来重点聊聊,拉通业务部门建设AP侧业务域模型,同时进行数据资产入湖管理的成功实践案例。下图是这个案例的背景, 业务系统数据需要按业务域设计标准模型层,之后按入湖规范进行评审后入湖。统一数据底座支撑各种数字化转型的应用。下图是数据资产入湖的流程图,这个案例精彩之处在于流程是由业务发起的。业务根据数据需求先梳理业务流程、业务对象、业务属性。之后将这些业务对象、业务属性交给对口IT做数据探源。之后交给数据管理,按需发布数据标准,落标、核标率,数据质量检核及评分。过程中会输出三个产出物: 1、入湖所需数据标准信息清单;2、入湖所需元数据信息清单;3、入湖所需数据质量评分信息清单。三部分汇总为评审数据入湖信息清单。最后交给主题域数据owner进行审批。具体流程如下:这种业务发起的方式大大提高了数据资产盘点的效率,整个流程捋顺了,既不是数据治理部自己闷头苦干最后被定义为自说自话,也不是数据治理部苦苦求着业务部门协助补充业务相关信息。下图是通过一张大表拉通四个利益相关方的实例。最终这些都将作为数据架构或数据资产目录落地到数据资产管理平台。数据模型与数据资产目录的转换可以通过如下方式。将主题域分组、主题域、业务对象、逻辑实体、属性,映射到L1-L5的数据资产目录。设计只需要做一次,数据模型与数据资产目录可以自动同步。总结一下,这个案例给出如何拉通业务部门构建AP侧数据中台的数据架构、数据模型的实践。通过业务部门梳理业务流程业务对象、业务对口IT进行数据探源、数据治理发布数据标准、提交入湖信息清单,最后由数据owner审批入湖。这对于苦苦陷在拉通业务,甚至自己埋头苦干最后还不被业务认可的数据管理部门,是非常有参考价值的。
查看详情如何通过数据治理来提升业务价值——业务场景治理
数据治理,一方面是为了对数据的规范管理和控制,还有一方面是让数据能够为业务提供服务和创造价值。近些年来,随着数据治理技术发生着日新月异的变化,行业对数据治理的需求和指导也被逐步推进和实践,从宏观上看,数据治理的组织架构、规章制度、标准规范日趋完善,实现了数据规范化管理,但在支撑业务减本增效、支持业务创新等方面尚存距离。具体体现在以下几点:与业务过程脱节无法针对业务过程中的数据需求与痛点进行问题解决,导致治理的数据无法真正满足业务需要或带来价值。低治理效率没有在业务流程中嵌入数据质量管理等机制,无法发现并解决早期的数据问题,需要在业务运行过程中不断纠错和补救,效率低下业务过程指标缺失没有与业务场景密切结合的数据治理,无法为业务过程提供准确和及时的业务指标,无法实现数据驱动的业务管理数据安全隐患只专注企业横向的数据分类分级,而忽略考虑了纵向业务流程中的数据安全与授权要求,可能导致重要业务数据的泄露、篡改和滥用,或者过高的数据分级影响了业务流程的流畅性业务创新受限不结合业务场景去炫新技术、鼓吹大模型,没有高质量和标准化的数据支持,难以实现真正的业务创新与赋能,大数据、人工智能只是工具与手段而已。至此,数据治理进入了一个新的发展阶段,为了避免数据治理成为数据管理部门、IT部门的一厢情愿,而忽视业务部门的需求和参与,形成数据治理的怪圈,企事业机构的数据管理部门开始从宏观的数据治理框架和策略,转向具体的业务流程和场景的数据治理,以此为业务提供有效的数据支持和决策依据,增强业务的参与度和满意度。结合业务场景的数据治理业务参与到数据治理过程中,业务流程是一道绕不开的主题。业务流程是企业为实现特定目的而执行的一系列活动或任务。业务流程是企业运营的基础,也是数据产生和消费的场景。数字化、可视化业务流程,可以通过数据来更好提高业务问题识别度、专注业务问题实际解决,从而增强企业的竞争优势和客户满意度。企业的业务流程可以看作是数据的源头,数据都是在各种业务场景和业务流程中产生和使用的。如果脱离了业务流程,进行的数据治理就可能变成空中楼阁,无法产生真正的业务价值。因此,将数据治理融入到业务流程中,进行业务场景化的数据治理,就变得极为重要。下面以一个大家比较熟悉的保险行业业务来描述如何以业务场景进行数据治理作为例子。我们都买过保险产品,日常也体验过诸如车险、商业医疗险等这些日常险种服务,来年如果不续保、想更换保险公司的最大原因通常也都是对理赔服务不满意而导致,因此保险公司如何提高客户满意度、降低客户流失率,就可将保险理赔选作为数据治理的一个业务场景,定位业务问题与流程、联动各利益相关者制定数据方案。我想通过下面这张图来说明数据治理如何结合理赔业务场景来提升业务价值的。第一步:明确业务目标在选定业务场景的数据治理同时,首先须明确该场景的治理目标。通过客户满意度调查和客户流失数据分析,发现理赔业务中存在客户查询理赔进度困难、理赔流程自动化程度低等问题。因此,确定项目的业务目标是:改善理赔效率,提升客户满意度。第二步:分析业务问题,确定关键数据要素根据业务目标,识别出两个关键业务问题,分析这两个业务问题的根因,确定保单记录、理赔记录、代理商和客服中心的记录作为关键数据要素。这些数据要素关系到理赔进度跟踪和自动化流程执行。第三步:对数据要素按业务和技术维度梳理1)业务维度- 设置理赔时长、客户满意度、自动化程度为关键绩效指标(KPI)- 确定量化考核指标,如理赔时长减少5%,满意度达到4.5分等- 制定数据治理规则,如理赔政策一致性规则、数据质量规则2)技术维度- 明确关键数据要素的来源系统,如保单系统、理赔系统- 数据集或表单,如保单标头、理赔内容等- 信息项与属性,如理赔类型、理赔金额等第四步:建立规则与属性的关联将业务规则与技术属性关联,例如将理赔政策一致性规则与理赔类型属性关联。第五步:构建血缘关系通过关联保单系统和理赔系统中的数据要素,构建起端到端的血缘关系,包括业务血缘、数据血缘,应用血缘实现业务监控与行动。通过对理赔业务场景的数据治理,明确了业务目标,找到影响目标的关键问题,针对问题建立了数据KPI和数据核查规则,通过数据血缘、业务血缘的联动来跟踪和监控数据,提醒、督促利益相关者及时处理问题,最终实现了提升理赔效率和客户满意度的目标。这充分体现了业务场景数据治理的重要性。与脱离业务的数据治理相比,业务场景治理结合具体业务流程和问题,可以更好发挥数据治理的价值,解决实际业务痛点,而不是停留在一味的落标率、数据仓库质量达标率、血缘覆盖度等纯治理过程中。如何实现业务场景数据治理北京数语科技有限公司致力于做技术最先锋的数据治理厂商,如何将先进的数据治理技术与客户业务流程相结合,通过智能化和自动化创建数据治理业务场景,帮助企业快速落实业务流程的数据和规则,技术驱动的数据治理与业务流程结合,从而实现企业的数字化转型和价值增长。数据治理和业务流程之间存在着紧密的联系和相互影响。一方面,数据治理为业务流程提供了可靠、准确和及时的数据支持,帮助企业做出更好的决策和行动。另一方面,业务流程为数据治理提供了清晰的目标、需求和反馈,帮助企业优化数据的生命周期和价值。根据上述保险理赔的例子,通过将数据集、属性、数据标准、关键指标以及法规政策等元素融入业务流程,将人和行为活动关联起来,理解数据在其中的上下文,实现数据治理的业务场景化。如何通过技术进行业务场景治理落地呢?我将以下面三个步骤综合描述。第一步:创建数据治理业务场景数据治理业务场景是指将数据治理与业务流程相结合,形成一个完整的数据治理视角,包括业务流程、业务节点、业务数据、业务指标、业务规则、业务利益相关者等元素。创建数据治理业务场景的步骤如下:1)围绕业务场景构建数据治理基础平台:维护好数据标准、做好指标定义,逆向应用系统数据模型,对数据进行分类分级、开发数据质量检核与清洗规则、采集全面的元数据生成血缘。这些是数据治理的基础工作,为数据治理业务场景提供数据的规范性、完整性、准确性、可信性和可用性。2)创建关键业务流程:根据业务场景与业务方进行协作梳理核心业务流程,在画布中定义出关键业务节点形成业务流程。这些是业务场景治理的核心工作,为数据治理业务场景提供业务的流程性、连贯性、逻辑性和可视化。3)关联业务节点中的全方位元素:围绕业务流程智能、自动关联业务场景中的利益相关者、数据集等元素,自动形成人、事、物、活动于一体的数据治理业务场景。为数据治理业务场景提供业务的全面性、关联性、动态性和智能化。 第二步:配置数据治理目标与规则数据治理目标是指根据业务目标分解出业务问题,将问题落地成KPI与指标、规则,通过数据治理业务场景中的人和制度落实考核,设计考核标准、时限。配置数据治理目标与规则的步骤如下:1)明确业务目标:业务目标是数据治理的出发点和归宿,需要明确业务的期望和方向,如改善理赔效率、提升客户满意度。2)分解业务问题:业务问题是数据治理的驱动力和挑战,需要分解业务目标,找出影响业务目标的关键因素和障碍,如查询理赔进度困难、理赔流程自动化程度低。3)落地KPI与指标、规则:KPI与指标、规则是数据治理的衡量和执行,需要将业务问题具体化,定义出可量化和可执行的KPI与指标、规则。如理赔登记资料完整率、现场调查时长、审批时长、付款时长。4)设计考核标准、时限:考核标准、时限是数据治理的激励和约束,需要根据KPI与指标、规则,设计出合理和可达的考核标准、时限,如数据质量达标率、数据治理完成率、数据治理周期、数据治理奖惩等。三、驱动业务流程提升与改进业务流程提升与改进是指根据数据治理目标与规则,实时监控业务场景中设定KPI变化、分析业务指标趋势发展,对触碰设定的阀值预警,根据规则进行预案决策。驱动业务流程提升与改进的步骤如下: 1)实时监控KPI变化:KPI变化是数据治理的反馈和结果,需要实时监控业务场景中设定的KPI,如业务指标、数据质量、数据安全等,及时发现数据治理的效果和问题。2)分析业务指标趋势发展:业务指标趋势发展是数据治理的分析和预测,需要分析业务场景中的业务指标,如审批时长、赔付时长、客户满意度的现状和趋势。3)对触碰阀值预警:阀值预警是数据治理的告警和响应,需要对业务场景中触碰设定的阀值,如数据质量低于标准、数据安全出现风险、数据一致性出现差异、数据分析出现异常、数据应用出现问题等,及时发出预警和通知。4)根据规则进行预案决策:预案决策是数据治理的决策和改进,需要根据业务场景中的规则,如数据质量修复、数据安全处理、数据一致性协调、数据分析优化、数据应用改进、紧急业务行动等,采取相应的措施和方案,提升和改进业务流程。业务场景数据治理提升业务价值通过上述保险业案例,我们可以理解业务场景数据治理的核心思想是将数据治理的目标、原则、流程、标准、指标、工具和组织等要素与业务场景相结合,形成一套完整的数据治理体系,从而实现数据治理的有效性和高效性。业务场景数据治理是一种以业务目标为导向,以业务流程为切入点,以数据为支撑的数据治理方法,它能够更好地满足业务的多样化和动态化的需求,实现数据和业务的协同和共赢。业务场景数据治理的优势在于,它能够更贴近业务的实际需求和场景,更灵活地应对业务的变化和发展,更有效地解决数据治理的难点和痛点,更有利于提升数据治理的成熟度和水平,从而为业务流程提供更有价值的数据支持,帮助企业实现业务的创新和优化,提升业务的效率和效益,增强业务的竞争力和可持续性。总之,业务场景数据治理是一种符合数据治理的本质和目标的数据治理方法,它能够实现数据治理和业务流程的有机结合,为企业提供更高质量、更安全合规、更具价值的数据,从而为企业的发展和转型提供强大的数据动力和保障。
查看详情再谈数据标准落标,论数据模型设计工具
工欲善其事必先利其器。工具是用来提高生产效率,其次才是管理属性。一个工具顺不顺手极大影响生产效率和管理效果。工具用不起来,管理制度也落不下去。管理自说自话,下面各干各的,最终两张皮。Datablau参与某全球知名企业数据治理的早期就是这种情况,数据标准挂墙上,由于工具没人用,数据模型设计还是想怎么设计就怎么设计,所谓模型管控形同虚设。中国传统文化缺少工匠精神,对工匠的尊重度和话语权比较低。企业不愿意为效率工具买单,因为是给底下干活的人用的,体现不出来管理亮点,除非知识产权的法律风险。企业寄希望于通过管理平台将企业的资产有效管理和利用起来。国内管理平台不标准化也是很大的问题,这是另一个话题,这里不展开讨论。最终发展出来的形态就是企业雇用大量人力资源外包,带着外包团队搞 “创新”,最后甲乙双方都陷在泥潭里形成负向循环。整体营商环境导致厂商只能追逐短期利益,难以长期专注投入在工具上,所以打造出来的精品工具寥寥无几。WPS算是非常经典的优秀工具,很多人每天在上面工作超过10个小时。撰写一份汇报、表格,在WPS上花的时间如果换成网页端的OA管理系统可能就要数倍时间,不用有效的工具根本完成不了工作。实际情况就是在WPS上撰写,然后粘贴到OA系统中。可以看出效率工具和管理平台的定位和价值泾渭分明。同样,数据领域中,跟数据模型设计相似,数据开发平台也是工具+管理的场景,由于工具不够好使,常常开发熟手喜欢在其他第三方工具中撰写SQL,如Dbeaver, UltraEdit,而不是在ETL系统中设计job或管理平台中写SQL。设计一个ETL job比写十个存储过程还慢。实际情况就是第三方工具中写SQL调试,运行通过后拷贝到Excel,最后由Excel导入管理平台。这样的管控只能在批量Excel导入时才能开始,已经太晚了,审批时再让开发人员补信息,都是应付了事。所以工具的关键是效率!帮匠人提高效率才能真正用起来。管理制度才能落下去!管理工作常常需要以润物细无声的方式来落地,近几年大行其道的敏捷开发就是将管理做轻做到每日的站立会议里,及时调整需求,及时发现blocker。传统瀑布式以阶段性交付物作为管控,过去十几年的血泪史证实瀑布式对于现代应用开发越来越难成功,常常评审时已经开发完了或者需求已经变更的物是人非了。好的实践,例如:源代码的编码规范在每次工具中编译时都会提示,如果等到几百万行代码都开发完了,提交代码评审改也改不动,于事无补,只是走形式。曾经看到有个企业做数据模型管控仅是在项目上线时在管理平台上提交一个Excel,要求设计的模型与数据标准在Excel里说明映射关系。实际执行时,项目还是粗放式开发,到上线前补这个Excel。看上去都落标了,实际质量可想而知。这种模式显然在执行层面还是两层皮。上线时应付了事。数据标准还是落不下去。归根结底是工具不好用,降低效率,导致开发人员私底下仍然各行其是,怎么快怎么方便怎么来。管理制度自然落不下去。回归到主题,什么是高效的数据模型设计工具?图形化设计能力ER图设计是图形化设计,而不是弹出个表单逐项去填。我几乎没见过有人真用表单去建模的,实在是太慢太难用了,顶多就是做些小修改时会用到。1. 图形化拖拽式模型设计2. ER图自动布局(Diagramming Layout)数据模型的主流表达法有:Peter Chen,1976年由华人Peter Chen发明的最古典的表示法 IE(Information Engineeing),最广泛被使用的Barker, Oracle相关工具采用此表示法IDEF1X,美国联邦政府广泛使用的表示法· Datablau DDM采用Information Engineering,源自Crow's Foot表⽰法(也有叫做James Martin表⽰法的),中⽂翻译中对使⽤了Crow's Foot表⽰法的模型.也有笼统的称做鸭掌模型的(关联关系的关联基数中采⽤到了⼀个鸭掌形的三叉线来表⽰)。下图是IE表示法的关系:· 自动布局一个数据模型中通常有成百上千张表和关联关系,叠放在一起,如果手动摆放每个实体和关系是能把人搞崩溃的工作量,自动布局是模型设计工具必备的功能。下图是个典型的反例,所有实体矩形都需要手动调整大小才能展示完整的字段,每个实体的位置需要手动调整才能显示完整,每个关系线也需要手动调整。这个工具就是表单形式编辑加图形静态展示,本质上不是模型设计工具。追求工具顺手好用、提高效率的开发人员,显然是不会去用的,还不如直接在Excel输入,再统一转换。作为设计工具不能设计,只能当成表格去录入,就失去了设计工具的意义,管理目标更达不到。图形设计能力对于模型设计工具是最关键的!Datablau DDM支持多种自动布局模式,帮助设计人员节省数百个小时,真正使模型设计工具用起来,企业数据模型管控模式落地。3. 撤消、恢复(UNDO/REDO)撤消、恢复是作为工具必须具备的能力。表、字段、属性、关系的设计需要反复修改斟酌, UNDO/REDO是高频使用的功能,提高效率。很多设计操作是复合操作,例如建立外键(FK)关系除了画关系线也会创建外键字段(key migration),背后有一系列的操作,UNDO需要将复合操作的每一步都逆向操作,每步之间有逻辑依赖关系,这是非常复杂的。4. 绘图样式(Theme)ER图是每个企业的数据地图,被不同角色的人反复查看。良好的绘图样式可以帮助相关人员快速理解业务。样式区分不同的业务域,区分主键、外键,区分实体、视图等。总之,数据模型管控和数据标准落标需要有好用的模型设计工具帮助使用者提高效率,进而以润物细无声的方式来将管理制度落地。数据模型设计工具是通过图形化操作来设计,效率是表单方式设计的数十倍。以我们近百家企业客户的实际经验,帮您的数据架构师、数据模型师、开发工程师配备一款高效数据模型设计工具,他们也愿意配合数据管理的宏大目标,推进数据生产规范化!
查看详情