符合业务目标的数据战略建设
Data AI-Ready的关键因素

Data AI-Ready的关键因素

发布时间:2024-07-24

上一篇我们翻译了哈佛商业评论的一篇重要文章《您公司的数据是否已准备好用于生成式人工智能》。事实上大模型技术并没有解决数据孤岛问题。所有企业都要考虑如何让您的数据准备好,基于提示工程结合企业私有知识进行AI应用的落地。数据AI-ready有以下几个关键因素:1、元数据管理元数据管理是确保AI-Ready的核心。元数据提供数据上下文,帮助您理解其含义以及如何使用它。支持从数据发现、质量、血缘的一切。• 360°查看每个数据资产,获取所有该数据相关上下文• 端到端主动的数据血缘,以了解数据如何在系统中流动• 语义层,有助于创建和探索定义、指标和资产之间的关系• 个性化的访问控制——根据角色、业务领域或项目上下文定义这些元素将帮助AIGC有效地理解数据资产,并提供有用的建议。没有出色的元数据管理,LLM不可能有效。2、元数据质量管理如前所述,人工智能辅助系统需要高质量的数据才能发挥作用。因此,必须根据最重要的数据质量指标(如相关性、可靠性、准确性等)对您的数据资产进行持续评估。这里经常被忽视的一个方面是元数据质量。在即将到来的人工智能和LLM时代,元数据质量将与数据质量同样重要。LLM应用程序需要丰富、高质量的元数据才能使用数据。元数据越准确、越可信,人工智能生成的答案就越可靠。3、数据血缘管理数据架构与业务架构的关联关系及数据流的血缘关系。数据血缘对于实现Data AI Ready(即数据准备好支持人工智能应用)具有重要的价值。Data AI Ready强调数据的可访问性、可理解性、高质量和高效管理,以便为人工智能(AI)应用提供坚实的基础。以下是数据血缘在Data AI Ready方面的几个关键价值点:提高数据透明度与可理解性加强数据质量控制促进数据合规性优化数据架构与治理提升AI模型的可靠性与可解释性这些价值共同构成了数据血缘在支持人工智能应用中的关键作用。4、数据治理体系《纽约时报》的Steve Lohr:“数据是大企业构建人工智能的瓶颈。没有标准、上下文和认责的数据是从人工智能系统中创造价值的主要障碍。”没有数据认责和管控系统,您的模型将不断产生幻觉,经常崩溃,并且始终无法实现公司期望的业务价值。5、数据结构的稳定性AI算法会根据它们在训练数据中识别到的schema来理解。一致的元数据可确保AI系统在训练后可以继续将其学习到的模式应用于新数据,而不会出现错误或需要重新配置。 数据格式的变化(例如更改列名、更改数据类型或重新组织数据库架构)可能会使AI模型混乱。这可能会导致输出不正确,或者需要额外的时间和资源来使用新结构重新训练模型。为了保持有效AI分析具有稳定的数据结构,规划时要考虑设计数据架构并对数据架构进行管控。数据模型版本控制,数据模型的完整性和可追溯性。建立变更管理策略:创建用于评估和实施数据结构变更的管控制度。包括影响评估、变更管理与现有AI系统的兼容性。6、数据来源的多样性和准确性人工智能算法受益于广泛的数据输入,因为多样化的数据源有助于减少偏见并提高洞察的准确性。数据来源多种多样,包括不同的供应商、客户统计数据、销售渠道、电子商务网站和第三方市场。这种多样性至关重要,主要原因如下:减少偏见:人工智能系统可能会根据所训练的数据产生偏见。通过整合来自各种来源的数据,您可以降低这些偏见的风险,因为人工智能解决方案将具有更平衡的视角,可以反映不同的观点。增强稳健性:多样化的数据源使得人工智能模型对任何单一来源的不稳定信息不敏感。提高预测能力:利用来自综合输入数据,人工智能算法可以更好地预测不同客户群体和市场条件下的行为和结果。这里需要注意的是,数据准确性与数据多样性同样重要。在集成新数据源之前,请验证其可信度和记录,并确保您的供应商和数据提供商遵守行业标准和数据管理的最佳实践。7、人工智能理解的数据结构AI算法需要易于处理的数据格式。这通常意味着结构化数据,即任何遵循严格格式的数据,便于访问、搜索和分析,通常包括:定义的数据模型:明确定义schema下的结构化数据- 例如具有行和列的表格 - 其中每个数据元素都有明确的划分。统一的数据条目:每个条目都遵循相同的格式。例如,在CSV文件中,每一行代表一条记录,每一列代表该记录的特定属性。8. 数据字段丰富(元数据充足率)数据字段的内容(元数据)对AI分析的有效性起着重要作用。当数据字段具备全面、详细的信息时,AI系统可以进行更深入、更细致的分析,并提供更个性化的建议。数据字段不止包含名称或价格等基本标识符,也包括详细的产品描述、定义和分类。 

查看详情
哈佛商业评论-《您公司的数据是否已准备好用于生成式人工智能》

哈佛商业评论-《您公司的数据是否已准备好用于生成式人工智能》

发布时间:2024-07-16

哈佛商业评论今年三月发布了一篇《您公司的数据是否已准备好用于生成式人工智能》的文章引起广泛关注。许多组织对生成式人工智能感到兴奋,他们正在动员起来开展。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队正在考虑开发哪些用例。个人和部门正在试验该技术如何提高他们的生产力和效率。然而,对生成式人工智能的成功真正重要的工作落在了首席数据官 (CDO)、数据工程师身上。2023年下半年对334名CDO和组织中的数据领导者进行的一项调查(由亚马逊网络服务和麻省理工学院首席数据官/信息质量研讨会赞助)以及对这些高管的一系列采访发现,虽然他们和其他人一样对生成式人工智能感到兴奋,但他们还有很多工作要做才能做好准备。特别是在数据准备方面,公司尚未创建新的数据战略或开始管理数据,以使生成式人工智能为他们服务。我们将描述调查结果以及这对数据下一步的建议。■ 生成式人工智能令人兴奋,但价值尚小2023年是许多组织发现AI并惊叹其潜力的一年。就其功能而言,AI历来使用结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据(文本、图像甚至视频)来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助和竞争。CDO和数据领导者对这项技术充满热情:80%的人同意它最终将改变其组织的业务环境,62%的人表示其组织计划增加对生成式人工智能的支出。这项技术也为他们的角色带来了很多关注;一位CDO在接受采访时表示,生成式人工智能让她成为了“舞会上的花魁”。然而,受访者表示,大多数受访者尚未从使用生成式人工智能中获得实质性的经济价值。当被问及他们的组织如何应对生成式人工智能时,近三分之一的受访者表示他们正在“在个人层面进行实验”,而不是为企业创建用例。另有21%的受访者表示他们正在实验,但有针对员工的使用指南。比例略小的19%的受访者正在部门或业务部门层面进行实验。最重要的是,只有6%的受访者在生产部署中采用了生成式人工智能应用程序。令人惊讶的是,16%的受访者指出,他们的组织已经禁止员工使用,尽管随着公司使用企业版生成式人工智能模型处理数据隐私问题,这种方法似乎随着时间的推移正在减少。如果一家公司打算尝试生成式人工智能,那么它应该成为业务的核心方面。一家正在积极尝试生成式人工智能进行研发的公司是环球音乐。该公司对这项技术的强烈兴趣并不令人意外,因为生成式人工智能可以创作音乐、写歌词和模仿艺术家的声音。环球音乐正在探索如何将生成式人工智能用于音乐和音乐视频,以保护艺术家的知识产权。它正在进行另一项实验,使用环球艺术家的声音(经他们许可和参与)创建歌曲曲目的AI版本。它还对一家AI提供商采取了法律行动,以保护其艺术家的版权。政策和概念验证可能很有用,但它们不会产生经济价值。要让生成式人工智能真正对公司有价值,他们需要使用自己的数据定制供应商的语言或图像模型,并做好内部工作以准备用于这种集成的数据。■ 准备数据如果要让使用生成式人工智能发挥巨大作用,那么生成式人工智能所使用的相对非结构化数据需要经过精心筛选,以确保其准确性、时效性、独特性和其他属性。质量低劣的内部数据将导致生成式人工智能模型产生质量低劣的响应。我们调查中的许多数据领导者都认同这一挑战:46%的人认为“数据质量”是其组织实现生成式人工智能潜力的最大挑战。摩根士丹利财富管理公司(生成式人工智能的早期采用者)的首席数据、分析和创新官Jeff McMillan描述了其中涉及的一些问题:我们已经整理基于文档的知识大约五年了。这并不是因为我们期待生成式人工智能,而是因为人们对我们现有内联网内容的质量水平不满意。因此,通过解决这个问题,我们无意中为生成式人工智能做好了准备。每一篇研究内容都必须由合规人员审核,因此我们知道培训内容质量非常高。即使是非研究内容,我们也有团队根据标记要求、预先提供摘要等问题对个人提交的内容进行评分,并给每篇文档打分。我们还必须花费大量时间考虑不同的内容集并优化结果……这些大型语言模型并不能解决数据源分散的问题。公司需要先解决数据集成和掌握问题,然后再尝试使用生成式AI访问数据。然而,大多数数据领导者尚未开始对其数据策略做出必要的改变。虽然93%的受访者同意数据策略对于从人工智能中获取价值至关重要,但57%的受访者表示,他们迄今为止尚未对其组织的数据做出任何改变。只有37%的人同意(只有11%的人非常同意)他们的组织拥有适合人工智能的数据基础。换句话说,大多数组织要做大量工作才能在其业务中广泛应用人工智能。那些已经开始做出改变的数据领导者专注于一些特定的任务。四分之一的组织正在进行数据集成或数据集清理。其中18%的人正在调查可能支持使用生成式人工智能的数据。17%的人正在整理文档或文本,为特定领域的genAI模型做准备。例如,默克集团首席数据和人工智能官 Walid Mehanna 强调了几种数据准备类型的重要性:如果我们想做人工智能,我们需要把它建在混凝土上,而不是流沙上。我们正在使流程和数据供应保持良好状态。我们正在研究数据清单和目录、具有新数据结构和元数据层的数据结构、数据管道和临时自助洞察生成。我们相信,生成式人工智能将成为未来从数据中创造洞察的关键方式。赛诺菲研发部首席数据官 Raj Nimmagadda 也表示,公司正在为生成式人工智能准备数据,并告诉我们,生成式人工智能成功“取决于高质量、‘业务就绪’的数据,这些数据由强大的数据基础、数据治理和标准指导。”他表示,赛诺菲目前正在其研发部门投资打造这些核心能力。与一般的数据转换一样,对于大多数组织来说,整理、清理和集成所有非结构化数据以用于生成式人工智能应用程序将是一项艰巨的工作。因此,大多数公司应该专注于他们预计在不久的将来实施生成式人工智能的特定数据领域。公司使用生成式人工智能的时间可能比许多人希望的要长,而且在创造价值之前,他们可能还有很长的路要走。在调查中,数据领导者优先考虑生成式人工智能开发的最常见业务领域(按顺序)是客户运营(例如客户支持或聊天机器人)、软件工程/代码生成、营销和销售活动(例如个性化营销活动或销售产品)以及研发/产品设计和开发。许多组织也在追求生成式人工智能的整体个人生产力应用,但这不太可能涉及特定的数据领域。■ 等待的正当理由?虽然我们认为数据领导者应该加快为生成人工智能准备数据的速度,但我们也承认还有其他重要的数据项目,包括改进交易数据以及为传统分析和机器学习应用程序提供数据。事实上,速度有些缓慢的原因之一可能是71%的CDO同意“生成式人工智能很有趣,但我们更专注于其他数据计划,以提供更有形的价值。”考虑到人们对生成式人工智能的兴奋程度,这项调查结果有些令人惊讶。我们在 2022年的调查中发现,首席数据官面临着快速交付价值的压力,但他们也面临着促进生成式人工智能实施的压力。我们怀疑他们从管理和改进结构化数据转向非结构化内容的转变有点缓慢。此外,在公司内部,谁来领导生成式人工智能也存在争议;首席数据官正在与首席信息官、首席技术官和首席数字官竞争这项热门新技术的领导权。但如果生成式人工智能要改变组织,那么等待开始准备数据是没有意义的。大多数调查受访者——都同意生成式人工智能是一种变革性能力。让大型组织的重要数据为AI做好准备的工作很容易需要几年时间。现在是时候开始了!■ Datablau提供将企业数据资产转化为AI-ready的能力如下图所示,企业的数据资产并不规范,下面的两个结构化的表,库表结构的业务名、业务定义缺失,字段都是A1、A2、B1、B2。从样例数据的特征上看,例如:A4、A5都是日期,无论人或机器都无法了解这两个字段是什么日期。这种情况下,数据即使大模型获取到,大模型很难理解,也无法产出有效的AIGC的成效。显而易见,大模型需要企业私域数据,来定位问题的上下文。没有有效的数据输入,也就没有有效的输出。因此,我们需要将数据治理的成果与行级数据相结合,形成具备上下文的数据,再喂给大模型。如下图所示,将行级数据、相关联的表,结合元数据信息,重新聚合为新的半结构化数据,这时生成式人工智能就会输出有效的信息。Datablau数语科技作为国内数据资产管理的先行者和开拓者,通过不断打磨完善产品体系,打造了端到端的数据治理产品体系,形成了集模型管理、数据资产管理、数据资产目录、数据安全管理等为一体的全链路数据管理能力。其中数据资产目录平台DDC是为企业统一的数据资产共享和应用平台,从数据资产业务化视角出发,基于特有的模型体系和数据自学习技术,通过明确规范数据资产入库准则,形成企业统一的数据资产目录,涵盖了自动数据分类分目、数据资产查询与检索、血缘架构解析、数据资产地图等核心功能,极大提高了数据利用效率和提升业务数据应用水平。Datablau的数据资产网关在业界也极具有前瞻性和创新性,专注于提升数据资产的可用性和安全性,同时促进不同用户角色在数据使用上的灵活性与协作,结合DDC数据资产目录平台,数据网关利用AI技术和自学习模型,优化数据发现、理解和使用流程,提升数据服务的智能化水平,旨在帮助企业构建一个既安全又高效的数据流通体系,加速数据价值的转化,支持企业数字化转型和数据驱动决策的实现。

查看详情
数据治理操作指南(完整版)

数据治理操作指南(完整版)

发布时间:2024-06-13

数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。一、数据治理体系企业数据治理体系包括数据质量管理、元数据管理、主数据管理、数据资产管理、数据安全及数据标准等内容。1、数据质量一般采用业内常用的标准来衡量数据质量的好坏:完整性、准确性、一致性和及时性。完整性:数据的记录和信息是否完整,是否存在缺失情况准确性:数据汇总记录的信息和数据是否准确,是否存在异常或者错误一致性:多个业务数仓间的公共数据,必须在各个数据仓库中保持一致及时性:数据能及时产出和预警2、元数据管理元数据是关于数据的组织、数据域及其关系的信息,通俗理解,元数据就是描述数据的数据。元数据包含技术元数据和业务元数据。可以帮助数据分析人员清楚了解企业拥有什么数据,它们存储在哪里,如何抽取、清理、维护z这类数据,也即数据血缘。帮助构建业务知识体系,确立数据业务含义可解释性提升数据整合和溯源能力,血缘关系可维护建立数据质量稽核体系,分类管理监控3、主数据管理企业主数据指企业内一致并共享的业务主体,大白话理解就是各专业公司和业务系统间共享的数据。常见的主数据比如公司的员工、客户数据、机构信息、供应商信息等。这些数据具有权威性和全局性,可归约至公司的企业资产。一般主数据管理需要遵循如下几点:管理和监管各组织机构、子公司、部门对主数据的访问,制定访问规范和管理原则定期进行主数据评估,判断既定目标的完善程度组织相关人员和机构,统一完善主数据建设提供技术和业务流程支持,全集团集中统筹4、数据资产管理一般企业在数字化转型时都会考虑数据资产梳理。你的数据有没有被合理利用?如何产生最大价值?这是数据资产管理关心的核心工作。在构建企业资产时一般会考虑不同角度,即业务角度和技术角度,最后进行合并,输出统一的数据资产分析,并向外提供统一的数据资产查询服务。如何盘活数据,形成数据资产,提供完整的数据资产全景视图,可方便运营者全局、宏观地掌控企业资产动态。5、数据安全数据安全是企业数据建设必不可少的一环,我们的数据都存储在大大小小的磁盘中,对外提供不同程度的查询和计算服务。需要定时对数据进行核查、敏感字段加密、访问权限控制,确保数据能够被安全地使用。6、数据标准大白话理解,我们需要在组织内定义一套关于数据的规范,好让我们都能理解这些数据的含义。今天张三说这个客户号是办理银行卡的客户,明天李四又说是借贷过的客户。对比一看,两者的字段类型和长度一致,到底要采纳哪个意见呢?数据标准是保障数据的内外部使用和交换的一致性和准确性的规范性约束,通过统一规范,消除二义性。二、企业数据治理实施过程1、数据治理实施框架数据治理体系是为了规范业务数据规范、数据标准、数据质量和数据安全中的各类管理任务活动而建立的组织、流程与工具。通过一个常态化的数据治理组织,建立数据集中管理长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平。2、数据治理组织架构企业数据治理体系除了在技术方面的实施架构,还需要管理方面的组织架构支撑。一般在数据治理建设初期,集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。1)组织架构决策层提供数据标准管理的决策职能,通俗理解即拍板定方案。管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准事项,提交信息科技管理委员会审议执行层业务部门:负责业务线数据标准的制定、修改、复审,推广落实数据标准等科技开发:承担治理平台、数据标准、数据质量等实施工作;系统设计和开发工作中遵循数据标准科技运营:负责技术标准的制定和技术推广2、管理层职责1)项目经理确定项目目标、范围和计划制定项目里程碑管理跨项目协同2)专家评审组评审项目方案,确定方案的合理性3)PMO确保项目按计划执行管理项目重大风险执行跨项目协同、沟通组织项目关键评审3)数据治理专项组执行各项目的落地实施和运营推广,推动执行层的实施数据治理技术落地和项目进展。3、执行层职责数据架构师、数据治理专家和业务专员形成数据治理"铁三角",紧密协作,推进数据治理与数据架构落地。1)业务专员业务专员作为业务部门数据治理的接口人,在标准、质量、应用等领域组织业务人员开展工作定义数据规则保障数据质量提出数据需求2)数据治理专家数据治理专家作为数据治理组成员,负责设计数据架构,运营数据资产;牵头组织业务、IT达成数据治理目标。构建数据逻辑模型监控数据质量运营数据资产3)数据架构师数据架构师作为IT开发部门的专家,承担数据标准落地、模型落地的重任,协助解决数据质量问题。数据标准落地逻辑模型落地物理模型落地四、数据治理平台在确定了技术实施方案和组织管理架构,下面需要进行数据治理体系的落地实施。在大型企业中一般会开发一个完整的数据治理平台,囊括所有数据治理功能,对外提供平台服务。1)核心功能数据治理平台作为数据治理的产品体系,旨在保障数据平台的数据是安全、可靠的、标准的、有价值的。数据资产管理:提供面向用户的场景化搜素,提供全景数据资产地图,方便快速查找资产和资产分析数据标准管理:统一定制数据标准,提高包括字段、码值、数据字典管理,保障业务数据和中台数据的统一标准数据质量监控:提供事前、事中、事后的数据质量体系,支持数据质量监控规则配置、告警管理等功能数据安全:提供数据安全脱敏、安全分级和监控数据建模中心:统一建模,提供业务系统建模和模型管理2)元数据管理元数据管理系统作为数据治理平台的前端展示门户,帮助实现对数据资产的快速检索能力,提高数据使用有效性和效率。通过建立完整且一致的元数据管理策略,提供集中、统一、规范的元数据信息访问、查询和调用功能。3)数据质量数据质量监控:支持所有用户进行数据质量监控规则配置规则阻断:配置数据质量监控阻断规则,数据质量出现差异可实时阻断下游作业运行,屏蔽错误结果链路扩散。告警:数据质量出现预设偏差,及时发出预警通知及时修复4)数据标准支持定制统一的数据标准平台,包括字段标准管理,码值标准管理以及字典管理,业务源数据和中台数据统一标准。5)数据安全基于集团数据资产实现数据安全分级管理,自动识别安全信息;提供数据访问安全行为监测,及时识别访问风险。四、数据治理评估数据治理平台开发完成并运行,需要对整体数据治理体系的效果进行验证和评估。“1)数据是否可以消除"脏、乱、差"的现象2)数据资产是否最大价值化3)所有数据的血缘是否完整可追溯。。。”1)数据资产通过构建数据资产管理体系,实现资产全覆盖,并支持全局搜索和精准定位目标资产。实现全局搜索,面向用户提供场景化检索服务支持标签、数据地图、表名和字段名等多种检索维度支持进行数据地图,源业务数据字典的结果筛选比如支持PV/UV用户搜索和资产展示,明确服务目标2)数据标准新旧数据标准沉淀,打通了数据建模工具、数据标准库和词根标准库,落地数据标准和词根。实现数据标准库100%拉通智能识别数据标准和引用客户端同步更新数据标准、词根3)数据安全保持事前制度建设、事中技术管控、事后监控审计的原则建立全流程数据安全管控体系。基于以上数据安全管控体系,支持数据安全定级,构建灵活的数据安全共享流程。4)数据质量通过数据质量雷达图,定期进行数据和任务质量打分,综合考察数据质量效果。数据完整性:查看数据项信息是否全面、完整无缺失告警响应程度:日常管理、应急响应、降低影响;避免数据损毁和丢失监控覆盖程度:确保数据遵循统一的数据标准和规范要求作业稳定性:监控作业稳定性,是否存在作业异常等问题作业时效性:检查任务对应的数据项信息获取是否满足预期要求注:本文转自大鱼的数据人生,侵删!

查看详情
数据治理:一文讲透数据标准

数据治理:一文讲透数据标准

发布时间:2024-06-06

在AIGC的帮助下,本文一共包括六个部分,如下所示,希望带给你全新的启示:一、数据标准的必要性数据标准的必要性体现在提高数据质量、促进数据共享、降低数据管理成本、提高数据维护性和扩展性,以及符合法规和合规要求等多个方面。通过数据标准化,企业能够更有效地管理和利用数据,提升业务效率和竞争力。1、提高数据质量数据标准通过统一数据格式、数据类型、数据命名等规范,确保数据的一致性和准确性,从而提高数据质量。举例:一家跨国公司在全球各地都有业务,通过统一的客户数据标准(如统一的姓名格式、地址格式、电话号码格式等),避免了不同地区数据格式不一致带来的数据质量问题。2、促进数据共享与互操作性数据标准使得不同系统和部门之间的数据可以无缝对接和共享,提高数据的可用性和互操作性。举例:在医疗行业,通过采用HL7标准,不同医院和医疗系统之间可以方便地共享患者的电子病历,实现患者信息的无缝对接和传输。3、降低数据管理成本通过数据标准化,可以减少数据清洗、数据转换和数据集成的工作量,从而降低数据管理的成本。举例:一个大型零售企业通过实施统一的产品数据标准,减少了在数据清洗和转换上的时间和人力成本,使得新产品能够更快地上线和销售。4、提高数据的可维护性和可扩展性数据标准使得数据结构和格式更加规范,便于数据的维护和扩展。当业务需求变化时,标准化的数据更容易进行调整和扩展。举例:在银行业,通过制定和遵循统一的交易数据标准,能够更容易地进行系统升级和扩展,添加新的金融产品和服务。5、符合法规和合规要求许多行业都有严格的法规和合规要求,数据标准化能够帮助企业更好地遵守这些法规,避免法律风险。举例:在金融行业,通过采用ISO 20022标准,银行能够确保跨境支付数据符合国际法规要求,提高交易的安全性和透明度。二、数据标准的定义数据标准的权威定义可以参考一些国际标准组织和权威机构的定义。以下是两个常用的权威定义:1、ISO/IEC 11179ISO/IEC 11179 是一个关于元数据注册的国际标准。根据该标准,数据标准被定义为:“数据标准是关于数据的内容、格式和结构的规则和指南,用于确保数据的一致性、准确性和完整性。”2、DAMA(数据管理协会)定义DAMA是一个权威的数据管理专业组织。根据 DAMA 数据管理知识体系(DAMA-DMBOK),数据标准被定义为:“数据标准是用于定义、管理和控制数据的一致性和质量的规范、指南和规则。这些标准包括数据定义、数据格式、数据命名和数据编码等方面。”综上所述,数据标准可以被定义为:“数据标准是关于数据内容、格式、结构及其管理和使用的规则和指南,用于确保数据的一致性、准确性、完整性和互操作性。”三、数据标准的分类第三部分 数据标准的分类参考一些国际标准组织(如ISO)的分类方法,可以将数据标准分为数据内容标准、数据格式标准、元数据标准、数据质量标准、数据交换标准、数据安全和隐私标准及行业和领域特定标准七类。1、数据内容标准数据内容标准是对数据项的内容和结构进行规范化的规则和指南,确保数据的一致性、准确性和可理解性。这些标准包括对数据项的命名、定义、类型、格式、长度以及取值范围等方面的规定。以下是一些具体的例子来说明数据内容标准:2、数据格式标准数据格式标准是对数据存储、传输和展示的格式进行规范的规则和指南。这些标准确保数据在不同系统和应用之间能够被一致地处理和理解,避免数据格式的不一致导致的数据错误和通信障碍。以下是一些具体的例子来说明数据格式标准:3、元数据标准元数据标准关注的是数据的数据(即元数据)。它们为描述和管理数据提供框架,旨在使数据易于理解、检索和利用。元数据标准确保信息资源(如文件、数据集、系统等)的描述是一致的,从而支持数据的组织、检索和维护。以下是一些具体的元数据标准和应用示例:有人会疑惑元数据标准和数据内容标准有什么区别,下面以一个图书馆管理系统为例,说明元数据标准和数据内容标准的区别。(1)元数据标准在图书馆管理系统中的应用定义:元数据标准提供了关于图书和其他资料的详细描述信息的规则和规范。这些信息有助于用户和图书馆管理系统理解和处理藏书。关键要素:书名(Title)作者(Author)出版社(Publisher)出版日期(Publication Date)ISBN(International Standard Book Number)分类号(Dewey Decimal Classification or Library of Congress Classification)应用举例:Dublin Core元数据标准:图书馆可以使用Dublin Core元数据标准来描述图书的基本信息。例如,对于一本书,它的Title是"The Great Gatsby",Author是"F. Scott Fitzgerald",Publisher是"Scribner",Publication Date是"1925",ISBN是"9780743273565",分类号是"813/.52"。这些元数据帮助用户在图书馆的数据库中快速找到并了解图书的基本情况。(2)数据内容标准在图书馆管理系统中的应用定义:数据内容标准规定了图书馆系统中记录的具体内容的格式和质量。它们确保所有图书信息的准确录入、更新和查询。关键要素:图书条目格式:例如,每个图书记录必须包含书名、作者、ISBN、库存数量。数据类型:书名和作者为字符串类型,ISBN为定长数字字符串,库存数量为整数。字段长度:ISBN必须为13位数字,书名不超过100字符。必填字段:书名、作者和ISBN为必填项。应用举例:图书登记:在图书馆管理系统中登记新书时,必须按照数据内容标准录入信息。系统会检查ISBN是否符合13位数字的要求,确保没有错误或遗漏。如果库存数量低于某一阈值,系统可能自动触发购书请求。(3)本质区别焦点不同:元数据标准:关注于描述图书的基本信息,以便组织和检索。它们解释了数据的含义和上下文。数据内容标准:关注于图书信息的具体内容和格式,以确保数据的准确性和一致性。它们规定了数据的结构和验证规则。应用目的:元数据标准:使图书的描述信息规范化和标准化,便于管理和访问。数据内容标准:确保图书馆系统中数据的录入、处理和查询符合特定的质量和格式要求,支持系统的有效运行。4、数据质量标准数据质量标准是用于衡量和确保数据准确性、一致性、完整性和及时性的规则和指南。这些标准规定了数据应满足的质量要求,以确保数据能够支持业务决策和操作。以下是数据质量标准的主要维度及举例说明:以下是某银行希望提高其客户数据的质量,以支持精准的营销和客户服务的案例:5、数据交换标准数据交换标准是用于规范数据在不同系统、应用和组织之间传输和交换的规则和格式。通过这些标准,确保数据在不同环境中的传输过程保持一致性、准确性和完整性,从而实现系统之间的互操作性和高效的数据共享。以下是一些常见的数据交换标准及其应用示例:6、数据安全和隐私标准数据安全和隐私标准是用于保护数据在存储、传输和处理过程中的安全性和隐私性的规则和指南。这些标准确保数据在受到未经授权的访问、泄露、篡改和丢失的情况下依然得到保护,并且符合相关的法律法规要求。以下是一些常见的数据安全和隐私标准及其应用示例:7、行业和领域特定标准行业和领域特定标准是针对特定行业或领域的数据管理和交换的规则和指南。这些标准根据行业或领域的特殊需求,规范了数据的定义、格式、传输和处理方法,确保行业内不同系统和组织之间的数据互操作性和一致性。以下是一些常见的行业和领域特定标准及其应用示例:四、数据标准的制定流程1、需求分析需求分析是数据标准制定流程中的重要步骤,旨在识别和明确数据标准的需求,以确保数据标准能够满足组织和业务的实际需要。需求分析的主要任务包括理解业务需求、识别数据问题、定义数据需求和确定标准范围等。(1)理解业务需求与业务部门和数据用户沟通,了解他们的业务流程和数据需求,识别需要标准化的数据项。举例:业务背景:一家零售企业希望改善库存管理,提高库存数据的准确性和一致性。分析过程:与库存管理、采购、销售等部门的负责人沟通,了解他们在库存管理中的数据需求和使用场景。发现:采购部门需要准确的库存数据来进行采购计划,销售部门需要实时的库存数据来防止超卖,库存管理部门需要一致的库存记录来进行盘点和管理。(2)识别数据问题通过数据分析和系统审查,发现当前数据管理中存在的问题,确定需要改进和标准化的地方。举例:问题发现:通过数据审计,发现不同系统(如采购系统、销售系统、库存管理系统)中的库存数据不一致,导致库存数量错误和管理困难。具体问题:采购系统中的库存数据未及时更新,导致采购计划不准确。销售系统中的库存数据未实时同步,导致超卖现象频发。库存管理系统中的数据格式不统一,导致数据整合和分析困难。(3)定义数据需求根据业务需求和数据问题,明确需要标准化的数据项、数据格式、数据质量要求等。举例:(4)确定标准范围根据业务优先级和资源限制,确定数据标准的适用范围和优先级,制定详细的实施计划。举例:优先级确定:优先标准化库存数据,确保采购系统、销售系统和库存管理系统中的库存数据一致。次优先标准化采购数据和销售数据,确保与库存数据的关联性和一致性。实施计划:阶段一:制定和实施库存数据标准,进行系统更新和数据同步。阶段二:制定和实施采购数据和销售数据标准,进行系统更新和数据整合。阶段三:定期审查和优化数据标准,确保持续改进和适应业务需求。2、标准草案的编写在需求分析之后,标准草案的编写是数据标准制定流程中的关键步骤之一。标准草案是对需求分析结果的具体落实,是将需求转化为详细的标准规范文件。标准草案的编写包括定义数据项、制定规则、编写使用说明、确定实施方法及编写示例等步骤。(1)定义数据项详细描述每个数据项的名称、定义、数据类型、长度、格式和取值范围。举例:(2)制定规则制定数据的校验规则、命名规范和数据质量要求等。(3)编写使用说明说明数据标准的应用范围、适用场景和使用方法。举例:应用范围:本数据标准适用于公司内部所有涉及产品信息管理的系统,包括ERP系统、库存管理系统和销售管理系统。适用场景:数据标准适用于产品信息的创建、更新、删除和查询等操作。使用方法:所有系统在处理产品信息时,必须遵循本标准中的数据定义和校验规则,确保数据一致性和准确性。(4)确定实施方法确定数据标准的实施步骤、责任人和时间计划。(5)编写示例提供标准实施的具体示例,便于理解和应用。3、审核与修订在标准草案的编写之后,审核与修订是数据标准制定流程中的关键步骤。该步骤旨在确保标准草案的准确性、适用性和完整性,通过多方审核和反馈,不断优化和完善数据标准草案,以确保其能够有效应用于实际业务中。审核与修订包括内部审核、外部审核、收集反馈、修订草案及最终审定等步骤。(1)内部审核组织内部相关部门和专家对标准草案进行审核。举例:审核团队:包括数据管理部门、业务部门、IT部门的代表和数据治理专家。审核内容:标准草案的定义是否清晰、规则是否合理、应用范围是否适当、实施方法是否可行等。审核会议:召开内部审核会议,逐条审查草案内容,记录审核意见和建议。(2)外部审核邀请外部专家或顾问对标准草案进行评审。举例:专家团队:包括行业专家、学术研究人员和顾问。审核内容:标准草案的行业适应性、先进性和合理性,是否符合行业最佳实践和标准。审核报告:外部专家提交审核报告,详细列出草案中的优点和不足,以及改进建议。(3)收集反馈从审核过程中收集各方意见和建议。举例:内部反馈:记录内部审核会议中的每条意见和建议。外部反馈:整理外部专家的审核报告,提取关键建议和意见。反馈汇总:将所有反馈意见汇总,分类整理,形成问题清单和改进建议列表。(4)修订草案根据收集到的反馈对标准草案进行修订和完善。举例:问题识别:从反馈中识别标准草案中的问题,例如定义不明确、规则不合理、实施方法不详细等。草案修订:逐条修改草案内容,明确数据项定义、优化规则、细化实施方法等。修订版本:形成修订后的标准草案,并标注修订内容和理由。(5)最终审定组织最终审核会议,通过修订后的标准草案,形成正式的标准文件。举例:审定会议:召集审核团队和关键利益相关者,召开最终审定会议。审定流程:逐条审议修订后的草案,确保所有问题已解决,所有建议已采纳。通过决议:通过会议决议,正式通过修订后的标准草案,形成最终的标准文件。标准发布:将最终的标准文件发布给相关部门和人员,进行培训和宣传,确保标准的有效实施。4、发布与实施审核与修订之后,发布与实施是数据标准制定流程中的关键步骤。这个阶段的目标是正式发布经过审核和修订的数据标准,并确保这些标准在实际业务中得到有效应用和遵守。发布与实施包括标准发布、培训和宣传、实施计划、系统更新及监控与反馈等步骤。(1)标准发布正式发布经过审核和修订的数据标准。举例:发布方式:通过企业内部邮件、内部公告、企业内部知识库等方式发布数据标准文件。文件内容:标准文件应包括数据项定义、规则说明、应用范围、实施方法等详细内容。通知对象:所有相关部门和人员,包括数据管理部门、业务部门、IT部门等。(2)培训和宣传对相关人员进行培训,确保他们理解和掌握数据标准的内容和应用方法。举例:培训计划:制定培训计划,包括培训时间、地点、培训内容和培训对象。培训内容:详细讲解数据标准的背景、目的、具体内容和应用方法。培训方式:可以通过面对面培训、在线培训、培训手册等多种方式进行。考核与评估:对培训效果进行考核和评估,确保培训目标达到。(3)实施计划制定详细的实施计划,包括具体步骤、时间安排、责任人等。举例:实施步骤:阶段一:系统准备阶段,进行系统评估和准备工作。阶段二:系统更新阶段,对现有系统进行更新和改造。阶段三:数据迁移阶段,将现有数据转换为符合新标准的数据格式。阶段四:上线阶段,新标准正式在所有系统中应用。时间安排:为每个实施步骤制定具体的时间表。责任人:明确每个实施步骤的责任人和参与人员,确保责任明确。(4)系统更新对现有系统进行必要的更新和改造,以支持新的数据标准。举例:系统评估:评估现有系统对新数据标准的兼容性,识别需要更新和改造的部分。系统改造:进行必要的系统开发和测试,确保系统能够支持新数据标准。数据迁移:将现有数据转换为符合新标准的数据格式,确保数据一致性和准确性。(5)监控与反馈建立监控机制,确保数据标准在实施过程中得到遵守,并收集反馈以便进一步改进。举例:监控机制:建立数据标准实施的监控机制,定期检查数据标准的执行情况。反馈收集:收集实施过程中遇到的问题和建议,记录在案。持续改进:根据收集到的反馈,进行必要的调整和改进,优化数据标准和实施流程。五、数据标准的治理数据标准的实施与管理是确保数据标准在组织内被正确应用和维护的关键过程。以下将针对实施过程中的挑战、解决方案进行说明和举例。1、实施过程中的挑战(1)数据质量差异描述:组织内不同系统和部门的数据质量存在差异,导致数据整合和标准化过程中出现问题。举例:在一个多业务部门的企业中,财务部门和销售部门的数据质量标准不一致,导致财务报告和销售报告的数据难以统一和分析。(2)部门间的协作问题描述:不同部门在数据标准实施过程中缺乏协作,导致标准的推广和执行困难。举例:在一个大型制造企业中,生产部门和物流部门对数据标准的理解和执行不同步,导致生产计划和物流安排的协调出现问题。(3)技术实现难题描述:现有的技术基础设施可能无法完全支持新的数据标准,导致实施过程中的技术难题。举例:在一个老旧的银行系统中,核心银行系统的技术架构难以支持新的客户数据标准,导致数据标准的实施需要进行大量系统改造。2、解决方案(1)建立跨部门的数据管理团队描述:成立一个包含各部门代表的数据管理团队,确保数据标准实施过程中的协作和一致性。举例:在一个零售企业中,成立由IT部门、销售部门、采购部门和数据管理部门组成的数据管理团队,共同制定和实施数据标准,确保各部门的需求和标准一致。(2)使用数据管理工具描述:引入先进的数据管理工具,支持数据标准的实施和管理,提高数据质量和一致性。举例:在一个电商平台中,引入数据质量管理工具(如Informatica、Talend等),对客户数据进行清洗、验证和标准化处理,确保数据的一致性和准确性。(3)定期审查和更新数据标准描述:定期对数据标准进行审查和更新,确保标准能够适应业务变化和技术发展。举例:在一个金融机构中,每半年对数据标准进行一次全面审查,根据业务需求和技术进展对标准进行调整和优化,确保数据标准的持续有效性。六、数据标准的应用案例1、某传统行业型做法和成效背景:A公司是中国某特大型国有重点骨干企业,面对海量、多源、异构的数据,迫切需要建立统一的数据标准,以支撑数据的有效管理和利用。做法:(1)成立数据标准工作组,统筹规划和推进数据标准的制定和实施。(2)基于国家标准和行业标准,结合公司业务特点,制定了一系列企业级数据标准,包括数据元标准、数据编码标准、数据质量标准、数据安全标准等。(3)建立数据标准管理平台,支持标准的在线查询、下载和应用。(4)将数据标准嵌入数据管理流程,如数据采集、清洗、存储、交换等环节,确保标准的落地执行。(5)开展数据标准宣贯培训,提高全员的标准意识和应用能力。成效:(1)形成了覆盖全业务、全流程的数据标准体系,实现了数据的标准化采集、存储和交换。(2)提高了数据质量,业务数据的完整性、准确性和一致性显著改善。(3)促进了数据共享,不同部门、不同系统间的数据交换更加顺畅,数据孤岛问题得到缓解。(4)降低了数据管理成本,数据标准化减少了数据清洗和转换的工作量。(5)为各类数据应用奠定了基础,如数据分析、数据挖掘、辅助决策等,释放了数据价值。2、某传统互联网行业型做法和成效背景:B公司是全球领先的电商平台,业务涉及零售、金融、物流、云计算等多个领域。随着业务的快速发展,B公司积累了海量的用户数据、交易数据、物流数据等,亟需通过数据标准化来提升数据管理和数据应用的效率。做法:(1)设立数据委员会,负责顶层设计和统筹推进数据标准化工作。(2)制定B公司数据标准体系,涵盖概念标准、指标标准、维度标准、业务规则标准等内容。(3)建立统一的数据资产平台,基于数据标准实现数据的统一采集、存储、加工和服务。(4)推行数据标准在各业务线的应用,如在数据仓库、数据集市、数据报表等场景中广泛使用标准化的数据。(5)建立数据标准的持续优化机制,根据业务变化动态调整和更新标准。成效:(1)打通了各业务领域的数据壁垒,实现了全域数据的标准化管理和共享应用。(2)提升了数据质量,为数据分析和决策提供了可信的数据基础。(3)加速了数据应用的开发和交付,标准化的数据接口和数据服务大大提高了数据供给的效率。(4)促进了业务协同,基于标准化的数据,不同业务部门能够高效协作,促进业务创新。(5)增强了数据治理,通过数据标准的执行,提高了数据管理的规范性和可审计性。以上两个案例,都是以业务需求为导向,自上而下推动数据标准的制定和实施,并将数据标准深度融入数据管理流程和数据应用场景,从而实现了数据管理效率和数据价值的双提升。当然,每个企业的数据状况和业务特点不尽相同,在实际实施中还需要因企制宜,探索符合自身实际的数据标准之路。

查看详情
数据指标体系构建一文读懂

数据指标体系构建一文读懂

发布时间:2024-05-30

几乎所有的数据分析工作都会提到一个词——“建立数据指标体系”,虽然这个词对于大家来说并不陌生,但是数据指标到底是什么以及如何具体的搭建,很多人还是一头雾水的。今天就来展开讲讲~一、数据指标概述在了解什么是数据指标之前,我们思考一下:为什么会出现指标?它是为了解决什么问题?人类及科学的发展是与时俱进的,早期为了使自然科学的实验及结果更具统一性及方便标准化衡量,一些标准化的专业指标应运而生。随着人类社会的发展,社会科学也越来越需要统计学来进行事物的衡量,一系列统计学指标也逐步产生了。随着新信息技术的发展,数据指标逐步被大众认可为衡量目标的方法。从社会科学角度看,指标是统计学的范畴,用于数据的描述性统计。指标是说明总体数量特征的概念及其数值的综合,故又称为综合指标。在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。传统的指标有国内生产总值(Gross Domestic Product,GDP)、国民生产总值(Gross National Product,GNP)、居民消费价格指数(Consumer Price Index,CPI)、沪深300指数等。1、什么是数据指标?数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。数据指标需要对业务需求进行进一步抽象,通过埋点进行数据采集,设计一套计算规则,并通过BI和数据可视化呈现,最终能够解释用户行为变化及业务变化。常用的数据指标有PV、UV等。本文所述的指标是衡量目标的方法,指标由维度、汇总方式和量度组成,如下图所示。其中,维度是指从哪些角度衡量,是看待事物的视角与方向,决定了根据不同角度去衡量指标。汇总方式是指用哪些方法衡量,是统计汇总数据的方式。而量度主要是明确事物的具体目标是什么,是对一个物理量的测定,也用来明确数据的计量单位。比如,播放总时长是指用户在一段时间内播放音频的时长总和(单位:分钟)。按照上述拆解,维度是指筛选的一段时间,汇总方式为计算了时间长度的总和,而量度就是统一的单位—分钟数。这里,我们可以理解为指标是由这几个方面构成,相当于英文的构词法,前缀、后缀等共同形成了一个单词。2、什么是指标体系?体系化的本质是将数据指标系统性地组织起来,具体会按照业务模型、按标准对指标不同的属性分类及分层。当然,不同的业务阶段、不同业务类型会有不同阶段的划分标准。数据指标体系含有十分丰富的统计量,从宏观上看,它是一个相对全面的有机整体;从微观上看,每个数据指标都有其特定含义,反映了某一细节的客观事实。不同的数据指标定义不同,逻辑也不同,这些各种各样的统计量共同构成了数据指标体系,使其产生不可磨灭的价值。总的来说,数据指标体系是对业务指标体系化的汇总,用来明确指标的口径、维度、指标取数逻辑等信息,并能快速获取到指标的相关信息。二、数据指标体系搭建原则1、搭建指标体系要有重点不能只是罗列指标,这是很多数据分析师都会犯的通病,上来先把大量的指标列好,也不说明优先级,先看哪个后看哪个,业务根本就看不懂。2、搭建指标体系要有目标很多人习惯了列指标,自有一套指标拆分的套路,不管我们要解决的业务问题是什么,反正就是按照时间、渠道、区域等纬度拆分,分来分去也没个具体的标准,最后还要纠结到底指标变化多少才是问题。3、指标体系不是越全越好,和业务最贴切的才是最好的这个之前的指标体系文章里反复强调了,写文章的时候会为了吸引眼球,标题写XXX行业指标体系大全,虽然给大家整理指标体系的时候尽量概括多个业务场景,指标列的很详细,但是不同的公司,业务复杂不一样,没有一套指标系统是能够通用的,只有和业务最贴切的才是最好用的。三、如何设计和落地指标体系指标体系的搭建分为两大步骤:设计指标体系和落地指标体系,这两大部分又可以拆成一些小步骤,我们先来看一张指标体系从设计到落地的整体步骤图,下面再根据这张图细分拆解其中的每个步骤是怎样落地的。1. 如何设计指标体系?1)需求来源主要需求来源随着产品生命周期而改变。搭建数据指标根据数据现状分为初中后三个阶段。首先要明确的是先有目标方案后再有数据指标,而不是凭空捏造出一些指标体系然后往产品上套。在数据指标搭建初期以产品战略目标为主,优先搭建北极星指标的全方位指标监控;中期以业务驱动为主,搭建指标衡量现有业务,业务驱动直接获取到的指标一般是二级指标,需要整合到指标模型里面去;到了后期,此时各数据指标已经搭建的差不多了,是时候根据模型查缺补漏,搭建针对产品的指标闭环,通过数据来反向推动产品的迭代优化。2)确定一级指标一级指标其实就是反映产品在各个重要方面的运营情况怎么样,把对用户的运营当成一个流水线,围绕着用户生命周期即可挖掘到一些重要的一级指标并自然而然的形成闭环。在众多指标模型中AARRR模型能很好的概括用户的生命周期,美中不足的是遗漏了用户流失这一环节,个人觉得AARRRR比较能完整概括用户生命周期,即Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(收入)、Referral(自传播)、Recall(召回)。围绕这六大方面,可以拓展以下一级指标(只是举例一些通用指标,具体的一级指标可根据具体业务进行定义):3)得到二级指标二级指标由一级指标衍生而来,为了实现一级指标,企业会采取一些策略,二级指标通常与这些策略有所关联。可以简单理解为一级指标的实现方式,用于替换定位一级指标的问题。二级指标的作用就是将一级指标的涨跌落实到具体的业务部门或者是责任人,通过成分拆解我们可以从一级指标得到对应的二级指标。例如收入这个一级指标,通过成分拆解可以分为广告收入和内购收入等。4)得到三级指标通过二级指标的分析可以找到相应问题的责任方,而三级指标的作用正是指导该责任方去定位具体问题,进而修复问题。通过对二级指标的路径拆解即可得到三级指标,一线人员可通过三级指标的具体表现快速做出相应的动作,所以三级指标的要求是尽可能覆盖每一个关键路径上的关键动作。这里继续拿内购收入这个指标举例,通过路径拆解,最终促成内购的关键行为路径是:浏览商品、加入购物车、提交订单、支付成功。按照以上流程不断查缺补漏确定各一级指标并对其进行逐步拆解,即可搭建出一套行之有效的数据指标体系。2. 如何落地指标体系?终于到了开干时候,有了目标之后接下来就是将规划的指标进行埋点落地了。落地指标就不像设计指标那样首先着眼于一级指标,而是应该首先着眼于二级指标,因为一级指标是由二级指标组成的,二级指标埋点好了之后一级指标自然而然地可以计算出来。埋点不是一个人的事情,需要各部门通力合作,下图就是埋点的整个设计到落地的流程:不知看完这张图有没有一个疑惑,责任方为什么还要去理解熟悉需求,需求方不是给出指标了吗,照着去埋点就好了啊。如果你这么想的话,那你注定只能做一个工具人。首先各指标跟具体的业务逻辑设计紧密相关的,如果你不去熟悉业务,是无法针对指标进行多维度细化埋点设计的,最终设计出来的埋点方案必定是丢三落四漏洞百出。再者需求方给出的指标不一定是全面的,需求方往往数据意识不强,无法洞察到当前业务的很多细节是数据可分析的。所以这就需要数据产品经理熟悉业务懂产品懂用户,才能一针见血设计出一套有指导性意义的埋点方案,而不是照本画葫芦搞出一些冷冰冰的数据看看就好,要记住,每一个埋点都是有深意的,数据也是有灵魂的。明确了埋点的工作流程,接下来要确定的是选择自研数据门户还是使用第三方工具,如:神策、Growing IO、诸葛IO等。这两者主要有以下区别:自研工作量大,搭建周期长,第三方提供现成的模型,搭建周期短。自研更灵活,相对埋点实施方上报数据更友好,无需过多无谓的逻辑记录,在后期的指标计算方式上可以随心所欲,如某些耗时只要打好点,自研就可以通过两个事件的时间差计算出耗时,而有些第三方则不支持。总之,自研前期痛苦后期爽,第三方前期爽后期痛苦。从实现难度上来说自研需要的人力物力远远大于第三方服务,绝大部分中小公司会选择第三方服务,下面的埋点介绍就基于第三方服务的方式进行讲解。老规矩,在讲解之前先上一张整体的流程图:1)埋点规范文档正如前面所说,指标体系的搭建需要各部门通力合作,一份埋点规范文档既能规范工作流程提高效率,又能明确需求规范减少沟通成本避免理解出现偏差。埋点规范文档包括了工作流程规范、命名规范、需求文档规范等,这些应该在指标体系落地之初就规定好。当然由于一开始经验不足并且有的问题在后续的工作中才会暴露出来,初版的规范文档可能并没有那么详细,但是大体框架还是要有的,后续再补充一些细枝末节的东西。2)拿到需求原型就是产品功能原型或者活动原型。3)定义页面、元素名称拿到需求原型后,首先将原型里面的页面及页面中的元素名称提前定义好,以便后续进行统一使用避免不同指标出现页面命名不一致的情况。如果是页面的话建议全部命名,页面里面的元素可能会有点多,可以挑一些关键路径上的重要元素进行命名,其它元素视后续工作需求再进行埋点(当然了有精力的话全部命名进行监控是更好的,毕竟数据是多多益善,避免后续需要用数据发现没有埋点的情况发生)。4)定义事件名称为什么要规范事件名称?我直接举个例子吧,某天你想查看用户的使用路径,当你使用用户路径分析之后发现有大量的展示事件穿插在用户行为事件中,这时候你是不是很恼火。如果之前埋点的时候对事件进行规范命名,这时候你只需要在筛选条件中过滤掉事件名前缀为展示的事件,就可以轻松过滤掉所有跟用户行为无关的事件。事件规范命名除了以上好处,还有个好处就是方便需求方使用,使用者可以通过事件名轻松知道这个事件具体的含义,提高了使用效率,事件命名可由以下几部分组成:行为、对象、结果、类型。行为:事件的具体行为,主要有 4 类:点击 – 点击某个按钮或元素的一类事件。进入 – 进入某个页面或功能的一类事件。展示 – 展示某个页面或元素的一类事件。退出 – 退出某个页面或功能的一类事件。事件行为必须填写,后续可按实际情况增加其他行为。对象:事件行为对应的具体对象可以是页面,或者是功能,事件对象必须填写。结果:对该对象进行的行为最终的结果,主要有3类:成功 – 针对该对象进行的行为结果为成功。失败 – 针对该对象进行的行为结果为失败。结果 – 针对该对象进行的行为结果为成功或者失败,此时具体结果存储在该事件的维度中,事件结果必须填写。类型:此参数为拓展参数,如展示事件可能展示的是页面,也可能展示的是弹窗,这时候在事件后面加个页面后缀或者弹窗后缀,后续使用起来就能很方便的区分事件的具体类型。事件类型为可选参数,视情况而定。以上就是事件的命名标准,可以从该标准进行如下一些命名:注册_指标_成功、进入_充值页面_成功等。5)梳理指标维度这时候就要隆重介绍一下前面《指标体系搭建流程图》中提到的新4W1H分析法了。为什么叫新4W1H,因为针对传统的4W1H进行了新的的解释,在新的释义上可以更加合理的加上本人在实际工作中总结的经验。根据平时的埋点总结,事件维度主要由主题和事件因果几个大维度组成。主体即用户、设备和应用,因果即这个事件的来源和结果。通过增加因果维度可以方便的看到一个事件的来源和去向。我们先用一张图来了解下新4W1H分析法是如何定义维度的:Who:触发该事件的主体,是唯一区分用户的标志,如果用户登录了则使用用户ID(设备ID也需要记录),未登录则使用设备ID。When:事件发生的时间,使用UNIX时间戳就好。What:描述触发这个事件的参与主体具体信息,一般有三个主体,用户本身、应用、还有设备。使用第三方服务的话除了用户信息需要我们埋点设置,其他的第三方SDK都会自动采集,所以这部分参数不是我们工作的重点。Where:事件发生的物理地点,可以用过GPS、LBS、IP来判断,具体视用户的授权而定。位置信息第三方SDK也会自动采集。How:事件的具体描述,这一块才是我们工作的重点,缺乏经验的话往往会遗漏一些重要的维度,导致后续的分析支持不上。根据个人总结的因果分析法可以将事件的描述分为来源和结果描述,事件的来源去向无非有两类:多个行为造成同一个结果、一个行为造成不同结果。例如:进入充值页面,可能从不同入口进来的;点击充值按钮,可能会充值成功或者充值失败。事件的结果即为对该事件的具体信息描述。通过因果分析法进入充值页面到充值成功这一系列行为我们可以做以下事件埋点(以下事件维度只列举因果分析法相关维度,其它参数视具体业务自由增加)。通过这样的埋点,我们就可以很清晰的知道进入充值页面各个入口的分布情况,也能知道点击充值按钮后充值成功和失败的分布。6)明确上报时机事件的上报时机由事件的定义来具体决定。主要有以下三大类:展示:展示时候上报,需要明确重复展示是否重复上报,像那种自动轮播的banner就不需要重复展示重复上报,因为这样的重复上报是没什么意义的,而用户反复滑动导致的重复展示可以重复上报;点击:点击时上报,这个是最简单的上报时机,一般没什么争议;接口:这个涉及到与后端的接口交互,如前面举例的购买_金币_结果事件,上报时机则为充值成功或者失败时上报,即客户端拿到后端返回的具体结果时上报。7)输出数据需求文档当上面工作已经做完时,就可以输出需求文档了,需求文档主要包含以下信息:8)录入指标字典埋点指标上线后,为了方便业务方使用,可以将各指标按照业务分为不同的主题,方便使用者快速找到需要的指标,具体包含以下信息:四、数据指标体系搭建方法及经验那怎么才能搭建有效的指标体系呢,笔者给大家分享以下几点经验:1、掌握基本的思维模型,全面洞悉业务数据分析离不开业务,了解业务是我们搭建指标体系的前提,掌握一些基本思维模型,可以帮助我们快速、全面的洞察业务。1)5W2H模型经典的数据分析思维模型。以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,即何因(why)、何事(what)、何人(Who)、何时(When)、何地(where)、如何做(How)、何价(How much)。5w2h能帮助我们培养一种严谨全面的思维模式,让分析的过程更加全面更有条理,不会产生混乱和遗漏,当你觉得你的指标体系已经很完美的时候,可以用这个模型来帮助你肯找到思维的漏洞。2)逻辑树方法及MECE原则逻辑树方法可以帮我们将复杂的业务问题拆解成多个简单问题,从而帮助我们拆分更细的数据指标。Mece原则的意思是“相互独立,完全穷尽”,我们搭建指标体系的一个重要标准就是不重复不遗漏,运用mece原则可以很好的帮助我们把握核心指标,提升指标系统的有效性。3)商业画布商业画布是一种分析企业价值的工具,通过把商业模式中的元素标准化,引导我们的思维,将业务知识素材归档,在了解业务的过程中,我们可以按照下面张图来完善填充,从多个角度全面的洞察业务除了上面的思维模型,最好的了解业务的方式就是和业务方多交流,认识当前业务的关键问题,毕竟建立完善系统的指标体系需要很长一段时间,最好从部分关键点开始,先解决问题。2、指标体系搭建方法论对应业务场景的指标体系有相应的方法论,比如基于用户生命周期的指标体系AARRR、客户满意度指标体系等等,简单给大家分享几个:1)第一关键指标这个概念是我在《精益数据分析》中看到的,指的是当前阶段无比重要的第一指标,同时也指出了在创业阶段的任意时间点上应该且只关注一项重要指标。这个概念在我们搭建数据分析指标体系的时候同样有指导意义。先抓住公司当前阶段的“第一关键指标”,然后再把这个指标拆解到各部门,形成各部门的“第一关键指标”,也就是我们说的OKR,或者是KPI,然后再根据各部门的业务,基于这个第一关键指标思考应该关注哪些细化的指标。2)基于用户生命周期的指标体系:AARRR3)客户满意度指标体系:RATER指数模型总之,关于指标体系的搭建可以先模仿再优化,重点是解决业务问题,我整理的一些特定业务场景的指标体系,可以先模仿套用,再根据业务形态加以调整,快的话,2个小时一个指标体系即可搭建完成。05数据指标体系的价值点数据分析什么要搭建指标体系?有什么用?可能大部分人都说不清楚。在笔者看来,搭建指标体系的价值主要有3点:1、建立业务量化衡量的标准指标体系可以建立业务量化衡量的标准,数据分析的目的就是说明、衡量、预测业务的发展。比方说衡量一个门店经营的状况,一个门店月净利润20万元,刚看这个指标感觉这个店盈利不少,发展应该不错但是再一看前两个月的净利润,发现前两个月的净利润都是40万以上,增加了这一个指标,我们就发现了这个店的经营状况可能存在问题了。在衡量业务经营状况的过程中,单一数据指标衡量很可能片面化,需要通过补充其他的指标来使我们的判断更加准确。因此,搭建系统的指标体系,才能全面衡量业务发展情况,促进业务有序增长。2、减少重复工作,提高分析效率有了指标体系,数据分析师就可以少干点临时提数的活,指标体系建立后应该能覆盖大部分临时数据分析需求,如果指标体系搭建完了,还是有很多临时的分析需求涌现,那证明这个指标体系是有问题的。3、帮助快速定位问题建立了系统指标体系,有了过程与结果指标,有了指标的前后关联关系,就可以通过回溯与下钻,快速找到关键指标波动的原因,老板让你分析原因,再也不用愁眉苦脸了。不过这些价值发挥的前提是建立合理、有效的指标体系,且数据质量有保证,数据质量都不能保证,指标体系搭的再好,分析出来的结果也没什么意义。免责声明:本文转自大鱼的数据人生,文章版权归原作者所有,仅供读者学习、参考,禁止用于商业用途。因转载众多,无法找到真正来源,如标错来源,或对于文中所使用的图片、文字、链接中所包含的软件/资料等,如有侵权,请联系删除,谢谢!

查看详情
浅谈金融行业数据安全分类分级

浅谈金融行业数据安全分类分级

发布时间:2024-05-24

数据安全管理是一项从上而下的、多方配合开展的工作。在进行数据安全管理组织架构建设时,需要从上而下建设;从而全面推动数据安全管理工作的执行和落地;以保证数据安全的合法合规、并长效推动业务的发展和稳定运行。金融行业机构应设立数据安全管理委员会,建立自上而下的覆盖决策、管理、执行、监督四个层面的数据安全管理体系,明确组织架构和岗位设置,保障数据生命周期安全防护要求的有效落实。决策层:作为数据安全管理工作的决策机构,主责工作职责为提供数据安全建设必要的资源,对重大安全事件进行协调与决策等。管理层:由科技、安全、业务、法务、审计等相关部门负责人组成,主要职责是建立数据安全工作机制、管理策略和制度体系,组织开展数据安全全面落地工作。结合监管要求和业务发展需求,组织制订数据安全整体解决方案,提升数据安全管理工作水平。执行层:职责主要在于聚焦在数据安全任务与工作上,落实数据安全管理工作要求。监管层:由审计部门、合规部门等相关工作人员构成,主要负责稽查、设计等相关工作。一、政策解读以下是人行和金融监管总局关于数据安全管理办法与要求的部分内容。《金融监管总局银行保险机构数据安全管理办法(公开征求意见稿)》共九章八十一条。包括总则、数据安全治理、数据分类分级、数据安全管理、数据安全技术保护、个人信息保护、数据安全风险监测与处置、监督管理及附则。《办法》中明确了数据安全治理架构,通过责任制、归口管理部门、业务部门、风险合规与审计部门、数据安全部门的职责划分,明确组织架构分工。要求银行保险机构指定数据安全归口管理部门,作为本机构负责数据安全工作的主责部门,承担制定数据安全管理制度标准、建立维护数据目录、推动数据分类分级保护、组织开展数据安全风险监测、应急响应及处置等职责。银行保险机构应当按照“谁管业务、谁管业务数据、谁管数据安全”的原则,明确各业务领域的数据安全管理责任,制定数据分类分级保护制度,建立数据目录和分类分级规范,将数据分为核心数据、重要数据、敏感数据、其他一般数据,并采取差异化的安全保护措施,落实数据安全保护管理要求。另外,关于人行JR/T 0197-2020《金融数据安全 数据安全分级指南》于2020-09-23发布并实施,数据安全分类参考分了4级,其中一级分为客户、业务、经营管理、监管四类数据。将影响程度分为四级:严重损害、一般损害、轻微损害、无损害。根据影响程度,将数据安全级别从高到低划分为5级、4级、3级、2级、1级。(个人金融信息保护技术规范中安全级别定义为C3、C2、C1类,这里分别对应4级、3级、2级),5级涉及影响国家安全,4级是普通金融机构最高级别数据,3级以上在公众认知里即可识别为重要数据/敏感数据,2级为企业机构内部办公常用数据,1级基本上为可公开数据。针对银行/保险同业内部实践,大部分机构接触不到5级数据,1级数据无需特定安全措施,重点还是在4级到2级之间的安全管控。数据安全性遭到破坏后可能造成的影响(如可能造成的危害、损失或潜在风险等),是确定数据安全级别的重要判断依据,主要考虑影响对象与影响程度两个要素。影响对象指金融业机构数据安全性遭受破坏后受到影响的对象,包括国家安全、公众权益、个人隐私、企业合法权益等,影响对象的确定主要考虑的内容如下表:影响程度指金融业机构数据安全性遭到破坏后所产生影响的大小,从高到低划分为严重损害、 一般损害、轻微损害和无损害。数据定级,各级数据特征:《人行JR/T 0197-2020 金融数据安全 数据安全分级指南》根据金融业机构数据安全性遭受破坏后的影响对象和所造成的影响程度,将数据安全级别从高到低划分为5级、4级、3级、2级、1级,一般具有如下特征:金融数据安全,主要是指确保金融数据在其生命周期各阶段的安全性,通过采取相应措施,将数据安全性遭受破坏可能带来的安全影响降至最低或降至可接受的范围内。1级数据基本为公开数据,原则上无保密性要求,其安全防护应参考JR/T 0197文件有关完整性及可用性安全要求;而2级至4级数据的安全保护应综合考虑安全需求与业务需求,根据数据安全的级别不同,有侧重地采取相应的数据安全防护措施;其中,对于2级数据应优先考虑业务需求,4级数据应优先考虑安全需求,5级数据的保护应按照国家及相应主管部门的有关要求规定执行。对照之前的监管发文要求,建议可采取以下映射思路进行分级工作,仅供参考。《人行JR/T 0197-2020 金融数据安全 数据安全分级指南》数据安全分类分级示例表格部分内容如下:《人行JR/T 0197-2020 金融数据安全 数据安全分级指南》数据安全定级规则参考如下:新变化、新合规:2023年7月23日,中国人民银行起草的《中国人民银行业务领域数据安全管理办法(征求意见稿)》,《办法》共八章,共五十七条,包括数据分类分级、数据安全保护总体要求、数据安全保护管理措施等,其中第二章数据分类分级部分。二、实施路径数据安全治理工作步骤建议:数据分类分级工作步骤建议:数据分类分级操作流程建议:参考金融行业遵从的数据分类分级要求,结合数据资产梳理情况细化,从而形成数据分类框架。根据用户数据分级需求、行业监管要求等内容制定数据级别,遵从国家、金融行业、监管等相关要求,明确数据分级要素及内容,包括安全等级、重要程度、影响对象、影响范围、影响程度等。数据安全定级旨在对数据资产进行全面梳理并确立适当的数据安全分级, 是金融业机构实施有效数据分级管理的必要前提和基础,数据分级是建立统一、完善的数据生命周期安全保护框架的基础工作,能够为金融业机构制定有针对性的数据安全管控措施提供支撑。三、工具赋能以下是Datablau DDS数据安全管理平台针对数据分类分级的功能实践。数据分类分级:数据分类分级管理 - 协同分类分级:数据分类分级管理 - 智能分类分级:识别规则类型主要包括:一般规则、血缘级联规则、机器学习规则。1)一般规则:新建一般识别规则,可以依赖信息项,也可以不依赖于信息项,不依赖信息项是直接识别数据,如果要选择不依赖信息项,那就选择“安全分类”的选项。识别规则可以多个子条件的“与”,“或”组合之后形成当前识别规则条件。2)血缘级联规则:血缘级联规则识别方向当前支持下游。3)机器学习规则:算法学习的目标有:1.对表进行分类,2.对字段进行分类(依赖已分类的表),3.对字段进行分类(不依赖已分类的表),4.信息项。选择算法学习的目标之后,需要选择对应的安全分类或者对应的信息项;可以进行评分阈值(对分类结果的分数),推荐结果(最终识别结果中推荐的结果条数)的填写。最后,由数据安全管理部门以及业务部门共同确认数据类别和级别划分的合理性、恰当性,并进行评审和发布,输出数据分类分级清单。四、应用场景应用场景1:基于数据分类分级驱动的数据资产安全管控。应用场景2:基于数据安全管理体系的数据自助式分析与数据岗权。

查看详情
日化行业数据治理实践

日化行业数据治理实践

发布时间:2024-05-17

一、项目背景在当今这个数据驱动的商业时代,所有追求卓越的企业均在积极探索如何有效利用数据资产,旨在提升运营效能、优化成本控制,并更精确地洞悉并满足市场所需。尤其对于置身于白热化市场竞争中的消费品制造业,数据管理的挑战更为显著。作为某一日化行业细分领域的领军者,B集团凭借并购策略实现了快速扩张,市场份额急剧攀升。集团推行了一种集中提供共享服务与各子公司分别负责特定品牌及区域营销的管理模式。但随之而来的是,各品牌间的历史遗留问题——包括不统一的信息系统、物料编码体系以及分散的销售渠道,加之往昔对信息化投入的不足,加剧了数据管理“赤字”的状况。面对经济增长的放缓与消费者偏好的动态变化,B集团遭遇的考验尤为严苛,其数据管理的短板不仅制约了决策速度,还推高了运营成本。意识到这一薄弱环节后,B集团果断选择与北京数语科技携手合作,借助后者在数据治理咨询领域的深厚底蕴与先进的数据治理体系,共同应对数据管理的困境。此番合作,标志着B集团向构建高效数据生态系统、实现智慧决策与精益运营迈出了关键一步。二、调研问题项目启动之初,数语科技即刻部署资深咨询顾问,对客户相关部门展开了全面调研,旨在彻底摸清数据现状,并系统性地整理出数据管理的典型难题。基于丰富的咨询实践,我们深知:在企业纷繁复杂的问题中,那些与企业战略紧密挂钩、直接影响战略目标达成的议题,应当置于解决序列的最前端,因其对企业总体投入产出比的提升尤为显著。鉴此,咨询团队入驻,即刻提议与IT部门高层开展深度对话。通过这次高端交流,我们明确了企业当前的战略焦点在于营销板块。由此,无论是从战略目标的细化落实考量,还是依据问题的紧迫性和影响力,都无一不指向营销领域的数据问题应被首要解决。明确优先级后,我们紧接着充分利用现有资料,以深化对问题现状的理解。第二阶段的工作重心落在了详尽审查IT部门先前汇总的业务用户反馈与需求上,特别关注与营销领域相关的、疑似源于数据管理不当、且影响重大、反复出现的问题,进行细致入微的探究。这一过程不仅帮助我们概览了企业的管理全貌,还揭示了企业的核心业务架构、主要业务板块、各领域间的协同机制,以及营销板块中与数据紧密互动的关键职位与用户等关键信息,进一步明确了哪些典型问题与哪些关键角色直接关联,这些问题如何牵涉到具体业务系统,以及它们对业务运行的具体影响。进入第三阶段,我们的调研聚焦于营销这一核心业务领域的关键岗位用户,如一线业务经理、导购、门店负责人及区域经理等。过往众多项目的成功经验提示我们,针对同一问题,不同用户的反馈可能存在巨大差异。在排除回答者的岗位特性、个人习惯及经验因素后,这种分歧往往暴露了沟通不足与业务流程标准化缺失的问题。面对相互矛盾的答案,我们视之为探查问题根源的宝贵线索,唯有深入分析,方能触及并解决那些隐藏深处的症结。历经三个多月的深入调研,通过对关键岗位用户的多轮访谈与广泛资料搜集,我们发现了一系列在核心业务领域极具代表性的挑战。调研完毕后,我们按二级业务领域对调研成果进行了分类整合。1、经销商管理领域:鉴于B集团多元化的品牌架构和相对宽松的销售网络,经销商管理呈现出一定的混乱状态。具体表现在,多数经销商依赖手动输入来维护库存数据,且经销商及其对应业务员的状态更新滞后,导致系统内的经销商库存、状态等信息失真,严重影响了基于系统数据进行的销售预测准确性,进而波及供应链的排程与生产计划的科学性。2、门店运营领域:尽管门店直接受公司管辖,但数据管理同样暴露出问题。部分门店随品牌并购加入,而并购后的系统并未适应多品牌交叉销售的需求,显示信息与实际情况不符,即某些门店被限定为单一品牌销售点,实则跨品牌经营。此外,新设门店信息未能及时录入系统,致使实际门店布局与销售业绩难以通过系统获得即时准确的评估。3、会员管理方面:面临多品牌企业普遍存在的难题。早年会员体系各自为政,未考虑到用户跨品牌会员身份的现实,这阻碍了针对多品牌忠诚客户的有效促销策略制定。4、营销活动记录缺失:营销活动的线上跟踪记录极度匮乏,无法在系统层面上形成闭合回路,活动效果评估无从谈起。5、产品管理问题:最为严峻。因不同品牌由相对独立的团队运作,产品属性设计趋向局部优化,忽略了全公司层面的产品属性标准化,例如,产品适用年龄段的定义在不同品牌间不统一,阻碍了跨产品分析时以年龄段为维度的数据整合,诸如此类的产品属性问题层出不穷,极大降低了产品数据的分析价值。综上所述,企业在数据质量、完整性及可用性等方面面临显著挑战,数据更多扮演着业务执行记录的角色,却未能充分发挥其在成本控制与效率提升上的指导作用,尤其是在利润空间压缩的当下,企业精细化管理的需求愈发迫切。三、提出方案尽管解决上述问题看似无需顶尖技术介入,但考虑到企业庞大复杂的信息化架构——横跨几十个系统、涉及数十万库表字段,这些已知问题仅是冰山一角。根据众多项目案例,隐匿于表面之下的问题数量可能是显性问题的数百倍,它们难以言喻且难以察觉,其根源大多在于长期缺乏系统性的数据管理和全局数据治理体系的缺失。在此背景下,期待短期内通过一两个项目彻底根治问题是不切实际的幻想。更明智的做法是,先启动一个试点项目,为客户构建一个短期能缓解显见问题、并能随后续项目迭代完善的管理体系。通过试点示范验证方案的有效性,为后续的逐步推广和持续优化奠定坚实基础。众多数据管理先进的企业已成功克服相似挑战,他们的实践经验经过市场检验,极具参考价值。近年来,《华为数据之道》倡导的以业务对象为中心的数据架构方法,以及中国信息通信研究院发布的《数据资产管理实践白皮书》中提及的数据标准化路径,尤为值得传统企业借鉴。数语科技咨询团队,基于丰富的实战经验,融合业务对象与数据标准的精髓,针对本次项目前期调研的发现,为该企业量身定制了一套自下而上推进的数据资产管理策略。策略从具体部门岗位遇到的核心问题出发,提炼总结成企业管理的通用经验和方法论,逐步赢得上级部门乃至集团总部的认可,最终推广至其他业务板块。这一过程始于关键业务对象的识别与细化,包括其数据项、属性归属及质量规范的梳理。具体实施步骤包括:1、数据资产盘点:针对之前识别的业务领域痛点,通过剖析业务流程、活动及表单,锁定关键业务对象及其数据项,并明确每一数据项的业务、技术与管理属性,从而编制企业核心数据资产清单及目录。2、数据标准化:在识别的数据项基础上,制定数据标准,涵盖业务规则、权责界定、管理规范及统一业务术语等。为加速成效,经与客户协商,本阶段项目重点针对产品、组织、财务科目三大业务对象的数据项实施标准化工作。3、数据质量改善:鉴于访谈反映出的数据质量问题,标准化后,我们将依据质量准则开发数据清洗方案,并在可能的情况下改进数据源系统,促进数据标准在各应用、品牌间的互联互通。经过深入探讨与论证,上述方案相比传统自上而下的全面铺开模式,更具实施可行性,也更契合该企业注重实效、求真务实的管理文化。四、落实方案尽管整体方案构想得十分美好,但要将其转化为现实则需完成大量细致而繁复的任务,其中,制定数据项的数据标准尤为充满挑战。鉴于每家企业的独特性,关键数据标准的确立需经由业务、IT及管理层等多方面的充分沟通与讨论。过程中,不同业务用户对同一条数据标准的理解偏差亦是常态。虽然部分标准可参照行业惯例或企业历史实践,但大多数标准的科学性、合理性及其适应性仍需所有利益相关方共同探讨。B集团作为一家历经多次并购且管理架构相对宽松的企业,旗下各品牌团队往往沿用各自的惯常标准,忽略了与其他品牌团队标准的兼容性问题。长此以往,标准不一导致的弊病将深刻影响企业的日常运营。项目初始阶段的多次高层会议揭示了迅速解决数据标准一致性问题的迫切性。在理论层面,梳理数据项与确立数据标准的最佳途径是始于业务流程的分析,通过流程辨识业务实体及其对应的数据项。项目初期,咨询团队尝试从现有的流程文档入手,借助客户方产品经理的实操展示与讲解来明确业务实体与业务活动。然而,实践发现,B集团在前期并未系统梳理业务流程,现有流程资料零星散乱。尽管偶有找到产品操作手册和培训资料,但因系统频繁迭代,这些文档与实际操作之间存在较大出入,连产品经理也无法详尽阐述其负责产品的每一项功能细节。鉴于此,项目团队转而采取更为深入的业务用户访谈策略,力图重构完整的端到端业务流程。遗憾的是,营销领域的业务活动极为复杂,业务用户难以抽出足够时间参与访谈,导致项目推进一度陷入停滞。项目团队在意识到预设的理想方案并不贴合客户实际情况后,与客户深入沟通并探讨了更为灵活的解决方案路径。鉴于全面捕捉业务活动全貌的难度,我们调整策略,从具体而迫切的数据问题切入。在初步调研阶段,已积累了大量的典型问题案例。我们据此逆向追溯,将问题描述与相应应用系统的数据录入界面相匹配,比如,针对“物料规格”这一典型的数据管理难题,项目组协调产品经理定位到涉及物料规格录入与查看的具体界面,并进一步确认哪些业务用户与之交互频繁,随后通过访谈深入了解他们在日常操作中如何填写及应用这一字段的细节。后续的调研揭示了一个有趣的发现:在液体产品类别中,“物料规格”字段填写存在不一致性,有的品牌团队使用“罐”,而另一些则采用“瓶”。由于系统界面未明确规范填写规则,不同业务人员依据个人理解和习惯填写,从个体角度看并无不当,但在后续数据分析阶段,系统难以自动识别“罐”和“瓶”为同一规格,造成数据处理困扰。项目团队随即提出将“物料规格”的标准化作为首要建议,供客户方业务负责人审议。经甲方更广泛地调研与分析,决定对在售商品的物料规格进行全面梳理,最终归纳为几类统一的数据标准,例如在液态类中统一采纳“瓶”作为表述,并采用“单品净含量*每件单品数(单位)/件”作为标准化计量单位。经过一系列周密的调研、沟通与讨论,项目团队在诸如产品简称、事业部划分、包装类型、标准容量等领域确定了一系列具体的数据标准,有效提升了数据的一致性和分析的准确性。专业的咨询顾问往往倾向于运用Excel来规划和设计数据资产及相应的数据标准框架,然而,这种方法既不能有效解决现有IT系统中数据与数据标准不符的现状,也无法有效预防未来新增或修改数据时再度偏离标准的潜在风险。一套完整的数据治理体系不仅要求在咨询层面洞察问题、设计解决方案,还必须依托强大的平台工具来确保数据标准的切实落地。这既包括依据数据标准设定的质量准则对现有数据进行净化处理,也涉及优化上游业务系统,以从根本上防止不符合数据标准的数据产生。鉴于此,客户选择了数语数据治理平台(DAM)作为国内领先的工具,用于数据治理实践,并采纳数语科技的专业服务来检测数据质量。面对相似挑战的客户常规做法是,由实施顾问协同业务人员、产品经理及IT团队共同确认每个字段的清洗需求与可行性,从而划定清洗范围。随后,借助DAM平台配置质量核查规则,识别数据问题,并输出具体的清洗策略。然而,在着手数据清洗任务时,项目团队面临了新难题。在与业务、产品和技术团队共同界定清洗范围时,发现大部分字段的清洗操作可能会干扰系统的正常运行和业务流程,且系统中充斥着大量已失效的产品数据。经过一轮与业务和产品团队的确认,尽管提出了120个字段的清洗方案,但IT部门审核后仅9个字段适宜清洗,且涉及的有效产品数据有限,项目进程再度受阻。为突破这一困境,项目团队与客户携手探索创新策略。他们决定将最终确认的清洗范围及对应产品数据导出,依据数据标准手动筛查问题,明确标注每条数据清洗后的正确形态,并获得业务人员的书面认可。这一过程还意外揭示了数据标准初定时的部分不合理之处或对实际业务场景的忽略,促使团队进一步修订和完善数据标准清单,为数据治理工作的深化奠定了坚实基础。五、成效总结从支撑业务目标的视角审视,数据治理的核心旨在通过增强数据的价值来促进生产效率和产品合格率的提升,同时降低成本,并为营销活动提供强大动力。为达成这些宏伟目标,企业必须投身于一系列精心策划的数据治理实践,涵盖数据质量审计、数据标准化作业以及数据集成等多个维度。面对数据治理不足的现状,企业往往会遭遇一系列相似的困扰:生产效率与产品质量双双下滑,营销活动的表现不尽人意,既定的营收目标难以企及,还间接削弱了顾客满意度。这些问题直观反映在诸如产品合格率的滑坡、材料浪费率的上升、以及营销活动转化效率的下降等关键绩效指标上。改善这些指标,无疑是业务与信息技术(IT)部门携手合作的成果。业务侧通过优化流程,确保生产交付高效、生产效率与成本管理得宜、以及在营销活动中有效吸纳新客户等;而IT侧,则依托办公自动化系统、客户关系管理系统、以及仓储管理系统等关键业务系统,为业务活动的实施提供技术支持。在此框架下,各类业务操作生成的数据作为宝贵的业务数据项,如产品合格计数、材料损耗量、新客户获取量、活动参与及实际购买人数、产品线详情与规格参数等,均需被妥善管理。一个高效的数据治理体系能够有力保障这些业务系统内数据的准确性和可用性,为IT系统高效驾驭业务数据提供强有力的支持,从而为企业整体效能的飞跃奠定坚实的基础。经过数月的深入合作与努力,B集团在数据治理领域的实践取得了显著成效。一方面帮客户发现并解决了很多明显的数据问题,另一方面通过项目过程,帮甲方认识到数据治理对企业的价值。不仅在具体问题上取得了突破,更在企业层面上树立了数据治理的重要性与价值认知。客户逐渐认识到数据治理不仅仅是IT部门的工作,而是需要业务、IT、管理等各方共同参与,才能为企业实现其业务目标,并通过具体的业务场景来体现其价值。以下是数据治理实践的成效概览:1、问题识别与解决:通过细致的调研与分析,项目团队成功识别并解决了营销领域中经销商管理、仓库数据准确性、会员系统整合、经销活动记录缺失及产品属性标准化等一系列关键问题。这些问题的解决直接提高了数据的准确性和可用性,为决策提供了坚实的基础。2、数据标准化与质量提升:通过梳理数据资产、制定数据标准,特别是针对产品、门店、经销商等核心业务对象的数据标准化,显著提升了数据的一致性和可比性。实施数据清洗,尽管初期面临挑战,但通过创新策略,如数据导出人工校验,有效推进了数据质量的提升,并逐步在业务系统中落实数据标准,为后续数据的准确输入和高效利用打下了基础。3、业务与IT协同:项目过程中,强化了业务与IT部门之间的沟通与合作,共同参与到数据治理的各个环节中。这种跨部门合作模式促进了业务流程与数据管理的深度融合,使数据治理不再是IT部门的单一任务,而是成为了全公司的共同责任,提升了整体效率和响应速度。4、管理与文化变革:数据治理项目的实施,推动了B集团内部管理文化的转变,从领导层到基层员工,都开始意识到数据质量与标准化的重要性,形成了数据驱动决策的意识。通过项目实践,集团上下对于数据治理的价值有了深刻的认识,为后续的数据驱动转型奠定了良好的文化基础。5、技术平台的应用:数语数据治理平台(DAM)的引入,不仅为数据质量检查和标准化提供了强大的技术支持,还为持续的数据治理提供了自动化工具,减少了人为错误,提高了工作效率。平台的实施与优化,为B集团构建了一个可持续的数据治理框架。6、业务绩效提升:随着数据质量的提升和数据标准化的推进,B集团在生产效率、成本控制、营销活动效果等方面均有所改善。例如,基于准确的经销商库存数据,企业能够做出更精准的销售预测,优化供应链管理;通过整合多品牌会员数据,实现了更有针对性的促销策略,增强了客户满意度与忠诚度。7、未来扩展与持续优化:项目试点的成功为B集团提供了宝贵的经验,为数据治理的持续迭代和全面推广铺平了道路。企业已具备进一步深化数据治理工作的能力,有望在更多业务领域复制成功经验,持续提升数据资产的价值,为企业的长期发展和市场竞争优势提供坚实的数据支撑。B集团的数据治理实践不仅解决了当前紧迫的数据问题,更重要的是,它开启了一条通往数据驱动型组织的道路,为企业的数字化转型和可持续增长奠定了坚实的基础。

查看详情
既不懂业务,又卷不动业务部门,我该怎么干数据治理

既不懂业务,又卷不动业务部门,我该怎么干数据治理

发布时间:2024-05-11

数据资产盘点是典型的知识密集型工作。以元数据补全为例:业务元数据(Business Metadata)通常描述了数据的业务含义、数据如何被使用、数据的所有者以及数据的业务规则等。在数据仓库、数据湖或任何企业级数据平台中,业务元数据对于数据消费者(如业务分析师、报告制作者、数据科学家等)至关重要,因为它帮助他们理解数据的上下文和用途。以下是一些业务元数据补全的示例:示例 1: 数据字段的业务描述假设你有一个名为“sales_order”的数据表,其中一个字段名为“order_amount”。原始的元数据可能只包含字段名和数据类型。业务元数据补全可以包括:· 业务描述:订单的总金额(包括商品、税和折扣)· 数据单位:美元(USD)· 数据来源:销售系统的订单详情页面· 数据所有者:销售部示例 2: 业务规则对于上述的“销售订单”数据表,可能有一些业务规则需要记录为业务元数据:· 验证规则:order_amount 必须大于 0。· 业务逻辑:如果订单是促销订单,order_amount 可能包含额外的折扣。· 数据质量检查:每天检查 order_amount 是否与财务系统中的总销售额相匹配。示例 3: 数据使用案例为了向数据消费者展示数据的重要性,可以记录一些数据使用案例作为业务元数据:· 报告:销售部门使用 order_amount 字段生成月度销售报告。· 分析:市场部门使用 order_amount 来分析不同产品类别的销售趋势。· 决策支持:管理层使用 order_amount 来评估公司的整体业绩并做出战略决策。示例 4: 数据流图数据流图(Data Flow Diagram)可以作为业务元数据的一部分,展示数据如何在不同系统、应用和部门之间流动。例如,可以记录:· “销售订单”数据从销售系统流向数据仓库,然后用于报告和分析。· 如果存在任何数据转换或清洗过程,也应记录在这些图中。通过补全这些业务元数据,组织可以确保数据的准确性和一致性,提高数据治理水平,并促进跨部门和跨系统的数据协作。数据资产盘点需要了解不同业务域的知识。通常企业各业务部门的业务骨干才能了解这些业务知识,或者卷业务部门的IT供应商也能解决大部分问题。天下没有免费的午餐。业务部门是利润部门,更强势。业务骨干是业务部门的关键资源,没有大领导的指示,是很难调的动这些资源。调动业务部门的IT供应商也是需要付出成本的。甚至有些IT供应商不开放自己系统的数据字典给到客户。因此,数据治理的从业者需要一个Co-pilot平台,赋能数据治理知识工作者开展数据治理工作。数据治理开展前期先做准备工作,之后由业务评审、确认,这样工作就好开展很多。Datablau AI 小数应运而生,小数拥有海量的行业知识,广泛涉及金融(银行、保险、证券、基金)、制造等各种行业术语。这一庞大的知识体系不仅包括行业规范、制度、体系、指引、案例等,同时还集成了数据模型、标准、指标、数据字典等治理相关的行业数据。通过AI 小数的计算能力可以有效的赋能元数据补全、数据质量规则构建,数据建模、智能数据安全分类分级、智能数据资产对标等数据治理相关工作。如下图所示,问询证券行业的主数据如下图所示,问询DAM平台如何采集元数据Datablau AI小数如何试用?方式1:当前Datablau AI 小数免费开放试用,在浏览器打开https://ai.datablau.cn/无需登录注册。方式2:打开Datablau公众号,在菜单栏中找“文档资料”,选择“AI智能小数”即可试用。

查看详情
数据分类分级概念、方法、标准及应用

数据分类分级概念、方法、标准及应用

发布时间:2024-04-29

数据已与土地、劳动力、资本、技术并列为先进生产力五大要素,是国家重要的基础性、战略性资源。如何开放数据共享、提升数据价值的同时保障数据生命周期安全与合规,是企业需要解决的重要问题。而对数据进行数据分类分级安全管理,是数据安全保护的重要措施之一。1.数据分类分级概念及挑战根据《GB/T 38667-2020 信息技术-大数据-数据分类指南》的定义,数据分类是根据数据的属性或特征,按照一定的原则和方法进行区分和归类,以便更好地管理和使用数据。数据分类不存在唯一的分类方式,会依据企业的管理目标、保护措施、分类维度等形成多种不同的分类体系。数据分类是数据资产管理的第一步。不论是对数据资产进行编目、标准化,还是数据的确权、管理,或是提供数据资产服务,进行有效的数据分类都是其首要任务。数据分类更多是从业务角度或数据管理的方向考量的,包括行业维度、业务领域维度、数据来源维度、共享维度、数据开放维度等。同时,根据这些维度,将具有相同属性或特征的数据,按照一定的原则和方法进行归类。数据分级则是按数据的重要性和影响程度区分等级,确保数据得到与其重要性和影响程度相适应的级别保护。影响对象一般是三类对象,分别是国家安全和社会公共利益、企业利益(包括业务影响、财务影响、声誉影响)、用户利益(用户财产、声誉、生活状态、生理和心理影响)。企业建议选取影响程度中的最高影响等级为该数据对象的重要敏感程度。同时,数据定级可根据数据的变化进行升级或降级,例如包括数据内容发生变化、数据汇聚融合、国家或行业主管要求等情况引起的数据升降级。数据分级本质上就是数据敏感维度的数据分类。任何时候,数据的定级都离不开数据的分类。因此,在数据安全治理或数据资产管理领域都是将数据的分类和分级放在一起,统称为数据分类分级。目前分类分解存在的挑战有:1. 复杂业务的分类分级标准与规则不好定义,行业标准对落地细则的指导不足。2. 数据分类分级之后缺乏对应的有效管理和使用策略,让数据分类分级流于形式。3. 部分业务数据不具备明显数据特证,通过规则自动识别准确率不高。特别是针对非结构化数据的分类分级识别困难较大。2.国内已发布的数据分类分级相关标准在开展分类分级工作时参考最多的标准有如下:其他标准参考如各类地准、国标、行标:3.企业数据分类分级实现行业发布的数据分类分级标准可以为企业实施提供参考,但企业真正着手建立企业内部数据分类分级规范并不能完全照搬行业标准,行业标准的内容一般较为宏观,分类的颗粒度相对较粗,可能不能完全覆盖企业的主要数据类型。这就需要企业结合自身业务场景及行业实践来建立适合本业务特性的分类分级标准。3.1 数据分类分级实施路径在实际落地过程中,通常会把数据分类分级的实施路径总结成为五步:第一步,咨询调研分析。基于行业相关的监管政策和标准规范,对业务系统、数据资产现状和数据安全现状等进行全面调研分析,从而对企业业务、数据及安全现状做到“心中有数”。第二步,数据资产梳理。自动化识别数据资产,对数据资产进行梳理打标,构建好数据资产目录和数据资产清单,为企业数据分类分级打好基础。第三步,数据分类方案。基于数据资产清单进行数据分类体系设计,完成数据分类打标实施。打标实施完之后,再进行分类分级规则调优,提升自动化分类的比例和准确率。第四步,数据分级方案。先进行数据分级体系设计,接下来进行数据分级的规则调优,尽量提升自动化分级的覆盖率和准确率,降低人工成本,然后是数据等级变更维护机制和工具平台设置。第五步,数据分类分级全景图。构建数据分类分级清单,实现数据分类分级可视化。同时产出一些数据分类分级运营机制,为数据安全分级保护打好基础,做好准备。3.2 数据分类数据分类是指根据数据的属性或特征,按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用数据的过程。基于不同的数据属性或特征,对数据采用不同的分类视角,例如有数据管理视角、数据应用视角和国家行业组织视角。从数据分类视角出发,结合数据分类方法对数据进行分类,把数据分类的方法分成三种,线分类法、面分类法和混合分类法。线分类法旨在将分类对象按选定的若干个属性或特征,逐次分为若干层级,每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。面分类法是将所选定的分类对象依据其本身的固有的各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。面分类法是并行化分类方式,同一层级可有多个分类维度。混合分类法是将线分类法和面分类法组合使用,克服这两种基本方法的不足,得到更为合理的分类。混合分类法的特点是以其中一种分类方法为主,另一种做补充。适用于以一个分类维度划分大类、另一个分类维度划分小类的场景。分类的维度可以有很多,包括数据的来源、内容和用途等,有时候可能是多维度的结合,例如,从个人信息的维度,将数据分为个人信息和非个人信息;从业务维度,分为财务数据、业务数据、经营数据等。数据分类示例:3.3 数据分级数据的分级一般是依据数据重要性和敏感度高低来划分的。《中华人民共和国数据安全法》要求,根据数据一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,将数据从低到高分成一般数据、重要数据、核心数据共三个级别,这是从国家数据安全角度给出的数据分级基本框架。企业比较常用的分级规则是将一般数据的敏感/重要程度从低到高分为公开(1级)、秘密(2级)、机密(3级)、绝密(4级)四个级别,如下示例:工业和电信领域企业,如涉及国家核心数据和重要数据的分类分级可参考《工业和信息化领域数据安全管理办法(试行)》中第七条至第十条要求。以金融行业数据分级为例,金融行业数据等级一般分为五级:五级数据指对国家安全造成影响,或对公众权益造成严重影响数据。四级数据指对公众权益造成一般影响,或对个人隐私或企业合法权益造成严重影响,但不影响国家安全数据。例如个人健康生理信息、个人身份鉴别信息等。三级数据指对公众权益造成轻微影响,或对个人隐私或企业合法权益造成一般影响,但不影响国家安全数据。例如比较常见的个人信息,姓名、身份证,联系方式等。二级数据指对个人隐私或企业合法权益造成轻微影响,但不影响国家安全、公众权益数据。一级数据指对个人隐私或企业合法权益不造成影响,或仅造成微弱影响,但不影响国家安全、公众权益数据。数据分类类别,包括但不限于研发数据、生产运行数据、管理数据、运维数据、业务服务数据、个人信息等。数据分级级别,按照国家有关规定,根据数据遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益等造成的危害程度,将数据分为一般数据、重要数据和核心数据三级。分级原则如下:合法合规原则:分级应遵循有关法律法规及部门规定要求,优先对国家或行业有专门管理要求的数据进行识别和管理,满足相应的数据安全管理要求。就高从严原则:数据分级时采用就高不就低的原则进行定级,例如数据集包含多个级别的数据项,按照数据项的最高级别对数据集进行定级。动态调整原则:数据的级别可能因为多个低敏感的数据聚合提高数据级别,也可能因为脱敏或者过期等原因降低数据级别。完成数据资产的识别与分类分级定义后,需要制定并发布企业的《数据安全分类分级标准》及配套的安全要求,以在企业内统一规则及实施流程。安全标准重点是需要针对不同安全级别的数据采取差异化的安全策略,对高敏(机密、绝密级)数据进行重点管理,而公开和秘密级别的安全措施要适度。特殊业务场景下,可以通过对高敏数据进行脱敏、加密以及采用隐私计算等措施来降低数据管级,提高数据的内部流转,实现数据价值。3.4 分类分级在业务中的应用分类分级标准制定只是企业数据分类分级安全管理工作的起点。真正要落实数据分类分级安全要求,需要建立配套的实施流程与工具。确保在不同的业务场景中能够识别并标识出数据的分类与分级,并实施对应的安全措施,例如:在权限申请和数据分享的场景,不同级别的数据采用分级安全控制策略与审批流程;在安全事件处理场景,不同级别的数据的事件定级及响应处理流程有差异等等。图1 数据分类分级应用实践案例如上图数据处理全流程涉及的数据安全管控技术示例如下:1. 数据源验证、合规评估、个人信息采集告知同意2. 数据源验证、访问控制、传输加密、个人敏感信息内容加密3. 数据使用审计、权限控制、数据脱敏、安全计算4. 联邦学习、访问控制、数据访问审计5. 访问控制、数据脱敏、特权管理6. 数据脱敏、外发安全审计、API管控7. 服务端数据存储加密、数据库访问控制、安全审计、分类分级8. 敏感数据识别、数据分类分级9. API安全监测、访问控制、安全审计10. 数据脱敏、安全审计11. WEB数据展示/下载管控/审计/脱敏12. 动态脱敏、特权管理、安全审计、运维审计13. 安全评估、保密协议、数据脱敏、加密传输14. 数据分类分级、文件加密、数据防泄漏、远程办公安全4.敏感数据的分类分级识别与打标敏感数据的分类分级识别,不同企业做法有所不同。规模比较小的企业通过人工盘点的方式也能将基本数据识别完整。但大企业的数据量级很大,而且总是随着业务的变化持续在变,敏感数据的分类分级识别如果仅使用人工盘点的方式,目标不易实现。建立一套自动化数据识别与打标的能力显得尤为重要。图表 2 数据分类分级打标及应用流程4.1 建立敏感数据规则库敏感数据规则库的建立是自动化识别的基础能力,规则库采用的技术包括关键字、正则表达式、基于文件属性识别、基于元数据信息的自定义识别、机器学习等。例如:银行卡号、证件号、手机号,有明确的规则,可以根据正则表达式和算法匹配。姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进行匹配。营业执照、地址、图片等,没有明确规则,可以通过自然语言算法来识别,使用开源算法库。4.2 数据扫描、识别与密级打标通过对结构化/半结构化/非结构化数据扫描,自动发现敏感数据的类别、级别等属性信息及存储位置,形成数据资产图。自动化识别并打标的数据,按需进行人工的复核,以确定数据的密级。密级需要支持人工修改,通过流程控制密级的变更。更重要的是,数据的密级标签要同步到元数据、数据产品等,实现对密级的应用。当然,数据分类分级只是数据安全工作中基础的环节,真正要做好数据安全管理,需要建立相对完整的安全管理与技术体系,才能有效落实数据的分类分级策略,保障数据的安全与合规。5.数据分类分级保障措施及相关建议数据分类分级是数据安全治理和数据管理的主要措施,是数据的安全合规使用的基础。数据分类分级不仅能够确保具有较低信任级别的用户无法访问敏感数据以保护重要的数据资产,也能够避免对不重要的数据采取不必要的安全措施。人、安全体系、技术这三方面是数据安全治理三个方面:数据安全治理蓝图数据分类分级建设思路5.1 数据分类分级保障条件-组织架构数据分类分级工作的开展应具备组织保障,设立并明确有关部门(或组织)及其职责。决策层:决策层负责制定企业数据战略、审批或授权,全面协调、指导和推进企业的数据分类分级工作。数据分类分级工作的领导组织及其负责人,主要负责数据分类分级相关审批、决策等工作;管理层:决策层主要负责建立企业数据分类分级的完整体系,制定实施计划,统筹资源配置、建立数据分类分级常态化控制机制,组织评估数据分类分级工作的有效性和执行情况,制定并实施问责和激励机制。数据分类分级工作的管理部门(或组织)及其负责人,主要负责数据分类分级相关工作的组织、协调、管理、审核、评审等工作;执行层:执行层在管理层的统筹安排下,根据数据分类分级相关制度规范的要求,具体执行各项工作。负责数据分类分级体系建设和运行机制,根据数据分类分级各职能域的管理要求承担具体工作。信息科技部门及其负责人,主要负责落实数据分类分级有关要求,并主导数据分类分级实施工作。各业务部门是数据分类分级执行工作的责任主体,负责本业务领域的数据分类分级执行工作,管控业务数据源。确保数据被准确记录和及时维护,落实数据分类分级管控机制,执行监管数据相关工作。各业务部门及其负责人负责落实数据分类分级有关要求,并协同开展数据分类分级实施工作。5.2 数据分类分级保障条件-制度规范1)数据分类分级工作的开展应具备制度保障,企业应建立数据分类分级工作的相关制度,明确并落实相关工作要求,包括但不限于:2)数据分类分级的目标和原则;3)数据分类分级工作涉及的角色、部门及相关职责;4)数据分类分级的方法和具体要求;5)数据分类分级的日常管理流程和操作规程,以及分类分级结果的确定、评审、批准、发布和变更机制;6)数据分类分级管理相关绩效考评和评价机制;7)数据分类分级结果的发布、备案和管理的相关规定。5.3 相关建议1)站在集团层面做数据分类及下属企业两个层面;2)不求大而全,实用为主。主数据、指标数据分类做实;3)能在不同企业推广。物料、设备、指标框架等;4)满足一个集团在不同层级人员的共享需求;5)尽量多一些有影响力的成员单位加入团标。(本文内容来源数据安全推进计划、极盾科技、数据工匠俱乐部等,数据学堂整理编辑)

查看详情
20图学懂从0到1搭建企业级数据治理体系

20图学懂从0到1搭建企业级数据治理体系

发布时间:2024-04-24

如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。下面笔者结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。如有遗漏之处,欢迎评论区探讨。一、数据治理到底是在做什么?数据治理的核心工作:在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。整个过程,如图所示。我们先做一些类似数据同步的工作将数据放入到大数据系统中数据进来后需要管理和存储,即参考建模理论和实际场景建设数仓经过主题规划、维度确定、标签计算输出等步骤处理数据输出到报表、应用端使用整体流程数据治理体系将全程监管。要确认进出系统的数据质量怎么样?是否可转化数据资产?数据血缘是否可追溯、数据安全等问题。二、为什么要做数据治理有一些企业对这个问题的概念很模糊,认为目前的数据规模很小,人为可控,暂时不需要做数据治理。但是在实际使用中还是会遇到很多问题:数据监管力度不够,出现脏数据数据体系逐渐规模变大,管理混乱数据的血缘丢失,无法回溯旧、老的数据无论企业的数据规模如何,笔者认为还是提起做好数据治理的规划。考虑到成本的问题,可以分阶段进行。有剑在手不用和无剑可用是两回事。提前做好数据治理规划,会节省后续的改造成本,避免过程冗余重构或者推倒重来等情况的发生。数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。三、数据治理体系企业数据治理体系包括数据质量管理、元数据管理、主数据管理、数据资产管理、数据安全及数据标准等内容。1)数据质量一般采用业内常用的标准来衡量数据质量的好坏:完整性、准确性、一致性和及时性。完整性:数据的记录和信息是否完整,是否存在缺失情况准确性:数据汇总记录的信息和数据是否准确,是否存在异常或者错误一致性:多个业务数仓间的公共数据,必须在各个数据仓库中保持一致及时性:数据能及时产出和预警2)元数据管理元数据是关于数据的组织、数据域及其关系的信息,通俗理解,元数据就是描述数据的数据。元数据包含技术元数据、操作元数据和业务元数据。可以帮助数据分析人员清楚了解企业拥有什么数据,它们存储在哪里,如何抽取、清理、维护z这类数据,也即数据血缘。帮助构建业务知识体系,确立数据业务含义可解释性提升数据整合和溯源能力,血缘关系可维护建立数据质量稽核体系,分类管理监控3)主数据管理企业主数据指企业内一致并共享的业务主体,大白话理解就是各专业公司和业务系统间共享的数据。常见的主数据比如公司的员工、客户数据、机构信息、供应商信息等。这些数据具有权威性和全局性,可归约至公司的企业资产。一般主数据管理需要遵循如下几点:管理和监管各组织机构、子公司、部门对主数据的访问,制定访问规范和管理原则定期进行主数据评估,判断既定目标的完善程度组织相关人员和机构,统一完善主数据建设提供技术和业务流程支持,全集团集中统筹4)数据资产管理一般企业在数字化转型时都会考虑数据资产梳理。你的数据有没有被合理利用?如何产生最大价值?这是数据资产管理关心的核心工作。在构建企业资产时一般会考虑不同角度,即业务角度和技术角度,最后进行合并,输出统一的数据资产分析,并向外提供统一的数据资产查询服务。如何盘活数据,形成数据资产,提供完整的数据资产全景视图,可方便运营者全局、宏观地掌控企业资产动态。5)数据安全数据安全是企业数据建设必不可少的一环,我们的数据都存储在大大小小的磁盘中,对外提供不同程度的查询和计算服务。需要定时对数据进行核查、敏感字段加密、访问权限控制,确保数据能够被安全地使用。6)数据标准企业需要在组织内定义一套关于数据的规范,保障所有人员对数据的理解一致。今天张三说这个客户号是办理银行卡的客户,明天李四又说是借贷过的客户。对比一看,两者的字段类型和长度一致,到底要采纳哪个意见呢?数据标准是保障数据的内外部使用和交换的一致性和准确性的规范性约束,通过统一规范,消除二义性。四、企业数据治理实施过程1、数据治理实施框架数据治理体系是为了规范业务数据规范、数据标准、数据质量和数据安全中的各类管理任务活动而建立的组织、流程与工具。通过一个常态化的数据治理组织,建立数据集中管理长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平。2、数据治理组织架构企业数据治理体系除了在技术方面的实施架构,还需要管理方面的组织架构支撑。一般在数据治理建设初期,集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。1)组织架构①决策层提供数据标准管理的决策职能,通俗理解即拍板定方案。②管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准事项,提交信息科技管理委员会审议③执行层业务部门:负责业务线数据标准的制定、修改、复审,推广落实数据标准等科技开发:承担治理平台、数据标准、数据质量等实施工作;系统设计和开发工作中遵循数据标准科技运营:负责技术标准的制定和技术推广2)管理层职责①项目经理确定项目目标、范围和计划制定项目里程碑管理跨项目协同②专家评审组评审项目方案,确定方案的合理性③PMO确保项目按计划执行管理项目重大风险执行跨项目协同、沟通组织项目关键评审④数据治理专项组执行各项目的落地实施和运营推广,推动执行层的实施数据治理技术落地和项目进展。3)执行层职责数据架构师、数据治理专家和业务专员形成数据治理"铁三角”,紧密协作,推进数据治理与数据架构落地。①业务专员业务专员作为业务部门数据治理的接口人,在标准、质量、应用等领域组织业务人员开展工作定义数据规则保障数据质量提出数据需求②数据治理专家数据治理专家作为数据治理组成员,负责设计数据架构,运营数据资产;牵头组织业务、IT达成数据治理目标。构建数据逻辑模型监控数据质量运营数据资产③数据架构师数据架构师作为IT开发部门的专家,承担数据标准落地、模型落地的重任,协助解决数据质量问题。数据标准落地逻辑模型落地物理模型落地3、数据治理平台在确定了技术实施方案和组织管理架构,下面需要进行数据治理体系的落地实施。在大型企业中一般会开发一个完整的数据治理平台,囊括所有数据治理功能,对外提供平台服务。1)核心功能数据治理平台作为数据治理的产品体系,旨在保障数据平台的数据是安全、可靠的、标准的、有价值的。数据资产管理:提供面向用户的场景化搜索,提供全景数据资产地图,方便快速查找资产和资产分析数据标准管理:统一定制数据标准,提高包括字段、码值、数据字典管理,保障业务数据和中台数据的统一标准数据质量监控:提供事前、事中、事后的数据质量体系,支持数据质量监控规则配置、告警管理等功能数据安全:提供数据安全脱敏、安全分级和监控数据建模中心:统一建模,提供业务系统建模和模型管理2)元数据管理元数据管理系统作为数据治理平台的前端展示门户,帮助实现对数据资产的快速检索能力,提高数据使用有效性和效率。通过建立完整且一致的元数据管理策略,提供集中、统一、规范的元数据信息访问、查询和调用功能。3)数据质量数据质量监控:支持所有用户进行数据质量监控规则配置规则阻断:配置数据质量监控阻断规则,数据质量出现差异可实时阻断下游作业运行,屏蔽错误结果链路扩散告警:数据质量出现预设偏差,及时发出预警通知及时修复4)数据标准支持定制统一的数据标准平台,包括字段标准管理,码值标准管理以及字典管理,业务源数据和中台数据统一标准。5)数据安全基于集团数据资产实现数据安全分级管理,自动识别安全信息;提供数据访问安全行为监测,及时识别访问风险。4、数据治理评估数据治理平台开发完成并运行,需要对整体数据治理体系的效果进行验证和评估。数据是否可以消除“脏、乱、差”的现象数据资产是否最大价值化所有数据的血缘是否完整可追溯1)数据资产通过构建数据资产管理体系,实现资产全覆盖,并支持全局搜索和精准定位目标资产。实现全局搜索,面向用户提供场景化检索服务支持标签、数据地图、表名和字段名等多种检索维度支持进行数据地图,源业务数据字典的结果筛选比如支持PV/UV用户搜索和资产展示,明确服务目标2)数据标准新旧数据标准沉淀,打通了数据建模工具、数据标准库和词根标准库,落地数据标准和词根。实现数据标准库100%拉通智能识别数据标准和引用客户端同步更新数据标准、词根3)数据安全保持事前制度建设、事中技术管控、事后监控审计的原则建立全流程数据安全管控体系。基于以上数据安全管控体系,支持数据安全定级,构建灵活的数据安全共享流程。4)数据质量通过数据质量雷达图,定期进行数据和任务质量打分,综合考察数据质量效果。数据完整性:查看数据项信息是否全面、完整无缺失告警响应程度:日常管理、应急响应、降低影响;避免数据损毁和丢失监控覆盖程度:确保数据遵循统一的数据标准和规范要求作业稳定性:监控作业稳定性,是否存在作业异常等问题作业时效性:检查任务对应的数据项信息获取是否满足预期要求五、数据治理的误区1、数据治理是否要做得大而全这是一个经典问题,一般对于不同阶段和规模的企业,数据治理的实施程度会有所不同。一般建议先根据自身的数据状况分阶段进行,避免盲目铺开规模,过程中可调整。2、数据治理只是技术考虑的事情正如文中所说,数据治理不仅仅是技术团队的事情,而是整个集团一起协作完成。其中就包括各业务线以及其他管理组织,没有一个好的实施方案和协作机制,往往事倍功半。3、数据治理可以短期见效数据治理是个长期过程,会跟随着企业数据的规模和数仓规划的变更同步调整,部分功能可能会在短期内卓有成效,完整体系搭建短期很难实现。4、必须得有工具平台,才能开展数据治理俗话说工欲善其事必先利其器,有好的工具当然是更好,前提是已经有了成熟的数据治理体系规划和策略。工具和技术手段目前市面上很成熟,先把理论给铺垫好。5、数据治理感觉很模糊?不知道最后的落地结果数据治理是一个长期工作,需要相关从业者根据企业的数据现状和管理模式去构建和调整,建议边做实践边总结归纳,小步慢跑是一个很好的方式。注:本文转自“大鱼的数据人生”,侵删,如需转载请联系原作者!

查看详情
共 3 页 22 条数据