数据新时代:如何选择现代数据治理平台(上)
谈现代数据治理系统的十大架构特征最近一位老友找到我,咨询他的数据治理平台到底该不该换,背景是这样的:若干年前采购了一个市场主流的数据治理平台,功能大概就是数据治理三件套——标准、元数据和质量等经典数据治理的功能。现在企业要信创,该平台无法支持上云、新数据库等诉求,原厂也不再提供升级支持。这位朋友考虑到动迁成本以及多年累积的付出,犹豫是否再缝缝补补凑合一阵子。这种情况在市面上还是比较普遍的,经常有某客户抛弃老平台,重新采购新系统的案例。(这点不得不说,相比于西方企业市场,我国企业的外购系统的生命周期明显偏短的,具体个中原因暂且不表)。如果您也是正在做类似平台的选型,除了关注功能,更要关注到基础架构层面,那才是工具长期可持续的保证。作为一家专业的数据治理产品提供商,在最近发布的Datablau产品7x版本的研发中,我们也一直在探索,如何让产品在企业运营中可持续发展,如何保护客户的投资,如何让产品在客制化和标准化之间平衡,并保持持续的升级能力。这里结合我们的实践,谈一谈现代数据治理平台,具备的十大架构特性,供您参考。基础架构特征(上)现代应用程序架构的特征反映了当前技术的发展趋势和业务需求的变化。随着云计算、容器化、微服务、人工智能等技术的普及,应用程序的架构也变得更加复杂、灵活、可扩展和高效。以下是现代数据治理平台架构的一些主要特征:1.微服务架构微服务架构(Microservices Architecture)是一种将应用程序分解为一组小的、独立的服务架构模式。每个服务都围绕一个特定的业务功能构建,能够独立部署、扩展、开发和维护。特征:· 高度的模块化,每个服务独立运行,且可以使用不同的技术栈。· 独立部署、扩展和更新。· 服务之间通过API通信。微服务是云化时代软件架构的基本特征,数据治理平台的早期版本功能是单一的,大多是个前后端一体的单体应用程序。随着企业数据量增加和数据管理活动的细化,已经演化为一个复杂的应用程序,它包含了多个数据治理功能域,如标准、元数据、质量、安全、资产等,与数据领域的生态系统,如数据开发、服务、BI、分析等都有了集成应用。所以现代数据治理系统已经是一个贯穿开发,投产,生产三个环节的,一个企业级的综合数据治理平台。微服务架构让这个平台更容易云化,实现高可用,生态集成,在大数据量下提高负载能力和稳定性。当然微服务的粒度是个架构哲学问题,把握应用与分工的平衡性非常重要。在Datablau平台中共有20个左右的微服务,涵盖了原子的业务模块和公共的服务模块和基础设施模块等。图1《Datablau平台微服务架构》2.API驱动架构开放API成为现代应用程序架构的核心。应用程序通过RESTful API、GraphQL或gRPC等接口进行服务交互和数据交换。这种架构使得系统能够与外部系统进行集成,并且提供灵活的通信方式。特征:· 标准化的接口,简化服务间的通信。· 支持跨平台访问和异构系统的集成。· API文档(如OpenAPI)成为接口规范的重要部分。正如在《Datablau平台微服务架构》所述,早期的应用系统用JSP这种前后一体程序构建,虽然开发调试成本低,但是带来了耦合性和封闭性的弊端,所以现代软件平台必须是API驱动的前后分离的。3.事件驱动架构(EDA)事件驱动架构基于事件的触发和响应进行工作。应用程序中的事件(如用户行为、系统变化等)会引发一系列的操作和流程。这种架构适用于高并发、异步处理和实时响应的场景。特征:· 异步处理和消息队列(如Kafka、RabbitMQ)用于事件的传播和处理。· 支持实时数据处理和流处理。· 提高系统的解耦性和可伸缩性。Datablau产品中主要通过Kafka建立多服务的信息同步通道,记录跨服务的日志和对象状态同步,保证多服务间的事务最终一致性。参考上图《Datablau平台微服务架构》。4.API网关和服务中心API网关:用于处理和管理客户端请求,负责路由、负载均衡、认证、日志等功能。API网关通常作为所有微服务的入口点。服务中心:服务中心是一个基础设施层,提供微服务之间的通信、监控、安全和管理功能,通常与容器化和Kubernetes集成。特征:· 简化客户端与后端微服务的通信。· 提供流量控制、负载均衡、故障恢复、认证授权等功能。· 支持微服务之间的可靠通信和可观测性。Datablau产品中主要通过Gateway建立API路由通道,管理微服务的入口点,进行多服务的系统集成和参数配置。参考上图《Datablau平台微服务架构》。5.用户体验(UE)现代应用程序对用户体验(UE,User Experience)的要求比以往任何时候都更为严格和复杂。随着互联网和移动应用的普及,过去工业化风格的UI已经无法被习惯好的UE体验的用户所容忍。作为一个数据管理应用,其用户也跨出了数据管理人员的范围,更多角色包括业务侧人员的加入,让好的UIUE已经成为衡量数据治理平台是否更容易推广的重要指标之一。专业的UIUE是一个专业的领域,主要的内容包括简单直观的界面,减少学习成本、功能流畅等,现代的数据治理平台在此基础上更加强调:智能化体验:随着人工智能和机器学习的普及,现代数据治理平台不仅仅是工具,还需要通过智能化功能提升用户体验和工作效率。例如:智能推荐、自动化建模等智能功能,可以大大提升用户的交互体验。互动性体验:主动元数据治理(Active Metadata Management)是近年来流行的数据治理方法,数据治理平台需要有主动驱动的功能支持,在数据设计与加工过程中,通过通知、互动、联动等智能化方式,达到第一时间进行数据治理的目的,事半功倍。图2《Datablau元数据平台界面》小结以上介绍了一个现代数据治理平台,应该具备的基础软件架构,它保证了应用程序的云化能力、开放性和易用性等核心的架构能力。那么作为数据领域的应用,还需要一些高级的架构特性,来应对大数据量,迭代迅速的数据工具生态、成本效益考量等核心问题。下篇文章继续分享《数据新时代:如何选择现代数据治理平台(下)》,详细介绍现代数据治理平台的高级架构特征。
查看详情从“数据民工”到“数据销售”:数据治理如何赢得业务心(二)
那么,数据人有了业务视角,是不是就意味着业务会一起参与数据治理工作?答案当然是否。数据人除了具备业务视角这个前提条件外,至少还要解决两个关键问题,才能真正让业务人员参与到数据治理活动中来:1、如何证明这套东西是能落地、可执行的?2、如何证明最终完成的成果对预期的业务目标有直接的正向影响?下面我们来重点分析上篇文章《从“数据民工”到“数据销售”:数据治理如何赢得业务心(一)》中留下的这两个问题。首先,如何保证数据治理能够落地?除了常规的管理体系落地所需要确认的四个维度(明确的管理目标和管理主客体、明确的数据管理范畴、完整的管理规范、流程及配套的技术平台和设计方法论、明确的绩效评估指标和指标优化路径指导),我这里额外补充了三个层面的内容:首先是认知层面,为了让业务部门认可数据团队,数据部门需要了解公司的主营业务模式、核心业务流程及业务痛点问题,尤其是需要理解特定的业务话术,让业务部门认可数据团队是“自己人”而非纯IT技术团队;同时,数据团队也要充分理解公司管理团队、业务团队、IT团队的诉求和能力现状,并能够结合行业案例和具体的实践过程对内分享,让公司上上下下明确数据治理具体的工作内容和实施路径,这就要求数据团队不仅要知道同行案例具体做了什么,更要知道为什么这么做及实施过程中的踩坑心得。其次是规划层面,数据团队需要在充分了解公司业务模式、业务问题现状的基础上,充分展示其结构化业务设计能力,例如业务能力、版图设计能力、业务流程设计和优化能力,重点是通过业务能力的优化设计提炼出共性的数据能力,使之不仅能服务于当下,更能成为企业的公共基础能力服务于后续更多的业务领域。这里尤其需要提醒的是,规划层面不仅要注重设计能力,也要注重分享宣贯能力,要让业务部门相信整个规划的合理性,就需要数据团队在深度调研一线业务团队、IT团队或管理层的基础上,展示整体规划的目标设计和路径设计是完全站在企业实际情况的基础之上,过程中可以针对性的引入行业最佳实践经验,通过阐述行业其他成功案例在实施目标、组织现状、管理思路等多方面的共性需求,引入行业案例中被实践证明过的、不同组织岗位在不同阶段需要完成的工作内容、输出的成果和准入准出标准,加速整个规划方案的细化过程。最后是执行层面,业务视角有一个很重要的点,就是希望任何结果都能够“看得见、摸得着”,因此,良好的样例设计,通常会成为影响治理实施成败的关键因素。结合我本人过往成功交付和参与的治理案例,一个好的样例设计通常具备这么几个特点:1、业务形态对数字依赖性越强越好,业务流程相对标准,规则简单,最终业务活动结果对数据依赖性高,这样方便在数据治理实施过程中尽可能减小业务知识的学习成本。2、样例实施尽量在一个组织部门内,跨部门协同不利于减少实施过程中的沟通成本,加速里程碑目标的达成并推动后续的持续优化,这也是为什么很多数据治理都先从数字化中心开始,其实就是方便资源协调,尤其是技术资源的协调,很多时候能否推动IT部门处理核心数据问题会是影响试点成败的关键因素之一。3、不建议数据治理工作一开始就参与过于复杂、并且需要快速上线交付业务使用的大型项目,避免数据治理成为进度延后的一个潜在因素,业务形态稳定,发版周期/质量水平相对成熟的项目更适合优先推行数据治理体系;推行时首先保证事前-事后治理流程的闭环(如标准贯标-质量监管建立),后续再讲优化。有了好的样例试点,就需要配套建设持续性的运维服务保障能力。实践中,服务运维能力建设可从以下几个方面开展:1、管理流程和技术平台持续优化,可以参考业务流程常见的优化方法,不断优化过程中那些学习成本高、超出实际业务目标的严格管理环节,实现管理规范性与实施难度之间的平衡;2、绩效指标和看板的设计优化,配合实现数据治理流程的优化设计,以及越来越多人对于数据治理工作和成果物不同的分析诉求;3、管理规范和管理流程的可配置化,以实际不同场景下数据治理流程和方法论的裁剪;4、建立良好的运营服务,尤其是数据团队对于业务反馈的,落地过程中的瓶颈性问题,需要第一时间提供具体的措施帮助业务人员解决问题,并不断提炼共性的问题,完善实施方法论和培训教程,通过结合具体问题和场景的持续培训赋能,提升整个业务团队的数据管理能力。下图系统地说明了,为了绕过业务认可数据治理工作,数据团队所需要具备的能力和待完成的关键工作内容:
查看详情从“数据民工”到“数据销售”:数据治理如何赢得业务心(一)
一直以来,数据治理在企业内部实施落地过程中,都会遇到各种各样的问题,其中不乏各种来自业务方的质疑。例如,业务部门不配合导致数据治理工作没法开展;数据治理工作每天都被质疑业务价值,甚至影响到部门存在的合理性。相对而言,很多时候数据更愿意处理具体的技术问题而非抽象性的、跨领域的业务问题,以至于很多时候数据治理团队“只有数据治理之名,行的却是各类报表开发、数据加工的技术男的工作”。长此以往,不仅无法真正践行数据赋能业务的治理终极目标,对于团队未来规划甚至个人今后的职业发展,也会产生各类问题。今天,我们就一起来探讨下,如何让业务真正理解并配合数据治理工作。古希腊哲学家泰勒斯曾经说过,“最困难的事是认识你自己”。在我看来,比认知自己更难的事情就是改变自己。数据人,特别是实施数据治理的同学,首先需要跨越的关口就是建立起业务视角。何为业务视角?业务视角就是一切从企业经营管理的实际出发,通过分析和理解公司商业模式、运营流程、产品服务能力、同行竞对及市场客户情况,找到当前企业组织核心发展目标的阻碍点和问题点(例如高净值客户不断流失的原因分析,相比于同行的价格劣势的成分分析等等),并给出业务层面的解决方案和规划思路。业务视角关注的是如何通过特定的资源输入,实现具有商业价值的输出,强调的是业务的目的性、效率性和价值创造。举个例子,大家可以回忆下公司里销售同学的思考和沟通方式,通常来说,一个公司的销售团队是公司最为核心的利润中心,也是与市场和客户打交道最多的群体,他们的日常思考行为方式其实具有典型的业务视角,否则,产品不容易卖出去。通常来说,销售同学对于一个事情会有很强的目标性,也会充分识别目标达成所涉及的利益相关方(哪些是利益共同体,哪些是收益方,哪些是可争取的中间资源,哪些是会因利益受到影响而对最终目标达成产生风险的资源),针对不同的群体制定不同的销售策略,并持续跟进各类销售策略执行落地的情况(同时也关注各类群体,特别是其利益诉求点的变化),持续调整并优化销售策略,最终实现销售目标的达成。整个过程其实很好的体现了业务目标性、业务活动的执行效率及反馈优化的闭环。其实我们数据人,某种程度上也是公司内部的“数据销售”,只不过相比于传统销售售卖的产品和服务,我们售卖的是“管理理念和管理活动”。虽说“一把手负责制”是数据治理成功的必要条件(某些环境下,甚至是第一必要条件),但正如“尚方宝剑威力最大的时候不是在你拔出来的时候,而是在你背着它的时候”,如果认为数据治理仅仅可以通过强硬贯彻领导意志的方式就能推行成功的话,那最终的结果极有可能南辕北辙,即使能够按照传统治理理论框架建立一套数据治理体系,更多也是停留在表面,难以对实际的业务活动带来影响和变化(当然,就更谈不上数据推动业务的变革),同时实施过程中也容易受到各种业务投诉,例如重复工作,浪费时间影响正常业务。因此,除了必要的组织制度和领导资源的支持,数据治理想真正实现对业务的赋能,也要求数据治理的同学“成为一个合格的数据销售”,这就要求我们在实施过程中时时刻刻都要提醒自己从业务视角出发去思考问题。在数据平台和数字化转型的背景下,业务视角就意味着深刻理解数据如何支持业务决策,优化业务流程,通过数据共享和数据智能能力建设,发掘新的增长机会,具体执行通常分为四个步骤:1、通过优劣分析寻找合适的业务试点领域和业务协同部门,通常来说,业务形态更多依赖数据的准确性、完整性,其业务流程相对标准和简单,业务部门领导也有较好的管理认知,愿意从资源和制度上保障管理制度建设,都会是未来成功推行数据治理工作的有利条件,也是我们优先选择的业务试点领域;2、了解当前协同业务部门各个层级的利益诉求,梳理当前数据问题引发的业务问题,进而分析业务流程中可以优化提效的环节,最终整理出实现上述业务目标所需的数据能力(例如数据的质量要求,数据的共享服务能力、数据的安全合规要求等);3、基于当前组织能力现状和业务问题的急迫性,制定短期和长远相结合的数据能力建设路径,并辅助相应的数据治理流程设计和技能培训,确保各阶段性治理目标的业务落地和可验证,在业务目标的持续达成过程中不断提升业务对于数据治理的认知;4、充分进行复盘,分析实施过程中的各类问题,不断完善实施方法论的完备性和可执行性,尤其是在实践中不断打磨适配当前组织能力的、难度适中的事实方法论,并不断优化平台能力、流程效率,降低治理实施整体运营成本。那么,数据人有了业务视角,是不是就意味着业务会一起参与数据治理工作?答案当然是否。数据人除了具备业务视角这个前提条件外,至少还要解决两个关键问题,才能真正让业务人员参与到数据治理活动中来:1、如何证明这套东西是能落地、可执行的?2、如何证明最终完成的成果对预期的业务目标有直接的正向影响?下篇文章我们来重点分析下这两个问题~~
查看详情车企数据治理实践:业务场景为抓手势在必行
在这个信息爆炸的时代,数据已经成为推动企业发展的核心动力,而数据治理则是确保数据价值得以最大化发挥的关键。在整车制造的研发、生产及供应链业务中,数据治理扮演着举足轻重的角色。· 数据治理对于提升数据质量至关重要。高质量的数据是企业决策的基础,也是实现智能化生产和服务的关键。通过数据治理,我们可以对数据进行清洗、整合和标准化处理,提高数据的准确性和可用性,为企业的发展提供有力支持。· 数据治理在保障数据安全方面的作用。在整车的生产与运营过程中,涉及到大量的敏感数据,如用户信息、车辆运行数据等。这些数据的安全与否直接关系到客户的隐私权益和企业的声誉。因此,我们必须加强数据治理,确保数据的安全性和完整性。· 数据治理还能够促进数据价值的挖掘和应用。在智能汽车的研发过程中,我们积累了大量的数据资源。通过数据治理,我们可以更好地挖掘这些数据的潜在价值,发现新的应用场景和业务模式,推动企业的创新发展。这里我们举例营销域,在汽车销售行业中,这些痛点主要源于消费者需求、市场状况、技术变革以及行业特性等方面。以下是针对汽车销售痛点的具体分析和归纳:1. 信息不对称· 交易双方在车辆性能、价格、库存等关键信息上存在差异,导致消费者无法做出全面、准确的决策。· 线上平台仍然存在信息不对称问题,顾客对商品和服务的信任度不高。2. 购车流程长、效率低下· 传统的线下购车过程通常包括试驾、询价、谈判、交付等环节,消耗了顾客大量的时间和精力。· 消费者对于汽车购买流程的不满意度较高,影响用户体验和顾客流失。3. 消费者需求多样化· 不同消费者对于汽车的需求因人而异,注重性能、安全性、燃油经济性等不同方面。· 销售人员需要根据不同消费者的需求进行差异化销售,提供符合消费者需求的车型和配置。4. 信任危机和销售额下滑· 虚假广告、质量问题和交付延误等问题使得在线销售受到了质疑和限制。· 这些问题直接导致消费者对于汽车销售行业的信任度降低,同时也影响了销售额。针对以上痛点,主机厂商多数都通过数据融合的技术收集了大量的业务数据,但业务数据的管理措施往往又缺失落地工具及实施。建立完整的数据管理体系有助于提升消费者满意度,增强行业竞争力,促进汽车销售行业的可持续发展。一、事前数据治理管控1.数据模型设计业务系统的数据模型设计人员和数据仓库模型的设计人员负责模型设计。建议在模型设计环节中尽可能多地引用数据标准,确保模型设计的规范化和标准化,这需要将数据标准与模型设计结合起来,实现数据标准在模型设计中的落地。此外,在模型设计环节中存在数据标准覆盖不全的情况,通过数据建模工具的自定义标准可以补全数据标准,通过这种闭环的方式不断完善数据标准体系。2.数据模型评审数据模型评审涉及团队内部评审、发布上线前的正式评审等环节。内部评审的形式可以是线下的;发布上线前的评审涉及多个部门的流程审批,更适合线上的方式,完善的数据建模工具可以支持线上的数据模型评审环节。3.生产环境监控发布上线的数据库会进入运维阶段,这个环节的管控任务主要是确保设计环节最终评审通过后发布的数据模型与生产环节投产的数据库DDL脚本的一致性,避免在生产环节的随意修改从而对数据有血缘链路的上下游系统产生不可控影响。解决开发态和生产态不一致问题最有效的手段是将数据模型设计、评审环节与数据库脚本发布上线和投产环节打通,整个过程通过线上化流水线方式,工具平台可以支持去手工化的方式来约束数据设计到生产环节的规范性和可控性,实现越少的人工介入,越规范化的方式来生产数据。二、事中数据治理管控数据标准的统一也是数据治理的重要方面。缺乏统一的数据标准,会导致企业内部各部门之间数据交流困难,甚至产生数据冲突。因此,企业需要制定统一的数据标准,并推动各部门按照标准进行数据管理和使用。数据质量问题是制约企业数据治理的关键因素。数据不准确、不完整、不一致等问题,使得企业在分析和利用数据时面临巨大挑战。为解决这一问题,企业需要建立完善的数据质量管理制度,明确数据质量标准,并加强数据质量的监控和评估。除了数据质量和数据标准问题外,数据治理还需要关注数据安全。随着数据泄露事件的频发,数据安全已成为企业不可忽视的问题。企业需要建立完善的数据安全管理制度,加强数据安全的防护和监控,确保数据不被非法获取和利用。在数据治理过程中,企业还需要关注数据文化的建设。数据文化是指企业内部对数据价值的认同和尊重程度。一个良好的数据文化能够推动数据治理的顺利开展,提高数据治理的效果。1.元数据管理元数据及数据地图,实际上是一个数据的“导航图”。它清晰地展示了数据的来源、结构、关系等关键信息,使得数据使用者能够迅速定位所需数据,大大提高了工作效率。此外,元数据地图还有助于数据质量的提升。通过对数据结构的清晰描述,可以更容易地发现数据中的错误和异常,从而及时进行修正。在数据治理方面,元数据地图更是发挥了不可替代的作用。它使得数据治理更加系统化、规范化,为企业的数据决策提供了强有力的支持。然而元数据地图的建设并非易事。它需要跨部门、跨团队的协作,需要数据的全面梳理和整合。但正是这样的挑战,让我更加深入地认识到数据治理的复杂性和重要性。总的来说,元数据管理的意义远不止于技术层面。它更是企业数据管理、治理和决策的基石。相信,在未来的数据时代,元数据地图将会发挥更加重要的作用。2.数据标准管理数据标准管理能够提升数据的准确性。通过制定统一的数据标准,企业能够确保数据在采集、处理、存储和传输过程中的一致性,减少数据错误和歧义。数据标准管理有助于实现数据的互通共享。当不同部门或系统使用相同的数据标准时,数据交换变得更加高效,有助于打破信息孤岛,促进信息流通。显然,数据标准管理还能提高数据分析的效率。统一的数据标准使得数据分析人员能够更快地理解和处理数据,降低数据处理的难度和时间成本。在数据标准管理的过程中,我也遇到了一些挑战。如何确保数据标准的持续更新和适应性是一个重要问题。这需要企业建立一个数据标准管理委员会,负责定期审查和更新数据标准。管理应包含:基础标准、码值、业务术语、指标标准及其维度体系,标准的建立应借鉴国家标准、行业标准以及沉淀已久的企业内部标准信息。并依据数据标准的管理部门及流程进行管理权力派发,用数据治理平台工具得以实现。借助平台数据标准核标能力,对于标准落地进行检验。3.数据质量管理数据质量对营销数据的检验至关重要,因为它直接关系到营销决策的有效性和准确性。以下是关于数据质量如何影响营销数据检验的几个方面:1)数据准确性和一致性营销数据必须准确,才能为营销团队提供可靠的决策依据。如果数据中存在错误或误差,可能会导致错误的营销策略和决策。一致性同样重要。数据在不同来源和系统中应该有一致的定义、格式和度量单位,以避免在数据集成和分析时出现混乱和矛盾。2)数据完整性和时效性营销数据需要完整,即包含所有必要的信息和维度,以便进行全面的市场分析和客户细分。数据遗漏或缺失可能导致分析结果的不完整和误导。时效性也很重要。营销数据需要是最新的,以便及时捕捉市场变化和客户需求。过时的数据可能无法提供有效的市场洞察和预测。3)数据质量和检验方法为了确保营销数据的质量,可以采用多种检验方法,如记录数检查法、关键指标总量验证法、历史数据对比法、值域判断法、经验审核法和匹配判断法等。这些方法可以帮助识别数据中的错误、异常和遗漏,确保数据的准确性和可靠性。例如,记录数检查法可以验证数据表中的记录数是否在确定的数值或范围内;关键指标总量验证法则可以对比具有相同业务含义的数据总量是否一致;历史数据对比法则可以通过观察数据变化规律来验证数据的可靠性。4)数据质量对营销决策的影响高质量的数据可以支持更准确的客户细分、市场定位和产品定位,从而提高营销活动的针对性和有效性。另一方面,低质量的数据可能导致错误的营销策略和决策,浪费营销预算和资源,甚至损害品牌形象和客户关系。综上所述,数据质量对营销数据的检验具有重要影响。为了确保营销决策的有效性和准确性,需要重视数据质量管理,采用适当的检验方法和技术手段来确保数据的准确性、一致性、完整性和时效性。4.数据安全管理随着大数据为企业赋予了更高的潜在价值,同时也对数据安全带来全新的挑战。国家层面也对数据安全、个人信息安全越来越重视,分别出台了《数据安全法》、《个人信息保护法》,要求各省、各行业做好数据分类分级工作,保障数据安全。数据分类分级能力是指根据数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起分类体系的过程;并且能够按照数据内容敏感程度与危害性对数据进行定级,为数据全生命周期管理的安全策略制定提供支撑。企业要对数据实现全方位的管控,当务之急就是先梳理清楚数据资产,并且对数据资产进行建立分类分级规范,对分类分级以后的数据进行不同等级不同程度的利用和保护,加快数字化建设的同时保障数据安全。数据分类分级工作步骤建议:数据分类分级操作流程建议:参考制造业遵从的数据分类分级要求,结合数据资产梳理情况细化,从而形成数据分类框架。根据用户数据分级需求、行业监管要求等内容制定数据级别,遵从国家、金融行业、监管等相关要求,明确数据分级要素及内容,包括安全等级、重要程度、影响对象、影响范围、影响程度等。数据安全定级旨在对数据资产进行全面梳理并确立适当的数据安全分级, 是金融业机构实施有效数据分级管理的必要前提和基础,数据分级是建立统一、完善的数据生命周期安全保护框架的基础工作,能够为金融业机构制定有针对性的数据安全管控措施提供支撑。三、事后数据资产应用目前,数据资产目录管理已经变成了数据治理工作中不可或缺的一个环节。企业在识别出自身数据资产的基础上,进一步构建数据资产目录,能够帮助用户更好地理解、使用以及分析数据。企业通过发现、描述和组织数据资产,形成一套企业数据资产的清单目录,提供一套上下文背景信息,为数据分析师、数据架构师、数据管理专员和其他数据用户,根据业务价值目标更好地查找和理解相关的数据资产。如果缺少了数据资产目录管理工作的支撑,很多数据管理与应用的工作开展都如同盲人摸象,缺乏整体的数据蓝图,没有有效的指引,由此导致了诸多不便和低效。例如:数据消费者不知道有哪些数据,也无法联系到相应的负责人;数据中心中承载了大量的数据,但却是一片沼泽,找到有意义的数据只能依靠人工经验进行指引;组织内有多个数据源,没有统一的途径来精准识别数据源;数据消费者没有适当的流程进行请求与获取目标数据;数据消费者无法理解数据,更不知该如何使用数据;数据资产目录的建设,最重要的是要以价值为导向,能够对业务起到有效的支撑作用,并具备良好的运营机制,才能体现价值,我们对数据资产目录的建设策略建议如下:1、明确驱动力、优先选择业务价值高的应用场景,建设成果落地有效首先结合当前及未来企业对数据管理工作的现状、挑战和需求进行分析,识别对业务支撑力较强的业务领域、数据主题、信息系统等,选择业务价值高的应用场景为建设支撑目标,在此范围内,进行数据目录管理工作目标和路径的设计,从而通过数据目录支撑到企业数据管理战略、产生更为直接的工作效益。需要强调的一点,企业对数据资产目录价值的认识不要只停留在现有业务所积淀形成的、相对静态的数据资产,还可从行业发展的角度分析未来应具备的数据资产,构建相对前瞻性的数据资产目录。例如,电信运营商可对未来5G业务进行分析,构建数据资产目录,以迎接即将到来的5G类新业务应用的需求;汽车制造业的厂商可对新能源、车联网等业务进行前瞻性布局,从内外不同渠道获取相关数据资产进行分析、构建目录,支撑业务发展。2、配套建设数据资产目录管理所需的组织职责、工作机制及数据文化氛围,技术与管理并重。数据资产目录的建设与管理需要相应的组织和机制支撑,需要企业内部数据文化达到一定氛围后,才能发挥相应的价值。对于数据目录的管理模式、评价模式、认责机制等,都需要业务部门的业务专家、数据专家深度参与其中,持续养护数据、完善数据定义、提升数据质量、分享数据成果,而数据文化与管理机制的建立和运行,并非一朝一夕、一蹴而就。建议在数据管理团队职责和工作机制较为明确的基础之上,能够进一步推动业务部门设置数据管理相关角色、明确职责,并在数据团队与业务团队之间、多业务部门之间,建立专项小组、讨论组等多种沟通机制,促进跨团队的沟通交流、提升数据文化氛围。1、将数据资产盘点方法论融入资产盘点工作流程,支撑企业跨业务域、跨部门、跨专业领域的常态化数据资产盘点。2、利用智能化标签技术,对数据资产进行多维分类以及异常识别,提高资产盘点质量降低人工投入。3、融合元数据、血缘关系、数据标准、数据质量、数据安全、认责管理等数据治理信息,构建适用不同业务场景的资产目录服务。4、结合企业数据治理过程中典型场景,提供数据资产包、众包等功能服务对数据应用场景过程进行管理。5、结合数据资产、业务知识、应用知识构建企业知识图谱,方便数据应用参与者高效获取技术、业务知识。6、利用大屏作为数据资产统计的输出,利用数据资产管理指标推动数据资产运维。数据资产目录管理是一项重要的工作,其建设过程不会是一蹴而就的,建设效果也不是立竿见影的,它本质属于“地基”类工作,因此需要且值得投入精力去认真构建,一旦建成并夯实,在其上面的数据管理和应用工作将得到良好的支撑和保障,数据应用价值也会得到极大的释放。企业在建设和运营数据资产目录时,要具备长线思维,协调业务与技术人员共同参与,随着业务发展持续迭代并创新,保证其落地执行、输出价值。
查看详情开启数据可视化新旅程:数据血缘的生机与魅力
引言在当今数字化时代,企业面临着海量且复杂的数据环境。数据如同企业的生命之血,贯穿于各个业务环节,流淌于各种业务系统之间。然而,如何通过上帝之眼对这些不可见无法琢磨的数据一窥究竟、预测它们的未来走向呢?那么数据血缘就是今天我想要和大家分享的主题,我想通过下面5个问题来展开我个人对数据血缘的理解。一、数据血缘的当前应用困境是什么数据血缘发展到今天,从来都没有如此的耀眼、如此受关注。本人在近20年前接触过Data Lineage这个名词,是伴随着ETL工具时被提及,是用来解释数据处理逻辑与过程的,更多是数据工程师的袖珍“小册”。当下,数据血缘不再陌生,而是被业务寄托了更多厚望,“数据链路”这个词也成了很多企业年度信息化规划关键字。一如IT行业其它众多名词,在追捧的过程中难免会存在以下落地应用的困境。复杂系统和架构: 在当今的企业当中,技术架构的繁杂性已然成为数据血缘需要应对的关键挑战之一。企业的应用平台自早期的Mainframe封闭系统起始,历经 IOE潮流阶段、大数据时期,直至当下的信创特殊阶段,在此过程中,经历了多代技术栈的更迭与交替。如此这般的一系列变化,让数据血缘的梳理和追踪变得困难重重。例如,当多个业务系统之间的数据交互关系混乱时,我们往往难以准确地追踪数据的来源和流向。这种情况在处理一些核心业务系统(如ERP)时尤为明显,因为这些系统的架构通常都非常复杂且封闭,API接口繁杂、陈旧,要想解析这固若金汤的系统血缘如同痴人说梦。数据频繁变更与多样的数据流转形式:业务的动态发展会致使数据结构的变更操作频繁出现,进而让数据血缘需要持续地进行更新与维护,这无疑加大了管理的难度。举例而言,在业务流程做出调整之后,相关数据的流转路径就会发生变化。由此,这就需要数据血缘工具拥有实时采集更新以及自动解析维护的功能,从而适应数据环境的迅速变化。数据流转过程是建立数据血缘的根本,业务为使数据敏捷、畅通采用的技术手段也丰富多样,像SFTP、ESB、ETL工具、流式数据处理、JAVA/Python/Shell 等开发程序、数据库SQL脚本、手工搬运等形式,数不胜数。恰恰是这些复杂的形式,导致了血缘的断裂、缺失以及不可见。跨部门协作障碍:由于各部门对数据的解读和处理方法各异,这可能会在数据溯源的构建和实施过程中引发沟通和协调上的障碍,使得达成共识变得困难。举例来说,技术部门和业务部门对于数据血缘的界定和重要性的理解存在分歧。技术部门为了做血缘,恨不得将每个系统、每个字段都梳理出来建立血缘,唯恐有丝毫遗漏,就如一些数据治理项目,需要系统落标率达100%,这种“洁癖”是开展血缘工作时的大忌。又如,业务提出的需求与目标更多是意识形态范畴,过于宏大,太过于高瞻远筑,难以切实落地。因而,创建一个跨部门的合作机制,围绕具体的数据血缘业务场景,使业务目标与项目执行有机结合、对齐。元数据质量问题:不准确、不完整的数据本身会影响数据血缘的可靠性,可能导致错误的追踪和分析。错误的数据可能误导对数据来源和处理过程的判断。例如,数据库中充斥着大量临时表,这样会直接干扰血缘解析的准确性;又如,每个数据工程师都有自己的程序编写偏好,数据处理的SQL脚本编写不规范,SELECT *的写法在程序中比比皆是;这些都是直接影响血缘解析的重要因素。因此,提高元数据的质量,是提高数据血缘准确性的关键。数据隐私和安全考虑:在追踪和记录数据血缘时,可能涉及到数据隐私和安全问题,需要在合规的前提下进行操作,增加了复杂性。因此,如何在保证数据隐私和安全的同时,有效地追踪和记录数据血缘,是数据血缘应用的另一个重要问题。二、如何建立企业精准的血缘地图随着企业对数据链路应用需求日益渐多,对数据血缘的诉求也愈具个性化,固有数据治理平台中的血缘功能再难以担当起此重任。以数据血缘技术作为基础,将数据治理前、中、后时期的事务操作建立业务场景,将数据开发前、中、后阶段输入建立业务场景,通过血缘技术去预测、校正、监测业务场景的活动,这种多场景应用的数据血缘平台呼之欲出。北京数语科技有限公司正是基于多年数据治理实践经验,将数据血缘模块独立出来,重新设计并推出了多业务场景应用的数据链路监测平台。那么,如何利用数据链路监测平台建立起企业精确的血缘地图呢?在构建企业的数据血缘地图时,首先要进行应用场景设计。这包括设定明确的业务目标,对关联系统进行全面梳理,制定详细的行动计划,并清晰地明确利益相关者。通过明确业务目标,能够为后续的工作指明方向,例如为财务管理提升数据质量、监管指标全链路分析、数据模型变更影响预测。对源头相关系统的梳理有助于了解数据的产生和流转起点。而精心制定的行动计划则能规划出实现目标的具体步骤和时间节点。同时,明确利益相关者能够确保各方在项目中的职责和参与程度。其次是进行血缘系统建设。这涵盖了对数据血缘工具的评估与选择,进行系统的规划与建设,以及建立相应的管理流程与制度。在评估和选择工具时,要考虑工具的元数据采集是否能覆盖需求、数据血缘解析是否精确、是否具备灵活创建应用场景的能力。系统规划与建设需要根据企业的规模、数据量和业务需求来确定架构和技术方案。管理流程与制度的建设则能确保系统的有效运行和维护。接下来是血缘采集与认证环节。这要求采集相关系统的元数据,制定合理的任务采集机制,让数据管家和业务方参与到元数据丰富活动中,并对血缘进行认证。采集全面准确的元数据是基础,合理的采集机制能够确保高效和及时。数据管家和业务方的参与能从不同角度丰富元数据,提升其质量。而认证血缘则能保证其准确性、可靠性、连续性。最后是血缘应用与业务趋动。要将数据血缘链路公开,以驱动业务增效和创新,评估血缘实践的结果,并提出优化细则。公开血缘链路能让更多人了解数据的来龙去脉,从而更好地利用数据。通过评估实践结果,可以发现问题和不足,进而提出优化措施,不断提升数据血缘的价值。三、怎样打开数据血缘探索之门数据血缘,原本就在那里。我们怎样以正确方式开启数据血缘探索之门呢?这里我向大家推荐以下2种探索形式。血缘目录当明确要探索其中某个数据表单、业务指标的数据血缘关系时,血缘目录则是这种更为精确的搜索工具,就像我们在谷歌搜索结果中筛选新闻、图片、视频等内容一样缩小搜索范围。这种精确的搜索和筛选方式,可以帮助我们更快地找到所需的数据,提高工作效率。随着AI技术的发展,人们越来越习惯希望通过自然语言对话来寻求所关注的直接答案,基于血缘目录提出具体血缘问题,让它帮助我们快捷找到关注业务指标所对应的数据血缘关系结果,并以缩略图形式呈现出来确认是否进入探索分析模式。数据地图数据地图就像我们现实世界的地图,它可以帮助我们从宏观的角度理解数据的全貌。就像我们可以在世界地图上看到各个国家和城市的位置,数据地图可以让我们看到数据的来源、流向和变化。当我们需要深入了解某个特定的数据血缘,数据地图也可以帮助我们“放大”观察,就像我们可以在谷歌地球上放大到埃及金字塔一样。这种由大及小的探索方式,可以帮助我们更好地理解数据的关系和价值。比如对跨系统间数据流动的路径、形式、时长探索,在地图中去观测哪些数据文件是通过SFTP来流动、哪些数据集是通过ETL工具来调度、哪些数据是通过API来传输、它们所耗时长各是多少?有无变换数据流动形式的可能?如果要建设跨系统间的数据桥梁,哪种技术手段、路径更科学、更经济?这些犹如现实的地图导航,通过直观的血缘地图探索为业务决策和分析提供了更好价值。总的来说,血缘目录和数据地图是打开数据血缘探索之门的两种重要方式。四、如何让您的业务融入血缘之路数据血缘是通过将每个字段、每个代码片、每个数据处理逻辑采集并解释生成的关系链路,每个元素都有自己的“经度”和“纬度”。就如同在浩瀚宇宙中,每一颗星辰都有其独特的坐标。如果要辨认、理解它,就离不开围绕这些元素去叠加业务氛围信息,只有注入了其元素的数据标准、业务流程、业务规则、利益相关者、指标含义等氛围信息后,人们才能通过这些上下文去理解其业务含义。例如,在金融领域中,对于某个特定的数据字段,只有当我们明确了它所对应的业务流程,比如是贷款审批流程中的一个关键数据项,以及相关的业务规则,如额度限制等,同时了解到涉及的利益相关者,如信贷员、客户等,还有其代表的指标含义,如风险评估指标等,我们才能真正理解这个数据元素在整个业务体系中的地位和作用,就像只有知道了一颗星星在星系中的具体位置和它所代表的意义,我们才能更好地理解整个星系的运行规律。将业务融入到数据血缘,往往不少于以下管理内容:1.明确业务与血缘的边界:业务:指的是公司的数据活动(如数据治理、数据开发)、管理流程、业务目标、执行策略等。血缘:是数据从源头流向目标的运行路径,记录了数据如何被转换、处理、存储和使用的轨迹。2.建立业务与血缘的映射关系:在血缘关系图中,为每个数据元素(如表单、字段、代码片段、数据任务)绑定元数据。使用数据字典或数据模型文档来详细解释每个数据元素的业务含义和用途。3.设计业务氛围信息层:在血缘关系图上叠加业务氛围信息层,包括数据标准、业务流程、业务规则、利益相关者、指标含义等。使用可视化工具来展示这些信息,使非技术人员也能理解数据的业务含义和场景。4.保持业务与血缘的有机隔离:在存储和设计上,确保业务氛围信息和血缘数据分别存储,但可以通过元数据进行关联。使用API或中间件来连接业务系统和血缘管理系统,实现业务与业务实时同步与一致。五、您期待哪些数据血缘应用场景在日益复杂的数据环境中,数据血缘的应用场景变得至关重要。数据血缘,即数据在整个生命周期中的来源、转换、流向和最终使用的完整记录,为企业提供了对数据流动和影响的深入理解。以下几个数据血缘应用场景或许值得您期待。模型变更影响预测数据模型是应用系统不可或缺的基础。随着业务需求的变化,应用系统功能模块的升级就会要求数据模型跟随着调整。然而,这种变更如果不提前制定预案,将可能直接影响上下游应用的稳定运行。为了降低风险,我们需要在投产前进行有效的评估,生成影响报告通知相应责任人及时分析应对。场景准备:· 制定数据模型投产计划。· 生成数据模型版本变更报告,明确变更内容和范围。· 创建模型变更影响预测应用场景,设置场景责任人及相应参数、规则。实现效果:· 自动化生成系统上下游的全域数据血缘链路图,清晰展示数据流动方向。· 在血缘链路中通过颜色自动标注新增、变更、删除的表和字段,生成详细的影响预测报告,包括潜在风险、影响范围和应对措施建议。· 以电子邮件、即时消息等形式即时通知上下游IT责任人,确保他们了解变更内容及其潜在影响。风险指标监测预警企业存在着诸多如信用风险、市场风险、资金流动性风险、操作风险等数据指标。对于这些关键指标,任何微小的变化都可能对企业产生重大影响。因此,需要持续时刻关注、监测这些指标的变化和趋势,同时能够精准定位这些指标、并保障其应用系统的稳定运行,指标非正常运行的事务能及时被监控、被预警,场景准备:· 整合风险指标的氛围信息,如历史参考数据、行业趋势、法律规范等。· 采集算法、参数和运行状态数据,以便进行实时监控和分析。· 创建风险指标监控场景,设置监控规则和预警条件。实现效果:· 实时监控风险指标的变化和趋势,及时发现潜在风险。· 自动化触发预警通知,确保利益相关者即刻了解风险情况。· 提供风险分析和建议措施,帮助企业应对潜在风险并优化决策过程。六、结论数据血缘作为数据管理与分析的关键手段,正逐步彰显出其独有的活力与魅力。企业借助数据链路技术能够更为精确定位数据问题,实时监控数据的流动情况,精准预测元数据变化所产生的影响,进而提升数据管理的效率,更高效、更准确地理解并运用数据资源,为数字化转型给予强有力的支持。
查看详情Data AI-Ready的关键因素
上一篇我们翻译了哈佛商业评论的一篇重要文章《您公司的数据是否已准备好用于生成式人工智能》。事实上大模型技术并没有解决数据孤岛问题。所有企业都要考虑如何让您的数据准备好,基于提示工程结合企业私有知识进行AI应用的落地。数据AI-ready有以下几个关键因素:1、元数据管理元数据管理是确保AI-Ready的核心。元数据提供数据上下文,帮助您理解其含义以及如何使用它。支持从数据发现、质量、血缘的一切。• 360°查看每个数据资产,获取所有该数据相关上下文• 端到端主动的数据血缘,以了解数据如何在系统中流动• 语义层,有助于创建和探索定义、指标和资产之间的关系• 个性化的访问控制——根据角色、业务领域或项目上下文定义这些元素将帮助AIGC有效地理解数据资产,并提供有用的建议。没有出色的元数据管理,LLM不可能有效。2、元数据质量管理如前所述,人工智能辅助系统需要高质量的数据才能发挥作用。因此,必须根据最重要的数据质量指标(如相关性、可靠性、准确性等)对您的数据资产进行持续评估。这里经常被忽视的一个方面是元数据质量。在即将到来的人工智能和LLM时代,元数据质量将与数据质量同样重要。LLM应用程序需要丰富、高质量的元数据才能使用数据。元数据越准确、越可信,人工智能生成的答案就越可靠。3、数据血缘管理数据架构与业务架构的关联关系及数据流的血缘关系。数据血缘对于实现Data AI Ready(即数据准备好支持人工智能应用)具有重要的价值。Data AI Ready强调数据的可访问性、可理解性、高质量和高效管理,以便为人工智能(AI)应用提供坚实的基础。以下是数据血缘在Data AI Ready方面的几个关键价值点:提高数据透明度与可理解性加强数据质量控制促进数据合规性优化数据架构与治理提升AI模型的可靠性与可解释性这些价值共同构成了数据血缘在支持人工智能应用中的关键作用。4、数据治理体系《纽约时报》的Steve Lohr:“数据是大企业构建人工智能的瓶颈。没有标准、上下文和认责的数据是从人工智能系统中创造价值的主要障碍。”没有数据认责和管控系统,您的模型将不断产生幻觉,经常崩溃,并且始终无法实现公司期望的业务价值。5、数据结构的稳定性AI算法会根据它们在训练数据中识别到的schema来理解。一致的元数据可确保AI系统在训练后可以继续将其学习到的模式应用于新数据,而不会出现错误或需要重新配置。 数据格式的变化(例如更改列名、更改数据类型或重新组织数据库架构)可能会使AI模型混乱。这可能会导致输出不正确,或者需要额外的时间和资源来使用新结构重新训练模型。为了保持有效AI分析具有稳定的数据结构,规划时要考虑设计数据架构并对数据架构进行管控。数据模型版本控制,数据模型的完整性和可追溯性。建立变更管理策略:创建用于评估和实施数据结构变更的管控制度。包括影响评估、变更管理与现有AI系统的兼容性。6、数据来源的多样性和准确性人工智能算法受益于广泛的数据输入,因为多样化的数据源有助于减少偏见并提高洞察的准确性。数据来源多种多样,包括不同的供应商、客户统计数据、销售渠道、电子商务网站和第三方市场。这种多样性至关重要,主要原因如下:减少偏见:人工智能系统可能会根据所训练的数据产生偏见。通过整合来自各种来源的数据,您可以降低这些偏见的风险,因为人工智能解决方案将具有更平衡的视角,可以反映不同的观点。增强稳健性:多样化的数据源使得人工智能模型对任何单一来源的不稳定信息不敏感。提高预测能力:利用来自综合输入数据,人工智能算法可以更好地预测不同客户群体和市场条件下的行为和结果。这里需要注意的是,数据准确性与数据多样性同样重要。在集成新数据源之前,请验证其可信度和记录,并确保您的供应商和数据提供商遵守行业标准和数据管理的最佳实践。7、人工智能理解的数据结构AI算法需要易于处理的数据格式。这通常意味着结构化数据,即任何遵循严格格式的数据,便于访问、搜索和分析,通常包括:定义的数据模型:明确定义schema下的结构化数据- 例如具有行和列的表格 - 其中每个数据元素都有明确的划分。统一的数据条目:每个条目都遵循相同的格式。例如,在CSV文件中,每一行代表一条记录,每一列代表该记录的特定属性。8. 数据字段丰富(元数据充足率)数据字段的内容(元数据)对AI分析的有效性起着重要作用。当数据字段具备全面、详细的信息时,AI系统可以进行更深入、更细致的分析,并提供更个性化的建议。数据字段不止包含名称或价格等基本标识符,也包括详细的产品描述、定义和分类。
查看详情哈佛商业评论-《您公司的数据是否已准备好用于生成式人工智能》
哈佛商业评论今年三月发布了一篇《您公司的数据是否已准备好用于生成式人工智能》的文章引起广泛关注。许多组织对生成式人工智能感到兴奋,他们正在动员起来开展。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队正在考虑开发哪些用例。个人和部门正在试验该技术如何提高他们的生产力和效率。然而,对生成式人工智能的成功真正重要的工作落在了首席数据官 (CDO)、数据工程师身上。2023年下半年对334名CDO和组织中的数据领导者进行的一项调查(由亚马逊网络服务和麻省理工学院首席数据官/信息质量研讨会赞助)以及对这些高管的一系列采访发现,虽然他们和其他人一样对生成式人工智能感到兴奋,但他们还有很多工作要做才能做好准备。特别是在数据准备方面,公司尚未创建新的数据战略或开始管理数据,以使生成式人工智能为他们服务。我们将描述调查结果以及这对数据下一步的建议。■ 生成式人工智能令人兴奋,但价值尚小2023年是许多组织发现AI并惊叹其潜力的一年。就其功能而言,AI历来使用结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据(文本、图像甚至视频)来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助和竞争。CDO和数据领导者对这项技术充满热情:80%的人同意它最终将改变其组织的业务环境,62%的人表示其组织计划增加对生成式人工智能的支出。这项技术也为他们的角色带来了很多关注;一位CDO在接受采访时表示,生成式人工智能让她成为了“舞会上的花魁”。然而,受访者表示,大多数受访者尚未从使用生成式人工智能中获得实质性的经济价值。当被问及他们的组织如何应对生成式人工智能时,近三分之一的受访者表示他们正在“在个人层面进行实验”,而不是为企业创建用例。另有21%的受访者表示他们正在实验,但有针对员工的使用指南。比例略小的19%的受访者正在部门或业务部门层面进行实验。最重要的是,只有6%的受访者在生产部署中采用了生成式人工智能应用程序。令人惊讶的是,16%的受访者指出,他们的组织已经禁止员工使用,尽管随着公司使用企业版生成式人工智能模型处理数据隐私问题,这种方法似乎随着时间的推移正在减少。如果一家公司打算尝试生成式人工智能,那么它应该成为业务的核心方面。一家正在积极尝试生成式人工智能进行研发的公司是环球音乐。该公司对这项技术的强烈兴趣并不令人意外,因为生成式人工智能可以创作音乐、写歌词和模仿艺术家的声音。环球音乐正在探索如何将生成式人工智能用于音乐和音乐视频,以保护艺术家的知识产权。它正在进行另一项实验,使用环球艺术家的声音(经他们许可和参与)创建歌曲曲目的AI版本。它还对一家AI提供商采取了法律行动,以保护其艺术家的版权。政策和概念验证可能很有用,但它们不会产生经济价值。要让生成式人工智能真正对公司有价值,他们需要使用自己的数据定制供应商的语言或图像模型,并做好内部工作以准备用于这种集成的数据。■ 准备数据如果要让使用生成式人工智能发挥巨大作用,那么生成式人工智能所使用的相对非结构化数据需要经过精心筛选,以确保其准确性、时效性、独特性和其他属性。质量低劣的内部数据将导致生成式人工智能模型产生质量低劣的响应。我们调查中的许多数据领导者都认同这一挑战:46%的人认为“数据质量”是其组织实现生成式人工智能潜力的最大挑战。摩根士丹利财富管理公司(生成式人工智能的早期采用者)的首席数据、分析和创新官Jeff McMillan描述了其中涉及的一些问题:我们已经整理基于文档的知识大约五年了。这并不是因为我们期待生成式人工智能,而是因为人们对我们现有内联网内容的质量水平不满意。因此,通过解决这个问题,我们无意中为生成式人工智能做好了准备。每一篇研究内容都必须由合规人员审核,因此我们知道培训内容质量非常高。即使是非研究内容,我们也有团队根据标记要求、预先提供摘要等问题对个人提交的内容进行评分,并给每篇文档打分。我们还必须花费大量时间考虑不同的内容集并优化结果……这些大型语言模型并不能解决数据源分散的问题。公司需要先解决数据集成和掌握问题,然后再尝试使用生成式AI访问数据。然而,大多数数据领导者尚未开始对其数据策略做出必要的改变。虽然93%的受访者同意数据策略对于从人工智能中获取价值至关重要,但57%的受访者表示,他们迄今为止尚未对其组织的数据做出任何改变。只有37%的人同意(只有11%的人非常同意)他们的组织拥有适合人工智能的数据基础。换句话说,大多数组织要做大量工作才能在其业务中广泛应用人工智能。那些已经开始做出改变的数据领导者专注于一些特定的任务。四分之一的组织正在进行数据集成或数据集清理。其中18%的人正在调查可能支持使用生成式人工智能的数据。17%的人正在整理文档或文本,为特定领域的genAI模型做准备。例如,默克集团首席数据和人工智能官 Walid Mehanna 强调了几种数据准备类型的重要性:如果我们想做人工智能,我们需要把它建在混凝土上,而不是流沙上。我们正在使流程和数据供应保持良好状态。我们正在研究数据清单和目录、具有新数据结构和元数据层的数据结构、数据管道和临时自助洞察生成。我们相信,生成式人工智能将成为未来从数据中创造洞察的关键方式。赛诺菲研发部首席数据官 Raj Nimmagadda 也表示,公司正在为生成式人工智能准备数据,并告诉我们,生成式人工智能成功“取决于高质量、‘业务就绪’的数据,这些数据由强大的数据基础、数据治理和标准指导。”他表示,赛诺菲目前正在其研发部门投资打造这些核心能力。与一般的数据转换一样,对于大多数组织来说,整理、清理和集成所有非结构化数据以用于生成式人工智能应用程序将是一项艰巨的工作。因此,大多数公司应该专注于他们预计在不久的将来实施生成式人工智能的特定数据领域。公司使用生成式人工智能的时间可能比许多人希望的要长,而且在创造价值之前,他们可能还有很长的路要走。在调查中,数据领导者优先考虑生成式人工智能开发的最常见业务领域(按顺序)是客户运营(例如客户支持或聊天机器人)、软件工程/代码生成、营销和销售活动(例如个性化营销活动或销售产品)以及研发/产品设计和开发。许多组织也在追求生成式人工智能的整体个人生产力应用,但这不太可能涉及特定的数据领域。■ 等待的正当理由?虽然我们认为数据领导者应该加快为生成人工智能准备数据的速度,但我们也承认还有其他重要的数据项目,包括改进交易数据以及为传统分析和机器学习应用程序提供数据。事实上,速度有些缓慢的原因之一可能是71%的CDO同意“生成式人工智能很有趣,但我们更专注于其他数据计划,以提供更有形的价值。”考虑到人们对生成式人工智能的兴奋程度,这项调查结果有些令人惊讶。我们在 2022年的调查中发现,首席数据官面临着快速交付价值的压力,但他们也面临着促进生成式人工智能实施的压力。我们怀疑他们从管理和改进结构化数据转向非结构化内容的转变有点缓慢。此外,在公司内部,谁来领导生成式人工智能也存在争议;首席数据官正在与首席信息官、首席技术官和首席数字官竞争这项热门新技术的领导权。但如果生成式人工智能要改变组织,那么等待开始准备数据是没有意义的。大多数调查受访者——都同意生成式人工智能是一种变革性能力。让大型组织的重要数据为AI做好准备的工作很容易需要几年时间。现在是时候开始了!■ Datablau提供将企业数据资产转化为AI-ready的能力如下图所示,企业的数据资产并不规范,下面的两个结构化的表,库表结构的业务名、业务定义缺失,字段都是A1、A2、B1、B2。从样例数据的特征上看,例如:A4、A5都是日期,无论人或机器都无法了解这两个字段是什么日期。这种情况下,数据即使大模型获取到,大模型很难理解,也无法产出有效的AIGC的成效。显而易见,大模型需要企业私域数据,来定位问题的上下文。没有有效的数据输入,也就没有有效的输出。因此,我们需要将数据治理的成果与行级数据相结合,形成具备上下文的数据,再喂给大模型。如下图所示,将行级数据、相关联的表,结合元数据信息,重新聚合为新的半结构化数据,这时生成式人工智能就会输出有效的信息。Datablau数语科技作为国内数据资产管理的先行者和开拓者,通过不断打磨完善产品体系,打造了端到端的数据治理产品体系,形成了集模型管理、数据资产管理、数据资产目录、数据安全管理等为一体的全链路数据管理能力。其中数据资产目录平台DDC是为企业统一的数据资产共享和应用平台,从数据资产业务化视角出发,基于特有的模型体系和数据自学习技术,通过明确规范数据资产入库准则,形成企业统一的数据资产目录,涵盖了自动数据分类分目、数据资产查询与检索、血缘架构解析、数据资产地图等核心功能,极大提高了数据利用效率和提升业务数据应用水平。Datablau的数据资产网关在业界也极具有前瞻性和创新性,专注于提升数据资产的可用性和安全性,同时促进不同用户角色在数据使用上的灵活性与协作,结合DDC数据资产目录平台,数据网关利用AI技术和自学习模型,优化数据发现、理解和使用流程,提升数据服务的智能化水平,旨在帮助企业构建一个既安全又高效的数据流通体系,加速数据价值的转化,支持企业数字化转型和数据驱动决策的实现。
查看详情数据治理:一文讲透数据标准
在AIGC的帮助下,本文一共包括六个部分,如下所示,希望带给你全新的启示:一、数据标准的必要性数据标准的必要性体现在提高数据质量、促进数据共享、降低数据管理成本、提高数据维护性和扩展性,以及符合法规和合规要求等多个方面。通过数据标准化,企业能够更有效地管理和利用数据,提升业务效率和竞争力。1、提高数据质量数据标准通过统一数据格式、数据类型、数据命名等规范,确保数据的一致性和准确性,从而提高数据质量。举例:一家跨国公司在全球各地都有业务,通过统一的客户数据标准(如统一的姓名格式、地址格式、电话号码格式等),避免了不同地区数据格式不一致带来的数据质量问题。2、促进数据共享与互操作性数据标准使得不同系统和部门之间的数据可以无缝对接和共享,提高数据的可用性和互操作性。举例:在医疗行业,通过采用HL7标准,不同医院和医疗系统之间可以方便地共享患者的电子病历,实现患者信息的无缝对接和传输。3、降低数据管理成本通过数据标准化,可以减少数据清洗、数据转换和数据集成的工作量,从而降低数据管理的成本。举例:一个大型零售企业通过实施统一的产品数据标准,减少了在数据清洗和转换上的时间和人力成本,使得新产品能够更快地上线和销售。4、提高数据的可维护性和可扩展性数据标准使得数据结构和格式更加规范,便于数据的维护和扩展。当业务需求变化时,标准化的数据更容易进行调整和扩展。举例:在银行业,通过制定和遵循统一的交易数据标准,能够更容易地进行系统升级和扩展,添加新的金融产品和服务。5、符合法规和合规要求许多行业都有严格的法规和合规要求,数据标准化能够帮助企业更好地遵守这些法规,避免法律风险。举例:在金融行业,通过采用ISO 20022标准,银行能够确保跨境支付数据符合国际法规要求,提高交易的安全性和透明度。二、数据标准的定义数据标准的权威定义可以参考一些国际标准组织和权威机构的定义。以下是两个常用的权威定义:1、ISO/IEC 11179ISO/IEC 11179 是一个关于元数据注册的国际标准。根据该标准,数据标准被定义为:“数据标准是关于数据的内容、格式和结构的规则和指南,用于确保数据的一致性、准确性和完整性。”2、DAMA(数据管理协会)定义DAMA是一个权威的数据管理专业组织。根据 DAMA 数据管理知识体系(DAMA-DMBOK),数据标准被定义为:“数据标准是用于定义、管理和控制数据的一致性和质量的规范、指南和规则。这些标准包括数据定义、数据格式、数据命名和数据编码等方面。”综上所述,数据标准可以被定义为:“数据标准是关于数据内容、格式、结构及其管理和使用的规则和指南,用于确保数据的一致性、准确性、完整性和互操作性。”三、数据标准的分类第三部分 数据标准的分类参考一些国际标准组织(如ISO)的分类方法,可以将数据标准分为数据内容标准、数据格式标准、元数据标准、数据质量标准、数据交换标准、数据安全和隐私标准及行业和领域特定标准七类。1、数据内容标准数据内容标准是对数据项的内容和结构进行规范化的规则和指南,确保数据的一致性、准确性和可理解性。这些标准包括对数据项的命名、定义、类型、格式、长度以及取值范围等方面的规定。以下是一些具体的例子来说明数据内容标准:2、数据格式标准数据格式标准是对数据存储、传输和展示的格式进行规范的规则和指南。这些标准确保数据在不同系统和应用之间能够被一致地处理和理解,避免数据格式的不一致导致的数据错误和通信障碍。以下是一些具体的例子来说明数据格式标准:3、元数据标准元数据标准关注的是数据的数据(即元数据)。它们为描述和管理数据提供框架,旨在使数据易于理解、检索和利用。元数据标准确保信息资源(如文件、数据集、系统等)的描述是一致的,从而支持数据的组织、检索和维护。以下是一些具体的元数据标准和应用示例:有人会疑惑元数据标准和数据内容标准有什么区别,下面以一个图书馆管理系统为例,说明元数据标准和数据内容标准的区别。(1)元数据标准在图书馆管理系统中的应用定义:元数据标准提供了关于图书和其他资料的详细描述信息的规则和规范。这些信息有助于用户和图书馆管理系统理解和处理藏书。关键要素:书名(Title)作者(Author)出版社(Publisher)出版日期(Publication Date)ISBN(International Standard Book Number)分类号(Dewey Decimal Classification or Library of Congress Classification)应用举例:Dublin Core元数据标准:图书馆可以使用Dublin Core元数据标准来描述图书的基本信息。例如,对于一本书,它的Title是"The Great Gatsby",Author是"F. Scott Fitzgerald",Publisher是"Scribner",Publication Date是"1925",ISBN是"9780743273565",分类号是"813/.52"。这些元数据帮助用户在图书馆的数据库中快速找到并了解图书的基本情况。(2)数据内容标准在图书馆管理系统中的应用定义:数据内容标准规定了图书馆系统中记录的具体内容的格式和质量。它们确保所有图书信息的准确录入、更新和查询。关键要素:图书条目格式:例如,每个图书记录必须包含书名、作者、ISBN、库存数量。数据类型:书名和作者为字符串类型,ISBN为定长数字字符串,库存数量为整数。字段长度:ISBN必须为13位数字,书名不超过100字符。必填字段:书名、作者和ISBN为必填项。应用举例:图书登记:在图书馆管理系统中登记新书时,必须按照数据内容标准录入信息。系统会检查ISBN是否符合13位数字的要求,确保没有错误或遗漏。如果库存数量低于某一阈值,系统可能自动触发购书请求。(3)本质区别焦点不同:元数据标准:关注于描述图书的基本信息,以便组织和检索。它们解释了数据的含义和上下文。数据内容标准:关注于图书信息的具体内容和格式,以确保数据的准确性和一致性。它们规定了数据的结构和验证规则。应用目的:元数据标准:使图书的描述信息规范化和标准化,便于管理和访问。数据内容标准:确保图书馆系统中数据的录入、处理和查询符合特定的质量和格式要求,支持系统的有效运行。4、数据质量标准数据质量标准是用于衡量和确保数据准确性、一致性、完整性和及时性的规则和指南。这些标准规定了数据应满足的质量要求,以确保数据能够支持业务决策和操作。以下是数据质量标准的主要维度及举例说明:以下是某银行希望提高其客户数据的质量,以支持精准的营销和客户服务的案例:5、数据交换标准数据交换标准是用于规范数据在不同系统、应用和组织之间传输和交换的规则和格式。通过这些标准,确保数据在不同环境中的传输过程保持一致性、准确性和完整性,从而实现系统之间的互操作性和高效的数据共享。以下是一些常见的数据交换标准及其应用示例:6、数据安全和隐私标准数据安全和隐私标准是用于保护数据在存储、传输和处理过程中的安全性和隐私性的规则和指南。这些标准确保数据在受到未经授权的访问、泄露、篡改和丢失的情况下依然得到保护,并且符合相关的法律法规要求。以下是一些常见的数据安全和隐私标准及其应用示例:7、行业和领域特定标准行业和领域特定标准是针对特定行业或领域的数据管理和交换的规则和指南。这些标准根据行业或领域的特殊需求,规范了数据的定义、格式、传输和处理方法,确保行业内不同系统和组织之间的数据互操作性和一致性。以下是一些常见的行业和领域特定标准及其应用示例:四、数据标准的制定流程1、需求分析需求分析是数据标准制定流程中的重要步骤,旨在识别和明确数据标准的需求,以确保数据标准能够满足组织和业务的实际需要。需求分析的主要任务包括理解业务需求、识别数据问题、定义数据需求和确定标准范围等。(1)理解业务需求与业务部门和数据用户沟通,了解他们的业务流程和数据需求,识别需要标准化的数据项。举例:业务背景:一家零售企业希望改善库存管理,提高库存数据的准确性和一致性。分析过程:与库存管理、采购、销售等部门的负责人沟通,了解他们在库存管理中的数据需求和使用场景。发现:采购部门需要准确的库存数据来进行采购计划,销售部门需要实时的库存数据来防止超卖,库存管理部门需要一致的库存记录来进行盘点和管理。(2)识别数据问题通过数据分析和系统审查,发现当前数据管理中存在的问题,确定需要改进和标准化的地方。举例:问题发现:通过数据审计,发现不同系统(如采购系统、销售系统、库存管理系统)中的库存数据不一致,导致库存数量错误和管理困难。具体问题:采购系统中的库存数据未及时更新,导致采购计划不准确。销售系统中的库存数据未实时同步,导致超卖现象频发。库存管理系统中的数据格式不统一,导致数据整合和分析困难。(3)定义数据需求根据业务需求和数据问题,明确需要标准化的数据项、数据格式、数据质量要求等。举例:(4)确定标准范围根据业务优先级和资源限制,确定数据标准的适用范围和优先级,制定详细的实施计划。举例:优先级确定:优先标准化库存数据,确保采购系统、销售系统和库存管理系统中的库存数据一致。次优先标准化采购数据和销售数据,确保与库存数据的关联性和一致性。实施计划:阶段一:制定和实施库存数据标准,进行系统更新和数据同步。阶段二:制定和实施采购数据和销售数据标准,进行系统更新和数据整合。阶段三:定期审查和优化数据标准,确保持续改进和适应业务需求。2、标准草案的编写在需求分析之后,标准草案的编写是数据标准制定流程中的关键步骤之一。标准草案是对需求分析结果的具体落实,是将需求转化为详细的标准规范文件。标准草案的编写包括定义数据项、制定规则、编写使用说明、确定实施方法及编写示例等步骤。(1)定义数据项详细描述每个数据项的名称、定义、数据类型、长度、格式和取值范围。举例:(2)制定规则制定数据的校验规则、命名规范和数据质量要求等。(3)编写使用说明说明数据标准的应用范围、适用场景和使用方法。举例:应用范围:本数据标准适用于公司内部所有涉及产品信息管理的系统,包括ERP系统、库存管理系统和销售管理系统。适用场景:数据标准适用于产品信息的创建、更新、删除和查询等操作。使用方法:所有系统在处理产品信息时,必须遵循本标准中的数据定义和校验规则,确保数据一致性和准确性。(4)确定实施方法确定数据标准的实施步骤、责任人和时间计划。(5)编写示例提供标准实施的具体示例,便于理解和应用。3、审核与修订在标准草案的编写之后,审核与修订是数据标准制定流程中的关键步骤。该步骤旨在确保标准草案的准确性、适用性和完整性,通过多方审核和反馈,不断优化和完善数据标准草案,以确保其能够有效应用于实际业务中。审核与修订包括内部审核、外部审核、收集反馈、修订草案及最终审定等步骤。(1)内部审核组织内部相关部门和专家对标准草案进行审核。举例:审核团队:包括数据管理部门、业务部门、IT部门的代表和数据治理专家。审核内容:标准草案的定义是否清晰、规则是否合理、应用范围是否适当、实施方法是否可行等。审核会议:召开内部审核会议,逐条审查草案内容,记录审核意见和建议。(2)外部审核邀请外部专家或顾问对标准草案进行评审。举例:专家团队:包括行业专家、学术研究人员和顾问。审核内容:标准草案的行业适应性、先进性和合理性,是否符合行业最佳实践和标准。审核报告:外部专家提交审核报告,详细列出草案中的优点和不足,以及改进建议。(3)收集反馈从审核过程中收集各方意见和建议。举例:内部反馈:记录内部审核会议中的每条意见和建议。外部反馈:整理外部专家的审核报告,提取关键建议和意见。反馈汇总:将所有反馈意见汇总,分类整理,形成问题清单和改进建议列表。(4)修订草案根据收集到的反馈对标准草案进行修订和完善。举例:问题识别:从反馈中识别标准草案中的问题,例如定义不明确、规则不合理、实施方法不详细等。草案修订:逐条修改草案内容,明确数据项定义、优化规则、细化实施方法等。修订版本:形成修订后的标准草案,并标注修订内容和理由。(5)最终审定组织最终审核会议,通过修订后的标准草案,形成正式的标准文件。举例:审定会议:召集审核团队和关键利益相关者,召开最终审定会议。审定流程:逐条审议修订后的草案,确保所有问题已解决,所有建议已采纳。通过决议:通过会议决议,正式通过修订后的标准草案,形成最终的标准文件。标准发布:将最终的标准文件发布给相关部门和人员,进行培训和宣传,确保标准的有效实施。4、发布与实施审核与修订之后,发布与实施是数据标准制定流程中的关键步骤。这个阶段的目标是正式发布经过审核和修订的数据标准,并确保这些标准在实际业务中得到有效应用和遵守。发布与实施包括标准发布、培训和宣传、实施计划、系统更新及监控与反馈等步骤。(1)标准发布正式发布经过审核和修订的数据标准。举例:发布方式:通过企业内部邮件、内部公告、企业内部知识库等方式发布数据标准文件。文件内容:标准文件应包括数据项定义、规则说明、应用范围、实施方法等详细内容。通知对象:所有相关部门和人员,包括数据管理部门、业务部门、IT部门等。(2)培训和宣传对相关人员进行培训,确保他们理解和掌握数据标准的内容和应用方法。举例:培训计划:制定培训计划,包括培训时间、地点、培训内容和培训对象。培训内容:详细讲解数据标准的背景、目的、具体内容和应用方法。培训方式:可以通过面对面培训、在线培训、培训手册等多种方式进行。考核与评估:对培训效果进行考核和评估,确保培训目标达到。(3)实施计划制定详细的实施计划,包括具体步骤、时间安排、责任人等。举例:实施步骤:阶段一:系统准备阶段,进行系统评估和准备工作。阶段二:系统更新阶段,对现有系统进行更新和改造。阶段三:数据迁移阶段,将现有数据转换为符合新标准的数据格式。阶段四:上线阶段,新标准正式在所有系统中应用。时间安排:为每个实施步骤制定具体的时间表。责任人:明确每个实施步骤的责任人和参与人员,确保责任明确。(4)系统更新对现有系统进行必要的更新和改造,以支持新的数据标准。举例:系统评估:评估现有系统对新数据标准的兼容性,识别需要更新和改造的部分。系统改造:进行必要的系统开发和测试,确保系统能够支持新数据标准。数据迁移:将现有数据转换为符合新标准的数据格式,确保数据一致性和准确性。(5)监控与反馈建立监控机制,确保数据标准在实施过程中得到遵守,并收集反馈以便进一步改进。举例:监控机制:建立数据标准实施的监控机制,定期检查数据标准的执行情况。反馈收集:收集实施过程中遇到的问题和建议,记录在案。持续改进:根据收集到的反馈,进行必要的调整和改进,优化数据标准和实施流程。五、数据标准的治理数据标准的实施与管理是确保数据标准在组织内被正确应用和维护的关键过程。以下将针对实施过程中的挑战、解决方案进行说明和举例。1、实施过程中的挑战(1)数据质量差异描述:组织内不同系统和部门的数据质量存在差异,导致数据整合和标准化过程中出现问题。举例:在一个多业务部门的企业中,财务部门和销售部门的数据质量标准不一致,导致财务报告和销售报告的数据难以统一和分析。(2)部门间的协作问题描述:不同部门在数据标准实施过程中缺乏协作,导致标准的推广和执行困难。举例:在一个大型制造企业中,生产部门和物流部门对数据标准的理解和执行不同步,导致生产计划和物流安排的协调出现问题。(3)技术实现难题描述:现有的技术基础设施可能无法完全支持新的数据标准,导致实施过程中的技术难题。举例:在一个老旧的银行系统中,核心银行系统的技术架构难以支持新的客户数据标准,导致数据标准的实施需要进行大量系统改造。2、解决方案(1)建立跨部门的数据管理团队描述:成立一个包含各部门代表的数据管理团队,确保数据标准实施过程中的协作和一致性。举例:在一个零售企业中,成立由IT部门、销售部门、采购部门和数据管理部门组成的数据管理团队,共同制定和实施数据标准,确保各部门的需求和标准一致。(2)使用数据管理工具描述:引入先进的数据管理工具,支持数据标准的实施和管理,提高数据质量和一致性。举例:在一个电商平台中,引入数据质量管理工具(如Informatica、Talend等),对客户数据进行清洗、验证和标准化处理,确保数据的一致性和准确性。(3)定期审查和更新数据标准描述:定期对数据标准进行审查和更新,确保标准能够适应业务变化和技术发展。举例:在一个金融机构中,每半年对数据标准进行一次全面审查,根据业务需求和技术进展对标准进行调整和优化,确保数据标准的持续有效性。六、数据标准的应用案例1、某传统行业型做法和成效背景:A公司是中国某特大型国有重点骨干企业,面对海量、多源、异构的数据,迫切需要建立统一的数据标准,以支撑数据的有效管理和利用。做法:(1)成立数据标准工作组,统筹规划和推进数据标准的制定和实施。(2)基于国家标准和行业标准,结合公司业务特点,制定了一系列企业级数据标准,包括数据元标准、数据编码标准、数据质量标准、数据安全标准等。(3)建立数据标准管理平台,支持标准的在线查询、下载和应用。(4)将数据标准嵌入数据管理流程,如数据采集、清洗、存储、交换等环节,确保标准的落地执行。(5)开展数据标准宣贯培训,提高全员的标准意识和应用能力。成效:(1)形成了覆盖全业务、全流程的数据标准体系,实现了数据的标准化采集、存储和交换。(2)提高了数据质量,业务数据的完整性、准确性和一致性显著改善。(3)促进了数据共享,不同部门、不同系统间的数据交换更加顺畅,数据孤岛问题得到缓解。(4)降低了数据管理成本,数据标准化减少了数据清洗和转换的工作量。(5)为各类数据应用奠定了基础,如数据分析、数据挖掘、辅助决策等,释放了数据价值。2、某传统互联网行业型做法和成效背景:B公司是全球领先的电商平台,业务涉及零售、金融、物流、云计算等多个领域。随着业务的快速发展,B公司积累了海量的用户数据、交易数据、物流数据等,亟需通过数据标准化来提升数据管理和数据应用的效率。做法:(1)设立数据委员会,负责顶层设计和统筹推进数据标准化工作。(2)制定B公司数据标准体系,涵盖概念标准、指标标准、维度标准、业务规则标准等内容。(3)建立统一的数据资产平台,基于数据标准实现数据的统一采集、存储、加工和服务。(4)推行数据标准在各业务线的应用,如在数据仓库、数据集市、数据报表等场景中广泛使用标准化的数据。(5)建立数据标准的持续优化机制,根据业务变化动态调整和更新标准。成效:(1)打通了各业务领域的数据壁垒,实现了全域数据的标准化管理和共享应用。(2)提升了数据质量,为数据分析和决策提供了可信的数据基础。(3)加速了数据应用的开发和交付,标准化的数据接口和数据服务大大提高了数据供给的效率。(4)促进了业务协同,基于标准化的数据,不同业务部门能够高效协作,促进业务创新。(5)增强了数据治理,通过数据标准的执行,提高了数据管理的规范性和可审计性。以上两个案例,都是以业务需求为导向,自上而下推动数据标准的制定和实施,并将数据标准深度融入数据管理流程和数据应用场景,从而实现了数据管理效率和数据价值的双提升。当然,每个企业的数据状况和业务特点不尽相同,在实际实施中还需要因企制宜,探索符合自身实际的数据标准之路。
查看详情数据指标体系构建一文读懂
几乎所有的数据分析工作都会提到一个词——“建立数据指标体系”,虽然这个词对于大家来说并不陌生,但是数据指标到底是什么以及如何具体的搭建,很多人还是一头雾水的。今天就来展开讲讲~一、数据指标概述在了解什么是数据指标之前,我们思考一下:为什么会出现指标?它是为了解决什么问题?人类及科学的发展是与时俱进的,早期为了使自然科学的实验及结果更具统一性及方便标准化衡量,一些标准化的专业指标应运而生。随着人类社会的发展,社会科学也越来越需要统计学来进行事物的衡量,一系列统计学指标也逐步产生了。随着新信息技术的发展,数据指标逐步被大众认可为衡量目标的方法。从社会科学角度看,指标是统计学的范畴,用于数据的描述性统计。指标是说明总体数量特征的概念及其数值的综合,故又称为综合指标。在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。传统的指标有国内生产总值(Gross Domestic Product,GDP)、国民生产总值(Gross National Product,GNP)、居民消费价格指数(Consumer Price Index,CPI)、沪深300指数等。1、什么是数据指标?数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。数据指标需要对业务需求进行进一步抽象,通过埋点进行数据采集,设计一套计算规则,并通过BI和数据可视化呈现,最终能够解释用户行为变化及业务变化。常用的数据指标有PV、UV等。本文所述的指标是衡量目标的方法,指标由维度、汇总方式和量度组成,如下图所示。其中,维度是指从哪些角度衡量,是看待事物的视角与方向,决定了根据不同角度去衡量指标。汇总方式是指用哪些方法衡量,是统计汇总数据的方式。而量度主要是明确事物的具体目标是什么,是对一个物理量的测定,也用来明确数据的计量单位。比如,播放总时长是指用户在一段时间内播放音频的时长总和(单位:分钟)。按照上述拆解,维度是指筛选的一段时间,汇总方式为计算了时间长度的总和,而量度就是统一的单位—分钟数。这里,我们可以理解为指标是由这几个方面构成,相当于英文的构词法,前缀、后缀等共同形成了一个单词。2、什么是指标体系?体系化的本质是将数据指标系统性地组织起来,具体会按照业务模型、按标准对指标不同的属性分类及分层。当然,不同的业务阶段、不同业务类型会有不同阶段的划分标准。数据指标体系含有十分丰富的统计量,从宏观上看,它是一个相对全面的有机整体;从微观上看,每个数据指标都有其特定含义,反映了某一细节的客观事实。不同的数据指标定义不同,逻辑也不同,这些各种各样的统计量共同构成了数据指标体系,使其产生不可磨灭的价值。总的来说,数据指标体系是对业务指标体系化的汇总,用来明确指标的口径、维度、指标取数逻辑等信息,并能快速获取到指标的相关信息。二、数据指标体系搭建原则1、搭建指标体系要有重点不能只是罗列指标,这是很多数据分析师都会犯的通病,上来先把大量的指标列好,也不说明优先级,先看哪个后看哪个,业务根本就看不懂。2、搭建指标体系要有目标很多人习惯了列指标,自有一套指标拆分的套路,不管我们要解决的业务问题是什么,反正就是按照时间、渠道、区域等纬度拆分,分来分去也没个具体的标准,最后还要纠结到底指标变化多少才是问题。3、指标体系不是越全越好,和业务最贴切的才是最好的这个之前的指标体系文章里反复强调了,写文章的时候会为了吸引眼球,标题写XXX行业指标体系大全,虽然给大家整理指标体系的时候尽量概括多个业务场景,指标列的很详细,但是不同的公司,业务复杂不一样,没有一套指标系统是能够通用的,只有和业务最贴切的才是最好用的。三、如何设计和落地指标体系指标体系的搭建分为两大步骤:设计指标体系和落地指标体系,这两大部分又可以拆成一些小步骤,我们先来看一张指标体系从设计到落地的整体步骤图,下面再根据这张图细分拆解其中的每个步骤是怎样落地的。1. 如何设计指标体系?1)需求来源主要需求来源随着产品生命周期而改变。搭建数据指标根据数据现状分为初中后三个阶段。首先要明确的是先有目标方案后再有数据指标,而不是凭空捏造出一些指标体系然后往产品上套。在数据指标搭建初期以产品战略目标为主,优先搭建北极星指标的全方位指标监控;中期以业务驱动为主,搭建指标衡量现有业务,业务驱动直接获取到的指标一般是二级指标,需要整合到指标模型里面去;到了后期,此时各数据指标已经搭建的差不多了,是时候根据模型查缺补漏,搭建针对产品的指标闭环,通过数据来反向推动产品的迭代优化。2)确定一级指标一级指标其实就是反映产品在各个重要方面的运营情况怎么样,把对用户的运营当成一个流水线,围绕着用户生命周期即可挖掘到一些重要的一级指标并自然而然的形成闭环。在众多指标模型中AARRR模型能很好的概括用户的生命周期,美中不足的是遗漏了用户流失这一环节,个人觉得AARRRR比较能完整概括用户生命周期,即Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(收入)、Referral(自传播)、Recall(召回)。围绕这六大方面,可以拓展以下一级指标(只是举例一些通用指标,具体的一级指标可根据具体业务进行定义):3)得到二级指标二级指标由一级指标衍生而来,为了实现一级指标,企业会采取一些策略,二级指标通常与这些策略有所关联。可以简单理解为一级指标的实现方式,用于替换定位一级指标的问题。二级指标的作用就是将一级指标的涨跌落实到具体的业务部门或者是责任人,通过成分拆解我们可以从一级指标得到对应的二级指标。例如收入这个一级指标,通过成分拆解可以分为广告收入和内购收入等。4)得到三级指标通过二级指标的分析可以找到相应问题的责任方,而三级指标的作用正是指导该责任方去定位具体问题,进而修复问题。通过对二级指标的路径拆解即可得到三级指标,一线人员可通过三级指标的具体表现快速做出相应的动作,所以三级指标的要求是尽可能覆盖每一个关键路径上的关键动作。这里继续拿内购收入这个指标举例,通过路径拆解,最终促成内购的关键行为路径是:浏览商品、加入购物车、提交订单、支付成功。按照以上流程不断查缺补漏确定各一级指标并对其进行逐步拆解,即可搭建出一套行之有效的数据指标体系。2. 如何落地指标体系?终于到了开干时候,有了目标之后接下来就是将规划的指标进行埋点落地了。落地指标就不像设计指标那样首先着眼于一级指标,而是应该首先着眼于二级指标,因为一级指标是由二级指标组成的,二级指标埋点好了之后一级指标自然而然地可以计算出来。埋点不是一个人的事情,需要各部门通力合作,下图就是埋点的整个设计到落地的流程:不知看完这张图有没有一个疑惑,责任方为什么还要去理解熟悉需求,需求方不是给出指标了吗,照着去埋点就好了啊。如果你这么想的话,那你注定只能做一个工具人。首先各指标跟具体的业务逻辑设计紧密相关的,如果你不去熟悉业务,是无法针对指标进行多维度细化埋点设计的,最终设计出来的埋点方案必定是丢三落四漏洞百出。再者需求方给出的指标不一定是全面的,需求方往往数据意识不强,无法洞察到当前业务的很多细节是数据可分析的。所以这就需要数据产品经理熟悉业务懂产品懂用户,才能一针见血设计出一套有指导性意义的埋点方案,而不是照本画葫芦搞出一些冷冰冰的数据看看就好,要记住,每一个埋点都是有深意的,数据也是有灵魂的。明确了埋点的工作流程,接下来要确定的是选择自研数据门户还是使用第三方工具,如:神策、Growing IO、诸葛IO等。这两者主要有以下区别:自研工作量大,搭建周期长,第三方提供现成的模型,搭建周期短。自研更灵活,相对埋点实施方上报数据更友好,无需过多无谓的逻辑记录,在后期的指标计算方式上可以随心所欲,如某些耗时只要打好点,自研就可以通过两个事件的时间差计算出耗时,而有些第三方则不支持。总之,自研前期痛苦后期爽,第三方前期爽后期痛苦。从实现难度上来说自研需要的人力物力远远大于第三方服务,绝大部分中小公司会选择第三方服务,下面的埋点介绍就基于第三方服务的方式进行讲解。老规矩,在讲解之前先上一张整体的流程图:1)埋点规范文档正如前面所说,指标体系的搭建需要各部门通力合作,一份埋点规范文档既能规范工作流程提高效率,又能明确需求规范减少沟通成本避免理解出现偏差。埋点规范文档包括了工作流程规范、命名规范、需求文档规范等,这些应该在指标体系落地之初就规定好。当然由于一开始经验不足并且有的问题在后续的工作中才会暴露出来,初版的规范文档可能并没有那么详细,但是大体框架还是要有的,后续再补充一些细枝末节的东西。2)拿到需求原型就是产品功能原型或者活动原型。3)定义页面、元素名称拿到需求原型后,首先将原型里面的页面及页面中的元素名称提前定义好,以便后续进行统一使用避免不同指标出现页面命名不一致的情况。如果是页面的话建议全部命名,页面里面的元素可能会有点多,可以挑一些关键路径上的重要元素进行命名,其它元素视后续工作需求再进行埋点(当然了有精力的话全部命名进行监控是更好的,毕竟数据是多多益善,避免后续需要用数据发现没有埋点的情况发生)。4)定义事件名称为什么要规范事件名称?我直接举个例子吧,某天你想查看用户的使用路径,当你使用用户路径分析之后发现有大量的展示事件穿插在用户行为事件中,这时候你是不是很恼火。如果之前埋点的时候对事件进行规范命名,这时候你只需要在筛选条件中过滤掉事件名前缀为展示的事件,就可以轻松过滤掉所有跟用户行为无关的事件。事件规范命名除了以上好处,还有个好处就是方便需求方使用,使用者可以通过事件名轻松知道这个事件具体的含义,提高了使用效率,事件命名可由以下几部分组成:行为、对象、结果、类型。行为:事件的具体行为,主要有 4 类:点击 – 点击某个按钮或元素的一类事件。进入 – 进入某个页面或功能的一类事件。展示 – 展示某个页面或元素的一类事件。退出 – 退出某个页面或功能的一类事件。事件行为必须填写,后续可按实际情况增加其他行为。对象:事件行为对应的具体对象可以是页面,或者是功能,事件对象必须填写。结果:对该对象进行的行为最终的结果,主要有3类:成功 – 针对该对象进行的行为结果为成功。失败 – 针对该对象进行的行为结果为失败。结果 – 针对该对象进行的行为结果为成功或者失败,此时具体结果存储在该事件的维度中,事件结果必须填写。类型:此参数为拓展参数,如展示事件可能展示的是页面,也可能展示的是弹窗,这时候在事件后面加个页面后缀或者弹窗后缀,后续使用起来就能很方便的区分事件的具体类型。事件类型为可选参数,视情况而定。以上就是事件的命名标准,可以从该标准进行如下一些命名:注册_指标_成功、进入_充值页面_成功等。5)梳理指标维度这时候就要隆重介绍一下前面《指标体系搭建流程图》中提到的新4W1H分析法了。为什么叫新4W1H,因为针对传统的4W1H进行了新的的解释,在新的释义上可以更加合理的加上本人在实际工作中总结的经验。根据平时的埋点总结,事件维度主要由主题和事件因果几个大维度组成。主体即用户、设备和应用,因果即这个事件的来源和结果。通过增加因果维度可以方便的看到一个事件的来源和去向。我们先用一张图来了解下新4W1H分析法是如何定义维度的:Who:触发该事件的主体,是唯一区分用户的标志,如果用户登录了则使用用户ID(设备ID也需要记录),未登录则使用设备ID。When:事件发生的时间,使用UNIX时间戳就好。What:描述触发这个事件的参与主体具体信息,一般有三个主体,用户本身、应用、还有设备。使用第三方服务的话除了用户信息需要我们埋点设置,其他的第三方SDK都会自动采集,所以这部分参数不是我们工作的重点。Where:事件发生的物理地点,可以用过GPS、LBS、IP来判断,具体视用户的授权而定。位置信息第三方SDK也会自动采集。How:事件的具体描述,这一块才是我们工作的重点,缺乏经验的话往往会遗漏一些重要的维度,导致后续的分析支持不上。根据个人总结的因果分析法可以将事件的描述分为来源和结果描述,事件的来源去向无非有两类:多个行为造成同一个结果、一个行为造成不同结果。例如:进入充值页面,可能从不同入口进来的;点击充值按钮,可能会充值成功或者充值失败。事件的结果即为对该事件的具体信息描述。通过因果分析法进入充值页面到充值成功这一系列行为我们可以做以下事件埋点(以下事件维度只列举因果分析法相关维度,其它参数视具体业务自由增加)。通过这样的埋点,我们就可以很清晰的知道进入充值页面各个入口的分布情况,也能知道点击充值按钮后充值成功和失败的分布。6)明确上报时机事件的上报时机由事件的定义来具体决定。主要有以下三大类:展示:展示时候上报,需要明确重复展示是否重复上报,像那种自动轮播的banner就不需要重复展示重复上报,因为这样的重复上报是没什么意义的,而用户反复滑动导致的重复展示可以重复上报;点击:点击时上报,这个是最简单的上报时机,一般没什么争议;接口:这个涉及到与后端的接口交互,如前面举例的购买_金币_结果事件,上报时机则为充值成功或者失败时上报,即客户端拿到后端返回的具体结果时上报。7)输出数据需求文档当上面工作已经做完时,就可以输出需求文档了,需求文档主要包含以下信息:8)录入指标字典埋点指标上线后,为了方便业务方使用,可以将各指标按照业务分为不同的主题,方便使用者快速找到需要的指标,具体包含以下信息:四、数据指标体系搭建方法及经验那怎么才能搭建有效的指标体系呢,笔者给大家分享以下几点经验:1、掌握基本的思维模型,全面洞悉业务数据分析离不开业务,了解业务是我们搭建指标体系的前提,掌握一些基本思维模型,可以帮助我们快速、全面的洞察业务。1)5W2H模型经典的数据分析思维模型。以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,即何因(why)、何事(what)、何人(Who)、何时(When)、何地(where)、如何做(How)、何价(How much)。5w2h能帮助我们培养一种严谨全面的思维模式,让分析的过程更加全面更有条理,不会产生混乱和遗漏,当你觉得你的指标体系已经很完美的时候,可以用这个模型来帮助你肯找到思维的漏洞。2)逻辑树方法及MECE原则逻辑树方法可以帮我们将复杂的业务问题拆解成多个简单问题,从而帮助我们拆分更细的数据指标。Mece原则的意思是“相互独立,完全穷尽”,我们搭建指标体系的一个重要标准就是不重复不遗漏,运用mece原则可以很好的帮助我们把握核心指标,提升指标系统的有效性。3)商业画布商业画布是一种分析企业价值的工具,通过把商业模式中的元素标准化,引导我们的思维,将业务知识素材归档,在了解业务的过程中,我们可以按照下面张图来完善填充,从多个角度全面的洞察业务除了上面的思维模型,最好的了解业务的方式就是和业务方多交流,认识当前业务的关键问题,毕竟建立完善系统的指标体系需要很长一段时间,最好从部分关键点开始,先解决问题。2、指标体系搭建方法论对应业务场景的指标体系有相应的方法论,比如基于用户生命周期的指标体系AARRR、客户满意度指标体系等等,简单给大家分享几个:1)第一关键指标这个概念是我在《精益数据分析》中看到的,指的是当前阶段无比重要的第一指标,同时也指出了在创业阶段的任意时间点上应该且只关注一项重要指标。这个概念在我们搭建数据分析指标体系的时候同样有指导意义。先抓住公司当前阶段的“第一关键指标”,然后再把这个指标拆解到各部门,形成各部门的“第一关键指标”,也就是我们说的OKR,或者是KPI,然后再根据各部门的业务,基于这个第一关键指标思考应该关注哪些细化的指标。2)基于用户生命周期的指标体系:AARRR3)客户满意度指标体系:RATER指数模型总之,关于指标体系的搭建可以先模仿再优化,重点是解决业务问题,我整理的一些特定业务场景的指标体系,可以先模仿套用,再根据业务形态加以调整,快的话,2个小时一个指标体系即可搭建完成。05数据指标体系的价值点数据分析什么要搭建指标体系?有什么用?可能大部分人都说不清楚。在笔者看来,搭建指标体系的价值主要有3点:1、建立业务量化衡量的标准指标体系可以建立业务量化衡量的标准,数据分析的目的就是说明、衡量、预测业务的发展。比方说衡量一个门店经营的状况,一个门店月净利润20万元,刚看这个指标感觉这个店盈利不少,发展应该不错但是再一看前两个月的净利润,发现前两个月的净利润都是40万以上,增加了这一个指标,我们就发现了这个店的经营状况可能存在问题了。在衡量业务经营状况的过程中,单一数据指标衡量很可能片面化,需要通过补充其他的指标来使我们的判断更加准确。因此,搭建系统的指标体系,才能全面衡量业务发展情况,促进业务有序增长。2、减少重复工作,提高分析效率有了指标体系,数据分析师就可以少干点临时提数的活,指标体系建立后应该能覆盖大部分临时数据分析需求,如果指标体系搭建完了,还是有很多临时的分析需求涌现,那证明这个指标体系是有问题的。3、帮助快速定位问题建立了系统指标体系,有了过程与结果指标,有了指标的前后关联关系,就可以通过回溯与下钻,快速找到关键指标波动的原因,老板让你分析原因,再也不用愁眉苦脸了。不过这些价值发挥的前提是建立合理、有效的指标体系,且数据质量有保证,数据质量都不能保证,指标体系搭的再好,分析出来的结果也没什么意义。免责声明:本文转自大鱼的数据人生,文章版权归原作者所有,仅供读者学习、参考,禁止用于商业用途。因转载众多,无法找到真正来源,如标错来源,或对于文中所使用的图片、文字、链接中所包含的软件/资料等,如有侵权,请联系删除,谢谢!
查看详情浅谈金融行业数据安全分类分级
数据安全管理是一项从上而下的、多方配合开展的工作。在进行数据安全管理组织架构建设时,需要从上而下建设;从而全面推动数据安全管理工作的执行和落地;以保证数据安全的合法合规、并长效推动业务的发展和稳定运行。金融行业机构应设立数据安全管理委员会,建立自上而下的覆盖决策、管理、执行、监督四个层面的数据安全管理体系,明确组织架构和岗位设置,保障数据生命周期安全防护要求的有效落实。决策层:作为数据安全管理工作的决策机构,主责工作职责为提供数据安全建设必要的资源,对重大安全事件进行协调与决策等。管理层:由科技、安全、业务、法务、审计等相关部门负责人组成,主要职责是建立数据安全工作机制、管理策略和制度体系,组织开展数据安全全面落地工作。结合监管要求和业务发展需求,组织制订数据安全整体解决方案,提升数据安全管理工作水平。执行层:职责主要在于聚焦在数据安全任务与工作上,落实数据安全管理工作要求。监管层:由审计部门、合规部门等相关工作人员构成,主要负责稽查、设计等相关工作。一、政策解读以下是人行和金融监管总局关于数据安全管理办法与要求的部分内容。《金融监管总局银行保险机构数据安全管理办法(公开征求意见稿)》共九章八十一条。包括总则、数据安全治理、数据分类分级、数据安全管理、数据安全技术保护、个人信息保护、数据安全风险监测与处置、监督管理及附则。《办法》中明确了数据安全治理架构,通过责任制、归口管理部门、业务部门、风险合规与审计部门、数据安全部门的职责划分,明确组织架构分工。要求银行保险机构指定数据安全归口管理部门,作为本机构负责数据安全工作的主责部门,承担制定数据安全管理制度标准、建立维护数据目录、推动数据分类分级保护、组织开展数据安全风险监测、应急响应及处置等职责。银行保险机构应当按照“谁管业务、谁管业务数据、谁管数据安全”的原则,明确各业务领域的数据安全管理责任,制定数据分类分级保护制度,建立数据目录和分类分级规范,将数据分为核心数据、重要数据、敏感数据、其他一般数据,并采取差异化的安全保护措施,落实数据安全保护管理要求。另外,关于人行JR/T 0197-2020《金融数据安全 数据安全分级指南》于2020-09-23发布并实施,数据安全分类参考分了4级,其中一级分为客户、业务、经营管理、监管四类数据。将影响程度分为四级:严重损害、一般损害、轻微损害、无损害。根据影响程度,将数据安全级别从高到低划分为5级、4级、3级、2级、1级。(个人金融信息保护技术规范中安全级别定义为C3、C2、C1类,这里分别对应4级、3级、2级),5级涉及影响国家安全,4级是普通金融机构最高级别数据,3级以上在公众认知里即可识别为重要数据/敏感数据,2级为企业机构内部办公常用数据,1级基本上为可公开数据。针对银行/保险同业内部实践,大部分机构接触不到5级数据,1级数据无需特定安全措施,重点还是在4级到2级之间的安全管控。数据安全性遭到破坏后可能造成的影响(如可能造成的危害、损失或潜在风险等),是确定数据安全级别的重要判断依据,主要考虑影响对象与影响程度两个要素。影响对象指金融业机构数据安全性遭受破坏后受到影响的对象,包括国家安全、公众权益、个人隐私、企业合法权益等,影响对象的确定主要考虑的内容如下表:影响程度指金融业机构数据安全性遭到破坏后所产生影响的大小,从高到低划分为严重损害、 一般损害、轻微损害和无损害。数据定级,各级数据特征:《人行JR/T 0197-2020 金融数据安全 数据安全分级指南》根据金融业机构数据安全性遭受破坏后的影响对象和所造成的影响程度,将数据安全级别从高到低划分为5级、4级、3级、2级、1级,一般具有如下特征:金融数据安全,主要是指确保金融数据在其生命周期各阶段的安全性,通过采取相应措施,将数据安全性遭受破坏可能带来的安全影响降至最低或降至可接受的范围内。1级数据基本为公开数据,原则上无保密性要求,其安全防护应参考JR/T 0197文件有关完整性及可用性安全要求;而2级至4级数据的安全保护应综合考虑安全需求与业务需求,根据数据安全的级别不同,有侧重地采取相应的数据安全防护措施;其中,对于2级数据应优先考虑业务需求,4级数据应优先考虑安全需求,5级数据的保护应按照国家及相应主管部门的有关要求规定执行。对照之前的监管发文要求,建议可采取以下映射思路进行分级工作,仅供参考。《人行JR/T 0197-2020 金融数据安全 数据安全分级指南》数据安全分类分级示例表格部分内容如下:《人行JR/T 0197-2020 金融数据安全 数据安全分级指南》数据安全定级规则参考如下:新变化、新合规:2023年7月23日,中国人民银行起草的《中国人民银行业务领域数据安全管理办法(征求意见稿)》,《办法》共八章,共五十七条,包括数据分类分级、数据安全保护总体要求、数据安全保护管理措施等,其中第二章数据分类分级部分。二、实施路径数据安全治理工作步骤建议:数据分类分级工作步骤建议:数据分类分级操作流程建议:参考金融行业遵从的数据分类分级要求,结合数据资产梳理情况细化,从而形成数据分类框架。根据用户数据分级需求、行业监管要求等内容制定数据级别,遵从国家、金融行业、监管等相关要求,明确数据分级要素及内容,包括安全等级、重要程度、影响对象、影响范围、影响程度等。数据安全定级旨在对数据资产进行全面梳理并确立适当的数据安全分级, 是金融业机构实施有效数据分级管理的必要前提和基础,数据分级是建立统一、完善的数据生命周期安全保护框架的基础工作,能够为金融业机构制定有针对性的数据安全管控措施提供支撑。三、工具赋能以下是Datablau DDS数据安全管理平台针对数据分类分级的功能实践。数据分类分级:数据分类分级管理 - 协同分类分级:数据分类分级管理 - 智能分类分级:识别规则类型主要包括:一般规则、血缘级联规则、机器学习规则。1)一般规则:新建一般识别规则,可以依赖信息项,也可以不依赖于信息项,不依赖信息项是直接识别数据,如果要选择不依赖信息项,那就选择“安全分类”的选项。识别规则可以多个子条件的“与”,“或”组合之后形成当前识别规则条件。2)血缘级联规则:血缘级联规则识别方向当前支持下游。3)机器学习规则:算法学习的目标有:1.对表进行分类,2.对字段进行分类(依赖已分类的表),3.对字段进行分类(不依赖已分类的表),4.信息项。选择算法学习的目标之后,需要选择对应的安全分类或者对应的信息项;可以进行评分阈值(对分类结果的分数),推荐结果(最终识别结果中推荐的结果条数)的填写。最后,由数据安全管理部门以及业务部门共同确认数据类别和级别划分的合理性、恰当性,并进行评审和发布,输出数据分类分级清单。四、应用场景应用场景1:基于数据分类分级驱动的数据资产安全管控。应用场景2:基于数据安全管理体系的数据自助式分析与数据岗权。
查看详情