符合业务目标的数据战略建设

哈佛商业评论-《您公司的数据是否已准备好用于生成式人工智能》

哈佛商业评论今年三月发布了一篇《您公司的数据是否已准备好用于生成式人工智能》的文章引起广泛关注。

1.png

许多组织对生成式人工智能感到兴奋,他们正在动员起来开展。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队正在考虑开发哪些用例。个人和部门正在试验该技术如何提高他们的生产力和效率。

然而,对生成式人工智能的成功真正重要的工作落在了首席数据官 (CDO)、数据工程师身上。2023年下半年对334名CDO和组织中的数据领导者进行的一项调查(由亚马逊网络服务和麻省理工学院首席数据官/信息质量研讨会赞助)以及对这些高管的一系列采访发现,虽然他们和其他人一样对生成式人工智能感到兴奋,但他们还有很多工作要做才能做好准备。特别是在数据准备方面,公司尚未创建新的数据战略或开始管理数据,以使生成式人工智能为他们服务。我们将描述调查结果以及这对数据下一步的建议。

■ 生成式人工智能令人兴奋,但价值尚小

2023年是许多组织发现AI并惊叹其潜力的一年。就其功能而言,AI历来使用结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据(文本、图像甚至视频)来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助和竞争。CDO和数据领导者对这项技术充满热情:80%的人同意它最终将改变其组织的业务环境,62%的人表示其组织计划增加对生成式人工智能的支出。这项技术也为他们的角色带来了很多关注;一位CDO在接受采访时表示,生成式人工智能让她成为了“舞会上的花魁”。然而,受访者表示,大多数受访者尚未从使用生成式人工智能中获得实质性的经济价值。当被问及他们的组织如何应对生成式人工智能时,近三分之一的受访者表示他们正在“在个人层面进行实验”,而不是为企业创建用例。另有21%的受访者表示他们正在实验,但有针对员工的使用指南。比例略小的19%的受访者正在部门或业务部门层面进行实验。最重要的是,只有6%的受访者在生产部署中采用了生成式人工智能应用程序。令人惊讶的是,16%的受访者指出,他们的组织已经禁止员工使用,尽管随着公司使用企业版生成式人工智能模型处理数据隐私问题,这种方法似乎随着时间的推移正在减少。如果一家公司打算尝试生成式人工智能,那么它应该成为业务的核心方面。一家正在积极尝试生成式人工智能进行研发的公司是环球音乐。该公司对这项技术的强烈兴趣并不令人意外,因为生成式人工智能可以创作音乐、写歌词和模仿艺术家的声音。环球音乐正在探索如何将生成式人工智能用于音乐和音乐视频,以保护艺术家的知识产权。它正在进行另一项实验,使用环球艺术家的声音(经他们许可和参与)创建歌曲曲目的AI版本。它还对一家AI提供商采取了法律行动,以保护其艺术家的版权。政策和概念验证可能很有用,但它们不会产生经济价值。要让生成式人工智能真正对公司有价值,他们需要使用自己的数据定制供应商的语言或图像模型,并做好内部工作以准备用于这种集成的数据。

■ 准备数据

如果要让使用生成式人工智能发挥巨大作用,那么生成式人工智能所使用的相对非结构化数据需要经过精心筛选,以确保其准确性、时效性、独特性和其他属性。质量低劣的内部数据将导致生成式人工智能模型产生质量低劣的响应。我们调查中的许多数据领导者都认同这一挑战:46%的人认为“数据质量”是其组织实现生成式人工智能潜力的最大挑战。摩根士丹利财富管理公司(生成式人工智能的早期采用者)的首席数据、分析和创新官Jeff McMillan描述了其中涉及的一些问题:

我们已经整理基于文档的知识大约五年了。这并不是因为我们期待生成式人工智能,而是因为人们对我们现有内联网内容的质量水平不满意。因此,通过解决这个问题,我们无意中为生成式人工智能做好了准备。

每一篇研究内容都必须由合规人员审核,因此我们知道培训内容质量非常高。即使是非研究内容,我们也有团队根据标记要求、预先提供摘要等问题对个人提交的内容进行评分,并给每篇文档打分。我们还必须花费大量时间考虑不同的内容集并优化结果……这些大型语言模型并不能解决数据源分散的问题。公司需要先解决数据集成和掌握问题,然后再尝试使用生成式AI访问数据。

然而,大多数数据领导者尚未开始对其数据策略做出必要的改变。虽然93%的受访者同意数据策略对于从人工智能中获取价值至关重要,但57%的受访者表示,他们迄今为止尚未对其组织的数据做出任何改变。只有37%的人同意(只有11%的人非常同意)他们的组织拥有适合人工智能的数据基础。换句话说,大多数组织要做大量工作才能在其业务中广泛应用人工智能。那些已经开始做出改变的数据领导者专注于一些特定的任务。四分之一的组织正在进行数据集成或数据集清理。其中18%的人正在调查可能支持使用生成式人工智能的数据。17%的人正在整理文档或文本,为特定领域的genAI模型做准备。例如,默克集团首席数据和人工智能官 Walid Mehanna 强调了几种数据准备类型的重要性:

如果我们想做人工智能,我们需要把它建在混凝土上,而不是流沙上。我们正在使流程和数据供应保持良好状态。我们正在研究数据清单和目录、具有新数据结构和元数据层的数据结构、数据管道和临时自助洞察生成。我们相信,生成式人工智能将成为未来从数据中创造洞察的关键方式。

赛诺菲研发部首席数据官 Raj Nimmagadda 也表示,公司正在为生成式人工智能准备数据,并告诉我们,生成式人工智能成功“取决于高质量、‘业务就绪’的数据,这些数据由强大的数据基础、数据治理和标准指导。”他表示,赛诺菲目前正在其研发部门投资打造这些核心能力。与一般的数据转换一样,对于大多数组织来说,整理、清理和集成所有非结构化数据以用于生成式人工智能应用程序将是一项艰巨的工作。因此,大多数公司应该专注于他们预计在不久的将来实施生成式人工智能的特定数据领域。公司使用生成式人工智能的时间可能比许多人希望的要长,而且在创造价值之前,他们可能还有很长的路要走。在调查中,数据领导者优先考虑生成式人工智能开发的最常见业务领域(按顺序)是客户运营(例如客户支持或聊天机器人)、软件工程/代码生成、营销和销售活动(例如个性化营销活动或销售产品)以及研发/产品设计和开发。许多组织也在追求生成式人工智能的整体个人生产力应用,但这不太可能涉及特定的数据领域。

■ 等待的正当理由?

虽然我们认为数据领导者应该加快为生成人工智能准备数据的速度,但我们也承认还有其他重要的数据项目,包括改进交易数据以及为传统分析和机器学习应用程序提供数据。事实上,速度有些缓慢的原因之一可能是71%的CDO同意“生成式人工智能很有趣,但我们更专注于其他数据计划,以提供更有形的价值。”考虑到人们对生成式人工智能的兴奋程度,这项调查结果有些令人惊讶。我们在 2022年的调查中发现,首席数据官面临着快速交付价值的压力,但他们也面临着促进生成式人工智能实施的压力。我们怀疑他们从管理和改进结构化数据转向非结构化内容的转变有点缓慢。此外,在公司内部,谁来领导生成式人工智能也存在争议;首席数据官正在与首席信息官、首席技术官和首席数字官竞争这项热门新技术的领导权。但如果生成式人工智能要改变组织,那么等待开始准备数据是没有意义的。大多数调查受访者——都同意生成式人工智能是一种变革性能力。让大型组织的重要数据为AI做好准备的工作很容易需要几年时间。现在是时候开始了!

■ Datablau提供将企业数据资产转化为AI-ready的能力

如下图所示,企业的数据资产并不规范,下面的两个结构化的表,库表结构的业务名、业务定义缺失,字段都是A1、A2、B1、B2。从样例数据的特征上看,例如:A4、A5都是日期,无论人或机器都无法了解这两个字段是什么日期。这种情况下,数据即使大模型获取到,大模型很难理解,也无法产出有效的AIGC的成效。

2.png

显而易见,大模型需要企业私域数据,来定位问题的上下文。没有有效的数据输入,也就没有有效的输出。

3.png

因此,我们需要将数据治理的成果与行级数据相结合,形成具备上下文的数据,再喂给大模型。如下图所示,将行级数据、相关联的表,结合元数据信息,重新聚合为新的半结构化数据,这时生成式人工智能就会输出有效的信息。

4.jpg

Datablau数语科技作为国内数据资产管理的先行者和开拓者,通过不断打磨完善产品体系,打造了端到端的数据治理产品体系,形成了集模型管理、数据资产管理、数据资产目录、数据安全管理等为一体的全链路数据管理能力。

5.jpg

其中数据资产目录平台DDC是为企业统一的数据资产共享和应用平台,从数据资产业务化视角出发,基于特有的模型体系和数据自学习技术,通过明确规范数据资产入库准则,形成企业统一的数据资产目录,涵盖了自动数据分类分目、数据资产查询与检索、血缘架构解析、数据资产地图等核心功能,极大提高了数据利用效率和提升业务数据应用水平。

Datablau的数据资产网关在业界也极具有前瞻性和创新性,专注于提升数据资产的可用性和安全性,同时促进不同用户角色在数据使用上的灵活性与协作,结合DDC数据资产目录平台,数据网关利用AI技术和自学习模型,优化数据发现、理解和使用流程,提升数据服务的智能化水平,旨在帮助企业构建一个既安全又高效的数据流通体系,加速数据价值的转化,支持企业数字化转型和数据驱动决策的实现。

共 1 页 1 条数据