数据质量与策略:解锁生成式AI潜力的关键步骤

发布于:2024-04-20 ⋅ 阅读:(21) ⋅ 点赞:(0)

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

虽然不太花哨,但根据对334名数据领导者的调查,AI的准备工作归根到底还是一些基础问题——企业数据的格式和质量。

许多组织对生成式AI兴奋异常,正积极布局以利用此技术。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队在思考开发哪些用例。个人和部门也在试验这项技术如何提高他们的生产力和效率。

然而,真正关键的工作却落在了首席数据官(CDO)、数据工程师和知识策展人身上。不幸的是,许多人甚至还没开始做这些必要的工作。2023年下半年的一项调查显示,尽管这些数据领导者对生成式AI的热情与其他人一样高涨,他们还有很多准备工作要做。

特别是在数据准备方面,许多公司尚未创建新的数据战略,或开始以利用生成式AI所需的方式管理数据。

我们将描述这项调查的结果以及这意味着对数据的下一步操作。

最大化价值

AI历史上处理的是结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据——文本、图片甚至视频——来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助,也带来了竞争。CDO和数据领导者对这项技术的热情相同:80%的人同意它最终会改变他们组织的商业环境,62%的人说他们的组织计划增加在生成式AI上的投入。这项技术也让他们的角色受到了很多关注。

然而,调查参与者表示,大多数人尚未从他们的生成式AI使用中获得实质性经济价值。当被问及他们的组织如何处理生成式AI时,近三分之一的人表示他们在“个人层面上进行实验”,而不是为企业创建用例。另外21%的人表示他们在进行实验,但对员工使用有指导方针。略少的比例,19%,在部门或业务单元层面进行实验。

最重要的是,只有6%的人将生成式AI应用投入生产部署。

令人惊讶的是,有16%的人指出他们的组织禁止员工使用,尽管随着公司处理数据隐私问题和企业版生成式AI模型的出现,这种做法正在减少。

使用生成式AI的实验应该涉及业务的核心方面。一家积极用生成式AI进行研发实验的公司是环球音乐。公司对这项技术的浓厚兴趣并不奇怪,因为生成式AI可以创作音乐、编写歌词、模仿艺术家的声音。环球正在探索如何在保护艺术家知识产权的同时使用生成式AI。它还在进行另一个实验,使用环球艺术家的声音(得到他们的许可和参与)创作AI版本的歌曲。公司还对一个AI提供商采取了法律行动,以保护其艺术家的版权。

政策和概念验证可以有用,但它们不产生经济价值。

为了让生成式AI对公司真正有价值,它们需要用自己的数据定制供应商的语言或图像模型,并做好内部数据准备工作以便整合。

数据准备是成功的关键

生成式AI使用的相对非结构化数据需要精心策划,确保其准确性、新颖性、独特性和其他属性,如果使用这些数据的生成式AI模型才会非常有用。内部数据质量差将导致生成式AI模型反馈的质量差。

我们调查中的许多数据领导者都反映了这一挑战:46%的人将“数据质量”确定为实现生成式AI潜力的最大挑战。

摩根士丹利财富管理的首席数据、分析和创新官杰夫·麦克米伦描述了一些涉及的问题:

“每一份研究内容都必须由注册合规人员审查,所以我们知道培训内容的质量非常高。即使在非研究内容中,我们也有一个团队对单个提交评分,涉及标签要求、链接是否损坏、是否有前言总结等,我们会给每份文档打分。

我们还必须花很多时间考虑不同的内容集和优化结果……这些大型语言模型不能解决不同数据来源的问题。公司需要在尝试使用生成式AI获取数据之前,解决数据整合和掌握的问题。”

大多数数据领导者尚未开始在他们的数据策略中进行必要的改变。尽管93%的调查应答者同意数据策略对从生成式AI中获得价值至关重要,但57%的人表示他们的组织的数据迄今为止没有变化。只有37%的人同意——且只有11%的人强烈同意——他们的组织拥有适合生成式AI的正确数据基础。换句话说,

大多数组织在广泛应用生成式AI方面还有大量工作要做。

那些开始进行变革的数据领导者专注于几项具体任务。四分之一的组织正在进行数据整合或清理数据集。18%的人正在调查可能支持使用生成式AI的数据。还有17%的人在策划文档或文本以准备用于特定领域的生成式AI模型。

默克集团的集团首席数据和AI官瓦利德·梅汉纳强调了几种类型的数据准备的重要性:“如果我们要做AI,我们需要在混凝土上建造,而不是流沙上。我们正在使流程和数据供应处于良好状态。我们正在处理数据清单和目录、具有新数据结构和元数据层的数据织物、数据管道以及临时自助服务洞察生成。我们相信生成式AI将是未来从数据中创造洞察力的关键方式。”

赛诺菲的研发首席数据官拉杰·尼玛加达也表示,公司正在为生成式AI准备数据,并告诉我们

成功的生成式AI“取决于高质量、‘业务就绪’的数据,这些数据是由坚实的数据基础、数据治理和标准指导的。”他说,赛诺菲目前正在投资构建这些核心能力,以支持其研发。

就像数据转换一般,对大多数组织而言,策划、清理和整合所有非结构化数据以用于生成式AI应用将是一项巨大的努力。因此,大多数公司应该专注于他们预期将在不久的将来实施生成式AI的特定数据领域。公司可能需要较长时间才能使用生成式AI并从中创造价值。

在调查中,数据领导者优先发展生成式AI的商业领域依次是:客户操作(如客服或聊天机器人)、软件工程/代码生成、营销和销售活动(如个性化营销活动或销售优惠)以及研发/产品设计和开发。许多组织还在追求整体个人生产力应用的生成式AI,但这不太可能涉及特定的数据领域。

现在就是开始的时候

虽然我们认为数据领导者应该加快准备他们的数据以用于生成式AI的步伐,但我们也认识到还有其他重要的数据项目,包括改进交易数据和使数据可用于传统分析和机器学习应用。事实上,这种步伐有些缓慢的一个原因可能是71%的CDO同意“生成式AI很有趣,但我们更专注于其他数据计划以提供更有形的价值”。

鉴于对生成式AI的高度热情,这一调查结果有些令人惊讶。在2022年的调查中,CDO面临迅速交付价值的压力,但也需要促进生成式AI的实施。我们怀疑他们从管理和改进结构化数据到非结构化内容的转变有些缓慢。此外,关于谁应该领导公司内生成式AI的竞争也存在;CDO正在与CIO、CTO和首席数字官争夺这项新兴技术的领导权。

如果生成式AI将改变组织,那么等待开始准备数据是没有意义的。我们——以及大多数调查应答者——都同意生成式AI是一项变革性能力。让一个大组织的重要数据为AI做好准备可能需要几年时间。现在就是开始的时候。