【服务化架构下的数据治理:理论与实践】

发布于:2023-09-27 ⋅ 阅读:(131) ⋅ 点赞:(0)

作者:禅与计算机程序设计艺术

1.简介

随着互联网公司业务的不断扩张和社会的日益依赖,越来越多的公司面临数据孤岛问题,并且越来越多的公司将数据作为公司核心资产,很难满足数据安全、数据隐私、数据治理等需求。因此,如何构建一个符合公司实际情况的、完整的数据治理体系成为当下企业所面临的一项重大挑战。 服务化架构是一个重要的服务开发和部署方式,是云计算技术架构中的一种模式,它可以帮助企业快速地搭建和部署应用系统。其本质是在已有的服务器上安装或运行应用程序,使得用户可以通过浏览器访问,实现了更加灵活的伸缩性和弹性扩展能力。同时,也引入了微服务架构模式,每个微服务都有明确的功能和职责,通过服务间通讯进行协作,形成了一个完整的系统架构。而数据治理也是服务化架构中不可或缺的一部分,它包括对数据的收集、清洗、存储、分析、报表等环节,通过定义数据价值、制定数据规范、保护数据隐私、保障数据安全等方面,能够有效地提升企业数据价值并降低数据安全风险。 传统的数据治理流程通常被认为比较笨拙,耗时长且效率低下。而服务化架构下的数据治理更加高效、自动化、标准化,能够在一定程度上避免繁琐且重复的工作量。本文将基于数据治理流程及其关键环节,剖析服务化架构下的数据治理流程及理论。在此基础上,结合业务场景,阐述如何运用数据治理理论,设计出符合自身业务需要的数据治理流程,进而打造高效、可靠、统一、价值的数字资产保护体系。

2.基本概念术语说明

2.1 服务化架构

服务化架构(Service-Oriented Architecture,SOA)是一种面向服务的体系结构,是一种企业级架构模式,它将应用程序按照模块化的方式分解,并通过网络通信进行交流和协作。该架构主要特征包括组件化、面向服务的架构、服务组合和动态发现。它基于分布式计算模型、异步通信机制、松耦合和内聚性设计理念,具有弹性伸缩、容错恢复和负载均衡的特点。

2.2 数据治理

数据治理是指保护、管理、使用和处理数据,是企业级数据生命周期的最后一道防线。其目标是确保组织中的数据得到有效的保护、管理和使用,通过对数据的采集、加工、保存、查询、分析和共享等过程,实现数据的价值最大化和信息化程度提升。数据治理的基本要素包括:数据安全、隐私保护、数据价值与价值传递、信息共享、数据质量评估和改进、数据获取权限分配等。

2.3 数据流转方向

数据流转方向(Data Flow Direction,DFD)是数据治理中最重要的概念之一,它描述的是从数据源头到目的地数据流向和处理方式。数据流转方向将数据从无形数据流向实体信息,再到有形文档形式,由人工处理转换为自动处理,让数据能够更好地被发现、利用和传播。目前数据流转方向主要有以下四种类型:

1) 上行数据流动方向:数据从信息源头(如客户、合作伙伴、供应商)流动到组织内部,比如,采购订单、销售订单、生产订单等。 2) 下行数据流动方向:数据从组织内部流动至信息源头(如客户、合作伙伴、供应商),比如,汇总、统计、报告、审计等。 3) 中央数据流动方向:数据从多个信息源头进入组织系统,经过中心处理后,再流向各个信息源头,比如,人力资源系统、财务系统、制造系统、IT系统等。 4) 分布式数据流动方向:数据跨越多个部门、多个组织和不同系统,然后流向相关人员进行处理,比如,跨部门的合同管理、生产效率优化、团队管理等。

2.4 数据组织结构

数据组织结构(Data Organization Structure,DOS)描述的是数据集中存放位置及存储方式,它是数据治理的重要组成部分。数据组织结构包括数据集中存储位置、数据分类方式、数据主题分类以及系统文件层次结构等。数据组织结构与数据的分类、价值、归属关系密切相关。

3.核心算法原理和具体操作步骤以及数学公式讲解

3.1 数据清洗

数据清洗(Data Cleaning)是数据治理过程中用于对数据进行预处理的过程。数据清洗是数据治理的第一个阶段,目的是为了确保数据的准确性、完整性、一致性。数据清洗一般会包含数据标准化、数据格式转换、数据删除、数据合并、数据重新分区等操作。数据清洗的具体操作步骤如下:

1) 数据标准化:数据标准化是指将不同数据格式的同类数据转化为统一的标准数据格式。例如,把数据中存储的日期格式转化为统一的ISO格式。 2) 数据格式转换:数据格式转换是指将数据从一种格式转换为另一种格式。例如,把Excel格式的数据转换为CSV格式。 3) 数据删除:数据删除是指去掉数据中的不需要的信息。例如,删除数据中超出期限的记录。 4) 数据合并:数据合并是指将不同数据源的同类数据进行合并。例如,把两个来源的订单数据合并成一个数据集。 5) 数据重新分区:数据重新分区是指将数据划分到不同的区域或容器中。例如,将数据划分到不同的数据库中。

3.2 数据标准化

数据标准化(Normalization)是数据清洗的重要手段。数据标准化是指将数据中冗余数据或者不一致的数据进行合并,消除数据中的重复和矛盾,使得数据满足数据依赖关系。数据标准化的具体操作步骤如下:

1) 属性选择:属性选择是指根据业务要求选取有代表性的属性,这些属性才是需要保留的属性。例如,公司只需要姓名、地址、邮箱等几个属性。 2) 属性派生:属性派生是指根据已有属性来产生新属性。例如,可以派生出联系人的电话号码、性别、年龄等属性。 3) 主键设置:主键是指用来唯一标识数据集中每一条记录的属性。主键的选择通常遵循一定的规则,通常采用业务主键或是唯一标识符。 4) 参照完整性:参照完整性是指数据的参照完整性约束。例如,员工信息不能有外键指向不存在的部门、项目等。 5) 数据分区:数据分区是指将数据按不同的维度划分到不同的分区中。例如,可以根据员工的部门、所在城市或部门进行数据分区。

3.3 数据治理整体框架

数据治理的整体框架主要包括数据准备、数据发现、数据治理、数据使用、数据发布、数据监控五个部分。其中,数据准备和数据发现是数据治理的前两步。数据准备主要包括数据收集、数据加工、数据导入等。数据发现主要包括数据理解、数据挖掘、数据匹配、数据评估、数据报表等。数据治理主要包括数据标准化、数据治理、数据规划、数据平台、数据仓库等。数据使用主要包括数据分析、数据挖掘、数据展示、数据决策等。数据发布主要包括数据共享、数据借鉴等。数据监控主要包括数据质量检测、数据安全控制等。

3.4 数据使用管道

数据使用管道(Data Pipeline)是指数据的不同生命周期阶段之间的流动过程。数据使用管道的设计应考虑到数据从原始到最终的流动路径,涉及到的角色及职责,数据如何持续流动,以及如何确保数据质量和效率。数据使用管道的设计应该考虑到数据服务的高可用性、易用性、可靠性、安全性和性能等方面。

数据使用管道的关键环节包括数据获取、数据处理、数据传输、数据存储、数据查询、数据展示和数据决策等。数据获取是指数据在初始的捕获、获取、清洗、分析、变换等阶段。数据处理是指对获得的数据进行加工处理,通过数据模型、算法或规则生成新的数据结果。数据传输是指将数据从源端传输到目的端。数据存储是指将数据保存到数据仓库中,进行数据质量保障和数据分析。数据查询是指对数据进行查询、搜索、过滤和分析等操作。数据展示是指对数据进行呈现,帮助决策者做出数据驱动的决策。数据决策是指通过分析、观察、归纳、总结等手段对数据产生影响。

数据使用管道的整体设计涵盖以下几个方面:

1) 消息格式:消息格式决定了数据是以何种格式向前台输出。例如,有些数据可能是原始格式,有些数据可能需要预先处理之后再输出;有些数据直接输出给用户,有些数据需要后台定时任务导出。 2) 消息类型:消息类型包括实时消息、离线消息和数据报告。实时消息可以反映当前的业务状况;离线消息可以记录历史的业务记录;数据报告可以提供当前数据的状态、趋势、分析结果等。 3) 技术栈:技术栈决定了数据使用的技术手段,包括数据库、中间件、存储、计算、监控等。数据服务的性能、可靠性和可扩展性主要取决于技术栈的选择。 4) 数据使用频率:数据使用频率是指数据被使用或者更新的频率。数据服务的生命周期长短受到数据使用频率影响。频繁使用的数据需要保证数据质量;较少使用的数据可以延长其生命周期。 5) 连接方式:连接方式包括点对点、点对多、多对多等。点对点连接意味着只有两边实体之间存在连接;点对多连接意味着多个实体之间存在连接;多对多连接意味着多个实体之间存在多个连接。 6) 数据安全:数据安全是指数据传输过程是否加密、是否签名、认证等,保证数据不被篡改、泄露。 7) 流程引擎:流程引擎包括触发器、定时任务、事件驱动等,通过触发器或事件驱动的方式完成数据服务。触发器可以实时响应业务变化,定时任务可以自动执行数据服务;事件驱动可以在发生某种事件的时候自动触发数据服务。 8) 数据隔离:数据隔离是指不同数据使用服务之间的相互隔离,以免出现数据污染、泄露等问题。数据隔离可以采用逻辑、物理、网络等方法进行隔离。 9) 用户身份验证:用户身份验证是指数据使用服务对用户身份的校验,确保用户只能访问自己的数据。用户身份验证可以采用密码校验、秘钥校验、CA认证等方式。

3.5 数据治理整体视图

数据治理的整体视图可以概括为三层:生态系统层、数据治理层、业务层。

生态系统层:生态系统层是指数据治理所处的环境和上下游的第三方服务。生态系统层包括数据源头(如客户、合作伙伴、供应商)、数据分析师、数据科学家、数据开发者、数据仓库管理员、数据安全专家、数据治理顾问、数据治理主任、数据治理工程师等。

数据治理层:数据治理层是指数据治理的流程和方法。数据治理层的流程包括数据分类、数据获取、数据加工、数据审核、数据分析、数据报告等。数据分类是指对数据进行分类、整理、归档。数据获取是指数据的收集、下载、上传、同步等。数据加工是指对数据进行分析、过滤、清洗、计算等操作。数据审核是指对数据进行审核、确认和归档。数据分析是指对数据进行建模、挖掘、统计、评估等操作。数据报告是指对数据结果进行呈现、呈现。

业务层:业务层是指数据治理所面向的业务领域。业务层包括数据价值分析、数据价值传递、数据价值赋予等。数据价值分析是指对数据价值的判断,并依据价值对数据进行排序、选择。数据价值传递是指数据价值高的服务会给后续服务提供更好的服务;数据价值赋予是指不同服务根据数据的价值差异赋予不同的权重。

本文含有隐藏内容,请 开通VIP 后查看