数据中台功能架构概览
数据中台相关名词解释
1.数据仓库:
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。因此,其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量,组成数据模型,为决策分析提供通用的数据分析能力。数据仓库重在建数据,而数据中台则将 建、治、管、服 放到同样的高度,数据仓库只是数据中台的一个子集。
用一个蔬菜储存的例子来简单理解一下:
如果我们把地里的蔬菜看作是数据,那么土地就是数据库。在蔬菜成熟后,我们需要把蔬菜从地里摘下来放在地窖,那么地窖就是数据仓库。
在把蔬菜放到地窖需要拔菜、择菜、放菜这三个步骤,这三步就是ETL。存放到地窖里的都是干净健康的蔬菜,这些干净健康的蔬菜就是结构化/半结构化的数据。
一块地一般只种植一种蔬菜,但是一个地窖可以存放各种各样的蔬菜,所以数据仓库可以储存来自于多个数据源的数据。后续我们需要从地窖里拿蔬菜去做菜,这个做菜的过程就是用BI进行分析,做好的成品就是分析报表。
2.数据湖:
数据湖是一种数据存储理念,作为一个集中的存储库,它可以以自然格式存储任意规模的数据,包括来自关系数据库行和列的结构化数据,XML、JSON、日志等半结构化数据,电子邮件、文档等非结构化数据,以及图像、音视频等的二进制数据,从而实现数据的集中式管理。目前Hadoop是最常见的实现数据湖概念的技术。比如HBase可让数据湖保存海量数据,Spark可以使得数据湖批量分析数据,而Flink等可让数据湖实时接入和处理IoT数据等。
3.湖仓一体:
湖仓一体是一种新型的开放式架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。
4.数据中台:(数据 + 业务沉淀)
数据中台是对既有或新建信息化系统业务与数据的沉淀,是实现数据赋能新业务、新应用的中间、支撑性平台。数据中台是对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台主要承担以下四个方面的工作,分别是对数据的「采集」「存储」「打通」「使用」。
5.大数据平台:
数据中台不等于大数据。数据中台是基于大数据、人工智能等技术构建的数据采、存、通、管、用的平台。数据中台需要以Hadoop、Spark等为代表的大数据处理技术做支撑,但绝不能将数据中台与大数据划等号。数据中台不只有大数据处理技术,还包括智能算法、与业务联动的特性、数据资产、数据工具等。
数据中台功能构成
数据中台七大功能组成:
- 基础服务:包含了底层存储、中间件等基础服务,这里主要是开发团队根据产品需求和成本来定。
- 数据收集:包含了数据源管理、数据采集、数据传输等数据接入服务。
- 数据清洗整合:包含了标签管理、元数据管理、数据仓库等。
- 数据挖掘分析:包含了算法模型、机器学习、行为分析、数据分析模型等。
- 数据服务管理:包含了数据权限管理、可视化管理、数据指标体系等。
- 数据应用:包含了BI 报表平台、数据营销、客户分析平台、用户画像等。
- 数据安全:包含了数据监控、数据加密、数据脱敏等。