作者:禅与计算机程序设计艺术
1.背景介绍
在企业应用大数据的过程中,经过长时间的开发和运维,数据已经得到了长期的积累。为了更好地运用这些数据,我们需要建立起统一、准确、高效的数据体系,并对其进行必要的分析、处理、清洗、提取等预处理工作。数据仓库(Data Warehouse)是一个存储所有原始数据及其结果的中心存储库,它作为一个集中的数据库用来支持复杂的查询操作,并且可以提供不同部门之间的信息共享和沟通。数据仓库分为三个层次:
第一层:事实表(Fact Table)——存放企业的真实数据; 第二层:维度表(Dimension Table)——用于描述事实表中元素的属性信息,如客户信息表、商品信息表等; 第三层:星型模型(Star Schema)——根据分析需求创建的数据模型,包括维度表、事实表和事实表之间的连接关系。 数据建模的目的主要是基于业务领域需求,通过分析、设计、构建出一个适合公司业务发展的、易于维护和扩展的数据模型。以下将从数据模型的五个组成要素中展开阐述数据建模的方法论。
2.核心概念与联系
(一)实体关系模型 ER 模型
ER模型是一种结构化的,面向实体及其之间关系的建模方法。它把业务数据抽象为实体,实体间的关系用关系代号表示。利用实体和关系,我们能够以结构化的方式来描述业务数据,让我们更容易理解业务逻辑、进行数据建模、编写数据库的DDL语句等。ER模型由三部分构成,分别是实体、实体间的关系以及实体之间的联系。例如,对于一个电商网站来说,实体可以包括用户、商品、订单