大数据架构师必知必会系列:数据存储与存储优化

发布于:2023-09-27 ⋅ 阅读:(101) ⋅ 点赞:(0)

作者:禅与计算机程序设计艺术

1.简介

在互联网企业里,数据量越来越大、数据的类型也日渐丰富。这就需要相应的数据架构设计了。 对于企业的数据仓库建设来说,首先考虑的问题就是如何高效地存储海量的数据。其次才是对数据进行清洗、转换、聚合等后续分析所需的数据预处理工作。那么如何有效地存储数据,如何提升数据分析的速度,则成为重要的技术难点之一。由于各种场景的差异性很大,本文将重点介绍一些常用的存储方案及优化策略。文章不涉及所有优化策略,而只是阐述了部分常用存储方案和优化方法。

2.基本概念和术语

数据分层

数据分层是指按照不同维度划分数据,目的是提高数据的查询和分析效率。一般来讲,数据分层包括按照时间分层、按照空间分层、按照主题分层三个方面。以下给出简单介绍:

按照时间分层

按照时间分层又称为按时间戳分层,即将同一时间范围内的数据归入同一个分区或文件中。比如,在一天的时间内收集到的日志数据可以放到同一个文件中;每天生成的实时数据可以放到另一个文件中;每个月的数据可以放到一个文件夹下;每年的数据可以放到不同的磁盘上。这样可以避免数据集体太大,导致查询和分析效率降低。

按照空间分层

按照空间分层又称为按空间域分层,即将相近位置的数据归入同一个分区或文件中。比如,相同经纬度的数据可以放到同一个文件中;不同城市的数据可以放到不同的文件中;不同国家的数据可以放到不同的服务器上。这样可以减少网络传输,加快数据查询和分析的速度。

按照主题分层

按照主题分层又称为按数据主题分层,即将数据按业务领域、功能模块、用户角色等划分成不同的分类。比如


网站公告

今日签到

点亮在社区的每一天
去签到