大数据架构师必知必会系列:数据治理与数据质量

发布于:2023-10-24 ⋅ 阅读:(77) ⋅ 点赞:(0)

作者:禅与计算机程序设计艺术

1.背景介绍

“数据治理”、“数据质量”两大领域都是大数据领域的重要组成部分。只有通过对数据的收集、存储、处理、分析和呈现等流程的控制、管理、监控和评估,才能保障数据的准确性、完整性、时效性和合规性。因此,无论是在互联网、金融、制造、物流、医疗等领域,还是在电信、交通、高速公路等基础设施领域,都需要有相应的数据治理能力支持。如果不能做好数据治理工作,则会带来诸多不利影响。 今天,我们就将要分享的是如何从架构层面构建数据治理系统以及相关的核心算法原理和操作步骤。数据治理系统主要分为四个部分:数据获取、数据处理、数据存储、数据展示。了解每一个部分的原理、优劣及其联系,对数据治理系统的构建有更加全面的认识。同时,还可以用机器学习的方式进行数据质量的建模和预测。希望能帮助到大家。

2.核心概念与联系

数据获取(Data Collection)

首先,是数据获取这一环节。数据获取环节就是采集、收集、获取大数据的各种原始数据。根据不同的数据来源类型,可以分为以下三种情况:

  1. 直接获取:如企业内部数据库或其他第三方数据源;
  2. 间接获取:例如通过API接口获取外部数据,或者借助爬虫工具实现自动化的数据抓取;
  3. 生成数据:例如基于规则生成数据,如广告投放量预估模型、客户行为模型、订单生命周期模型等。 为了保证数据质量,数据获取环节一定不能出现数据重复、误差、异常等问题。

数据处理(Data Processing)


网站公告

今日签到

点亮在社区的每一天
去签到