猿创征文|DataCleaner

发布于:2022-12-28 ⋅ 阅读:(280) ⋅ 点赞:(0)
在这里插入图片描述


🚀🚀DataCleaner Website: https://datacleaner.github.io/.🚀🚀

🚀🚀DataCleaner Git: https://github.com/datacleaner/DataCleaner.🚀🚀

DataCleaner 是一個數據質量分析應用程序和 DQ 解決方案的解決方案平台。它的核心是一個強大的數據分析引擎,它是可擴展的,從而增加了數據清理、轉換、豐富、重複數據刪除、匹配和合併。

在这里插入图片描述在这里插入图片描述

不足的地方:并不是将服务部署后,通过port去访问。有些尴尬。但还是要给小花花。功能真强。


1.Install

👉👉DataCleaner Download Website: https://datacleaner.github.io/downloads.
在这里插入图片描述
在这里插入图片描述

1.1 Bug

  •     是不是自己水平太菜了,高版本的DataCleaner,我竟然都找不到启动的地方。
  •     低版本的DataCleaner,到还能正常运行。在这里插入图片描述

2.Function Introduction

👉👉Document: https://datacleaner.github.io/documentation.
在这里插入图片描述

2.1 Data Quality

在这里插入图片描述

Data Quality 包括下面几个方面 :

  •   数据的完整性
  •   数据的正确性
  •   数据冗余
  •   数据标准化

2.2 Data Profiling

在这里插入图片描述
    看不太懂,看来不仅代码菜,英语也菜,看其他工具,data profiling就是对table column的校验,通过校验,会得到当前table的每一个栏位,比如int类型,最大值,最小值,或者Varchar类型,最大长度和最小长度,以及当前栏位的详情。当初建表时设定的范围。其它的再慢慢研究。

2.3 DataStore

在这里插入图片描述
    个人理解就是DataCleaner去连接目标DB或File的一个管道,就是DataStore。

3.User Guide

3.1 Start up and conncection DB

  •   双击启动
    在这里插入图片描述
    在这里插入图片描述
  •   create new job
    在这里插入图片描述
  •   支持很多数据类型
    在这里插入图片描述
  •   创建连接,保存到DataStore
    在这里插入图片描述
  •   连接成功,会自动读表
    在这里插入图片描述
  •   简单粗暴,直接开跑
    在这里插入图片描述
  •   主要分Number和String两种类型产出结果(Datatime算String)
    在这里插入图片描述
    在这里插入图片描述

3.2 Template

  •   修改映射
    在这里插入图片描述

3.3 Transform

  •   详细功能不做介绍,直接点进去就能看
    在这里插入图片描述
    在这里插入图片描述

3.4 Import

在这里插入图片描述

3.5 Analyze

在这里插入图片描述
在这里插入图片描述

4.Waken

         在一秒钟内看到本质的人和花半辈子也看不清一件事本质的人,自然是不一样的命运。
在这里插入图片描述

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到