
DataCleaner
🚀🚀DataCleaner Website: https://datacleaner.github.io/.🚀🚀
🚀🚀DataCleaner Git: https://github.com/datacleaner/DataCleaner.🚀🚀
DataCleaner 是一個數據質量分析應用程序和 DQ 解決方案的解決方案平台。它的核心是一個強大的數據分析引擎,它是可擴展的,從而增加了數據清理、轉換、豐富、重複數據刪除、匹配和合併。
不足的地方:并不是将服务部署后,通过port去访问。有些尴尬。但还是要给小花花。功能真强。
1.Install
👉👉DataCleaner Download Website: https://datacleaner.github.io/downloads.
1.1 Bug
- 是不是自己水平太菜了,高版本的DataCleaner,我竟然都找不到启动的地方。
- 低版本的DataCleaner,到还能正常运行。
2.Function Introduction
👉👉Document: https://datacleaner.github.io/documentation.
2.1 Data Quality
Data Quality 包括下面几个方面 :
- 数据的完整性
- 数据的正确性
- 数据冗余
- 数据标准化
2.2 Data Profiling
看不太懂,看来不仅代码菜,英语也菜,看其他工具,data profiling就是对table column的校验,通过校验,会得到当前table的每一个栏位,比如int类型,最大值,最小值,或者Varchar类型,最大长度和最小长度,以及当前栏位的详情。当初建表时设定的范围。其它的再慢慢研究。
2.3 DataStore
个人理解就是DataCleaner去连接目标DB或File的一个管道,就是DataStore。
3.User Guide
3.1 Start up and conncection DB
- 双击启动
- create new job
- 支持很多数据类型
- 创建连接,保存到DataStore
- 连接成功,会自动读表
- 简单粗暴,直接开跑
- 主要分Number和String两种类型产出结果(Datatime算String)
3.2 Template
- 修改映射
3.3 Transform
- 详细功能不做介绍,直接点进去就能看
3.4 Import
3.5 Analyze
4.Waken
在一秒钟内看到本质的人和花半辈子也看不清一件事本质的人,自然是不一样的命运。
本文含有隐藏内容,请 开通VIP 后查看