尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】

发布于:2024-01-20 ⋅ 阅读:(80) ⋅ 点赞:(0)

大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)

  1. B站直达:https://www.bilibili.com/video/BV1ue4y1i7na  尚硅谷数据湖Hudi视频教程
  2. 百度网盘:https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
  3. 阿里云盘:https://www.aliyundrive.com/s/uMCmjb8nGaC(教程配套资料请从百度网盘下载)

  1. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】

  2. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】

  3. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【集成Spark】

  4. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记04【集成Flink】

  5. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记05【集成Hive】

目录

第3章 核心概念

010

011

012

013

014

015

016

017

018

019

020

021

022

023

024

025


第3章 核心概念

010

第3章 核心概念

3.1 基本概念

3.1.1 时间轴(TimeLine)

011

3.1.2 文件布局(File Layout)

012

3.1.2 文件布局(File Layout)

013

3.1.3 索引(Index)

1)原理

014

3.1.3 索引(Index)

2)索引选项

015

3.1.3 索引(Index)

3)全局索引与非全局索引

016

3.1.3 索引(Index)

4)索引的选择策略

017

3.1.4 表类型(Table Types)

1)Copy On Write

018

3.1.4 表类型(Table Types)

2)Merge On Read

019

3.1.4 表类型(Table Types)

3)COW与MOR的对比

cow:批处理、mor:流批都行,更推荐流。

020

3.1.5 查询类型(Query Types)

1)Snapshot Queries     快照查询:全量最新。

2)Incremental Queries

3)Read Optimized Queries

021

3.1.5 查询类型(Query Types)

4)不同表支持的查询类型

022

3.2 数据写

3.2.1 写操作

3.2.2 写流程(UPSERT)

1)Copy On Write

2)Merge On Read

023

3.2.3 写流程(INSERT)

1)Copy On Write

2)Merge On Read

3.2.4 写流程(INSERT OVERWRITE)

1)COW

2)MOR

3)优点

4)缺点

024

3.2.5 Key 生成策略

3.2.6 删除策略

1)逻辑删

2)物理删

3.2.7 总结

025

3.3 数据读

3.3.1 Snapshot读

3.3.2 Incremantal读

3.3.3 Streaming读

3.4 Compaction

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到