Impala系统架构理解-易微帮

1 impalad（含3个模块，执行hbase或hdfs中的数据，数据的底层存储为hdfs）

当用户通过用户接口提出查询或分析请求时，Impala会选择一个Impalad实例作为协调者（Coordinator）来负责整个查询过程的协调。这个协调者Impalad会与StateStore进行交互，获取集群中其他Impalad实例的健康状态和位置信息，以便选择最靠近数据所在DataNode的那个节点上的Impalad来执行任务。

一旦协调者Impalad确定了执行查询的Impalad实例，它会将查询任务分发给这些实例进行并行计算。这些执行任务的Impalad实例会根据查询的执行计划，直接在HDFS上读取数据并进行计算。执行完毕后，它们会将结果返回给协调者Impalad，由协调者汇总并返回给客户端。

这也就意味着一个Impalad进程可能不仅作为协调者分发任务，还可能作为接受者接收并执行来自其他Impalad的任务，这取决于集群的负载和任务的分布。

2 StateStore（和Hive元数据、hdfs namenode放在一起）

2.1 Hive元数据

帮助impala理解sql语句，包含了Hive表的结构、分区、列等信息，这些信息对于Impala来说是透明的，因为Impala是基于Hive的大数据实时分析查询引擎，它直接使用Hive的元数据库Metadata。

作用：Impala通过访问Hive的Metastore来获取表的结构和其他相关信息，以便能够理解和执行SQL查询。

2.2 HDFS NameNode

NameNode记录了HDFS中所有文件和目录的命名空间信息，包括它们的路径、权限、时间戳等。维护了文件数据块到DataNode的映射关系。以上这些是元数据（不是hive那个元数据）。在impala实时交互式任务中，NN的作用如下：

查询规划阶段：Impala在解析查询语句并生成执行计划时，需要参考HDFS中存储的数据的元数据信息。这些元数据由NameNode维护，Impala通过与NameNode交互来获取这些信息，以便找到离DataNode近的impala进程，优化查询计划。
数据读取阶段：当Impalad实例开始执行查询任务时，它们会根据需要从HDFS中读取数据。在这个过程中，Impalad会向NameNode查询数据块的位置信息，然后直接从相应的DataNode上读取数据。

2.2 StateStore

用于跟踪Impala集群中所有Impalad实例的健康状态和位置信息，确保Impala能够了解集群中各个Impalad的状态，从而能够选择合适的Impalad来执行查询任务。

3 用户接口

CLI提供命令行工具，impala还提供Hue、JDBC、ODBC

4 impala过程

用户通过Impala的SQL接口提交查询请求，Impala会根据Hive的元数据信息解析查询语句，并生成相应的执行计划。然后，Impala会根据StateStore中的信息选择一个或多个Impalad进程来执行查询任务。这些Impalad实例会直接在HDFS上读取数据并执行计算，最终将结果返回给用户。因此，用户无需直接操作HDFS，就可以通过Impala以类SQL的方式访问和分析存储在HDFS中的数据。

Impala系统架构理解

微信公众号

今日签到

热门文章

最新发布