Impala系统架构理解

发布于:2024-04-30 ⋅ 阅读:(27) ⋅ 点赞:(0)

1 impalad(含3个模块,执行hbase或hdfs中的数据,数据的底层存储为hdfs)

        当用户通过用户接口提出查询或分析请求时,Impala会选择一个Impalad实例作为协调者(Coordinator)来负责整个查询过程的协调。这个协调者Impalad会与StateStore进行交互,获取集群中其他Impalad实例的健康状态位置信息,以便选择最靠近数据所在DataNode的那个节点上的Impalad来执行任务。

        一旦协调者Impalad确定了执行查询的Impalad实例,它会将查询任务分发给这些实例进行并行计算。这些执行任务的Impalad实例会根据查询的执行计划,直接在HDFS上读取数据并进行计算。执行完毕后,它们会将结果返回给协调者Impalad,由协调者汇总并返回给客户端。

        这也就意味着一个Impalad进程可能不仅作为协调者分发任务,还可能作为接受者接收并执行来自其他Impalad的任务,这取决于集群的负载和任务的分布。

2 StateStore(和Hive元数据、hdfs namenode放在一起)

        2.1 Hive元数据

        帮助impala理解sql语句,包含了Hive表的结构、分区、列等信息,这些信息对于Impala来说是透明的,因为Impala是基于Hive的大数据实时分析查询引擎,它直接使用Hive的元数据库Metadata。

        作用:Impala通过访问Hive的Metastore来获取表的结构和其他相关信息,以便能够理解和执行SQL查询。

        2.2 HDFS NameNode

        NameNode记录了HDFS中所有文件和目录的命名空间信息,包括它们的路径、权限、时间戳等。维护了文件数据块到DataNode的映射关系。以上这些是元数据(不是hive那个元数据)。在impala实时交互式任务中,NN的作用如下:

  • 查询规划阶段:Impala在解析查询语句并生成执行计划时,需要参考HDFS中存储的数据的元数据信息。这些元数据由NameNode维护,Impala通过与NameNode交互来获取这些信息,以便找到离DataNode近的impala进程,优化查询计划。
  • 数据读取阶段:当Impalad实例开始执行查询任务时,它们会根据需要从HDFS中读取数据。在这个过程中,Impalad会向NameNode查询数据块的位置信息,然后直接从相应的DataNode上读取数据。

        2.2 StateStore

        用于跟踪Impala集群中所有Impalad实例的健康状态和位置信息,确保Impala能够了解集群中各个Impalad的状态,从而能够选择合适的Impalad来执行查询任务。

3 用户接口

        CLI提供命令行工具,impala还提供Hue、JDBC、ODBC

4 impala过程

        用户通过Impala的SQL接口提交查询请求,Impala会根据Hive的元数据信息解析查询语句,并生成相应的执行计划。然后,Impala会根据StateStore中的信息选择一个或多个Impalad进程来执行查询任务。这些Impalad实例会直接在HDFS上读取数据并执行计算,最终将结果返回给用户。因此,用户无需直接操作HDFS,就可以通过Impala以类SQL的方式访问和分析存储在HDFS中的数据。


网站公告

今日签到

点亮在社区的每一天
去签到