[关闭]
@changedi 2019-05-29T14:07:24.000000Z 字数 1535 阅读 1284

Impala——1.概述

Impala


Impala是什么

官方论文

Impala对存储在HDFS,HBase的Apache Hadoop数据和存储在Amazon S3上的数据提供快速,交互式的SQL查询。 除了使用相同的统一存储平台外,Impala还使用了与Apache Hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动程序和UI(Hue中的Impala查询UI)。
这为实时查询或面向批处理的查询提供了熟悉且统一的平台。
Impala是可用于查询大数据的工具的补充。Impala不会取代构建在MapReduce上的批处理框架,如Hive。 基于MapReduce构建的Hive和其他框架最适合
长时间运行的批处理作业,例如涉及批处理ETL类型的作业。。

使用Impala的好处

Impala提供:

Impala如何工作在Hadoop上

Impala解决方案由以下组件组成:

使用Impala执行的查询处理如下:

  1. 用户应用程序通过ODBC或JDBC向Impala发送SQL查询,这些驱动提供标准化查询接口。用户应用程序可以连接到群集中的任何impalad。这个impalad成了查询的协调员。
  2. Impala解析查询并对其进行分析,以确定impalad实例需要执行哪些任务在整个集群。计划执行以实现最佳效率。
  3. 本地impalad实例访问HDFS和HBase等服务以提供数据。
  4. 每个impalad将数据返回给协调impalad,后者将这些结果发送给客户端client。

基本的Impala特性

Impala为以下方面提供支持:

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注