Hive 教程

Hive是一个数据仓库基础架构工具，用于处理Hadoop中的结构化数据。它驻留在Hadoop之上以汇总大数据，并使查询和分析变得容易。这是一个简短的教程，提供有关如何将Apache Hive HiveQL与Hadoop分布式文件系统一起使用的介绍。本教程可以成为您成为Hive成功的Hadoop开发人员的第一步。

Hive最初是由Facebook开发的，后来Apache软件基金会开始使用它，并以Apache Hive的名义将其作为开源进一步开发。它由不同的公司使用。例如，Amazon在Amazon Elastic MapReduce中使用它。

Hive 不是

关系数据库
在线事务处理（OLTP）的设计
实时查询和行级更新的语言

Hive 的特征

它将模式存储在数据库中，并将处理后的数据存储到HDFS中。
它是为OLAP设计的。
它提供了用于查询的SQL类型语言，称为HiveQL或HQL。
它是易于掌握的，快速的，可伸缩的和可扩展的。

Hive 的体系结构

以下组件图描述了Hive的体系结构：

该组件图包含不同的单元。下表描述了每个单元：

用户界面(user interfaces) Hive是一种数据仓库基础架构软件，可以在用户和HDFS之间创建交互。Hive支持的用户界面是Hive Web UI，Hive命令行和Hive HD Insight（在Windows服务器中）。
元数据存储(meta store) Hive选择各自的数据库服务器来存储表，数据库，表中的列，其数据类型和HDFS映射的架构或元数据。
HiveQL流程引擎 HiveQL与SQL相似，用于查询Metastore上的架构信息。它是MapReduce程序的传统方法的替代之一。不用用Java编写MapReduce程序，我们可以为MapReduce作业编写查询并进行处理。
执行引擎(excute engine) HiveQL流程引擎和MapReduce的结合部分是Hive执行引擎。执行引擎处理查询并生成与MapReduce结果相同的结果。它使用了MapReduce的风格。
HDFS或HBASE Hadoop分布式文件系统或HBASE是将数据存储到文件系统中的数据存储技术。

Hive 的工作

下图描述了Hive和Hadoop之间的工作流程。

下表定义了Hive如何与Hadoop框架进行交互：

执行查询 - Hive接口（例如命令行或Web UI）将查询发送到驱动程序（任何数据库驱动程序，例如JDBC，ODBC等）以执行。
获取计划 - 驱动程序借助查询编译器来分析查询，以检查语法和查询计划或查询要求。
获取元数据 - 编译器将元数据请求发送到Metastore（任何数据库）。
发送元数据 - Metastore将元数据作为对编译器的响应发送。
发送计划 - 编译器检查需求，然后将计划重新发送给驱动程序。至此，查询的解析和编译已完成。
执行计划 - 驱动程序将执行计划发送到执行引擎。
执行工作 - 在内部，执行作业的过程是MapReduce作业。执行引擎将作业发送到“名称”节点中的JobTracker，并将该作业分配给“数据”节点中的TaskTracker。在这里，查询执行MapReduce作业。
元数据操作 - 同时，在执行过程中，执行引擎可以使用Metastore执行元数据操作。
取得结果 - 执行引擎从数据节点接收结果。
发送结果 - 执行引擎将这些结果值发送给驱动程序。
发送结果 - 驱动程序将结果发送到Hive接口。

听众

本教程是为渴望使用Hadoop框架从事大数据分析的专业人士准备的。一般而言，从事分析的ETL开发人员和专业人员也可以使用本教程取得良好效果。

在继续本教程之前，您需要具有Java的基本知识，SQL的数据库概念，Hadoop文件系统以及任何Linux操作系统版本。