下一节:

  Hive 教程

  • Hive 教程

    Hive是一个数据仓库基础架构工具,用于处理Hadoop中的结构化数据。它驻留在Hadoop之上以汇总大数据,并使查询和分析变得容易。这是一个简短的教程,提供有关如何将Apache Hive HiveQL与Hadoop分布式文件系统一起使用的介绍。本教程可以成为您成为Hive成功的Hadoop开发人员的第一步。
    Hive最初是由Facebook开发的,后来Apache软件基金会开始使用它,并以Apache Hive的名义将其作为开源进一步开发。它由不同的公司使用。例如,Amazon在Amazon Elastic MapReduce中使用它。
  • Hive 不是

    • 关系数据库
    • 在线事务处理(OLTP)的设计
    • 实时查询和行级更新的语言
  • Hive 的特征

    • 它将模式存储在数据库中,并将处理后的数据存储到HDFS中。
    • 它是为OLAP设计的。
    • 它提供了用于查询的SQL类型语言,称为HiveQL或HQL。
    • 它是易于掌握的,快速的,可伸缩的和可扩展的。
  • Hive 的体系结构

    以下组件图描述了Hive的体系结构:
    hive
    该组件图包含不同的单元。下表描述了每个单元:
    • 用户界面(user interfaces) Hive是一种数据仓库基础架构软件,可以在用户和HDFS之间创建交互。Hive支持的用户界面是Hive Web UI,Hive命令行和Hive HD Insight(在Windows服务器中)。
    • 元数据存储(meta store) Hive选择各自的数据库服务器来存储表,数据库,表中的列,其数据类型和HDFS映射的架构或元数据。
    • HiveQL流程引擎 HiveQL与SQL相似,用于查询Metastore上的架构信息。它是MapReduce程序的传统方法的替代之一。不用用Java编写MapReduce程序,我们可以为MapReduce作业编写查询并进行处理。
    • 执行引擎(excute engine) HiveQL流程引擎和MapReduce的结合部分是Hive执行引擎。执行引擎处理查询并生成与MapReduce结果相同的结果。它使用了MapReduce的风格。
    • HDFS或HBASE Hadoop分布式文件系统或HBASE是将数据存储到文件系统中的数据存储技术。
  • Hive 的工作

    下图描述了Hive和Hadoop之间的工作流程。
    hive
    下表定义了Hive如何与Hadoop框架进行交互:
    1. 执行查询 - Hive接口(例如命令行或Web UI)将查询发送到驱动程序(任何数据库驱动程序,例如JDBC,ODBC等)以执行。
    2. 获取计划 - 驱动程序借助查询编译器来分析查询,以检查语法和查询计划或查询要求。
    3. 获取元数据 - 编译器将元数据请求发送到Metastore(任何数据库)。
    4. 发送元数据 - Metastore将元数据作为对编译器的响应发送。
    5. 发送计划 - 编译器检查需求,然后将计划重新发送给驱动程序。至此,查询的解析和编译已完成。
    6. 执行计划 - 驱动程序将执行计划发送到执行引擎。
    7. 执行工作 - 在内部,执行作业的过程是MapReduce作业。执行引擎将作业发送到“名称”节点中的JobTracker,并将该作业分配给“数据”节点中的TaskTracker。在这里,查询执行MapReduce作业。
    8. 元数据操作 - 同时,在执行过程中,执行引擎可以使用Metastore执行元数据操作。
    9. 取得结果 - 执行引擎从数据节点接收结果。
    10. 发送结果 - 执行引擎将这些结果值发送给驱动程序。
    11. 发送结果 - 驱动程序将结果发送到Hive接口。
  • 听众

    本教程是为渴望使用Hadoop框架从事大数据分析的专业人士准备的。一般而言,从事分析的ETL开发人员和专业人员也可以使用本教程取得良好效果。
    在继续本教程之前,您需要具有Java的基本知识,SQL的数据库概念,Hadoop文件系统以及任何Linux操作系统版本。
下一节: