Pig Grunt Shell

  • Grunt Shell

    调用Grunt Shell之后,您可以在Shell中运行Pig脚本。除此之外,Grunt shell还提供了某些有用的shell和实用程序命令。本章介绍了Grunt shell提供的shell和实用程序命令。
    –在本章的某些部分中,使用了诸如Load和Store之类的命令。请参阅相应的章节以获取有关它们的详细信息。
  • Shell命令

    Apache Pig的Grunt shell程序主要用于编写Pig Latin脚本。在此之前,我们可以使用sh和fs调用任何shell命令。
    sh命令
    使用sh命令,我们可以从Grunt shell调用任何shell命令。使用Grunt shell程序中的sh命令,我们无法执行 shell程序环境(ex -cd)中的命令。
    语法
    下面给出的是sh命令的语法。
    
    grunt> sh shell command parameters
    
    例子
    我们可以使用sh选项从Grunt shell调用Linux shell的ls命令,如下所示。在此示例中,它列出了当前目录中的文件。
    
    grunt> sh ls
    pig 
    pig_1444799121955.log 
    pig.cmd 
    pig.py
    
    fs命令
    使用fs命令,我们可以从Grunt shell调用任何fs Shell命令。
    语法
    下面给出的是fs命令的语法。
    
    grunt> sh File System command parameters
    
    例子
    我们可以使用fs命令从Grunt shell调用HDFS的ls命令。在以下示例中,它列出了HDFS根目录中的文件。
    
    grunt> fs -ls
    Found 3 items
    drwxrwxrwx   - Hadoop supergroup          0 2015-09-08 14:13 Hbase
    drwxr-xr-x   - Hadoop supergroup          0 2015-09-09 14:52 seqgen_data
    drwxr-xr-x   - Hadoop supergroup          0 2015-09-08 11:30 twitter_data
    
    以同样的方式,我们可以使用fs命令从Grunt shell调用所有其他文件系统shell命令。
  • 实用程序命令

    Grunt shell提供了一组实用程序命令。这些包括实用程序命令,例如clear, help, history, quit, 和 set; 和诸如exec, kill, 和 run之类的命令从Grunt shell中控制Pig。下面给出了Grunt shell提供的实用程序命令的描述。
    clear 命令
    clear 命令用于清除Grunt shell 的屏幕。
    句法
    您可以使用clear命令清除grunt shell的屏幕,如下所示。
    
    grunt> clear
    
    help 命令
    help 命令给你 pig 命令或 pig 属性列表。
    句法
    您可以使用help命令获得Pig命令的列表,如下所示。
    
    grunt> help
    Commands:
    <pig latin statement>; - See the PigLatin manual for details: http://hadoop.apache.org/pig
    File system commands:
        fs <fs arguments> - Equivalent to Hadoop dfs command: http://hadoop.apache.org/common/docs/current/hdfs_shell.html
    Diagnostic commands:
        describe <alias>[::<alias] - Show the schema for the alias. Inner aliases can be described as A::B.
        explain [-script <pigscript>] [-out <path>] [-brief] [-dot|-xml] [-param <param_name>=<param_value>]
            [-param_file <file_name>] [<alias>] - Show the execution plan to compute the alias or for entire script.
            -script - Explain the entire script.
            -out - Store the output into directory rather than print to stdout.
            -brief - Don't expand nested plans (presenting a smaller graph for overview).
            -dot - Generate the output in .dot format. Default is text format.
            -xml - Generate the output in .xml format. Default is text format.
            -param <param_name - See parameter substitution for details.
            -param_file <file_name> - See parameter substitution for details.
            alias - Alias to explain.
        dump <alias> - Compute the alias and writes the results to stdout.
    Utility Commands:
        exec [-param <param_name>=param_value] [-param_file <file_name>] <script> - 
            Execute the script with access to grunt environment including aliases.
            -param <param_name - See parameter substitution for details.
            -param_file <file_name> - See parameter substitution for details.
            script - Script to be executed.
        run [-param <param_name>=param_value] [-param_file <file_name>] <script> - 
            Execute the script with access to grunt environment. 
            -param <param_name - See parameter substitution for details.
            -param_file <file_name> - See parameter substitution for details.
            script - Script to be executed.
        sh  <shell command> - Invoke a shell command.
        kill <job_id> - Kill the hadoop job specified by the hadoop job id.
        set <key> <value> - Provide execution parameters to Pig. Keys and values are case sensitive.
            The following keys are supported: 
            default_parallel - Script-level reduce parallelism. Basic input size heuristics used by default.
            debug - Set debug on or off. Default is off.
            job.name - Single-quoted name for jobs. Default is PigLatin:<script name>
            job.priority - Priority for jobs. Values: very_low, low, normal, high, very_high. Default is normal
            stream.skippath - String that contains the path. This is used by streaming.
            any hadoop property.
        help - Display this message.
        history [-n] - Display the list statements in cache.
            -n Hide line numbers. 
        quit - Quit the grunt shell.
    
    history 命令
    该命令显示了自调用Grunt Sell以来已执行/使用过的语句列表。
    语法
    假设自打开Grunt shell以来,我们已经执行了三个语句。
    
    grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',');
     
    grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
     
    grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');
    
    然后,使用history命令将产生以下输出。
    
    grunt> history
    
    customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(','); 
      
    orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
       
    student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');
    
    set 命令
    set 命令用于显示在pig 中使用的键/分配值。
    用法
    使用此命令,可以将值设置为以下键。
    描述和值
    default_parallel 您可以通过将任何整数作为值传递给此键来设置map作业的化简数量。
    debug 您可以通过off/on此键来关闭或打开Pig中的调试功能。
    job.name 您可以通过将字符串值传递给此键来将作业名称设置为所需的作业。
    job.priority 您可以通过将以下值之一传递给此键来为作业设置作业优先级-
    • very_low
    • low
    • normal
    • high
    • very_high
    stream.skippath 对于流式传输,可以通过将所需的路径以字符串形式传递给此键来设置不传输数据的路径。
    quit 命令
    您可以使用此命令从Grunt shell退出。
    用法
    如下所示从Grunt shell退出。
    
    grunt> quit
    

    现在,让我们看一下可以从Grunt shell控制Apache Pig的命令。
    exec 命令
    使用exec命令,我们可以从Grunt shell中执行Pig脚本。
    句法
    下面给出的是实用程序命令exec的语法。
    
    grunt> exec [–param param_name = param_value] [–param_file file_name] [script]
    
    我们假设HDFS的/pig_data/目录中有一个名为Student.txt的文件,其内容如下。
     
    001,Rajiv,Hyderabad
    002,siddarth,Kolkata
    003,Rajesh,Delhi
    
    并且,假设我们在HDFS的/pig_data/目录中有一个名为sample_script.pig的脚本文件,内容如下。
    
    student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',')  as (id:int,name:chararray,city:chararray);
      
    Dump student;
    
    现在,让我们使用exec命令从Grunt shell执行上述脚本,如下所示。
    
    grunt> exec /sample_script.pig
    
    输出
    在EXEC命令执行脚本sample_script.pig。按照脚本中的指示,它会将Student.txt文件加载到Pig中,并为您提供转储运算符显示以下内容的结果。
    
    (1,Rajiv,Hyderabad)
    (2,siddarth,Kolkata)
    (3,Rajesh,Delhi) 
    
    kill 命令
    您可以使用此命令从Grunt Shell中终止作业。
    句法
    下面给出的是kill命令的语法。
    
    grunt> kill JobId
    
    - 假设有一个运行中的id为Id_0055的Pig作业,您可以使用kill命令从Grunt shell中杀死它,如下所示。
    
    grunt> kill Id_0055
    
    run 命令
    您可以使用run命令从Grunt shell运行Pig脚本
    句法
    下面给出的是run命令的语法。
    
    grunt> run [–param param_name = param_value] [–param_file file_name] script
    
    - 让我们假设有一个文件名为student.txt在/pig_data/用下面的内容目录HDFS的。
    
    001,Rajiv,Hyderabad
    002,siddarth,Kolkata
    003,Rajesh,Delhi
    
    并且,假设我们在本地文件系统中有一个名为sample_script.pig的脚本文件,内容如下。
    
    student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
       PigStorage(',') as (id:int,name:chararray,city:chararray);
    
    现在,让我们使用run命令从Grunt shell运行上述脚本,如下所示。
    
    grunt> run /sample_script.pig
    
    您可以使用Dump运算符查看脚本的输出,如下所示。
    
    grunt> Dump;
    
    (1,Rajiv,Hyderabad)
    (2,siddarth,Kolkata)
    (3,Rajesh,Delhi)
    
    – exec和run命令之间的区别在于,如果我们使用run,则脚本的语句在命令历史记录中可用。