环境安装
编辑教程环境安装
本章将介绍如何在系统中下载,安装和设置 Apache Pig 。
先决条件
在你运行Apache Pig之前,必须在系统上安装好Hadoop和Java。
下载Apache Pig
首先,从以下网站下载最新版本的Apache Pig:https://pig.apache.org/
步骤1
打开Apache Pig网站的主页。在News部分下,点击链接release page,如下面的快照所示。
步骤2
点击指定的链接后,你将被重定向到 Apache Pig Releases 页面。在此页面的Download部分下,单击链接,然后你将被重定向到具有一组镜像的页面。
步骤3
选择并单击这些镜像中的任一个,如下所示。
步骤4
这些镜像将带您进入 Pig Releases 页面。 此页面包含Apache Pig的各种版本。 单击其中的最新版本。
步骤5
在这些文件夹中,有发行版中的Apache Pig的源文件和二进制文件。下载Apache Pig 0.16, pig0.16.0-src.tar.gz 和 pig-0.16.0.tar.gz 的源和二进制文件的tar文件。
安装Apache Pig
下载Apache Pig软件后,按照以下步骤将其安装在Linux环境中。
步骤1
在安装了 Hadoop,Java和其他软件的安装目录的同一目录中创建一个名为Pig的目录。(在我们的教程中,我们在名为Hadoop的用户中创建了Pig目录)。
$ mkdir Pig
第2步
提取下载的tar文件,如下所示。
$ cd Downloads/
$ tar zxvf pig-0.15.0-src.tar.gz
$ tar zxvf pig-0.15.0.tar.gz
步骤3
将 pig-0.16.0-src.tar.gz 文件的内容移动到之前创建的 Pig 目录,如下所示。
$ mv pig-0.16.0-src.tar.gz/* /home/Hadoop/Pig/
配置Apache Pig
安装Apache Pig后,我们必须配置它。要配置,我们需要编辑两个文件 - bashrc和pig.properties 。
.bashrc文件
在 .bashrc 文件中,设置以下变量
PIG_HOME 文件夹复制到Apache Pig的安装文件夹
PATH 环境变量复制到bin文件夹
PIG_CLASSPATH 环境变量复制到安装Hadoop的etc(配置)文件夹(包含core-site.xml,hdfs-site.xml和mapred-site.xml文件的目录)。
export PIG_HOME = /home/Hadoop/Pig
export PATH = PATH:/home/Hadoop/pig/bin
export PIG_CLASSPATH = $HADOOP_HOME/conf
pig.properties文件
在Pig的 conf 文件夹中,我们有一个名为 pig.properties 的文件。在pig.properties文件中,可以设置如下所示的各种参数。
pig -h properties
支持以下属性:
日志记录:verbose=true | false;默认值为false。此属性与-v相同
switch brief=true | false;默认值为false。这个属性是一样的
as -b switch debug=OFF|ERROR|WARN|INFO|DEBUG; 默认值为INFO.
此属性与-d开关相同聚合警告=true | false;默认值为true。
如果为true,则打印每种类型的警告计数,而不是记录每个警告
性能调整:pig.cachedbag.memusage=<mem fraction>;默认值为0.2(占所有内存的20%)。
请注意,这个内存是在应用程序使用的所有大型包中共享的。
pig.skewedjoin.reduce.memusagea=<mem fraction>;默认值为0.3(占所有内存的30%)。
指定可供还原程序执行联接的堆的一部分。
pig.exec.nocombiner公司=true | false;默认值为false。
仅禁用组合器作为解决问题的临时解决方案。
选项多重查询=true | false;默认情况下,multiquery处于打开状态。
仅禁用multiquery作为问题的临时解决方案。
选择取回=true | false;默认情况下,fetch处于打开状态。
包含Filter、Foreach、Limit、Stream和Union的脚本可以在没有MR作业的情况下转储。
pig.TMP文件压缩=true | false;默认情况下关闭压缩。
确定是否压缩中间作业的输出。
pig.tmpfilecompression.codec=lzo | gzip;默认值为gzip。
与…连用pig.TMP文件压缩. 定义压缩类型。
pig.noSplitCombination公司=true | false;默认情况下,“拆分组合”处于启用状态。
确定是否将多个小文件合并到一个映射中。
pig.exec.mapPartAgg=真|假。默认值为false。
确定在将记录发送到组合器之前,是否在映射阶段内完成部分聚合。
pig.exec.mapPartAgg.minReduction=<min聚合因子>。默认值为10。
如果映射中的部分聚合没有按此因子减少输出num个记录,那么它将被禁用。
其他:exectype=mapreduce | tez | local;默认值为mapreduce。此属性与-x开关相同
附加清管器. jars.uris文件=<逗号分隔的jar列表>。
用来代替寄存器命令。
自定义项导入列表=<逗号分隔的导入列表>。
用于避免UDF中的包名。
停止故障=true | false;默认值为false。
设置为true以在第一个错误时终止。
pig.datetime.default.tz=<UTC时间偏移>。e、 g.+08:00。Default是主机的默认时区。
确定用于处理日期时间数据类型和UDF的时区。
另外,可以指定任何Hadoop属性
验证安装
通过键入version命令验证Apache Pig的安装。如果安装成功,你将获得Apache Pig的正式版本,如下所示。
$ pig –version
Apache Pig version 0.16.0 (r1682971)
compiled Jun 01 2015, 11:44:35
选择支付方式:
备注:
转账时请填写正确的金额和备注信息,到账由人工处理,可能需要较长时间