JSRUN 用代码说话

环境安装

编辑教程

环境安装

本章将介绍如何在系统中下载,安装和设置 Apache Pig

先决条件

在你运行Apache Pig之前,必须在系统上安装好Hadoop和Java。

下载Apache Pig

首先,从以下网站下载最新版本的Apache Pig:https://pig.apache.org/

步骤1

打开Apache Pig网站的主页。在News部分下,点击链接release page,如下面的快照所示。

Home Page

步骤2

点击指定的链接后,你将被重定向到 Apache Pig Releases 页面。在此页面的Download部分下,单击链接,然后你将被重定向到具有一组镜像的页面。

Apache Pig Releases

步骤3

选择并单击这些镜像中的任一个,如下所示。

click mirrors

步骤4

这些镜像将带您进入 Pig Releases 页面。 此页面包含Apache Pig的各种版本。 单击其中的最新版本。

Pig Release

步骤5

在这些文件夹中,有发行版中的Apache Pig的源文件和二进制文件。下载Apache Pig 0.16, pig0.16.0-src.tar.gzpig-0.16.0.tar.gz 的源和二进制文件的tar文件。

Pig Index

安装Apache Pig

下载Apache Pig软件后,按照以下步骤将其安装在Linux环境中。

步骤1

在安装了 Hadoop,Java和其他软件的安装目录的同一目录中创建一个名为Pig的目录。(在我们的教程中,我们在名为Hadoop的用户中创建了Pig目录)。

$ mkdir Pig

第2步

提取下载的tar文件,如下所示。

$ cd Downloads/ 
$ tar zxvf pig-0.15.0-src.tar.gz 
$ tar zxvf pig-0.15.0.tar.gz

步骤3

pig-0.16.0-src.tar.gz 文件的内容移动到之前创建的 Pig 目录,如下所示。

$ mv pig-0.16.0-src.tar.gz/* /home/Hadoop/Pig/

配置Apache Pig

安装Apache Pig后,我们必须配置它。要配置,我们需要编辑两个文件 - bashrcpig.properties

.bashrc文件

.bashrc 文件中,设置以下变量

  • PIG_HOME 文件夹复制到Apache Pig的安装文件夹

  • PATH 环境变量复制到bin文件夹

  • PIG_CLASSPATH 环境变量复制到安装Hadoop的etc(配置)文件夹(包含core-site.xml,hdfs-site.xml和mapred-site.xml文件的目录)。

export PIG_HOME = /home/Hadoop/Pig
export PATH  = PATH:/home/Hadoop/pig/bin
export PIG_CLASSPATH = $HADOOP_HOME/conf

pig.properties文件

在Pig的 conf 文件夹中,我们有一个名为 pig.properties 的文件。在pig.properties文件中,可以设置如下所示的各种参数。

pig -h properties

支持以下属性:

日志记录:verbose=true | false;默认值为false。此属性与-v相同
switch brief=true | false;默认值为false。这个属性是一样的
as -b switch debug=OFF|ERROR|WARN|INFO|DEBUG; 默认值为INFO.             
此属性与-d开关相同聚合警告=true | false;默认值为true。
如果为true,则打印每种类型的警告计数,而不是记录每个警告
性能调整:pig.cachedbag.memusage=<mem fraction>;默认值为0.2(占所有内存的20%)。
请注意,这个内存是在应用程序使用的所有大型包中共享的。
pig.skewedjoin.reduce.memusagea=<mem fraction>;默认值为0.3(占所有内存的30%)。
指定可供还原程序执行联接的堆的一部分。  
pig.exec.nocombiner公司=true | false;默认值为false。
仅禁用组合器作为解决问题的临时解决方案。      
选项多重查询=true | false;默认情况下,multiquery处于打开状态。
仅禁用multiquery作为问题的临时解决方案。
选择取回=true | false;默认情况下,fetch处于打开状态。
包含Filter、Foreach、Limit、Stream和Union的脚本可以在没有MR作业的情况下转储。
pig.TMP文件压缩=true | false;默认情况下关闭压缩。
确定是否压缩中间作业的输出。
pig.tmpfilecompression.codec=lzo | gzip;默认值为gzip。
与…连用pig.TMP文件压缩. 定义压缩类型。
pig.noSplitCombination公司=true | false;默认情况下,“拆分组合”处于启用状态。
确定是否将多个小文件合并到一个映射中。       
pig.exec.mapPartAgg=真|假。默认值为false。
确定在将记录发送到组合器之前,是否在映射阶段内完成部分聚合。
pig.exec.mapPartAgg.minReduction=<min聚合因子>。默认值为10。
如果映射中的部分聚合没有按此因子减少输出num个记录,那么它将被禁用。
其他:exectype=mapreduce | tez | local;默认值为mapreduce。此属性与-x开关相同
附加清管器. jars.uris文件=<逗号分隔的jar列表>。
用来代替寄存器命令。
自定义项导入列表=<逗号分隔的导入列表>。
用于避免UDF中的包名。
停止故障=true | false;默认值为false。
设置为true以在第一个错误时终止。
pig.datetime.default.tz=<UTC时间偏移>。e、 g.+08:00。Default是主机的默认时区。
确定用于处理日期时间数据类型和UDF的时区。
另外,可以指定任何Hadoop属性

验证安装

通过键入version命令验证Apache Pig的安装。如果安装成功,你将获得Apache Pig的正式版本,如下所示。

$ pig –version 

Apache Pig version 0.16.0 (r1682971)  
compiled Jun 01 2015, 11:44:35
JSRUN闪电教程系统是国内最先开创的教程维护系统, 所有工程师都可以参与共同维护的闪电教程,让知识的积累变得统一完整、自成体系。 大家可以一起参与进共编,让零散的知识点帮助更多的人。
X
支付宝
9.99
无法付款,请点击这里
金额: 0
备注:
转账时请填写正确的金额和备注信息,到账由人工处理,可能需要较长时间
如有疑问请联系QQ:565830900
正在生成二维码, 此过程可能需要15秒钟