首页 » 大数据 » 正文

[Hadoop]CDH的环境搭建

1.   Connect server

使用CRT或者Xshell远程连接即可。

2.   Network config

首先需要给服务器配置DNS,判断服务器是否能连接外网。

输入下列命令行即可:

ping www.baidu.com

如果能收到来自www.baidu.com应答报表示外网能连接上的,如果是unknown host表示DNS配置不正确需要配置DNS。

配置DNS有两种方式:

1)      临时方案,编辑resolv.conf文件,加入“nameserver 8.8.8.8”文件。

vi /etc/resolv.conf

nameserver 8.8.8.8

2)      长期有效,编辑ifcfg_eth0文件,加入“DNS1=8.8.8.8”文件。

vi /etc/sysconfig/network-scripts/ifcfg-eth0

DNS1=8.8.8.8

配置好之后,执行命令“service network restart”

建议使用第二种方案,第一种方案当服务器重启的时候就会失效。

关闭防火墙

输入命令“service iptables stop”即可关闭防火墙。

3.   File transfer

在安装的过程中,可能涉及到将本地的文件上传到服务器上。此处提供一种方案。

输入命令“sudo yum install lrzsz”安装lrzsz包之后,输入“rz”命令,选择需要上传的文件即可。

其中Yum(Yellow dog Updater Modified)是基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载、安装。

Install CDH在安装的过程中,可能涉及到将本地的文件上传到服务器上。此处提供一种方案。

输入命令“sudo yum install lrzsz”安装lrzsz包之后,输入“rz”命令,选择需要上传的文件即可。

其中Yum(Yellow dog Updater Modified)是基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载、安装。

4. Install CDH

HDFS:分布式文件存储系统 GFS的Java开源实现。

MapReduce:大规模数据集的并行计算编程模型。

HBase:NoSQL列数据库

Hive:数据仓库

Zookeeper:分布式锁

Pig:大数据分析平台接口

Home link: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh.html

Setup:

1. Java

CentOS 6.7自带了1.7版本的JDK,所以此处省略。安装过程中,涉及到JDK的地方都可以忽略。

2. Cloudera Manager Server

Cloudera Manager makes it easy to manage Hadoop deployments of any scale in production. Quickly deploy, configure, and monitor your cluster through an intuitive UI – complete with rolling upgrades, backup and disaster recovery, and customizable alerting.

1)        Download:

http://www.cloudera.com/content/cloudera/en/downloads/cloudera_manager/cm-5-4-7.html

下载最新的5.4.7版本即可。

下载之后,是一个503kb左右的,名为cloudera-manager-installer.bin的文件,将改文件上传(“rz”)到服务器指定的文件夹上。

2)      Close selinux:

/etc/selinux/config
selinux=disabled

3)        Hostname

需要修改本机的hostname,查看hostname的方式,直接输入hostname即可。

输入“vi /etc/hosts”即可编辑,加入行“192.168..     master.com     master”

备注,添加datanode节点的时候,请不要命名为master,可以命名为datanode1。

执行“reboot”命令,重启服务器。

3. CDH

Using cloudera manager

到该文件cloudera-manager-installer.bin所在目录下执行:

chmod u+x cloudera-manager-installer.bin
./ cloudera-manager-installer.bin

一直next向下,其中选中项会加粗的。

速度可能较慢,请耐心等待…

1)      Choose express free version.

2)      显示随后安装的软件包

3)      指定CDH集群主机

4)      安装CDH

5)      输入用户名密码

6)      安装指定Parcel

7)      选择服务

4.   Storm

用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能。

5.   Spark

Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS上,能与Hadoop很好的结合。

6.   Problems

1)        正在刷新元数据包

Another app is currently holding the yum lock; waiting for it to exit…

rm -f /var/run/yum.pid

2)        卸载Cloudera Manager

$ sudo /usr/share/cmf/uninstall-cloudera-manager.sh

3)        安装失败。 无法接收 Agent 发出的检测信号

cat /etc/hosts
ip    域名       主机名
192.168.*.1    master.com     master
cat   /etc/sysconfig/network
HOSTNAME=master.com

4)        卸载Cloudera Manager

sudo rm -Rf /usr/share/cmf /var/lib/cloudera* /var/cache/yum/cloudera*
sudo /usr/share/cmf/uninstall-cloudera-manager.sh</p>

<p>sudo service cloudera-scm-server stop</p>

<p>sudo service cloudera-scm-server-db stop</p>

<p>cloudera-manager-server-db</p>

<p>sudo yum remove cloudera-manager-server</p>

<p>sudo yum remove cloudera-manager-server-db-2</p>

<p>sudo service cloudera-scm-agent hard_stop</p>

<p>sudo yum remove 'cloudera-manager-*'</p>

<p>sudo yum clean all</p>

<p>sudo rm -Rf /usr/share/cmf /var/lib/cloudera* /var/cache/yum/cloudera* /var/log/cloudera* /var/run/cloudera*</p>

<p>sudo rm -Rf /var/cache/apt/archives/cloudera*</p>

<p>sudo rm /tmp/.scm_prepare_node.lock</p>

<p>sudo rm -Rf /var/lib/flume-ng /var/lib/hadoop* /var/lib/hue /var/lib/navigator /var/lib/oozie /var/lib/solr /var/lib/sqoop* /var/lib/zookeeper</p>

<p>sudo rm -Rf /dfs /mapred /yarn</p>

<p>

发表评论