Kako instalirati i konfigurirati Apache Hadoop na jednom čvoru u CentOS 7


Apache Hadoop izgrađen je okvir otvorenog koda za distribuiranu pohranu velikih podataka i obradu podataka u računalnim klasterima. Projekt se temelji na sljedećim komponentama:

  1. Hadoop Common – sadrži Java biblioteke i uslužne programe potrebne drugim Hadoop modulima.
  2. HDFS – Hadoop Distribuirani datotečni sustav – skalabilni datotečni sustav temeljen na Javi distribuiran na više čvorova.
  3. MapReduce – YARN okvir za paralelnu obradu velikih podataka.
  4. Hadoop YARN: okvir za upravljanje resursima klastera.

Ovaj će vas članak uputiti kako možete instalirati Apache Hadoop na klaster s jednim čvorom u CentOS 7 (radi i za RHEL 7 i Fedora 23+ ). verzije). Ova vrsta konfiguracije također se spominje kao Hadoop pseudo-distribuirani način.

Korak 1: Instalirajte Javu na CentOS 7

1. Prije nego što nastavite s instalacijom Jave, prvo se prijavite s root korisnikom ili korisnikom s root privilegijama, postavite naziv glavnog računala pomoću sljedeće naredbe.

hostnamectl set-hostname master

Također, dodajte novi zapis u hosts datoteku s vlastitim FQDN-om stroja koji će upućivati na IP adresu vašeg sustava.

vi /etc/hosts

Dodajte donji redak:

192.168.1.41 master.hadoop.lan

Zamijenite gornji naziv hosta i FQDN zapise svojim postavkama.

2. Zatim idite na Oracle Java stranicu za preuzimanje i preuzmite najnoviju verziju Java SE Development Kit 8 na vašem sustavu uz pomoć curl naredba:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Nakon što Java binarno preuzimanje završi, instalirajte paket izdavanjem donje naredbe:

rpm -Uvh jdk-8u92-linux-x64.rpm

Korak 2: Instalirajte Hadoop Framework u CentOS 7

4. Zatim stvorite novi korisnički račun na svom sustavu bez root ovlasti koje ćemo koristiti za Hadoop instalacijski put i radno okruženje. Novi početni direktorij računa nalazit će se u /opt/hadoop direktoriju.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. U sljedećem koraku posjetite stranicu Apache Hadoop kako biste dobili vezu za najnoviju stabilnu verziju i preuzeli arhivu na svoj sustav.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Izdvojite arhivu i kopirajte sadržaj direktorija na početnu stazu hadoop računa. Također provjerite jeste li u skladu s time promijenili dozvole za kopirane datoteke.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Zatim se prijavite s hadoop korisnikom i konfigurirajte Hadoop i Java varijable okruženja na vašem sustavu uređivanjem .bash_profile datoteka.

su - hadoop
vi .bash_profile

Dodajte sljedeće retke na kraj datoteke:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Sada inicijalizirajte varijable okoline i provjerite njihov status izdavanjem naredbi u nastavku:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Konačno, konfigurirajte autentifikaciju temeljenu na ssh ključu za hadoop račun pokretanjem donjih naredbi (zamijenite naziv glavnog računala ili FQDN > prema naredbi ssh-copy-id).

Također, ostavite polje za zaporku prazno kako biste se automatski prijavili putem ssh-a.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan