Kako instalirati i konfigurirati Apache Hadoop na jednom čvoru u CentOS 7
Apache Hadoop izgrađen je okvir otvorenog koda za distribuiranu pohranu velikih podataka i obradu podataka u računalnim klasterima. Projekt se temelji na sljedećim komponentama:
- Hadoop Common – sadrži Java biblioteke i uslužne programe potrebne drugim Hadoop modulima.
- HDFS – Hadoop Distribuirani datotečni sustav – skalabilni datotečni sustav temeljen na Javi distribuiran na više čvorova.
- MapReduce – YARN okvir za paralelnu obradu velikih podataka.
- Hadoop YARN: okvir za upravljanje resursima klastera.
Ovaj će vas članak uputiti kako možete instalirati Apache Hadoop na klaster s jednim čvorom u CentOS 7 (radi i za RHEL 7 i Fedora 23+ ). verzije). Ova vrsta konfiguracije također se spominje kao Hadoop pseudo-distribuirani način.
Korak 1: Instalirajte Javu na CentOS 7
1. Prije nego što nastavite s instalacijom Jave, prvo se prijavite s root korisnikom ili korisnikom s root privilegijama, postavite naziv glavnog računala pomoću sljedeće naredbe.
hostnamectl set-hostname master
Također, dodajte novi zapis u hosts datoteku s vlastitim FQDN-om stroja koji će upućivati na IP adresu vašeg sustava.
vi /etc/hosts
Dodajte donji redak:
192.168.1.41 master.hadoop.lan
Zamijenite gornji naziv hosta i FQDN zapise svojim postavkama.
2. Zatim idite na Oracle Java stranicu za preuzimanje i preuzmite najnoviju verziju Java SE Development Kit 8 na vašem sustavu uz pomoć curl naredba:
curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. Nakon što Java binarno preuzimanje završi, instalirajte paket izdavanjem donje naredbe:
rpm -Uvh jdk-8u92-linux-x64.rpm
Korak 2: Instalirajte Hadoop Framework u CentOS 7
4. Zatim stvorite novi korisnički račun na svom sustavu bez root ovlasti koje ćemo koristiti za Hadoop instalacijski put i radno okruženje. Novi početni direktorij računa nalazit će se u /opt/hadoop
direktoriju.
useradd -d /opt/hadoop hadoop
passwd hadoop
5. U sljedećem koraku posjetite stranicu Apache Hadoop kako biste dobili vezu za najnoviju stabilnu verziju i preuzeli arhivu na svoj sustav.
curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Izdvojite arhivu i kopirajte sadržaj direktorija na početnu stazu hadoop računa. Također provjerite jeste li u skladu s time promijenili dozvole za kopirane datoteke.
tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/
7. Zatim se prijavite s hadoop korisnikom i konfigurirajte Hadoop i Java varijable okruženja na vašem sustavu uređivanjem .bash_profile
datoteka.
su - hadoop
vi .bash_profile
Dodajte sljedeće retke na kraj datoteke:
## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Sada inicijalizirajte varijable okoline i provjerite njihov status izdavanjem naredbi u nastavku:
source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME
9. Konačno, konfigurirajte autentifikaciju temeljenu na ssh ključu za hadoop račun pokretanjem donjih naredbi (zamijenite naziv glavnog računala ili FQDN > prema naredbi ssh-copy-id
).
Također, ostavite polje za zaporku prazno kako biste se automatski prijavili putem ssh-a.
ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan