Kako instalirati Hadoop Single Node Cluster (pseudonode) na CentOS 7
Hadoop je okvir otvorenog koda koji se široko koristi za rad s Bigdata. Većina projekata Bigdata/Data Analytics izgrađena je na vrhu Hadoop Eco-System. Sastoji se od dva sloja, jedan je za pohranu podataka, a drugi za obradu podataka.
Za pohranu pobrinut će se vlastiti datotečni sustav pod nazivom HDFS (Hadoop distribuirani datotečni sustav), a obrada će se preuzeti brine YARN (Još jedan pregovarač o resursima). Mapreduce je zadani mehanizam za obradu Hadoop Eco-System.
Ovaj članak opisuje postupak instaliranja instalacije Pseudonode za Hadoop, gdje će biti svi daemoni (JVM-ovi) pokretanje klastera Single Node na CentOS 7.
Ovo je uglavnom za početnike za učenje Hadoopa. U stvarnom vremenu, Hadoop bit će instaliran kao klaster s više čvorova gdje će se podaci distribuirati među poslužiteljima kao blokovi, a posao će se izvršavati na paralelan način.
Preduvjeti
- Minimalna instalacija CentOS 7 poslužitelja.
- Izdanje Java v1.8.
- Hadoop 2.x stabilno izdanje.
Na ovoj stranici
- Kako instalirati Javu na CentOS 7
- Postavite prijavu bez lozinke na CentOS 7
- Kako instalirati Hadoop Single Node u CentOS 7
- Kako konfigurirati Hadoop u CentOS 7
- Formatiranje HDFS datotečnog sustava putem NameNode
Instaliranje Jave na CentOS 7
1. Hadoop je eko-sustav koji se sastoji od Jave. Java mora biti instalirana u našem sustavu da bismo instalirali Hadoop.
yum install java-1.8.0-openjdk
2. Zatim provjerite instaliranu verziju Jave na sustavu.
java -version
Konfigurirajte prijavu bez lozinke na CentOS 7
Moramo imati ssh konfiguriran na našem računalu, Hadoop će upravljati čvorovima pomoću SSH. Glavni čvor koristi SSH vezu za povezivanje svojih podređenih čvorova i izvođenje operacija poput pokretanja i zaustavljanja.
Moramo postaviti ssh bez lozinke tako da master može komunicirati sa podređenim uređajima koristeći ssh bez lozinke. Inače za svaku uspostavu veze potrebno je unijeti lozinku.
U ovom pojedinačnom čvoru, Master usluge (Namenode, Secondary Namenode & Resource Manager) i Slave< usluge (Datanode & Nodemanager) radit će kao zasebni JVM-ovi. Iako je jednostruki čvor, moramo imati ssh bez lozinke kako bi Master komunicirao Slave bez autentifikacije.
3. Postavite SSH prijavu bez lozinke pomoću sljedećih naredbi na poslužitelju.
ssh-keygen
ssh-copy-id -i localhost
4. Nakon što ste konfigurirali SSH prijavu bez lozinke, pokušajte se ponovno prijaviti, bit ćete povezani bez lozinke.
ssh localhost
Instaliranje Hadoopa u CentOS 7
5. Idite na web mjesto Apache Hadoop i preuzmite stabilno izdanje Hadoopa pomoću sljedeće naredbe wget.
wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz
6. Zatim dodajte varijable okruženja Hadoop u datoteku ~/.bashrc
kao što je prikazano.
HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX
7. Nakon dodavanja varijabli okoline u ~/.bashrc
datoteku, izvor datoteke i provjerite Hadoop pokretanjem sljedećih naredbi.
source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version
Konfiguriranje Hadoopa u CentOS 7
Moramo konfigurirati donje Hadoop konfiguracijske datoteke kako bi se uklopile u vaš stroj. U Hadoopu svaka usluga ima svoj broj priključka i vlastiti direktorij za pohranu podataka.
- Hadoop konfiguracijske datoteke – core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml
8. Prvo, moramo ažurirati JAVA_HOME
i Hadoop stazu u datoteci hadoop-env.sh kao što je prikazano .
cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh
Unesite sljedeći redak na početku datoteke.
export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1
9. Zatim izmijenite datoteku core-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml
Zalijepite sljedeće između oznaka <configuration>
kao što je prikazano.
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
10. Stvorite donje direktorije u tecmint
korisničkom početnom direktoriju, koji će se koristiti za NN i DN pohranu.
mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name
10. Zatim izmijenite datoteku hdfs-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml
Zalijepite sljedeće između oznaka <configuration>
kao što je prikazano.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/tecmint/hdata/name</value>
</property>
<property>
<name>dfs .datanode.data.dir</name>
<value>home/tecmint/hdata/data</value>
</property>
</configuration>
11. Ponovno izmijenite datoteku mapred-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
Zalijepite sljedeće između oznaka <configuration>
kao što je prikazano.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
12. Na kraju, izmijenite datoteku yarn-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml
Zalijepite sljedeće između oznaka <configuration>
kao što je prikazano.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Formatiranje HDFS datotečnog sustava putem NameNode
13. Prije pokretanja Klustera, moramo formatirati Hadoop NN u našem lokalnom sustavu gdje je instaliran. Obično će se to učiniti u početnoj fazi prije prvog pokretanja klastera.
Formatiranje NN uzrokovat će gubitak podataka u NN metastoreu, stoga moramo biti oprezniji, ne bismo trebali formatirati NN dok klaster radi osim ako to nije namjerno potrebno.
cd $HADOOP_PREFIX
bin/hadoop namenode -format
14. Pokrenite NameNode demon i DataNode demon: (port 50070).
cd $HADOOP_PREFIX
sbin/start-dfs.sh
15. Pokrenite ResourceManager demon i NodeManager demon: (priključak 8088).
sbin/start-yarn.sh
16. Za zaustavljanje svih usluga.
sbin/stop-dfs.sh
sbin/stop-dfs.sh
Sažetak
Sažetak
U ovom smo članku prošli kroz postupak korak po korak za postavljanje Klustera Hadoop pseudonod (Jedan čvor). Ako imate osnovno znanje o Linuxu i slijedite ove korake, klaster će biti GORE za 40 minuta.
Ovo može biti vrlo korisno za početnike da počnu učiti i prakticirati Hadoop ili se ova vanilla verzija Hadoopa može koristiti u razvojne svrhe. Ako želimo imati klaster u stvarnom vremenu, trebamo imati najmanje 3 fizička poslužitelja ili moramo osigurati Cloud za više poslužitelja.