Kako instalirati i postaviti Apache Spark na Ubuntu/Debian


Apache Spark je distribuirani računalni okvir otvorenog koda koji je stvoren za pružanje bržih računalnih rezultata. To je računalni stroj u memoriji, što znači da će se podaci obrađivati u memoriji.

Spark podržava različite API-je za strujanje, obradu grafikona, SQL, MLLib. Također podržava Java, Python, Scala i R kao preferirane jezike. Spark se uglavnom instalira u Hadoop klastere, ali također možete instalirati i konfigurirati spark u samostalnom načinu rada.

U ovom ćemo članku vidjeti kako instalirati Apache Spark u distribucije temeljene na Debian i Ubuntu.

Instalirajte Javu i Scalu u Ubuntu

Da biste instalirali Apache Spark u Ubuntu, trebate imati Javu i Scala instalirane na vašem računalu. Većina modernih distribucija dolazi s Javom instaliranom prema zadanim postavkama i možete je provjeriti pomoću sljedeće naredbe.

java -version

Ako nema rezultata, možete instalirati Javu pomoću našeg članka o tome kako instalirati Javu na Ubuntu ili jednostavno pokrenuti sljedeće naredbe za instalaciju Jave na Ubuntu i distribucije temeljene na Debianu.

sudo apt update
sudo apt install default-jre
java -version

Zatim možete instalirati Scala iz apt repozitorija pokretanjem sljedećih naredbi za traženje scale i instalaciju.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

Da biste provjerili instalaciju Scala, pokrenite sljedeću naredbu.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Instalirajte Apache Spark u Ubuntu

Sada idite na službenu stranicu za preuzimanje Apache Sparka i preuzmite najnoviju verziju (tj. 3.1.1) u vrijeme pisanja ovog članka. Alternativno, možete koristiti naredbu wget za preuzimanje datoteke izravno u terminalu.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Sada otvorite svoj terminal i prebacite se na mjesto gdje se nalazi vaša preuzeta datoteka i pokrenite sljedeću naredbu za izdvajanje Apache Spark tar datoteke.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Na kraju, premjestite ekstrahirani Spark direktorij u /opt direktorij.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfigurirajte varijable okruženja za Spark

Sada morate postaviti nekoliko varijabli okruženja u svojoj datoteci .profile prije pokretanja iskre.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Kako biste bili sigurni da su ove nove varijable okruženja dostupne unutar ljuske i dostupne Apache Sparku, također je obavezno pokrenuti sljedeću naredbu da bi se nedavne promjene primijenile.

source ~/.profile

Sve binarne datoteke povezane s iskrom za pokretanje i zaustavljanje usluga nalaze se u mapi sbin.

ls -l /opt/spark

Pokrenite Apache Spark u Ubuntuu

Pokrenite sljedeću naredbu za pokretanje glavne i podređene usluge Spark.

start-master.sh
start-workers.sh spark://localhost:7077

Nakon što se usluga pokrene, idite u preglednik i upišite sljedeću URL stranicu za pristup iskri. Na stranici možete vidjeti da je moj master i slave servis pokrenut.

http://localhost:8080/
OR
http://127.0.0.1:8080

Također možete provjeriti radi li spark-shell dobro pokretanjem naredbe spark-shell.

spark-shell

To je to za ovaj članak. Uskoro ćemo vas uhvatiti s još jednim zanimljivim člankom.