관리 메뉴

HAMA 블로그

Apache Spark 설치 - (로컬 모드) 본문

Spark

Apache Spark 설치 - (로컬 모드)

[하마] 이승현 (wowlsh93@gmail.com) 2015. 12. 1. 13:36


Apache Spark 설치하기




OS : Ubuntu 14.04.3-desktop-amd64.iso on VirtualBox 5.0.10

Java : 1.7.0

Scala : 2.10.4 

Spark :  spark-1.3.0-bin-hadoop2.4.tgz 




우분투 14버전을 VirtualBox 에 깔았다고 치고 그 이후에 대해서 알아보자.



- 자바를 설치합니다. 


$ sudo apt-add-repository ppa:webupd8team/java

$ sudo apt-get update

$ sudo apt-get install oracle-java7-installer

$ java -version

위와 같이 입력하여 아래와 같이 나오는지 확인합니다.

java version "1.7.0_72"_ Java(TM) SE Runtime Environment (build 1.7.0_72-b14)_ Java HotSpot(TM) 64-Bit Server VM (build 24.72-b04, mixed mode)



- Scala 를 설치합니다.


http://www.scala-lang.org/download/2.10.4.html  를 클릭하여 스칼라를 다운로드 받거나 아래와 같이

wget 으로 다운로드 받습니다. 다운로드 받은 스칼라를  /urs/local/lib  아래에 tar 를 압축해제하여 

풀어놓은후에 환경세팅을 합니다.


$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz

$ sudo mkdir /usr/local/src/scala

$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/lib/scala/


$ nano .bashrc    // 파일을 열고 


파일 아래에 아래와 같이 입력합니다.

export SCALA_HOME=/usr/local/src/scala/scala-2.10.4

export PATH=$SCALA_HOME/bin:$PATH


$ source .bashrc  // 이것을 입력하여 환경 설정을 마칩니다.


스칼라가 잘 설치됬는지 확인합니다.


$ scala -version



- Spark 를 설치합니다.


http://spark.apache.org/downloads.html  여기에서 다운로드 받습니다.



저는 위와 같이 설정하여 spark-1.3.0-bin-hadoop2.4.tgz 를 다운로드받아서 

/home/proram 폴더에서 압축을 풀었습니다.


설치 끝~~~~  



- 이제 설치된 Spark 로 Pi 계산을 해보겠습니다.


$ cd program/spark-1.3.0-bin-hadoop2.4/     // spark 홈으로 이동합니다.

$ ./bin/run-example SparkPi 10    // 다음과 같이 실행하면 


"Pi is roughly 3.14634"  라고 결과를 얻을수 있습니다.



- Spark 쉘 실행하기 


$ ./bin/spark-shell

scala> val lines = sc.textFile("README.md")  //  lines 라는 RDD 를 만든다.

scala> lines.count()    // 이 RDD 의 아이템 개수를 센다.

scala> lines.first()      // 이 RDD 의 첫번째 아이템, (README.md 의 첫번째 라인) 을 보여준다. 



- Python 쉘 실행하기 


$ ./bin/pyspark 

>>> lines = sc.textFile("README.md")

>>> lines.count()

>>> lines.first()


Comments