Apache Spark 설치 - (로컬 모드)
Apache Spark 설치하기
OS : Ubuntu 14.04.3-desktop-amd64.iso on VirtualBox 5.0.10
Java : 1.7.0
Scala : 2.10.4
Spark : spark-1.3.0-bin-hadoop2.4.tgz
우분투 14버전을 VirtualBox 에 깔았다고 치고 그 이후에 대해서 알아보자.
- 자바를 설치합니다.
$ sudo apt-add-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java7-installer
$ java -version
위와 같이 입력하여 아래와 같이 나오는지 확인합니다.
java version "1.7.0_72"_ Java(TM) SE Runtime Environment (build 1.7.0_72-b14)_ Java HotSpot(TM) 64-Bit Server VM (build 24.72-b04, mixed mode)
- Scala 를 설치합니다.
http://www.scala-lang.org/download/2.10.4.html 를 클릭하여 스칼라를 다운로드 받거나 아래와 같이
wget 으로 다운로드 받습니다. 다운로드 받은 스칼라를 /urs/local/lib 아래에 tar 를 압축해제하여
풀어놓은후에 환경세팅을 합니다.
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ sudo mkdir /usr/local/src/scala
$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/lib/scala/
$ nano .bashrc // 파일을 열고
파일 아래에 아래와 같이 입력합니다.
export SCALA_HOME=/usr/local/src/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
$ source .bashrc // 이것을 입력하여 환경 설정을 마칩니다.
스칼라가 잘 설치됬는지 확인합니다.
$ scala -version
- Spark 를 설치합니다.
http://spark.apache.org/downloads.html 여기에서 다운로드 받습니다.
저는 위와 같이 설정하여 spark-1.3.0-bin-hadoop2.4.tgz 를 다운로드받아서
/home/proram 폴더에서 압축을 풀었습니다.
설치 끝~~~~
- 이제 설치된 Spark 로 Pi 계산을 해보겠습니다.
$ cd program/spark-1.3.0-bin-hadoop2.4/ // spark 홈으로 이동합니다.
$ ./bin/run-example SparkPi 10 // 다음과 같이 실행하면
"Pi is roughly 3.14634" 라고 결과를 얻을수 있습니다.
- Spark 쉘 실행하기
$ ./bin/spark-shell
scala> val lines = sc.textFile("README.md") // lines 라는 RDD 를 만든다.
scala> lines.count() // 이 RDD 의 아이템 개수를 센다.
scala> lines.first() // 이 RDD 의 첫번째 아이템, (README.md 의 첫번째 라인) 을 보여준다.
- Python 쉘 실행하기
$ ./bin/pyspark
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()