Apache Spark 설치 - (로컬 모드)

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

HAMA 블로그

Apache Spark 설치 - (로컬 모드) 본문

Spark

Apache Spark 설치 - (로컬 모드)

[하마] 이승현 (wowlsh93@gmail.com) 2015. 12. 1. 13:36

Apache Spark 설치하기

OS : Ubuntu 14.04.3-desktop-amd64.iso on VirtualBox 5.0.10

Java : 1.7.0

Scala : 2.10.4

Spark : spark-1.3.0-bin-hadoop2.4.tgz

우분투 14버전을 VirtualBox 에 깔았다고 치고 그 이후에 대해서 알아보자.

- 자바를 설치합니다.

$ sudo apt-add-repository ppa:webupd8team/java

$ sudo apt-get update

$ sudo apt-get install oracle-java7-installer

$ java -version

위와 같이 입력하여 아래와 같이 나오는지 확인합니다.

java version "1.7.0_72"_ Java(TM) SE Runtime Environment (build 1.7.0_72-b14)_ Java HotSpot(TM) 64-Bit Server VM (build 24.72-b04, mixed mode)

- Scala 를 설치합니다.

http://www.scala-lang.org/download/2.10.4.html 를 클릭하여 스칼라를 다운로드 받거나 아래와 같이

wget 으로 다운로드 받습니다. 다운로드 받은 스칼라를 /urs/local/lib 아래에 tar 를 압축해제하여

풀어놓은후에 환경세팅을 합니다.

$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz

$ sudo mkdir /usr/local/src/scala

$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/lib/scala/

$ nano .bashrc // 파일을 열고

파일 아래에 아래와 같이 입력합니다.

export SCALA_HOME=/usr/local/src/scala/scala-2.10.4

export PATH=$SCALA_HOME/bin:$PATH

$ source .bashrc // 이것을 입력하여 환경 설정을 마칩니다.

스칼라가 잘 설치됬는지 확인합니다.

$ scala -version

- Spark 를 설치합니다.

http://spark.apache.org/downloads.html 여기에서 다운로드 받습니다.

저는 위와 같이 설정하여 spark-1.3.0-bin-hadoop2.4.tgz 를 다운로드받아서

/home/proram 폴더에서 압축을 풀었습니다.

설치 끝~~~~

- 이제 설치된 Spark 로 Pi 계산을 해보겠습니다.

$ cd program/spark-1.3.0-bin-hadoop2.4/ // spark 홈으로 이동합니다.

$ ./bin/run-example SparkPi 10 // 다음과 같이 실행하면

"Pi is roughly 3.14634" 라고 결과를 얻을수 있습니다.

- Spark 쉘 실행하기

$ ./bin/spark-shell

scala> val lines = sc.textFile("README.md") // lines 라는 RDD 를 만든다.

scala> lines.count() // 이 RDD 의 아이템 개수를 센다.

scala> lines.first() // 이 RDD 의 첫번째 아이템, (README.md 의 첫번째 라인) 을 보여준다.

- Python 쉘 실행하기

$ ./bin/pyspark

>>> lines = sc.textFile("README.md")

>>> lines.count()

>>> lines.first()

저작자표시 비영리 변경금지

'Spark' 카테고리의 다른 글

Spark + InfluxDB (0)	2015.11.26
Monitoring Spark with Graphite and Grafana (0)	2015.11.26
How Spark enables the Internet of Things (0)	2015.11.26
Analyzing Time Series Data with Apache Spark and Cassandra (0)	2015.11.26

'Spark' Related Articles

Comments

HAMA 블로그

Apache Spark 설치 - (로컬 모드) 본문

Apache Spark 설치 - (로컬 모드)

'Spark' 카테고리의 다른 글

티스토리툴바