이것저것 프로그래밍 정리(Macbook)

apache-spark 시작하기(Macbook), spark 설치, pyspark 본문

apache-spark(big data)

apache-spark 시작하기(Macbook), spark 설치, pyspark

parkaparka 2020. 2. 18. 15:19
반응형

스파크 사용 이유는?

  • 먼저 데이터가 엄청난 양으로 증가되며, 이를 처리하기 위해 분산 프레임워크인 Hadoop과 최근에 Spark가 많이 쓰이고 있다.
    • Hadoop은 데이터를 수집하는 목적으로 많이 사용된다.
    • spark는 수집한 데이터를 분석한 용도로 많이 사용된다.
구분 Spark Hadoop
사용목적 데이터 분석 데이터 수집
파일 시스템 자체 파일 시스템 X(HDFS,DB,CSV 등 사용)  HDFS(Hadoop 자체 파일 시스템)
속도 pipeline을 사용하므로 빠름 보다 느림

 

Spark

  • 분산 클러스터 컴퓨팅 프레임워크로서, API를 사용해서 데이터추출, 변환, 기계학습, 그래프분석을 할 수 있다.
  • Hadoop과 달리 메모리에서 처리하게 때문에 빠르다.
  • scala로 개발되어 jvm에서 실행. scala, Java, Python, R 등 여러 언어를 섰어서 할수 있는 환경 제공한다.
  • REPL이 가능해서 배우기 쉽다. Standalone으로도 시작할수 있다.

 

Spark 설치하기

  • Spark는 다양한 프로그래밍 언어를 선택하여 사용 가능하다.
  • Java, Scala, Python은 사전 설치 되어 있어야 한다.
  • pyspark 사용을 위해서는 Java와 Python은 반드시 설치해 놓아야 한다.

spark 2.4.4 기준 

구분 pyspark 사용하려면 설명
Java 필수 java8
Python 필수 Python 2.7+/3.4+
Scala 선택(scala 사용시 필수) Scala 2.12

Java와 Python의 경우 각자 설치했다고 하고 spark와 scala만 설치 해보겠습니다.


터미널에서 brew를 통해서 spark를 설치해주겠습니다.

brew install apache-spark

이후에 spark 의 경로 설정을 해주겠습니다.

저같은 경우에 zsh을 쓰기 때문에 ~/.zshrc 에서 경로설정을 해주겠습니다. bash를 쓰시는 분들은 ~/.bashrc, ~/.bash_profile에서 설정해 주시면 되겠습니다. 

/usr/local/Cellar/apache-spark 폴더를 들어가 보면 아래 사진과 같이 해당 spark의 버전이 써져 있습니다.

# spark
export SPARK_HOME=/usr/local/Cellar/apache-spark/2.4.4/libexec
export PATH=$PATH:$SPARK_HOME

저같은 경우 2.4.4 버전이기 때문에 2.4.4 라 하였고 버전이 다른 분들은 해당 버전을 입력하시면 되겠습니다.

위의 변수를 환경변수 설정 해주면 spark의 환경변수 설정이 끝났습니다.

 

이후 spark에서 python2가 아닌 python3를 사용 하기 위하여 변수를 설정해 주도록 하겠습니다.

# pyspark
export PYSPARK_PYTHON=python3

Scala 설치하기

터미널에서 brew를 통해 scala 2.12 버젼을 설치해 주도록 하겠습니다.

brew install scala@2.12

그러고 위와 마찬가지로 ~/.zshrc에서 환경변수 설정을 해주겠습니다.

# scala
export PATH="/usr/local/opt/scala@2.12/bin:$PATH"

설치한 것들 버젼 확인하기

위 사진과 같은 명령어를 통해서 java, python, scala, spark의 버전을 확인해 줍니다.


pyspark 작동시키기

터미널에 pyspark를 치면 다음과 같이 작동하면 설치가 완료 된 것이다.

위 사진은 터미널에서 spark를 작동시킨 것이고 이를 보다 편하게 jupyter notebook에서 spark를 실행하여 코딩을 할 수 있도록 jupyter notebook과 spark를 연동시켜보도록 하자.

 

환경변수 설정을 위한 ~/.zshrc 파일에서 아래와 같은 환경변수를 추가해 주도록 하자.

# pyspark
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook

이렇게 환경변수를 설정하고 source ~/.zshrc로 환경변수를 적용 시켜주고 새로운 터미널을 연다음 pyspark 명령어를 통하여 pyspark를 작동시켜보도록 하자.

그럼 위 화면과 같이 pyspark 작동시 jupyter notebook이 실행되는 것을 볼수 있다. 

위와 같은 환경이 구성되면 spark를 jupyter notebook에서 사용할수 있는 환경을 구축해 놓은 것이다.

spark 환경설정을 마쳤으니 다음 시간부터 spark를 조금씩 알아보도록 하자.

 

 

spark 3.0가 새로나왔기에 새로운 글을 작성하였습니다. spark 3.0 버젼은 다음 글을 참고하시기 바랍니다.

parkaparka.tistory.com/27

 

apache-spark@3.0.1 설치

spark 3.0.1 버전이 나왔습니다. 이번 글에서는 spark 3.0.1 버젼 설치법에 대해 알아보겠습니다. 기본적으로 아랫글 spark@2.4.4 와 유사합니다. parkaparka.tistory.com/2 apache-spark 시작하기(Macbook), spar..

parkaparka.tistory.com

 

반응형
Comments