일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- RDD
- word count
- Spark
- apache-spark
- Greeter
- nodejs
- macbook
- remix
- lambda
- docker
- Apache Spark
- web3@1.2.8
- node
- OpenCV
- pyspark
- Histogram
- stopwords
- Ethereum
- BlockChain
- 이더리움
- python3
- jenv
- HelloWorld
- web3
- bigdata
- MAP
- 블록체인
- solidity
- Python
- geth
- Today
- Total
목록bigdata (8)
이것저것 프로그래밍 정리(Macbook)
Logistic Regression(로지스틱 회귀)은 발생할 결과 값이 이진인 경우의 분류에 적용합니다. 예를 들어 환자의 데이터로부터 병의 유무, 이메일이 스팸인지 아닌지 등 이진 분류일 때 적용 가능합니다. 예제를 통해 pyspark에서 Logistic Regression의 사용법을 알아보도록 하겠습니다 건강 지표들을 통해 심장병의 유무에 대해 예측해보고 얼마나 정확한지 측정해 보도록 하겠습니다. 0. 필요 라이브러리 import하기 필요한 라이브러리들을 먼저 import 해놓도록 하겠습니다. 1. 데이터 불러오기 다음 아래의 csv 파일을 DataFrame으로 불러오도록 하겠습니다. 위 사진과 같이 trainDf를 생성해 주었습니다. trainDf의 column들은 다음과 같습니다. 현재 train..
apache spark를 설치하지 않고 pip를 통해서 pyspark를 설치해서 jupyter notebook 또는 python shell에서 사용도 가능합니다. 한 번 알아보도록 하겠습니다. 1. pip 이용해서 pyspark 설치하기 먼저 터미널에서 pip를 이용해서 pyspark를 설치해 주도록 하겠습니다. python3 -m pip install pyspark 위 명령어를 통해서 pyspark 라이브러리를 설치 해줬습니다. 2. SparkSession 생성하기 spark를 사용하기 위해서 SparkSession 객체를 생성하고 사용하면 된다. 먼저 사용한 pyspark 라이브러리를 import 해주도록 하겠습니다. 여기서부터는 jupyter notebook 환경에서 진행하면 됩니다. import ..
spark 3.0.1 버전이 나왔습니다. 이번 글에서는 spark 3.0.1 버젼 설치법에 대해 알아보겠습니다. 기본적으로 아랫글 spark@2.4.4 와 유사합니다. parkaparka.tistory.com/2 apache-spark 시작하기(Macbook), spark 설치 스파크 사용 이유는? 먼저 데이터가 엄청난 양으로 증가되며, 이를 처리하기 위해 분산 프레임워크인 Hadoop과 최근에 Spark가 많이 쓰이고 있다. Hadoop은 데이터를 수집하는 목적으로 많이 사용된�� parkaparka.tistory.com 이전 spark 버전은 python@2가 사용 가능했지만 spark@3.0.0 부터는 python@3만 사용 가능합니다. 먼저 python3를 brew를 통해 설치해 주겠습니다. br..
Dataframe 개요 spark 에서 제공하는 데이터 구조 중 하나이 Dataframe에 대해 알아보도록 하자. spark에서 많이 사용하는 다른 데이터 구조인 RDD는 schema를 정하지 않는 것과 달리 Dataframe은 모델 schema를 설정해서 사용한다. Column은 Dataframe의 열에 해당하고, data type을 갖는다. Row는 Dataframe의 행으로, 데이터 요소항목을 묶어서 구성한다. Python에서 list 혹은 dictionary를 사용해서 row를 구성할 수 있다. Data type으로는 다음과 같은 항목들이 있다. NullType, StringType, BinaryType, BooleanType, DataType,TimestampType, DoublType, Dec..