일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- HelloWorld
- Ethereum
- macbook
- RDD
- 블록체인
- MAP
- node
- jenv
- pyspark
- web3
- BlockChain
- apache-spark
- web3@1.2.8
- 이더리움
- lambda
- Spark
- bigdata
- word count
- Apache Spark
- docker
- Python
- stopwords
- remix
- Histogram
- geth
- nodejs
- solidity
- Greeter
- OpenCV
- python3
- Today
- Total
목록Apache Spark (5)
이것저것 프로그래밍 정리(Macbook)
apache spark를 설치하지 않고 pip를 통해서 pyspark를 설치해서 jupyter notebook 또는 python shell에서 사용도 가능합니다. 한 번 알아보도록 하겠습니다. 1. pip 이용해서 pyspark 설치하기 먼저 터미널에서 pip를 이용해서 pyspark를 설치해 주도록 하겠습니다. python3 -m pip install pyspark 위 명령어를 통해서 pyspark 라이브러리를 설치 해줬습니다. 2. SparkSession 생성하기 spark를 사용하기 위해서 SparkSession 객체를 생성하고 사용하면 된다. 먼저 사용한 pyspark 라이브러리를 import 해주도록 하겠습니다. 여기서부터는 jupyter notebook 환경에서 진행하면 됩니다. import ..
Dataframe 개요 spark 에서 제공하는 데이터 구조 중 하나이 Dataframe에 대해 알아보도록 하자. spark에서 많이 사용하는 다른 데이터 구조인 RDD는 schema를 정하지 않는 것과 달리 Dataframe은 모델 schema를 설정해서 사용한다. Column은 Dataframe의 열에 해당하고, data type을 갖는다. Row는 Dataframe의 행으로, 데이터 요소항목을 묶어서 구성한다. Python에서 list 혹은 dictionary를 사용해서 row를 구성할 수 있다. Data type으로는 다음과 같은 항목들이 있다. NullType, StringType, BinaryType, BooleanType, DataType,TimestampType, DoublType, Dec..
https://parkaparka.tistory.com/16 apache-spark 에서 word count하기(1) 대문자, 소문자 변환 단어의 객수 count 하기, word count 하기를 앞서서 대문자로 되어있는 단어와 소문자로 되어있는 단어는 모두 같기 때문에 대소문자 변경하는 것을 먼저 알아보도록 하자. 먼저 예시 dataset.. parkaparka.tistory.com 저번 word count에 이어서 이번에는 필요 없는 불용어를 문장에서 제거하고 word count 하는 방법을 알아보도록 하자. 불용어를 먼저 설정해 보도록 하자. 훨씬 많은 불용어들이 있지만, 위와 같이 일부의 불용어만 설정해 보았다. 위 ds_bigdata_stopwords_ex.txt 예제에 나오는 문장을 예제로 w..
대문자, 소문자 변환 단어의 객수 count 하기, word count 하기를 앞서서 대문자로 되어있는 단어와 소문자로 되어있는 단어는 모두 같기 때문에 대소문자 변경하는 것을 먼저 알아보도록 하자. 먼저 예시 dataset을 만들어 보도록 하자. %%writefile data/ds_bigdata_wcex.txt big data big DaTa BiG data BIg DAta aPAche spArk aPache SpaRk ApaChe spArk ApaCHE Spark 위의 데이터를 사용하도록 하겠다. 항상 하던 것처럼 RDD를 생성해주고 단어를 분리 시켜주도록 하자. 이후 대문자로 만들어 주는 함수와 소문자로 만들어주는 함수를 만들어 주도록 하자. 만든 함수를 적용해서 각각 대문자와 소문자로 만들어 보도..