일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- MAP
- 이더리움
- 블록체인
- lambda
- OpenCV
- web3@1.2.8
- nodejs
- Greeter
- geth
- bigdata
- Ethereum
- docker
- stopwords
- web3
- macbook
- apache-spark
- RDD
- solidity
- remix
- node
- pyspark
- python3
- jenv
- BlockChain
- Apache Spark
- word count
- HelloWorld
- Histogram
- Python
- Spark
- Today
- Total
목록apache-spark(big data) (10)
이것저것 프로그래밍 정리(Macbook)
RDD spark 에서 RDD는 핵심이다. RDD는 데이터가 비구조적인 경우에 사용하기 적합하다. RDD는 Resilient Distributed Dataset의 약자이다. Resilient는 작업이 실패하지 않도록 falut tolerent 한것, 즉 어느 한 노드에서 작업이 실패하면 다른 노드에서 실행하는 것을 의미하고 Distributed는 클러스터로 구성된 여러 노드에 분산해서 처리하는 것을 의미하고 Dataset은 말 그대로 데이터 구조를 의미한다. RDDsms Python 리스트, 파일, hdfs 등 다양한 자료에서 생성할 수 있고, 생성된 RDD는 수정할 수 없는 Read-Only 이다. RDD에 관한 개념적 내용은 보다 더 자세히 공부한 이후에 올리도록 하고 일단 실질적으로 RDD를 생성하..
스파크 사용 이유는? 먼저 데이터가 엄청난 양으로 증가되며, 이를 처리하기 위해 분산 프레임워크인 Hadoop과 최근에 Spark가 많이 쓰이고 있다. Hadoop은 데이터를 수집하는 목적으로 많이 사용된다. spark는 수집한 데이터를 분석한 용도로 많이 사용된다. 구분 Spark Hadoop 사용목적 데이터 분석 데이터 수집 파일 시스템 자체 파일 시스템 X(HDFS,DB,CSV 등 사용) HDFS(Hadoop 자체 파일 시스템) 속도 pipeline을 사용하므로 빠름 보다 느림 Spark 분산 클러스터 컴퓨팅 프레임워크로서, API를 사용해서 데이터추출, 변환, 기계학습, 그래프분석을 할 수 있다. Hadoop과 달리 메모리에서 처리하게 때문에 빠르다. scala로 개발되어 jvm에서 실행. sca..