'datascience' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록datascience (1)

이것저것 프로그래밍 정리(Macbook)

apache-spark 시작하기(Macbook), spark 설치, pyspark

스파크 사용 이유는? 먼저 데이터가 엄청난 양으로 증가되며, 이를 처리하기 위해 분산 프레임워크인 Hadoop과 최근에 Spark가 많이 쓰이고 있다. Hadoop은 데이터를 수집하는 목적으로 많이 사용된다. spark는 수집한 데이터를 분석한 용도로 많이 사용된다. 구분 Spark Hadoop 사용목적 데이터 분석 데이터 수집 파일 시스템 자체 파일 시스템 X(HDFS,DB,CSV 등 사용) HDFS(Hadoop 자체 파일 시스템) 속도 pipeline을 사용하므로 빠름 보다 느림 Spark 분산 클러스터 컴퓨팅 프레임워크로서, API를 사용해서 데이터추출, 변환, 기계학습, 그래프분석을 할 수 있다. Hadoop과 달리 메모리에서 처리하게 때문에 빠르다. scala로 개발되어 jvm에서 실행. sca..

apache-spark(big data) 2020. 2. 18. 15:19

Prev 1 Next

목록datascience (1)

이것저것 프로그래밍 정리(Macbook)

티스토리툴바