'apache-spark' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록apache-spark (4)

이것저것 프로그래밍 정리(Macbook)

apache-spark ML을 이용한 Logistic Regression - pyspark

Logistic Regression(로지스틱 회귀)은 발생할 결과 값이 이진인 경우의 분류에 적용합니다. 예를 들어 환자의 데이터로부터 병의 유무, 이메일이 스팸인지 아닌지 등 이진 분류일 때 적용 가능합니다. 예제를 통해 pyspark에서 Logistic Regression의 사용법을 알아보도록 하겠습니다 건강 지표들을 통해 심장병의 유무에 대해 예측해보고 얼마나 정확한지 측정해 보도록 하겠습니다. 0. 필요 라이브러리 import하기 필요한 라이브러리들을 먼저 import 해놓도록 하겠습니다. 1. 데이터 불러오기 다음 아래의 csv 파일을 DataFrame으로 불러오도록 하겠습니다. 위 사진과 같이 trainDf를 생성해 주었습니다. trainDf의 column들은 다음과 같습니다. 현재 train..

apache-spark(big data) 2020. 12. 22. 16:09

apache-spark@3.0.1 설치

spark 3.0.1 버전이 나왔습니다. 이번 글에서는 spark 3.0.1 버젼 설치법에 대해 알아보겠습니다. 기본적으로 아랫글 spark@2.4.4 와 유사합니다. parkaparka.tistory.com/2 apache-spark 시작하기(Macbook), spark 설치 스파크 사용 이유는? 먼저 데이터가 엄청난 양으로 증가되며, 이를 처리하기 위해 분산 프레임워크인 Hadoop과 최근에 Spark가 많이 쓰이고 있다. Hadoop은 데이터를 수집하는 목적으로 많이 사용된�� parkaparka.tistory.com 이전 spark 버전은 python@2가 사용 가능했지만 spark@3.0.0 부터는 python@3만 사용 가능합니다. 먼저 python3를 brew를 통해 설치해 주겠습니다. br..

apache-spark(big data) 2020. 9. 16. 15:27

apache-spark에서 map,lambda 함수 활용하기(1) - pyspark

map() 함수를 이해하기 위해 map() 함수를 사용하지 않고 섭씨를 화씨로 변환하는 c2f() 파이썬 함수를 만들어 보자. Python 함수 c2f() 위 함수를 간단히 설명하면 데이터를 하나씩 읽어서 for문으로 처리하고 list로 변환하여 반환해 주었다. map() 함수를 이용하면 for문을 없앨 수 있다. 한번 map() 함수를 사용해보도록 하자. map 함수 사용 c2f() python은 map(), reduce(), filter() 함수를 이미 갖고 있다. 간단히 세 함수에 대해 알아보도록 하자. 함수 설명 예 map() 각 데이터 요소에 함수를 적용해서 'map'타입으로 반환 map(fn,data) filter() 각 데이터 요소에서 함수의 결과 true를 선택해서 반환 filter(fn,..

apache-spark(big data) 2020. 4. 22. 17:11

apache-spark 시작하기(Macbook), spark 설치, pyspark

스파크 사용 이유는? 먼저 데이터가 엄청난 양으로 증가되며, 이를 처리하기 위해 분산 프레임워크인 Hadoop과 최근에 Spark가 많이 쓰이고 있다. Hadoop은 데이터를 수집하는 목적으로 많이 사용된다. spark는 수집한 데이터를 분석한 용도로 많이 사용된다. 구분 Spark Hadoop 사용목적 데이터 분석 데이터 수집 파일 시스템 자체 파일 시스템 X(HDFS,DB,CSV 등 사용) HDFS(Hadoop 자체 파일 시스템) 속도 pipeline을 사용하므로 빠름 보다 느림 Spark 분산 클러스터 컴퓨팅 프레임워크로서, API를 사용해서 데이터추출, 변환, 기계학습, 그래프분석을 할 수 있다. Hadoop과 달리 메모리에서 처리하게 때문에 빠르다. scala로 개발되어 jvm에서 실행. sca..

apache-spark(big data) 2020. 2. 18. 15:19

Prev 1 Next

목록apache-spark (4)

이것저것 프로그래밍 정리(Macbook)

티스토리툴바