본문 바로가기

728x90

공부/Apache spark

(3)

[Spark] Spark Cluster 운영하기 Spark는 cluster 을 이용하여 분산처리가 가능하도록 한다. ○ 구성요소 - 분산 모드 마스터 / 슬레이브 구조 - 중앙 조정자(드라이버) + 분산 작업 노드(익스큐터) 구성요소 - 드라이버 노드 - 사용자의 main 메소드가 실행되는 프로세스. - 사용자 프로그램을 태스크로 변환하여 클러스터로 전송. - 익스큐터에서의 개별 작업들을 위한 스케쥴링을 조정 작업 노드 - 개별 태스크를 실행하는 작업 실행 프로세스 - 태스크 실행 후 결과를 드라이버로 전송 - 사용자 프로그램에서 캐시하는 RDD를 저장하기 위한 메모리 공간 제공 클러스터 매니저 - 스파크는 익스큐터를 실행하기 위해 클러스터 매니저에 의존 (Standalone, Hadoop Yarn, Apache Mesos) ○ 프로그램이 실행되는 단..

[Spark] 스파크 설치 & 기본실행 Apache Spark 기본 설치 입니다. ○ 파일 다운로드 먼저 설치파일을 다운 받습니다. spark.apache.org/downloads.html Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built with Scala 2.12. Spar spark.apache.org 다운로드 파일 : spark-3..

[kaggle] Titanic: Machine Learning from Disaster Kaggle 에서 제공하는 타이타닉 데이터를 불러와 생존자 분석 - 샘플 실습 https://www.kaggle.com/c/titanic/data ** ( ~ Sat 31 Dec 2016 ) * 필드 설명 survival Survival (0 = No; 1 = Yes) pclass Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd) name Name sex Sex age Age sibsp Number of Siblings/Spouses Aboard parch Number of Parents/Children Aboard ticket Ticket Numbersibsp fare Passenger Fare cabin Cabin embarked Port of Embarkation * 작..

728x90

티스토리툴바