본문 바로가기

728x90

공부

(25)

[Spark] Spark Cluster 운영하기 Spark는 cluster 을 이용하여 분산처리가 가능하도록 한다. ○ 구성요소 - 분산 모드 마스터 / 슬레이브 구조 - 중앙 조정자(드라이버) + 분산 작업 노드(익스큐터) 구성요소 - 드라이버 노드 - 사용자의 main 메소드가 실행되는 프로세스. - 사용자 프로그램을 태스크로 변환하여 클러스터로 전송. - 익스큐터에서의 개별 작업들을 위한 스케쥴링을 조정 작업 노드 - 개별 태스크를 실행하는 작업 실행 프로세스 - 태스크 실행 후 결과를 드라이버로 전송 - 사용자 프로그램에서 캐시하는 RDD를 저장하기 위한 메모리 공간 제공 클러스터 매니저 - 스파크는 익스큐터를 실행하기 위해 클러스터 매니저에 의존 (Standalone, Hadoop Yarn, Apache Mesos) ○ 프로그램이 실행되는 단..

[Spark] 스파크 설치 & 기본실행 Apache Spark 기본 설치 입니다. ○ 파일 다운로드 먼저 설치파일을 다운 받습니다. spark.apache.org/downloads.html Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built with Scala 2.12. Spar spark.apache.org 다운로드 파일 : spark-3..

[Windows10] 윈도우10에서 ubuntu 설치 ( WSL ) Windows 10에서 개발을 할때 우분투 환경이 필요할때가 있습니다. 가상OS를 사용하지 않고 우분투를 설치해보겠습니다. ○ Windows 설정 windows 설정에서 검색창에 "Windwos 기능 켜기/끄기" 를 입력합니다. "Windows 기능" 창에서 Liunx용 windows 하위 시스템" 을 활성화 하고 재부팅을 해줍니다 (반드시 재부팅을 해야합니다.) ○ Ubuntu 설치 이젠 ubuntu 를 설치해 보겠습니다. 마이크로소프트 스토어에 들어가서 ubuntu를 검색합니다. 계정이 없다면 가입을 하셔야 합니다. 첫번째에 있는 Ubuntu 를 설치하셔도 되고 최신 버전인 Ubuntu 20.04 LTS 를 설치하셔도 됩니다. 저는 Ubuntu 20.04 LTS 를 설치하였습니다. 설치후에 실행을 하..

[Python] Configparser 사용법( File properties ) Property 파일처럼 사용할 수 있는 configparser에 대해서 알아보겠습니다. ● 파일생성 ( config.ini ) ini 파일을 생성하겠습니다. 파일 내용은 각 섹션이라고 하는 큰 분류값이 있으며 그 안에는 Key-value 형태로 구성되어 있습니다. 보통 섹션 key값은 대문자로 입력을하고 세부내용은 소문자로 입력을 합니다. [DEFAULT] config = 0 textfile = config.ini [TEST] test = 1 [CONFIG] id = bab tel = 0101112222 ● configparser 사용 - Get 사용법은 매우 간단합니다. configparser를 정의하고 파일을 불러오면 내용을 key값으로 조회가 가능합니다. import configparser pro..

[Apache Kafka] 설치 & 실행 & 명령어 0. 설치 Apache Kafka 사이트에 가서 파일을 다운받습니다. kafka.apache.org/downloads Apache Kafka Apache Kafka: A Distributed Streaming Platform. kafka.apache.org 저는 스칼라 버전 2.12 를 사용하겠습니다. Download file : kafka_2.12-2.7.0.tgz 압축을 풀어줍니다. tar -xvf kafka_2.12-2.7.0.tgz 기본기능만 테스트 할 예정이니 설정파일은 디폴트 값으로 쓰겠습니다. kafka 는 java가 있어야 실행이 됩니다. java 설치되어있지 않는경우 설치를 해주셔야 합니다. (java 8 이상) 1. Zookeeper 실행 ./bin/zookeeper-server-sta..

[Apache Flink] CEP-Complex Event Processing ○ CEP 란? 내용높은 빈도로 발생하면서 낮은 지연 시간을 요구하는 이벤트의 스트림을 분석합니다. CEP는 이벤트, 하위 이벤트 및 시쿼스의 스트림에서 패턴을 파악할 수 있습니다. 서로 관련이 없는 이벤트들 사이에서 의미 있는 패턴 및 복잡한 관계를 알아내고, 실시간으로 알림을 전송하는 등 대응을 통해 피해를 사전에 막을 수 있도록 해준다. ○ Flink CEP 라이브러리 주요 구성 요소 1. 이벤트 스트림 ( Event Stream ) 2. 패턴정의( Pattern definition ) 3. 패턴 추적( Pattren detection ) 4. 경보 조치 생성( Alert generation ) ● 이벤트 스트림 ( Event Stream ) 데이터를 입력받기 위한 이벤트 스트림을 이용하려면 이벤트..

[Apache Flink] DataStream API를 이용한 데이터 처리 ○ Apache Flink DataStream API 라이브러리 주요 구성 요소 1.실행환경 2.데이터 소스 3.데이터 트랜스포메이션 4.데이터 싱크 5.커넥터 ● 실행 환경 ( Execution Environment ) ▷ 실행환경 구분 - 기존 플링크 환경 입력 - 로컬 실행환경 생성 - 원격 실행환경 생성 보통 실행시 getExecutionEnviroment() 를 사용한다. 그럼 IDE의 로컬에서 실행 중인 경우 로컬실행환경이 시작되고, 아닐 경우 클러스터 관리자가 분산형태로 실행한다. 직접 구분하고 싶으면 로컬 환경은 createLocalEnvironment() 를 사용. 원격은 createRemoteEnvironment(String host, int port, String, jar파일 등) 사..

[Apache Flink] 설치하기 (windows 10) Windows 10에서는 우분투 환경을 만들수있습니다. 이 내용은 나중에 포스팅을 할 예정입니다. Linux용 Windows 하위 시스템(WSL)을 설정하고 MS 스토어에서 "Ubuntu" 를 설치해서 환경을 준비합니다. 1. Java 설치 우분투 환경을 처음 설치하였으면 Java가 설치가 필요합니다. apt-get 업데이트도 필요합니다. sudo apt-get update sudo apt-get install openjdk-8-jdk 설치가 정상적으로 됬으면 확인을 해보자 > java -version openjdk version "1.8.0_282" OpenJDK Runtime Environment (build 1.8.0_282-8u282-b08-0ubuntu1~20.04-b08) OpenJDK 64-..

이전 1 2 3 4 다음

728x90

티스토리툴바