아파치 플링크 [분산 환경에서 스트리밍 데이터 처리를 위한 플랫폼]
- 원서명Learning Apache Flink: Discover the definitive guide to crafting lightning-fast data processing for distributed systems with Apache Flink (ISBN 9781786466228)
- 지은이탄마이 데쉬판데(Tanmay Deshpande)
- 옮긴이남궁영환
- ISBN : 9791161750408
- 30,000원
- 2017년 08월 31일 펴냄 (절판)
- 페이퍼백 | 368쪽 | 188*235mm
- 시리즈 : acorn+PACKT
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약
대용량 데이터의 한계를 넘어 스트리밍 데이터 처리/분석, CEP 등 데이터의 실시간 처리/분석이 보편화되고 있다. 이 책은 스트리밍 데이터 처리, 실시간 분석의 대표 솔루션 중 하나인 아파치 플링크에 대한 전반적인 내용을 다룬다. 기본 개념, 설치 방법, 다양한 데이터 처리 방식을 비롯해 머신 러닝 기반 분석, 그래프 데이터 처리 등 풍부하게 제공되는 확장 기능에 대한 활용 방법도 소개하고 있다.
이 책의 대상 독자
분산 데이터 환경에서 배치 데이터 처리와 실시간 데이터 처리에 관심이 많은 빅데이터 개발자를 위한 책이다. 또한 분석 솔루션을 상용화, 산업화하고자 하는 데이터 과학자에게도 적합하다.
이 책의 구성
1장, ‘아파치 플링크 소개’에서는 플링크에 관한 역사, 아키텍처, 특징을 소개한다. 아울러 단일 노드와 다중 노드에서 아파치 플링크를 어떻게 설치하는지도 알아본다.
2장, ‘DataStream API를 이용한 데이터 처리’에서는 플링크의 스트리밍에 대한 개념을 자세히 다룬다. DataStream API에서 사용할 수 있는 데이터 소스, 트랜스포메이션, 데이터 싱크에 대해서도 배울 것이다.
3장, ‘배치 프로세싱 API를 이용한 데이터 처리 배치’에서는 처리용 API인 DataSet API를 소개한다. DataSet API에서 사용할 수 있는 데이터 소스, 트랜스포메이션, 데이터 싱크에 대해 배운다. 또한 API에 대해 사용할 수 있는 커넥션에 대해서도 살펴본다.
4장, ‘Table API를 이용한 데이터 처리’에서는 플링크 데이터 처리 프레임워크로 SQL 개념을 어떻게 사용하는지 알아본다. 실제 사례에 이 개념을 어떻게 적용시키는지도 학습한다.
5장, ‘CEP(Complex Event Processing)’에서는 플링크 CEP 라이브러리를 이용해 CEP 문제를 어떻게 해결하는지에 관한 통찰력을 얻을 수 있을 것이다. 패턴 정의, 추적, 경고 생성에 대해서도 배운다.
6장, ‘FlinkML을 이용한 머신 러닝’에서는 머신 러닝의 개념에 대해 자세히 알아보고, 실제 사례에 다양한 알고리즘들을 어떻게 적용하는지 다룬다.
7장, ‘플링크 그래프 API – Gelly’에서는 그래프의 개념에 대해 소개하고, 플링크 Gelly가 해결할 수 있는 실제 사례를 알아본다. 이를 통해 플링크가 그래프를 처리하는 방법을 알 수 있을 것이다.
8장, ‘플링크와 하둡을 이용한 분산 데이터 처리’에서는 플링크 잡을 처리하기 위해 기존의 하둡-YARN 클러스터를 어떻게 사용하는지 자세히 다룬다. YARN에서 플링크가 어떻게 동작하는지도 상세하게 설명한다.
9장, ‘클라우드상에서 플링크 배포’에서는 클라우드에서 플링크를 배포하는 방법을 소개한다. 구글 클라우드(GCP)와 아마존 웹 서비스상에서 플링크를 어떻게 사용하는지도 자세히 설명한다.
10장, ‘모범 사례’에서는 플링크를 효율적으로 사용하기 위해 개발자들이 준수해야 할 다양한 모범 사례를 다룬다. 플링크 환경을 제어하기 위한 로깅, 모니터링에 관련된 모범 사례도 설명한다.
목차
목차
- 1장. 아파치 플링크 소개
- 아파치 플링크의 역사
- 아키텍처
- 분산형 실행
- 주요 특징
- 플링크 설치 시작
- 클러스터 세팅
- 예제 애플리케이션 실행 테스트
- 이 장의 요약
- 2장. DataStream API를 이용한 데이터 처리
- 실행 환경
- 데이터 소스
- 트랜스포메이션
- 물리적 파티셔닝
- 데이터 싱크
- 이벤트 타임과 워터마크
- 커넥터
- 적용 사례 - 센서 데이터 분석
- 이 장의 요약
- 3장. 배치 프로세싱 API를 이용한 데이터 처리
- 데이터 소스
- 트랜스포메이션
- 브로드캐스트 변수
- 데이터 싱크
- 커넥터
- Iterations
- 적용 사례 – 플링크 Batch API를 이용한 스포츠 데이터 분석
- 이 장의 요약
- 4장. Table API를 이용한 데이터 처리
- 테이블 등록
- 등록된 테이블 액세스 방법
- 주요 연산 명령어
- SQL
- 활용 예제–플링크 Batch API를 이용한 스포츠 데이터 분석
- 이 장의 요약
- 5장. CEP - Complex Event Processing
- CEP란 무엇인가?
- Flink CEP
- Pattern API
- 적용 사례 – 온도 센서에 대한 CEP
- 이 장의 요약
- 6장. FlinkML을 이용한 머신 러닝
- 머신 러닝이란 무엇인가?
- FlinkML
- FlinkML에서 지원할 수 있는 알고리즘
- 이 장의 요약
- 7장. 플링크 그래프 API - Gelly
- 그래프란 무엇인가?
- Gelly – 플링크 그래프 API
- 반복 수행을 통한 그래프 데이터 처리
- 적용 사례 - 항공 여행 최적화 문제
- 이 장의 요약
- 8장. 플링크와 하둡을 이용한 분산 데이터 처리
- 하둡의 개요
- YARN상에서의 플링크
- 이 장의 요약
- 9장. 클라우드상에서 플링크 배포
- 구글 클라우드 기반 플링크
- 이 장의 요약
- 10장. 모범 사례
- 로깅 모범 사례
- 파라미터 툴 사용
- 대규모 TupleX 타입 네이밍
- 사용자 시리얼라이저 등록
- 메트릭스
- REST API 모니터링
- 백 프레셔 모니터링