일래스틱 스택을 이용한 머신러닝 2/e [머신러닝 피처로 데이터에서 귀중한 인사이트를 얻자]

원서명Machine Learning with the Elastic Stack: Gain valuable insights from your data with Elastic Stack's machine learning features, 2nd Edition (ISBN 9781801070034)
지은이리치 콜리어(Rich Collier), 카밀리아 몬토넨(Camilla Montonen), 바할딘 아자미(Bahaaldine Azarmi)
옮긴이최중연

ISBN : 9791161756844
36,000원 (eBook 28,800원)
2022년 09월 30일 펴냄 (절판)
페이퍼백 | 492쪽 | 188*235mm
시리즈 : 데이터 과학

판매처

현재 이 도서는 구매할 수 없습니다.

eBook 판매처

교보문고 리디북스 알라딘 YES24

책 소개
저자/역자 소개
목차
도서 오류 신고

책 소개

수정된 목차는 여기에서 내려받으세요.

소스 코드 파일은 여기에서 내려 받으실 수 있습니다.

https://github.com/AcornPublishing/ml-elasticstack2

요약

ELK 스택으로 알려진 일래스틱 스택은 사용자가 검색 데이터를 효과적으로 수집, 처리, 분석하도록 도와주는 로그 분석 솔루션이다. 주요 상용 기능인 머신러닝이 추가된 일래스틱 스택은 이 분석 프로세스를 훨씬 더 효율적으로 만든다.
2판에서는 시계열 데이터 분석은 물론 분류, 회귀, 아웃라이어 탐지를 위한 일래스틱 스택의 머신러닝 기능에 대해 포괄적인 개요를 제공한다. 머신러닝 개념을 직관적으로 설명하고 있으며 로그 파일, 네트워크 흐름, 애플리케이션 메트릭, 재무 데이터와 같은 다양한 데이터 유형에 대해 시계열 분석을 수행한다. 또한 로깅, 보안 및 메트릭을 위해 일래스틱 스택 내에서 머신러닝을 배포한다. 마지막에는 데이터 프레임 분석이 머신러닝이 도움될 수 있는 완전히 새로운 사용 사례의 문을 어떻게 여는지 알게 될 것이다.
이 책이 끝날 즈음에는 머신러닝을 분산 검색과 데이터 분석 플랫폼에 통합하는 데 필요한 지식과 함께 머신러닝과 일래스틱 스택에 있어 실질적인 경험을 갖게 될 것이다.

이 책에서 다루는 내용

◆ 일래스틱 스택에서의 머신러닝 상용 기능 활성화하기
◆ 다양한 유형의 이상 징후를 탐지하고 예측하기
◆ IT 운영, 보안 분석 및 기타 사용 사례에 효과적인 이상 탐지 적용하기
◆ 사용자 정의 뷰, 대시보드 및 사전 경고에서 일래스틱 머신러닝의 결과 활용하기
◆ 실시간 추론을 위한 지도 머신 러닝(supervised machine learning) 모델 훈련과 배포하기
◆ 일래스틱 머신러닝 활용을 위한 다양한 팁과 트릭 알아보기

이 책의 대상 독자

머신러닝 전문가나 맞춤형 개발에 의존하지 않고 일래스틱서치 데이터에 대한 통찰력을 얻으려는 데이터 전문가를 대상으로 한다. 머신러닝을 관측 가능성(Observability), 보안(Security) 및 분석(Analytics) 애플리케이션과 통합하려는 경우에도 유용하다. 이 책을 최대한 활용하려면 일래스틱 스택에 대한 실무 지식이 필요하다.

이 책의 구성

1장, 'IT를 위한 머신러닝'에서는 IT와 보안 운영에서 수동적인 데이터 분석의 역사적 과제에 대한 도입과 배경 입문서 역할을 한다. 내부에서 일어나는 일을 본질적으로 이해하기 위해 일래스틱 머신러닝의 작동 이론에 대한 개요를 포괄적으로 제공한다.
2장, '활성화와 운영화'에서는 일래스틱 스택에서 머신러닝을 활성화하는 방법을 설명하고 일래스틱 머신러닝 알고리듬의 작동 이론도 자세히 살펴본다. 또한 일래스틱 머신러닝의 물류 운영도 자세히 다룬다.
3장, '이상 탐지'에서는 시계열 분석의 핵심인 자동화된 비지도(unsupervised) 이상 탐지 기술을 자세히 설명한다.
4장, '예측'에서는 일래스틱 머신러닝의 정교한 시계열 모델을 단순한 이상 탐지 이상의 용도로 사용하는 방법을 설명한다. 예측 기능을 통해 사용자는 미래의 추세와 행동을 추정해 용량 계획과 같은 사용 사례를 지원할 수 있다.
5장, '결과 해석'에서는 이상 탐지 및 예측 결과를 완전히 이해하고 시각화, 대시보드 및 인포그래픽에서 장점을 활용하는 방법을 소개한다.
6장, 'ML 분석에 기반한 얼러팅'에서는 이상 탐지를 더욱 실행 가능하게 만들기 위해 일래스틱 얼러팅의 사전 알림 기능을 머신러닝으로 파악한 통찰력과 통합하는 다양한 기술을 설명한다.
7장, 'AIOps와 근본 원인 분석'에서는 일래스틱 머신러닝을 활용해 이질적인 데이터 소스 데이터를 전체적으로 검사하고 분석해서 분석가에게 상관관계 뷰를 제공하는 레거시 접근 방식 측면에서 한 발 더 나아간 방법을 살펴본다.
8장, '다른 일래스틱 스택 앱에서 이상 탐지'에서는 데이터 분석에 가치를 부여하기 위해 일래스틱 스택 내의 다른 앱에서 이상 탐지를 활용하는 방법을 알아본다.
9장, '데이터 프레임 분석 소개'에서는 데이터 프레임 분석의 개념을 설명하고, 시계열 이상 탐지와는 어떻게 다른지, 일래스틱 머신러닝으로 데이터를 로드, 준비, 변환 및 분석하기 위해 사용자가 사용할 수 있는 도구를 다룬다.
10장, '아웃라이어 탐지'에서는 일래스틱 머신러닝과 함께 데이터 프레임 분석의 아웃라이어 탐지 분석 기능을 살펴본다.
11장, '분류 분석'에서는 일래스틱 머신러닝과 함께 데이터 프레임 분석의 분류 분석 기능을 다룬다.
12장, '회귀'에서는 일래스틱 머신러닝과 함께 데이터 프레임 분석의 회귀 분석 기능을 소개한다.
13장, '추론'에서는 “추론”을 위해 (실제로 조작 가능한 방식으로 출력 값을 예측하기 위해) 훈련된 머신러닝 모델에 대한 사용법을 살펴본다.
14장, '부록: 이상 탐지 팁'에서는 다른 장에서는 잘 맞지 않는 다양한 실용적인 조언을 담았다. 이러한 유용한 정보는 일래스틱 ML을 최대한 활용하는 데 도움이 될 것이다.

저자/역자 소개

지은이 소개

리치 콜리어(Rich Collier)

일래스틱의 솔루션 아키텍트다. 프리러트(Prelert) 인수로 일래스틱 팀에 합류해 소프트웨어, 하드웨어, 서비스 기반 솔루션을 위한 솔루션 설계자 및 사전 판매 시스템 엔지니어로서 20년 이상의 경험을 가지고 있다. 빅데이터 분석, 머신러닝, 이상 탐지, 위협 탐지, 보안 운영, 애플리케이션 성능 관리, 웹 애플리케이션, 컨텍 센터 기술을 포함한다. 메사추세츠주 보스턴에 거주하고 있다.

카밀리아 몬토넨(Camilla Montonen)

일래스틱의 수석 머신러닝 엔지니어다.

바할딘 아자미(Bahaaldine Azarmi)

일래스틱의 솔루션 아키텍트다. 사용자 행동 및 소셜 분석에 중점을 둔 마케팅 데이터 플랫폼인 리치 파이브(Reach Five)를 공동 설립했다. 또한 탈렌드(Talend)와 오라클(Oracle) 같은 다양한 소프트웨어 공급업체에 근무하면서 솔루션 아키텍트와 아키텍트 직책을 맡았다. 일래스틱 스택을 사용한 머신러닝 이전에 『키바나 5.0 배우기Learning Kibana 5.0』(에이콘, 2017), 『Scalable Big Data Architecture, Talend for Big Data』(Apress, 2015)를 포함한 책을 저술했다. 파리에 기반을 두고 있으며 폴리텍 파리에서 컴퓨터 과학 석사 학위를 받았다.

옮긴이의 말

인간의 능력만으로는 검색이 불가능할 수준으로 누적돼 가는 데이터 세상에서, IT 회사들은 어떻게 하면 비용 효율적으로 시스템의 문제를 빠르게 식별할 수 있는가를 고민한다. 이를 해결하고 로그, 메트릭 같은 다양한 데이터 소스로부터 시스템을 관찰하기 위해 다양한 전문 도구들을 사용하고 있다. 또한 경험에 의지해 인간이 예측 가능한 범위 내에서 다양한 대시보드와 얼러팅으로 모니터링 활동을 한다.
하지만 애플리케이션 아키텍처는 전통적인 모놀로식(Monolithic)에서 마이크로서비스(Microservice)화돼 가고, 애플리케이션을 운영할 인프라는 쿠버네티스와 같은 컨테이너 환경으로 빠르게 옮겨 가고 있다. 이렇듯 시스템 환경은 점점 더 복잡해지고 관찰해야 할 데이터의 양과 종류도 점점 더 늘고 있다. 그로 인해 우리는 수집한 수많은 데이터 중 대부분을 관찰하지 못한 채 버리고 있다. 인간의 힘만으로 그 모든 데이터를 처리하기에는 우리의 삶은 너무 짧고 세상은 너무 빠르게 변화하고 있다.
이미 머신러닝이라는 단어는 유행하다 못해 주변에서도 쉽게 들을 수 있는 흔한 용어가 됐고 데브옵스(DevOps)라는 합성어를 따서 에이아이옵스(AIOps)라는 단어도 유행하고 있다. AI와 무관한 내가 소속된 조직에서도 몇 년째 에이아이옵스라는 용어를 사용하는 작은 조직이 있을 정도로 이제 이 에이아이옵스도 흔한 용어가 돼 가고 있다. 시스템을 운영하기 위해 인간이 아닌 기계에 의존해 데이터를 분석하고 시스템에 잠재된 문제를 발굴하거나 서비스의 이상을 감지해야만 하는 상황에 이르게 된 것이다.
『일래스틱 스택을 이용한 머신러닝』(에이콘, 2020)의 개정판인 이 책은 일래스틱 스택이 제공하는 안정적인 머신러닝 피처를 활용해 로그, 메트릭과 같은 데이터소스로부터 이상을 감지하는 방법인 일래스틱 스택을 처음 사용하는 사용자도 쉽게 이해하고 따라할 수 있도록 자세하게 설명한다. 또한 그간 새로 추가된 다양한 피처도 예제와 함께 상세하게 소개하고 있다. 특히 새로 추가된 데이터 프레임 피처는 도큐먼트를 엔티티 중심의 인덱스로 변환해 아웃라이어, 분류, 회귀 분석 영역까지 확장 가능해졌으며, 일래스틱서치의 새로운 네이티브 클라이언트인 일런드(Eland)가 일래스틱서치에 저장된 데이터를 파이썬의 강력한 데이터 분석 생태계와 쉽게 연결되도록 해줬다. 이러한 새로운 피처를 실질적인 예제와 함께 하나씩 배워 현업에 적용해볼 수 있도록 풀어 설명한 이 책이 데이터의 늪에 빠진 개발자와 운영자에게 구원의 손길이 될 수 있기를 바란다.

옮긴이 소개

최중연

로그, 메트릭, 트레이스를 통합 제공하는 사내 모니터링 시스템을 개발하고 있으며, 다양한 유형의 모니터링 데이터를 저장하고 검색하는 기술과 다양한 데이터 소스로부터 서비스의 이상을 감지하고 제공하는 시스템에 관심이 많다. 번역서로는 에이콘출판사에서 펴낸 『일래스틱 스택을 이용한 머신러닝』(2020), 『Kafka Streams in Action』(2019), 『일래스틱서치 쿡북 3/e』(2019), 『키바나 5.0 배우기』(2017), 『Elasticsearch in Action』(2016) 등이 있다.

1장. IT를 위한 머신러닝
- IT의 역사적 도전 과제 극복
- 엄청나게 많은 데이터 처리
- 자동화된 이상 탐지의 출현
- 비지도 ML 대 지도 ML
- 이상 탐지를 위한 비지도 ML 사용하기
  - 특이에 관해 정의하기
  - 정상 상태 학습하기
  - 확률 모델
  - 모델 학습하기
  - 디트랜드
  - 특이성에 대한 점수화
  - 시간 요소
- 데이터 프레임 분석에 지도 ML 적용하기
  - 지도 학습 과정
- 요약
2장. 활성화와 운영화
- 기술 요구 사항
- 일래스틱 ML 기능 활성화
  - 자체 관리형 클러스터에서 ML 활성화
  - 클라우드에서 ML 활성화 - 일래스틱서치 서비스
- 운영화의 이해
  - ML 노드
  - 작업
  - 시계열 분석에서 데이터 버킷팅
  - 일래스틱 ML에 데이터 공급
  - 제공하는 인덱스
    - ml-config
    - ml-state-*
    - ml-notification-*
    - ml-annoataions-*
    - ml-stats-*
    - ml-anomalies-*
  - 이상 탐지 오케스트레이션
  - 이상 탐지 모델 스냅숏
- 요약
3장. 이상 탐지
- 기술 요구 사항
- 일래스틱 ML 작업 유형
- 탐지기 해부
  - 함수
  - 필드
  - partition 필드
  - by 필드
  - over 필드
  - 공식(formula)
- 이벤트 비율의 변화 탐지
  - 카운트 함수 탐색
  - 다른 카운트 함수
    - 논제로 카운트
    - 디스팅트 카운트
- 메트릭 값에서 변화 탐지
  - 메트릭 함수
    - min, max, mean, median과 metric
    - varp
    - sum, not-null sum
- 고급 탐지기 함수의 이해
  - 레어(rare)
  - 프리퀀시 레어(frequency rare)
  - 정보 내용(information content)
  - 지오그래픽(geographic)
  - 시간
- 범주형 피처로 분석 분할
  - 분할 필드 설정
  - partition과 by_field를 사용한 분할의 차이점
  - 이중 분할에 한계가 있을까?
- 시간 분석과 모집단 분석의 이해
- 비정형 메시지 범주화 분석
  - 범주화에 훌륭한 후보가 되는 메시지 유형
  - 범주화에 사용되는 프로세스
  - 범주 분석
  - 범주화 작업 예제
  - 범주화 사용을 피해야 하는 경우
- API를 통한 일래스틱 ML 관리
- 요약
4장. 예측
- 기술 요구 사항
- 예언과 대비되는 예측
- 예측 사용 사례
- 작업의 예측 이론
- 단일 시계열 예측
- 예측 결과 검토
- 다중 시계열 예측
- 요약
5장. 결과 해석
- 기술 요구 사항
- 일래스틱 ML 결과 인덱스 보기
- 이상 징후 점수
  - 버킷 수준 스코어링
  - 정규화
  - 인플루언서 수준 점수
  - 인플루언서
  - 레코드 수준 점수
- 결과 인덱스 스키마의 세부 정보
  - 버킷 결과
  - 레코드 결과
  - 인플루언서 결과
- 다중 버킷 이상 징후
  - 다중 버킷 이상 징후 예제
  - 다중 버킷 스코어링
- 예측 결과
  - 예측 결과 쿼리
- 결과 API
  - 결과 API 엔드포인트
  - 전체 버킷 조회 API
  - 범주 조회 API
- 사용자 정의 대시보드와 캔버스 워크패드
  - 대시보드 “임베디블”
  - TSVB에서 이상 징후 주석
  - 캔버스 워크패드 사용자 정의
- 요약
6장. ML 분석에 기반한 얼러팅
- 기술 요구 사항
- 얼러팅 개념 이해
  - 모든 이상 징후가 얼럿일 필요는 없다
  - 실시간 얼러팅에는 타이밍이 중요하다
- ML UI에서 얼럿 작성
  - 샘플 이상 탐지 작업 정의
- 샘플 작업에 대한 얼럿 생성
  - 실시간 이례적인 행위 시뮬레이션
  - 얼럿 수신과 검토
- 와치(watch)로 얼럿 만들기
  - 레거시 기본 ML 와치의 구조 이해
    - trigger 섹션
    - input 섹션
    - condition 섹션
    - action 섹션
  - 사용자 정의 와치는 몇 가지 고유한 기능을 제공할 수 있다
    - 연결된 입력과 스크립트 내의 조건
    - 연결된 입력 간에 정보 전달
- 요약
7장. AIOps와 근본 원인 분석
- 기술 요구 사항
- AIOps 용어의 이해
- KPI의 중요성과 한계 이해
- KPI를 넘어서
- 더 나은 분석을 위한 데이터 조직화
  - 이상 탐지 데이터피드에 대한 사용자 정의 쿼리
  - 수집 시 데이터 강화
- 컨텍스트 정보 활용
  - 분석 분할
  - 통계적 인플루언서
- RCA를 위해 모든 것을 통합
  - 가동 중단 배경
  - 상관관계와 공유된 인플루언서
- 요약
8장. 다른 일래스틱 스택 앱에서 이상 탐지
- 기술 요구 사항
- 일래스틱 APM의 이상 탐지
  - APM에 대한 이상 탐지 활성화
  - APM UI에서 이상 탐지 작업 결과 조회
  - 데이터 인식기를 통한 ML 작업 생성
- 로그 앱의 이상 탐지
  - 로그 카테고리
  - 로그 이상 징후
  - 메트릭 앱의 이상 탐지
- 업타임 앱의 이상 탐지
- 일래스틱 시큐리티 앱의 이상 탐지
  - 사전 구축된 이상 탐지 작업
- 탐지 얼럿으로서의 이상 탐지 작업
- 요약
9장. 데이터 프레임 분석 소개
- 기술 요구 사항
- 변환하는 방법 학습
  - 왜 변환이 유용한가?
  - 변환 작업의 내부 구조
  - 전자 상거래 주문을 분석하기 위해 변환 사용
  - 더 고급 수준의 피벗과 집계 구성 탐색
  - 배치 변환과 연속 변환의 차이점 발견
  - 연속 변환을 사용해 소셜 미디어 피드 분석
- 고급 변환 구성에 페인리스 사용
  - 페인리스 소개
  - 변수, 연산자, 제어 흐름
  - 함수
- 파이썬과 일래스틱서치로 작업하기
  - 파이선 일래스틱서치 클라이언트에 대해 간략하게 둘러보기
  - 일런드의 개발 목적 이해
  - 일런드와 함께하는 첫걸음
- 요약
- 더 읽어보기
10장. 아웃라이어 탐지
- 기술 요구 사항
- 아웃라이어 탐지의 내부 작동 이해
  - 아웃라이어 탐지에 사용하는 4가지 기술 이해
    - 거리 기반 기술
    - 밀도 기반 기술
- 피처 영향력 이해
  - 각 점에 대한 피처 영향력은 어떻게 계산하는가?
- 아웃라이어 탐지는 이상 탐지와 어떻게 다른가?
  - 확률 모델 기반 대 인스턴스 기반
  - 점수화
  - 데이터 특성
  - 온라인 대 배치(batch)
- 실제 아웃라이어 탐지 적용
- Evaluate API로 아웃라이어 탐지 평가
- 아웃라이어 탐지를 위한 하이퍼파라미터 조정
- 요약
11장. 분류 분석
- 기술 요구 사항
- 분류: 데이터에서 훈련된 모델로
  - 데이터에서 분류 모델 학습
  - 피처 엔지니어링
  - 모델 평가
- 분류의 첫 걸음
- 분류의 내부 구조: 그래디언트 부스트 의사결정 트리
  - 의사결정 트리 소개
  - 그래디언트 부스트 의사결정 트리
- 하이퍼파라미터
- 결과 해석
  - 분류 확률
  - 분류 점수
  - 피처 중요도
- 요약
- 더 읽어보기
12장. 회귀
- 기술 요구 사항
- 회귀 분석을 사용해 주택 가격 예측
- 회귀를 위한 의사결정 트리 사용
- 요약
- 더 읽어보기
13장. 추론
- 기술 요구 사항
- 훈련된 모델 API 및 파이썬을 사용해 훈련된 머신러닝 모델을 검사하고 가져오며 내보내기
- 훈련된 모델 API 살펴보기
  - 훈련된 모델 API와 파이썬을 사용해 훈련된 모델 내보내기와 가져오기
- 추론 프로세서와 인제스트 파이프라인 이해하기
  - 인제스트 파이프라인에서 누락되거나 손상된 데이터 처리
  - 예측에 대한 더 많은 통찰력을 얻기 위한 추론 프로세서 구성 옵션 사용하기
- 일런드를 사용해 외부 모델을 일래스틱서치로 가져오기
  - 일런드에서 지원하는 외부 모델에 대해 알아보기
  - scikit-learn의 DecisionTreeClassifier로 훈련하고 일런드를 사용해 일래스틱서치로 가져오기
- 요약
부록. 이상 탐지 팁
- 기술 요구 사항
- 분할 작업 대 비분할 작업의 인플루언서 이해하기
- 단측함수를 유리하게 사용하기
- 기간 무시하기
  - 예정된 (알려진) 시간 윈도 무시하기
    - 캘린더 이벤트 생성
    - 원하는 타임프레임을 무시하기 위해 데이터피드 중지 및 시작
  - 예기치 못한 시간 윈도를 사후에 무시하기
    - 작업의 복제와 과거 데이터의 재실행
    - 작업을 이전 모델 스냅숏으로 되돌리기
- 사용자 정의 규칙과 필터 유리하게 사용하기
  - 사용자 정의 규칙 만들기
    - “하향식” 얼러팅 철학에 대한 사용자 지정 규칙의 장점
- 이상 탐지 작업 처리량에 관한 고려 사항
- 사용 사례의 과도한 엔지니어링 방지하기
- 런타임 필드에서 이상 탐지 사용하기
- 요약

도서 오류 신고

이름

e-mail

도서명

신고내용

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

개인정보수집ㆍ이용에 동의합니다.