일래스틱 스택을 이용한 머신러닝 2/e [머신러닝 피처로 데이터에서 귀중한 인사이트를 얻자]
- 원서명Machine Learning with the Elastic Stack: Gain valuable insights from your data with Elastic Stack's machine learning features, 2nd Edition (ISBN 9781801070034)
- 지은이리치 콜리어(Rich Collier), 카밀리아 몬토넨(Camilla Montonen), 바할딘 아자미(Bahaaldine Azarmi)
- 옮긴이최중연
- ISBN : 9791161756844
- 36,000원 (eBook 28,800원)
- 2022년 09월 30일 펴냄
- 페이퍼백 | 492쪽 | 188*235mm
- 시리즈 : 데이터 과학
책 소개
수정된 목차는 여기에서 내려받으세요.
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
https://github.com/AcornPublishing/ml-elasticstack2
요약
ELK 스택으로 알려진 일래스틱 스택은 사용자가 검색 데이터를 효과적으로 수집, 처리, 분석하도록 도와주는 로그 분석 솔루션이다. 주요 상용 기능인 머신러닝이 추가된 일래스틱 스택은 이 분석 프로세스를 훨씬 더 효율적으로 만든다.
2판에서는 시계열 데이터 분석은 물론 분류, 회귀, 아웃라이어 탐지를 위한 일래스틱 스택의 머신러닝 기능에 대해 포괄적인 개요를 제공한다. 머신러닝 개념을 직관적으로 설명하고 있으며 로그 파일, 네트워크 흐름, 애플리케이션 메트릭, 재무 데이터와 같은 다양한 데이터 유형에 대해 시계열 분석을 수행한다. 또한 로깅, 보안 및 메트릭을 위해 일래스틱 스택 내에서 머신러닝을 배포한다. 마지막에는 데이터 프레임 분석이 머신러닝이 도움될 수 있는 완전히 새로운 사용 사례의 문을 어떻게 여는지 알게 될 것이다.
이 책이 끝날 즈음에는 머신러닝을 분산 검색과 데이터 분석 플랫폼에 통합하는 데 필요한 지식과 함께 머신러닝과 일래스틱 스택에 있어 실질적인 경험을 갖게 될 것이다.
이 책에서 다루는 내용
◆ 일래스틱 스택에서의 머신러닝 상용 기능 활성화하기
◆ 다양한 유형의 이상 징후를 탐지하고 예측하기
◆ IT 운영, 보안 분석 및 기타 사용 사례에 효과적인 이상 탐지 적용하기
◆ 사용자 정의 뷰, 대시보드 및 사전 경고에서 일래스틱 머신러닝의 결과 활용하기
◆ 실시간 추론을 위한 지도 머신 러닝(supervised machine learning) 모델 훈련과 배포하기
◆ 일래스틱 머신러닝 활용을 위한 다양한 팁과 트릭 알아보기
이 책의 대상 독자
머신러닝 전문가나 맞춤형 개발에 의존하지 않고 일래스틱서치 데이터에 대한 통찰력을 얻으려는 데이터 전문가를 대상으로 한다. 머신러닝을 관측 가능성(Observability), 보안(Security) 및 분석(Analytics) 애플리케이션과 통합하려는 경우에도 유용하다. 이 책을 최대한 활용하려면 일래스틱 스택에 대한 실무 지식이 필요하다.
이 책의 구성
1장, 'IT를 위한 머신러닝'에서는 IT와 보안 운영에서 수동적인 데이터 분석의 역사적 과제에 대한 도입과 배경 입문서 역할을 한다. 내부에서 일어나는 일을 본질적으로 이해하기 위해 일래스틱 머신러닝의 작동 이론에 대한 개요를 포괄적으로 제공한다.
2장, '활성화와 운영화'에서는 일래스틱 스택에서 머신러닝을 활성화하는 방법을 설명하고 일래스틱 머신러닝 알고리듬의 작동 이론도 자세히 살펴본다. 또한 일래스틱 머신러닝의 물류 운영도 자세히 다룬다.
3장, '이상 탐지'에서는 시계열 분석의 핵심인 자동화된 비지도(unsupervised) 이상 탐지 기술을 자세히 설명한다.
4장, '예측'에서는 일래스틱 머신러닝의 정교한 시계열 모델을 단순한 이상 탐지 이상의 용도로 사용하는 방법을 설명한다. 예측 기능을 통해 사용자는 미래의 추세와 행동을 추정해 용량 계획과 같은 사용 사례를 지원할 수 있다.
5장, '결과 해석'에서는 이상 탐지 및 예측 결과를 완전히 이해하고 시각화, 대시보드 및 인포그래픽에서 장점을 활용하는 방법을 소개한다.
6장, 'ML 분석에 기반한 얼러팅'에서는 이상 탐지를 더욱 실행 가능하게 만들기 위해 일래스틱 얼러팅의 사전 알림 기능을 머신러닝으로 파악한 통찰력과 통합하는 다양한 기술을 설명한다.
7장, 'AIOps와 근본 원인 분석'에서는 일래스틱 머신러닝을 활용해 이질적인 데이터 소스 데이터를 전체적으로 검사하고 분석해서 분석가에게 상관관계 뷰를 제공하는 레거시 접근 방식 측면에서 한 발 더 나아간 방법을 살펴본다.
8장, '다른 일래스틱 스택 앱에서 이상 탐지'에서는 데이터 분석에 가치를 부여하기 위해 일래스틱 스택 내의 다른 앱에서 이상 탐지를 활용하는 방법을 알아본다.
9장, '데이터 프레임 분석 소개'에서는 데이터 프레임 분석의 개념을 설명하고, 시계열 이상 탐지와는 어떻게 다른지, 일래스틱 머신러닝으로 데이터를 로드, 준비, 변환 및 분석하기 위해 사용자가 사용할 수 있는 도구를 다룬다.
10장, '아웃라이어 탐지'에서는 일래스틱 머신러닝과 함께 데이터 프레임 분석의 아웃라이어 탐지 분석 기능을 살펴본다.
11장, '분류 분석'에서는 일래스틱 머신러닝과 함께 데이터 프레임 분석의 분류 분석 기능을 다룬다.
12장, '회귀'에서는 일래스틱 머신러닝과 함께 데이터 프레임 분석의 회귀 분석 기능을 소개한다.
13장, '추론'에서는 “추론”을 위해 (실제로 조작 가능한 방식으로 출력 값을 예측하기 위해) 훈련된 머신러닝 모델에 대한 사용법을 살펴본다.
14장, '부록: 이상 탐지 팁'에서는 다른 장에서는 잘 맞지 않는 다양한 실용적인 조언을 담았다. 이러한 유용한 정보는 일래스틱 ML을 최대한 활용하는 데 도움이 될 것이다.
목차
목차
- 1장. IT를 위한 머신러닝
- IT의 역사적 도전 과제 극복
- 엄청나게 많은 데이터 처리
- 자동화된 이상 탐지의 출현
- 비지도 ML 대 지도 ML
- 이상 탐지를 위한 비지도 ML 사용하기
- 특이에 관해 정의하기
- 정상 상태 학습하기
- 확률 모델
- 모델 학습하기
- 디트랜드
- 특이성에 대한 점수화
- 시간 요소
- 데이터 프레임 분석에 지도 ML 적용하기
- 지도 학습 과정
- 요약
- 2장. 활성화와 운영화
- 기술 요구 사항
- 일래스틱 ML 기능 활성화
- 자체 관리형 클러스터에서 ML 활성화
- 클라우드에서 ML 활성화 - 일래스틱서치 서비스
- 운영화의 이해
- ML 노드
- 작업
- 시계열 분석에서 데이터 버킷팅
- 일래스틱 ML에 데이터 공급
- 제공하는 인덱스
- ml-config
- ml-state-*
- ml-notification-*
- ml-annoataions-*
- ml-stats-*
- ml-anomalies-*
- 이상 탐지 오케스트레이션
- 이상 탐지 모델 스냅숏
- 요약
- 3장. 이상 탐지
- 기술 요구 사항
- 일래스틱 ML 작업 유형
- 탐지기 해부
- 함수
- 필드
- partition 필드
- by 필드
- over 필드
- 공식(formula)
- 이벤트 비율의 변화 탐지
- 카운트 함수 탐색
- 다른 카운트 함수
- 논제로 카운트
- 디스팅트 카운트
- 메트릭 값에서 변화 탐지
- 메트릭 함수
- min, max, mean, median과 metric
- varp
- sum, not-null sum
- 메트릭 함수
- 고급 탐지기 함수의 이해
- 레어(rare)
- 프리퀀시 레어(frequency rare)
- 정보 내용(information content)
- 지오그래픽(geographic)
- 시간
- 범주형 피처로 분석 분할
- 분할 필드 설정
- partition과 by_field를 사용한 분할의 차이점
- 이중 분할에 한계가 있을까?
- 시간 분석과 모집단 분석의 이해
- 비정형 메시지 범주화 분석
- 범주화에 훌륭한 후보가 되는 메시지 유형
- 범주화에 사용되는 프로세스
- 범주 분석
- 범주화 작업 예제
- 범주화 사용을 피해야 하는 경우
- API를 통한 일래스틱 ML 관리
- 요약
- 4장. 예측
- 기술 요구 사항
- 예언과 대비되는 예측
- 예측 사용 사례
- 작업의 예측 이론
- 단일 시계열 예측
- 예측 결과 검토
- 다중 시계열 예측
- 요약
- 5장. 결과 해석
- 기술 요구 사항
- 일래스틱 ML 결과 인덱스 보기
- 이상 징후 점수
- 버킷 수준 스코어링
- 정규화
- 인플루언서 수준 점수
- 인플루언서
- 레코드 수준 점수
- 결과 인덱스 스키마의 세부 정보
- 버킷 결과
- 레코드 결과
- 인플루언서 결과
- 다중 버킷 이상 징후
- 다중 버킷 이상 징후 예제
- 다중 버킷 스코어링
- 예측 결과
- 예측 결과 쿼리
- 결과 API
- 결과 API 엔드포인트
- 전체 버킷 조회 API
- 범주 조회 API
- 사용자 정의 대시보드와 캔버스 워크패드
- 대시보드 “임베디블”
- TSVB에서 이상 징후 주석
- 캔버스 워크패드 사용자 정의
- 요약
- 6장. ML 분석에 기반한 얼러팅
- 기술 요구 사항
- 얼러팅 개념 이해
- 모든 이상 징후가 얼럿일 필요는 없다
- 실시간 얼러팅에는 타이밍이 중요하다
- ML UI에서 얼럿 작성
- 샘플 이상 탐지 작업 정의
- 샘플 작업에 대한 얼럿 생성
- 실시간 이례적인 행위 시뮬레이션
- 얼럿 수신과 검토
- 와치(watch)로 얼럿 만들기
- 레거시 기본 ML 와치의 구조 이해
- trigger 섹션
- input 섹션
- condition 섹션
- action 섹션
- 사용자 정의 와치는 몇 가지 고유한 기능을 제공할 수 있다
- 연결된 입력과 스크립트 내의 조건
- 연결된 입력 간에 정보 전달
- 레거시 기본 ML 와치의 구조 이해
- 요약
- 7장. AIOps와 근본 원인 분석
- 기술 요구 사항
- AIOps 용어의 이해
- KPI의 중요성과 한계 이해
- KPI를 넘어서
- 더 나은 분석을 위한 데이터 조직화
- 이상 탐지 데이터피드에 대한 사용자 정의 쿼리
- 수집 시 데이터 강화
- 컨텍스트 정보 활용
- 분석 분할
- 통계적 인플루언서
- RCA를 위해 모든 것을 통합
- 가동 중단 배경
- 상관관계와 공유된 인플루언서
- 요약
- 8장. 다른 일래스틱 스택 앱에서 이상 탐지
- 기술 요구 사항
- 일래스틱 APM의 이상 탐지
- APM에 대한 이상 탐지 활성화
- APM UI에서 이상 탐지 작업 결과 조회
- 데이터 인식기를 통한 ML 작업 생성
- 로그 앱의 이상 탐지
- 로그 카테고리
- 로그 이상 징후
- 메트릭 앱의 이상 탐지
- 업타임 앱의 이상 탐지
- 일래스틱 시큐리티 앱의 이상 탐지
- 사전 구축된 이상 탐지 작업
- 탐지 얼럿으로서의 이상 탐지 작업
- 요약
- 9장. 데이터 프레임 분석 소개
- 기술 요구 사항
- 변환하는 방법 학습
- 왜 변환이 유용한가?
- 변환 작업의 내부 구조
- 전자 상거래 주문을 분석하기 위해 변환 사용
- 더 고급 수준의 피벗과 집계 구성 탐색
- 배치 변환과 연속 변환의 차이점 발견
- 연속 변환을 사용해 소셜 미디어 피드 분석
- 고급 변환 구성에 페인리스 사용
- 페인리스 소개
- 변수, 연산자, 제어 흐름
- 함수
- 파이썬과 일래스틱서치로 작업하기
- 파이선 일래스틱서치 클라이언트에 대해 간략하게 둘러보기
- 일런드의 개발 목적 이해
- 일런드와 함께하는 첫걸음
- 요약
- 더 읽어보기
- 10장. 아웃라이어 탐지
- 기술 요구 사항
- 아웃라이어 탐지의 내부 작동 이해
- 아웃라이어 탐지에 사용하는 4가지 기술 이해
- 거리 기반 기술
- 밀도 기반 기술
- 아웃라이어 탐지에 사용하는 4가지 기술 이해
- 피처 영향력 이해
- 각 점에 대한 피처 영향력은 어떻게 계산하는가?
- 아웃라이어 탐지는 이상 탐지와 어떻게 다른가?
- 확률 모델 기반 대 인스턴스 기반
- 점수화
- 데이터 특성
- 온라인 대 배치(batch)
- 실제 아웃라이어 탐지 적용
- Evaluate API로 아웃라이어 탐지 평가
- 아웃라이어 탐지를 위한 하이퍼파라미터 조정
- 요약
- 11장. 분류 분석
- 기술 요구 사항
- 분류: 데이터에서 훈련된 모델로
- 데이터에서 분류 모델 학습
- 피처 엔지니어링
- 모델 평가
- 분류의 첫 걸음
- 분류의 내부 구조: 그래디언트 부스트 의사결정 트리
- 의사결정 트리 소개
- 그래디언트 부스트 의사결정 트리
- 하이퍼파라미터
- 결과 해석
- 분류 확률
- 분류 점수
- 피처 중요도
- 요약
- 더 읽어보기
- 12장. 회귀
- 기술 요구 사항
- 회귀 분석을 사용해 주택 가격 예측
- 회귀를 위한 의사결정 트리 사용
- 요약
- 더 읽어보기
- 13장. 추론
- 기술 요구 사항
- 훈련된 모델 API 및 파이썬을 사용해 훈련된 머신러닝 모델을 검사하고 가져오며 내보내기
- 훈련된 모델 API 살펴보기
- 훈련된 모델 API와 파이썬을 사용해 훈련된 모델 내보내기와 가져오기
- 추론 프로세서와 인제스트 파이프라인 이해하기
- 인제스트 파이프라인에서 누락되거나 손상된 데이터 처리
- 예측에 대한 더 많은 통찰력을 얻기 위한 추론 프로세서 구성 옵션 사용하기
- 일런드를 사용해 외부 모델을 일래스틱서치로 가져오기
- 일런드에서 지원하는 외부 모델에 대해 알아보기
- scikit-learn의 DecisionTreeClassifier로 훈련하고 일런드를 사용해 일래스틱서치로 가져오기
- 요약
- 부록. 이상 탐지 팁
- 기술 요구 사항
- 분할 작업 대 비분할 작업의 인플루언서 이해하기
- 단측함수를 유리하게 사용하기
- 기간 무시하기
- 예정된 (알려진) 시간 윈도 무시하기
- 캘린더 이벤트 생성
- 원하는 타임프레임을 무시하기 위해 데이터피드 중지 및 시작
- 예기치 못한 시간 윈도를 사후에 무시하기
- 작업의 복제와 과거 데이터의 재실행
- 작업을 이전 모델 스냅숏으로 되돌리기
- 예정된 (알려진) 시간 윈도 무시하기
- 사용자 정의 규칙과 필터 유리하게 사용하기
- 사용자 정의 규칙 만들기
- “하향식” 얼러팅 철학에 대한 사용자 지정 규칙의 장점
- 사용자 정의 규칙 만들기
- 이상 탐지 작업 처리량에 관한 고려 사항
- 사용 사례의 과도한 엔지니어링 방지하기
- 런타임 필드에서 이상 탐지 사용하기
- 요약