데이터 민주화와 셀프서비스 데이터 [모두가 쉽고 빠르게 데이터 인사이트를 도출하는 지름길]
- 원서명The Self-Service Data Roadmap: Democratize Data and Reduce Time to Insight (ISBN 9781492075257)
- 지은이샌딥 우탐찬다니(Dr. Sandeep Uttamchandani)
- 옮긴이이주한
- ISBN : 9791161756516
- 30,000원
- 2022년 06월 30일 펴냄
- 페이퍼백 | 356쪽 | 188*235mm
- 시리즈 : 데이터 과학
책 소개
요약
데이터를 기반으로 도출되는 인사이트는 모든 산업에서 경쟁 우위의 열쇠로 여겨진다. 하지만 원천 데이터에서 인사이트를 도출하는 것은 생각만큼 쉽지 않다. 데이터 파이프라인을 아무리 잘 구성해도 인사이트 하나를 도출하는 데에는 며칠에서 몇 주까지 걸리며, 데이터 양은 너무나 방대하고 빠르게 증가해 데이터 사이언스 조직을 아무리 키워도 대응 속도를 따라갈 수 없다. 이때 필요한 것이 바로 셀프서비스 데이터 플랫폼을 구축하는 것이다.
데이터 엔지니어, 데이터 과학자, 팀 관리자는 이 실용적인 책을 통해 조직의 모든 사람이 데이터에서 인사이트를 쉽게 추출할 수 있도록 하는 셀프서비스 데이터 플랫폼 구축 방법을 배울 수 있다. 이 책은 데이터 검색, 변환, 처리 및 생산 전반에 걸쳐 인사이트에 도달하기까지 걸리는 시간을 지연시키는 병목 현상을 추적하고 이를 해결하는 방법을 알려준다. 데이터 엔지니어링의 현실적 어려움으로 병목 현상을 겪고 있는 데이터 과학자들과 셀프서비스 작업 수행 방법을 알고 싶어 하는 데이터 엔지니어들에게 이 책을 추천한다.
추천의 글
“각 개념에 대한 포괄적인 특징을 잘 알려주며 가장 최신 아이디어를 알려준다. 극도로 복잡한 문제를 분해해 해결할 수 있는 조각들로 나눈다.”
─ 쉬보단 바부(Shivnath Babu)/
언라벌 데이터 시스템즈(Unravel Data Systems)의 공동 창립자 겸
CTO이자 듀크 대학교의 컴퓨터 과학 겸임 교수
"데이터 관리 전문가를 위한 포괄적인 개요를 제공하는 훌륭한 책이다."
─ 제니퍼 양(Jennifer Yang)/
데이터 및 리스크 관리 책임자
이 책에서 다루는 내용
◆ 데이터 발견, 품질, 계보, 거버넌스를 지원하는 셀프서비스 포털 구축하기
◆ 오픈소스 기술을 사용해 각 셀프서비스 기능에 가장 적합한 접근 방식 선택하기
◆ 데이터 플랫폼의 사람, 프로세스, 기술 성숙도에 따른 셀프서비스 맞춤화하기
◆ 데이터를 민주화하고 인사이트를 얻는 데 드는 시간을 줄이는 기능 구현하기
◆ 셀프서비스 포털 확장으로 조직 내 많은 사용자 지원하기
이 책의 대상 독자
이 책을 통해 엔지니어링의 현실적 어려움으로 병목 현상을 겪고 있는 데이터 과학자들과 셀프서비스 작업을 수행하는 방법을 잘 모르는 데이터 엔지니어들 간의 격차를 해소할 수 있다.
목차
목차
- 1장. 소개
- 원시 데이터에서 인사이트로의 여정 지도
- 발견
- 준비
- 구축
- 운영화
- 인사이트 시간 스코어카드 정의
- 나의 셀프서비스 데이터 로드맵 구축
- 원시 데이터에서 인사이트로의 여정 지도
- 1부. 셀프서비스 데이터 발견
- 2장. 메타데이터 카탈로그 서비스
- 여정 지도
- 데이터 세트 이해하기
- 데이터 세트 분석하기
- 지식 확장하기
- 해석 시간 최소화
- 기술 메타데이터 추출하기
- 운영 메타데이터 추출하기
- 팀 지식 수집하기
- 요구 사항 정의
- 기술 메타데이터 추출기 요구 사항
- 운영 메타데이터 요구 사항
- 팀 지식 취합기 요구 사항
- 구현 패턴
- 소스 특화 커넥터 패턴
- 계보 상관 패턴
- 팀 지식 패턴
- 요약
- 여정 지도
- 3장. 검색 서비스
- 여정 지도
- 비즈니스 문제의 실행 가능성 확인하기
- 데이터 준비를 위해 연관된 데이터 세트 선택하기
- 프로토타이핑을 위해 현존하는 아티팩트 재사용하기
- 탐색 시간 최소화
- 데이터 세트 및 아티팩트 인덱싱
- 결과의 순위 매기기
- 접근 제어하기
- 요구 사항 정의
- 인덱서 요구 사항
- 요구 사항 순위 매기기
- 접근 제어 요구 사항
- 비기능 요구 사항
- 구현 패턴
- 푸시 풀 인덱서 패턴
- 하이브리드 검색 랭킹 패턴
- 카탈로그 접근 제어 패턴
- 요약
- 여정 지도
- 4장. 피처 저장소 서비스
- 여정 지도
- 사용 가능한 피처 찾기
- 학습 세트 생성
- 온라인 추론을 위한 피처 파이프라인
- 피처화 시간 최소화
- 피처 계산
- 피처 제공
- 요구 사항 정의
- 피처 연산
- 피처 제공
- 비기능 요구 사항
- 구현 패턴
- 하이브리드 피처 연산 패턴
- 피처 레지스트리 패턴
- 요약
- 여정 지도
- 5장. 데이터 이동 서비스
- 여정 지도
- 소스 간 데이터 집계
- 원시 데이터를 전문 쿼리 엔진으로 이동
- 처리된 데이터를 서빙 저장소로 이동
- 소스 전반의 탐색적 분석
- 데이터 가용성 확보 시간 최소화
- 데이터 수집 구성 및 변경 관리
- 규정 준수
- 데이터 품질 검증
- 요구 사항 정의
- 수집 요구 사항
- 변환 요구 사항
- 규정 준수 요구 사항
- 검증 요구 사항
- 비기능적 요구 사항
- 구현 패턴
- 배치 수집 패턴
- 변경 데이터 캡처 수집 패턴
- 이벤트 집계 패턴
- 요약
- 여정 지도
- 6장. 클릭스트림 추적 서비스
- 여정 지도
- 클릭 시간 지표 최소화
- 계측 관리
- 이벤트 강화
- 인사이트 쌓기
- 요구 사항 정의
- 계측 요구 사항 체크리스트
- 보강 요구 사항 체크리스트
- 구현 패턴
- 계측 패턴
- 규칙 기반 보강 패턴
- 소비 패턴
- 요약
- 2부. 셀프서비스 데이터 준비
- 7장. 데이터 레이크 관리 서비스
- 여정 지도
- 원시 수명주기 관리
- 데이터 업데이트 관리
- 배치 및 스트리밍 데이터 흐름 관리
- 데이터 레이크 관리 시간 최소화
- 요구 사항
- 구현 패턴
- 데이터 수명주기 기본 패턴
- 트랜잭션 패턴
- 고급 데이터 관리 패턴
- 요약
- 여정 지도
- 8장. 데이터 랭글링 서비스
- 여정 지도
- 랭글링 시간 최소화
- 요구 사항 정의
- 데이터 큐레이팅
- 운영 모니터링
- 요구 사항 정의
- 구현 패턴
- 탐색적 데이터 분석 패턴
- 분석 변환 패턴
- 요약
- 9장. 데이터 권한 거버넌스 서비스
- 여정 지도
- 데이터 권한 요청 실행
- 데이터 세트 발견
- 모델 재학습
- 규정 준수 시간 최소화
- 고객 데이터 수명주기 추적
- 고객 데이터 권한 요청 실행
- 데이터 액세스 제한
- 요구 사항 정의
- 현재 고충 설문지
- 상호 운용성 체크리스트
- 기능 요구 사항
- 비기능 요구 사항
- 구현 패턴
- 민감한 데이터 발견 및 분류 패턴
- 데이터 레이크 삭제 패턴
- 유스 케이스 기반 액세스 제어
- 요약
- 여정 지도
- 3부. 셀프서비스 구축
- 10장. 데이터 가상화 서비스
- 여정 지도
- 데이터 소스 탐색
- 처리 클러스터 선택
- 쿼리 시간 최소화
- 실행 환경 선택
- 다중언어 쿼리 공식화
- 사일로 간 데이터 결합
- 요구 사항 정의
- 현재 문제점 분석
- 운영 요구 사항
- 기능 요구 사항
- 비기능 요구 사항
- 구현 패턴
- 자동 쿼리 라우팅 패턴
- 통합 쿼리 패턴
- 연합 쿼리 패턴
- 요약
- 여정 지도
- 11장. 데이터 변환 서비스
- 여정 지도
- 프로덕션 대시보드 및 ML 파이프라인
- 데이터 기반 스토리텔링
- 변환 시간 최소화
- 변환 구현
- 변환 실행
- 변환 작업
- 요구 사항 정의
- 현재 상태 설문지
- 기능 요구 사항
- 비기능 요구 사항
- 구현 패턴
- 구현 패턴
- 실행 패턴
- 요약
- 여정 지도
- 12장. 모델 학습 서비스
- 여정 지도
- 모델 프로토타이핑
- 지속적 학습
- 모델 디버깅
- 학습 시간 최소화
- 학습 오케스트레이션
- 튜닝
- 지속적 학습
- 요구 사항 정의
- 학습 오케스트레이션
- 튜닝
- 지속적 학습
- 비기능 요구 사항
- 구현 패턴
- 분산 학습 오케스트레이터 패턴
- 자동 튜닝 패턴
- 데이터 인식 지속적 학습
- 요약
- 여정 지도
- 13장. 지속적 통합 서비스
- 여정 지도
- ML 파이프라인에서의 공동 작업
- ETL 변경 사항 통합
- 스키마 변경 검증
- 통합 시간 최소화
- 실험 추적
- 재현 가능한 배포
- 테스트 검증
- 요구 사항 정의
- 실험 추적 모듈
- 파이프라인 패키징 모듈
- 자동화 모듈 테스트
- 구현 패턴
- 프로그래밍 가능한 추적 패턴
- 재현 가능한 프로젝트 패턴
- 요약
- 여정 지도
- 14장. A/B 테스트 서비스
- 여정 지도
- A/B 테스트 시간 최소화
- 실험 설계
- 대규모 실행
- 실험 최적화
- 구현 패턴
- 실험 명세 패턴
- 지표 정의 패턴
- 자동화된 실험 최적화
- 요약
- 4부. 셀프서비스 운영화
- 15장. 쿼리 최적화 서비스
- 여정 지도
- 클러스터 막힘 방지
- 런타임 쿼리 문제 해결
- 애플리케이션 속도 향상
- 최적화 시간 최소화
- 통계 집계
- 통계 분석
- 작업 최적화
- 요구 사항 정의
- 현재 고충 설문지
- 상호 운용 요구 사항
- 기능 요구 사항
- 비기능적 요구 사항
- 구현 패턴
- 회피 패턴
- 운영 인사이트 패턴
- 자동화된 튜닝 패턴
- 요약
- 여정 지도
- 16장. 파이프라인 오케스트레이션 서비스
- 여정 지도
- 탐색 파이프라인 호출
- SLA 기반 파이프라인 실행
- 오케스트레이션 시간 최소화
- 작업 종속성 정의
- 분산 실행
- 프로덕션 모니터링
- 요구 사항 정의
- 현재 불만 사항 설문지
- 운영 요구 사항
- 기능 요구 사항
- 비기능 요구 사항
- 구현 패턴
- 종속성 저작 패턴
- 오케스트레이션 관측 가능성 패턴
- 분산 실행 패턴
- 요약
- 여정 지도
- 17장. 모델 배포 서비스
- 여정 지도
- 프로덕션에서 모델 배포
- 모델 유지 관리 및 업그레이드
- 배포 시간 최소화
- 배포 오케스트레이션
- 성능 확장
- 드리프트 모니터링
- 요구 사항 정의
- 오케스트레이션
- 모델 확장 및 성능
- 드리프트 검증
- 비기능 요구 사항
- 구현 패턴
- 범용 배포 패턴
- 자동 확장 배포 패턴
- 모델 드리프트 추적 패턴
- 요약
- 여정 지도
- 18장. 품질 관측 가능성 서비스
- 여정 지도
- 일일 데이터 품질 모니터링 보고서
- 품질 문제 디버깅
- 저품질 데이터 레코드 처리
- 인사이트 품질 시간 최소화
- 데이터의 정확성 확인
- 품질 이상 탐지
- 데이터 품질 문제 방지
- 요구 사항 정의
- 데이터 품질 문제 감지 및 처리
- 기능 요구 사항
- 비기능 요구 사항
- 구현 패턴
- 정확도 모델 패턴
- 프로파일링 기반 이상 탐지 패턴
- 방지 패턴
- 요약
- 여정 지도
- 19장. 비용 관리 서비스
- 여정 지도
- 비용 사용량 모니터링
- 지속적인 비용 최적화
- 비용 최적화 시간 최소화
- 비용 관측 가능성
- 수요 공급 매칭
- 지속적 비용 최적화
- 요구 사항 정의
- 애로 사항 설문지
- 기능 요구 사항
- 비기능 요구 사항
- 구현 패턴
- 지속적 비용 모니터링 패턴
- 자동 확장 패턴
- 비용 어드바이저 패턴
- 여정 지도