Top

데이터 민주화와 셀프서비스 데이터 [모두가 쉽고 빠르게 데이터 인사이트를 도출하는 지름길]

  • 원서명The Self-Service Data Roadmap: Democratize Data and Reduce Time to Insight (ISBN 9781492075257)
  • 지은이샌딥 우탐찬다니(Dr. Sandeep Uttamchandani)
  • 옮긴이이주한
  • ISBN : 9791161756516
  • 30,000원
  • 2022년 06월 30일 펴냄
  • 페이퍼백 | 356쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

요약

데이터를 기반으로 도출되는 인사이트는 모든 산업에서 경쟁 우위의 열쇠로 여겨진다. 하지만 원천 데이터에서 인사이트를 도출하는 것은 생각만큼 쉽지 않다. 데이터 파이프라인을 아무리 잘 구성해도 인사이트 하나를 도출하는 데에는 며칠에서 몇 주까지 걸리며, 데이터 양은 너무나 방대하고 빠르게 증가해 데이터 사이언스 조직을 아무리 키워도 대응 속도를 따라갈 수 없다. 이때 필요한 것이 바로 셀프서비스 데이터 플랫폼을 구축하는 것이다.
데이터 엔지니어, 데이터 과학자, 팀 관리자는 이 실용적인 책을 통해 조직의 모든 사람이 데이터에서 인사이트를 쉽게 추출할 수 있도록 하는 셀프서비스 데이터 플랫폼 구축 방법을 배울 수 있다. 이 책은 데이터 검색, 변환, 처리 및 생산 전반에 걸쳐 인사이트에 도달하기까지 걸리는 시간을 지연시키는 병목 현상을 추적하고 이를 해결하는 방법을 알려준다. 데이터 엔지니어링의 현실적 어려움으로 병목 현상을 겪고 있는 데이터 과학자들과 셀프서비스 작업 수행 방법을 알고 싶어 하는 데이터 엔지니어들에게 이 책을 추천한다.

추천의 글

“각 개념에 대한 포괄적인 특징을 잘 알려주며 가장 최신 아이디어를 알려준다. 극도로 복잡한 문제를 분해해 해결할 수 있는 조각들로 나눈다.”
─ 쉬보단 바부(Shivnath Babu)/
언라벌 데이터 시스템즈(Unravel Data Systems)의 공동 창립자 겸
CTO이자 듀크 대학교의 컴퓨터 과학 겸임 교수

"데이터 관리 전문가를 위한 포괄적인 개요를 제공하는 훌륭한 책이다."
─ 제니퍼 양(Jennifer Yang)/
데이터 및 리스크 관리 책임자

이 책에서 다루는 내용

◆ 데이터 발견, 품질, 계보, 거버넌스를 지원하는 셀프서비스 포털 구축하기
◆ 오픈소스 기술을 사용해 각 셀프서비스 기능에 가장 적합한 접근 방식 선택하기
◆ 데이터 플랫폼의 사람, 프로세스, 기술 성숙도에 따른 셀프서비스 맞춤화하기
◆ 데이터를 민주화하고 인사이트를 얻는 데 드는 시간을 줄이는 기능 구현하기
◆ 셀프서비스 포털 확장으로 조직 내 많은 사용자 지원하기

이 책의 대상 독자

이 책을 통해 엔지니어링의 현실적 어려움으로 병목 현상을 겪고 있는 데이터 과학자들과 셀프서비스 작업을 수행하는 방법을 잘 모르는 데이터 엔지니어들 간의 격차를 해소할 수 있다.

저자/역자 소개

지은이의 말

데이터는 새로운 ‘석유’다. 기업 내에서 수집되는 정형, 반정형, 비정형 데이터의 양은 기하급수적으로 증가했다. 데이터에서 얻은 인사이트는 모든 기업의 중요한 차별화 요소이며, 제품의 기능과 비즈니스 프로세스 향상에는 머신러닝 모델이 사용된다.
엄청난 양의 데이터가 데이터 레이크(data lake) 내에서 수집되고 있지만, 항상 일관성 있고 정확하게 해석 가능하며 표준화될 만큼 충분하지는 않다. 데이터 과학자는 데이터 수집을 위한 시스템 정렬, 메타데이터 정의, ML 알고리듬을 제공하기 위한 데이터 랭글링(data wrangling), 대규모 파이프라인 및 모델 배포 등의 엔지니어링 활동에 상당한 시간을 소비한다. 이런 일들은 데이터 분석가의 핵심 역량인 인사이트 도출과는 무관할 뿐더러, 비즈니스 전후 사정에 대한 이해가 부족한 데이터 엔지니어나 플랫폼 IT 엔지니어에 의존하느라 늘 병목 현상이 발생한다. 데이터에 접근하려는 제품 관리, 마케팅, 재무, 엔지니어링 분야의 데이터 시민(data citizen, 사용자)은 늘어나는데 엔지니어링이 복잡하다 보니, 데이터 분석가와 과학자만 데이터에 접근할 수 있게 돼 데이터 민주화는 더욱 요원해지는 것이다. ML 프로그래밍의 발전에 관한 많은 책과 특정 데이터 기술에 대한 심층적인 책들이 나와 있기는 하지만, 다양한 데이터 사용자 지원을 한 셀프서비스 플랫폼 개발에 필요한 데이터 엔지니어링 운영 패턴에 대한 글은 거의 없다.
이 책에서는 데이터 사용자와 데이터 플랫폼 엔지니어의 관점을 모두 통합하고자 했다. 요구 사항에 대한 공통의 이해를 만드는 것은 가용 시간과 자원을 고려해 실현 가능한 것이 교차되는 실용적인 로드맵을 개발하는 데 매우 중요하다.

지은이 소개

샌딥 우탐찬다니(Dr. Sandeep Uttamchandani)

언래블 데이터 시스템즈(Unravel Data Systems)의 최고 데이터 책임자이자 제품 엔지니어링 부사장이다. 엔터프라이즈 데이터 제품을 구축하고 비즈니스 크리티컬 분석 및 머신러닝애플리케이션을 위한 페타바이트 규모의 데이터 플랫폼을 실행하는 데 20년 가까이 경험을 쌓았다. 가장 최근에는 인튜이트(Intuit)에서 회사의 재무 회계, 급여, 결제 제품에 대한 분석 및 머신러닝을 지원하는 데이터 플랫폼 팀을 운영했다. 오픈소스 제품의 보안 취약성을 관리하기 위해 머신러닝을 사용하는 스타트업의 공동 창립자이자 CEO이기도 했으며, VMware와 IBM에서 15년 이상 엔지니어링 리더십 역할을 수행했다.
40개 이상의 특허를 보유하고 있으며, 주요 기술 콘퍼런스에서 25개 이상의 간행물을 발행하고 다수의 제품 혁신상과 관리 우수상을 수상했다. 또한 데이터 콘퍼런스의 정기 연사이자 대학의 객원 강사이며, 스타트업에 자문을 제공하고 가트너(Gartner)의 SF CDO Executive Summit 및 Usenix Operational ML 콘퍼런스의 공동 의장으로 활동하는 등 여러 콘퍼런스에서 프로그램/운영위원으로 활동했다. 일리노이대학교 어바나-샴페인캠퍼스(University of Illinois at Urbana-Champaign)에서 컴퓨터 공학 박사 및 석사 학위를 받았다.

옮긴이의 말

데이터의 시대다. 데이터와 전혀 관련이 없어 보이던 분야에서도 데이터가 ‘보물 상자의 열쇠’라도 되는 것처럼 데이터를 도입하고 있다. 그런데 데이터 플랫폼을 도입하고 보면 생각만큼 단순하지 않다. 깊이 있는 분석을 위해서는 더 많은 데이터를 쌓아야 하는데, 데이터의 양과 원천 소스가 많아지는 만큼 데이터에 접근하고 분석하기가 점점 더 어렵다. 마치 보물 상자를 열어 보니 복잡한 보물 지도가 있고, 그 보물 지도가 가리키는 목적지를 찾아가니 또 다른 보물 상자가 있고, 또 그 상자를 열어보려면 또 다른 열쇠가 필요한 끊임없이 반복되는 보물찾기처럼 느껴진다. 이 책은 데이터 플랫폼을 구축하고 운영하는 분들이라면 경험해봤거나 접하게 될 다양한 문제점을 해결하기 위한 실마리를 제공한다. 저자는 데이터 플랫폼에 대한 풍부한 경험을 토대로 데이터 플랫폼을 구축하고 운영하고 사용하는 데 필요한 시간을 세분화해 각각의 단위별 시간을 줄일 수 있는 다양한 솔루션을 제시한다. 또한 수동 관리와 반자동 관리 그리고 완전 자동화에 이르기까지 단계적으로 솔루션을 적용할 수 있도록 안내한다.
이를 가능케 하는 것은 데이터 민주화와 셀프서비스 데이터다. 여기서 이야기하는 데이터 민주화란 데이터에 쉽게 접근할 수 있도록 기반을 만들어 데이터를 잘 아는 사람부터 잘 모르는 사람까지 누구나 데이터를 쉽게 사용해 인사이트를 도출할 수 있도록 하는 것을 말한다. 그리고 셀프서비스 데이터란 데이터 엔지니어나 데이터 과학자가 관여하지 않더라도 마케터, 사업 담당자, 서비스 운영 담당자 등 조직 내 모든 사람이 스스로 데이터에 접근해 인사이트를 추출할 수 있도록 만들어진 데이터 기반을 의미한다.
데이터와 관련된 용어는 대부분 영어다. 현업에서도 데이터 부서의 담당자가 아니면 이해하기 힘든 용어가 많기도 하고, 새로운 용어도 계속 생겨난다. 회사나 조직에 따라서는 같은 단어를 지칭하는 다른 용어가 혼재돼 사용되기도 한다. 가능하면 현업에서 이해하기에 무리가 없는 용어를 사용하려고 노력했지만, 일부 용어는 저자의 의도를 최대한 살리고자 영어 표현을 그대로 차용하기도 했다.

옮긴이 소개

이주한

IT 분야에서 20년 가까이 일하면서 플랫폼 사업, 프로젝트 관리, 데이터 분석, 서비스 운영 등 다양한 업무를 담당했다. 현재는 데이터를 기반으로 인사이트를 도출해 플랫폼과 솔루션으로 구현하는 개발 조직에서 프로젝트 관리자로 재직 중이다. 많은 사람이 함께 일하면서 발생하는 다양한 문제를 해결하고 효율적으로 일하는 방법을 찾아내 적용하는 데 관심이 많다.

목차

목차
  • 1장. 소개
    • 원시 데이터에서 인사이트로의 여정 지도
      • 발견
      • 준비
      • 구축
      • 운영화
    • 인사이트 시간 스코어카드 정의
    • 나의 셀프서비스 데이터 로드맵 구축

  • 1부. 셀프서비스 데이터 발견
  • 2장. 메타데이터 카탈로그 서비스
    • 여정 지도
      • 데이터 세트 이해하기
      • 데이터 세트 분석하기
      • 지식 확장하기
    • 해석 시간 최소화
      • 기술 메타데이터 추출하기
      • 운영 메타데이터 추출하기
      • 팀 지식 수집하기
    • 요구 사항 정의
      • 기술 메타데이터 추출기 요구 사항
      • 운영 메타데이터 요구 사항
      • 팀 지식 취합기 요구 사항
    • 구현 패턴
      • 소스 특화 커넥터 패턴
      • 계보 상관 패턴
      • 팀 지식 패턴
    • 요약

  • 3장. 검색 서비스
    • 여정 지도
      • 비즈니스 문제의 실행 가능성 확인하기
      • 데이터 준비를 위해 연관된 데이터 세트 선택하기
      • 프로토타이핑을 위해 현존하는 아티팩트 재사용하기
    • 탐색 시간 최소화
      • 데이터 세트 및 아티팩트 인덱싱
      • 결과의 순위 매기기
      • 접근 제어하기
    • 요구 사항 정의
      • 인덱서 요구 사항
      • 요구 사항 순위 매기기
      • 접근 제어 요구 사항
      • 비기능 요구 사항
    • 구현 패턴
      • 푸시 풀 인덱서 패턴
      • 하이브리드 검색 랭킹 패턴
      • 카탈로그 접근 제어 패턴
    • 요약

  • 4장. 피처 저장소 서비스
    • 여정 지도
      • 사용 가능한 피처 찾기
      • 학습 세트 생성
      • 온라인 추론을 위한 피처 파이프라인
    • 피처화 시간 최소화
      • 피처 계산
      • 피처 제공
    • 요구 사항 정의
      • 피처 연산
      • 피처 제공
      • 비기능 요구 사항
    • 구현 패턴
      • 하이브리드 피처 연산 패턴
      • 피처 레지스트리 패턴
    • 요약

  • 5장. 데이터 이동 서비스
    • 여정 지도
      • 소스 간 데이터 집계
      • 원시 데이터를 전문 쿼리 엔진으로 이동
      • 처리된 데이터를 서빙 저장소로 이동
      • 소스 전반의 탐색적 분석
    • 데이터 가용성 확보 시간 최소화
      • 데이터 수집 구성 및 변경 관리
      • 규정 준수
      • 데이터 품질 검증
    • 요구 사항 정의
      • 수집 요구 사항
      • 변환 요구 사항
      • 규정 준수 요구 사항
      • 검증 요구 사항
      • 비기능적 요구 사항
    • 구현 패턴
      • 배치 수집 패턴
      • 변경 데이터 캡처 수집 패턴
      • 이벤트 집계 패턴
    • 요약

  • 6장. 클릭스트림 추적 서비스
    • 여정 지도
    • 클릭 시간 지표 최소화
      • 계측 관리
      • 이벤트 강화
      • 인사이트 쌓기
    • 요구 사항 정의
      • 계측 요구 사항 체크리스트
      • 보강 요구 사항 체크리스트
    • 구현 패턴
      • 계측 패턴
      • 규칙 기반 보강 패턴
      • 소비 패턴
    • 요약

  • 2부. 셀프서비스 데이터 준비
  • 7장. 데이터 레이크 관리 서비스
    • 여정 지도
      • 원시 수명주기 관리
      • 데이터 업데이트 관리
      • 배치 및 스트리밍 데이터 흐름 관리
    • 데이터 레이크 관리 시간 최소화
      • 요구 사항
    • 구현 패턴
      • 데이터 수명주기 기본 패턴
      • 트랜잭션 패턴
      • 고급 데이터 관리 패턴
    • 요약

  • 8장. 데이터 랭글링 서비스
    • 여정 지도
    • 랭글링 시간 최소화
      • 요구 사항 정의
      • 데이터 큐레이팅
      • 운영 모니터링
    • 요구 사항 정의
    • 구현 패턴
      • 탐색적 데이터 분석 패턴
      • 분석 변환 패턴
    • 요약

  • 9장. 데이터 권한 거버넌스 서비스
    • 여정 지도
      • 데이터 권한 요청 실행
      • 데이터 세트 발견
      • 모델 재학습
    • 규정 준수 시간 최소화
      • 고객 데이터 수명주기 추적
      • 고객 데이터 권한 요청 실행
      • 데이터 액세스 제한
    • 요구 사항 정의
      • 현재 고충 설문지
      • 상호 운용성 체크리스트
      • 기능 요구 사항
      • 비기능 요구 사항
    • 구현 패턴
      • 민감한 데이터 발견 및 분류 패턴
      • 데이터 레이크 삭제 패턴
      • 유스 케이스 기반 액세스 제어
    • 요약

  • 3부. 셀프서비스 구축
  • 10장. 데이터 가상화 서비스
    • 여정 지도
      • 데이터 소스 탐색
      • 처리 클러스터 선택
    • 쿼리 시간 최소화
      • 실행 환경 선택
      • 다중언어 쿼리 공식화
      • 사일로 간 데이터 결합
    • 요구 사항 정의
      • 현재 문제점 분석
      • 운영 요구 사항
      • 기능 요구 사항
      • 비기능 요구 사항
    • 구현 패턴
      • 자동 쿼리 라우팅 패턴
      • 통합 쿼리 패턴
      • 연합 쿼리 패턴
    • 요약

  • 11장. 데이터 변환 서비스
    • 여정 지도
      • 프로덕션 대시보드 및 ML 파이프라인
      • 데이터 기반 스토리텔링
    • 변환 시간 최소화
      • 변환 구현
      • 변환 실행
      • 변환 작업
    • 요구 사항 정의
      • 현재 상태 설문지
      • 기능 요구 사항
      • 비기능 요구 사항
    • 구현 패턴
      • 구현 패턴
      • 실행 패턴
    • 요약

  • 12장. 모델 학습 서비스
    • 여정 지도
      • 모델 프로토타이핑
      • 지속적 학습
      • 모델 디버깅
    • 학습 시간 최소화
      • 학습 오케스트레이션
      • 튜닝
      • 지속적 학습
    • 요구 사항 정의
      • 학습 오케스트레이션
      • 튜닝
      • 지속적 학습
      • 비기능 요구 사항
    • 구현 패턴
      • 분산 학습 오케스트레이터 패턴
      • 자동 튜닝 패턴
      • 데이터 인식 지속적 학습
    • 요약

  • 13장. 지속적 통합 서비스
    • 여정 지도
      • ML 파이프라인에서의 공동 작업
      • ETL 변경 사항 통합
      • 스키마 변경 검증
    • 통합 시간 최소화
      • 실험 추적
      • 재현 가능한 배포
      • 테스트 검증
    • 요구 사항 정의
      • 실험 추적 모듈
      • 파이프라인 패키징 모듈
      • 자동화 모듈 테스트
    • 구현 패턴
      • 프로그래밍 가능한 추적 패턴
      • 재현 가능한 프로젝트 패턴
    • 요약

  • 14장. A/B 테스트 서비스
    • 여정 지도
    • A/B 테스트 시간 최소화
      • 실험 설계
      • 대규모 실행
      • 실험 최적화
    • 구현 패턴
      • 실험 명세 패턴
      • 지표 정의 패턴
      • 자동화된 실험 최적화
    • 요약

  • 4부. 셀프서비스 운영화
  • 15장. 쿼리 최적화 서비스
    • 여정 지도
      • 클러스터 막힘 방지
      • 런타임 쿼리 문제 해결
      • 애플리케이션 속도 향상
    • 최적화 시간 최소화
      • 통계 집계
      • 통계 분석
      • 작업 최적화
    • 요구 사항 정의
      • 현재 고충 설문지
      • 상호 운용 요구 사항
      • 기능 요구 사항
      • 비기능적 요구 사항
    • 구현 패턴
      • 회피 패턴
      • 운영 인사이트 패턴
      • 자동화된 튜닝 패턴
    • 요약

  • 16장. 파이프라인 오케스트레이션 서비스
    • 여정 지도
      • 탐색 파이프라인 호출
      • SLA 기반 파이프라인 실행
    • 오케스트레이션 시간 최소화
      • 작업 종속성 정의
      • 분산 실행
      • 프로덕션 모니터링
    • 요구 사항 정의
      • 현재 불만 사항 설문지
      • 운영 요구 사항
      • 기능 요구 사항
      • 비기능 요구 사항
    • 구현 패턴
      • 종속성 저작 패턴
      • 오케스트레이션 관측 가능성 패턴
      • 분산 실행 패턴
    • 요약

  • 17장. 모델 배포 서비스
    • 여정 지도
      • 프로덕션에서 모델 배포
      • 모델 유지 관리 및 업그레이드
    • 배포 시간 최소화
      • 배포 오케스트레이션
      • 성능 확장
      • 드리프트 모니터링
    • 요구 사항 정의
      • 오케스트레이션
      • 모델 확장 및 성능
      • 드리프트 검증
      • 비기능 요구 사항
    • 구현 패턴
      • 범용 배포 패턴
      • 자동 확장 배포 패턴
      • 모델 드리프트 추적 패턴
    • 요약

  • 18장. 품질 관측 가능성 서비스
    • 여정 지도
      • 일일 데이터 품질 모니터링 보고서
      • 품질 문제 디버깅
      • 저품질 데이터 레코드 처리
    • 인사이트 품질 시간 최소화
      • 데이터의 정확성 확인
      • 품질 이상 탐지
      • 데이터 품질 문제 방지
    • 요구 사항 정의
      • 데이터 품질 문제 감지 및 처리
      • 기능 요구 사항
      • 비기능 요구 사항
    • 구현 패턴
      • 정확도 모델 패턴
      • 프로파일링 기반 이상 탐지 패턴
      • 방지 패턴
    • 요약

  • 19장. 비용 관리 서비스
    • 여정 지도
      • 비용 사용량 모니터링
      • 지속적인 비용 최적화
    • 비용 최적화 시간 최소화
      • 비용 관측 가능성
      • 수요 공급 매칭
      • 지속적 비용 최적화
    • 요구 사항 정의
      • 애로 사항 설문지
      • 기능 요구 사항
      • 비기능 요구 사항
    • 구현 패턴
      • 지속적 비용 모니터링 패턴
      • 자동 확장 패턴
      • 비용 어드바이저 패턴

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안