책 소개
요약
최근 인공지능을 활용한 데이터 분석을 통해 뛰어난 성과를 거두고 있는 기업이 늘고 있다. 이런 성과를 위해 제일 중요한 것은 기업의 데이터를 모아 놓는 것이다. 하지만 오늘날처럼 방대한 양의 데이터가 매일 생성되는 환경에서 기존 방식대로 데이터를 저장하기는 불가능하다. 이 책은 기업의 데이터를 모으고 데이터의 활용을 통해 성과를 달성할 수 있는 방법을 제시한다.
추천의 글
알렉스는 데이터 업계의 선구자다. 그는 데이터 주도 기업으로의 전환 때 고려해야 할 기술 요소, 그런 전환을 전사적으로 구현하는 방법과 전환이 비즈니스에 어떤 영향을 주는지에 관해 실질적인 인사이트를 주고자 구체적으로 집필했다. 이 책은 데이터를 성공적으로 사용하고자 하는 모든 비즈니스와 기술 전문가를 위한 책이다.
- 케이어 데사이(Keyur Desai), TD 에머리트레이드(TD Ameritrade) 최고 데이터 책임자(Chief Data Officer)
결정 및 분석 주도 솔루션의 장점을 활용하는 데 데이터 레이크는 필수다. 이 책은 데이터 레이크의 아키텍처와 장점, 데이터 레이크를 도입할 때의 어려움과 그런 어려움을 극복하는 방법을 훌륭하게 설명한다.
- 자리 코이스터(Jari Koister), FICO 제품 및 기술 부사장(VP of Product and Technology) 겸 캘리포니아 UC 버클리 대학교(UC Berkeley, California) 데이터 과학 프로그램 교수
업계에서 사용하는 용어 중 가장 헷갈리는 용어 중 하나가 빅데이터다. 이 책은 여러 요소를 쉽고 이해할 수 있는 용어로 나누고, 프로젝트별로 가장 좋은 접근 방법을 설명한다. 특히 데이터 스트림(data streams), 데이터 연못(data ponds), 데이터 레이크(data lake) 간의 관계를 설명한 절이 도움이 됐다. 이 책은 현재의 분석 방법을 이해하고 배우고자 하는 모든 경영층이 반드시 읽어야 할 도서다.
- 오핀더 바와(Opinder Bawa), 샌프란시스코 대학교(University of San Francisco) 부사장 겸 최고 정보 책임자(Chief Information Officer)
데이터 레이크 팀을 맡아 팀과 대화하고 그들을 이해하기 위해 관련 도구와 용어를 배워야 하는 관리자에게 이 책을 알려주고 싶다. 자신의 팀을 이끌어갈 방향을 결정하는 데 좋은 아이디어를 얻을 수 있을 것이다. 데이터 레이크를 새로 만들든, 기존 것을 이어 받았든 이 책은 좋은 출발선이 될 것이다.
- 니콜 슈워츠(Nicole Schwartz), 애자일 및 기술 제품 관리 컨설턴트(Agile and Technical Product Management consultant)
이 책에서 다루는 내용
■ 데이터 웨어하우스, 빅데이터, 데이터 과학 소개
■ 다양한 기업의 데이터 레이크 구축 방법
■ 셀프 서비스 모델 구축 방법과 데이터 제공 모범 사례 탐색
■ 다양한 데이터 레이크 설계 방법 적용
■ 다양한 분야의 전문가의 데이터 레이크 구현 방법
이 책의 대상 독자
■ 데이터 서비스 및 관리 팀: 최고 데이터 책임자, 데이터 관리자
■ IT 경영진 및 아키텍트: 최고 기술 책임자, 빅데이터 아키텍트
■ 분석 팀: 데이터 과학자, 데이터 엔지니어, 데이터 분석가, 분석 담당자
■ 감사 팀: 최고 정보 보안 책임자, 데이터 보호 책임자, 정보보안 분석가, 규정 준수 담당자
이 책은 첨단 데이터 기술을 개발하면서 세계적인 기업들이 겪는 가장 어려운 데이터 문제를 해결하는 과정에서 얻은 30년간의 경험을 바탕으로 저술했다. 실무자와 업계 전문가들의 논문과 성공 사례로 알 수 있는 세계적인 기업들의 모범 사례를 바탕으로 성공적인 빅데이터 레이크를 설계하고 배포하는 포괄적인 지침을 제공한다. 이처럼 매력적인 신규 빅데이터 기술과 접근 방식이 기업에 어떤 효과를 제공하는지 궁금하다면 이 책이 좋은 출발점이 될 수 있다. 관리자라면 이 책을 한 번 전체적으로 읽고 나서 실무 중에 빅데이터 관련 의문이 생길 때마다 주기적으로 다시 살펴보는 것을 추천한다. 실무자에게는 빅데이터 레이크 프로젝트를 계획하거나 실행할 때 활용할 수 있는 지침이 된다.
목차
목차
- 1장. 데이터 레이크 소개
- 데이터 레이크 성숙도
- 데이터 웅덩이
- 데이터 연못
- 성공적인 데이터 레이크 구축
- 올바른 플랫폼
- 올바른 데이터
- 올바른 인터페이스
- 데이터 늪
- 성공적인 데이터 레이크 로드맵
- 데이터 레이크 구축
- 데이터 레이크 구조화
- 셀프서비스를 위한 데이터 레이크 설정
- 데이터 레이크 아키텍처
- 상용 클라우드 데이터 레이크
- 논리 데이터 레이크
- 결론
- 데이터 레이크 성숙도
- 2장. 역사적 관점
- 셀프서비스 데이터 욕구: 데이터베이스의 탄생
- 반드시 해야 하는 분석: 데이터 웨어하우스의 탄생
- 데이터 웨어하우스 생태계
- 데이터 저장 및 쿼리
- 데이터 로딩: 데이터 통합 도구
- 데이터 정리와 관리
- 데이터 사용
- 결론
- 3장. 빅데이터와 데이터 과학 소개
- 하둡: 빅데이터로의 역사적인 움직임을 이끌어내다
- 하둡 파일 시스템
- 맵리듀스 잡에서 처리와 저장의 상호작용 방법
- 읽는 시점 스키마 적용
- 하둡 프로젝트
- 데이터 과학
- 당신의 분석 조직은 어디에 초점을 맞춰야 하는가?
- 머신러닝
- 설명 가능성
- 변화 관리
- 결론
- 하둡: 빅데이터로의 역사적인 움직임을 이끌어내다
- 4장. 데이터 레이크 시작
- 하둡은 무엇이고 왜 사용하는가
- 데이터 웅덩이 확산 방지
- 빅데이터 활용
- 데이터 과학 주도
- 전략 1: 기존 기능 가져오기
- 전략 2: 신규 프로젝트를 위한 데이터 레이크
- 전략 3: 일원화된 거버넌스 확립
- 자신에게 가장 맞는 전략은 무엇인가?
- 결론
- 5장. 데이터 연못/빅데이터 웨어하우스에서 데이터 레이크로
- 데이터 웨어하우스의 핵심 기능
- 분석용 차원 모델링
- 다양한 소스의 데이터 통합
- 느린 변경 차원을 통한 이력 보존
- 과거 데이터 저장소로 데이터 웨어하우스가 갖는 한계
- 데이터 연못으로
- 데이터 연못에 이력 보관
- 데이터 연못에 느린 변경 차원 구현
- 데이터 연못을 데이터 레이크로 키우기: 데이터 웨어하우스에 없는 데이터 가져오기
- 미가공 데이터
- 외부 데이터
- 사물 인터넷과 기타 스트리밍 데이터
- 실시간 데이터 레이크
- 람다 아키텍처
- 데이터 변환
- 목적 시스템
- 데이터 웨어하우스
- 운영 데이터 스토어
- 실시간 애플리케이션과 데이터 제품
- 결론
- 데이터 웨어하우스의 핵심 기능
- 6장. 셀프서비스용 최적화
- 셀프서비스의 시작
- 비즈니스 분석가
- 데이터 식별과 이해: 기업을 문서로 기록
- 신뢰 구축
- 프로비저닝
- 분석용 데이터 준비
- 데이터 레이크의 데이터 랭글링
- 하둡에서의 데이터 준비 과정
- 데이터 준비의 대표적인 사용 사례
- 분석 및 시각화
- 셀프서비스 비즈니스 지능의 신세계
- 새로운 분석 작업 공정
- 문지기에서 가게 주인으로
- 셀프서비스 거버넌스
- 결론
- 7장. 데이터 레이크 설계
- 데이터 레이크 구조화
- 진입 또는 미가공 영역
- 골드 영역
- 작업 영역
- 민감 영역
- 다중 데이터 레이크
- 여러 데이터 레이크를 유지할 때 장점
- 데이터 레이크를 하나로 합쳤을 때 장점
- 클라우드 데이터 레이크
- 가상 데이터 레이크
- 데이터 연방
- 빅데이터 시각화
- 중복 제거
- 결론
- 데이터 레이크 구조화
- 8장. 데이터 레이크 카탈로그화
- 데이터 정리
- 기술 메타데이터
- 비즈니스 메타데이터
- 태깅
- 자동 카탈로그 생성
- 논리 데이터 관리
- 민감 데이터 관리와 접근 제어
- 데이터 품질
- 이질적 데이터 연관 짓기
- 이력 수립
- 데이터 확보
- 카탈로그 구축 도구
- 도구 비교
- 데이터 오션
- 결론
- 데이터 정리
- 9장. 데이터 접근 관리
- 승인이나 접근 제어
- 태그 기반 데이터 접근 정책
- 민감 정보 비식별화
- 데이터 자주권과 규제 준수
- 셀프서비스 접근 관리
- 데이터 확보
- 결론
- 10장. 업계 적용
- 금융 서비스에서의 빅데이터
- 고객, 디지털화, 데이터는 우리가 아는 금융을 바꾸고 있다
- 은행을 구해라
- 새로운 데이터가 제공하는 새로운 기회
- 데이터 레이크 활용의 주요 과정
- 데이터 레이크가 금융 서비스에 제공하는 가치
- 보험 업계의 데이터 레이크
- 스마트 시티
- 의료에서의 빅데이터
- 금융 서비스에서의 빅데이터