빅데이터에서 천금의 기회를 캐라 [테라데이타 최고분석책임자가 들려주는 기업 빅데이터 활용 전략]
- 원서명Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics (ISBN 9781118208786 )
- 지은이빌 프랭크스
- 옮긴이전정순
- ISBN : 9788960775404
- 25,000원
- 2014년 03월 31일 펴냄 (절판)
- 페이퍼백 | 368쪽 | 188*235mm
- 시리즈 : 데이터 과학
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
요약
조직 내에 빅데이터를 활용하는 의사결정 문화를 뿌리내리고 싶은 사람들에게 테라데이타(Teradata)의 최고분석책임자인 빌 프랭크스(Bill Franks)가 들려주는 빅데이터 입문서. 빅데이터를 다루는 데 필요한 도구와 프로세스, 기법 등 기술적 측면과 빅데이터를 효과적으로 활용하는 데 필요한 사람과 조직구조, 혁신과 발견을 장려하는 조직 문화 등 조직적 측면을 균형 있게 서술한 책이다. 이 책을 통해 빅데이터 활용을 어떻게 시작해야 할지, 어디에 가장 중점을 두어야 할지, 피해야 할 함정이나 조직에서 부닥칠 문제는 무엇인지 등 실무적인 조언을 얻을 수 있다.
이 책에서 다루는 내용
■ 빅데이터는 무엇인가, 왜 중요한가, 빅데이터에서 얻을 수 있는 혜택은 무엇인가
■ 웹 데이터, 센서 데이터, 텍스트 데이터 등 비즈니스를 변화시킬 수 있는 10가지 빅데이터 소스
■ 빅데이터를 길들이는 데 필요한 기술, 프로세스, 기법
■ 분석 환경과 데이터 환경의 수렴
■ 그래픽 사용자 인터페이스, 분석 포인트 솔루션, 오픈소스 도구, 데이터 시각화 도구의 진화
■ 앙상블 기법, 범용 모델, 텍스트 분석 등의 최신 분석 접근법
■ 무엇이 훌륭한 분석, 훌륭한 분석 전문가, 훌륭한 분석팀을 만드는가
■ 분석 혁신 센터를 통해 분석 혁신을 활성화하는 방법
■ 조직 내에 혁신과 발견의 문화를 뿌리내리는 방법
이 책의 대상 독자
수년간 고급 분석에 대한 책이 무수히 쏟아져 나왔다. 최근에는 빅데이터에 대한 책도 눈에 띈다. 이 책은 다른 책과는 좀 다른 관점에서 접근을 시도한다. 주된 초점은 독자로 하여금 빅데이터가 과연 무엇인지, 분석을 통해 빅데이터를 어떻게 이용할 수 있는지 정보를 전달하며, 오늘날 빅데이터 환경에서 세계적인 수준의 고급 분석 생태계를 조직하고 진화시키는 방법에 대한 방향성을 제시하고자 한다. 상당히 폭넓은 층의 독자들에게 유용하고 흥미로운 책이 될 거라 믿는다. 이 책을 손에 든 독자가 분석 전문가든, 분석가가 도출한 결과를 이용하는 현업 담당자든, 빅데이터와 고급 분석에 개인적으로 관심 있는 일반인이든, 무언가를 얻어갈 수 있을 것이다.
이 책은 기술적으로 깊이 파고들지는 않는다. 개념을 개략적으로 이해할 수 있는 정도로만 다룰 것이다. 어느 부분에 대해 더 알고 싶은지 확인하도록 도움을 주는 동시에 개념을 이해하고 적용할 수 있게 하는 것을 목표로 삼았다. 이 책은 교과서라기보다는 입문서로 개발자가 아닌 일반 독자들도 충분히 읽을 수 있게 구성했다. 한편 각 주제에 대한 배경 지식이 있는 독자라면 행간을 통해 기술적인 시사점을 더 깊이 이해할 수 있을 것이다.
이 책의 구성
이 책은 총 4부로 구성되어 있으며 각각 빅데이터의 거대한 물결을 길들이는 데 필요한 측면을 조망한다. 1부에서는 빅데이터가 무엇인지, 왜 중요한지, 어떻게 활용할 수 있는지를 다룬다. 2부에서는 빅데이터를 성공적으로 분석하고 활용하는 데 필요한 도구, 기술, 기법을 다룬다. 3부에서는 효과적인 분석에 필요한 원칙 및 사람과 조직구조에 대해 이야기한다. 4부에서는 모든 개념을 총망라하며 분석혁신센터와 새로운 조직 문화를 통해 혁신적인 분석을 활성화하는 방법을 모색한다. 각 부와 장의 내용을 좀 더 자세히 소개하면 다음과 같다.
1부: 빅데이터가 온다
1부에서는 빅데이터가 무엇인지, 왜 중요한지, 빅데이터 분석으로 얻을 수 있는 혜택은 무엇인지 다룬다. 총 10가지 빅데이터 소스를 짚어보며 비즈니스 향상에 어떻게 활용할 수 있는지를 살펴본다. 빅데이터가 무엇인지 또는 빅데이터를 얼마나 광범위하게 활용할 수 있는지 아직 이해가 부족한 독자라면 1부에서 확실한 개념을 짚고 넘어가자.
1장: 빅데이터란 무엇인가 그리고 왜 중요한가?
1장에서는 먼저 빅데이터를 둘러싼 몇 가지 배경과 빅데이터가 과연 무엇인지 알아본다. 조직에서 빅데이터를 활용할 수 있는 몇 가지 방안도 제시할 것이다. 조직에서 빅데이터 물결을 성공적으로 길들이는 데 기여하고 싶은 독자라면 이 책의 어떤 장 못지않게 1장의 내용을 잘 이해할 필요가 있다.
2장: 웹 데이터, 최초의 빅데이터
오늘날 빅데이터 소스 중에서 가장 광범위하게 이용되고 잘 알려진 소스는 아마도 웹 사이트에서 수집한 세부 데이터일 것이다. 사용자가 웹을 탐색하는 동안에 생성되는 로그 파일은 분석의 손길을 기다리는 정보의 보고(寶庫)다. 다양한 산업에 속한 많은 조직에서 웹 사이트로부터 추출한 세부 고객별 데이터를 전사 분석 환경으로 통합했다. 2장에서는 웹 데이터가 어떤 식으로 다양한 비즈니스 의사결정을 향상시키고 변화시키는지 들여다본다.
3장: 다양한 빅데이터 소스와 내재된 가치
본 장에서는 9가지 빅데이터 소스를 개략적으로 훑어본다. 각 데이터 소스를 소개하면서 비즈니스에 접목할 수 있는 활용 분야와 시사점을 살펴보고자 한다. 한 가지 두드러지는 추세는 같은 기반 기술로부터 업종에 따라 다른 빅데이터 소스가 파생되는 현상이다. 또한, 다른 업종에서 같은 빅데이터 소스를 활용하는 현상도 있다. 빅데이터는 써먹을 데가 한정된, 한 가지 재주밖에 못 부리는 조랑말이 아닌 만능 엔터테이너다.
2부: 빅데이터를 길들이는 기술, 프로세스, 기법
2부에서는 빅데이터를 길들이는 데 필요한 기술, 프로세스, 기법을 다룬다. 그동안 상당한 기술진보로 말미암아 세 분야 모두 확장성이 커졌다. 조직에서는 시대에 뒤떨어진 접근법을 붙들고 빅데이터 시대에 경쟁력을 유지할 수 있으리라 기대해서는 안 된다. 2부는 이 책에서 가장 기술적인 내용이긴 하지만, 일반 독자들도 충분히 이해할 만한 수준으로 기술했다. 이 부분을 읽고 나면 빅데이터 분석의 세상으로 들어가면서 맞닥뜨릴 여러 개념이 친숙하게 다가올 것이다.
4장: 분석 확장성의 진화
데이터는 당시에 최대한의 확장성을 지닌 시스템도 한계에 다다르게 할 정도로 빠른 속도로 팽창을 거듭했다. 고급 분석을 수행하는 전통적인 방식은 빅데이터 앞에서 이미 한계를 드러내고 있다. 이제 전통적인 접근법은 통하지 않을 것이다. 4장에서는 분석 환경과 데이터 환경의 수렴, 초병렬처리(MPP) 아키텍처, 클라우드 컴퓨팅, 그리드 컴퓨팅, 맵리듀스에 대해 논한다. 이들 패러다임은 좀 더 큰 확장성을 가능하게 하며 빅데이터 분석에서 제 몫을 할 것이다.
5장: 분석 프로세스의 진화
확장성이 크게 높아짐에 따라 확장성을 충분히 이용할 수 있도록 분석 프로세스를 업데이트할 필요성이 대두되었다. 5장에서는 가장 먼저 분석 전문가가 고급 분석 프로세스를 개발하는 데 활용할 수 있는 확장성 있는 환경을 제공해주는 분석 샌드박스의 용도에 대해 살펴본다. 그런 다음 분석 데이터를 생성할 때 전사 분석 데이터 집합이 어떻게 생산성과 일관성은 높이면서 위험은 낮추는지 다룬다. 마지막으로 임베디드 스코어링 프로세스를 통해 고급 분석 프로세스의 산출물을 어떻게 다른 사용자와 애플리케이션에 배포하고 널리 쓰이게 하는지 알아보며 끝을 맺는다.
6장: 분석 도구와 기법의 진화
6장에서는 고급 분석 도구가 어떻게 진화해왔는지, 그러한 발전이 분석 전문가가 일하는 방식과 빅데이터를 다루는 방식을 앞으로 어떻게 변화시켜 갈 것인지 살펴본다. 구체적으로는 포인트 앤 클릭 인터페이스, 분석 포인트 솔루션, 오픈 소스 도구, 데이터 시각화 도구의 발전을 다룬다. 또한, 분석 전문가가 그러한 발전을 적극 활용하기 위해 모델을 개발하는 접근법을 어떻게 변화시킬 것인지도 다룬다. 구체적으로는 앙상블 기법, 범용 모델, 텍스트 분석을 다룬다.
3부: 빅데이터를 길들이는 사람과 접근법
3부에서는 분석 결과를 이끌어내는 사람, 그들이 속한 팀, 훌륭한 분석을 도출하기 위해 사용하는 접근법을 다룬다. 빅데이터 분석을 포함한 모든 분석 작업에서 가장 중요한 요인은 적합한 분석 원칙을 따르는 적합한 인재를 운전석에 앉혀야 한다는 점이다. 3부를 읽은 후에는 무엇이 훌륭한 분석, 훌륭한 분석 전문가, 훌륭한 분석팀을 특징짓는지 잘 이해하게 될 것이다.
7장: 무엇이 훌륭한 분석을 만드는가?
통계를 돌리고, 리포트를 작성하고, 모델링 알고리즘을 적용하는 것은 모두 훌륭한 분석에 필요한 첫 단추에 불과하다. 7장에서는 몇 가지 정의를 짚어보고 나서, 훌륭한 분석과 연관된 여러 주제를 다룰 것이다. 조직에서 기존에 다뤄왔던 것보다 훨씬 더 복잡성을 지니는 빅데이터이기에 이 장에서 말하는 원칙을 새기는 일은 그 어느 때보다 훨씬 중요하다.
8장: 무엇이 훌륭한 분석 전문가를 만드는가?
수학, 통계학, 프로그래밍 실력은 훌륭한 분석 전문가에게 필요한 자질이긴 하지만, 충분조건은 아니다. 훌륭한 분석 전문가는 사람들이 언뜻 생각하지 못하는 자질도 갖고 있다. 책임감, 창의성, 비즈니스 감각, 발표력, 직관력이 여기에 속한다. 8장에서는 훌륭한 분석 전문가를 정의하는 데 각각의 자질이 왜 중요한지, 왜 간과해서는 안 되는지 살펴본다.
9장: 무엇이 훌륭한 분석 팀을 만드는가?
조직에서는 최적의 효과를 위해 고급 분석 팀을 어떻게 구성하고 유지해야 하는가? 분석 팀은 조직도의 어느 위치에 가장 적합한가? 어떻게 운영해야 하는가? 누가 고급 분석을 해야 하는가? 9장에서는 훌륭한 분석 팀을 만들기 위해 고려해야 할 몇 가지 공통적인 사안과 원칙에 대해 살펴본다.
4부: 분석 문화를 뿌리내려라
4부에서는 고급 분석과 빅데이터를 통해 성공적으로 혁신을 추구하고 싶은 조직에서 반드시 도입해야 하는, 잘 알려진 기본 원칙들을 되새겨본다. 이 원칙들은 다른 분야에도 두루 통용되지만, 오늘날 기업 환경에서 고급 분석에 접목할 수 있는 관점을 제시하고자 한다. 여기서 다루는 개념들은 낯설지 않겠지만, 고급 분석과 빅데이터 영역에 적용하는 방식은 아마 낯설 것이다.
10장: 분석 혁신을 활성화하라
10장에서는 가장 먼저 성공적인 혁신에 숨은 몇 가지 기본 원칙을 살펴본다. 그런 다음 그 원칙을 분석혁신센터라는 개념을 통해 빅데이터와 고급 분석 분야에 적용한다. 조직 내부에서 분석 혁신을 추진하고 빅데이터를 잘 길들일 수 있는 실질적인 방안을 제시하고자 한다.
11장: 혁신과 발견의 문화를 창조하라
11장에서는 혁신과 발견의 문화를 창조할 수 있는 몇 가지 방안을 제시하면서 책을 마무리하고자 한다. 재미있고 가볍게 읽을 수 있게 구성했으며, 무엇이 혁신적인 분석이 나올 수 있는 문화를 창조할 수 있을지에 관해 생각할 거리를 던진다. 대부분은 잘 알려진 내용이지만, 다시 한 번 음미해보고 검증된 원칙들을 빅데이터와 고급 분석에 어떻게 접목할 수 있을지 고민해볼 만한 가치가 충분하다.
이 책에 쏟아진 각계의 찬사
이 책은 빅데이터가 비즈니스에 가져다 줄 기회를 적극 활용하고 싶은 경영자들을 위한 책이다. 빅데이터를 둘러싼 복잡한 쟁점에 대해 전문 지식이 없는 독자도 흥미를 느낄 수 있도록 조곤조곤 설명해주는 투로 이야기를 풀어나간다. 빌 프랭크스는 핵심 성공 요인에 대해 거듭 강조한다. 기업은 빅데이터 분석을 통해 어떻게 비즈니스를 향상시킬 수 있는가? 빅데이터의 거대한 물결이 여러분의 비즈니스를 금방이라도 덮쳐올 태세라면 이 책을 추천한다.
-리처드 해커손(Richard Hackathorn) / 볼더 테크놀로지 회장
빅데이터 이니셔티브는 조직적으로 매우 빠르게 태동했다. 그러한 상황에서는 큰 그림을 놓치기가 쉽다. 이 책은 한 걸음 물러서서 각 조각이 어떻게 전체를 이루는지 보여주면서 분석 기술에서부터 조직에 이르는 다양한 측면을 다루고 있다. 빌 프랭크스는 굉장히 실용적인 시각으로 빅데이터를 바라본다. ‘일단 저지르자’와 ‘진행 과정에서 가치를 증명하라’와 같은 구호는 성공적인 빅데이터 조직의 정신을 잘 드러내고 있다.
-에릭 콜슨(Eric Colson) / 넷플릭스 데이터 과학/공학 팀 임원
빌 프랭크스는 업계에 몸담은 사람으로서 가감 없는 화법으로 빅데이터에 숨겨진 기회를 선점하려는 사람들에게 더없이 귀중한 길잡이를 선사한다.
-손튼 메이(Thornton May) / 미래학자 겸 IT 리더십 아카데미 전무이사
이 책은 핵심을 정확히 짚어냈다. 빅데이터 관리보다는 주로 빅데이터에 대한 효과적인 분석을 논한다. 데이터에서 출발해 어떻게 의사결정을 프레이밍하고, 어떻게 분석 혁신 센터를 구축하고, 어떻게 분석 문화를 뿌리내릴 수 있는지까지 논의를 이어간다. 빅데이터 관리 측면에서 꼭 알아두어야 할 내용은 빠뜨리지 않았지만 주를 이루는 내용은 데이터를 이용해 분석 이니셔티브를 개발하고 조직하고 인력을 구성하고 시행하는 방법이다.
- 토머스 데이븐포트(Thomas H. Davenport)의 추천사 중 / 밥슨대학 정보기술경영학과장이자 국제분석연구소의 공동 창업자 겸 연구소장
이 책은 빅데이터가 무엇인지 이해하고 고급 분석 프로세스와 기법을 동원해 이를 활용하고 싶은 사람들에게 필요한 모든 지식을 집대성한 입문서다. 빌 프랭크스는 경쟁 우위를 확보하기 위해 분석 생태계를 어떻게 조성해야 할지 훤히 꿰뚫고 있다.
-스튜어트 에이킨(Stuart Aitken) / 던험비 미국 CEO
이 책에서 빌 프랭크스는 빅데이터와 기업을 덮치고 있는 이 새로운 데이터의 물결 속에서 가치를 발굴하게 해줄 다양한 분석의 종류를 소개하는 일을 아주 훌륭하게 해냈다. 쉽게 읽을 수 있는 구성과 각 장 끝의 친절한 요점정리를 통해 결코 가볍지 않으면서도 기술적인 용어를 배제하는 데 성공했다. 저자는 이 탁월한 입문서를 통해 분석 혁신을 해야 하는 이유와 지금 당장 시작해야 하는 이유를 힘주어 말한다.
-제임스 테일러(James Taylor) / 디시전 매니지먼트 솔루션 CEO 겸 『의사결정 관리 시스템: 업무 규칙과 예측 분석을 이용하는 방법에 대한 실용 가이드(Decision Management Systems: A Practical guide to Using Business Rules and Predictive Analytics)』의 저자
다양한 산업 영역에서 빅데이터가 왜 비즈니스 가치를 제공하고 있는지 궁금한 적이 있다면 이 책 속에서 기술 측면에서 데이터 과학에 이르기까지, 또 비즈니스 사용자 및 프로세스에 이르기까지 다양한 관점에서의 식견과 해답을 구할 수 있다. 나 자신의 업이 분석학에 대해 연구하고 강의하는 것인데도 이렇게 IT 담당자와 현업 담당자에게 필요한 지식을 간명하게 한데 묶은 책은 처음 본다. 직업상 빅데이터와 관련 있는 일을 하는 모든 이에게 이 책을 추천한다.
-디에고 클랍잔(Diego Klabjan) / 노스웨스턴대학 분석학 석사 과정 디렉터
빌 프랭크스는 복잡하기 그지없는 주제를 흥미롭게 풀어내는 솜씨가 있다. 현업 종사자와 초보자에게 똑같이 이로운 통찰력은 이 책을 분석 분야에 입문한 사람이나 훌륭한 리더에게 한 수 배우고 싶은 모든 업계 종사자를 위한 필독서의 반열에 올려놓는다. 다양한 산업과 다양한 빅데이터 응용 사례를 넘나드는 저자의 식견을 볼 때 새롭게 출현한 빅데이터 분야에 대한 선구자격인 이 책을 저술하는 데 그보다 꼭 맞는 적임자는 없을 듯하다.
-리처드 말츠바거(Richard Maltsbarger) / 로우스 社의 전략 담당 임원
추천의 글
좋든 싫든 방대한 데이터는 이제 거스를 수 없는 물결로 다가오고 있다. 이미 우리 곁에 와있는지도 모른다. 이미 데이터와의 씨름을 시작한 사람도 있을 것이다. 데이터를 저장하거나, 실수와 결함에 대처하거나, 구조화된 범주로 분류할 방법을 찾느라고 말이다. 이제 방대한 데이터 집합을 분석해 고객과 비즈니스, 조직이 처한 환경에 대한 더 많은 지식을 습득함으로써 실제로 가치를 발굴할 수 있는 세상이 되었다. 혹 이 수준까지 도달하지는 못했더라도 데이터 관리라는 고생의 터널 끝에 희망의 빛만은 보일 것이다.
어느 쪽이든 여러분은 제대로 된 책을 집어 들었다. 저자 빌 프랭크스의 말대로 조만간 데이터는 물론이요, 빅데이터를 다룬 책도 홍수처럼 쏟아질 것이다. 나는 이 책이 다른 책들과 다를 거라고 (분석 기술을 동원하진 않고) 예상한다. 우선 이 책은 빅데이터 분야에서 선구자 격인 책이다. 하지만 더욱 중요한 것은 내용의 초점이 다르다는 점이다.
이 방면의 책들은 빅데이터를 데이터베이스 또는 데이터 웨어하우스에 저장하는 방법, 비정형 데이터를 정형화하고 분류하는 방법 등 빅데이터 관리 측면을 주로 다룬다. 하둡이나 맵리듀스, 데이터 웨어하우징에 대한 다양한 접근법을 다룬 책을 많이 읽었다면 우연찮게 ’빅데이터 관리’를 주제로 한 책을 접했든가, 아니면 일부러 선택한 것이겠다.
물론 빅데이터 관리는 매우 중요하다. 어떤 품질의 데이터가 얼마나 많이 있든 간에 접근하고 분석할 수 있는 환경에, 접근하고 분석할 수 있는 형태로 저장할 수 없다면 아무 소용이 없을 테다.
하지만 그것만으로는 부족하다. 규모와 관계없이 데이터를 유용하게 만들기 위해서는 빅데이터를 분석하고 활용해야 한다. 전통적인 데이터베이스 관리 도구가 전통적인 시스템에 저장된 트랜잭션 데이터를 알아서 척척 분석하지는 못했듯, 하둡과 맵리듀스 역시 웹 사이트, 유전자 지도 작성, 이미지 분석 및 기타 빅데이터 소스에 숨은 의미를 알아서 척척 해석할 리는 만무하다. 빅데이터 시대 이전에도 많은 조직에서 수년간 (심지어는 수십 년간) 데이터 관리에 매달려 왔지만, 더 나은 분석과 의사결정이라는 형태로 실질적인 가치를 뽑아내지는 못했다.
나는 이 책이 핵심을 정확히 짚어냈다고 본다. 이 책은 빅데이터 관리보다는 주로 빅데이터에 대한 효과적인 분석을 논한다. 데이터를 기반으로 어떻게 의사결정을 프레이밍하고, 어떻게 분석혁신센터를 구축하고, 어떻게 분석 문화를 뿌리내릴 수 있는지까지 논의를 이어간다. 그렇다고 꼭 알아두어야 할 빅데이터 관리에 대한 내용이 빠져 있다는 뜻은 아니다. 하지만 주를 이루는 내용은 데이터를 이용해서 분석 이니셔티브를 개발하고 조직하고 인력을 구성하고 시행하는 방법이다.
노파심에 한 마디 덧붙이자면, 분석은 오늘날 비즈니스 업계에서 매우 뜨거운 관심을 모으고 있는 주제다. 나는 기업들이 어떻게 분석으로 경쟁하는가를 중심으로 연구 활동을 해왔으며, 내가 저술한 모든 분야 중에서도 특히 이 분야에 대한 내 저서와 기고문이 가장 큰 각광을 받았다. 분석을 주제로 한 학술회의는 세계 곳곳에서 열리고 있다. 액센츄어, 딜로이트, IBM 같은 대형 컨설팅 회사들은 이 분야에 역량을 집중하고 있다. 더불어 기업과 공공기관은 물론 비영리단체까지도 분석을 전략적 우선순위로 삼고 있다. 이제 빅데이터를 향한 사람들의 관심은 뜨거워졌지만, 주된 관심사는 여전히 어떻게 빅데이터를 분석할 수 있는 형태로 수집해서 의사결정과 실행 전략을 바꾸느냐에 맞춰져야 한다.
빌 프랭크스는 빅데이터와 분석의 교집합을 논할 수 있는 독보적인 인물이다. 그가 몸담은 회사인 테라데이타(Teradata)는 데이터 웨어하우스/데이터 어플라이언스 관련 업계 내에서도 특히 실질적으로 데이터를 분석하고 그 속에서 비즈니스 가치를 발굴하는 일에 주력해온 기업이다. 그리고 테라데이타는 전사 데이터 웨어하우스로 가장 명성이 높긴 하지만, 오랫동안 다양한 분석 애플리케이션을 제공해왔다.
지난 몇 년간 테라데이타는 대용량 데이터베이스를 분석할 수 있는 확장성 높은 도구를 개발하기 위해 선도적인 분석 소프트웨어 회사인 SAS와 손을 잡았다. 이 도구들은 주로 데이터 웨어하우스 환경 내부에서 분석을 실행하며, 실시간 사기 적발이나 고객 구매 성향 스코어링 같은 대용량 분석 애플리케이션을 지원한다. 빌 프랭크스는 최고분석책임자(CAO)로서 운영 수준의 분석과 ‘인-데이터베이스 프로세싱’에 대한 풍부한 전문 지식을 접해왔다. 이 주제에 대해 빌 프랭크스보다 더 해박한 사람을 찾기는 결코 쉽지 않을 거라고 생각한다.
그 외 이 책에서 다루는 특히 흥미롭고 중요한 내용은 다음과 같다.
1장에서는 빅데이터의 개념을 소개하고 “규모가 항상 중요한 것만은 아니다.”라는 말이 무슨 의미인지 설명한다. 나아가 책의 전반에 걸쳐 저자는 빅데이터의 상당 부분은 전혀 쓸모가 없으며 쓰레기 데이터를 걸러내는 작업이 중요함을 역설한다.
3장에서 소개하고 있는 다양한 빅데이터 소스는 참신하고 유용한 목록으로 대단히 꼼꼼하게 기술되어 있다. 더불어 2장에 나오는 웹 데이터와 웹 분석에 대한 논의는 고객의 웹 행동을 이해하고 싶은 모든 개인 또는 조직에 더없이 유용한 내용이다. 웹 분석에 대한, 리포팅 중심의 시각을 한 차원 넘어선 통찰력이 돋보인다.
‘분석 확장성의 진화’를 주제로 한 4장에서는 빅데이터 및 분석을 위한 기술 플랫폼에 대한 정보를 다룬다. 나는 이 정보를 독자들이 다른 어떤 곳에서도 쉽게 찾을 수 없으리라 믿는다. 더불어 맵리듀스와 같은 최신 기술을 균형 잡힌 시각에서 조망하며, 빅데이터 분석이 여러 환경의 조합을 필요로 할 거라는 점도 설득력 있게 주장한다.
이 책은 역시 다른 데서는 찾아볼 수 없는, 분석 데이터 환경을 만들고 관리하는 방법에 대한 최신 정보를 담고 있다. ‘분석 샌드박스’와 ‘전사 분석 데이터 집합(나로서는 처음 들어본 용어였지만, 지금은 각각이 무엇인지, 왜 중요한지 알게 되었다)’에 관한 최신 정보를 원한다면 5장을 읽어보기 바란다. 5장에는 모델 및 점수 관리 시스템과 프로세스의 필요성에 대한 중요한 제언도 포함되어 있다.
6장은 오픈 소스 패키지 R을 비롯한 오늘날 이용 가능한 다양한 분석 소프트웨어 도구에 대한 유익한 정보를 담고 있다. 다양한 분석 환경의 강점과 약점에 대해 상식 수준에서 정리된 내용을 찾기는 굉장히 어려운데, 바로 이 책의 6장에서 찾아볼 수 있다. 또한, 앙상블 기법이나 범용 분석 기법에 관한 내용은 나 같은 비전문가도 이해할 수 있을 정도로 아주 쉽게 기술하고 있다.
3부에서는 기술적인 주제를 떠나 분석에서 사람과 조직 구성의 측면을 관리하는 데 필요한 조언으로 이어진다. 이 부분에서 다시 한 번 저자의 탁월한 시각이 돋보인다. 나는 특히 7장에서 의사결정과 문제에 대한 프레이밍의 중요성을 강조한 부분을 높게 평가한다. 너무나 많은 분석가들이 문제가 어떻게 프레이밍되었는지 큰 그림을 생각하지 않은 채 무작정 분석에 뛰어드는 경향이 있기 때문이다.
최근에 내가 직접 쓴 저서 외에 분석 문화에 관해 기술한 다른 책이 있느냐는 질문을 받은 적이 있다. 내가 아는 바로는 없다고 대답했지만, 그때는 이 책의 4부를 읽기 전이었다. 4부에서 저자는 분석 문화와 혁신 문화를 아주 참신하면서도 내가 좋아하는 방식으로 묶어 설명하고 있다.
이 책은 기술적인 주제를 다루긴 하지만, 명쾌하고 자세한 설명이 곁들여져 있다. 그래서 기술적인 배경 지식이 부족한 일반인 등 다양한 독자층을 아우를 수 있는 책이다. 데이터 시각화 도구에 대한 빌 프랭크스의 조언은 이 책 전체를 통틀어 전하고자 하는 핵심 요지를 잘 드러낸다. “단순한 것이 최고다. 꼭 필요할 때만 화려하고 복잡하게 만들어라.”
만일 여러분의 조직에서 분석을 시행하려 한다면—또 마땅히 해야 하며— 이 책에서 제기한 여러 가지 쟁점들을 검토해야 할 것이다. 혹여 여러분이 개발자가 아니더라도 조직의 분석 역량을 구축하는 데 필요한 몇 가지 개념은 알아둘 필요가 있다. 만일 여러분이 개발자라면 분석에서 사람이 차지하는 역할이 얼마나 중요한지 배울 수 있을 것이다. 서점에서 책장을 펼쳤든, 웹 사이트에서 ‘본문 미리보기’를 열었든, 지금 이 글을 읽고 있다면 주저하지 말고 이 책을 구입하기 바란다. 벌써 구입했다면 어서 탐독에 흠뻑 취하시라!
-토머스 데이븐포트(Thomas H. Davenport) / 밥슨대학 정보기술경영학과장 겸 국제분석연구소 공동 창업자 겸 연구소장
목차
목차
- 1부 빅데이터가 온다
- 1장 빅데이터란 무엇인가, 그리고 왜 중요한가
- 빅데이터란 무엇인가
- ‘빅’과 ‘데이터’ 중 어느 것이 더 중요할까
- 빅데이터는 어떻게 다른가
- 빅데이터는 첫인상만큼 새롭지만은 않다
- 빅데이터의 위험 요인
- 빅데이터를 길들여야 하는 이유
- 빅데이터의 구조
- 빅데이터 탐색
- 대부분의 빅데이터는 쓸모가 없다
- 효과적인 빅데이터 필터링
- 빅데이터와 기존 데이터의 통합
- 표준화의 필요성
- 오늘의 빅데이터가 내일의 빅데이터는 아니다
- 기억해두기
- 2장 웹 데이터: 최초의 빅데이터
- 웹 데이터란 무엇인가
- 웹 데이터가 말해주는 것
- 웹 데이터를 활용하는 방법
- 기억해두기
- 3장 다양한 빅데이터 소스와 내재된 가치
- 자동차 보험: 텔레매틱스 데이터의 가치
- 여러 가지 산업: 텍스트 데이터의 가치
- 여러 가지 산업: 시간 및 위치 데이터의 가치
- 소매 및 제조업: 전자태그 데이터의 가치
- 전력: 스마트 그리드 데이터의 가치
- 도박: 카지노칩 추적 데이터의 가치
- 산업용 엔진 및 장비: 센서 데이터의 가치
- 비디오게임: 텔레메트리 데이터의 가치
- 통신 및 기타 분야: 소셜 네트워크 데이터의 가치
- 기억해두기
- 1장 빅데이터란 무엇인가, 그리고 왜 중요한가
- 2부 빅데이터를 길들이는 기술, 프로세스, 기법
- 4장 분석 확장성의 진화
- 확장성의 역사
- 분석 환경과 데이터 환경의 수렴
- 대용량 병렬처리 시스템
- 클라우드 컴퓨팅
- 그리드 컴퓨팅
- 맵리듀스
- 양자택일이 아니다!
- 기억해두기
- 5장 분석 프로세스의 진화
- 분석 샌드박스
- 분석 데이터 집합이란 무엇인가
- 전사 분석 데이터 집합
- 임베디드 스코어링
- 기억해두기
- 6장 분석 도구와 기법의 진화
- 분석 기법의 진화
- 분석 도구의 진화
- 기억해두기
- 4장 분석 확장성의 진화
- 3부 빅데이터를 길들이는 사람과 접근법
- 7장 무엇이 훌륭한 분석을 만드는가
- 분석 vs 리포팅
- 분석을 G.R.E.A.T.하게 만들자!
- 일반 분석 vs 고급 분석
- 분석에 귀 기울여라
- 문제를 정확하게 프레이밍하라
- 통계적 유의성 vs 비즈니스 중요성
- 표본 vs 모집단
- 추론 vs 통계
- 기억해두기
- 8장 무엇이 훌륭한 분석 전문가를 만드는가
- 분석 전문가는 누구인가
- 분석 전문가에 관한 잘못된 상식
- 훌륭한 분석 전문가는 모두 예외적이다
- 흔히 과소평가되는 훌륭한 분석 전문가의 자질
- 자격증은 꼭 필요한가, 군더더기인가
- 기억해두기
- 9장 무엇이 훌륭한 분석 팀을 만드는가
- 모든 산업은 태생이 다르다
- 일단 저지르자!
- 인재 전쟁이 몰려 온다
- 팀 구조의 종류
- 팀의 역량을 키우자
- 누가 고급 분석을 해야 하는가
- IT 전문가와 분석 전문가는 왜 앙숙인가
- 기억해두기
- 7장 무엇이 훌륭한 분석을 만드는가
- 4부 분석 문화를 뿌리내려라
- 10장 분석 혁신을 활성화하라
- 비즈니스에는 혁신이 필요하다
- 전통적인 접근법은 혁신을 가로막는다
- 분석 혁신이란 무엇인가
- 분석 혁신을 실현하는 반복적 접근법
- 발상의 전환이 필요하다
- 분석 혁신 센터를 세울 준비가 되었는가
- 기억해두기
- 11장 혁신과 발견의 문화를 창조하라
- 무대를 펼쳐라
- 혁신의 기본 원칙
- 10장 분석 혁신을 활성화하라