Top

예측 분석 모델링 실무 기법 [R로 하는 빅데이터 분석 사례]

  • 원서명Modeling Techniques in Predictive Analytics (ISBN 9780133412932)
  • 지은이토마스 밀러(Thomas W. Miller)
  • 옮긴이정사범
  • ISBN : 9788960776470
  • 40,000원
  • 2014년 12월 30일 펴냄
  • 페이퍼백 | 412쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

예제 코드 다운로드

요약문

'가트너'에서 선정한 2015년 10대 전략기술 중의 하나인 '고차원분석'을 하기 위한 데이터 예측 분석기술을 실무사례 위주로 설명하는 책이다. 이 책은 데이터 기반 의사결정이 실제로 기업의 경쟁력에 어떻게 도움이 되는지 알고 싶어하는 경영자, 데이터 실무 분석역량을 키우고 싶은 데이터 분석가 모두를 대상으로 한다. 이 책을 통해 실제 현실에서 발생한 데이터를 사용하여 예측 분석문제를 해결해야 하는 데이터 분석가가 되어 관련된 다양한 문제를 직접 해결해 볼 수 있다. 그 밖에도 해당 문제를 실제로 해결하기 위한 R프로그램 코드를 가지고 설명한다. 독자는 이 책에서 제공하는 현실에서 일어나는 다양한 문제를 예측 분석방법으로 직접 해결해 보면서 분석 역량을 한층 더 높일 수 있을 것이며, 현실의 문제를 해결하는 데 예측 분석 기술이 어떻게 활용되고 있는지 구체적으로 이해할 수 있다.

이 책에서 다루는 내용

■ 광고와 홍보 분석
■ 소비자 선호와 선택 분석
■ 시장바구니와 관련된 구매 분석
■ 경제 예측 분석
■ 운영관리 분석
■ 비정형화된 텍스트와 언어에 대한 분석
■ 고객감성 분석
■ 브랜드 및 가격 분석
■ 스포츠 팀 성적 분석
■ 기타 다수의 분석

이 책의 대상 독자

이 책에서 제공하는 다양한 예측 분석 실무를 익힘으로써, 실제 비즈니스 문제를 해결하고 진정한 경쟁우위를 실천할 수 있는 능력을 보유할 수 있다. 현실에서 발생하는 다양한 데이터 분석 문제를 해결하고 싶다면, 이 책에서 제공하는 실제 문제와 해결 방법에 대한 내용을 습득하면 된다. 여러분이 모델개발자나 프로그래머 또는 관리자라면, 이 책을 통해 아직 갖추지 못한 중요한 기술을 습득할 수 있을 것이다.

저자/역자 소개

저자 서문

"토토, 여긴 캔자스가 아닌 것 같아."
- 영화 '오즈의 마법사'(1939)에서 도로시 게일(주디 갈랜드 분)

데이터와 알고리즘은 우리의 일상생활을 지배하고 있다. 데이터 집약적이며 빠르게 변화하는 오픈 소스의 세상에 온 것을 환영한다. 이 세상에서 경쟁우위를 확보하는 것은 분석 능력과 아이디어를 공유함으로써 가능하지만, 잠시일 뿐이다.

예측 분석에 대한 많은 도서들은 전략과 경영에 대해 언급하거나, 분석 방법과 모델링을 주요 내용으로 하거나, 정보기술과 코드를 중점으로 다루기도 한다. 그러나 이 책 『예측 분석 모델링 실무 기법』은 이와 같은 세 가지 접근 방식을 동시에 취함으로써 모델개발자, 프로그래머, 비즈니스 경영자 모두를 독자 대상으로 하는 독특한 책이라고 할 수 있다.

우리는 경쟁우위 확보에 분석이 얼마나 중요한가를 인식하고 있다. 연구원과 분석가를 위해서 바로 써먹을 수 있는 자료와 모델링 기술에 적합한 참고가이드를 제공했다. 또한, 프로그래머를 위해 실제 비즈니스 문제를 해결하는 데 사용하는 코드 작성법을 설명했다. 이외에 경영자가 이해할 수 있도록 하기 위해서 모형의 결과를 단어나 그림으로 변환해 데이터와 모형에 대해 설명했다.

분석에 적합한 데이터의 종류와 양이 많아지고 데이터의 발생 속도와 분석 요구가 점점 빨라짐에 따라 날이 갈수록 분석은 점점 중요한 분야로 부각되고 있다. 경쟁우위의 확보는 정보 관리와 분석 분야에 새로운 시스템을 도입함을 의미한다. 이러한 사실은 비즈니스가 이루어지는 방법이 계속해서 변경된다는 것을 의미한다.

다양한 응용 분야를 다루고 있는 이 책은 데이터와 모델링 기술, 분석의 장점을 알고 있는 독자를 위한 책이다. 또한, 조직에서 변화가 발생하기를 희망하는 사람을 위한 책이기도 하다.

예측 분석은 데이터 과학이다. 이러한 분야의 책은 광범위하고 많은 학술적인 범위와 응용 분야를 다룬다. R에 한정해 보더라도 데이터 분석과 관련된 코드는 매우 빠르게 성장하고 있다. 사실 예측 분석에 대한 광범위한 가이드를 제공하는 것 또한 매우 도전적인 일이다. 우리는 단원별로 특정 응용 분야와 비즈니스 문제에 초점을 맞춘 짧은 글을 제공해 설명했다.

이와 같이 우리의 목표는 독자들에게 다가갈 수 있는 예측 분석과 데이터 과학에 대한 내용을 소개하는 것이다. 이 책에는 수학적 내용이 많지 않다. 통계학자와 모델개발자는 이와 같은 방법에 대한 상세내용이나 파생 분야에 대해서는 참고자료를 찾아보는 것이 좋다. 우리는 평이한 언어로 여러 방법들을 설명하고, 데이터 시각화를 사용해 비즈니스 문제에 대한 해결 방안을 만들어 냈다.

책의 주제를 감안할 때, 내가 고전적 또는 베이지안 캠프 중 어느 한 쪽에 속하는지를 궁금해 한다. 미네소타 대학의 통계학 강좌에서, 나는 고전/베이지안 분할에 대한 양측을 존중해야 한다는 것을 알았다. 그리고 매우 경험적인 베이지안과 기계 학습 및 전통적인 통계를 연계한 통계 학습 분야에서 분석을 하고 있는 사람들의 관점으로 인식했다. 모델링과 추론에 관한 한 나는 실용주의자다. 일어난 현상을 분석하고 불확실한 부분을 다른 사람들이 이해할 수 있는 문장으로 표현한다.

이 책이 가능했던 것은 R 커뮤니티에 시간과 아이디어를 제공한 수천만 명의 전문가 덕택이다. R 언어의 성장으로 인하여 예측 분석 분야에서 모델링 기술을 위한 R 환경은 확실히 널리 사용되어 일반화 툴이 될 것이다. 지니는 램프에서 나와 커튼 뒤에서 마법이 이루어진다. 하지만, 로켓 과학의 경우는 다르다. 과학의 힘으로 비밀을 밝혀낼 수 있다. 이 책은 이러한 과정의 일부분이라고 할 수 있다.

이 책에서 사용한 데이터 대부분은 공공 도메인 데이터 소스에서 확보한 것이다. 버블헤드 인형에 대한 홍보 데이터는 에리카 코스텔로가 제공했다. 컴퓨터 선택 연구 데이터는 샤론 캠버라인의 지원을 받았으며, 무명은행 콜센터 데이터는 아비 만델바움과 랜 게드가 제공했다. 영화 정보는 인터넷 영화 DB 허가를 얻어 기입했다.

IMDb 영화 리뷰 데이터는 스탠포드 대학에 있는 앤드류 L. 매스와 동료들에 의해 구축되었다. 몇몇 예제는 NCR 컴텐(Comten), HP, 메디슨의 조합 택시 협동조합, 뉴욕의 사이트 애널리틱스(Site Analytics), 위스콘신 메디슨의 선시드 연구 LLC와 함께 작업했다.

광범위한 R 문헌 네트워크의 짧은 글을 이용해, 이 책의 프로그램 예제는 R로 해볼 수 있는 것을 보여준다. 우리는 오픈 소스의 세상에서 일을 하고 다른 사람들과 공유하고 있다. 우리가 분석한 작업에 대한 내용은 모든 사람들이 보고 디버깅해보는 프로그램 안에 있다. 이 책의 코드는 학생들이 학습할 수 있도록 단계별로 주석을 포함하고 있다. 각 프로그램의 예제는 설명한 분석에 근거한 내용으로 완성했다.

저자 소개

토마스 밀러(Thomas W. Miller)

노스웨스턴 대학에서 예측 분석 프로그램을 강의하는 교수다. 마케팅 분석, 고급 모델링 기법, 데이터 시각화, 캡스톤 코스를 포함한 다양한 교육 과정을 기획했으며, 40명 이상의 교수진과 함께 예측 분석과 데이터 과학 분야에 대한 광범위한 강의 경력이 있다. 또한, 연구 출판사 LLC의 소유주이며 사장이다. 소매 사이트 선택, 제품 포지셔닝, 시장 세분화, 경쟁 시장에서 가격 설정 등의 분야에서 30년 동안 다양한 예측 모델링 분석과 컨설팅을 한 경험이 있다.

『Data and Text Mining: A Business Applications Approach』(2004), 『Research and Information Services: An Integrated Approach for Business』(2007), 『Without a Tout: How to Pick a Winning Team』(2007) 등을 저술했다.

학계에 진출하기 전에 15년간 IT 사업과 컴퓨터와 교통 산업에서 경력을 쌓았고, 마케팅 연구를 위해 A. C. 닐슨 센터에서 지도한 경력이 있다. 미네소타 대학에서 통계학 석사와 심리학 박사 학위를 취득했으며, 오레곤 대학에서 경제학 석사 학위와 MBA를 취득했다. 더 많은 정보를 알고 싶다면 www.ftpress.com/miller를 참고해보자.

옮긴이의 말

몇 년 전 <하버드>에 데이터 과학자는 21세기의 가장 섹시한 작업이라는 제목의 저술 하나가 게재되었다. 덩달아 미국에서는 데이터 과학 분야의 인력수요가 증가할 것으로 예견하여 대학별로 커리큘럼이 개발되었고 MBA 과정도 개설되었다. 이처럼 최근 몇 년동 안 '빅데이터', '데이터 과학'이라는 용어는 매스컴에서 뜨거운 조명을 받고 있으며 많은 사람의 관심을 모으고 있다. 아마도 빅데이터에 대해 상세히 모르는 사람도 한 번쯤은 들어봤을 것이고, 막연히 빅데이터를 통하면 세상의 모든 어려운 문제들을 쉽게 해결해 줄 것 같은 신기루에 빠질지도 모른다라는 생각이 들기도 한다.

하지만 냉철하게 생각해보면 기업 입장에서는 빅데이터라는 최첨단 기술이나 분석방법에 관심이 있기보다는 실제로 업무에 적용해 얼마나 가치를 창출할 수 있는지에 더 많은 관심이 쏠린다. 따라서 데이터를 분석하는 사람이라면 데이터를 집계하는 것도 중요하지만 데이터의 의미를 읽을 줄 알아야 하며 이를 활용해 미래에 어떠한 일이 벌어지게 될지 예측하고 신속하게 대응할 수 있는 전략을 수립할 수 있어야 한다. 예를 들면 마케팅 데이터를 이용해 고객의 행동이나 시장의 변화를 예측하고 대응할 수 있어야 하며, 제품개발과 생산 데이터를 활용해 불량이 얼마나 발생할지, 설비에 어떠한 고장이 발생하게 될지를 미리 예측하고 대응할 수 있어야 한다. 은행이나 통신사의 경우에는 어떤 고객이 이탈하려고 하는지를 예측 분석하고 사전에 대응하여 이탈률을 최대한 줄일 수 있어야 하며 이것이 바로 의미 있는 일이라고 할 수 있다.

하지만 업무 분야에서 발생되는 데이터를 분석하기 위해, 직접 프로그래밍도 가능하고 사업전략을 수립하는 데 예측 분석을 이용할 수 있으며 이를 현장에 적용해 가치를 만들어 낼 수 있는 인력을 확보하는 것은 기업입장에서 정말로 어려운 일이다. 그렇다고 내부적으로 이러한 역량을 갖춘 인력을 육성하고 싶어도 수많은 시간이 소요된다. 해당 역량을 갖춘 인재는 실제 비즈니스 상황을 이해하고 이에 합당한 예측 분석 방법을 만들어 내야 하며 분석결과의 의미를 읽어낼 줄 아는 종합적인 사고가 필요하기 때문이다.

이 책은 복합적인 지식과 경험을 갖춘 데이터 분석가가 필요한 현 상황에서 데이터가 활용될 수 있는 분야(광고, 마케팅, 경제동향, 콜센터 운영, 야구경기, 브랜드, 주택문제 등)를 대상으로, 다양한 문제를 제시하고 이를 해결하기 위해서 어떠한 예측 분석기술을 활용할 수 있는지를 상세하게 설명한다. 단순히 데이터 분석기술에 대한 단편적인 설명보다는 실제로 데이터가 발생하는 현장에 있는 사람들이 어떠한 의사결정 문제를 고민하는지 구체적으로 설명하며 예측 분석 기술을 이용해 해당 문제를 해결한 사례를 상세히 다룬다. 따라서 이 책을 통해 독자는 실제 현장에서 업무를 개선하고 새로운 수익원을 창출하기 위해서 또는 현명한 공공정책을 수립하기 위해서 데이터 분석가가 어떠한 예측 분석을 하여 인사이트를 도출하고 전략을 수립했는지에 대한 실무 측면에서의 접근 방법을 알게 될 것이다. 아울러, 예측 분석 과정에서 데이터를 가시화해 표현하는 방법과 이를 데이터 분석용 언어인 R 코드로 구현하는 방안에 대해서도 매우 쉽게 설명한다. 특히 다저스 팀의 홈구장 관중수를 증가시키기 위한 캠페인 효과에 대한 예측 분석, 모바일 제품과 서비스에 대한 고객의 선호도 분석, 수퍼마켓 이용자의 구매행동 규칙 분석 및 예측, 미래 경제동향 예측 분석, 콜센터 운영안의 결과 예측 시뮬레이션 분석, 텍스트 분석, 감성 분석, 특정 야구팀의 경기결과 예측, 가상의 컴퓨터 브랜드와 가격에 따른 소비자 선호도 분석 및 예측 시뮬레이션 분석, 캘리포니아 주택가격 예측 등 우리가 실제로 빈번히 접할 수 있는 다양한 현실 문제를 해결해보는 방법을 보여줌으로써 예측 분석 기술이 실생활에서 어떻게 활용되는지에 대해 구체적으로 느껴볼 수 있다.

현재도 그렇지만 앞으로의 세상은 다양한 네트워크상에서 사람이든 기계든 상호 간의 작용을 통하여 다양한 형태(텍스트, 그림, 음악, 동영상 등)의 데이터를 발생시키게 될 것이다. 현재까지는 주요한 이슈가 이러한 데이터를 효율적으로 처리하는 기술이었다면 앞으로는 이를 활용해 어떠한 가치를 만들어 낼 수 있는가에 주목해야 할 것으로 보인다. 이미 이러한 움직임은 <가트너>에서 발표한 '2015년도 10대 전략기술 동향'에서도 엿볼 수 있다. 설리 가트너 부사장은 "기업은 사물인터넷, 소셜미디어, 웨어러블 기기에서 생성된 엄청난 양의 데이터를 적절히 분류해야 하며 알맞은 정보를 필요한 사람에게 제때에 정확히 전달해야 한다."라고 언급하기도 했다. 또한 "가치는 데이터 분석을 통한 답변에 있지, 데이터 그 자체에 있는 것이 아니다."라며 '고차원 분석(Advanced, Pervasive and Invisible Analytics'을 2015년 10대 전략기술로 꼽을 정도로 ‘분석을 통한 가치의 창출’에 중요성을 두고 있다.

이 만큼 '예측 분석' 기술의 가치는 알맞은 정보를 제 때에 필요한 사람에게 정확히 전달하고 가치창출을 위한 인사이트를 만들어 내는데 있어 매우 중요한 기술이다. 물론 분석 대상에 해당하는 분야에 대한 깊이 있는 이해가 동반되어야 가능한 일이기도 하다. 그만큼 다양한 분야의 지식과 기술 그리고 남다른 통찰력을 갖추어야 하는 것이 데이터 분석가가 갖추어야 할 자질이기도 할 것이다. 이러한 현실에서 이 책이 데이터 분석가가 되려는 분들이 좀 더 손쉽게 예측 분석 실무 기술을 익히는 데 큰 도움이 되기를 희망한다.

옮긴이 소개

정사범

산업공학을 전공하면서 의사결정 최적화 방법론에 대한 호기심을 많이 가졌다. 2000년이 시작할 즈음에 회사에 들어가서 지금까지 제품을 기획하고 만들어내는 과정에서 발생되는 다양한 데이터를 분석해왔다. 지금도 다양한 분야에서 데이터 분석 관련 프로젝트를 수행하고 있으며, 해당 분야의 업무에 조금이라도 도움이 될 만한 가치를 만들어 내려고 고민하고 있다. 또한, 최근에는 제품을 개발하고 생산하는 과정에서 다양한 데이터 분석방법을 활용하여 Smart Manufacturing을 현실화할 수 있는 방법에 대해 알고자 열심히 노력 중이다. 에이콘출판사에서 출간한 『RStudio 따라잡기』(2013), 『The R Book (Second Edition) 한국어판』( 2014)을 번역했다.

목차

목차
  • 1장 분석과 데이터 과학
  • 2장 광고와 홍보
  • 3장 선호도와 선택
  • 4장 시장바구니 분석
  • 5장 경제 데이터 분석
  • 6장 운영관리
  • 7장 텍스트 분석
  • 8장 감성 분석
  • 9장 스포츠 분석
  • 10장 브랜드와 가격
  • 11장 공간데이터 분석
  • 12장 빅 리틀 데이터 게임
  • 부록 A 분석용으로 꾸린 짐
  • 부록 B 측정
  • 부록 C 코드와 유틸리티

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

2015. 1. 22 수정사항

[p97 - 1행]
각 교대열에서 셀의 이진지표값은 교대 여부를 수리적으로 프로그래밍을 하기 위한 숫자 1은 해당 시간에 인원 교대가 이루어지고, 숫자0은 인원교대가 이루어지지 않음을 의미한다.
->
각 교대열에서 셀의 이진지표값은 해당 교대순번의 발생여부를 수리적으로 프로그래밍하기 위해 표현한 값이다. 따라서 각 시간별로 숫자 1은 해당 교대순번이 발생함을 의미하고, 숫자 0은 해당 교대순번이 발생하지 않음을 의미한다.

[p112 - 20행]
단어 가방 BoW, bog-of-words
->
단어 가방 BoW, Bag-of-Words

2015. 2. 11 수정사항

[p94 - 그림 6.4 제목]
화요일 콜센터 운영 -> 목요일 콜센터 운영

2015. 2. 23 수정사항

[p145 - 아래에서 9행]
평접을 입력하였다
->
평점을 입력하였다