데이터 과학: 어떤 기존 시스템 또는 계획 중인 시스템에서 데이터와 데이터의 흐름을 체계적으로 조사하는 것을 안내하는 도서 시리즈입니다.

Splunk 6 핵심 기술: 지은이 - 제임스 밀러(James D. Miller) 옮긴이 - 이미정 33,000원 | 2015년 05월 29일 펴냄; 이 책은 빅데이터를 다루는 데 있어 고급 전략을 학습하기 원하는 스플렁크 개발자를 위한 책이다.

데이터 마이닝 개념과 기법: 지은이 - 지아웨이 한(Jiawei Han) 외 2명 옮긴이 - 정사범, 송용근 50,000원 | 2015년 04월 30일 펴냄; 이 책은 대량의 데이터셋에서 의미있는 패턴을 발견하는데 필요한 데이터 마이닝 이론과 실제적용 사례에 대해 설명한다.

R을 활용한 바이오인포매틱스: 지은이 - 포루쉬 프라빈 신하(Paurush Praveen Sinha) 옮긴이 - 염현식 33,000원 | 2015년 04월 13일 펴냄; R을 이용한 다양한 예제를 제공해 생명정보학 분석 과정을 체계적이고 직관적으로 설명한다.

클라우드 API를 활용한 빅데이터 분석: 지은이 - 공용준 30,000원 | 2015년 03월 31일 펴냄; 클라우드의 대표인 아마존 AWS와 구글 클라우드 API를 사용해 빅데이터 분석을 수행하고 실제 서비스까지 올리는 방법에 대해 설명한다.

matplotlib을 이용한 데이터 시각화 프로그래밍: 지은이 - 알렉상드르 드베르(Alexandre Devert) 옮긴이 - 이문호 25,000원 | 2015년 01월 16일 펴냄; 이 책은 맷플롯립(matplotlib)을 설치하는 방법을 먼저 알려주고, 다양한 2차원 그래프를 출력하는 방법을 소개하고, 이어서 자신만의 컬러와 스타일을 사용자 정의하는 방법, 주석 추가, 3D 그래프 처리, 타 애플리케이션과 통합하는 방법 등 기초부터 활용까지 고르게 설명하면서 예제 코드 중심으로 다룬다. 이 책에 제공되는 맷플롯립 코드는 다양한 분야에서 데이터 분석을 위한 시각화에 적용할 수 있다.

자연어 텍스트 처리를 통한 검색 시스템 구축: 지은이 - 그랜트 잉거솔(Grant Ingersoll) 외 2명 옮긴이 - 임혜연 40,000원 | 2014년 12월 23일 펴냄; 현대 웹 서비스에서 검색은 빼놓을 수 없는 기능이다. 사용자는 검색에 익숙하고, 검색 결과의 앞부분에서 곧바로 자신이 원하는 링크를 찾길 바란다. 사용자의 기준을 만족시키기는 어렵지만, 다행히 잘 만들어진 오픈 소스가 이미 존재한다. 이 책은 검색과 자연어 처리에 대한 기초적인 지식을 소개하고, 아파치 솔라, OpenNLP 등의 오픈 소스를 이용해서 실제로 기능을 사용하는 법을 알려준다. 이 책은 검색이나 자연어 처리를 서비스의 기능으로 제공해야 하는 개발자에게 좋은 길잡이가 되어줄 것이다.

Spark로 하는 고속 빅데이터 분석과 처리: 지은이 - 홀든 카로(Holden Karau) 옮긴이 - 조효성 15,000원 | 2014년 12월 30일 펴냄; 이 책은 하둡의 처리속도보다 최대 100배 이상 빨라진 고속의 범용 클러스터 컴퓨팅 시스템을 제공하는 아파치 스파크(Spark)의 입문서이다. 스파크 시스템을 이용하면 SQL과 같은 데이터를 처리하는 툴 사용, 구조화된 데이터 처리, 머신 러닝, 그래프 데이터 프로세싱을 할 수 있다. 웹 개발자에게 익숙한 자바, 스칼라, 파이썬을 이용해서 로컬 환경뿐 아니라 클러스터 환경에서 고속의 데이터 분석을 할 수 있으므로 빅데이터를 학습하는 학생부터 현장에서 근무하는 엔지니어까지 좋은 지침서로 활용할 수 있다.

예측 분석 모델링 실무 기법: 지은이 - 토마스 밀러(Thomas W. Miller) 옮긴이 - 정사범 40,000원 | 2014년 12월 30일 펴냄; <가트너>에서 선정한 2015년 10대 전략기술 중의 하나인 '고차원분석'을 하기 위한 데이터 예측 분석기술을 실무사례 위주로 설명하는 책이다. 이 책은 데이터 기반 의사결정이 실제로 기업의 경쟁력에 어떻게 도움이 되는지 알고 싶어하는 경영자, 데이터 실무 분석역량을 키우고 싶은 데이터 분석가 모두를 대상으로 한다. 이 책을 통해 실제 현실에서 발생한 데이터를 사용하여 예측 분석문제를 해결해야 하는 데이터 분석가가 되어 관련된 다양한 문제를 직접 해결해 볼 수 있다. 그 밖에도 해당 문제를 실제로 해결하기 위한 R프로그램 코드를 가지고 설명한다. 독자는 이 책에서 제공하는 현실에서 일어나는 다양한 문제를 예측 분석방법으로 직접 해결해 보면서 분석 역량을 한층 더 높일 수 있을 것이며, 현실의 문제를 해결하는 데 예측 분석 기술이 어떻게 활용되고 있는지 구체적으로 이해할 수 있다.

Hadoop 보안: 지은이 - 수디쉬 나라야난 옮긴이 - 심지현 15,000원 | 2014년 12월 19일 펴냄; 기업의 빅데이터 활용이 점차 늘어감에 따라 하둡 보안이 중요한 이슈로 떠오르고 있다. 이 책은 기업 관점에서 빅데이터 플랫폼의 보안을 위협하는 주요 요소들을 나열하고, 이를 고려한 전반적인 보안 아키텍처를 제안한다. 또한 아키텍처의 각 컴포넌트를 구현하기 위한 방법으로서 커버로스(Kerberos) 설정과 보안된 하둡 클러스터의 구축, 에코시스템 내의 통신 인터랙션 보안, 하둡 보안 모델과 기존 기업 보안 시스템의 통합, 데이터 암호화, 보안 사고 감시 시스템 등을 단계적으로 상세히 설명한다. 저자가 제공하는 모범 사례와 다양한 상업용 또는 오픈 소스 기술들을 통해 독자들은 좀 더 쉽게 하둡 보안을 구현할 수 있다.

아파치 하둡 YARN: 지은이 - 아룬 머시 외 4명 옮긴이 - 안건국 36,000원 | 2014년 11월 28일 펴냄; 이 책에서는 하둡 2.x의 설치 방법과 기존 맵리듀스 통합, YARN 아키텍처, 커패시티(capacity) 스케줄러 등을 설명한다.

Splunk 구현 기술: 지은이 - 빈센트 범가너 옮긴이 - 최창배 35,000원 | 2014년 10월 29일 펴냄; 스플렁크(Splunk)를 사용하는 데 필요한 전반적인 내용을 다루는 책이다. 처음에는 스플렁크를 간단히 설치하고 검색하는 것으로 시작해, 자신만의 대시보드를 만드는 방법과 스플렁크 확장을 위한 다양한 설정 방법, 그리고 실무에서 적용할 수 있는 다양한 배포 방법을 설명한다. 이 모든 과정은 다양한 예제를 통해 간단히 따라 해보고 익힐 수 있도록 구성되어 있으며, 이 책 한 권으로 스플렁크의 모든 것을 알 수는 없겠지만, 스플렁크로 무엇을, 어떻게 할 수 있는지에 대한 확실한 가이드를 얻을 수 있다.

R 통계 프로그래밍 입문: 지은이 - 프라반잔 나라야나차르 타따르 옮긴이 - 허석진 30,000원 | 2014년 10월 31일 펴냄; 이 책은 R을 설치하는 방법부터 알려 주고, 처음 접하는 사용자도 쉽게 따라올 수 있도록 R 사용에 필요한 기초적인 사항을 소개하고, 이어서 데이터 가져오기/내보내기, 데이터 시각화, 직관적 데이터 분석, 통계적 가설 검정, 회귀분석, CART 등의 주제에 대해 관련 패키지를 설명하면서 예제를 중심으로 다룬다. 책과 함께 제공되는 R 코드는 다양한 분야에서 통계 분석 작업에 적용할 수 있다.

빅데이터 비즈니스 성공 지도: 지은이 - 마이클 미넬리 외 2명 옮긴이 - 김선희, 권오병 25,000원 | 2014년 10월 28일 펴냄; 빅데이터 애널리틱스에 대한 전반적인 이해를 도울 수 있는 기본적이면서도 실무 중심적인 지식을 담은 책이다. 뿐만 아니라, 실제로 아무나 만져볼 수 없는 빅데이터를 가지고, 말 그대로 실컷 놀아본 사람들이 전하는 생생한 현장 사례, 그리고 그 업무를 겪으면서 얻게 된 지혜들로 가득 차 있다. 따라서 오늘날 빅데이터가 지닌 강력한 잠재력과 파괴력에 대해서는 이해하지만, 이것을 도대체 어디에서부터 어떻게 활용해야 비즈니스의 성공을 실현할 수 있을지를 고민하는 빅데이터 관련 실무자 또는 빅데이터 전문가를 지향하는 인재들에게 좋은 가이드가 되어 줄 것이다.

R을 활용한 기계 학습: 지은이 - 브레트 란츠 옮긴이 - 전철욱 35,000원 | 2014년 09월 30일 펴냄; 이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.