지은이 - 그랜트 잉거솔(Grant Ingersoll) 외 2명옮긴이 - 임혜연40,000원 | 2014년 12월 23일 펴냄
현대 웹 서비스에서 검색은 빼놓을 수 없는 기능이다. 사용자는 검색에 익숙하고, 검색 결과의 앞부분에서 곧바로 자신이 원하는 링크를 찾길 바란다. 사용자의 기준을 만족시키기는 어렵지만, 다행히 잘 만들어진 오픈 소스가 이미 존재한다. 이 책은 검색과 자연어 처리에 대한 기초적인 지식을 소개하고, 아파치 솔라, OpenNLP 등의 오픈 소스를 이용해서 실제로 기능을 사용하는 법을 알려준다. 이 책은 검색이나 자연어 처리를 서비스의 기능으로 제공해야 하는 개발자에게 좋은 길잡이가 되어줄 것이다.
지은이 - 홀든 카로(Holden Karau)옮긴이 - 조효성15,000원 | 2014년 12월 30일 펴냄
이 책은 하둡의 처리속도보다 최대 100배 이상 빨라진 고속의 범용 클러스터 컴퓨팅 시스템을 제공하는 아파치 스파크(Spark)의 입문서이다. 스파크 시스템을 이용하면 SQL과 같은 데이터를 처리하는 툴 사용, 구조화된 데이터 처리, 머신 러닝, 그래프 데이터 프로세싱을 할 수 있다. 웹 개발자에게 익숙한 자바, 스칼라, 파이썬을 이용해서 로컬 환경뿐 아니라 클러스터 환경에서 고속의 데이터 분석을 할 수 있으므로 빅데이터를 학습하는 학생부터 현장에서 근무하는 엔지니어까지 좋은 지침서로 활용할 수 있다.
지은이 - 토마스 밀러(Thomas W. Miller)옮긴이 - 정사범40,000원 | 2014년 12월 30일 펴냄
<가트너>에서 선정한 2015년 10대 전략기술 중의 하나인 '고차원분석'을 하기 위한 데이터 예측 분석기술을 실무사례 위주로 설명하는 책이다. 이 책은 데이터 기반 의사결정이 실제로 기업의 경쟁력에 어떻게 도움이 되는지 알고 싶어하는 경영자, 데이터 실무 분석역량을 키우고 싶은 데이터 분석가 모두를 대상으로 한다. 이 책을 통해 실제 현실에서 발생한 데이터를 사용하여 예측 분석문제를 해결해야 하는 데이터 분석가가 되어 관련된 다양한 문제를 직접 해결해 볼 수 있다. 그 밖에도 해당 문제를 실제로 해결하기 위한 R프로그램 코드를 가지고 설명한다. 독자는 이 책에서 제공하는 현실에서 일어나는 다양한 문제를 예측 분석방법으로 직접 해결해 보면서 분석 역량을 한층 더 높일 수 있을 것이며, 현실의 문제를 해결하는 데 예측 분석 기술이 어떻게 활용되고 있는지 구체적으로 이해할 수 있다.
기업의 빅데이터 활용이 점차 늘어감에 따라 하둡 보안이 중요한 이슈로 떠오르고 있다. 이 책은 기업 관점에서 빅데이터 플랫폼의 보안을 위협하는 주요 요소들을 나열하고, 이를 고려한 전반적인 보안 아키텍처를 제안한다. 또한 아키텍처의 각 컴포넌트를 구현하기 위한 방법으로서 커버로스(Kerberos) 설정과 보안된 하둡 클러스터의 구축, 에코시스템 내의 통신 인터랙션 보안, 하둡 보안 모델과 기존 기업 보안 시스템의 통합, 데이터 암호화, 보안 사고 감시 시스템 등을 단계적으로 상세히 설명한다. 저자가 제공하는 모범 사례와 다양한 상업용 또는 오픈 소스 기술들을 통해 독자들은 좀 더 쉽게 하둡 보안을 구현할 수 있다.
스플렁크(Splunk)를 사용하는 데 필요한 전반적인 내용을 다루는 책이다. 처음에는 스플렁크를 간단히 설치하고 검색하는 것으로 시작해, 자신만의 대시보드를 만드는 방법과 스플렁크 확장을 위한 다양한 설정 방법, 그리고 실무에서 적용할 수 있는 다양한 배포 방법을 설명한다. 이 모든 과정은 다양한 예제를 통해 간단히 따라 해보고 익힐 수 있도록 구성되어 있으며, 이 책 한 권으로 스플렁크의 모든 것을 알 수는 없겠지만, 스플렁크로 무엇을, 어떻게 할 수 있는지에 대한 확실한 가이드를 얻을 수 있다.
지은이 - 프라반잔 나라야나차르 타따르옮긴이 - 허석진30,000원 | 2014년 10월 31일 펴냄
이 책은 R을 설치하는 방법부터 알려 주고, 처음 접하는 사용자도 쉽게 따라올 수 있도록 R 사용에 필요한 기초적인 사항을 소개하고, 이어서 데이터 가져오기/내보내기, 데이터 시각화, 직관적 데이터 분석, 통계적 가설 검정, 회귀분석, CART 등의 주제에 대해 관련 패키지를 설명하면서 예제를 중심으로 다룬다. 책과 함께 제공되는 R 코드는 다양한 분야에서 통계 분석 작업에 적용할 수 있다.
지은이 - 마이클 미넬리 외 2명옮긴이 - 김선희, 권오병25,000원 | 2014년 10월 28일 펴냄
빅데이터 애널리틱스에 대한 전반적인 이해를 도울 수 있는 기본적이면서도 실무 중심적인 지식을 담은 책이다. 뿐만 아니라, 실제로 아무나 만져볼 수 없는 빅데이터를 가지고, 말 그대로 실컷 놀아본 사람들이 전하는 생생한 현장 사례, 그리고 그 업무를 겪으면서 얻게 된 지혜들로 가득 차 있다. 따라서 오늘날 빅데이터가 지닌 강력한 잠재력과 파괴력에 대해서는 이해하지만, 이것을 도대체 어디에서부터 어떻게 활용해야 비즈니스의 성공을 실현할 수 있을지를 고민하는 빅데이터 관련 실무자 또는 빅데이터 전문가를 지향하는 인재들에게 좋은 가이드가 되어 줄 것이다.
이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.
지은이 - 플라이보 융케이라 외 1명옮긴이 - 한연수, 박용준28,000원 | 2014년 08월 29일 펴냄
우리가 매일 이용하는 수많은 응용프로그램은 대부분 분산 시스템하에서 운영되고 있다. 아파치 주키퍼(Apache ZooKeeper)는 핵심 분산 컴퓨팅 개념을 비롯해 견고한 분산 시스템을 쉽게 구성하기 위해 만들어졌다. 이 책은 이런 분산 시스템에 대한 배경지식과 함께 마스터-워커(master-worker) 예제를 통해 주키퍼 API 사용 방법, 와처(watcher) 사용 방법, 장애 처리 방법 등을 다룬다. 또한 주키퍼가 동작하는 과정을 이해할 수 있도록 내부 구조에 대한 설명을 제공해 효과적인 주키퍼 사용과 운영 방법에 대해 설명한다
d3.js는 현재 웹에서 가장 각광받는 언어인 자바스크립트로 만들어진 오픈소스 데이터 시각화 라이브러리다. 이 책은 d3.js를 사용하기 위한 환경의 구축에서부터, 간단한 예제를 통한 d3.js의 기본 개념 해설, 화려한 데이터 시각화를 만드는 고급 기법까지 설명하고 있어, 자바스크립트를 알고 있는 모든 분을 데이터 시각화의 세계로 친절하게 안내해 줄 것이다. 데이터 시각화에 관심을 갖고 있고 자바스크립트를 조금이라도 아는 사람이라면 누구에게나 아주 좋은 길잡이가 될 책이다.
지은이 - 앤톤 츄바킨 외 5명옮긴이 - 구형준 외 3명98,000원 | 2014년 08월 12일 펴냄
★ 세트 구성: 전4권 ★
1) 『실전 LOG 분석과 체계적인 관리 가이드: 개발자와 운영자의 트러블슈팅과 보안 담당자의 이상행위 탐지를 위한』
2) 『아파치 Kafka 따라잡기: 확장성과 고가용성을 지닌 메시지 브로커』
3) 『Storm 실시간 빅데이터 분석 플랫폼: 분산 환경과 머신 러닝을 이용한 데이터 처리』
4) 『빅데이터 분석 도구 R 프로그래밍: 데이터 고급 분석과 통계 프로그래밍을 위한』
오픈소스인 하둡(Hadoop)에서, 클러스터 구성 및 최적화는 사용자의 기술과 경험적인 영향을 많이 받는다. 맵리듀스(MapReduce)의 경우 하위 인프라에 추가로 수행될 맵리듀스 애플리케이션과 데이터, 사용자의 특성까지 고려하여 구성하고 튜닝해야 한다. 이 책에는 맵리듀스와 맵리듀스의 성능에 대해 개괄하고, 맵리듀스 클러스터 최적화 구성, 리소스 병목을 찾아내고 해결하는 저자의 소중한 노하우가 담겨있으며, 맵리듀스 애플리케이션과 데이터에 따른 맵리듀스의 각 단계별 상세한 튜닝법을 설명한다. 아울러 맵리듀스 애플리케이션 개발자가 반드시 숙지하고 있어야 할 코딩 기술과, 사용자의 맵리듀스 애플리케이션 성능을 극대화 할 수 있는 다양한 시스템 관련 튜닝(OS, JVM, GC, I/O 등)과 체크리스트, 그리고 애플리케이션 성능과 개발자의 생산성을 함께 높일 수 있는 맵리듀스 템플릿 코드를 제공한다.
이 책은 R 언어와 니터(Knitr) 패키지를 사용하여, ‘재현 가능한 연구(reproducible research)’ 방법으로 인쇄물, 웹 페이지, 웹 프리젠테이션, 웹 애플리케이션 등의 다양한 데이터 문서와 자료를 만드는 방법을 소개한다. 이 책에서 설명하는 모든 문서와 자료는 데이터와 다이내믹하게 연동되어 움직이고, 원래의 데이터와 결론에 이르는 과정을 투명하고 일관되게 보여줄 수 있다.