Top

실시간 데이터 분석 시스템 (세트)

  • 지은이앤톤 츄바킨, 케빈 슈미트, 크리스토퍼 필립스, 니샨트 가르그, 퀸튼 앤더슨, 노만 매트로프
  • 옮긴이구형준, 양원국, 조효성, 권정민
  • ISBN : 9788960775909
  • 98,000원
  • 2014년 08월 12일 펴냄
  • 페이퍼백 | 1,468쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

세트 구성: 전4권

1) 『실전 LOG 분석과 체계적인 관리 가이드: 개발자와 운영자의 트러블슈팅과 보안 담당자의 이상행위 탐지를 위한』
2) 『아파치 Kafka 따라잡기: 확장성과 고가용성을 지닌 메시지 브로커』
3) 『Storm 실시간 빅데이터 분석 플랫폼: 분산 환경과 머신 러닝을 이용한 데이터 처리』
4) 『빅데이터 분석 도구 R 프로그래밍: 데이터 고급 분석과 통계 프로그래밍을 위한』

『실전 LOG 분석과 체계적인 관리 가이드』 소개

『실전 LOG 분석과 체계적인 관리 가이드』은 IT 분야에 종사하는 사람이라면 매우 친숙하지만 소홀히 할 수 있는 로그(log)에 관해 광범위한 내용을 다룬다. 로그의 정의에서 로그 메시지의 종류와 사례연구, 여러 가지 로그 분석 기법과 보고/요약, 로그 관련 도구의 이해와 활용방법, 로깅과 법규 컴플라이언스에 이르기까지 로그라는 주제에 관해 상세히 소개하고 있다. 이 책을 통해 다양한 목적으로 실무에서 로그를 활용할 수 있는 방안을 익힐 수 있다.

이 책에서 다루는 내용

■ 분석, 시각화, 보고 등을 포함한 포괄적인 로그 관리 범위
■ 시스템 운영에서 규정 컴플라이언스까지 다양한 로그 사용방식에 대한 정보 포함
■ syslog-ng와 사고 대응에서 간편히 로그를 얻을 수 있는 실제 상황 사례 연구
■ 보고, 로그 분석 시스템 선정, 로그 분석 시스템 계획, 로그 데이터 정규화와 상관관계 영역에서 실전 가이드 제공

이 책의 대상 독자

컴퓨터 비전 애플리케이션을 구축하기 위해 OpenCV 라이브러리의 사용 방법을 배우고 싶은 C++ 프로그래머 초보에게 적합한 책이다. 또한 컴퓨터 비전 프로그래밍 개념을 알기 원하는 전문 소프트웨어 개발자에게도 안성맞춤이다. 학부 수준 컴퓨터 비전 코스에서 교재로 사용할 수 있으며, 영상처리와 컴퓨터 비전 분야의 석사 과정과 연구자에겐 최고의 참고서다. 이 책은 기본에서 고급 예제까지의 훌륭한 조합을 제공한다. 단, 이 책을 읽으려면 기본적인 C++ 지식은 알고 있어야 한다.

『아파치 Kafka 따라잡기』 소개

아파치 카프카(Apache Kafka)는 오픈소스 메시지 브로커(message broker)로서 확장성과 고가용성을 가지고 분산 기반으로 대용량 데이터를 처리한다. 이러한 아파치 카프카를 실제로 적용하는 데 알아야 할 카프카 활용 사례와 카프카 내부 디자인에 대해 알아본다. 이를 바탕으로 브로커에 데이터를 집어넣는 생산자와 데이터를 가져오는 소비자를 직접 구현해본다. 배치 처리하는 서비스와 스트리밍 처리하는 외부 서비스에 연동하는 법을 배운 후 마지막으로 카프카를 실제 관리하기 위한 도구와 카프카와 연동할 수 있는 서드파티 도구에 대해 알아 본다.

이 책에서 다루는 내용

■ 카프카 다운로드와 빌드
■ 단일 또는 다중 노드 카프카 클러스터 설정과 메시지 전송
■ 내부 디자인과 메시지 압축의 이해
■ 카프카의 리플리케이션 동작 이해
■ 카프카 API를 사용한 생산자와 소비자 작성
■ 소비자 설정 개요
■ 아파치 하둡과 스톰을 카프카와 연동
■ 카프카 관리 도구 사용

이 책의 대상 독자

『아파치 Kafka 따라잡기』의 독자는 실전에서 아파치 카프카 사용에 대해 알기를 원하는 사람이다. 아파치 카프카나 비슷한 기술에 대한 사전 경험이 없는 사람을 주요 독자 대상으로 삼았다. 또한, 기업용 애플리케이션 개발자이나 기타 발행 구독 기반의 시스템을 다뤘지만, 차후 확장성 있는 솔루션으로 아파치 카프카를 도입하기를 고려하는, 빅데이터에 관심이 많은 개발자들을 위해 집필했다.

『Storm 실시간 빅데이터 분석 플랫폼』 소개

아파치 스톰(Apache Storm)은 분산 환경에서 사용할 수 있는 실시간 빅데이터 분석 플랫폼이다. 분산 환경에서 카산드라(Cassandra), 카프카(Kafka) 등과 같은 다양한 데이터베이스와 연동할 수 있는 기능과 다양한 프로그램 언어로 실시간 데이터 분석 알고리즘을 적용할 수 있어 다양한 프로그램 개발자에게 빅데이터 분석의 장에 참여할 수 있도록 유도하고 있다. 아울러 스택오버플로우(stackoverflow), 소스포지(source forge), 깃허브(github), 그리고 아파치 스톰 커뮤니티를 통해 실질적인 빅데이터 분석 개발에서 마주할 수 있는 문제를 해결할 때 강력한 문제 해결 능력을 제공하고 있어 스톰을 배울 절호의 기회가 될 것이다.

이 책에서 다루는 내용

■ 개발 환경 구축과 이를 이용한 스톰 클러스터 테스트
■ 규칙 기반 데이터 프로세싱 단계를 포함한 데이터 스트림 처리
■ 분산 원격 절차 호출 구축
■ 자바, 클로저, 루비, C++를 이용한 다중 언어 스톰 토폴로지 배포
■ 카산드라와 하둡을 스톰과 연동
■ 캐스케이딩을 이용한 배치 프로세스 기반 용어 중요도 연산 알고리즘 구현
■ 예측 카운팅 모델과 분류 모델의 생성과 설치
■ 스톰을 클라우드에 지속적 통합과 설치에 대한 문제 해결

이 책의 대상 독자

실시간 프로세싱에 관심이 있거나 실시간 프로세싱 개발을 할 때 쓰는 스톰의 사용 방법을 학습하려는 개발자에게는 이상적인 책이다. 이 책은 독자가 자바 개발자라고 가정한다. 클로저, C++, 루비 등의 개발 경력이 있다면 유용하지만 필수적인 사항은 아니다. 하둡이나 유사한 기술에 대한 경력이 있으면 상당히 도움이 된다.

『빅데이터 분석 도구 R 프로그래밍』 소개

『빅데이터 분석 도구 R 프로그래밍』은 통계 프로그래밍 언어인 R의 활용과 R을 사용한 소프트웨어 개발, R의 언어적 측면까지 쉽게 배울 수 있는 R에 관한 최고의 책. 통계학을 잘 몰라도 프로그래밍에 관한 초보적인 지식만 있다면 쉽게 익힐 수 있다. 이 책에서는 R에서 사용하는 기본적인 데이터 구조부터 함수형 프로그래밍과 객체지향 프로그래밍 개념, 수학적 시뮬레이션, 그리고 복잡한 데이터를 단순하고 유용한 형태로 재배치하는 R의 활용법 등에 대한 내용까지 다양하게 다룬다.

이 책에서 다루는 내용

■ 복잡한 데이터 세트와 함수를 시각화하는 예술적인 그래프 만들기
■ 병렬 R과 벡터화를 통한 좀더 효율적인 코드 작성
■ 코드 속도 및 기능 향상을 위한 R과 C/C++, 파이썬과의 인터페이스
■ 텍스트 분석, 이미지 수정 등을 위한 패키지 찾기
■ 개선된 디버깅 기술을 활용해 귀찮은 버그 찾아 고치기

이 책의 대상 독자

많은 사람이 R을 주로 임시변통으로 사용한다. 히스토그램을 그리거나 회귀분석을 한다든가, 통계 기능 등 다양한 용도로 사용하는 식이다. 그러나 이 책은 R로 소프트웨어를 개발하는 사람들을 위해 기획됐다. 이 책은 전문적인 소프트웨어 개발자부터 대학에서 프로그래밍 수업을 한 번쯤 들어 본 사람까지 모두를 대상으로 한다. 그 중에서도 ‘특정한 목적을 갖고 R 코드를 작성하려는 사람’이라면 꼭 읽어야 할 책이다. 하지만 어려운 통계학 지식은 그다지 필요하지 않다.

이 책은 다음과 같은 사람들에게 도움이 될 것이다.

■ 병원이나 정부 기관에서 일하면서 정기적으로 통계 보고서를 작성해야 하고 이를 자동화한 프로그램을 개발하려는 분석가
■ 새로이 혹은 기존 방식의 절차를 통합해 통계 방법론을 개발, 이를 코드화해 일반 연구 커뮤니티에서 쓰려는 학계 연구원
■ 마케팅, 소송 지원, 언론, 출판, 그 외 복잡한 데이터를 표현하는 그래픽 코드를 개발해야 하는 관련 전문가
■ 통계 분석이 포함된 프로젝트를 진행하는 소프트웨어 개발 경험이 있는 전문 프로그래머
■ 통계 컴퓨팅 수업을 듣는 학생

저자/역자 소개

저자 소개

앤톤 츄바킨 박사 (Dr. Anton A. Chuvakin)

로그 관리, SIEM, PCI DSS 컴플라이언스 분야에서 저명한 보안 전문가다. 앤톤은 『보안 전사(Security Warrior)』라는 서적의 공동 저자이고, 『적을 알라: 보안 위협에 관해 알아두기, 2판(Know Your Enemy: Learning About Security Threats, Second Edition)』, 『정보보안 관리 핸드북, 6판 (Information Security Management Handbook)』, 『해커 챌린지 3: 20가지 신규 포렌식 시나리오와 솔루션(Hacker’s Challenge 3: 20 Brand-New Forensic Scenarios & Solutions)』, 『OSSEC 호스트 기반 침입 탐지 가이드(OSSEC Host-Based Intrusion Detection Guide)』 등 여러 도서의 기여 저자다.

로그 관리, 상관관계, 데이터 분석, PCI DSS, 보안 관리 등의 다양한 보안 주제에서 다수의 논문을 출판했다. 그가 운영하는 www.securitywarrior.org는 업계에서 가장 인기있는 블로그 중 하나다. 또한 강의도 하며, 최근 미국, 영국, 싱가포르, 스페인, 러시아 등의 국가에서 열린 보안 컨퍼런스에서 발표했다. 신규 보안 표준 분야에서 일하고 여러 신설 보안 기업의 자문을 맡고 있다.

최근까지 시큐리티 워리어(Security Warrior)라는 회사를 직접 운영했다. 그 전에 퀄리스(Qualys) 사의 PCI 컴플라이언스 솔루션 이사였고, 로그로직(LogLogic) 사의 로깅 책임자로 일하며 보안, 컴플라이언스, 운영에서 로깅의 중요성을 전 세계적으로 교육했다. 로그로직에 있기 전에는 전략 제품 관리라는 역할로 보안 벤더사에서 근무했다. 스토니 브룩 대학(Stony Brook University)에서 박사 학위를 받았다.

케빈 슈미트 (Kevin J. Schmidt)

델 시큐어웍스(Dell SecureWorks) 사의 수석 관리자로 델 사의 부서에서 업계를 선도하는 MSSP 관련 업무를 하며, 회사의 SIEM 플랫폼 주요 설계와 개발을 맡고 있다. 그가 맡은 업무로는 로그 데이터 수집, 상관관계, 분석 등이 있다. 시큐어웍스 이전에는 리플렉스 시큐리티(Reflex Security) 사에서 근무하면서, IPS 엔진과 안티 바이러스 소프트웨어 관련 일을 했다. 그 이전에는 가디드넷(GuardedNet) 사에서 개발자이자 아키텍처로 업계 첫 SIEM 플랫폼 중 하나를 설계했다. 미국 해군 예비군(USNR, United States Navy Reserve)의 사관이기도 하다. 소프트웨어 개발과 설계에 19년, 네트워크 보안 분야에서 11년 경력을 가지고 있다. 컴퓨터 과학 분야의 학사 학위를 보유하고 있다.

크리스토퍼 필립스 (Christopher Phillips)

델 시큐어웍스 사의 책임 소프트웨어 개발자다. 회사의 지능형 위협 서비스 솔루션(Threat Intelligence service platform) 설계와 개발을 맡고 있다. 또한 델 시큐어웍스 시스템과 보안 전문가가 고객의 정보를 분석할 수 있도록 많은 서드파티 공급자로부터 로그와 이벤트 정보를 통합하는 업무와 관련된 팀도 담당하고 있다. 델 시큐어웍스 이전에는 맥케슨 앤 올스크립트(McKesson and Allscripts) 사에서 근무하면서, HIPPA 컴플라이언스, 보안, 의료 시스템을 통합하는 고객을 위해 일했다. 소프트웨어 개발과 설계 분야에서 18년이 넘는 경력을 보유하고 있다. 컴퓨터 과학 학사학위와 MBA를 취득했다.

니샨트 가르그(Nishant Garg)

자바 엔터프라이즈 에디션(Java Enterprise Edition), 스프링(Spring), 하이버네이트(Hibernate), 하둡(Hadoop), 하이브(Hive), 플룸(Flume), 스쿱(Sqoop), 우지(Oozie), 스파크(Spark), 카프카(Kafka), 스톰(Storm), 머하웃(Mahout), 솔라/루씬(Solr/Lucene), 몽고디비(MongoDB), 카우치디비(CouchDB), HBase, 카산드라(Cassandra) 같은 NoSQL과 그린플럼(GreenPlum), 버티카(Vertica) 같은 대규모 병렬 컴퓨터(MPP, Massively Parallel Computer) 등 다양한 분야에서 13년 이상 경력을 쌓은 테크니컬 아키텍트다. 인도 필라니 BITS(Birla Institute of Technology and Science) 대학에서 소프트웨어 시스템 석사학위를 받았다. 현재 임피터스(Impetus) 사 이노베이션(innovation) 랩의 빅데이터 연구개발팀에서 일하고 있다. 유명한 IT 서비스와 금융회사에 애자일(Agile)과 스크럼(SCRUM) 같은 소프트웨어 생명주기 방법론을 적용하며 일해왔고 빅데이터 관련 기술에 대한 강의를 해왔다.

퀸튼 앤더슨(Quinton Anderson)

실시간 연산 시스템(real-time computational system)에 대한 깊은 관심과 배경 지식이 있는 소프트웨어 엔지니어다. 퀸튼의 소프트웨어 이력은 군사 방어 시스템 구축에 필요한 실시간 통신 시스템 설계와 파이낸셜 서비스와 은행 시스템 구축에 필요한 엔터프라이즈 애플리케이션 제작으로 나눌 수 있다. 퀸튼은 특정 기술이나 프로그래밍 언어에 자신을 제약하지 않고 사운드 엔지니어링(sound engineering)과 다중 언어로 처리할 수 있는 프로그램 개발(polyglot development)에 온 힘을 쏟고 있다. 오픈 소스 참여에 열정적이고, 스톰 커뮤니티에서 활발하게 활동하고 있는 멤버인 동시에 스톰 기반의 다양한 솔루션 배포를 즐겨 한다. 퀸튼의 또 다른 관심분야는 머신 러닝(machine learning) 분야 중 하나인 베이시안 신뢰 네트워크(Deep Belief network)이며, 이는 로보틱스와 관련이 있다. 컴퓨팅 이론, 범용 IT 개념, 그리고 베이시안 신뢰 네트워크에 대한 좀 더 많은 정보가 필요하다면 그의 블로그를 참조하기 바란다. 링크드인 프로파일(http://au.linkedin.com/pub/quinton-anderson/37/422/11b/)을 통해 퀸튼에 대한 정보를 찾아볼 수 있고, 깃허브 계정(https://github.com/quintona) 혹은 Bitbucket 계정을 통해 소스 코드를 찾아보거나 기존 소스에 공헌할 수 있다.

노만 매트로프(Norman Matloff)

UC Davis의 전산학과(전 통계학과) 교수다. 병렬 처리 및 통계적 회귀 기법에 대해 연구 중이며, 소프트웨어 개발에서 널리 사용되는 수많은 웹 튜토리얼의 저자다. 뉴욕타임스, 워싱턴포스트, 포브스, LA타임스 등에 여러 칼럼을 기고했으며, 『The Art of Debugging』의 공저자이기도 하다.

옮긴이 소개

구형준

수년간 대기업 IT 환경에서 보안 프로세스 개선, 서비스 보안성 검토, 보안 점검, 보안 솔루션 검토, 보안 교육 등 다양한 경험을 쌓았다. 고려대학교 정보보호대학원에서 디지털 포렌식을 전공했으며, 여러 분야 중, 특히 조사자 관점에서 공격과 방어 부문에 관심이 많다. 현재 뉴욕 주립대에서 컴퓨터 사이언스 박사 과정 중에 있다.

양원국

현재 빅데이터에 전문회사인 KT NexR에 다니며, 하둡(Hadoop) 기반 시스템 운용 및 프로비저닝 개발을 하고 있다. 검색 플랫폼과 RHive 개발을 했고, 이전 직장인 티맥스소프트에서 APM 개발을 했다

조효성

광운대학교 전자공학과를 졸업하고 동대학원 임베디드 소프트웨어 공학과에서 안드로이드와 블루투스를 전공했다. 현재는 오비고에서 웹 개발자로 활동하고 있는 노드에 관심이 많은 행복 개발자이다. 행복한 HMI WebApp 개발팀에서 차량용 플랫폼에 올라가는 웹 앱을 개발하면서 많은 경험과 실력을 쌓고 있다. 번역 작업을 통해, 책을 읽는 모든 사람에게 꼭 도움이 되기를 바라는 마음을 늘 품고 있다. 에이콘출판사에서 출간한 『노드로 하는 웹 앱 테스트 자동화』와 『익스프레스 프레임워크로 하는 노드 웹 앱 프로그래밍』를 번역했다.

권정민

KAIST와 POSTECH에서 산업공학 및 전산학을 전공하고 다양한 데이터 처리 및 분석 업무를 경험한 후 현재 NexR에서 데이터 분석 관련 업무를 하고 있다. 데이터가 화두로 떠오르기 조금 전에 세상이 데이터로 이뤄졌음을 깨달았다는 것에 조그마한 자부심을 느끼며, 데이터에서 가치를 찾아내는 일을 좀더 즐겁고 지속적으로 할 수 있는 방안을 찾고자 하루하루 고민하며 연구한다.

목차

목차
  • 『실전 LOG 분석과 체계적인 관리 가이드』
  • 1장 로그와 나무, 숲: 전체 그림
  • 2장 로그
  • 3장 로그 데이터 소스
  • 4장 로그 저장 기법
  • 5장 사례 연구: syslog-ng
  • 6장 비밀 로깅
  • 7장 분석 목표와 계획, 준비, 검색 대상
  • 8장 간단한 분석 기법
  • 9장 필터링과 정규화, 상관 관계
  • 10장 통계적 분석
  • 11장 로그 데이터 마이닝
  • 12장 보고와 요약
  • 13장 로그 데이터 시각화
  • 14장 로깅 법칙과 실수
  • 15장 로그 분석과 수집 도구
  • 16장 로그 관리 절차: 로그 검토, 대응, 단계적 보고
  • 17장 로깅 시스템 공격
  • 18장 프로그래머를 위한 로깅
  • 19장 로그와 컴플라이언스
  • 20장 로그 분석 시스템 계획
  • 21장 클라우드 로깅
  • 22장 로그 표준과 미래 동향

  • 『아파치 Kafka 따라잡기』
  • 1장 카프카 소개
  • 2장 카프카 설치
  • 3장 카프카 클러스터 설정
  • 4장 카프카 디자인
  • 5장 생산자 작성
  • 6장 소비자 작성
  • 7장 카프카 연동
  • 8장 카프카 도구

  • 『Storm 실시간 빅데이터 분석 플랫폼』
  • 1장 개발 환경 설정
  • 2장 로그 스트림 프로세싱
  • 3장 트라이던트를 이용한 어휘 중요도 측정
  • 4장 분산 원격 절차 호출
  • 5장 다중언어 토폴로지
  • 6장 스톰과 하둡의 통합
  • 7장 실시간 머신 러닝
  • 8장 지속적인 배포
  • 9장 AWS를 활용한 스톰 구동

  • 『빅데이터 분석 도구 R 프로그래밍』
  • 1장 시작하기
  • 2장 벡터
  • 3장 행렬과 배열
  • 4장 리스트
  • 5장 데이터 프레임
  • 6장 팩터와 테이블
  • 7장 R 프로그래밍 구조
  • 8장 R에서 수학과 시뮬레이션 하기
  • 9장 객체 지향 프로그래밍
  • 10장 입력과 출력
  • 11장 문자열 처리
  • 12장 그래픽
  • 13장 디버깅
  • 14장 성능 향상: 속도와 메모리
  • 15장 타 언어와 R을 인터페이스하기
  • 16장 병렬 R
  • 부록 AR 설치하기
  • 부록 B 패키지 설치 및 사용

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안