빅데이터 시각화 [하둡, R, D3.js, 태블로, 파이썬, 스플렁크로 배우는 빅데이터 시각화]
- 원서명Big Data Visualization :Learn effective tools and techniques to separate big data into manageable and logical components for efficient data visualization (ISBN 9781785281945)
- 지은이제임스 밀러(James D. Miller)
- 옮긴이최준규, 강형건
- ISBN : 9791161753706
- 28,000원
- 2019년 11월 22일 펴냄
- 페이퍼백 | 328쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 데이터 과학
책 소개
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약
빅데이터 시각화를 배우고 이를 익히기 위한 도전 과제(접근 속도, 문맥 이해/추가, 데이터 품질 향상, 결과 표시, 이상점 등)를 다룬다. 가장 대중적인 라이브러리에 초점을 두고, 하둡(Hadoop), R, D3.js, 파이썬, 스플렁크, 태블로(Tableau)와 같은 빅데이터 시각화 도구를 소개한다. 또한 데이터 도구 사용 및 기초 분석론과 같은 주제를 통해 데이터가 다양한 변수와 사용 사례에 따라 어떻게 달라지는지 보여준다.
이 책에서 다루는 내용
■ 빅데이터가 기초 분석론에 미치는 영향
■ 효과적이고 효율적인 빅데이터 시각화 방법
■ 빅데이터를 시각화할 때 직면할 수 있는 도전 과제를 해결하는 다양한 접근법
■ 빅데이터 시각화에 사용되는 개념과 모델
■ 다양한 사례를 실시간으로 시각화하는 방법
■ 스플렁크(Splunk)와 태블로 같은 유명 대시보드 시각화 도구 활용법
■ 태블로와 같은 BI 도구로 시각적인 빅데이터를 통합하는 가치와 과정
■ 빅데이터에 최적화된 시각화 방법 이해
이 책의 대상 독자
데이터 분석가 혹은 빅데이터 분석의 기초 지식을 바탕으로 빅데이터 시각화에 대한 흥미로운 접근 방법을 배우려는 독자를 대상으로 한다. 하둡(Hadoop)과 같은 빅데이터 플랫폼 도구 및 R과 같은 프로그래밍 언어를 어느 정도 알고 있다면 이 책에 나오는 여러 기술을 기반으로 빅데이터 시각화에 특화된 도전 과제를 해결할 수 있는 다양한 접근법을 배울 수 있다.
이 책의 구성
1장, ‘빅데이터 시각화 소개’에서는 데이터 시각화를 간단히 설명하고 다양한 데이터 시각화 개념을 알아본다.
2장, ‘하둡을 사용한 데이터 접근, 속도, 저장’에서는 대용량 데이터에 접근하고 저장할 때 직면할 수 있는 도전 과제에 관한 설명과 실행 예제를 통해 다양한 해결 방법을 소개한다.
3장, ‘R을 사용한 데이터의 이해’에서는 R을 사용해 빅데이터에 문맥을 추가하는 개념을 설명한다.
4장, ‘빅데이터 품질’에서는 분류된 데이터 품질과 빅데이터로 인해 발생할 수 있는 품질 문제에 관한 설명과 예제를 통해 그 해결 방법을 제공한다.
5장, ‘D3로 결과 표현하기’에서는 빅데이터 분석 프로젝트의 결과를 웹 브라우저와 데이터 기반 문서(D3, Data-Driven Documents)를 활용해 표현할 수 있는 데이터 시각화 절차를 설명한다.
6장, ‘빅데이터를 위한 대시보드-태블로’에서는 대시보드를 구성할 수 있는 데이터 시각화 도구인 태블로(Tableau)에 관한 소개와 실행 예제를 통해 빅데이터 분석 결과를 실시간 대시보드 형태로 표시하는 방법을 설명한다.
7장, ‘파이썬을 사용한 이상점 다루기’에서는 빅데이터 시각화와 관련된 이상점(outliers)과 기타 변칙 사례 처리 방법을 설명하고 파이썬으로 작성된 실행 예제로 효과적인 데이터 처리 방법을 제공한다.
8장, ‘빅데이터 운영 인텔리전스 구축하기 - 스플렁크’에서는 스플렁크(Splunk)를 활용해 빅데이터의 가치를 높일 수 있는 운영 인텔리전스를 구축하는 예제를 제시한다.
목차
목차
- 1장. 빅데이터 시각화 소개
- 데이터 시각화의 개념
- 데이터 시각화의 전통적 개념
- 교육 기회
- 빅데이터 시각화의 도전 과제
- 빅데이터
- 엑셀을 이용한 데이터 측정
- 빅데이터를 더 높은 수준으로 확대하기
- 3V
- 분류
- 시각화 철학
- 빅데이터 시각화 접근법
- 접근, 속도, 저장
- 하둡 첫발 딛기
- 문맥
- 품질
- 요약
- 데이터 시각화의 개념
- 2장. 하둡을 사용한 접근, 속도, 저장
- 하둡에 관하여
- 하둡의 대안
- IBM 오픈 플랫폼
- 로그 파일과 엑셀
- R 스크립팅 예제
- 고려 사항
- 하둡과 빅데이터
- 하둡 첫발 딛기
- 하둡 프로젝트를 위한 AWS
- 실행 예제 1
- 환경 정의
- 시작하기
- 데이터 업로드하기
- 데이터 조작하기
- 결론
- 예제 2
- 정렬하기
- IP 구문 분석하기
- 요약
- 하둡에 관하여
- 3장 R을 사용한 데이터의 이해
- 정의 및 설명
- 비교
- 대조
- 경향
- 산포
- 문맥 추가하기
- R에 관하여
- R과 빅데이터
- 실행 예제 1
- R로 파고들기
- 실행 예제 2
- 정의 및 설명
- 루핑 사용하지 않기
- 비교
- 대조
- 경향
- 산포
- 요약
- 정의 및 설명
- 4장. 빅데이터 품질 다루기
- 데이터 품질 범주
- 데이터 매니저
- 데이터 매니저와 빅데이터
- 실행 예제 1
- 데이터 재구성
- 실행 예제 2
- 일관성
- 신뢰성
- 적합성
- 접근성
- 요약
- 5장. D3를 사용해 결과 표시하기
- D3란?
- D3와 빅데이터
- 몇 가지 기본 예제
- D3 시작하기
- 중단 시간
- 시각화 전환
- 다중 도넛
- 더 많은 예제
- 막대그래프 시각화의 또 다른 트위스트
- 예제 하나 더 보기
- 샘플 선택하기
- 요약
- 6장. 빅데이터를 위한 대시보드 - 태블로
- 태블로란?
- 태블로와 빅데이터
- 예제 1 - 판매 트랜잭션
- 컨텍스트 추가
- 데이터 랭글링
- 태블로 대시보드
- 통합 문서 저장
- 결과물 프리젠테이션하기
- 기타 도구들
- 예제 2
- 목표는 무엇인가? - 비즈니스 목적과 대상
- 판매와 지출
- Sales v Spend, Spend as % of Sales Trend
- 테이블 및 표시기
- 모두 합치기
- 요약
- 7장. 파이썬을 사용해 이상점 다루기
- 파이썬이란?
- 파이썬과 빅데이터
- 이상점
- 이상점 옵션들
- 이상점 식별하기
- 몇 가지 기본 예제
- 수익성을 위한 슬롯머신 테스트
- 더 많은 예제
- 주제별 모집단
- 집중의 철학
- 요약
- 8장. 빅데이터 운영 인텔리전스 구축하기 - 스플렁크
- 스플렁크란
- 스플렁크 및 빅데이터
- 스플렁크 시각화 - 실시간 로그 분석
- 스플렁크로 모니터링하기
- 스플렁크 지정하기
- 행과 열 설정하기
- 스플렁크 및 오류 처리
- 스플렁크 시각화 - 로그를 더 깊이 살펴보기
- 새 필드
- 대시보드 편집
- 대시보드에 대해 더 알아보기
- 요약
- 스플렁크란