책 소개
요약
데이터 시각화의 기본 원리를 이해하고 실무에 바로 활용할 수 있는 예제를 실습할 수 있도록 구성했다. 어떤 그래프는 성공적인 반면에 다른 그래프는 이상하게 보이는 이유를 알려주고, 데이터로부터 고품질 차트를 만드는 방법을 직접 재현해 볼 수 있도록 했으며, 자료의 왜곡 없이 효과적인 방식으로 데이터 시각화에 대해 생각하는 방법을 설명한다.
또한 R 프로그래밍 언어와 R을 위한 시각화 라이브러리인 ggplot2를 전문적으로 다룰 수 있도록 알려주며, 일련의 시각화 사례를 통해 단일 변수 요약부터 시작해 복잡한 그래프로 발전시켜 나가는 방법을 단계별로 보여준다.
효과적인 그래픽은 아이디어를 전달하거나 데이터를 더 잘 이해하기 위한 좋은 방법이다. 이 책은 학생부터 연구자까지, 실무에서 데이터를 시각화하고 연구 결과를 최대한 활용하는 데 필요한 실용적인 기술을 제공한다.
이 책의 대상 독자
그래프와 차트에서 수집한 정보의 구조를 탐색하고 배울 수 있다. 훌륭한 데이터 시각화를 통해 아이디어와 결과물을 다른 사람에게 쉽게 전달할 수 있다.
다른 사람이 만든 그래프를 파악하는 안목을 기르는 가장 좋은 방법은 데이터로 효과적인 그래프를 만들어보는 것이다. 연구 논문, 비즈니스 프레젠테이션, 공공 정책 지지 자료나 언론 보도 등 어떤 그래프더라도 말이다. 이 책은 좋은 시각화는 어떻게 이뤄내는 것인지 가르쳐준다.
이 책에서 다루는 내용
R과 ggplot을 사용해 데이터를 알아보기 위한 원칙과 실습에 관한 실용적인 입문서다. R은 강력하고 광범위하게 사용되며 데이터 분석을 위해 자유롭게 사용할 수 있는 프로그래밍 언어다. 독자는 이 책을 접하기 전에 R을 사용해본 후 ggplot을 알아보는 것에 관심을 가졌거나, 아니면 R과 ggplot을 써 본 적은 없지만 데이터를 그래프로 나타내고 싶어할 수도 있다. 여러분이 R에 대한 사전 지식이 있다고 가정하지 않겠다.
필요한 소프트웨어를 설치한 후에는 시각화의 기본 원칙을 몇 가지 알아본다. 좋은 도표(plot)의 심미적인 측면뿐만 아니라 길이와 절대적이고 상대적인 크기, 방향, 모양, 색상 같은 속성을 인식하는 방식에 기본 원칙의 효과가 어떻게 뿌리를 두고 있는지에 초점을 맞춘다. 그런 다음 R의 강력하고 다양하며 널리 사용되는 시각화 패키지인 ggplot2(Wickham, 2016)를 사용해 도표를 생성하고 세분화하는 방법을 배운다. ggplot2 라이브러리는 “그래픽 문법(grammar of graphics)”을 구현한다(Wilkinson, 2005). 이 접근법은 데이터의 속성과 그래픽 표현 사이의 관계를 표현해 시각화를 생성하는 방법을 제공한다.
예제를 통해 산점도 및 단일 변수의 요약에서 시작해 좀 더 복잡한 그래픽으로 이동하면서 도표를 한 부분씩 작성하는 방법을 배운다. 주제는 연속적이고 범주화된 플로팅을 포함한다. 다루는 주제에는 연속 및 범주형 변수 플로팅과 그래픽에 대한 정보 레이어, 그룹화된 데이터를 분할(faceting)해 만드는 효과적인 “복합적인 소형(small multiple)” 도표를 포함한다. 그리고 선형 변형, 오차 범위 및 박스플롯과 같은 그래프에서 시각적으로 요약된 정보를 쉽게 생성할 수 있도록 데이터를 변환한다. 또 지도를 만들거나 국가나 주 단위의 데이터를 제시할 때 고려할 가치가 있는 지도에 관한 대안을 제시한다. 또한 데이터셋을 직접 사용하지 않고 통계 모형의 추정치를 사용하는 경우도 다룬다. 여기에서 데이터의 주요 특징(key feature) 강조, 특정 관심 항목에 레이블 지정, 도표에 주석 달기, 전체 외관 변경과 같은 일반적인 작업을 수행하기 위해 도표를 정제하는 프로세스를 탐색한다. 마지막으로 그래픽 형식의 결과를 다양한 형식으로 여러 분야의 잠재 고객에게 제공할 수 있는 몇 가지 전략을 살펴볼 것이다.
이 책을 읽어 나가면서 R로 데이터를 조작하기 위한 매우 유용한 관용구(idiom)와 함수, 테크닉을 점차 배울 수 있다. 특히 ggplot이 속한 타이디버스(tidyverse) 라이브러리가 제공하는 도구를 배우게 된다. (쿡북은 아니지만) 1장을 읽으면 책의 거의 모든 그림을 만드는 데 사용되는 코드를 보고 이해할 수 있고 대부분의 경우 그림이 조금씩 단계적으로 쌓여 가는 것을 알 수 있다. 이 책의 설계대로 따라간다면 결국에는 책의 코드를 작성하고 스스로 주석을 추가한 코드를 포함한 버전을 만들 수 있을 것이다. 시각화의 규칙이나 원리에 대한 심층적인 내용을 다루지는 않겠지만 1장의 논의와 책 전반에 적용된 내용을 통해 단순한 그래프 유형 목록 이상을 생각해볼 수 있다. 책을 끝마치면 그림을 보고 ggplot의 문법, 다양한 레이어, 모양 및 데이터가 어떻게 결합돼 완성된 도표를 만들 수 있는지 이해할 수 있을 것이다.
상세 이미지
목차
목차
- 1장. 데이터 보기
- 1.1 왜 데이터를 보는가?
- 1.2 무엇이 나쁜 결과를 만드는가?
- 1.3 지각 및 데이터 시각화
- 1.4 시각 작업과 그래프 해석
- 1.5 데이터를 표현하기 위한 채널
- 1.6 정직과 바른 판단의 문제
- 1.7 그래프에 대해 분명히 생각해보기
- 1.8 다음 알아볼 내용
- 2장. 시작하기
- 2.1 R마크다운을 사용해 일반 텍스트로 작업하기
- 2.2 RStudio로 R 사용하기
- 2.3 R에 관해 알아야 할 것들
- 2.4 인내심을 가지고 R을 대하라
- 2.5 R에 데이터 가져오기
- 2.6 첫 번째 그림 만들기
- 2.7 다음 알아볼 내용
- 3장. 도표 만들기
- 3.1 ggplot의 동작 방식
- 3.2 깔끔한 데이터
- 3.3 매핑, 데이터를 시각 요소에 연결하기
- 3.4 레이어별로 도표 만들기
- 3.5 미적 요소 매핑과 설정하기
- 3.6 미적 요소는 geom마다 매핑될 수 있다
- 3.7 작업 저장하기
- 3.8 다음 알아볼 내용
- 4장. 적절한 숫자 표시하기
- 4.1 무색의 초록 데이터가 맹렬하게 잠을 잔다(Colorless Green Data Sleeps Furiously)
- 4.2 그룹화 데이터와 “그룹” 미적특질
- 4.3 소형 다중 도표를 만드는 패싯
- 4.4 geom은 데이터를 변환할 수 있다
- 4.5 약간 어색한 방식으로 표시된 빈도 도표
- 4.6 히스토그램과 밀도 도표
- 4.7 필요할 때 변형 방지하기
- 4.8 다음 알아볼 내용
- 5장. 그래프 표, 레이블 추가, 메모 작성
- 5.1 파이프를 사용한 데이터 요약
- 5.2 그룹 또는 카테고리별 연속 변수
- 5.3 텍스트를 직접 플롯하기
- 5.4 이상치 레이블링
- 5.5 도표 영역에 쓰기와 그리기
- 5.6 척도, 가이드, 테마 이해하기
- 5.7 다음 알아볼 내용
- 6장. 모형을 사용한 작업
- 6.1 범례와 함께 한 번에 여러 적합 보여주기
- 6.2 모델 객체 내부 보기
- 6.3 모형 기반 그래픽을 올바르게 얻기
- 6.4 그래프로 예측 생성
- 6.5 broom의 깔끔한 모델 객체
- 6.6 그룹화 분석 및 리스트 열
- 6.7 플롯 한계 효과
- 6.8 복잡한 설문 조사 도표
- 6.9 다음 알아볼 내용
- 7장. 지도 그리기
- 7.1 주 단위의 미국 지도 데이터
- 7.2 원형의 미국 단계구분도
- 7.3 스테이트빈
- 7.4 소형 복합 지도
- 7.5 정말 공간적인 데이터인가?
- 7.6 다음 알아볼 내용
- 8장. 도표의 개선
- 8.1 유리한 색상 사용
- 8.2 색상과 텍스트가 함께 있는 레이어
- 8.3 테마를 활용한 플롯 외관 변경
- 8.4 실질적인 방식으로 테마 요소 사용
- 8.5 사례 연구
- 8.6 다음 알아볼 내용
- 부록