Top

데이터 시각화 기본기 다지기 [데이터 시각화의 기본 원리부터 실무에 바로 활용 가능한 R 실용 예제까지]

  • 원서명Data Visualization: A Practical Introduction (ISBN 9780691181622)
  • 지은이키런 힐리(Kieren Healy)
  • 옮긴이지은, 이다양
  • ISBN : 9791161754499
  • 28,000원
  • 2020년 10월 22일 펴냄
  • 페이퍼백 | 326쪽 | 203*254mm
  • 시리즈 : 데이터 과학

책 소개

요약

데이터 시각화의 기본 원리를 이해하고 실무에 바로 활용할 수 있는 예제를 실습할 수 있도록 구성했다. 어떤 그래프는 성공적인 반면에 다른 그래프는 이상하게 보이는 이유를 알려주고, 데이터로부터 고품질 차트를 만드는 방법을 직접 재현해 볼 수 있도록 했으며, 자료의 왜곡 없이 효과적인 방식으로 데이터 시각화에 대해 생각하는 방법을 설명한다.
또한 R 프로그래밍 언어와 R을 위한 시각화 라이브러리인 ggplot2를 전문적으로 다룰 수 있도록 알려주며, 일련의 시각화 사례를 통해 단일 변수 요약부터 시작해 복잡한 그래프로 발전시켜 나가는 방법을 단계별로 보여준다.
효과적인 그래픽은 아이디어를 전달하거나 데이터를 더 잘 이해하기 위한 좋은 방법이다. 이 책은 학생부터 연구자까지, 실무에서 데이터를 시각화하고 연구 결과를 최대한 활용하는 데 필요한 실용적인 기술을 제공한다.

이 책의 대상 독자

그래프와 차트에서 수집한 정보의 구조를 탐색하고 배울 수 있다. 훌륭한 데이터 시각화를 통해 아이디어와 결과물을 다른 사람에게 쉽게 전달할 수 있다.
다른 사람이 만든 그래프를 파악하는 안목을 기르는 가장 좋은 방법은 데이터로 효과적인 그래프를 만들어보는 것이다. 연구 논문, 비즈니스 프레젠테이션, 공공 정책 지지 자료나 언론 보도 등 어떤 그래프더라도 말이다. 이 책은 좋은 시각화는 어떻게 이뤄내는 것인지 가르쳐준다.

이 책에서 다루는 내용

R과 ggplot을 사용해 데이터를 알아보기 위한 원칙과 실습에 관한 실용적인 입문서다. R은 강력하고 광범위하게 사용되며 데이터 분석을 위해 자유롭게 사용할 수 있는 프로그래밍 언어다. 독자는 이 책을 접하기 전에 R을 사용해본 후 ggplot을 알아보는 것에 관심을 가졌거나, 아니면 R과 ggplot을 써 본 적은 없지만 데이터를 그래프로 나타내고 싶어할 수도 있다. 여러분이 R에 대한 사전 지식이 있다고 가정하지 않겠다.
필요한 소프트웨어를 설치한 후에는 시각화의 기본 원칙을 몇 가지 알아본다. 좋은 도표(plot)의 심미적인 측면뿐만 아니라 길이와 절대적이고 상대적인 크기, 방향, 모양, 색상 같은 속성을 인식하는 방식에 기본 원칙의 효과가 어떻게 뿌리를 두고 있는지에 초점을 맞춘다. 그런 다음 R의 강력하고 다양하며 널리 사용되는 시각화 패키지인 ggplot2(Wickham, 2016)를 사용해 도표를 생성하고 세분화하는 방법을 배운다. ggplot2 라이브러리는 “그래픽 문법(grammar of graphics)”을 구현한다(Wilkinson, 2005). 이 접근법은 데이터의 속성과 그래픽 표현 사이의 관계를 표현해 시각화를 생성하는 방법을 제공한다.
예제를 통해 산점도 및 단일 변수의 요약에서 시작해 좀 더 복잡한 그래픽으로 이동하면서 도표를 한 부분씩 작성하는 방법을 배운다. 주제는 연속적이고 범주화된 플로팅을 포함한다. 다루는 주제에는 연속 및 범주형 변수 플로팅과 그래픽에 대한 정보 레이어, 그룹화된 데이터를 분할(faceting)해 만드는 효과적인 “복합적인 소형(small multiple)” 도표를 포함한다. 그리고 선형 변형, 오차 범위 및 박스플롯과 같은 그래프에서 시각적으로 요약된 정보를 쉽게 생성할 수 있도록 데이터를 변환한다. 또 지도를 만들거나 국가나 주 단위의 데이터를 제시할 때 고려할 가치가 있는 지도에 관한 대안을 제시한다. 또한 데이터셋을 직접 사용하지 않고 통계 모형의 추정치를 사용하는 경우도 다룬다. 여기에서 데이터의 주요 특징(key feature) 강조, 특정 관심 항목에 레이블 지정, 도표에 주석 달기, 전체 외관 변경과 같은 일반적인 작업을 수행하기 위해 도표를 정제하는 프로세스를 탐색한다. 마지막으로 그래픽 형식의 결과를 다양한 형식으로 여러 분야의 잠재 고객에게 제공할 수 있는 몇 가지 전략을 살펴볼 것이다.
이 책을 읽어 나가면서 R로 데이터를 조작하기 위한 매우 유용한 관용구(idiom)와 함수, 테크닉을 점차 배울 수 있다. 특히 ggplot이 속한 타이디버스(tidyverse) 라이브러리가 제공하는 도구를 배우게 된다. (쿡북은 아니지만) 1장을 읽으면 책의 거의 모든 그림을 만드는 데 사용되는 코드를 보고 이해할 수 있고 대부분의 경우 그림이 조금씩 단계적으로 쌓여 가는 것을 알 수 있다. 이 책의 설계대로 따라간다면 결국에는 책의 코드를 작성하고 스스로 주석을 추가한 코드를 포함한 버전을 만들 수 있을 것이다. 시각화의 규칙이나 원리에 대한 심층적인 내용을 다루지는 않겠지만 1장의 논의와 책 전반에 적용된 내용을 통해 단순한 그래프 유형 목록 이상을 생각해볼 수 있다. 책을 끝마치면 그림을 보고 ggplot의 문법, 다양한 레이어, 모양 및 데이터가 어떻게 결합돼 완성된 도표를 만들 수 있는지 이해할 수 있을 것이다.

상세 이미지

저자/역자 소개

지은이의 말

내 목표는 아이디어와 데이터 시각화 방법을 합리적이고 이해할 수 있으며 재현 가능한 방식으로 소개하는 것이다. 에드워드 R. 터프티(Edward R. Tufte)가 지은 『The Visual Display of Quantitative Information(정량적 정보의 시각적 표시)』(Graphics, 1983)과 같은 데이터 시각화 관련 일부 고전 연구는 좋은 작업과 나쁜 작업의 수많은 예와 함께 그래프를 구성하고 평가하기 위해 필요한 규칙을 일반적인 취향에 맞추고 경험에 근거해 제시한다. 현재 번영을 누리고 있는 연구 분야에서, 최근의 연구는 성공한 그래픽과 실패한 그래픽의 인지 기반에 관한 훌륭한 토론이 이뤄지며 여러 설득력 있고 명쾌한 예시를 제공하고 있다(Ware, 2008). 다른 책들은 다른 상황에서 데이터를 그래프로 표시하는 방법에 대한 훌륭한 조언을 제공하지만(Cairo 2013; Few 2009; Munzer, 2014) 책에 있는 그래프를 만드는 데 사용한 도구에 대해 가르쳐주지 않는다. 이는 사용된 소프트웨어가 태블로(Tableau), 마이크로소프트 엑셀, SPSS와 같이 자체적으로 시각적 안내 자료를 필요로 하며 마우스로 이용 가능한 (독점적이며 값비싼) 특정 애플리케이션이기 때문일 수 있다. 혹은 필요한 소프트웨어는 무료로 사용할 수 있지만 사용법을 보여주는 것은 책의 목표가 아니다(Cleveland 1994). 반대로 많은 종류의 도표에 관한 코드 “요리법(recipe)”을 제공하는 훌륭한 쿡북도 있다(Chang 2013). 그러나 그러한 이유로 결과 이면에 있는 원칙을 소개할 시간이 없다. 끝으로 이 책에서도 나오는 특정 소프트웨어 도구와 라이브러리를 자세히 알려주는 책도 있다(Wickham 2016). 이는 독자가 모르는 배경지식을 전제로 하기도 해 초보자가 소화하기 힘들 때가 있다.
방금 인용한 책들은 모두 시간을 들여 읽어볼 만한 가치가 있다. 그러나 사람들에게 데이터로 그래픽을 만드는 방법을 가르칠 때, 나는 당신이 무언가를 하는 이유를 설명하고 동기를 부여할 도입부가 필요하다는 것을 반복적으로 발견했다. 하지만 책에 나오는 이미지들을 만드는 데 필요한 세부사항들을 건너뛰지 않는다. 이 책에는 크게 두 가지 목표가 있다. 첫째, 본문의 거의 모든 모습을 스스로 재현할 수 있는 핵심에 도달하기를 바란다. 둘째, 코드가 왜 그런 식으로 작성되는지 이해했으면 한다. 그러면 자신의 데이터를 볼 때 머릿속에서 거친 그림에서부터 화면이나 인쇄물에 표현되는 고품질 그래픽에 이르는 능력에 확신을 가질 수 있다.

지은이 소개

키런 힐리(Kieren Healy)

듀크대학교 사회학과 교수로 재직 중이다. 평소 청중과 독자에게 명확하고 일관되며 재현 가능한 방식으로 자료를 제시하는 일을 한다. 이 책은 최신 도구를 이용해 자료를 제시하는 일을 수행하는 방법에 관한 것이다. 시각화를 위한 도구를 기초부터 가르쳐주고 R과 ggplot으로 빠르게 수행할 수 있게 해준다. 그만큼 학습에 꼭 알맞고 가르치기에도 안성맞춤이다.

옮긴이의 말

이 책을 펼쳐 들었다면 여러분은 시각화에 관심이 있는 분들일 것이다. 시각화에 관한 책은 이미 많지만 “DO & DON’T” 방식으로 원리 원칙을 소개하는 것만으로는 부족하다. 결국 내 것으로 만들기 위해서는 연습이 필요하다. 이 책은 기본 원칙뿐만 아니라 그래프를 똑같이 만들어낼 수 있는 실습 과정을 모두 담고 있다. 책의 순서대로 이론을 익히고 예제 코드를 차근차근 따라 해보면 충분한 연습이 될 것이다.
그런데 왜 R일까? 통계용 혹은 논문 작성을 위해 쓰던 R 언어가 빅데이터의 확산과 데이터 과학의 발달을 맞아 저변이 넓어지고 있다. 프로그래밍 언어라고 해서 지레 겁먹을 필요는 없다(저자도 프로그래머가 아니며 주변에 실재하는 사회과학 데이터를 청중에게 전달하는 직업을 갖고 있다). 마이크로소프트 엑셀을 다룰 줄 알고 피봇 테이블까지 써 봤다면 기본 문법과 개념을 익히는 데는 크게 어렵지 않을 것이다. 더구나 R을 이용하면 대량의 데이터를 엑셀보다 훨씬 빠르게 편집하거나 필터링하고 집계할 수 있어 매우 유용하다. R에는 이렇게 집계한 데이터를 시각화해주는 편리한 라이브러리 ggplot2를 필두로 더 유용한 라이브러리와 그 밖의 새로운 기능이 속속들이 개발되고 있다.
마지막 장까지 완독하면서 이런 기술(skill)을 모두 익히고 나면 본질의 문제 즉, 데이터를 읽어내는 눈을 갖는 것이 중요하다는 깨달음을 얻을 것이다. 이 책은 그 다음 단계로 나아가는 데 길잡이가 돼 줄 수 있다. 원제는 『Data Visualization: A Practical Introduction』이지만, ‘The Art of Data Visualization(데이터 시각화의 비법 혹은 비책)’이라고 붙여도 좋았을 듯싶다.
요컨대 이론적 기초 없이 무턱대고 코딩부터 시작하면 원칙을 놓친 결과물이 나온다. 반대로 시각화의 원리와 원칙부터 익혔다면 이제 그 다음은 어떻게 해야 할지, 이론을 실제로 어떻게 구현하고 만들어내는지가 궁금할 것이다. 이 책은 어느 한쪽에 치우치지 않고 이론과 실습 두 가지를 균형 있게 소개한다. 온라인에서 별도로 예시와 코드를 찾을 필요가 없다. 갭마인더(gapminder) 데이터셋처럼 사회현상과 관련된 데이터를 직접 그림과 도표로 바꾸다 보면 자신이 가진 데이터와 현실 문제에 어떻게 적용하면 좋을지 아이디어가 떠오를 것이다.

옮긴이 소개

지은

인포메이션 아키텍처, 데이터 시각화, 콘텐츠 큐레이션 등 다방면에 관심이 많다. 장르를 불문하고, 글을 짓는 작가들 그리고 어떤 언어로 된 글을 다른 언어의 글로 옮기는 데 힘을 쏟고 있는 모든 이에게 경의를 표한다.

이다양

사용자의 데이터를 쉽게 정리해서 보여주는 UX 디자이너로 일하며, 더 다양한 삶이 공존할 수 있는 내일을 꿈꾼다.

목차

목차
  • 1장. 데이터 보기
  • 1.1 왜 데이터를 보는가?
  • 1.2 무엇이 나쁜 결과를 만드는가?
  • 1.3 지각 및 데이터 시각화
  • 1.4 시각 작업과 그래프 해석
  • 1.5 데이터를 표현하기 위한 채널
  • 1.6 정직과 바른 판단의 문제
  • 1.7 그래프에 대해 분명히 생각해보기
  • 1.8 다음 알아볼 내용

  • 2장. 시작하기
  • 2.1 R마크다운을 사용해 일반 텍스트로 작업하기
  • 2.2 RStudio로 R 사용하기
  • 2.3 R에 관해 알아야 할 것들
  • 2.4 인내심을 가지고 R을 대하라
  • 2.5 R에 데이터 가져오기
  • 2.6 첫 번째 그림 만들기
  • 2.7 다음 알아볼 내용

  • 3장. 도표 만들기
  • 3.1 ggplot의 동작 방식
  • 3.2 깔끔한 데이터
  • 3.3 매핑, 데이터를 시각 요소에 연결하기
  • 3.4 레이어별로 도표 만들기
  • 3.5 미적 요소 매핑과 설정하기
  • 3.6 미적 요소는 geom마다 매핑될 수 있다
  • 3.7 작업 저장하기
  • 3.8 다음 알아볼 내용

  • 4장. 적절한 숫자 표시하기
  • 4.1 무색의 초록 데이터가 맹렬하게 잠을 잔다(Colorless Green Data Sleeps Furiously)
  • 4.2 그룹화 데이터와 “그룹” 미적특질
  • 4.3 소형 다중 도표를 만드는 패싯
  • 4.4 geom은 데이터를 변환할 수 있다
  • 4.5 약간 어색한 방식으로 표시된 빈도 도표
  • 4.6 히스토그램과 밀도 도표
  • 4.7 필요할 때 변형 방지하기
  • 4.8 다음 알아볼 내용

  • 5장. 그래프 표, 레이블 추가, 메모 작성
  • 5.1 파이프를 사용한 데이터 요약
  • 5.2 그룹 또는 카테고리별 연속 변수
  • 5.3 텍스트를 직접 플롯하기
  • 5.4 이상치 레이블링
  • 5.5 도표 영역에 쓰기와 그리기
  • 5.6 척도, 가이드, 테마 이해하기
  • 5.7 다음 알아볼 내용

  • 6장. 모형을 사용한 작업
  • 6.1 범례와 함께 한 번에 여러 적합 보여주기
  • 6.2 모델 객체 내부 보기
  • 6.3 모형 기반 그래픽을 올바르게 얻기
  • 6.4 그래프로 예측 생성
  • 6.5 broom의 깔끔한 모델 객체
  • 6.6 그룹화 분석 및 리스트 열
  • 6.7 플롯 한계 효과
  • 6.8 복잡한 설문 조사 도표
  • 6.9 다음 알아볼 내용

  • 7장. 지도 그리기
  • 7.1 주 단위의 미국 지도 데이터
  • 7.2 원형의 미국 단계구분도
  • 7.3 스테이트빈
  • 7.4 소형 복합 지도
  • 7.5 정말 공간적인 데이터인가?
  • 7.6 다음 알아볼 내용

  • 8장. 도표의 개선
  • 8.1 유리한 색상 사용
  • 8.2 색상과 텍스트가 함께 있는 레이어
  • 8.3 테마를 활용한 플롯 외관 변경
  • 8.4 실질적인 방식으로 테마 요소 사용
  • 8.5 사례 연구
  • 8.6 다음 알아볼 내용

  • 부록

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안