빅데이터시대, 누구나 쉽게 하는 정보시각화와 인포그래픽

사용자 삽입 이미지
Visualize This 비주얼라이즈 디스
빅데이터 시대의 데이터 시각화+인포그래픽 기법
네이선 야우(Nathan Yau) 지음 | 송용근 옮김 |
클라우드 컴퓨팅 시리즈
424쪽(풀컬러) | 30,000원 | 2012년 4월 26일 출간예정 | 9788960772953
YES24, 교보문고, 알라딘, 인터파크, 강컴, 반디앤루니스, 대교리브로

"그래프가 아니다. 데이터 그래픽이다!"
화려한 스프레드시트 프로그램들은 마우스 클릭 몇 번으로 눈부신 그래프를 그릴 수 있다고 선전하지만, 그게 다는 아니다. 데이터는 실생활의 반영이며, 우리 삶의 이야기를 담고 있는 지표다.

이 책은 데이터 그래픽을 기본 개념부터 응용 방법까지, 초심자의 기준에서 단계적으로 설명한다. 별다른 지식이 없어도 누구나 쉽게 빅데이터를 시각적으로 표현하는 방법을 배울 수 있다. 막대/선 그래프나 파이 차트 같은 단순한 그래프는 물론, 시계열 그래픽, 지도 그래픽, 트리맵과 인터랙티브 차트까지 그릴 수 있게 될 것이다.


데이터를 보여주는 새로운 방법!
누구나 쉽게 만드는 크리에이티브한 데이터 시각화+인포그래픽 제작 가이드!

내가 그의 이름을 불러 주기 전에는/ 그는 다만 /
하나의 몸짓에 지나지 않았다
내가 그의 이름을 불러 주었을 때/ 그는 나에게로 와서/ 꽃이 되었다

오늘날은 어딜 가나 데이터로 가득한 세상입니다. SNS가 큰 위세를 떨치고 있는 수많은 웹에서는 작게 혹은 크게 시시각각 수많은 데이터가 쏟아져나오며, 온라인이 아니라 하더라도 우리가 돈을 지불하는 순간, 교통수단을 활용해 움직이는 순간, 무언가를 구매하고 결정하는 순간. 그 순간순간 인간은 수많은 데이터를 양산해냅니다. 그러나 그 데이터가 모두 정보가 되는 것은 아니죠. 데이터에서 정보를 끌어내는 순간, 데이터는 생명력을 부여받고 모습을 바꾸며 정보라는 꽃으로서 살아남게 되는 것이지요.

바야흐로 데이터가 차고 넘치는 빅데이터(big data) 세상이라는 화두로 세상은 떠들썩합니다. 하지만 데이터가 어떤 의미를 지니려면, 그 데이터를 해석하고, 분석해서, 정보의 형태로 제시할 수 있어야 합니다. 숫자로, 통계로, 표 등으로 데이터를 표현할 수 있는 방법은 부지기수이겠지만 수많은 데이터 표현법 중에서 최고는 데이터 시각화(data visualization)이라고 할 수 있습니다.
 
오늘날, 기술이 발전함에 따라 데이터를 수집하는 일은 매우 수월해졌고, 특히 웹 기술로 언제든지 필요한 데이터에 접근할 수 있게 됐습니다. 이러한 데이터의 풍요는 한편으론 더 나은 결정, 명확한 생각의 소통을 돕는 풍부한 정보로 세상과 자신을 객관적으로 직시할 수 있는 창을 제시해줬습니다.

대규모 데이터를 탐색하거나 이해할 때 가장 좋은 방법은 시각화(visualization)입니다. 시각화란, 숫자를 공간에 배치해서 보여줌으로써 그 패턴을 인지하게 만드는 것이다. 인간에겐 탁월한 패턴 인식 능력이 있습니다. 데이터 시각화는 통계 분석 기법으로는 도저히 알 수 없는 데이터의 이야기를 끌어낼 것입니다.

일례를 한번 살펴보죠. 다음 지도는 2009년 미국의 실업률을 지도로 나타낸 것입니다. 붉고 진하게 표시된 곳은 실업률 10%를 표현하며 색이 옅을수록 실업율이 낮습니다. 이 그림은 하나의 그림으로 천마디 말을 웅변합니다. 동부와 서부 연안 지역의 실업를이 중부지역보다 현저히 높음을 쉽게 알 수 있습니다. 만약 이를 연도별 분포 그래프와 비교해본다면 그 차이와 변동현황을 확연히 이해할 수 있겠지요.

사용자 삽입 이미지
연도별로 표현한다면 더욱 정확한 비교를 얻을 수 있을 것입니다. 아래 그림은 2004년부터 2009년까지의 매년 미국 실업률의 변동 추이를 살펴볼 수 있습니다. 전반적으로 실업률은 점차 높아져갔지만, 특히 동부지역의 실업문제가 심각함을 분명히 볼 수 있습니다.
사용자 삽입 이미지
다음은 미국 통계 연보에서 발췌한 표입니다. 1990년부터 2007년까지 전미 주 별로 결혼율과 이혼율을 자세히 보여주는 통계표입니다. 탁 보시고 감이 오는 분?
사용자 삽입 이미지
깨알같은 표라서? 아무리 크게 확대해서 보여준다고 해도 체감하기엔 쉽지 않을 것입니다. 그렇다면 다음 그래프는 어떨까요?
사용자 삽입 이미지
물론 위 그래프는 미국의 통계결과를 한눈에 보여준 그래프에 불과합니다. 결혼/이혼율도 전체 미국의 40여 년의 통계치를 그래프화 했을 뿐이고요. 그러나 저 위에 나열한 깨알 같은 수치를 이렇게 그래프로 만들어 제시한다면, 아까 이야기한 그때 비로소 데이터가 정보로 다가오는 변곡점이 만들어질 것입니다.

차트와 그래프는 단순히 분석을 위한 도구가 아닙니다. 생각의 소통을 위한 전달체이며, 어떤 지점으로는 농담거리를 전달하는 매기이기도 합니다. 그렇다면 데이터 시각화는 무엇을 말할까요?

보수적인 사람들은 그래프와 차트만이 데이터 시각화라고 생각할 것입니다. 한편 엑셀 스프레드시트로 만든 데이터 아트를 비롯해, 데이터를 표현하는 거의 모든 방법을 데이터 시각화라고 할 수도 있습니다. 데이터 시각화를 어떻게 정의하든, 프리젠테이션에 어떤 차트를 만들어 쓰든 간에, 또한 대규모 데이터를 분석하든, 데이터로 기사를 설명하든 간에, 공통적이고 절대적인 판단 기준은 분명히 존재합니다. 그 내용이 진실이어야 한다는 점입니다.

지난 4.11 총선 당시 수많은 그래프가 뉴스 꼭지에서 쓰였습니다. 그 중 각 정당별 후보자의 재산순위를 기록한 그래프를 보여주는 장면이 있었습니다. 아니, 후보자였는지, 16대 국회의원 재산순위였는지는 정확히 기억이 나질 않습니다. 당시 보도됐던 실제 그래프를 찾아 보여드리기는 힘들지만, 내용은 분명히 기억납니다. 여야 대표 2개 당의 실제 보유 재산액이 그래프로 제시되었는데, 모 현의원(이번에도 선출된) 1명의 재산 보유액이 어마어마했는지라, 그 의원님을 제외하고 나머지 후보진들의 재산액을 비교한 다음, 그 분을 다시 포함해서 그래프를 보여줬습니다. 수치만으로도 어마어마한 차이였고, 그래프도 꽤나 차이가 나는 듯 보였습니다. 그러나 여기서 허점이 등장합니다. 실제로는 30:1 정도의 그래프가 되어야 할 비교 그래프가 약 5:1 정도의 비교 그래프로 제시되었거든요. 바로, 가장 정확해야 할 정보 시각화에서 사람들의 눈을 가려버리는 진실의 왜곡이 일어난 시점입니다.

최근까지만 해도, 정보 시각화나 데이터 그래픽을 만드는 이는 통계학자나 실제 정보와 수치를 다루는 사람들이 아니었습니다. 인포그래픽 디자이너 들이었습니다. 뉴스나 보도, 언론사 등에서 매우 중요시되는 업무이기 때문에 그저 인포그래픽이나 데이터 시각화에는 그저 "이쁘고, 화려하게" 그리는 것만이 능사는 아닙니다.

이 책은 2007년부터
플로잉데이터(flowindata.com)라는 블로그를 운영하며 데이터 시각화, 통계, 디자인 자료와 기사를 만들어온 이 분야의 선구자 네이선 야우(Nathan Yau)가 이 책에서 혁신적인 데이터 표현법을 선보이고, 다양한 데이터로 전하는 스토리텔링이라는 창의적 기법을 설명합니다. 그리고 누구나 쉽게 데이터를 다루고, 정확한 그래픽으로 표현할 수 있는 방법을 나열합니다. 여기에는 통계 분야에서 널리 쓰여온 R프로그래밍 기법부터, 어도비 일러스트레이터, 엑셀, CSS 등 다양한 기술이 활용됩니다.



통계는 데이터의 스토리텔링입니다. 다양한 데이터, 즉 현실 세계의 일면을 갖고, 그 데이터를 분석해서, 전반적인 상관관계, 즉 자신의 주위에서 어떤 일이 일어나는지 밝혀내는 일입니다. 데이터가 전해주는 이야기는 범죄 감소, 보건 확대, 고속도로의 원활한 통행 등(혹은 스스로 더 많은 정보를 얻기 위해서라도) 현실 세계의 문제를 해결하는 데 기여합니다.

대규모 데이터를 탐색하거나 이해할 때 가장 좋은 방법은 시각화(visualization)입니다. 시각화란, 숫자를 공간에 배치해서 보여줌으로써 그 패턴을 인지하게 만드는 것입니다. 인간에겐 탁월한 패턴 인식 능력이 있습니다. 데이터 시각화는 통계 분석 기법으로는 도저히 알 수 없는 데이터의 이야기를 끌어낼 것입니다.

이 책은 그래픽을 만드는 데 필요한 기술을 처음부터 끝까지 예제를 중심으로 설명합니다. 처음부터 읽을 수도 있지만, 필요한 데이터가 있고 머릿속에 시각화에 대한 형상을 미리 그려볼 수 있다면 필요한 부분만 찾아서 읽어도 좋습니다. 내용에 따라 장을 나누고 그 안에 적절한 예제를 담았습니다. 데이터의 세계를 처음 접한다면, 데이터를 보는 관점, 데이터 안에서 찾아야 할 것, 활용 가능한 도구를 설명하는 초반의 내용이 특히 큰 도움이 될 것입니다. 데이터를 구하는 방법과 시각화를 위해 형식화해서 준비하는 과정도 함께 설명합니다. 무엇보다, 시각화 기술은 데이터의 형태와 데이터로 하고자 하는 이야기에 따라 나뉩니다. 다음 그림을 참조해보시죠. (그림을 클릭하면 조금 더 크게 보실 수 있습니다)
사용자 삽입 이미지

데이터 시각화에는 또한 몇 가지 사회의 도움도 필요합니다. 바로 정보의 공유와 공개입니다. 각국 정부와 기업에는 수많은 데이터가 존재합니다. 시각화를 넘어서 이 데이터가 진정한 가치를 지니게 만들려면 데이터의 접근성을 높이고 공개하는 일도 무엇보다 중요할 것입니다. 그리고 반드시 기억해야 할 점이 있습니다. 우리가 데이터를 만지는 것이 아니라 데이터가 스스로 이야기해야 합니다. 그리고 그 일을 돕는 데에 이 책 『Visualize This 비주얼라이즈 디스』가 도움이 되어드릴 수 있으리라 생각합니다.

이 책은 오는 4월 26일 출간되며, 온오프라인 서점 등지에서는 아마 늦어도 다음 주 초면 받아보실 수 있을 것입니다.
YES24, 교보문고, 알라딘, 인터파크, 강컴, 반디앤루니스, 대교리브로에서 절찬 예약판매 중이니 어서 서두르세요.

사용자 삽입 이미지

CC

크리에이티브 커먼즈 라이센스 에이콘출판사에 의해 창작된 이 저작물크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.


  • bum| Apr 24, 2012

    기대합니다. :)

    그런데 전자책으로 발매할 계획이 있으신지요

  • 에이콘| Apr 24, 2012

    안녕하세요. bum 독자님. 기대해주셔서 고맙습니다. 다만, 아직은 전자책 출간 계획이 잡혀 있지 않습니다. 양해해주시면 감사하겠습니다.