데이터의 미학 Beautiful Data [빅데이터 기술에서 데이터 과학자까지, 데이터에 관한 모든 것]
- 원서명Beautiful Data: The Stories Behind Elegant Data Solutions (ISBN 9780596157111)
- 지은이토비 세가란, 제프 해머바커 외
- 옮긴이공상휘
- ISBN : 9788960774445
- 35,000원
- 2013년 06월 28일 펴냄 (절판)
- 페이퍼백 | 536쪽 | 188*250mm
- 시리즈 : 데이터 과학
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
여러 분야의 데이터 처리에 대한 다양한 시도와 경험에 직접 참여한 전문가들이 들려주는 생생한 기록들이 담긴 책이다. 최근 전 세계적으로 큰 관심을 받고 있는 빅데이터 적용 사례부터 정치, 경제, 사회, 과학, 개인 생활은 물론, 예술 분야까지 다양한 데이터 활용 사례와 적용된 소프트웨어 기술이 이야기를 들려주듯 자연스럽게 기술되어 있다. 소프트웨어에 대한 세부적인 기술을 알지 못하는 독자라도 새로운 데이터 처리 기술과 활용 경험을 쉽게 공감할 수 있을 것이다.
[ 소개 ]
“실로 데이터는 컴퓨터 애플리케이션의 차세대 ‘인텔 인사이드(Intel inside)’가 될 것임이 분명하다. 이 책에서 데이터 모델링과 설계 업계의 세계적 선두 주자들은 자신들의 프로젝트가 새로운 방식으로 어떻게 데이터 영향력을 제고하는지를 소개한다. 데이터와 문제 해결에 미래 지향적 관점을 지닌 사람이라면 누구나 꼭 읽어야 할 책이다.”
- 팀 오라일리(Tim O’Reilly), 오라일리미디어 설립자이자 CEO
데이터 처리 분야 최고 전문가들의 이야기를 한 권의 책에서 만나다! 데이터를 이용해 얼마나 광범위하고 멋진 작업을 할 수 있는지를 살펴볼 수 있다. 이 책에서 최고의 데이터 활용가 39인은 자기 분야의 다양한 프로젝트 과정에서 경험한 단순하면서도 우아한 솔루션 개발 방법을 제시한다. 화성 탐사선에서 라디오헤드(Radiohead) 비디오에 이르는 다양한 주제에 더불어 그 이상의 이야기를 담고 있다.
[ 이 책에서 다루는 내용 ]
■ 방대한 온라인 데이터에 숨은 기회와 도전의 실체
■ 지도와 데이터의 매시업을 이용해 도시 범죄의 경향을 시각화하는 방법
■ 크라우드소싱(crowdsourcing)과 투명성으로 인해 제약 연구가 발전하게 된 배경
■ 새로운 데이터가 기존의 데이터와 중첩됐을 때 사용자에게 경각심을 일으키는 방법
■ DNA 데이터를 가공하기 위해 필요한 거대한 인프라
[ 이 책의 구성 ]
각 장은 데이터의 수집부터 데이터의 저장과 조직화, 조회, 시각화, 분석으로 이어지는 대략적인 흐름으로 구성되어 있다.
1장, ‘데이터 속에서 생활 찾기’는 네이선 야우가 기고한 것으로, 최근 사적인 데이터 수집 분야와 관련된 두 프로젝트에서 실제 숨겨진 동기와 도전의 과정을 볼 수 있다.
2장, 조너선 폴렛과 매튜 홈의 ‘아름다운 사람들: 데이터 수집 방법을 설계할 때 사용자를 항상 고려하기’는 웹에서 사람들의 참여를 통해 데이터를 수집할 때 신뢰와 설득, 테스팅이 얼마나 중요한지를 다룬다.
3장, 존 휴즈의 ‘화성 탐사 임베디드 이미지 데이터 처리’는 우주 비행 시 제약 조건을 감안해 데이터 처리 시스템을 설계할 때의 어려움과 노력을 이야기한다.
4장, 브라이언 쿠퍼와 라규 라마크리슈난, 우트크라시 스리바스타바가 공동 기고한 ‘PNUTShell의 클라우드 스토리지 설계’는 야후가 현대적 웹 애플리케이션을 지원하기 위해 전 세계에 분산된 데이터 센터를 하나의 스토리지 플랫폼으로 전환하기 위해 설계했던 소프트웨어를 소개한다.
5장, 제프 해머바커의 ‘인포메이션 플랫폼(information platform)과 데이터 사이언티스트(data scientist)의 부상’은 정보 처리 도구의 진화와 그것을 개발한 사람들을 추적한 장으로, 페이스북 데이터팀의 사례를 소개하고 있다.
6장, 제이슨 다이크스와 조 우드의 ‘사진 보관물의 지리학적 미학’은 지역 사회 구성원의 자발적 참여를 통해 수집된 공간 데이터를 다양한 색깔로 시각화한 결과가 주는 영향력과 보편성을 그리고 있다.
7장, 제프 조나스와 리사 소콜이 공동 기고한 ‘데이터를 통한 데이터의 발견’은 많은 이가 데이터를 관리하기 위해 적용할 필요가 있는, 데이터를 생각하는 새로운 접근방법을 설명한다.
8장, 주드 발레스키의 ‘실시간 포터블 데이터’는 웹에서 실시간으로 사회적이면서도 공간 위치를 나타내는 데이터를 배포할 때 발생하는 자체적인 한계를 깊이 있게 다루며, 이 문제의 잠재적 해결 방안을 소개한다.
9장, 앨런 핼리비와 자얀트 매드헤이븐이 공동 기고한 ‘딥 웹(Deep Web)에서의 서피싱’은 웹 공개 폼을 이용해 현재 확보된 데이터를 검색할 수 있도록 구글이 개발한 도구를 소개하고 있다.
10장, 아론 코블린과 발딘 클럼프가 공동 기고한 ‘라디오헤드의 카드로 만든 집 짓기’는 버스 뒤에 장착된 레이저와 프로그래밍, 운행, 뮤직 비디오 수상으로 끝나는 일련의 모험담이다.
11장, 마이클 미거스키의 ‘도시 데이터의 시각화’는 우리 주변 일상의 가장 중요한 데이터 중 일부를 해방시키고 아름답게 만드는 과정을 자세히 소개한다.
12장, 제프리 히어의 ‘Sense.us 설계’는 150년간 미국 인구통계 데이터를 탐색하기 위해 시각화한 데이터를 사회적 공간 형태로 재구성해 새로운 관점으로 분석한 것이다.
13장, 코코 크룸의 ‘데이터가 하지 못하는 것’은 사람들이 저지르는 데이터에 대한 오해와 잘못된 사용의 다양한 형태를 보여주는 실험적 작업이다.
14장, 피터 노르빅의 ‘자연어 문집 데이터’는 웹에서 확보한 조 단위의 자연어 문집을 이용해 독자를 연상 훈련에 빠져들게 한다.
15장, 매트 우드와 벤 블랙번의 ‘데이터로 본 생명: DNA 이야기’는 DNA 데이터의 아름다움과 해당 데이터의 생성과 획득, 가공에 필요한 거대한 인프라를 소개한다.
16장, 장 끌로드 브래들리와 라자시 구아, 앤드류 랭, 삐에르 린덴바움, 카메론 네일론, 앤토니 윌리엄스, 이건 윌릭해이건이 공동 기고한 ‘현실 세계에서의 데이터 미화’에서는 크라우드소싱과 극한 투명성이 결합해 제약 연구 수준을 높이는 방법을 소개하고 있다.
17장, 브렌던 오코너와 루카스 비월드의 ‘표면 데이터 분석: 사회적 고정관념 탐색’은 사람들이 익명으로 다른 사람의 사진에 점수를 매기도록 요청 받았을 때 나타나는 상관관계와 패턴을 보여준다.
18장, 해들리 위컴과 데보라 스웨인, 데이비드 풀의 ‘베이 에어리어 블루스(Bay Area Blues: 주택 위치의 효과)’는 독자를 공개 소프트웨어와 대중적으로 쉽게 구할 수 있는 데이터를 이용해 미국 서부 베이에어리어의 최근 주택시장 붕괴에 대한 세부적인 조사를 경험할 수 있는 글이다.
19장, 앤드류 젤만, 조너선 카스텔렉, 야이르 기짜가 함께 기고한 ‘정치적 데이터의 미학’은 통계학적 도구와 데이터 시각화를 이용해 사회의 조직화에 필요한 정치적 프로세스에 대한 통찰력을 얻는 방법을 소개한다.
20장, 토비 세가란의 ‘데이터의 연계’는 웹에서 얻을 수 있는 방대한 데이터 집합을 연계할 때의 어려움과 가능성에 대해 살펴본다.
[ 소개 ]
“실로 데이터는 컴퓨터 애플리케이션의 차세대 ‘인텔 인사이드(Intel inside)’가 될 것임이 분명하다. 이 책에서 데이터 모델링과 설계 업계의 세계적 선두 주자들은 자신들의 프로젝트가 새로운 방식으로 어떻게 데이터 영향력을 제고하는지를 소개한다. 데이터와 문제 해결에 미래 지향적 관점을 지닌 사람이라면 누구나 꼭 읽어야 할 책이다.”
- 팀 오라일리(Tim O’Reilly), 오라일리미디어 설립자이자 CEO
데이터 처리 분야 최고 전문가들의 이야기를 한 권의 책에서 만나다! 데이터를 이용해 얼마나 광범위하고 멋진 작업을 할 수 있는지를 살펴볼 수 있다. 이 책에서 최고의 데이터 활용가 39인은 자기 분야의 다양한 프로젝트 과정에서 경험한 단순하면서도 우아한 솔루션 개발 방법을 제시한다. 화성 탐사선에서 라디오헤드(Radiohead) 비디오에 이르는 다양한 주제에 더불어 그 이상의 이야기를 담고 있다.
[ 이 책에서 다루는 내용 ]
■ 방대한 온라인 데이터에 숨은 기회와 도전의 실체
■ 지도와 데이터의 매시업을 이용해 도시 범죄의 경향을 시각화하는 방법
■ 크라우드소싱(crowdsourcing)과 투명성으로 인해 제약 연구가 발전하게 된 배경
■ 새로운 데이터가 기존의 데이터와 중첩됐을 때 사용자에게 경각심을 일으키는 방법
■ DNA 데이터를 가공하기 위해 필요한 거대한 인프라
[ 이 책의 구성 ]
각 장은 데이터의 수집부터 데이터의 저장과 조직화, 조회, 시각화, 분석으로 이어지는 대략적인 흐름으로 구성되어 있다.
1장, ‘데이터 속에서 생활 찾기’는 네이선 야우가 기고한 것으로, 최근 사적인 데이터 수집 분야와 관련된 두 프로젝트에서 실제 숨겨진 동기와 도전의 과정을 볼 수 있다.
2장, 조너선 폴렛과 매튜 홈의 ‘아름다운 사람들: 데이터 수집 방법을 설계할 때 사용자를 항상 고려하기’는 웹에서 사람들의 참여를 통해 데이터를 수집할 때 신뢰와 설득, 테스팅이 얼마나 중요한지를 다룬다.
3장, 존 휴즈의 ‘화성 탐사 임베디드 이미지 데이터 처리’는 우주 비행 시 제약 조건을 감안해 데이터 처리 시스템을 설계할 때의 어려움과 노력을 이야기한다.
4장, 브라이언 쿠퍼와 라규 라마크리슈난, 우트크라시 스리바스타바가 공동 기고한 ‘PNUTShell의 클라우드 스토리지 설계’는 야후가 현대적 웹 애플리케이션을 지원하기 위해 전 세계에 분산된 데이터 센터를 하나의 스토리지 플랫폼으로 전환하기 위해 설계했던 소프트웨어를 소개한다.
5장, 제프 해머바커의 ‘인포메이션 플랫폼(information platform)과 데이터 사이언티스트(data scientist)의 부상’은 정보 처리 도구의 진화와 그것을 개발한 사람들을 추적한 장으로, 페이스북 데이터팀의 사례를 소개하고 있다.
6장, 제이슨 다이크스와 조 우드의 ‘사진 보관물의 지리학적 미학’은 지역 사회 구성원의 자발적 참여를 통해 수집된 공간 데이터를 다양한 색깔로 시각화한 결과가 주는 영향력과 보편성을 그리고 있다.
7장, 제프 조나스와 리사 소콜이 공동 기고한 ‘데이터를 통한 데이터의 발견’은 많은 이가 데이터를 관리하기 위해 적용할 필요가 있는, 데이터를 생각하는 새로운 접근방법을 설명한다.
8장, 주드 발레스키의 ‘실시간 포터블 데이터’는 웹에서 실시간으로 사회적이면서도 공간 위치를 나타내는 데이터를 배포할 때 발생하는 자체적인 한계를 깊이 있게 다루며, 이 문제의 잠재적 해결 방안을 소개한다.
9장, 앨런 핼리비와 자얀트 매드헤이븐이 공동 기고한 ‘딥 웹(Deep Web)에서의 서피싱’은 웹 공개 폼을 이용해 현재 확보된 데이터를 검색할 수 있도록 구글이 개발한 도구를 소개하고 있다.
10장, 아론 코블린과 발딘 클럼프가 공동 기고한 ‘라디오헤드의 카드로 만든 집 짓기’는 버스 뒤에 장착된 레이저와 프로그래밍, 운행, 뮤직 비디오 수상으로 끝나는 일련의 모험담이다.
11장, 마이클 미거스키의 ‘도시 데이터의 시각화’는 우리 주변 일상의 가장 중요한 데이터 중 일부를 해방시키고 아름답게 만드는 과정을 자세히 소개한다.
12장, 제프리 히어의 ‘Sense.us 설계’는 150년간 미국 인구통계 데이터를 탐색하기 위해 시각화한 데이터를 사회적 공간 형태로 재구성해 새로운 관점으로 분석한 것이다.
13장, 코코 크룸의 ‘데이터가 하지 못하는 것’은 사람들이 저지르는 데이터에 대한 오해와 잘못된 사용의 다양한 형태를 보여주는 실험적 작업이다.
14장, 피터 노르빅의 ‘자연어 문집 데이터’는 웹에서 확보한 조 단위의 자연어 문집을 이용해 독자를 연상 훈련에 빠져들게 한다.
15장, 매트 우드와 벤 블랙번의 ‘데이터로 본 생명: DNA 이야기’는 DNA 데이터의 아름다움과 해당 데이터의 생성과 획득, 가공에 필요한 거대한 인프라를 소개한다.
16장, 장 끌로드 브래들리와 라자시 구아, 앤드류 랭, 삐에르 린덴바움, 카메론 네일론, 앤토니 윌리엄스, 이건 윌릭해이건이 공동 기고한 ‘현실 세계에서의 데이터 미화’에서는 크라우드소싱과 극한 투명성이 결합해 제약 연구 수준을 높이는 방법을 소개하고 있다.
17장, 브렌던 오코너와 루카스 비월드의 ‘표면 데이터 분석: 사회적 고정관념 탐색’은 사람들이 익명으로 다른 사람의 사진에 점수를 매기도록 요청 받았을 때 나타나는 상관관계와 패턴을 보여준다.
18장, 해들리 위컴과 데보라 스웨인, 데이비드 풀의 ‘베이 에어리어 블루스(Bay Area Blues: 주택 위치의 효과)’는 독자를 공개 소프트웨어와 대중적으로 쉽게 구할 수 있는 데이터를 이용해 미국 서부 베이에어리어의 최근 주택시장 붕괴에 대한 세부적인 조사를 경험할 수 있는 글이다.
19장, 앤드류 젤만, 조너선 카스텔렉, 야이르 기짜가 함께 기고한 ‘정치적 데이터의 미학’은 통계학적 도구와 데이터 시각화를 이용해 사회의 조직화에 필요한 정치적 프로세스에 대한 통찰력을 얻는 방법을 소개한다.
20장, 토비 세가란의 ‘데이터의 연계’는 웹에서 얻을 수 있는 방대한 데이터 집합을 연계할 때의 어려움과 가능성에 대해 살펴본다.
목차
목차
- 1장 데이터 속에서 생활 찾기
- 개인환경영향보고서 PEIR
- 유어플로잉데이터 YFD
- 개인 데이터 수집
- 데이터 저장소
- 데이터 처리
- 데이터 가시화
- 핵심 사항
- 참여 방법
- 2장 아름다운 사람들: 데이터 수집 방법을 설계할 때 사용자를 항상 고려하기
- 들어가는 말: 사용자 공감은 새로운 뜨는 별(the new black)이다.
- 프로젝트: 새 사치품에 대한 고객 반응 조사
- 데이터 수집 시 발생하는 특별한 어려움
- 솔루션 설계
- 결과와 반영
- 3장 화성 탐사에서 임베디드 이미지 데이터 처리
- 개념 요약
- 들어가는 말
- 일부 백그라운드
- 패킹 또는 넌패킹
- 세 가지 작업
- 이미지의 슬로팅
- 이미지 전달: 세 가지 태스크 사이의 통신
- 그림 획득: 이미지 다운로드 및 처리
- 이미지 압축
- 다운링크 또는 다운힐
- 결론
- 4장 PNUTShell의 클라우드 스토리지 설계
- 들어가는 말
- 데이터 갱신
- 복잡한 쿼리
- 다른 시스템과의 비교
- 결론
- 승인
- 5장 인포메이션 플랫폼과 데이터 사이언티스트의 부상
- 도서관과 뇌
- 페이스북, 스스로를 인지하다
- 비즈니스 인텔리전스 시스템
- 데이터 웨어하우스의 죽음과 부활
- 데이터 웨어하우스를 넘어
- 치타와 코끼리
- 데이터의 비합리적 효과
- 새로운 도구와 응용 연구
- MAD 기술과 코스모스
- 데이터스페이스인 인포메이션 플랫폼
- 데이터 사이언티스트
- 결론
- 6장 사진 보관물의 지리학적 미학
- 데이터 속의 아름다움: 지오그래피
- 시각화와 아름다움 그리고 트리맵
- 지오그래프 용어 사용에 대한 지오그래프적 관점
- 발견 속의 아름다움
- 후기 및 결론
- 감사의 글
- 7장 데이터를 통한 데이터 발견
- 들어가는 말
- 적시 발견의 긍정적 효과
- 룰렛판에서의 부패
- 엔터프라이즈 발견 가능성
- 연합 검색의 한계
- 디렉토리: 가치를 측정할 수 없음
- 관계성: 무엇이 중요하며, 누구에게 중요한가?
- 구성 요소와 특별 고려사항
- 개인의 사생활에 대한 고려
- 결론
- 8장 실시간 포터블 데이터
- 들어가는 말
- 기술의 상태
- 소셜 데이터 정규화
- 결론: 미디에이션 대 닙
- 9장 딥 웹에서의 서피싱
- 딥 웹이란 무엇인가?
- 딥 웹 액세스를 제공하는 다른 방법들
- 결론과 향후 작업
- 10장 라디오헤드의 ‘카드로 만든 집’ 짓기
- 모든 것의 출발점
- 데이터 획득 장치
- 두 개의 데이터 획득 시스템의 장점
- 데이터
- 데이터 획득, 다른 말로 ‘촬영’
- 데이터 처리
- 데이터 후처리
- 비디오의 시작
- 결론
- 11장 도시 데이터 시각화
- 들어가는 말
- 배경
- 코아 해체
- 대중들을 향한 공개
- 재검토
- 결론
- 12장 Sense.us의 설계
- 시각화와 사회 데이터 분석
- 데이터
- 시각화
- 콜래버레이션
- 탐색자와 관찰자
- 결론
- 13장 데이터가 하지 못하는 것
- 데이터는 언제 주도적 역할을 하지 못하는가?
- 결론
- 14장 자연어 문집 데이터
- 단어 구획화
- 비밀코드
- 철자 수정
- 기타 태스크
- 토론 및 결론
- 15장 데이터로 본 생명, DNA 이야기
- 데이터 저장소인 DNA
- 데이터 저장소로서의 DNA
- 데이터 홍수에 대한 대응
- DNA의 미래
- 감사의 글
- 16장 현실 세계의 데이터를 아름답게
- 실제 데이터를 다룰 때 문제점
- 원시 데이터를 노트북으로 제공
- 대중에 의해 제공된 데이터 검증
- 데이터의 온라인 표기
- 루프의 종결: 시각화에 따른 새로운 실험
- 개방 데이터와 무료 서비스 기반의 데이터 웹 구축
- 감사의 말
- 17장 표면 데이터 분석: 사회적 고정관념 탐색
- 들어가는 말
- 데이터 처리
- 데이터 탐색
- 연령과 매력, 성
- 태그 찾기
- 어떤 단어가 남녀 성별 특성을 반영할까?
- 클러스터링
- 결론
- 감사의 글
- 18장 베이 에어리어 블루스: 주택 위치의 효과
- 들어가는 말
- 데이터 확보 방법
- 지오코딩
- 데이터 체크
- 분석
- 인플레이션의 영향
- 부자일수록 더 많은 것을 갖고 가난할수록 더 적게 갖는 것
- 지리적 차이
- 인구조사 정보
- 샌프란시스코 조사
- 결론
- 19장 정치적 데이터의 미학
- 사례 1: 지역구 조정 및 지지자 편향
- 사례 2: 시간에 따른 일련의 예측치들
- 사례 3: 연령과 투표
- 사례 4: 대법원 후보 지명자에 대한 대중의 의견과 상원의 투표
- 사례 5: 펜실베이니아의 지역화된 당파성
- 결론
- 20장 데이터의 연계
- 정말 어떤 공공 데이터가 존재할까?
- 연계된 데이터의 가능성
- 회사 내부
- 데이터 연결의 장애물
- 가능한 해법