Top

구글 빅쿼리 애널리틱스 [구글 빅쿼리 개발팀 멤버가 직접 집필한]

  • 원서명Google BigQuery Analytics (ISBN 9781118824825)
  • 지은이조던 티가니(Jordan Tigani), 싯다르타 나이두(Siddartha Naidu)
  • 옮긴이최명근, 심지현
  • ISBN : 9788960778436
  • 40,000원
  • 2016년 04월 14일 펴냄
  • 페이퍼백 | 644쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

요약

구글의 새로운 빅데이터 분석 플랫폼, 빅쿼리

빅데이터 분석은 개인과 기업을 막론하고 요즘 최고의 화두다. 구글 빅쿼리를 활용하면 대량의 데이터에 복잡한 쿼리를 던지고 빠른 시간 내에 답을 얻을 수 있다. 이 책은 빅쿼리를 언제, 어떻게 사용하는지 설명하며, 유용한 인사이트를 얻을 수 있도록 돕는다. 먼저 기본적인 빅쿼리 개념을 다진 후, 빅쿼리 API와 쿼리 작성법, 빅쿼리의 동작 방식을 다양한 모범 사례와 예제를 통해 설명한다. 또한 태블로나 엑셀 등 다른 시스템과의 통합도 다룬다. 특히 이 책이 제공하는 앱엔진 앱과 웹 애플리케이션 예제는 사용자 애플리케이션 개발을 시작하는 데 매우 유용할 것이다.

이 책에서 다루는 내용

■ 빅쿼리 API를 통한 인증과 커뮤니케이션 방법
■ 데이터를 서비스로 가져오고 내보내는 방법
■ 간단한 쿼리들로 강력한 쿼리를 구성하는 방법
■ 구글 클라우드 플랫폼과 외부 도구로 서비스를 사용하는 법
■ 현재의 모범 사례와 기술을 보여주는 실제 예제
■ 빅데이터 분석에 많이 쓰이는 언어인 파이썬으로 작성된 웹 애플리케이션 예제
■ 이 책에서 사용하는 안내 웹사이트와 공개 데이터셋 제공

이 책의 대상 독자

이 책은 빅쿼리로 데이터를 분석하려는 데이터 과학자와 사용자의 데이터 파이프라인에 빅쿼리를 통합하려는 개발자, 빅쿼리가 사용하기 적합한 도구인지 결정하려는 기술 평가자를 대상으로 한다.

이 책의 구성

빅쿼리 기본(1장~4장): 빅쿼리를 시작하는 방법과 서비스에서 사용하는 기초적인 개념을 설명한다. 빅쿼리에 익숙하다면 이 부는 건너뛰어도 되지만, 주요 개념에 대한 기반을 확고히 다지는 데 도움이 될 것이다.

기초 빅쿼리(5장~8장): HTTP 하단 및 상단 클라이언트에서 API를 사용하는 방법과 SQL 쿼리 작성법을 설명한다. 특히 8장에서는 다양한 API를 사용하는 앱엔진 앱을 설명하며, 이러한 API가 실제 시나리오에서 얼마나 유용한지 살펴본다.

고급 빅쿼리(9장~11장): 빅쿼리 동작 방식을 상세히 설명하고, 고급 쿼리 기술과 방법, 데이터 관리 전략을 제안한다. 또한 동작할 듯한 쿼리가 왜 오류를 반환하는지 설명하고, SQL로 표현하기 어려운 쿼리를 생성한다.

빅쿼리 애플리케이션(12장~14장): 다른 시스템과 빅쿼리를 통합하는 방법을 알아본다. 예를 들어, 태블로로 데이터를 시각화하는 방법, 마이크로소프트 엑셀에서 빅쿼리 테이블에 쿼리하는 방법, 사용자의 구글 애널리틱스 데이터에 쿼리하는 방법을 살펴본다.

저자/역자 소개

지은이의 말

데이터베이스든 회전식 전기 드릴이든 도구를 최대한 활용하려면 어떻게 동작하는지 알아야 한다. 동작 방식을 알면 효율적으로 도구를 사용하는 방법을 금방 알 수 있다. 이 책은 빅쿼리에 대한 직관력을 개발시킴으로써 언제 빅쿼리를 사용해야 하는지, 어떻게 쿼리 효율성을 향상시키는지, 예상치 못한 상황에서 어떻게 빅쿼리를 적용할지를 스스로 결정할 수 있게 해준다.

사용자의 코드에 통합할 수 있는 좋은 예제도 필요하다. 이 책은 사용자 애플리케이션에서 빅쿼리를 사용하는 소스 코드와 복잡한 SQL 문제를 해결하는 쿼리 예제를 제공한다. 나아가 데이터 입력 코드를 작성하는 방법과 데이터에 쿼리하고 시각화하는 방법, 추출하는 방법도 설명한다.

지은이 소개

조던 티가니(Jordan Tigani)

15년 이상의 전문적인 소프트웨어 개발 경험이 있으며, 빅쿼리 개발에 지난 4년을 쏟았다. 구글에 입사하기 전에 불운한 스타트업을 많이 거쳤으며, 스타트업 경험은 꼭 큰 회사여야만 빅데이터를 할 수 있는 건 아니라는 사실을 깨닫게 해줬다. 이전에는 마이크로소프트 리서치와 윈도우 커널 팀에서 근무했다. 코드를 작성할 때 빼고는 대개 조깅이나 축구를 즐긴다. 현재 아내 테간과 함께 시애틀에서 살고 있으며 둘 다 걸어서 출근한다.

싯다르타 나이두(Siddartha Naidu)

물리학 박사 취득 후 구글에 입사했다. 구글에서는 광고 타깃팅과 신문 디지털화, 그리고 지난 4년 동안은 빅쿼리 개발에 힘썼다. 구글에서 해온 일은 데이터 분석과 모델링, 대량의 데이터 처리 등 대부분 데이터 중심이었다. SQL 기법을 연구하지 않을 때는 다양한 주방 제품을 만들고 써 보는 걸 좋아한다. 현재 아내 닛띠야, 아들 비바안과 함께 시애틀에 거주 중이며, 가족들은 그의 주방 취미 생활을 별로 좋아하지 않는다. 여행을 하지 않을 때는 항상 다음 여행을 계획한다.

옮긴이의 말

이제 빅데이터 분석이라고 하는 주제는 특정 유스케이스 혹은 인더스트리에만 국한되지 않는다. 하지만 아직도 현장에서는 이러한 분석 프로젝트를 쉽게 수행하지 못하거나, 진행 중인 경우라도 여러 가지 어려움들을 겪고 있는 경우를 많이 보게 된다. 지금까지의 전통적인 방식으로 빅데이터 분석을 접근하기엔 고려해야 할 변수들이 너무 많다.

누구나 느끼고 있듯이 현재 비즈니스의 발전 속도는 엄청나게 빠르다. 이는 기본적인 인프라의 발전 및 개인 디바이스의 진화의 속도와도 맞물려 있다. 또한 데이터 분석과 관련한 기술 역시 빠른 속도로 발전하고 있다. 더욱이 이러한 환경에서는 어떠한 플랫폼에서 어떤 분석 기술을 이용하는지가 무엇보다 중요하다. 물론 분석하고자 하는 대상 데이터, 최종적으로 분석된 데이터의 모습에 따라서 이러한 기반 기술들은 가변적일 수 있다.

그러한 면에서 클라우드의 활용은 아주 좋은 기회다. 필요한 분석 플랫폼에 따르는 다양한 기술을 쉽게, 그리고 무엇보다 적은 비용으로 시도해 볼 수 있다. 더욱이 구글은 클라우드 플랫폼 위에서 최신의 분석 기술들을 사용해볼 수 있도록 다양한 시나리오를 기반으로 하는 여러 분석 플랫폼 서비스를 제공한다. 그중에서도 이 책에서 소개되는 빅쿼리 서비스는 구글이 이미 2008년부터 다양한 구글의 인터넷 서비스에 필요한 데이터 분석을 위해 실제로 사용했던 드레멜(Dremel) 기술을 근간으로 한다. 따라서 수년간 구글을 통해 이미 검증된 분석 기술이며 방대한 스케일을 자랑한다. 현재도 계속적인 발전이 거듭되고 있다.

빅쿼리는 대용량의 데이터 분석을 위한 데이터 웨어하우징 서비스다. 수 테라바이트 규모의 데이터를 쿼리하는 데 수십 초면 결과를 받아볼 수 있다. 이 책의 저자 중 한 명인 조던은 이 드레멜 기술의 소프트웨어 엔지니어다. 그를 통해 이러한 빅쿼리 기술의 내부 구조를 상세히 살펴보며, 어떠한 유스케이스에서 어떻게 빅쿼리를 활용할 수 있을지를 다루고 있다. 또한, 고급화된 기능 및 여러 외부 툴들과의 혼용 시나리오 등을 통해 단순 빅쿼리 서비스 뿐만 아니라 좀 더 확장된 환경에서의 빅데이터 종합 플랫폼으로써 빅쿼리의 다양한 특징들을 확인할 수 있을 것이다.

빅쿼리는 강력하고 저렴하다. 누구든지 데이터의 규모에 상관없이 언제든지 손쉽게 데이터 분석을 시작해 볼 수 있다는 것이 빅쿼리가 다른 플랫폼들과 차별화될 수 있는 특징 중 하나다. 아무쪼록 이 책을 읽는 독자들이 조금이나마 빅데이터 분석에 대한 고민을 덜 수 있는 계기가 되었으면 하고, 이 책이 실제 분석 프로젝트를 수행하는 데 길잡이 역할을 했으면 하는 것이 역자로서의 바람이다. 책의 내용 중 추가적으로 궁금한 부분이나 오류 사항 등 책에 대한 어떠한 의견이라도 이메일로 보내주면 더할 나위 없는 큰 기쁨이 될 것 같다.

옮긴이 소개

최명근

구글 클라우드 플랫폼 세일즈 엔지니어다. 자바 개발자로 시작해 마이크로소프트에서 Enterprise business application, 그중에서도 Exchange server 전문 기술 엔지니어로 근무했다. MBA 과정을 마친 후에는 구글에서 기업용 구글앱스 및 검색 서비스를 담당했으며, 현재는 구글 클라우드 플랫폼 팀에서 아시아지역 고객을 대상으로 세일즈 엔지니어링을 책임지고 있다.

심지현

이화여대 컴퓨터공학과를 졸업하고, KAIST 대학원 전산과에서 데이터베이스 전공으로 석사 학위를 취득했다. DB 외에 온톨로지, 개인화검색 등을 연구했으며, 졸업 후 네이버에서 검색 서버 설계 및 개발 실무 경험을 쌓다가 현재는 검색연구실에서 검색 모델링과 추천 시스템 관련 연구를 진행 중이다.

목차

목차
  • 1부 빅쿼리 기본
  • 01장 구글의 빅데이터 역사
    • 빅데이터 스택 1.0
    • 빅데이터 스택 2.0(그리고 이후)
    • 오픈소스 스택
    • 구글 클라우드 플랫폼
      • 클라우드 처리
      • 클라우드 스토리지
      • 클라우드 애널리틱스
    • 문제 명시
      • 빅데이터의 의미
      • 왜 빅데이터인가
      • 빅데이터 처리에 새로운 방법이 필요한 이유
      • 수 초 내에 테라바이트를 읽는 방법
      • 맵리듀스의 문제점
      • 빅데이터에 질문하고 빠르게 대답을 얻는 방법
    • 요약

  • 02장 빅쿼리 기초
    • 빅쿼리의 의미
      • 빅데이터에 SQL 쿼리
      • 클라우드 스토리지 시스템
      • 분산 클라우드 컴퓨팅
      • 서비스형 애널리틱스
      • 빅쿼리는 ...이 아니다
      • 빅쿼리 기술 스택
      • 구글 클라우드 플랫폼
      • 빅쿼리 서비스 역사
    • 빅쿼리 센서 애플리케이션
      • 센서 클라이언트 안드로이드 앱
      • 빅쿼리 센서 앱엔진 앱
      • 애드혹 쿼리 실행
    • 요약

  • 03장 빅쿼리 시작
    • 프로젝트 생성
      • 구글 API 콘솔
      • 무료 버전 제한과 결제
    • 첫 쿼리 실행
      • 데이터 로딩
    • 명령행 클라이언트 사용
      • 설치와 설정
      • 클라이언트 활용
      • 서비스 계정 접근
    • 구글 클라우드 스토리지 설치
    • 개발 환경
      • 파이썬 라이브러리
      • 자바 라이브러리
      • 그 밖의 도구
    • 요약

  • 04장 빅쿼리 객체 모델의 이해
    • 프로젝트
      • 프로젝트명
      • 프로젝트 결제
      • 프로젝트 접근 제어
      • 프로젝트와 앱엔진
    • 빅쿼리 데이터
      • 빅쿼리 내 명명
      • 스키마
      • 테이블
      • 데이터셋
      • 잡 컴포넌트
    • 빅쿼리 결제와 한도
      • 저장 비용
      • 처리 비용
      • 쿼리 RPC
      • TableData.insertAll( ) RPC
    • 단대단 애플리케이션을 위한 데이터 모델
      • 프로젝트
      • 데이터셋
      • 테이블
    • 요약

  • 2부 기초 빅쿼리
  • 05장 빅쿼리 API
    • 구글 API 소개
      • API 접근 인증
      • SOAP-Less 사용자를 위한 RESTful 웹 서비스
      • 구글 API 설명서
      • 공통 연산
    • 빅쿼리 REST 컬렉션
      • 프로젝트
      • 데이터셋
      • 테이블
      • 테이블 데이터
      • 빅쿼리 API 여행
      • 빅쿼리의 오류 처리
    • 요약

  • 06장 데이터 로딩
    • 벌크 로드
      • 바이트 이동
      • 데스티네이션 테이블
      • 데이터 포맷
      • 오류
      • 제한과 한도
    • 스트리밍 삽입
    • 요약

  • 07장 쿼리 실행
    • 빅쿼리 쿼리 API
      • 쿼리 API 메소드
      • 쿼리 API 기능
      • 쿼리 결제와 한도
    • 빅쿼리 쿼리 언어
      • 쿼리 다섯 개로 알아보는 빅쿼리 SQL
      • 표준 SQL과의 차이점
    • 요약

  • 08장 응용
    • 애플리케이션 소개
    • 모바일 클라이언트
      • 감시 서비스
    • 로그 컬렉션 서비스
      • 로그 트램펄린
    • 대시보드
      • 데이터 캐싱
      • 데이터 변환
      • 웹 클라이언트
    • 요약

  • 3부 고급 빅쿼리
  • 09장 쿼리 실행의 이해
    • 배경지식
    • 저장 구조
      • 콜로서스 파일시스템(CFS)
      • 컬럼 IO
      • 내구성과 가용성
    • 쿼리 처리
      • 드레멜 제공 트리
    • 구조 비교
      • 관계형 데이터베이스
      • 맵리듀스
    • 요약

  • 10장 고급 쿼리
    • 고급 SQL
      • 하위 쿼리
      • 테이블 합치기: 암묵적인 UNION과 JOIN
      • 분석과 윈도우 함수
    • 빅쿼리 SQL 확장
      • EACH 키워드
      • 데이터 샘플링
      • 반복 필드
    • 쿼리 오류
      • 너무 큰 결과
      • 자원 초과
    • 쿼리 기법
      • 피벗
      • 코흐트 분석
      • 병렬 리스트
      • 정확한 COUNT DISTINCT
      • 최근 평균
      • 동시 실행 계산
    • 요약

  • 11장 빅쿼리에 저장된 데이터 관리
    • 쿼리 캐싱
    • 결과 캐싱
    • 테이블 스냅샷
    • 앱엔진 데이터스토어 통합
      • 간단한 카인드
      • 혼합 타입들
      • 마지막 생각
    • 메타테이블과 테이블 샤딩
      • 시간 여행
      • 테이블 선택
    • 요약

  • 4부 빅쿼리 애플리케이션
  • 12장 외부 데이터 처리
    • 빅쿼리에서 데이터 가져오기
      • 추출 잡
      • TableData.list( )
    • 앱엔진 맵리듀스
      • 순차 솔루션
      • 기본 앱엔진 맵리듀스
      • 빅쿼리 통합
      • 하둡과 함께 빅쿼리 사용
    • 스프레드시트에서 빅쿼리로 쿼리
      • 구글 스프레드시트에서의 빅쿼리 쿼리들(앱스 스크립트)
      • 마이크로스트 엑셀에서의 빅쿼리 쿼리들
    • 요약

  • 13장 외부 도구에서 빅쿼리 이용
    • 빅쿼리 어댑터들
      • 심바 ODBC 커넥터
      • JDBC 연결 옵션들
      • 클라이언트측 암호화를 통한 암호화된 빅쿼리
    • 빅쿼리에서의 과학적 데이터 처리 툴들
      • R에서의 빅쿼리
      • 파이썬 판다와 빅쿼리
    • 빅쿼리에서의 데이터 시각화
      • 태블로를 이용한 빅쿼리 데이터 시각화
      • 빔을 이용한 빅쿼리 데이터 시각화
      • 다른 데이터 시각화 옵션들
    • 요약

  • 14장 구글 데이터 소스에 쿼리
    • 구글 애널리틱스
      • 빅쿼리 접근 설정
      • 테이블 스키마
      • 테이블 쿼리
    • 구글 애드센스
      • 테이블 구조
      • 빅쿼리 레버리지
    • 구글 클라우드 스토리지

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안