데이터 과학자가 되는 핵심 기술 [데이터 분석에 필요한 수학, 통계, 프로그래밍의 기본]
- 원서명Principles of Data Science: Learn the techniques and math you need to start making sense of your data (ISBN 9781785887918)
- 지은이시난 오즈데미르(Sinan Ozdemir)
- 옮긴이유동하
- ISBN : 9791161750767
- 30,000원
- 2017년 12월 11일 펴냄 (절판)
- 페이퍼백 | 480쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 데이터 과학
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
2018년 대한민국학술원 우수학술도서 선정도서
요약
이 책은 데이터 과학의 원리를 전달하려는 기본적 취지에 맞게, 통계나 수학적 수식이 형성되는 개념을 설명해 준다. 꼭 필요한 최소한의 수학적 개념만 소개하기 때문에 수학 울렁증이 있는 사람도 쉽게 읽을 수 있다. 목적을 이해하고 원리를 알면 수식을 무작정 외울 필요가 없다는 것을 이제야 깨닫게 될 것이다. 더불어 데이터 과학에서 통계, 수학, R과 파이썬 같은 프로그래밍 지식이 왜 필요한지 확실히 알게 된다. 데이터의 수집부터 필요한 정보만 정제하고, 유형을 살펴서 분석하고, 결과의 해석까지 필요한 원리를 복합적으로 다룬다.
이 책에서 다루는 내용
■ 데이터 과학의 가장 중요한 다섯 가지 단계
■ 데이터를 현명하게 다루는 방법
■ 수학과 프로그래밍 간의 격차 해소
■ 확률과 계산법, 통계적 모델을 사용해 데이터를 정제하고 실행 가능한 결과를 얻는 방법
■ 기본적인 머신 러닝 모델의 구축과 평가
■ 머신 러닝 모델의 성공 여부를 결정짓는 가장 효과적인 측정 지표 탐색
■ 실행 가능한 통찰력을 전달하는 데이터 시각화
■ 머신 러닝 개념을 문제에 적용한 실제 예측
이 책의 대상 독자
이 책은 모든 도메인에 대한 데이터 과학의 기본 업무를 이해하고 활용하고자 하는 사람들을 위한 책이다.
기본 수학(대수, 확률)을 잘 알고 있어야 하며, 의사 코드뿐만 아니라 R/파이썬의 코드 조각을 읽기 편해야 한다. 데이터 분야의 작업 경험은 없어도 된다. 그러나 이 책에서 제시한 기술을 배워서 자신들의 데이터셋이나 제공된 데이터셋에 적용하려는 열정은 있어야 한다.
이 책의 구성
1장. '데이터 과학자처럼 말하는 방법'에서는 데이터 과학자가 사용하는 기본 용어를 소개하고, 이 책 전반에 걸쳐 해결할 문제의 유형을 살펴본다.
2장. '데이터 유형'에서는 데이터의 다양한 수준과 유형 및 각 유형을 조작하는 방법을 살펴보면서 데이터 과학에 필요한 수학을 다루기 시작한다.
3장. '데이터 과학의 다섯 단계'에서는 데이터 조작 및 정제를 비롯해 데이터 과학을 수행하는 다섯 가지 기본 단계를 알아보고, 각 단계의 예를 자세히 보여준다.
4장. '기초 수학'에서는 미적분 선형 대수 등의 예를 살펴보고 해결함으로써 데이터 과학자의 행동을 안내하는 기본 수학 원리를 발견할 수 있다.
5장. '확률의 기초와 원리'에서는 초보자의 시각으로 확률 이론을 살펴보고 무작위 세상을 이해하는 데 확률이 어떻게 사용되는지 설명한다.
6장. '고급 확률'에서는 앞에서 살펴본 원리를 사용하고 세상의 숨겨진 의미를 밝히기 위해 베이즈 정리 같은 원리를 소개하고 적용한다.
7장. '기초 통계'에서는 통계적 추론이 실험의 기본, 표준화, 무작위 표본 추출을 사용해서 설명하려는 문제 유형을 다룬다.
8장. '고급 통계'에서는 가설 검정과 신뢰 구간을 사용해 실험으로부터 통찰력을 얻는다. 적절한 검정 방법을 선택하고, p-값과 다른 결과를 해석하는 것은 매우 중요하다.
9장. '데이터 의미 전달'에서는 상관관계와 인과관계가 데이터 해석에 어떻게 영향을 주는지 설명한다. 또한 결과를 세상과 공유하기 위해 시각화를 사용한다.
10장. '머신 러닝 요점'에서는 머신 러닝의 정의에 중점을 두고 머신 러닝이 언제 어떻게 적용되는지에 대한 실제 사례를 살펴본다. 모델 평가의 타당성에 대한 기본적인 지식도 소개한다.
11장. '의사 결정 트리에서 자라는 예측'에서는 좀 더 복잡한 데이터 관련 작업을 해결하기 위해 의사 결정 트리 및 베이지안 기반 예측과 같은 좀 더 복잡한 머신 러닝 모델을 살펴본다.
12장. '필수 요소를 넘어서'에서는 편향과 분산을 포함해 데이터 과학을 안내하는 신비한 힘을 소개한다. 신경망은 현대의 딥러닝 기술로 소개한다.
13장. '사례 연구'에서는 다수의 사례 연구를 통해 데이터 과학의 아이디어를 확고히 한다. 주가 예측 및 필체 감지를 비롯해 여러 가지 예를 통해 전체 데이터 과학의 작업 흐름을 처음부터 끝까지 여러 번 따라갈 것이다.
목차
목차
- 1장. 데이터 과학자처럼 말하는 방법
- 데이터 과학이란 무엇인가?
- 데이터 과학 벤 다이어그램
- 도메인 지식
- 더 많은 전문 용어
- 데이터 과학 사례 연구
- 요약
- 2장. 데이터 유형
- 데이터의 특색
- 데이터를 구분해야 하는 이유
- 구조적 데이터와 비구조적 데이터 비교
- 정량적 데이터와 정성적 데이터
- 지금까지 정리
- 데이터의 4가지 수준
- 제 눈에 안경인 데이터
- 요약
- 3장. 데이터 과학의 다섯 단계
- 데이터 과학 개론
- 다섯 단계 개요
- 데이터 탐색
- 요약
- 4장. 기초 수학
- 학문으로서의 수학
- 기본 기호 및 용어
- 선형 대수학
- 요약
- 5장. 확률의 기초와 원리
- 기본 정의
- 확률
- 베이지안과 빈도 확률
- 복합 이벤트
- 조건부 확률
- 확률의 규칙
- 조금 깊이 들어가기
- 요약
- 6장. 고급 확률
- 전체 포괄적인 이벤트
- 베이지안 아이디어 재검토
- 확률 변수
- 요약
- 7장. 기초 통계
- 통계란?
- 데이터를 얻고 표본 추출하는 방법
- 표본 추출 데이터
- 통계를 측정하는 방법
- 경험적 규칙
- 요약
- 8장. 고급 통계
- 점 추정치
- 표본 분포
- 신뢰 구간
- 가설 검정
- 요약
- 9장. 데이터 의미 전달
- 커뮤니케이션이 중요한 이유
- 효과적인 시각화와 비효과적인 시각화 식별
- 그래프와 통계가 거짓말할 때
- 구두 의사소통
- 왜/어떻게/어떤 프레젠테이션 전략
- 요약
- 10장. 머신 러닝 요점
- 머신 러닝이란 무엇인가?
- 머신 러닝은 완벽하지 않다.
- 머신 러닝은 어떻게 작동하는가?
- 머신 러닝의 유형
- 통계적 모델링은 이 모든 것을 어떻게 맞출까?
- 선형 회귀
- 로지스틱 회귀
- 확률, 공산, 로그 공산
- 11장. 의사 결정 트리에서 자라는 예측
- 나이브 베이즈 분류
- 의사 결정 트리
- 자율 학습
- K-means 클러스터링
- K와 클러스터 검증을 위한 최적의 수 선택
- 특징 추출 및 주요 구성 요소 분석
- 요약
- 12장. 필수 요소를 넘어서
- 편향 분산 트레이드오프
- K겹 교차 검증
- 그리드 검색
- 앙상블 기술
- 신경망
- 요약
- 13장. 사례 연구
- 사례 연구 1: 소셜 미디어를 기반주가 예측
- 사례 연구 2: 왜 일부 사람들은 배우자를 속일까?
- 사례 연구 3: 텐서플로 사용
- 요약
도서 오류 신고
정오표
정오표
[p.133 마지막 행]
M = 영화 = 3 × 1,000 차원 행렬
->
M = 영화 = 3 × 10,000 차원 행렬
[p.170]
->
[p.170]
->