책 소개
요약
2017년 스탠퍼드대학교 CS102 빅데이터 강의에 활용된 이 책은 데이터 과학을 처음 시작하는 사람들에게 주로 사용되는 분석 기법과 핵심적인 머신 러닝 알고리즘의 원리를 실제 데이터를 바탕으로 설명하고 있다. 구체적인 코드나 세세한 수학적 내용으로 독자를 힘들게 하기보다, 알고리즘의 동작 원리와 장단점을 제시함으로써 데이터 과학을 처음 시작하는 비전공자나 데이터 과학이 무엇인지 궁금한 독자에게 훌륭한 출발점을 제공한다.
추천의 글
이 책의 예제는 쉽고 명쾌하지만, 진정한 명료함은 직관적인 글쓰기 스타일에서 비롯된다. ... 기술을 잘 모르는 독자뿐만 아니라 데이터 과학과 머신 러닝을 배우고 싶은 프로그래머를 위해 다른 책이라면 훨씬 더 어렵게 설명했을 알고리즘을 빠르게 이해할 수 있게 설명한다.
- The MagPi, 영국 라즈베리파이 공식 기술 잡지
이 책은 데이터 과학의 핵심 알고리즘을 시각적으로 쉽게 설명한다. 초보 데이터 과학자를 위한 입문서, 분석가와 협업하는 사업가를 위한 요약서, 데이터에 무슨 일이 벌어지고 있는지 알고 싶은 사람의 흥미를 자극할 만한 책으로서 유용하다.
- 데이비드 스틸웰 박사, 케임브리지 대학교 정신분석 센터 부국장
이 책은 빅데이터를 활용한 연구를 시작하려는 사업가를 위해 블랙박스같은 고급 통계 기법의 미스터리를 풀어준다.
- 타다가타 다스굽타 박사, 바이어컴 데이터 과학 및 고급 분석 리더
머신 러닝을 완벽하게 시각화해준 덕분에 기술적인 배경이 없는 학생들도 추상적인 개념들을 직관적으로 이해할 수 있었다.
- 에단 챈, 스탠퍼드 대학교 CS102 빅데이터 강사
어렵게만 느껴지는 데이터 과학을 평범한 상식인의 언어로 전달하는 책이다. 전체적인 그림을 이해한 후 세부적인 내용으로 들어가는 관문 역할을 할 수 있는 좋은 책이라고 생각한다. 특히 수학 및 통계에 관한 기초가 없다면 기초를 쌓는 동안 미리 전체적인 흐름을 이해하는 데 이 책이 큰 도움이 될 것이다.
- 김장현, 성균관대학교 부교수
이 책에서 다루는 내용
데이터 과학과 그에 포함된 알고리즘을 보통 사람들의 언어로 소개한다(이 책에 수학은 없다). 핵심 개념을 이해할 수 있도록 직관적인 설명과 많은 시각 자료를 사용할 것이다.
알고리즘마다 한 장을 할애해 실제 예제로 알고리즘의 동작 원리를 설명한다. 예제에서 사용한 데이터는 온라인에서 확인할 수 있으며, 출처는 참고문헌에서 볼 수 있다.
배운 내용을 복습하고 싶다면 각 장의 끝에 있는 요약을 확인하자. 책의 끝부분에서는 각 알고리즘의 장단점을 간략히 요약한 참고자료를 볼 수 있고, 일반적으로 사용하는 용어들을 포함하는 용어집도 볼 수 있다.
이 책을 바탕으로 데이터 과학에 대한 실용적인 이해를 얻고, 그 강점을 이용해 더 나은 의사결정을 할 수 있길 바란다.
이 책의 대상 독자
데이터 과학과 그 원동력이 되는 알고리즘에 입문하고 싶은 초심자에게 적극 추천한다
상세이미지
목차
목차
- 1장. 기초 훑어보기
- 1.1 데이터 준비
- 데이터 포맷
- 변수 타입
- 변수 선택
- 특징 엔지니어링
- 누락된 데이터
- 1.2 알고리즘 선택
- 비지도학습
- 지도학습
- 강화 학습
- 이 밖에 고려해야 할 점
- 1.3 파라미터 튜닝
- 1.4 결과 평가하기
- 분류 지표
- 회귀 지표
- 검증
- 1.5 요약
- 1.1 데이터 준비
- 2장. 평균 군집화
- 2.1 고객 군집 찾기
- 2.2 예제: 영화 팬들의 성향 프로필
- 2.3 군집 정의하기
- 얼마나 많은 군집이 존재하는가?
- 군집의 포함 관계는 어떤가?
- 2.4 제약
- 2.5 요약
- 3장. 주성분 분석
- 3.1 식품의 영양 성분 파악
- 3.2 주성분
- 3.3 예제: 식품 그룹 분석
- 3.4 제약
- 3.5 요약
- 4장. 연관 규칙
- 4.1 구매 패턴 발견하기
- 4.2 지지도와 신뢰도, 향상도
- 4.3 예제: 식료품 거래 분석
- 4.4 Apriori 원칙
- 지지도가 높은 품목 집합 찾기
- 신뢰도나 향상도가 높은 품목 규칙 찾기
- 4.5 제약
- 4.6 요약
- 5장. 소셜 네트워크 분석
- 5.1 관계 매핑하기
- 5.2 예제: 무기 거래로 엿보는 지정학
- 5.3 루뱅 메서드
- 5.4 페이지랭크 알고리즘
- 5.5 제약
- 5.6 요약
- 6장. 회귀 분석
- 6.1 추세선 찾기
- 6.2 예제: 주택 가격 예측
- 6.3 기울기 하강법
- 6.4 회귀 계수
- 6.5 상관 계수
- 6.6 제약
- 6.7 요약
- 7장. k-최근접 이웃과 이상 감지
- 7.1 식품 감별
- 7.2 유유상종
- 7.3 예제: 와인의 차이 알아내기
- 7.4 이상 감지
- 7.5 제약
- 7.6 요약
- 8장. 서포트 벡터 머신
- 8.1 “아니요”냐, “절대 아니요!”냐?
- 8.2 예제: 심장병 예측
- 8.3 최적 경계 그리기
- 8.4 제약
- 8.5 요약
- 9장. 의사결정 트리
- 9.1 재앙에서 살아남을지 예측하기
- 9.2 예제: 타이타닉 탈출하기
- 9.4 제약
- 9.5 요약
- 10장. Random Forests
- 10.1 대중의 지혜
- 10.2 예제: 범죄 예측
- 10.3 앙상블
- 10.4 부트스트랩 집계
- 10.5 제약
- 10.6 요약
- 11장. 신경망
- 11.1 두뇌 흉내 내기
- 11.2 예제: 수기 숫자 인식
- 11.3 신경망의 구성 요소
- 11.4 활성화 규칙
- 11.5 제약
- 11.6 요약
- 12장. A/B 테스트와 멀티 암드 밴딧
- 12.1 A/B 테스트의 기초
- 12.2 A/B 테스트의 제약
- 12.3 입실론 감소 전략
- 12.4 예제: 멀티 암드 밴딧
- 12.5 ‘승자 고집하기’에 얽힌 재밌는 사연
- 12.6 입실론 감소 전략의 제약
- 12.7 요약
- 부록
- A. 지도학습 알고리즘 개요
- B. 지도학습 알고리즘 개요
- C. 튜닝 파라미터 목록
- D. 다양한 평가 지표
- 분류 지표
도서 오류 신고
정오표
정오표
[p.25 : 끝에서 2행]
생선의 수를
->
과일의 수를
[p.77: 그림 5]
*도형 안의 숫자 변경
M: 23/ J: 13/ D: 54/ T: 10
->
M: 25/ J: 25/ D: 25/ T: 25