Scikit-learn으로 머신 러닝 마스터 2/e [지도 학습, 비지도 학습, 강화 학습 - 핵심 기법 이해와 활용]
- 원서명Mastering Machine Learning with scikit-learn - Second Edition: Learn to implement and evaluate machine learning solutions with scikit-learn (ISBN 9781788299879)
- 지은이개빈 해클링(Gavin Hackeling)
- 옮긴이이병욱
- ISBN : 9791161751603
- 25,000원
- 2018년 05월 30일 펴냄 (절판)
- 페이퍼백 | 308쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 데이터 과학
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
요약
머신 러닝의 관계에 관해 기초적인 개념을 정립할 수 있도록 돕는 책이다. 지도 학습, 비지도 학습, 강화 학습에 이르기까지 머신 러닝에서 주로 사용되는 기법 대부분을 비교해 설명하며, 이에 관해 파이썬의 scikit-learn 패키지를 사용한 예제를 직접 수행해 볼 수 있다. 특히 잘 정립되고 간결한 설명은 모든 머신 러닝 기법의 기본 개념을 다시 한 번 확고히 이해하는 데 많은 도움을 줄 것이다. 또한 모든 예제를 파이썬 scikit-learn을 사용해 제공하기 때문에 코드를 직접 수행해 가면서 책을 읽을 수 있다.
이 책에서 다루는 내용
■ 편향과 분산 등의 기본 개념
■ 범주형 변수, 텍스트, 이미지 등에서 특징 추출
■ 선형 회귀와 k-최근접 이웃을 사용한 연속 변수 예측
■ 로지스틱 회귀와 서포트 벡터 머신을 이용한 문서와 이미지 분류
■ 배깅과 부스팅 기법을 활용한 예측기의 앙상블 구축
■ K-평균 군집화를 사용한 데이터 내 숨겨진 구조의 발견
■ 보편적으로 사용되는 머신 러닝 시스템의 성능 평가
이 책의 대상 독자
보편적인 머신 러닝 알고리즘의 작동법을 이해하고 어떻게 활용할 것인지에 대한 직관을 얻는 데 도움을 주기 위한 책이다. 또한 이 책은 scikit-learn API를 배우고자 하는 데이터 과학자에게도 유용하다. 책을 읽을 때 머신 러닝의 기초 지식이나 파이썬 지식이 있으면 도움이 되겠지만 반드시 있어야만 하는 것은 아니다.
이 책의 구성
1장, '머신 러닝 기초'에서는 머신 러닝을 경험으로부터 학습해 성능을 개선하는 프로그램을 연구하고 디자인하는 것이라 정의한다. 이는 책 전반에 걸쳐 가이드 역할을 한다. 각 장에서 머신 러닝 모델을 살펴보고 과제에 직접 응용하며, 그 성능을 평가해본다.
2장, '단순 선형 회귀'에서는 단일 특징과 연속 반응 변수 사이의 관계를 설정하는 모델을 알아본다. 비용 함수에 대해 배우며 모델을 최적화하기 위해 정규 방정식을 사용한다.
3장, 'K-최근접 이웃을 이용한 분류와 회귀'에서는 분류와 회귀 과제를 위한 간단한 비선형 모델을 소개한다.
4장, '특징 추출'에서는 텍스트, 이미지, 범주형 변수를 머신 러닝에서 사용할 수 있는 특징으로 표현하는 방법을 알아본다.
5장, '단순 선형 회귀'에서 다중 선형 회귀까지'에서는 연속 반응 변수에 회귀하는 단순 선형 회귀를 확장해 여러 개의 특징을 처리할 수 있게 일반화하는 방법을 알려준다.
6장, '선형 회귀부터 로지스틱 회귀까지'에서는 다중 선형 회귀를 더 일반화하고 이진 분류 과제를 위한 모델을 소개한다.
7장. '나이브 베이즈'에서는 베이즈 정리와 나이브 베이즈 계열의 분류기를 소개하고 생성 모델과 판별 모델을 서로 비교해본다.
8장, '의사결정 트리를 이용한 비선형 분류와 회귀'에서는 분류와 회귀 과제에 사용할 수 있는 간단한 비선형 모델인 의사결정 트리를 소개한다.
9장, '의사결정 트리에서 랜덤 포레스트와 앙상블 기법까지'에서는 모델을 병합하는 세 가지 방법인 배깅, 부스팅, 스태킹에 대해 알아본다.
10장, '퍼셉트론'에서는 이진 분류를 위한 간단한 온라인 모델을 소개한다.
11장, '퍼셉트론에서 서포트 벡터 머신까지'에서는 분류와 회귀를 위한 강력한 판별 모델인 서포트 벡터 머신을 소개하고, 특징을 고차원 공간으로 효과적으로 사상할 수 있는 기법을 설명한다.
12장, '퍼셉트론에서 인공 신경망까지'에서는 인공 신경망으로 구축된 분류와 회귀를 위한 강력한 비선형 모델을 소개한다.
13장, 'K-평균'에서는 레이블이 붙어있지 않은 데이터 내의 구조를 발견하는 데 사용되는 알고리즘을 알아본다.
14장, '주성분 분석을 이용한 차원 축소'에서는 차원의 저주(curse of dimensionality)를 완화할 수 있는 차원 축소 기법을 설명한다.
목차
목차
- 1장. 머신 러닝 기초
- 머신 러닝의 정의
- 경험으로부터 학습
- 머신 러닝 과제
- 훈련 데이터, 테스트 데이터, 검증 데이터
- 편향과 분산
- scikit-learn 소개
- scikit-learn 설치
- pip를 사용한 설치
- 윈도우에 설치
- 우분투 16.04에 설치
- 맥 OS에 설치
- 아나콘다 설치
- 설치 검증
- pandas, Pillow, NLTK, matplotlib 설치
- 요약
- 2장 단순 선형 회귀
- 단순 선형 회귀
- 비용 함수를 사용한 모델의 적합도 평가
- 단순 선형 회귀를 위한 OLS 계산
- 모델 평가
- 요약
- 단순 선형 회귀
- 3장. K-최근접 이웃을 이용한 분류와 회귀
- k-최근접 이웃
- 게으른 학습과 비매개변수 모델
- KNN을 사용한 분류
- KNN을 사용한 회귀
- 특징의 크기 조절
- 요약
- 4장. 특징 추출
- 범주형 변수에서 특징 추출
- 특징의 표준화
- 텍스트에서 특징 추출
- 단어 주머니 모델
- 불용어 필터링
- 형태소 추출과 어휘소 추출
- tf-idf 가중치를 활용한 단어 주머니의 확장
- 해싱 기법을 사용한 공간효율적 특징 벡터
- 워드 임베딩
- 이미지에서 특징 추출
- 픽셀 강도에서 특징 추출
- 컨벌루션 신경망 활성화를 사용한 특징
- 요약
- 5장. 단순 선형 회귀에서 다중 선형 회귀까지
- 다중 선형 회귀
- 다항 회귀
- 정규화
- 선형 회귀의 적용
- 데이터 탐색
- 적합화와 모델 평가
- 기울기 하강법
- 요약
- 6장. 선형 회귀에서 로지스틱 회귀까지
- 로지스틱 회귀를 이용한 이진 분류
- 스팸 필터링
- 이진 분류기 평가 척도
- 정확도
- 정밀도와 재현율
- F1 척도 계산
- ROC AUC
- 그리드 탐색을 활용한 모델 튜닝
- 다중 부류 분류
- 다중 부류 분류 성능 척도
- 다중 부류 분류와 문제 변환
- 다중 부류 분류 성능 척도
- 요약
- 7장. 나이브 베이즈
- 베이즈 정리
- 생성 모델과 판별 모델
- 나이브 베이즈
- 나이브 베이즈에서의 가정
- scikit-learn으로 구현한 나이브 베이즈
- 요약
- 8장. 의사결정 트리를 이용한 비선형 분류와 회귀
- 의사결정 트리
- 의사결정 트리 훈련
- 문제 선택
- 정보 이득
- 지니 불순도
- 문제 선택
- scikit-learn을 사용한 의사결정 트리
- 의사결정 트리의 장단점
- 요약
- 9장. 의사결정 트리에서 랜덤 포레스트와 앙상블 기법까지
- 배깅
- 부스팅
- 스태킹
- 요약
- 10장. 퍼셉트론
- 퍼셉트론
- 활성화 함수
- 퍼셉트론 학습 알고리즘
- 퍼셉트론을 이용한 이진 분류
- 퍼셉트론을 이용한 문서 분류
- 퍼셉트론의 한계
- 요약
- 퍼셉트론
- 11장. 퍼셉트론에서 서포트 벡터 머신까지
- 커널과 커널 트릭
- 최대 마진 분류기와 서포트 벡터
- scikit-learn에서 문자 분류
- 필기체 숫자 분류
- 컬러 이미지에서 문자 분류
- 요약
- 12장. 퍼셉트론에서 인공지능까지
- 비선형 결정 경계
- 피드포워드와 피드백 ANN
- 다층 퍼셉트론
- 다층 퍼셉트론 훈련
- 역전파
- XOR 근사를 위한 계층 퍼셉트론의 훈련
- 필기체 숫자를 분류하기 위한 다층 퍼셉트론 훈련
- 요약
- 13장. K-평균
- 군집화
- K-평균
- 지역 최적 값
- 엘보 기법을 사용한 k 값의 선택
- 클러스터의 평가
- 이미지 퀀터제이션
- 특징 학습을 위한 군집화
- 요약
- 14장. 주성분 분석을 이용한 차원 축소
- 주성분 분석
- 분산, 공분산, 공분산 행렬
- 고유 벡터와 고윳값
- PCA 실행
- PCA를 사용한 고차원 데이터의 시각화
- PCA를 사용한 얼굴 인식
- 요약
- 주성분 분석