Top

Scikit-learn으로 머신 러닝 마스터 2/e [지도 학습, 비지도 학습, 강화 학습 - 핵심 기법 이해와 활용]

  • 원서명Mastering Machine Learning with scikit-learn - Second Edition: Learn to implement and evaluate machine learning solutions with scikit-learn (ISBN 9781788299879)
  • 지은이개빈 해클링(Gavin Hackeling)
  • 옮긴이이병욱
  • ISBN : 9791161751603
  • 25,000원
  • 2018년 05월 30일 펴냄
  • 페이퍼백 | 308쪽 | 188*235mm
  • 시리즈 : acorn+PACKT, 데이터 과학

책 소개

요약

머신 러닝의 관계에 관해 기초적인 개념을 정립할 수 있도록 돕는 책이다. 지도 학습, 비지도 학습, 강화 학습에 이르기까지 머신 러닝에서 주로 사용되는 기법 대부분을 비교해 설명하며, 이에 관해 파이썬의 scikit-learn 패키지를 사용한 예제를 직접 수행해 볼 수 있다. 특히 잘 정립되고 간결한 설명은 모든 머신 러닝 기법의 기본 개념을 다시 한 번 확고히 이해하는 데 많은 도움을 줄 것이다. 또한 모든 예제를 파이썬 scikit-learn을 사용해 제공하기 때문에 코드를 직접 수행해 가면서 책을 읽을 수 있다.

이 책에서 다루는 내용

■ 편향과 분산 등의 기본 개념
■ 범주형 변수, 텍스트, 이미지 등에서 특징 추출
■ 선형 회귀와 k-최근접 이웃을 사용한 연속 변수 예측
■ 로지스틱 회귀와 서포트 벡터 머신을 이용한 문서와 이미지 분류
■ 배깅과 부스팅 기법을 활용한 예측기의 앙상블 구축
■ K-평균 군집화를 사용한 데이터 내 숨겨진 구조의 발견
■ 보편적으로 사용되는 머신 러닝 시스템의 성능 평가

이 책의 대상 독자

보편적인 머신 러닝 알고리즘의 작동법을 이해하고 어떻게 활용할 것인지에 대한 직관을 얻는 데 도움을 주기 위한 책이다. 또한 이 책은 scikit-learn API를 배우고자 하는 데이터 과학자에게도 유용하다. 책을 읽을 때 머신 러닝의 기초 지식이나 파이썬 지식이 있으면 도움이 되겠지만 반드시 있어야만 하는 것은 아니다.

이 책의 구성

1장, '머신 러닝 기초'에서는 머신 러닝을 경험으로부터 학습해 성능을 개선하는 프로그램을 연구하고 디자인하는 것이라 정의한다. 이는 책 전반에 걸쳐 가이드 역할을 한다. 각 장에서 머신 러닝 모델을 살펴보고 과제에 직접 응용하며, 그 성능을 평가해본다.
2장, '단순 선형 회귀'에서는 단일 특징과 연속 반응 변수 사이의 관계를 설정하는 모델을 알아본다. 비용 함수에 대해 배우며 모델을 최적화하기 위해 정규 방정식을 사용한다.
3장, 'K-최근접 이웃을 이용한 분류와 회귀'에서는 분류와 회귀 과제를 위한 간단한 비선형 모델을 소개한다.
4장, '특징 추출'에서는 텍스트, 이미지, 범주형 변수를 머신 러닝에서 사용할 수 있는 특징으로 표현하는 방법을 알아본다.
5장, '단순 선형 회귀'에서 다중 선형 회귀까지'에서는 연속 반응 변수에 회귀하는 단순 선형 회귀를 확장해 여러 개의 특징을 처리할 수 있게 일반화하는 방법을 알려준다.
6장, '선형 회귀부터 로지스틱 회귀까지'에서는 다중 선형 회귀를 더 일반화하고 이진 분류 과제를 위한 모델을 소개한다.
7장. '나이브 베이즈'에서는 베이즈 정리와 나이브 베이즈 계열의 분류기를 소개하고 생성 모델과 판별 모델을 서로 비교해본다.
8장, '의사결정 트리를 이용한 비선형 분류와 회귀'에서는 분류와 회귀 과제에 사용할 수 있는 간단한 비선형 모델인 의사결정 트리를 소개한다.
9장, '의사결정 트리에서 랜덤 포레스트와 앙상블 기법까지'에서는 모델을 병합하는 세 가지 방법인 배깅, 부스팅, 스태킹에 대해 알아본다.
10장, '퍼셉트론'에서는 이진 분류를 위한 간단한 온라인 모델을 소개한다.
11장, '퍼셉트론에서 서포트 벡터 머신까지'에서는 분류와 회귀를 위한 강력한 판별 모델인 서포트 벡터 머신을 소개하고, 특징을 고차원 공간으로 효과적으로 사상할 수 있는 기법을 설명한다.
12장, '퍼셉트론에서 인공 신경망까지'에서는 인공 신경망으로 구축된 분류와 회귀를 위한 강력한 비선형 모델을 소개한다.
13장, 'K-평균'에서는 레이블이 붙어있지 않은 데이터 내의 구조를 발견하는 데 사용되는 알고리즘을 알아본다.
14장, '주성분 분석을 이용한 차원 축소'에서는 차원의 저주(curse of dimensionality)를 완화할 수 있는 차원 축소 기법을 설명한다.

저자/역자 소개

지은이의 말

최근 몇 년 사이에 상상만 하던 것들이 머신 러닝으로 하나씩 실현되고 있다. 이 기법은 실로 다양한 응용 분야를 만들어냈다. 스팸 차단 같은 응용은 너무나 성공적이어서 이제는 어디서나 볼 수 있는 일상처럼 돼 버렸다. 다른 많은 분야도 최근 들어 연구가 활발하며, 머신 러닝의 미래를 보여준다.
이 책에서는 몇 가지 머신 러닝 모델과 학습 알고리즘을 자세히 알아본다. 머신 러닝이 보편적으로 응용되고 있는 분야에 대해 살펴보고 머신 러닝 시스템의 성능을 평가하는 척도를 설명한다. 이를 위해 scikit-learn이라 불리는 유명한 파이썬 언어의 라이브러리를 사용해 과제를 해결한다. scikit-learn은 직관적이고 다양한 API로, 여러 최신 머신 러닝 알고리즘을 구현해 놓은 집합체이다.

지은이 소개

개빈 해클링(Gavin Hackeling)

데이터 과학자다. 자동 음성 인식, 문서 분류, 물체 인식, 의미 세분화 등의 다양한 머신 러닝 분야에서 일한다. 노스캐롤라이나 대학과 뉴욕 대학을 졸업했고 부인, 고양이와 함께 브루클린에서 살고 있다.

옮긴이의 말

이 책은 머신 러닝의 광범위한 기법을 대부분 소개하면서도 세련되고 효과적인 설명을 통해 손쉽게 개념을 정립할 수 있도록 해준다. 여러 기법을 나열 위주로 열거만 하고 상호 간의 연관성이나 기법 자체의 핵심 개념을 제대로 설명하지 못하고 있는 시중의 여러 서적과 달리, 이 책에서는 아주 잘 짜인 구성과 잘 정리된 개념 설명을 볼 수 있다.
특히 개념 설명을 위해 파이썬의 Scikit-learn을 사용하고 있어, 개념을 이해하기에도 용이할 뿐더러 활용 측면에서도 유연한 측면이 있다. 머신 러닝을 이제 막 공부하는 사람들은 물론, 여러 개념을 간단명료하게 정리하고 싶은 중급 이상의 개발자들에게도 좋은 가이드라인을 줄 수 있다.

옮긴이 소개

이병욱

KAIST 전산학과에서 학사 및 석사를 취득하고, LG전자에서 소프트웨어 연구원으로 재직했다. 이때 미국 마이크로소프트 본사에서 공동으로 한글 윈도우 CE 1.0과 2.0을 개발하기도 했으며, ㈜보험넷을 창업했다. 그 뒤 삼성생명을 비롯한 국내 유수의 생명 보험사와 손해 보험사에서 마케팅 기획, 영업 기획, 최고 마케팅 임원(CMO, 상무), 최고 영업 및 마케팅 임원(CSMO, 전무)으로 활약했으며, 최근에는 핀테크 관련 분야, 특히 블록체인과 빅데이터를 활용한 머신 러닝에 관심이 많다. 저서 『비트코인과 블록체인, 탐욕이 삼켜버린 기술』(에이콘, 2018)을 썼다.

목차

목차
  • 1장. 머신 러닝 기초
    • 머신 러닝의 정의
    • 경험으로부터 학습
    • 머신 러닝 과제
    • 훈련 데이터, 테스트 데이터, 검증 데이터
    • 편향과 분산
    • scikit-learn 소개
    • scikit-learn 설치
      • pip를 사용한 설치
      • 윈도우에 설치
      • 우분투 16.04에 설치
      • 맥 OS에 설치
      • 아나콘다 설치
      • 설치 검증
    • pandas, Pillow, NLTK, matplotlib 설치
    • 요약

  • 2장 단순 선형 회귀
    • 단순 선형 회귀
      • 비용 함수를 사용한 모델의 적합도 평가
      • 단순 선형 회귀를 위한 OLS 계산
    • 모델 평가
    • 요약

  • 3장. K-최근접 이웃을 이용한 분류와 회귀
    • k-최근접 이웃
    • 게으른 학습과 비매개변수 모델
    • KNN을 사용한 분류
    • KNN을 사용한 회귀
      • 특징의 크기 조절
    • 요약

  • 4장. 특징 추출
    • 범주형 변수에서 특징 추출
    • 특징의 표준화
    • 텍스트에서 특징 추출
      • 단어 주머니 모델
      • 불용어 필터링
      • 형태소 추출과 어휘소 추출
      • tf-idf 가중치를 활용한 단어 주머니의 확장
      • 해싱 기법을 사용한 공간효율적 특징 벡터
      • 워드 임베딩
    • 이미지에서 특징 추출
      • 픽셀 강도에서 특징 추출
      • 컨벌루션 신경망 활성화를 사용한 특징
    • 요약

  • 5장. 단순 선형 회귀에서 다중 선형 회귀까지
    • 다중 선형 회귀
    • 다항 회귀
    • 정규화
    • 선형 회귀의 적용
      • 데이터 탐색
      • 적합화와 모델 평가
    • 기울기 하강법
    • 요약

  • 6장. 선형 회귀에서 로지스틱 회귀까지
    • 로지스틱 회귀를 이용한 이진 분류
    • 스팸 필터링
      • 이진 분류기 평가 척도
      • 정확도
      • 정밀도와 재현율
      • F1 척도 계산
      • ROC AUC
    • 그리드 탐색을 활용한 모델 튜닝
    • 다중 부류 분류
    • 다중 부류 분류 성능 척도
    • 다중 부류 분류와 문제 변환
    • 다중 부류 분류 성능 척도
    • 요약

  • 7장. 나이브 베이즈
    • 베이즈 정리
    • 생성 모델과 판별 모델
    • 나이브 베이즈
    • 나이브 베이즈에서의 가정
    • scikit-learn으로 구현한 나이브 베이즈
    • 요약

  • 8장. 의사결정 트리를 이용한 비선형 분류와 회귀
    • 의사결정 트리
    • 의사결정 트리 훈련
      • 문제 선택
        • 정보 이득
      • 지니 불순도
    • scikit-learn을 사용한 의사결정 트리
      • 의사결정 트리의 장단점
    • 요약

  • 9장. 의사결정 트리에서 랜덤 포레스트와 앙상블 기법까지
    • 배깅
    • 부스팅
    • 스태킹
    • 요약

  • 10장. 퍼셉트론
    • 퍼셉트론
      • 활성화 함수
      • 퍼셉트론 학습 알고리즘
      • 퍼셉트론을 이용한 이진 분류
      • 퍼셉트론을 이용한 문서 분류
    • 퍼셉트론의 한계
    • 요약

  • 11장. 퍼셉트론에서 서포트 벡터 머신까지
    • 커널과 커널 트릭
    • 최대 마진 분류기와 서포트 벡터
    • scikit-learn에서 문자 분류
      • 필기체 숫자 분류
      • 컬러 이미지에서 문자 분류
    • 요약

  • 12장. 퍼셉트론에서 인공지능까지
    • 비선형 결정 경계
    • 피드포워드와 피드백 ANN
    • 다층 퍼셉트론
    • 다층 퍼셉트론 훈련
      • 역전파
      • XOR 근사를 위한 계층 퍼셉트론의 훈련
      • 필기체 숫자를 분류하기 위한 다층 퍼셉트론 훈련
    • 요약

  • 13장. K-평균
    • 군집화
    • K-평균
      • 지역 최적 값
      • 엘보 기법을 사용한 k 값의 선택
    • 클러스터의 평가
    • 이미지 퀀터제이션
    • 특징 학습을 위한 군집화
    • 요약

  • 14장. 주성분 분석을 이용한 차원 축소
    • 주성분 분석
      • 분산, 공분산, 공분산 행렬
      • 고유 벡터와 고윳값
    • PCA 실행
    • PCA를 사용한 고차원 데이터의 시각화
    • PCA를 사용한 얼굴 인식
    • 요약

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안