머신 러닝 알고리즘 [파이썬 예제와 함께 배우는 머신 러닝]
- 원서명Machine learning algorithms: A reference guide to popular algorithms for data science and machine learning (ISBN 9781785889622)
- 지은이주세페 보나코르소(Giuseppe Bonaccorso)
- 옮긴이정사범
- ISBN : 9791161752778
- 35,000원
- 2019년 02월 28일 펴냄
- 페이퍼백 | 400쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 데이터 과학
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
요약
머신 러닝에 대한 소개와 파이썬 활용 방법을 소개하고 있다. 단계별로 다음과 같은 머신 러닝 알고리즘을 쉽게 구현할 수 있는 방법에 대해 배울 수 있다.
- 데이터 기반 애플리케이션에 사용되는 통계와 수학 이론
- EM 알고리즘, PCA, 베이지안 회귀 등의 기술
- 다양한 데이터를 이용한 패턴 인식과 예측
이 책에서 다루는 내용
■ 머신 러닝의 중요한 요소 학습
■ 특징 선택 및 특징 엔지니어링 프로세스 이해
■ 선형 회귀의 성능과 오차간 상충성(trade-offs) 평가
■ 다양한 유형의 알고리즘을 사용해 데이터 모델을 구축하고 해당 모델의 작동 방법 이해
■ SVM 파라미터를 최적화하는 방법
■ 군집화 실행
■ 자연어 처리와 추천 시스템의 개념 이해
■ 사전 지식 없이 머신 러닝 아키텍처 구축
이 책의 대상 독자
머신 러닝이 처음인 사람이나 데이터 과학 분야에 입문하고자 하는 IT 전문가를 위한 것이다. 무엇보다 파이썬 언어에 익숙해야 한다. 더욱이 대부분의 내용을 완전히 이해하기 위해서는 기초 수학 지식(선형 대수학, 확률 이론)이 필요하다.
이 책의 구성
1장, ‘머신 러닝 개요’에서는 머신 러닝에 대해 소개하고 지능형 애플리케이션을 만드는 데 있어 가장 중요한 접근 방식의 기본 개념을 설명한다.
2장, ‘머신 러닝 핵심 요소’에서는 정보 이론의 몇 가지 요소와 학습 능력의 개념을 포함한 가장 일반적인 머신 러닝 문제의 수학적인 개념을 설명한다.
3장, ‘특징 선택 및 특징 엔지니어링’에서는 데이터셋을 전처리하고 가장 중요한 정보를 제공하는 특징을 선택하며, 원 데이터의 차원을 축소하는 데 사용되는 핵심기술인 특징 선택 및 특징 엔지니어링에 대해 설명한다.
선형 회귀 연속 선형 모델의 구조를 선형 회귀 알고리즘에 초점을 맞춰 설명한다. 또한 릿지(Ridge), 라소(Lasso) 및 엘라스틱넷(ElasticNet) 최적화와 다른 고급 기술도 다룬다.
5장, ‘로지스틱 회귀’에서는 로지스틱 회귀(Logistic Regression)와 확률적 경사 하강 알고리즘SGD에 초점을 맞춰 선형 분류의 개념을 소개한다. 이외에 중요한 평가 척도를 설명한다.
6장, ‘나이브 베이즈’에서는 베이즈(Bayes) 확률 이론을 설명하고, 가장 널리 알려진 나이브 베이즈(Naive Bayes) 분류기 구조에 대해 설명한다.
7장, ‘지지 벡터 머신’에서는 선형 비선형 분류 문제에 초점을 맞춰 분류 관련 알고리즘을 소개한다.
8장, ‘의사 결정 나무와 앙상블 학습’에서는 계층적 의사 결정 과정에 대해 설명하고, 의사 결정 나무 분류, 부트스트랩, 배깅 트리, 보팅 분류기의 개념에 대해 설명한다.
9장, ‘군집화’에서는 기초 군집화의 개념을 소개하고, k-평균 알고리즘을 설명하며, 최적의 군집 수를 결정하기 위한 다양한 접근 방법을 소개한다. 후반부에서는 DBSCAN과 같은 스펙트럼 군집화와 같은 다른 군집화 알고리즘에 대해 설명한다.
10장, ‘계층적 군집화’에서는 9장, ‘군집화’에서 설명한 내용에 이어서 응집 군집화(agglomerative clustering)의 개념을 소개한다.
11장, ‘추천 시스템 개요’에서는 추천 시스템에서 가장 잘 알려진 알고리즘인 추천 시스템에 대해 설명한다. 이 시스템에는 콘텐츠-기반 및 사용자-기반 전략, 협업 필터링, 교대 최소 제곱 방법이 있다.
12장, ‘자연어 처리’에서는 단어 바구니(BOW, Bag of Words)의 개념을 설명한다. 또한 자연어 데이터셋을 효율적으로 처리하는 데 필요한 기술을 소개한다.
13장, ‘NLP에서 토픽 모델링 및 감정 분석’에서는 토픽 모델링의 개념을 소개하고, 가장 중요한 알고리즘인 잠정적 의미 분석(latent semantic analysis)과 잠재 디리클레 할당(latent Dirichlet allocation)을 설명한다. 후반부에서는 감정 분석 문제에 대해 설명하고, 이를 해결하기 위한 접근 방법을 설명한다.
상세 이미지
목차
목차
- 1장. 머신 러닝 개요
- 소개-초기의 기계
- 학습
- 지도학습
- 비지도학습
- 강화학습
- 머신 러닝을 넘어서: 딥러닝과 생체-적응 시스템
- 머신 러닝과 빅데이터
- 심화 학습
- 요약
- 2장. 머신 러닝의 핵심 요소
- 데이터 형식
- 멀티클래스 전략
- 일대다
- 일대일
- 멀티클래스 전략
- 학습 능력
- 부적합과 과적합
- 오류 측정
- PAC 학습
- 통계적 학습 접근
- MAP 학습
- 최대-우도 학습
- 정보 이론의 요소
- 참고 문헌
- 요약
- 데이터 형식
- 3장. 특징 선택과 특징 엔지니어링
- scikit-learn 토이 데이터셋
- 훈련 및 테스트 집합 만들기
- 범주형 데이터 관리
- 누락된 특징 관리
- 데이터 스케일링 및 정규화
- 특징 선택 및 필터링
- 주성분 분석
- 음수 미포함 행렬 분해
- 희소 PCA
- 커널 PCA
- 원자 추출 및 딕셔너리 학습
- 참고 문헌
- 요약
- 4장. 선형 회귀
- 선형 모델
- 2차원 예제
- scikit-learn을 이용한 고차원 선형 회귀
- 회귀 분석 표현
- 릿지, 라소 및 엘라스틱 넷
- 랜덤 샘플 합의 -기반 견고한 회귀
- 다항회귀
- 이소토닉 회귀
- 참고 문헌
- 요약
- 5장. 로지스틱 회귀
- 선형 분류
- 로지스틱 회귀
- 구현 및 최적화
- 확률적 경사 하강 알고리즘
- 그리드 검색을 통해 최적의 하이퍼파라미터 찾기
- 분류 측정 방법
- ROC 곡선
- 요약
- 6장. 나이브 베이즈
- 베이지안 이론
- 나이브 베이즈 분류기
- scikit-learn에서 나이브 베이즈
- 베르누이 나이브 베이즈
- 다항 나이브 베이즈
- 가우시안 나이브 베이즈
- 참고 문헌
- 요약
- 7장. 지지 벡터 머신
- 선형 지지 벡터 머신
- scikit-learn 구현
- 선형 분류
- 커널-기반 분류
- 방사형 기저 함수
- 다항식 커널
- 시그모이드 커널
- 사용자 정의 커널
- 비선형 예
- 제어된 지지 벡터 시스템
- 지지 벡터 회귀
- 참고 문헌
- 요약
- 8장. 의사 결정 나무와 앙상블 학습
- 이진 의사 결정 나무
- 이진 의사 결정
- 불순도 측정
- 지니 불순도 지수
- 교차-엔트로피 불순도 지수
- 오분류 불순도 지수
- 특징 중요도
- scikit-learn을 이용한 의사 결정 나무 분류
- 앙상블 학습
- 랜덤 포레스트
- 랜덤 포레스트에서 특징 중요도
- 아다부스트
- 그레이디언트 트리 부스팅
- 투표 분류기
- 랜덤 포레스트
- 참고 문헌
- 요약
- 이진 의사 결정 나무
- 9장. 군집화 개요
- 군집화 기초
- k-평균
- 최적 군집 수 찾기
- DBSCAN
- 스펙트럼 군집화
- k-평균
- 실측 자료에 근거한 평가 방법
- 균질성
- 완전성
- 조정된 랜드 지표
- 참고 문헌
- 요약
- 군집화 기초
- 10장. 계층적 군집화
- 계층적 전략
- 병합적 군집화
- 덴드로그램
- scikit-learn에서 병합 군집화
- 연결 제약 조건
- 참고 문헌
- 요약
- 11장. 추천 시스템 개요
- 나이브 사용자 -기반 시스템
- scikit 학습을 이용한 사용자 -기반 시스템 구현
- 콘텐츠 -기반 시스템
- 모델 없는(또는 메모리-기반) 협업 필터링
- 모델 -기반 협업 필터링
- 단일값 분해 전략
- 교대 최소 자승 전략
- 아파치 스파크 MLlib으로 최소 자승 교체하기
- 참고 문헌
- 요약
- 나이브 사용자 -기반 시스템
- 12장. 자연어 처리
- NLTK 및 내장형 코사인
- 말뭉치 예제
- 단어 바구니 전략
- 토큰화하기
- 문장 토큰화
- Word 토큰화
- 불용어 제거
- 언어 감지
- 어간 추출
- 벡터화
- 카운트 벡터화
- Tf-idf 벡터화
- 토큰화하기
- 로이터 말뭉치에 따른 샘플 텍스트 분류기
- 참고 문헌
- 요약
- NLTK 및 내장형 코사인
- 13장. NLP에서 토픽 모델링과 감정 분석
- 토픽 모델링
- 잠재 의미 분석
- 확률적 잠재 의미 분석
- 잠재 디리클레 할당
- 감정 분석
- NLTK를 이용한 VADER 감정 분석
- 참고 문헌
- 요약
- 토픽 모델링
- 14장. 딥러닝과 텐서플로 개요
- 딥러닝 살펴보기
- 인공 신경망
- 딥 아키텍처
- 완전 연결층
- 컨볼루션층
- 드롭아웃층
- 순환 신경망
- 텐서플로 소개
- 그레이디언트 계산하기
- 로지스틱 회귀
- 다층 퍼셉트론을 이용해 분류 실행하기
- 이미지 컨볼루션
- 케라스 내부 빨리 들여다 보기
- 참고 문헌
- 요약
- 딥러닝 살펴보기
- 15장. 머신 러닝 아키텍처 만들기
- 머신 러닝 아키텍처
- 데이터 수집
- 정규화
- 차원 축소
- 데이터 증강
- 데이터 변환
- 모델링/그리드 탐색/교차 검증
- 가시화
- 머신 러닝 아키텍처용 scikit-learn 도구
- 파이프라인
- 특징 결합
- 참고 문헌
- 머신 러닝 아키텍처