[scikit-learn을 활용한]
파이썬과 기계 학습
- 원서명Learning scikit-learn: Machine Learning in Python (ISBN 9781783281930)
- 지은이라울 가레타(Raúl Garreta), 기예르모 몬세치(Guillermo Moncecchi)
- 옮긴이전철욱
- ISBN : 9788960778108
- 14,000원
- 2015년 12월 29일 펴냄 (절판)
- 페이퍼백 | 144쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 데이터 과학
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
요약
수식 없이 시작하는 기계 학습
기계 학습은 새로운 컴퓨팅 환경에서 해결책을 제시하고 있다. 넘쳐나는 데이터에서 새로운 정보를 찾기는 쉽지 않다. 사용자가 원하는 정보, 사람 대신 인지해야 할 정보, 사업의 미래를 결정하는 정보. 그 가운데 기계 학습이 있다. 이 책은 어려운 수식을 설명하는 대신 쉽게 구할 수 있는 예제로 기계 학습의 핵심을 설명하고 있다. 파이썬 기계 학습 라이브러리인 scikit-learn은 가장 대중적이며 쉽게 접근할 수 있는 도구로, 기계 학습을 처음 접하는 독자에게 큰 버팀목이 될 것이다.
이 책에서 다루는 내용
파이썬 환경에서 scikit-learn 설치
서포트 벡터 머신(Support Vector Machine)이나 나이브 베이즈(Naïve Bayes) 등 다양한 기법을 활용함으로써 속성에 기반한 사물(문서, 얼굴, 꽃품종 등) 분류
타이타닉호 탑승객의 생존 같은 특정 현상의 주원인을 설명하기 위해 결정 트리 사용
회귀 기법으로 주택 가격 예측
차원 축소를 사용한 데이터 분석과 시각화
모델 선택을 통한 모델의 최적 매개변수 선택
병렬 기술을 통한 모델 성능 향상
이 책의 대상 독자
기계 학습과 데이터 기반에 대한 소프트웨어 기술을 습득하고자 하는 개발자를 대상으로 한다.
이 책의 구성
1장, '기계 학습: 친절한 소개'에서는 간단한 분류(classification) 문제를 해결하면서 기계 학습의 주요한 개념을 알아본다. 꽃의 특성을 바탕으로 꽃 품종을 판별한다.
2장, '지도 학습'에서는 네 가지 분류 기법인 서포트 벡터 머신(Support Vector Machine), 나이브 베이즈(Naïve Bayes), 결정 트리(decision tree), 랜덤 포레스트(Random Forests)를 소개하고 이러한 기법을 얼굴 인식, 텍스트 분류, 그리고 타이타닉호 사고에서 탑승객이 생존할 수 있었던 이유를 설명하는 데 사용한다. 보스턴 주택 가격을 예측하기 위해 서포트 벡터 머신과 랜덤 포레스트를 다시 보고 선형 모델(Linear Model)을 살펴본다.
3장, '비지도 학습'에서는 고차원 데이터를 2차원으로 시각화하기 위해 주성분 분석(Principal Component Analysis)으로 차원을 축소하는 기법을 살펴본다. k평균(k-means) 알고리즘을 사용해 유사성에 따라 손글씨 숫자의 인스턴스를 무리 짓는 군집화 기술을 소개한다.
4장, '고급 기능'에서는 데이터를 전처리하고 학습을 위해 최적의 속성을 선택하는 속성 선택(Feature Selection) 기법을 소개하며, 모델 선택(Model Selection) 기법도 살펴본다. 이용할 수 있는 데이터와 병렬 계산(parallel computation)을 활용해 최적의 매개변수를 선택한다.
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
목차
목차
- 1장 기계 학습: 친절한 소개
- scikit-learn 설치
- 리눅스
- 맥
- 윈도우
- 설치 확인
- 첫 번째 기계 학습 기법: 선형 분류
- 결과 평가
- 기계 학습 종류
- 기계 학습에 관련된 중요한 개념
- 요약
- scikit-learn 설치
- 2장 지도 학습
- 서포트 벡터 머신과 이미지 인식
- 서포트 벡터 머신 훈련
- 나이브 베이즈로 텍스트 분류
- 데이터 전처리
- 나이브 베이즈 분류기 훈련
- 성능 평가
- 결정 트리와 타이타닉 가설 설명
- 데이터 전처리
- 결정 트리 분류기 훈련
- 결정 트리 해석
- 랜덤 포레스트: 무작위 결정
- 성능 평가
- 회귀로 주택 가격 예측
- 첫 번째 도전: 선형 모델
- 두 번째 도전: 회귀를 위한 서포트 벡터 머신
- 세 번째 도전: 랜덤 포레스트 다시 보기
- 평가
- 요약
- 서포트 벡터 머신과 이미지 인식
- 3장 비지도 학습
- 주성분 분석
- k평균으로 손글씨 숫자 군집화
- 다른 군집 기법
- 요약
- 4장 고급 기능
- 속성 추출
- 속성 선택
- 모델 선택
- 격자 검색
- 병렬 격자 검색
- 요약
도서 오류 신고
정오표
정오표
2016. 10. 7 수정 사항
[p.89: 4행]
ZN(25,000평방 피트Square Feet 이상 주거 지역의 비율)과 TAX(소유물 전액 세금 비율)은 최종 결과에 영향을 거의 주지 않는다.
->
ZN(25,000평방 피트Square Feet 이상 주거 지역의 비율)과 TAX(소유물 전액 세금 비율)은 최종 결과에 중대한 영향을 미친다.