책 소개
2018년 대한민국학술원 우수학술도서 선정도서
요약
데이터 전처리, 데이터 분할 등의 분석에 있어서 필수적으로 필요한 단계부터 모델 튜닝의 기초에 이르기까지, 전반적인 예측 모델 과정을 다룬다. 다양한 일반적인 회귀 및 분류 기법 대해 직관적으로 설명하고, 이에 대한 실제 데이터 문제를 예제로 들어 이해를 돕는다. 이를 통해 클래스 불균형, 예측 변수 선택, 모델 성능 원인 파악 등 실제 모델을 적용할 때 종종 맞닥뜨리게 되는 문제들에 대해서도 살펴볼 수 있다. 또한 각 예제에 대한 상세한 R 코드가 같이 실려 있어서 책의 내용을 실제로 실행해 보면서 학습할 수 있다. 이 책은 학부 및 석사과정의 예측 모델 수업용 교과서부터 실제 현업에서의 참고자료까지 예측 모델을 활용하고자 하는 여러 사람들이 다양하게 활용할 수 있을 것이다.
이 책의 대상 독자
예측 모델에 대한 소개와 모델 적용 가이드로서 광범위한 사용자를 대상으로 한다. 수학에 친숙하지 않은 독자는 기법에 대한 직관적인 설명을 반길 수 있을 것이고, 다양한 애플리케이션에서 실제 데이터로 문제를 해결하는 데 중점을 둔 내용은 전문 지식을 확장하려는 실무자에게 도움이 될 것이다. 독자는 상관 관계 및 선형 회귀 분석과 같은 기본 통계 개념에 대한 지식을 갖고 있어야 한다. 일부 복잡한 방정식을 다루며 고급 주제의 경우 수학적 배경이 필요하다.
상세 이미지
목차
목차
- 1장. 시작하며
- 1.1 예측 대 해석
- 1.2 예측 모델의 주 요소
- 1.3 용어
- 1.4 예제 데이터 세트와 일반적 데이터 시나리오
- 음악 장르
- 장학금 신청
- 간 손상
- 투과성
- 화학 물질 제조 절차
- 부정 재무 재표
- 데이터 세트 비교
- 1.5 개요
- 1.6 표기법
- 2장. 예측 모델링 과정 훑어보기
- 2.1 사례 연구: 연비 예측
- 2.2 테마
- 데이터 분할
- 예측 데이터
- 성능 추정
- 여러 모델을 평가하기
- 모델 선정
- 2.3 요약
- 3장. 데이터 전처리
- 3.1 사례 연구: 하이콘텐츠 스크리닝에서의 세포 분할
- 3.2 개별 예측 변수에 대한 데이터 변형
- 중심화와 척도화
- 왜도 해결을 위한 변형
- 3.3 여러 예측 변수 변형
- 이상치 제거를 위한 데이터 변형
- 데이터 축소와 특징 추출
- 3.4 결측치 처리
- 3.5 예측 변수 제거
- 예측 변수 간의 상관관계3.6 예측 변수 추가
- 3.7 예측 변수 구간화
- 3.8 컴퓨팅
- 변환
- 필터링
- 가변수 생성
- 연습 문제
- 4장. 과적합과 모델 튜닝
- 4.1 과적합 문제
- 4.2 모델 튜닝
- 4.3 데이터 분할
- 4.4 리샘플링 기법
- K -겹 교차 검증
- 일반화 교차 검증
- 반복적 훈련/테스트 세트 분할
- 부트스트랩
- 4.5 사례 연구: 신용 평가
- 4.6 최종 튜닝 변수 선정
- 4.7 추천하는 데이터 분할 방식
- 4.8 모델 선택
- 4.9 컴퓨팅
- 데이터 분할
- 리샘플링
- R로 하는 기본적 모델 구축
- 튜닝 변수 판단
- 모델 간 비교
- 연습 문제
- 5장. 회귀 모델 성능 측정
- 5.1 성능의 정량적 측정
- 5.2 분산-편향성 트레이드 오프
- 5.3 컴퓨팅
- 6장. 선형 회귀와 이웃 모델들
- 6.1 사례 연구 구조적 정량 활성 관계 모델링
- 6.2 선형 회귀
- 용해도 데이터에 대한 선형 회귀
- 6.3 부분 최소 제곱
- 용해도 데이터에 대한 PCR과 PLSR
- PLS의 알고리즘 분산
- 6.4 벌점 모델
- 6.5 컴퓨팅
- 일반 선형 회귀
- 부분 최소 제곱
- 벌점 회귀 모델
- 연습 문제
- 7장 비선형 회귀 모델
- 7.1 신경망 모델
- 7.2 다변량 가법 회귀 스플라인 모델
- 7.3 서포트 벡터 머신
- 7.4 K -최근접 이웃
- 7.5 컴퓨팅
- 신경망 모델
- 다변량 가법 회귀 스플라인서포트 벡터 머신
- K-최근접 이웃
- 연습 문제
- 8장. 회귀 트리와 규칙 기반 모델
- 8.1 기본 회귀 트리
- 8.2 회귀 모델 트리
- 8.3 규칙 기반 모델
- 8.4 배깅 트리
- 8.5 랜덤 포레스트
- 8.6 부스팅
- 8.7 큐비스트
- 8.8 컴퓨팅
- 단일 트리
- 모델 트리
- 배깅 트리
- 랜덤 포레스트
- 부스티드 트리
- 큐비스트
- 연습 문제
- 9장. 용해도 모델 정리
- 10장. 사례 연구: 콘크리트 혼합물의 압축 강도
- 10.1 모델 구축 전략
- 10.2 모델 성능
- 10.3 압축 강도 최적화
- 10.4 컴퓨팅
- 11장. 분류 모델에서의 성능 측정
- 11.1 클래스 분류
- 잘 보정된 확률
- 클래스 확률 나타내기
- 중간 지대
- 11.2 분류 예측 평가
- 이종 문제
- 비정확도 기반 기준
- 11.3 클래스 확률 평가
- 시스템 동작 특성(ROC) 곡선
- 리프트 도표
- 11.4 컴퓨팅
- 민감도와 특이도
- 혼동 행렬
- 시스템 동작 특성 곡선
- 리프트 도표
- 확률 보정
- 11.1 클래스 분류
- 12장. 판별 분석 및 기타 선형 분류 모델
- 12.1 사례 연구: 성공적인 지원금 신청 예측
- 12.2 로지스틱 회귀
- 12.3 선형 판별 분석
- 12.4 부분 최소 제곱 판별 분석
- 12.5 벌점 모델
- 12.6 최근접 축소 중심 모델
- 12.7 컴퓨팅
- 로지스틱 회귀
- 선형 판별 분석
- 부분 최소 제곱 판별 분석
- 벌점 모델
- 최근접 축소 중심법
- 연습 문제
- 13장. 비선형 분류 모델
- 13.1 비선형 판별 분석
- 이차 판별 분석과 정규 판별 분석
- 혼합 판별 분석
- 13.2 신경망
- 13.3 유연 판별 분석
- 13.4 서포트 벡터 머신
- 13.5 K -최근접 이웃 모델
- 13.6 나이브 베이즈 모델
- 13.7 컴퓨팅
- 비선형 판별 분석
- 신경망
- 유연 판별 분석
- 서포트 벡터 머신
- K-최근접 이웃 분석
- 나이브 베이즈 분석
- 연습 문제
- 13.1 비선형 판별 분석
- 14장. 분류 트리와 규칙 기반 모델
- 14.1 기본 분류 트리
- 14.2 규칙 기반 모델
- C4.5 규칙
- PART
- 14.3 배깅 트리
- 14.4 랜덤 포레스트
- 14.5 부스팅
- 에이다부스트
- 확률 경사 부스팅
- 14.6 C5.0
- 분류 트리
- 분류 규칙
- 부스팅
- 모델의 다른 측면
- 보조금 데이터
- 14.7 범주형 변수의 두 가지 변조 방식 비교
- 14.8 컴퓨팅
- 분류 트리
- 규칙배깅 트리
- 랜덤 포레스트
- 부스티드 트리
- 연습 문제
- 15장. 보조금 지원 모델 살펴보기
- 16장. 심각한 클래스 불균형 처리하기
- 16.1 사례 연구: 이동식 주택 보험 가입 예측
- 16.2 클래스 불균형의 영향
- 16.3 모델 튜닝
- 16.4 대체 한도
- 16.5 사전 확률 보정
- 16.6 다른 경우별 가중치
- 16.7 샘플링 기법
- 16.8 비용 민감 훈련
- 16.9 컴퓨팅
- 대체 한도
- 샘플링 기법
- 비용 민감 훈련
- 연습 문제
- 17장. 사례 연구: 작업 스케줄링
- 17.1 데이터 분할과 모델 전략
- 17.2 결과
- 17.3 컴퓨팅
- 18장. 예측 변수 중요도 측정하기
- 18.1 수치형 결과
- 18.2 범주형 결과
- 18.3 다른 방법
- 18.4 컴퓨팅
- 수치형 결과
- 변수형 결과
- 모델 기반 중요도
- 연습 문제
- 19장. 특징 선택 입문
- 19.1 비정보성 예측 변수 사용의 결과
- 19.2 변수 수를 줄이는 방식
- 19.3 래퍼 방법
- 전진, 후진, 단계적 선택법
- 담금질 기법
- 유전 알고리즘
- 19.4 필터 방법
- 19.5 선택 편향
- 19.6 사례 연구: 인지 장애 예측
- 19.7 컴퓨팅
- 전진, 후진, 단계적 선택법
- 반복 특징 제거
- 필터 방법
- 연습 문제
- 20장. 모델 성능에 영향을 미치는 요인
- 20.1 삼종 오류
- 20.2 결과의 측정 오차
- 20.3 예측 변수에서의 측정 오차
- 사례 연구: 원치 않는 부작용 예측
- 20.4 연속형 결과를 이산화하기
- 20.5 언제 모델의 예측값을 믿어야 할까?
- 20.6 샘플이 클 때의 영향
- 20.7 컴퓨팅
- 연습 문제
- 연습 문제
- 부록 A. 여러 모델에 대한 요약
- 부록 B. R에 대한 소개
- 1B.1 시작 및 도움말
- 1B.2 패키지
- 1B.3 객체 생성
- 1B.4 데이터 유형과 기본 구조
- 1B.5 2차원 데이터 세트로 작업하기
- 1B.6 객체와 클래스
- 1B.7 R 함수
- 1B.8 =의 3개 얼굴
- 1B.9 AppliedPredictiveModeling 패키지
- B.10 caret 패키지
- B.11 이 책에서 사용된 소프트웨어
- 부록 C. 유용한 웹 사이트
- 소프트웨어
- 대회
관련 블로그 글
깊이 있는 예측 분석을 위한 필수 가이드
데이터 마이닝에서 미래의 행동과 변화의 결과를 예측하기 위해 사용되는 기법. 데이터 수집, 통계적 모형 설정, 예측 수립, 모형 검증, 수정 등의 과정을 통한 모형 작업이며, 결과적으로 간단한 1차 방정식 모형에서부터 고도의 소프트웨어로 처리되는 복잡한 신경망 모형 등이 만들어진다.
크리에이티브 커먼즈 라이센스 이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
도서 오류 신고
정오표
정오표
수정 사항은 여기에서 내려받으세요.
[p.136: 네 번째 문단 첫 문장]
선형 회귀 유형 모델은 매우 해석하기 쉬우므로 용도에 너무 구애받을 필요도 없다.
->
선형 회귀 유형 모델은 매우 해석하기 쉽지만 그 용도에 제한이 있다.
[p.139 마지막 문단]
... 이때 분산의 13% 이상인 시점에서는 어떤 성분도 포함되지 않아 성분에서 요약돼 나타난 변동량이 급격하게 떨어지는 것을 확인하자.
->
이때 분산의 13% 이상인 시점에서는 어떤 성분도 포함되지 않은 상태로 성분에서 요약돼 나타난 변동량이 급격하게 떨어지는 것을 확인하자.
[p.187 : 2행]
GCV 추정값은 특징 선택상에서 야기될 수 있는 편향적 선택으로 인한 불확실성을 반영하지 않는다.
->
GCV 추정값은 특정 선택상에서 야기될 수 있는 불확실성을 반영하지 않으므로 표본선정편파를 갖는다.
[p.221 : 그림 8.5]
복잡도 변수
->
RMSE(교차 검증)
[p.221 : 그림 8.5]
RMSE(교차 검증)
->
복잡도 변수
[p.307 : 두 번째 식]
민감도
->
특이도