R 예제로 배우는 머신 러닝 [머신 러닝의 기본 이해와 실생활 문제 해결에의 적용]
- 원서명R Machine Learning By Example (ISBN 9781784390846)
- 지은이라가프 발리(Raghav Bali), 디판잔 사카(Dipanjan Sarkar)
- 옮긴이정기연, 김명선, 최재혁, 안진규
- ISBN : 9788960779495
- 33,000원
- 2016년 12월 30일 펴냄 (절판)
- 페이퍼백 | 380쪽 | 188*235mm
- 시리즈 : acorn+PACKT
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
소스 파일은 아래 깃허브 페이지에서 내려 받으실 수 있습니다.
(https://github.com/AcornPublishing/r-machine-learning-example)
요약
머신 러닝을 사용한 실제 응용 사례를 R로 작성된 예제 코드 중심으로 소개한다. 제품 추천을 위한 장바구니 분석, 금융기관에서의 리스크 관리를 위한 신용 위험도 예측, 감정 분석을 위한 소셜 미디어 분석과 같은 실생활 예제를 R 코드로 설명한다. R 언어와 머신 러닝에 대한 기본 지식을 가지고 있는 독자라면, 이 책을 통해 기존에 알고 있던 이론들을 어떻게 응용할 수 있을지 한 단계 더 나아갈 수 있을 것이다.
이 책에서 다루는 내용
■ R의 강력한 데이터 추출, 처리와 탐색 기법 활용
■ R을 이용한 다차원에 걸친 데이터 시각화 및 유용한 특징 추출
■ 수학적, 논리적 개념을 이용한 머신 러닝 알고리즘 탐색
■ 정확한 상황 분석을 위한 분석 분야 심층 탐구
■ 알고리즘 동작을 볼 수 있도록 처음부터 R 머신 러닝 알고리즘 구축
■ 기본부터 시작하여 재사용 가능한 코드 작성 및 완전한 머신 러닝 시스템 구축
■ 머신 러닝과 R을 사용한 흥미로운 실제 문제 해결
■ 머신 러닝 및 데이터 과학의 실제 문제 해결
이 책의 대상 독자
데이터로부터 의사결정을 하는 최신 기술을 사용해 데이터로부터 유용한 정보를 채굴(mining)하는 데 관심이 많은 이들을 위한 책이다. R에 관한 기본 지식은 요구되지만, 데이터 과학에 관한 선행 경험은 필요하지 않다. 머신 러닝에 관한 사전 지식은 이 책의 내용을 학습하는 데 유용하지만, 반드시 필요하지는 않다.
이 책의 구성
1장, ‘머신 러닝 R로 시작하기’에서는 독자에게 R과 그 기초에 대해 소개하고, 머신 러닝의 개요에 대해 설명한다.
2장, ‘기계를 학습시키자’에서는 머신 러닝의 기본을 이루는 개념에 대해 본격적으로 설명한 다. 실제 예제로 이뤄진 다양한 러닝 알고리즘을 설명한다.
3장, ‘장바구니 분석을 통한 쇼핑 트렌드 예측’에서는 첫 번째 프로젝트로서 여러 가지 머신 러닝 기법을 사용해 전자상거래상 상품 추천, 예측, 패턴 분석을 수행한다. 특히 장바구니 분석과 연관 규칙 마이닝을 통해 고객의 쇼핑 패턴 및 트렌드, 상품 제작 및 예측에 대해 다룬다. 이런 기법들은 타깃, 메이시스, 플립카트, 아마존과 같은 소매 기업, 전자상거래 상점의 상품 추천 등에 널리 사용된다.
4장, ‘제품 추천 시스템 만들기’에서는 첫 번째 실습 프로젝트인 전자상거래상 상품 추천, 예측, 패턴 분석의 두 번째 부분을 다룬다. 특히 상용화 단계의 추천 시스템에 쓰인 전자상거래의 다양한 고객 제품 리뷰와 별점 분석을 통한 협력적 사용자 필터링과 같은 알고리즘 기법을 다룬다.
5장, ‘신용 위험의 감지 및 예측: 기술적 분석’에서는 두 번째 실습 프로젝트로 신용 위험 감지 및 예측에 관한 복합 금융 시나리오에 머신 러닝 기법을 적용해 본다. 특히 주요 목표에 대해 소개하고, 은행 자금 대출을 신청한 1,000명의 자산 신용 데이터 세트를 살펴본다. 머신 러닝 기법을 통해 누가 잠재적 신용 위험이 있는지, 누가 대출 받은 자금을 갚지 못할 것인지, 미래에 대해 예측해 본다. 또한 우리가 가진 데이터 세트에 대해 좀 더 자세히 살펴볼 텐데, 데이터를 다룰 때의 주요 문제점, 데이터 세트의 주요 기능, 데이터에 대한 탐사 및 묘사적인 분석 등을 설명한다. 끝으로, 위의 문제를 해결하는 데 적합한 머신 러닝 기법을 살펴보며 마무리 짓는다.
6장, ‘신용 위험의 감지 및 예측: 예측적 분석’에서는 앞장의 묘사적 분석에서 미뤄뒀던 것을 예측적 분석을 통해 살펴본다. 특히 잠재적 신용 위험과 대출 후 상환하지 못할 것 같은 고객에 대해 감지하고 분석하는 몇 가지 머신 러닝 알고리즘을 다룬다. 이는 은행이 대출을 승인할 것인지 말 것인지 데이터를 통해 분석함으로써 결정에 도움을 준다. 또한 몇 가지 지도 학습 알고리즘들을 살펴보고 성능 분석을 해본다. 여러 가지 머신 러닝 알고리즘들의 효율 및 정확도를 측정하는 데 쓰이는 수치에 대해서도 알아본다.
7장, ‘소셜 미디어 분석: 트위터’에서는 데이터 분석 소셜 미디어 분석의 세계로 안내한다. 소셜 미디어 세계로의 안내로 시작해 트위터 API를 통해 데이터를 모으는 방식을 살펴본다. 트위터로부터 유용한 데이터를 끌어오는 방식을 설명하고 실제 예제를 통해 트위터 데이터를 시각화하고, 트윗들을 클러스터링하고, 주제를 모델링하며 문제점 및 복잡성을 이끌어낸 뒤 이 문제들을 해결할 전략에 대해 소개한다. 예제를 통해 몇 가지 강력한 측정법으로 트위터 데이터를 연산할 수 있는지 살펴본다
8장, ‘트위터 데이터의 감정 분석’에서는 트위터 API를 사용해 트윗들의 감정을 분석하는 프로젝트를 다룬다. 이 프로젝트는 감정 표현의 트윗들을 분석하기 위한 복합 머신 러닝 알고리즘에 관한 것으로, 그 결과 값들의 비교를 통해 이해를 돕고 각 알고리즘이 내는 결과의 차이점에 대해 다룬다.
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
목차
목차
- 1장 머신 러닝 R로 시작하기
- R의 기본 탐구
- R을 공학용 계산기로 사용하기
- 벡터로 연산하기
- 특별한 값들
- R의 데이터 구조체
- 벡터
- 배열과 행렬
- 리스트
- 데이터 프레임
- 함수 다루기
- 기본 내장된 함수
- 사용자 정의 함수
- 함수를 인자로 전달하기
- 코드의 흐름 제어
- If, if-else, ifelse 사용
- switch문 사용
- 반복문
- 고급 구조체
- lapply and sapply.
- apply
- tapply
- mapply
- R과 함께 한 발짝 나아가기
- 도움 받기
- 패키지 다루기
- 머신 러닝의 기초
- 머신 러닝: 실제로 무엇을 의미하는가
- 머신 러닝: 실제로 어떻게 사용되고 있는가
- 머신 러닝 알고리즘의 종류
- 요약
- R의 기본 탐구
- 2장 기계를 학습시키자
- 머신 러닝 이해하기
- 머신 러닝 알고리즘
- 퍼셉트론
- 알고리즘의 종류
- 지도 학습 알고리즘
- 비지도 학습 알고리즘들
- 요약
- 3장 장바구니 분석을 통한 소비자 쇼핑 트렌드 예측
- 트렌드 탐지와 예측
- 장바구니 분석
- 장바구니 분석이 실제로 의미하는 것은
- 중요 개념과 정의
- 분석에 사용되는 기법들
- 데이터 기반 의사결정 만들기
- 상품의 분할 행렬 평가
- 데이터 수집
- 데이터 분석과 시각화
- 포괄 추천
- 발전된 분할 행렬
- 빈발 아이템 세트 생성
- 시작하기
- 데이터 검색과 변환
- 아이템 세트 연관 행렬 만들기
- 빈발 아이템 세트 생성 과정 만들기
- 쇼핑 트렌트 찾기
- 연관 규칙 마이닝
- 의존성과 데이터 로딩
- 탐색적 분석
- 쇼핑 트렌드를 발견하고 예측하기
- 연관 규칙 시각화
- 요약
- 4장 제품 추천 시스템 만들기
- 추천 시스템의 이해
- 추천 시스템의 주요 이슈들
- 협력 필터
- 주요 콘셉트와 정의들
- 협력 필터 알고리즘
- 추천 엔진 만들기
- 행렬 분해
- 구현
- 결과 해석
- 출시 수준의 추천 시스템
- 추출, 변환, 분석
- 모델 개발 및 예측
- 모델 평가
- 요약
- 5장 신용 위험의 감지 및 예측: 기술적 분석
- 분석의 종류.
- 다음 도전
- 신용 위험이란?
- 데이터 수집
- 데이터 전처리
- 유실 값 처리
- 데이터형 변환
- 데이터 분석 및 변환
- 분석 유틸리티 구축
- 데이터 세트 분석
- 변환된 데이터 세트 저장
- 다음 단계
- 특징 집합들
- 머신 러닝 알고리즘들
- 요약
- 6장 신용 위험 탐지 및 예측: 예측적 분석
- 예측적 분석
- 어떻게 신용 위험을 예측할까
- 예측 모델링의 중요한 개념
- 데이터 준비
- 예측 모델 만들기
- 예측 모델 평가
- 데이터 수집
- 데이터 전처리
- 피처 선택
- 로지스틱 회귀를 이용한 모델링
- 서포트 벡터 머신을 이용한 모델링
- 의사결정 나무를 사용한 모델링
- 랜덤 포레스트를 이용한 모델링
- 신경망을 이용한 모델링
- 모델 비교 및 선택
- 요약
- 7장 소셜 미디어 분석: 트위터 데이터 분석
- 소셜 네트워크(트위터)
- 데이터 마이닝 @소셜 네트워크
- 소셜 네트워크 데이터 마이닝하기
- 데이터와 시각화
- 트위터 API 시작
- 개요
- 앱 등록
- 연결/인증
- 샘플 트윗 추출
- 트위터 데이터 마이닝
- 빈출 어휘 및 연관성
- 많이 사용되는 디바이스들
- 계층적 군집화
- 주제 모델링
- 소셜 네트워크 데이터 마이닝의 도전
- 참고 자료
- 요약
- 8장 트위터 데이터의 감정 분석
- 감정 분석에 대한 이해
- 감정 분석의 주요 개념
- 접근 방법
- 애플리케이션
- 도전 과제
- 트위터를 이용한 감정 분석
- 극성 분석
- 분류 기반 알고리즘
- 요약
- 감정 분석에 대한 이해
도서 오류 신고
정오표
정오표
[p.80 : 10행]
[p.90 : 3행]