R로 만드는 추천 시스템 [고객의 취향을 예측하는 추천 시스템 만들기]
- 원서명Building a Recommendation System with R (ISBN 9781783554492)
- 지은이수레시 고라칼라(Suresh K. Gorakala), 미셸 우수엘리(Michele Usuelli)
- 옮긴이김동섭, 윤병도, 김현돈, 박정현
- ISBN : 9791161750309
- 18,000원
- 2017년 07월 31일 펴냄 (절판)
- 페이퍼백 | 196쪽 | 188*235mm
- 시리즈 : acorn+PACKT
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약
넷플릭스, 애플 뮤직, 아마존은 어떻게 나의 취향을 정확히 파악했을까? 빅데이터 시대에 들어서 기업들은 날로 정교하게 고객의 취향을 파악하려 노력한다. 정보의 홍수 속에 고객이 원하는 것을 가장 빠르고 쉽게 찾게끔 돕는 것은 이제 선택이 아니라 필수가 됐다. 이 책은 최근 가장 각광받는 언어이자 오픈소스 프로그램인 R을 이용해 추천 시스템을 설명한다. 책을 따라 추천 시스템의 기법, 성능평가, 실제 실습의 과정을 지나고 나면 어느새 아마존이 어떻게 나의 취향을 파악하고 있는지, 우리는 고객에게 어떻게 상품을 추천해줘야 하는지를 차츰 이해하게 될 것이다.
이 책에서 다루는 내용
■ 추천 시스템의 핵심 이해
■ 다양한 데이터 마이닝 기법과 데이터 처리 방법
■ 추천 알고리즘의 최적화 및 평가
■ 추천 모형 설계를 위한 데이터 구조화 등의 준비 작업
■ R의 직접 실행을 통한 추천 시스템 기법별 차이
■ 추천 시스템에 쓰이는 다양한 평가 기법
■ R의 대표적인 추천 시스템 패키지인 recommenderlab에 대한 소개와 고성능의 추천 시스템을 만들기 위한 최적화 방법
이 책의 대상 독자
이 책은 R과 머신 러닝에 대한 배경지식을 가진 사람들을 대상으로 한다. 추천 시스템을 만들어보고 싶었다면 이 책이 적합할 것이다.
이 책의 구성
1장. '추천 시스템 시작하기'에서는 이 책의 구성을 설명하고 추천 시스템의 실제 적용 사례를 알아본다.
2장. '추천 시스템에서 사용되는 데이터 마이닝 기법'에서는 추천 모델을 만드는 데 필요한 R의 기초를 살펴보고 데이터 처리와 머신 러닝 기법들을 알아본다.
3장. '추천 시스템'에서는 많이 사용되는 몇 가지 추천 시스템들을 설명하고 R을 사용해 어떻게 만드는지 알아본다.
4장. '추천 시스템의 평가'에서는 추천 시스템의 성능을 평가하고 최적화하는 방법을 알아본다.
5장. '사례 연구: 나만의 추천 시스템 만들기'에서는 비즈니스 과제를 해결하기 위해 어떻게 추천 시스템을 만들고 최적화하는지 알아본다.
목차
목차
- 1장. 추천 시스템 시작하기
- 추천 시스템의 이해
- 이 책의 구성
- 협업 필터링 추천 시스템
- 콘텐츠 기반 추천 시스템
- 지식 기반 추천 시스템
- 하이브리드 시스템
- 평가 기법
- 사례 연구
- 다음 단계
- 요약
- 2장. 추천 시스템에서 사용되는 데이터 마이닝 기법
- 데이터 분석 문제 해결하기
- 데이터 전처리 기법
- 유사도 측정
- 유클리디안 거리
- 코사인 거리
- 피어슨 상관 계수
- 차원 축소
- 주성분 분석
- 유사도 측정
- 데이터 마이닝 기법
- 클러스터링 분석
- K-평균 클러스터링
- 서포트 벡터 머신
- K-평균 클러스터링
- 의사결정 나무
- 앙상블 기법
- 배깅
- 랜덤 포레스트
- 부스팅
- 데이터 마이닝 알고리즘 평가
- 요약
- 3장. 추천 시스템
- 추천 시스템을 위한 R 패키지: recommenderlab
- 데이터 세트
- Jester5k, MSWeb, MovieLense
- 평점 매트릭스를 위한 클래스
- 유사도 매트릭스 계산
- 추천 모델
- 데이터 세트
- 데이터 탐구
- 데이터 특징 탐구
- 평점 값 탐구
- 조회된 영화 탐색
- 평균 평점 탐색
- 매트릭스 시각화
- 데이터 준비
- 가장 적절한 데이터 선택하기
- 가장 적절한 데이터 탐색
- 데이터 정규화
- 데이터 이진화
- 아이템 기반 협업 필터링
- 트레이닝 및 테스트 세트 정의
- 추천 모델 생성
- 추천 모델 탐색
- 테스트 세트에 추천 모델 적용
- 사용자 기반 협업 필터링
- 추천 모델 생성
- 테스트 세트에 추천 모델 적용
- 이진 데이터에 대한 협업 필터링
- 데이터 준비
- 이진 데이터에 대한 아이템 기반 협업 필터링
- 이진 데이터에 대한 사용자 기반 협업 필터링
- 협업 필터링에 대한 결론
- 협업 필터링의 한계
- 콘텐츠 기반 필터링
- 하이브리드 추천 시스템
- 지식 기반 추천 시스템
- 요약
- 추천 시스템을 위한 R 패키지: recommenderlab
- 4장. 추천 시스템의 평가
- 모델 평가를 위한 데이터 준비
- 데이터 분할
- 데이터 부트스트랩
- k-fold를 사용해 모델 확인
- 추천 결과 평가
- 예측 평점 평가
- 추천 결과 평가
- 가장 적합한 모델 식별
- 모델 비교
- 가장 적합한 모델 식별
- 매개변수 최적화
- 요약
- 모델 평가를 위한 데이터 준비
- 5장. 사례 연구: 나만의 추천 시스템 만들기
- 데이터 준비하기
- 데이터에 대한 설명
- 데이터 불러오기
- 평점 매트릭스 정의하기
- 아이템 속성 추출하기
- 모델 만들기
- 모델 평가 및 최적화
- 모델을 평가하는 함수 만들기
- 모델 매개변수 최적화
- 요약
- 데이터 준비하기
도서 오류 신고
정오표
정오표
[p.102 : 2행]
IBCF와 비교할 때 분포도의 꼬리가 길다. 즉, 다른 영화들보다 훨씬 더 자주 추천되는 영화가 있음을 의미한다.
->
영화 대부분은 단 몇 번만 추천됐으며 몇 편의 영화는 추천 횟수가 많았다. 가장 인기있는 영화가 무엇인지 확인해본다.
[p.108 : 2행]
IBCF와 비교할 때 분포도의 꼬리가 길다. 즉, 다른 영화들보다 훨씬 더 자주 추천되는 영화가 있음을 의미한다. 최댓값은 29며 IBCF는 11로서 대비된다.
->
IBCF와 비교할 때 분포도의 꼬리가 길다. 즉, 다른 영화들보다 훨씬 더 자주 추천되는 영화가 있음을 의미한다.
(*삭제: 최대값은 29이며 IBCF는 11로서 대비된다.)