Top

R 예제로 배우는 머신 러닝 [머신 러닝의 기본 이해와 실생활 문제 해결에의 적용]

  • 원서명R Machine Learning By Example (ISBN 9781784390846)
  • 지은이라가프 발리(Raghav Bali), 디판잔 사카(Dipanjan Sarkar)
  • 옮긴이정기연, 김명선, 최재혁, 안진규
  • ISBN : 9788960779495
  • 33,000원
  • 2016년 12월 30일 펴냄
  • 페이퍼백 | 380쪽 | 188*235mm
  • 시리즈 : acorn+PACKT

책 소개

소스 파일은 아래 깃허브 페이지에서 내려 받으실 수 있습니다.
(https://github.com/AcornPublishing/r-machine-learning-example)

요약

머신 러닝을 사용한 실제 응용 사례를 R로 작성된 예제 코드 중심으로 소개한다. 제품 추천을 위한 장바구니 분석, 금융기관에서의 리스크 관리를 위한 신용 위험도 예측, 감정 분석을 위한 소셜 미디어 분석과 같은 실생활 예제를 R 코드로 설명한다. R 언어와 머신 러닝에 대한 기본 지식을 가지고 있는 독자라면, 이 책을 통해 기존에 알고 있던 이론들을 어떻게 응용할 수 있을지 한 단계 더 나아갈 수 있을 것이다.

이 책에서 다루는 내용

■ R의 강력한 데이터 추출, 처리와 탐색 기법 활용
■ R을 이용한 다차원에 걸친 데이터 시각화 및 유용한 특징 추출
■ 수학적, 논리적 개념을 이용한 머신 러닝 알고리즘 탐색
■ 정확한 상황 분석을 위한 분석 분야 심층 탐구
■ 알고리즘 동작을 볼 수 있도록 처음부터 R 머신 러닝 알고리즘 구축
■ 기본부터 시작하여 재사용 가능한 코드 작성 및 완전한 머신 러닝 시스템 구축
■ 머신 러닝과 R을 사용한 흥미로운 실제 문제 해결
■ 머신 러닝 및 데이터 과학의 실제 문제 해결

이 책의 대상 독자

데이터로부터 의사결정을 하는 최신 기술을 사용해 데이터로부터 유용한 정보를 채굴(mining)하는 데 관심이 많은 이들을 위한 책이다. R에 관한 기본 지식은 요구되지만, 데이터 과학에 관한 선행 경험은 필요하지 않다. 머신 러닝에 관한 사전 지식은 이 책의 내용을 학습하는 데 유용하지만, 반드시 필요하지는 않다.

이 책의 구성

1장, ‘머신 러닝 R로 시작하기’에서는 독자에게 R과 그 기초에 대해 소개하고, 머신 러닝의 개요에 대해 설명한다.
2장, ‘기계를 학습시키자’에서는 머신 러닝의 기본을 이루는 개념에 대해 본격적으로 설명한 다. 실제 예제로 이뤄진 다양한 러닝 알고리즘을 설명한다.
3장, ‘장바구니 분석을 통한 쇼핑 트렌드 예측’에서는 첫 번째 프로젝트로서 여러 가지 머신 러닝 기법을 사용해 전자상거래상 상품 추천, 예측, 패턴 분석을 수행한다. 특히 장바구니 분석과 연관 규칙 마이닝을 통해 고객의 쇼핑 패턴 및 트렌드, 상품 제작 및 예측에 대해 다룬다. 이런 기법들은 타깃, 메이시스, 플립카트, 아마존과 같은 소매 기업, 전자상거래 상점의 상품 추천 등에 널리 사용된다.
4장, ‘제품 추천 시스템 만들기’에서는 첫 번째 실습 프로젝트인 전자상거래상 상품 추천, 예측, 패턴 분석의 두 번째 부분을 다룬다. 특히 상용화 단계의 추천 시스템에 쓰인 전자상거래의 다양한 고객 제품 리뷰와 별점 분석을 통한 협력적 사용자 필터링과 같은 알고리즘 기법을 다룬다.
5장, ‘신용 위험의 감지 및 예측: 기술적 분석’에서는 두 번째 실습 프로젝트로 신용 위험 감지 및 예측에 관한 복합 금융 시나리오에 머신 러닝 기법을 적용해 본다. 특히 주요 목표에 대해 소개하고, 은행 자금 대출을 신청한 1,000명의 자산 신용 데이터 세트를 살펴본다. 머신 러닝 기법을 통해 누가 잠재적 신용 위험이 있는지, 누가 대출 받은 자금을 갚지 못할 것인지, 미래에 대해 예측해 본다. 또한 우리가 가진 데이터 세트에 대해 좀 더 자세히 살펴볼 텐데, 데이터를 다룰 때의 주요 문제점, 데이터 세트의 주요 기능, 데이터에 대한 탐사 및 묘사적인 분석 등을 설명한다. 끝으로, 위의 문제를 해결하는 데 적합한 머신 러닝 기법을 살펴보며 마무리 짓는다.
6장, ‘신용 위험의 감지 및 예측: 예측적 분석’에서는 앞장의 묘사적 분석에서 미뤄뒀던 것을 예측적 분석을 통해 살펴본다. 특히 잠재적 신용 위험과 대출 후 상환하지 못할 것 같은 고객에 대해 감지하고 분석하는 몇 가지 머신 러닝 알고리즘을 다룬다. 이는 은행이 대출을 승인할 것인지 말 것인지 데이터를 통해 분석함으로써 결정에 도움을 준다. 또한 몇 가지 지도 학습 알고리즘들을 살펴보고 성능 분석을 해본다. 여러 가지 머신 러닝 알고리즘들의 효율 및 정확도를 측정하는 데 쓰이는 수치에 대해서도 알아본다.
7장, ‘소셜 미디어 분석: 트위터’에서는 데이터 분석 소셜 미디어 분석의 세계로 안내한다. 소셜 미디어 세계로의 안내로 시작해 트위터 API를 통해 데이터를 모으는 방식을 살펴본다. 트위터로부터 유용한 데이터를 끌어오는 방식을 설명하고 실제 예제를 통해 트위터 데이터를 시각화하고, 트윗들을 클러스터링하고, 주제를 모델링하며 문제점 및 복잡성을 이끌어낸 뒤 이 문제들을 해결할 전략에 대해 소개한다. 예제를 통해 몇 가지 강력한 측정법으로 트위터 데이터를 연산할 수 있는지 살펴본다
8장, ‘트위터 데이터의 감정 분석’에서는 트위터 API를 사용해 트윗들의 감정을 분석하는 프로젝트를 다룬다. 이 프로젝트는 감정 표현의 트윗들을 분석하기 위한 복합 머신 러닝 알고리즘에 관한 것으로, 그 결과 값들의 비교를 통해 이해를 돕고 각 알고리즘이 내는 결과의 차이점에 대해 다룬다.

본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.

저자/역자 소개

지은이의 말

요즘 기술 분야에서 가장 핫한 유행어는 데이터 과학(data science)과 머신 러닝(machine learning)이다. 작은 소매점에서부터 포춘 500대 기업에 이르기까지 많은 조직들이 데이터에 근거한 통찰이 자신들의 비즈니스를 확장시킬 수 있도록 머신 러닝에 힘을 쏟고 있다. 강력한 데이터 처리 기능, 머신 러닝 패키지, 활발한 개발자 커뮤니티 등 R을 통해 실제 데이터 문제를 해결할 수 있는 세련된 머신 러닝 시스템을 구축할 수 있다.
이 책을 통해 아주 기본적인 R과 머신 러닝에 대해 알아보고 실제 문제를 다루는 프로젝트를 단계적으로 함께 구현해보자.

지은이 소개

라가프 발리(Raghav Bali)

인도 방갈로르의 국제정보기술공학대학교(International Institute of Information Technology, Bangalore) IT 학과에서 최우수자(gold medalist)로 석사 학위를 받았다. 세계 최대의 반도체 회사인 인텔에서 애널리틱스(Analytics), 비즈니스 인텔리전스(BI, Business Intelligence), 애플리케이션 개발(Application Development) 업무를 담당하는 IT 엔지니어며, 현재 세계 최고 회사들의 ERP, 금융, 비즈니스 인텔리전스 분야에서 애널리스트와 개발자로 일하고 있다. 여가 시간에는 순간을 포착하는 사진광이다.

디판잔 사카(Dipanjan Sarkar)

세계 최대의 반도체 회사인 인텔에서 애널리틱스, 비즈니스 인텔리전스, 애플리케이션 개발 업무를 수행하는 IT 엔지니어다. 인도 방갈로르의 국제정보기술공대 IT 학과에서 석사 학위를 받았으며, 소프트웨어 엔지니어링, 데이터 과학, 머신 러닝, 텍스트 애널리틱스가 전문 영역이다.
새로운 기술을 배우는 것을 포함해, 혁신적인 스타트업들과 데이터 과학에 관심을 가지고 있다. 책을 읽고, 게임을 하고, 유명한 시트콤을 보는 것을 좋아한다. 팩트출판사가 펴낸 『Data Analysis with R』, 『Learning R for Geospatial Analysis』, 『R Data Analysis Cookbook』의 감수자이기도 하다.

옮긴이의 말

인터넷이 대중화되기 시작할 무렵 ‘인터넷 검색사’라는 자격증이 생겼다. 현재의 우리에게는 젓가락 사용이나 필기구 사용과 다를 바 없을 만큼 일상의 일부로 자리잡은 인터넷 검색을 위한 ‘자격증’이 따로 있었다니! 그로부터 20여 년이 흐른 지금, 인터넷 검색사 자격증은 그 본래 의미와는 달리 인터넷이라는 새로운 기술에 대해 우리 모두가 느꼈던 그 시절의 막연한 두려움과 어려움을 증명하는 추억의 단어가 돼버렸다. 가끔 멤버들과 머신 러닝과 그 응용에 대한 이야기를 나누다 보면 자주 등장하는 이야기가 바로 인터넷 검색사 이야기다. “그래. 불과 몇 년 뒤에는 ‘머신 러닝’을 공부했다는 말이 ‘인터넷 검색’을 공부했다는 말처럼 들릴지도 몰라!”
뜨겁게 발전하며 진화하는 ‘머신 러닝’은 지금의 고민이 몇 년 뒤에 영 낯선 것이 된다고 할지라도 지금 당장은 알고 싶은, 너무나 매력적인 것임에 틀림없다. 머신 러닝, 딥러닝은 그 원리에 대한 이해도 중요하겠지만, 우리가 원하는 가치를 도출하는 방법론으로서의 의미가 무궁무진하다. 머신 러닝에 입문한 후, 방대하고 복잡한 이론 속에서 헤매고 있는 독자가 있다면, 예제를 주로 다룬 이 책을 통해 뜬구름 같던 개념들이 좀 더 손에 잡히게 되길 바란다.
우리 멤버들은 각자 다양한 전문 분야에 대한 이해를 바탕으로 머신 러닝을 응용/적용하기 위해 함께 여러 의견을 나누고 있다. 따라서 이 분야와 관련해 의견 또는 제안이 있다면 언제든 가벼운 마음으로 연락 주시길 바란다.

옮긴이 소개

정기연

경제학과 전자 공학을 공부했고, 전자 공학으로 석사 학위를 받았다. 경세제민(經世濟民)의 뜻을 기술로 이뤄 보고자 10여 년간 전자 회사에서 엔지니어로 일하며 기술을 연마해 왔다. 최근에는 가치를 만들어 내는 기술의 응용을 고민하며 꿈에 한 걸음 더 가까이 다가가고 있다.

김명선

전자 공학 및 네트워크를 공부했고 전자 회사의 선행 연구소에 재직 중이다. 아이디어 내기와 무언가를 만드는 것을 좋아한다. 개발자로 오랜 기간 일하다가 새로운 것을 만드는 일에 좀 더 적극적으로 나서며 다양한 분야에 도전하고자 노력하고 있다.

최재혁

전자 공학과 컴퓨터 과학 분야의 학사 및 석사 학위를 받았다. 전자 회사의 선행 연구소에서 HCI를 위한 임베디드 소프트웨어 개발 및 알고리즘 연구를 하고 있다. 전자 제품을 좋아해서 블로그도 운영하고 있으며 사람들의 편의와 행복을 증진시킬 수 있는 다양한 기술들에 관심을 가지고 있다.

안진규

전자 공학과에서 화질 개선과 영상 압축 VLSI로 석사 학위를 이수했다. 전자 회사의 선행 연구소에서 SoC(System on Chip)을 설계하고 있다. 하드웨어 전공이지만, 남의 떡이 커 보여서 여기저기 기웃거리며 더 좋은 엔지니어가 되고자 노력 중이다.

목차

목차
  • 1장 머신 러닝 R로 시작하기
    • R의 기본 탐구
      • R을 공학용 계산기로 사용하기
      • 벡터로 연산하기
      • 특별한 값들
    • R의 데이터 구조체
      • 벡터
      • 배열과 행렬
      • 리스트
      • 데이터 프레임
    • 함수 다루기
      • 기본 내장된 함수
      • 사용자 정의 함수
      • 함수를 인자로 전달하기
    • 코드의 흐름 제어
      • If, if-else, ifelse 사용
      • switch문 사용
      • 반복문
    • 고급 구조체
      • lapply and sapply.
      • apply
      • tapply
      • mapply
    • R과 함께 한 발짝 나아가기
      • 도움 받기
      • 패키지 다루기
    • 머신 러닝의 기초
      • 머신 러닝: 실제로 무엇을 의미하는가
      • 머신 러닝: 실제로 어떻게 사용되고 있는가
      • 머신 러닝 알고리즘의 종류
    • 요약

  • 2장 기계를 학습시키자
    • 머신 러닝 이해하기
    • 머신 러닝 알고리즘
      • 퍼셉트론
    • 알고리즘의 종류
      • 지도 학습 알고리즘
      • 비지도 학습 알고리즘들
    • 요약

  • 3장 장바구니 분석을 통한 소비자 쇼핑 트렌드 예측
    • 트렌드 탐지와 예측
    • 장바구니 분석
      • 장바구니 분석이 실제로 의미하는 것은
      • 중요 개념과 정의
      • 분석에 사용되는 기법들
      • 데이터 기반 의사결정 만들기
    • 상품의 분할 행렬 평가
      • 데이터 수집
      • 데이터 분석과 시각화
      • 포괄 추천
      • 발전된 분할 행렬
    • 빈발 아이템 세트 생성
      • 시작하기
      • 데이터 검색과 변환
      • 아이템 세트 연관 행렬 만들기
      • 빈발 아이템 세트 생성 과정 만들기
      • 쇼핑 트렌트 찾기
    • 연관 규칙 마이닝
      • 의존성과 데이터 로딩
      • 탐색적 분석
      • 쇼핑 트렌드를 발견하고 예측하기
      • 연관 규칙 시각화
    • 요약

  • 4장 제품 추천 시스템 만들기
    • 추천 시스템의 이해
    • 추천 시스템의 주요 이슈들
    • 협력 필터
      • 주요 콘셉트와 정의들
      • 협력 필터 알고리즘
    • 추천 엔진 만들기
      • 행렬 분해
      • 구현
      • 결과 해석
    • 출시 수준의 추천 시스템
      • 추출, 변환, 분석
      • 모델 개발 및 예측
      • 모델 평가
    • 요약
  • 5장 신용 위험의 감지 및 예측: 기술적 분석
    • 분석의 종류.
    • 다음 도전
    • 신용 위험이란?
    • 데이터 수집
    • 데이터 전처리
      • 유실 값 처리
      • 데이터형 변환
      • 데이터 분석 및 변환
      • 분석 유틸리티 구축
      • 데이터 세트 분석
      • 변환된 데이터 세트 저장
    • 다음 단계
      • 특징 집합들
      • 머신 러닝 알고리즘들
    • 요약

  • 6장 신용 위험 탐지 및 예측: 예측적 분석
    • 예측적 분석
    • 어떻게 신용 위험을 예측할까
    • 예측 모델링의 중요한 개념
      • 데이터 준비
      • 예측 모델 만들기
      • 예측 모델 평가
    • 데이터 수집
    • 데이터 전처리
    • 피처 선택
    • 로지스틱 회귀를 이용한 모델링
    • 서포트 벡터 머신을 이용한 모델링
    • 의사결정 나무를 사용한 모델링
    • 랜덤 포레스트를 이용한 모델링
    • 신경망을 이용한 모델링
    • 모델 비교 및 선택
    • 요약

  • 7장 소셜 미디어 분석: 트위터 데이터 분석
    • 소셜 네트워크(트위터)
    • 데이터 마이닝 @소셜 네트워크
      • 소셜 네트워크 데이터 마이닝하기
      • 데이터와 시각화
    • 트위터 API 시작
      • 개요
      • 앱 등록
      • 연결/인증
      • 샘플 트윗 추출
    • 트위터 데이터 마이닝
      • 빈출 어휘 및 연관성
      • 많이 사용되는 디바이스들
      • 계층적 군집화
      • 주제 모델링
    • 소셜 네트워크 데이터 마이닝의 도전
    • 참고 자료
    • 요약

  • 8장 트위터 데이터의 감정 분석
    • 감정 분석에 대한 이해
      • 감정 분석의 주요 개념
      • 접근 방법
      • 애플리케이션
      • 도전 과제
    • 트위터를 이용한 감정 분석
      • 극성 분석
      • 분류 기반 알고리즘
    • 요약

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

[p.80 : 10행]

[p.90 : 3행]