Top

R을 활용한 머신러닝 3/e [R로 머신러닝 알고리즘 작성, 데이터 준비, 데이터 예측 기법 깊이 파기]

  • 원서명Machine Learning with R - Third Edition: Expert techniques for predictive modeling (ISBN 9781788295864)
  • 지은이브레트 란츠(Brett Lantz)
  • 옮긴이윤성진, (주)크라스랩
  • ISBN : 9791161753928
  • 36,000원
  • 2020년 02월 27일 펴냄
  • 페이퍼백 | 596쪽 | 188*235mm
  • 시리즈 : acorn+PACKT, 데이터 과학

책 소개

본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약

이 책을 읽다 보면 ‘머신러닝이 이렇게 쉬운 것이라니?’라는 생각이 들기도 하고, 수학이나 프로그래밍 언어를 잘 몰랐어도 직관적으로 머릿속에 쏙쏙 들어오는 머신러닝 개념에 흥미를 느끼고 있는 자신을 발견하게 될 것이다. 몇 줄의 R 코드로 머신러닝이 어떻게 작동되는지 눈으로 직접 확인할 수 있고 최신 기법까지 내 손으로 직접 짜 볼 수 있는 짜릿한 경험과 자신감을 제공하는 것이 이 책의 매력이다. 머신러닝을 즐겁게 시작하고 싶은 독자 여러분에게 이 책을 추천한다.
3판에서는 정돈된 데이터를 만드는 방법을 새롭게 설명하고 최신 버전의 예제를 제공한다.

이 책에서 다루는 내용

■ 머신러닝의 근원과 컴퓨터가 예시를 학습하는 원리
■ R 프로그래밍 언어를 사용해 머신러닝 작업에 맞도록 데이터 준비
■ 최근접 이웃과 베이즈 기법을 사용해 중요한 결과 분류
■ 결정트리, 규칙, 서포트 벡터 머신을 사용한 미래의 사건 예측
■ 회귀 기법을 사용한 수치 데이터 예측 및 금융 수치 추정
■ 신경망을 사용해 복잡한 프로세스 모델링
■ 모델 평가 및 성능 개선
■ R을 Spark, H2O, TensorFlow 등 SQL 데이터베이스나 떠오르는 빅데이터 기술과 연결

이 책의 대상 독자

데이터를 활용하고자 하는 모든 이를 위해 썼다. 머신러닝을 어느 정도 알고 있지만 R은 전혀 사용해보지 않았거나 조금만 아는 독자를 염두하고 썼으며 어떤 경우든 이 책은 빠른 학습을 지원한다. 기초 수학과 프로그램에 익숙하다면 다소 도움이 되겠지만 어떠한 경험도 필수요건은 아니다. 필요한 것은 호기심뿐이다.

이 책의 구성

1장, ‘머신러닝 소개’에서는 기계 학습자(machine learner)를 정의하고 구분해주는 용어와 개념을 살펴보고, 학습 작업을 적절한 알고리즘에 매칭하는 방법을 제시한다.
2장, ‘데이터의 관리와 이해’에서는 R을 이용해서 데이터를 직접 다룰 수 있는 기회를 제공한다. 데이터를 로딩하고, 탐색하고, 이해하는 데 사용되는 필수 데이터 구조와 절차를 설명한다.
3장, ‘게으른 학습: 최근접 이웃을 사용한 분류’에서는 단순하지만 강력한 머신러닝 알고리즘을 이해하고, 첫 번째 실제 작업인 암의 악성 샘플 식별에 적용하는 방법을 알려준다.
4장, ‘확률적 학습: 나이브 베이즈 분류’에서는 최첨단 스팸 필터링 시스템에서 사용하고 있는 확률의 핵심 개념을 소개한다. 독자는 자신만의 스팸 필터를 개발하는 과정에서 텍스트 마이닝의 기초를 배울 수 있다.
5장, ‘분할 정복: 의사 결정 트리와 규칙 기반의 분류’에서는 예측을 정확하고 쉽게 설명하는 두 가지 학습 알고리즘을 탐색한다. 이 방법은 투명성이 중요한 작업에 적용된다.
6장, ‘수치 데이터 예측: 회귀 방법’에서는 수치 예측에 사용되는 머신러닝 알고리즘을 소개한다. 이 기법은 통계 분야에 아주 많이 포함돼 있으므로, 수치 관계를 이해하는 데 필요한 필수 척도도 함께 알아본다.
7장, ‘블랙박스 방법: 신경망과 서포트 벡터 머신’에서는 복잡하고 강력한 두 종류의 머신러닝 알고리즘을 다룬다. 수학이 위협적으로 보일 수 있겠지만, 내부 작동을 보여주는 예제와 함께 간단한 용어로 진행한다.
8장, ‘패턴 찾기: 연관 규칙을 이용한 장바구니 분석’에서는 많은 소매업체가 채택한 추천 시스템의 알고리즘을 접할 수 있다. 소매업체가 나의 구매 습관을 나보다 더 잘 아는 이유가 궁금한 적이 있었다면 8장에서 그 비밀을 밝혀준다.
9장, ‘데이터 그룹 찾기: k-평균 군집화’에서는 관련 아이템을 군집화하는 절차를 알아본다. 이 알고리즘을 활용해 온라인 커뮤니티에서 프로파일을 식별한다.
10장, ‘모델 성능 평가’에서는 머신러닝 프로젝트의 성공 여부를 측정하고 미래 데이터에 대해 학습자가 신뢰할 만한 성능 추정치를 얻는 방법의 정보를 제공한다.
11장, ‘모델 성능 개선’에서는 머신러닝 대회의 최상위 팀이 사용하는 방법을 소개한다. 경쟁이 심하거나 데이터를 최대한 활용하고 싶다면 이런 기술을 레퍼토리에 추가해야 한다.
12장, ‘특화된 머신러닝 주제’에서는 머신러닝의 최첨단 분야를 탐구한다. 빅데이터로 작업하는 것에서 더 빠르게 R 작업하는 것까지 12장에서 다루는 주제는 R로 할 수 있는 범위를 넓히는 데 도움이 된다.

저자/역자 소개

지은이의 말

머신러닝의 핵심은 정보를 실행 가능한 지능으로 변환하는 알고리즘과 관련 있다. 이러한 사실 때문에 머신러닝은 요즘과 같은 빅데이터 시대에 잘 맞는다. 머신러닝이 없었다면 정보의 방대한 흐름을 따라잡기가 거의 불가능할 것이다.
(교차 플랫폼, 비용이 들지 않는 통계 프로그래밍 환경인) R의 명성이 높아지고 있어서 머신러닝을 시작하기에 지금 같은 적기는 없을 것이다. R은 데이터 통찰력을 찾을 수 있도록 도와주는 배우기 쉽고 강력한 툴셋을 제공한다. 이 책에서는 실습 사례와 내부 핵심 엔진의 작동 방식을 이해하는 데 필요한 기초 이론을 결합해서 프로젝트에 머신러닝을 적용할 때 필요한 모든 지식을 제공한다.

지은이 소개

브레트 란츠(Brett Lantz)

혁신적인 데이터 기법을 이용해 인간의 행동을 이해하고자 10년 이상을 연구했다. 숙련된 사회학자로서 10대의 소셜 네트워크 웹 사이트 프로파일의 대규모 데이터베이스를 연구하면서 처음으로 머신러닝에 매료됐다. 데이터캠프(DataCamp)의 강사이자 세계적인 머신러닝 콘퍼런스와 워크숍의 강연자이기도 하다. 또한 스포츠의 데이터 과학 응용, 자율 주행, 외국어 학습, 패션에 열정적이며 언젠가 이러한 지식을 자신의 블로그(dataspelunking.com)에서 공유하고자 한다.

옮긴이의 말

평소에 어떤 것이 너무 궁금해서 공부는 하고 싶은데 “과연 할 수 있을까?” 걱정만 하다가 어느 날 아주 우연히 어떤 글이나 책을 보고 “아! 이렇게 쉬운 거였어?”하며 아주 허탈해한 적이 있을 것이다. 아마도 머신러닝을 시작하고 싶은 많은 분께 이 책이 그런 경험을 선사하지 않을까 생각한다.
이 책은 수학이나 프로그래밍 언어에 대한 깊은 지식이 없이도 머신러닝의 개념을 직관적으로 이해하고, 어떻게 활용하면 되는지를 아주 쉽게 설명한다. 간결한 몇 줄의 R 코드로 머신러닝의 존재감을 입증하면서 말이다. 그렇다고 결코 가볍지만은 않은 것이 이 책의 매력이다. 3판에서 저자는 기존의 여러 예제를 최신의 예제로 바꾸거나 추가하고, 머신러닝이 발전해 오면서 변화하는 트렌드를 책에 반영했다. 빠르게 변하는 머신러닝 세상을 보다 정확하게 독자에게 전달하고자 하는 저자의 세심한 배려가 돋보인다다. 머신러닝을 즐겁게 시작하고 싶은 독자 분들께 이 책을 추천한다. 처음으로 머신러닝을 배우고자 하는 사람은 물론 최신의 경향을 알고자 하는 사람에게도 좋은 영감을 제공해 줄 것이다.

옮긴이 소개

윤성진

KAIST 전산학과에서 석사학위를 취득하고 LG전자, 보험넷, 엑센츄어, 티맥스소프트, LUXROBO, 소프트웨어 연구 개발 및 데이터 및 미들웨어, 모듈형 로봇 플랫폼 제품기획 업무를 했으며 현재는 딥러닝 및 강화학습 관련 연구, 자문, 강연 등을 하고 있다.

(주)크라스랩

머신러닝을 기반으로 다양한 연구를 수행하고 있으며, 특히 머신러닝 기반의 금융분석과 핀테크에 중점을 두고 있다. KAIST 전산학과 계산이론 연구실 출신의 이병욱 대표가 이끌고 있으며, 이병욱 대표가 최근에 저술한 『비트코인과 블록체인, 탐욕이 삼켜버린 기술』(2018), 『블록체인 해설서』(2019)는 블록체인 분야의 베스트셀러이자 블록체인의 기술적, 경제적 관점의 교과서로 인식되고 있고, 『블록체인 해설서』는 대한민국 학술원이 2019 교육부 우수학술도서로 선정하기도 했다.

목차

목차
  • 1장. 머신러닝 소개
    • 머신러닝의 기원
    • 머신러닝의 사용과 남용
      • 머신러닝 성공 사례
      • 머신러닝의 한계
      • 머신러닝의 윤리
    • 기계의 학습 방법
      • 데이터 저장소
      • 추상화
      • 일반화
      • 평가
    • 실전 머신러닝
      • 입력 데이터 형식
      • 머신러닝 알고리즘 형식
      • 입력 데이터와 알고리즘 매칭
    • R을 이용한 머신러닝
      • R 패키지 설치
      • 패키지 로딩과 언로딩
      • RStudio 설치
    • 요약

  • 2장. 데이터의 관리와 이해
    • R 데이터 구조
      • 벡터
      • 팩터
      • 리스트
      • 데이터 프레임
      • 행렬과 배열
    • R을 이용한 데이터 관리
      • 데이터 구조 저장, 로드, 제거
      • CSV 파일에서 데이터 임포트와 저장
    • 데이터 탐색과 이해
      • 데이터 구조 탐색
      • 수치 변수 탐색
      • 범주 변수 탐색
      • 변수 간의 관계 탐색
    • 요약

  • 3장. 게으른 학습: 최근접 이웃을 사용한 분류
    • 최근접 이웃 분류의 이해
      • k-NN 알고리즘
      • k-NN 알고리즘이 게으른 이유
    • 예제: k-NN 알고리즘으로 유방암 진단
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 요약

  • 4장. 확률적 학습: 나이브 베이즈 분류
    • 나이브 베이즈의 이해
      • 베이지안 기법의 기본 개념
      • 나이브 베이즈 알고리즘
    • 예제: 나이브 베이즈 알고리즘을 이용한 휴대폰 스팸 필터링
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 요약

  • 5장. 분할 정복: 의사 결정 트리와 규칙 기반의 분류
    • 의사 결정 트리의 이해
      • 분할 정복
      • C5.0 의사 결정 트리 알고리즘
    • 예제: C5.0 의사 결정 트리를 이용한 위험 은행 대출 식별
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 분류 규칙 이해
      • 분리 정복
      • 1R 알고리즘
      • 리퍼 알고리즘
      • 의사 결정 트리에서 규칙 구성
      • 무엇이 트리와 규칙을 탐욕스럽게 만드는가?
    • 예제: 규칙 학습자를 이용한 독버섯 식별
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 요약

  • 6장. 수치 데이터 예측: 회귀 방법
    • 회귀의 이해
      • 단순 선형 회귀
      • 보통 최소 제곱 추정
      • 상관관계
      • 다중 선형 회귀
    • 예제: 선형 회귀를 이용한 의료비 예측
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 회귀 트리와 모델 트리의 이해
      • 트리에 회귀 추가
    • 예제: 회귀 트리와 모델 트리로 와인 품질 평가
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 요약

  • 7장. 블랙박스 방법: 신경망과 서포트 벡터 머신
    • 신경망의 이해
      • 생물학적 뉴런에서 인공 뉴런으로
      • 활성 함수
      • 네트워크 토폴로지
      • 역전파로 신경망 훈련
    • 예제: ANN으로 콘크리트 강도 모델링
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 서포트 벡터 머신의 이해
      • 초평면을 이용한 분류
      • 비선형 공간을 위한 커널의 사용
    • 예제: SVM으로 OCR 수행
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 향상
    • 요약

  • 8장. 패턴 찾기: 연관 규칙을 이용한 장바구니 분석
    • 연관 규칙의 이해
      • 연관 규칙 학습을 위한 아프리오리 알고리즘
      • 규칙 흥미 측정: 지지도와 신뢰도
      • 아프리오리 원칙을 이용한 규칙 집합의 구축
    • 예제: 연관 규칙으로 자주 구매되는 식료품 식별
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 요약

  • 9장. 데이터 그룹 찾기: k-평균 군집화
    • 군집화의 이해
      • 머신러닝 작업으로서 군집화
      • k-평균 군집화 알고리즘
    • k-평균 군집화를 이용한 십대 시장 세분화 발굴
      • 1단계: 데이터 수집
      • 2단계: 데이터 탐색과 준비
      • 3단계: 데이터로 모델 훈련
      • 4단계: 모델 성능 평가
      • 5단계: 모델 성능 개선
    • 요약

  • 10장. 모델 성능 평가
    • 분류 성능 측정
      • 분류기의 예측 이해
      • 혼동 행렬 자세히 보기
      • 혼동 행렬을 사용한 성능 측정
      • 정확도를 넘어: 다른 성능 척도
      • ROC 곡선으로 성능 트레이드오프 시각화
    • 미래의 성능 예측
      • 홀드아웃 방법
    • 요약

  • 11장. 모델 성능 개선
    • 성능 개선을 위한 신용 모델 튜닝
      • 자동 파라미터 튜닝을 위한 caret 사용
    • 메타학습으로 모델 성능 개선
      • 앙상블의 이해
      • 배깅
      • 부스팅
      • 랜덤 포레스트
    • 요약

  • 12장. 특화된 머신러닝 주제
    • 실세계 데이터 관리와 준비
      • tidyverse 패키지를 이용한 정돈된 데이터 만들기
      • 외부 파일에서 읽고 쓰기
      • SQL 데이터베이스의 데이터 쿼리
    • 온라인 데이터와 서비스 작업
      • 웹 페이지의 전체 텍스트 다운로드
      • 웹 페이지에서 데이터 파싱
    • 도메인에 특화된 데이터 작업
      • 생체 정보학 데이터 분석
      • 네트워크 데이터 분석과 시각화
    • R 성능 개선
      • 대용량 데이터셋 관리
      • 병렬 컴퓨팅으로 더 빠른 학습
      • 최적 학습 알고리즘 도입
      • GPU 컴퓨팅
    • 요약

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안