Top

R로 마스터하는 머신 러닝 2/e [업무에 활용할 수 있는 선형모델에서 딥러닝까지]

  • 원서명Mastering Machine Learning with R - Second Edition: Advanced prediction, algorithms, and learning methods with R 3.X (ISBN 9781787287471)
  • 지은이코리 레즈마이스터(Cory Lesmeister)
  • 옮긴이김종원, 김태영, 류성희, 이호
  • ISBN : 9791161751283
  • 36,000원
  • 2018년 03월 09일 펴냄
  • 페이퍼백 | 552쪽 | 188*235mm
  • 시리즈 : acorn+PACKT

책 소개

소스 코드 파일은 여기에서 내려 받으실 수 있습니다.

요약

통계 계산과 그래픽에 특화된 언어인 R을 사용해 머신 러닝을 배우는데 필요한 여러 통계적 기법을 실제 사례에 적용하며 설명한다. 복잡한 수식이나 전문 프로그래밍 기법을 사용하지 않으면서, 선형 회귀에서부터 분류 문제나 딥러닝, 추천 시스템, 군집화, 시계열 분석, 텍스트 마이닝까지 머신 러닝의 거의 전 영역에 대해 실제 데이터를 이용해 간결한 R 코드로 명확하게 설명한다. 기초 통계와 프로그래밍을 조금 할 줄 안다면 더욱 더 이해하기 쉬울 것이다.

이 책에서 다루는 내용

■ 실제 업계에서 머신 러닝 도구를 적용하는 방법
■ R을 사용해 데이터를 분석하기 전에 효과적으로 준비하는 작업
■ 데이터를 효과적으로 시각화하는 방법
■ 분석을 위해 학습용 데이터 세트와 테스트용 데이터 세트를 만드는 이유와 방법에 대한 이해
■ 가장 기본적인 머신 러닝 방법인 선형 회귀와 로지스틱 회귀
■ 서포트 벡터 머신 같은 심화 머신 러닝 방법 이해
■ 아마존 클라우드 서비스에서 R 사용하기

이 책의 대상 독자

데이터 과학자, 데이터 분석가, R을 이용해 머신 러닝을 하는, 실무 지식이 있는 사람들 대상으로 한다. 갖고 있는 기술을 한 단계 더 끌어올려 이 분야에서 전문가가 되고 싶은 사람을 위한 책이다.

2판에 추가된 내용

1장, ‘성공을 위한 과정’에서는 순서도상의 오타를 정정하고 새로운 방법론을 추가했다.
2장, ‘선형 회귀 - 머신 러닝의 기본 기술’에서는 코드를 개선하고 좀 더 나은 도표를 넣었다. 이를 제외하면 초판과 가까운 편이다.
3장, ‘로지스틱 회귀와 판별 분석’에서는 코드를 개선하고 정리했다. 좋아하는 기법인 다변량 적응 회귀 스프라인(multivariate adaptive regression spline)을 추가했는데, 잘 동작하고 비선형 데이터를 다룰 수 있으며 사용하기도 쉽다. 이를 기준 모형으로 사용해 다른 "도전자" 모형들이 이보다 더 성능이 좋은지 살펴본다.
4장, ‘선형 모형에서 고급 피처 선택’에서는 회귀뿐만 아니라 분류 문제도 다룬다.
5장, ‘다른 분류 기법들 - K-최근접 이웃법과 서포트 벡터 머신’에서는 코드를 정리했다.
6장, ‘분류 트리와 회귀 트리’에서는XG부스트(XGBoost) 패키지가 제공하는 매우 좋은 기법을 사용하는 것과 피처를 선택할 때 랜덤 포레스트(random forest) 기법을 사용을 추가했다.
7장, ‘신경망과 딥러닝’에서는 딥러닝 방법에 관한 최신 정보를 넣었고, 하이퍼파라미터(hyperparameter) 검색을 포함해 H2O 패키지에 관련된 코드를 개선했다.
8장, ‘군집화 분석’에서는 랜덤 포레스트를 이용해 비지도학습(unsupervised learning) 방법을 넣었다.
9장, ‘주성분 분석’에서는 다른 데이터 세트를 사용하고, 표본 외 예측(out-of-sample prediction)을 추가했다.
10장, ‘장바구니 분석, 추천 엔진과 순차적 분석’에서는 영업 분야에서 점점 더 중요해지고 있는 순차적 분석(sequential analysis)을 추가했다.
11장, ‘앙상블 생성과 다중 클래스 분류’에서는 여러 패키지를 사용해 완전히 새롭게 썼다.
12장, ‘시계열 자료와 인과관계’에서는 몇 년간의 기후 자료를 더 추가했고, 인과관계를 검사하는 여러 방법을 보여준다.
13장, ‘텍스트 마이닝’에서는 데이터를 추가하고 코드를 개선했다.
14장, ‘클라우드에서 R 사용하기’에서는 클라우드에서 R을 사용하는 법을 쉽고 빠르게 배울 수 있다.
부록 A. ‘R의 기본’에서는 데이터를 다루는 방법을 추가했다.
부록 B. ‘자료 출처’에서는 자료 출처와 참고 자료의 목록을 작성했다.

저자/역자 소개

지은이의 말

머신 러닝(machine learning)은 인공 지능의 한 분야로 데이터를 통해 스스로 배우는 시스템을 만드는 것이다. 요즘 각광받고 있는 R 언어는 여러 플랫폼에서 동작하며 사용에 비용이 들지 않는 통계 프로그래밍 환경이다. 지금 R을 사용해 여러분이 갖고 있는 데이터에 머신 러닝 기법을 적용하고 익히기에 최고의 시기다.
이 책에는 R의 최근 버전을 사용해 기계 학습의 최신 기법을 적용하는 방법을 담았다. 이를 통해 통계 학습 이론과 지도 학습, 효율적인 알고리즘 디자인, 추천 엔진, 다중 클래스 분류 등을 배우고 탐구할 수 있다.
데이터 마이닝과 분류, 군집화, 회귀, 예측 모델, XG부스트(XGBoost)를 사용한 부스트 트리 등의 주제도 함께 다루고 있다. 결과물의 이해에 그치지 않고 각각의 개념과 역할을 이해하게 될 것이다.
신경망같이 쉽지 않은 주제를 심화 학습을 통해 공부할 것이다. 이 책을 끝내고 나면 AWS같은 클라우드 환경에서 R을 사용해 다양한 문제와 데이터를 갖고 머신 러닝을 할 수 있을 것이다.

지은이 소개

코리 레즈마이스터(Cory Lesmeister) 10년 넘게 정량 분석에 관련된 일을 해왔으며, 현재 금융계에서 정량 분석 관리자로서 마케팅과 통제 모형을 만드는 일을 하고 있다. 일라이 릴리(Eli Lilly and Company)에서 16년간 일하면서 영업과 시장 분석, 린 식스 시그마(Lean Six Sigma), 시장 분석, 새 제품 예측 등의 일을 했다. 미국 육군에서 복무했으며, 2009년에는 이라크 바그다드에서 2만 9,000명 규모의 이라크 원유 경찰의 전략 고문으로 일하면서 이라크가 원유 관련 산업 시설들을 안전하게 보호하는데 필요한 장비를 공급했다. 비행기 애호가로서 노스 다코다 대학(University of North Dakoda)에서 항공 관리학으로 학사 학위를 받았고, 상용 헬리콥터 자격증을 갖고 있다.

옮긴이의 말

21세기, 소위 “빅데이터 시대”를 맞아 가장 주목을 받는 산업 분야가 정보 산업 분야라는 사실에는 이견이 없을 듯 하다. 이제는 이전 시대와 비교해 데이터의 수집이 매우 싸고 쉬워졌고, 점점 더 강력하고 편리해지는 컴퓨팅 환경과 이미 개발된 다양한 분석 도구들을 이용하면, 누구나 수많은 데이터에서 의미 있는 정보를 추출 가공해 각종 의사결정과 예측에 활용할 수 있게 되었다.

이 책은 비즈니스 현장에서 오랫동안 데이터 분석가 및 강사로 활약해 온 저자의 경험이 농축돼, 체계적으로 독자를 데이터 분석의 세계로 인도하고 있다. 특히 1장에서 CRISP-DM 모형화 기법을 소개하고, 이를 실제로 이후의 모든 장에서 순차적으로 반복해 전개하면서 독자를 자연스럽게 문제 해결 절차에 익숙해지도록 이끄는 것이 다른 교재와 구별되는 큰 장점이라 하겠다. 이 책의 번역을 하게 됐을 때, 기본적인 선형 회귀분석으로 시작해 최신 분석 기법들까지, 폭 넓은 활용도를 염두에 두고 균형 있게 선별된 주제를 다루고 있다는 점이 눈에 띄게 좋았다. 시작부터 끝까지, 지나치게 수학적이고 통계학적 이론은 지양하면서도 간략한 모형 소개를 통해 실용적인 측면을 강조하고, 배경이 되는 중요한 가정들과 아이디어는 빼놓지 않고 설명하고 있다. 겉보기에 현란하고 유행하는 고급 기법이 늘 좋은 것이 아니라, 당면 과제에 적합하고도 간결한 모형을 잘 선택하는 것이 더욱 중요하다는 사실 또한 적절한 예제를 통해 보여주고 있다.

분석 언어로 R을 채택하고 있다는 점 또한 큰 장점으로 들 수 있겠다. 고전적인 머신 러닝의 대부분은 통계 모형에서 왔다고 해도 과언이 아니며, 최근에 독자적으로 발전했다고 하는 머신 러닝 모형도 데이터를 다루는 것은 동일한 만큼, 통계학과 여전히 밀접한 관계 속에서 개발되고 있다. R 언어가 개발 초기부터 그 핵심 사용자들이 통계 전문가로 구성돼 있다는 점은 머신 러닝을 위한 언어로서도 다른 언어에 비해 큰 장점으로 작용한다. 요즘은 대규모 데이터의 수집이 워낙 쉬워져, 흔히 간과되는 부분이 있는데 결국은 데이터 자체에 대한 이해가 가장 중요하다는 점이다. 본래 R 언어는 통계 분석을 위해 학계 및 교육 현장에서의 자유로운 사용과 투명한 개발을 위해, 통계학자들을 중심으로 오픈 소스로 공동 개발되고 무료로 배포되고 있다. 최근에는 데이터 과학자들이 R 이용자 커뮤니티에 대거 참여하고 있으며, 학계를 벗어나 다양한 산업 분야에서 대규모의 복잡한 문제 해결에 이르기까지, 다양한 인터페이스 개발을 통해 활용 범위가 매우 넓어졌다. 또한 세련된 R전용 통합 개발 환경인 RStudio의 눈부신 발전으로 인해, 매우 효율적인 데이터 사전처리와 모형화와 프로그래밍 및 실행, 강력한 그래프 기능과 마크업 기능을 이용해 실시간으로 전문적이고도 세련되고 아름다운 프리젠테이션을 손쉽게 생성해 온/오프라인으로 공유할 수 있게 됐다.

빅데이터 시대의 큰 특징이자 문제점은, 이른바 “일단 수집하고, 질문은 차후에!(Collect first, ask question later!)”라고 하는 마케팅 분석의 흐름으로 요약될 수 있겠다. 이는 데이터 측정과 수집이 자동화돼가는 현재, 불가피한 상황이라 할 수 있는데, 데이터를 잘 제어된 환경에서 측정해 모으는 것이 아니라, 수집한 경로와 상관 없이 이미 수집된 데이터를 상대로 정보를 추출하고 분석해 그 결과를 바탕으로 추론하려고 한다. 그래서 이 상황 자체가 일으키는 문제가 큰 도전과제가 되고 있다. 이는 수집한 데이터에 맹목적으로 모형을 활용했을 경우에는 “쓰레기 입력, 쓰레기 출력(Garbage in, garbage out)”과 같은 결과를 초래할 수 있기 때문이다. 우리가 다루는 분석 도구가 강력하고 그 결과의 활용이 즉각적인 만큼, 사용하는 모형과 기법이 내놓을 결과의 해석에 대한 이해, 이른바 통계적 지식과 문제를 깊고 넓게 볼 수 있는 혜안, 균형 잡힌 판단력은 데이터로 넘치는 시대를 살아가는 분석가에게 필수적으로 요구되는 자질이다. 편향된 입력 데이터로 인한 결과의 오류가 미칠 사회적 영향이 광범위하고 심각할 수 있다는 사실 또한 잊어서는 안되겠다.

- 류성희(아이오와 대학 통계학 박사과정)

프로그래머를 직업을 갖는다는 것은 계속해서 새로운 것을 배우고 익혀야 한다는 것을 의미한다. 처음 프로그래밍을 배우기 시작했던 1983년은 얇은 BASIC 책 한 권이 배워야 할 전부였다. 하지만 언어를 배우는 것은 시작에 불과했고 프로그래밍은 수많은 지식과 생각의 결과를 엮는 수단에 지나지 않는다는 것을 곧 깨닫게 됐다.

학교에서 프로그래밍을 가르치던 전산실은 시험 답안지를 데이터로 만들어 채점과 점수를 기록하고 데이터를 정렬해 학생들의 성적을 출력하는 소리로 가득 차곤 했다. 컴퓨터는 성적 처리하는 기계였고 필요한 지식은 등수를 정하기 위해 성적을 정렬하는 정렬 알고리즘이면 됐다. 하지만 세상은 빠르게 바뀌어 수 십 장씩 손으로 쓰던 리포트를 워드프로세서로 입력한 후에 프린터로 출력하게 됐고 공학용 계산기로 작성하던 실험 데이터 처리는 엑셀이 없으면 좋은 점수를 받을 수 없는 시대가 돼버렸다.

그런 시절이었던 1993년 졸업 논문을 쓰겠다고 주제를 잡은 것이 한창 학계에서 관심을 끌고 있던 신경망이었다. 요즘 머신 러닝 중에 가장 관심을 받고 있는 딥러닝의 가장 간단한 모형이라 할 수 있다. 3개 층의 단순한 모형이었지만 이를 이용해 수요 예측을 해보자는 목표를 잡고는 무작정 달려 들었다. 무식하면 용감하다는 말이 맞다. 학습에 사용할 데이터를 도서관에서 찾아 수집하고 수 십 시간씩 신경망에서 학습시켰지만 원하는 결과는 나오지 않았다. 한 학기 통계학 수업만으로는 어떤 식으로 데이터를 처리해야 할지 알 수 없었기 때문이다. 결국 결과와 상관 없을 것 같은 데이터를 넣고 빼기를 반복하면서 의미 있는 결과라고 생각되는 것이 나올 때까지 수 십 개의 데이터 열과 신경망의 가중치 값을 만지작거렸다. 그 때 뼈저리게 느낀 것이 내게 데이터를 제대로 다룰 수 있는 체계적인 지식이 없다는 것이었다. 프로그래밍으로 뭐든지 할 수 있다는 생각만으로 달려들었다가 무기력하게 맨 땅에 머리를 들이받고 있다는 생각에 좌절감을 느끼면서 논문을 썼다.

그런데 그 실험을 한지 20년도 넘은 시점에서 갑자기 신경망에 대한 이야기가 인터넷과 SNS에서 폭발적으로 쏟아져 나오기 시작했다. 처음에는 이미지 인식률 개선 정도여서 대수롭지 않게 생각했지만 순식간에 적용범위를 넓혀 이제 신경망 아니 딥러닝이라는 이름을 가지고 머신 러닝과 같이 테크 뉴스의 일부분에 항상 자리를 차지해버렸다. 너무나도 갑작스런 복귀였고 또 다른 두려움의 부활이었다. 그동안 통계학이나 데이터 처리에 대한 공부를 하지 않은 것은 아니지만 머신 러닝을 공부하려고 하니 그동안 공부했던 것은 별로 도움이 되지 않는 것 같았다. 관련서적을 읽어보아도 이해할 수 없는 수식에 금방 부딪혔고 체계화된 지식 없이 데이터를 다루려고 한다는 불안감이 마음 속에서 떠나지 않았다.

그런 상황에서 이 책의 번역을 하게 되었다. 지금 생각하면 내가 간절히 원했던 책이었다. 머신 러닝의 전반적인 영역을 다루면서도 깊은 수학적 접근은 거의 하지 않고 간단한 설명만으로 필요한 부분을 전달하고 있다. 통계적인 지식을 상당히 요구하긴 하지만 그 또한 과하지 않다. 저자의 설명이 부족하거나 배경 설명이 필요하다고 생각되는 내용은 페이지 하단의 주석으로 보완했다. 번역을 하면서 흩어져 있는 지식이 하나로 연결됐고 저자의 의도를 파악하고 오류를 잡아가면서 흐릿했던 생각이 더욱 더 명확해진 것을 느낄 수 있었다. 그렇게 된 것은 그만큼 이 책의 구성이 뛰어나기 때문이라 생각한다.

4명의 역자의 용어를 통일하고 각기 다른 스타일의 글을 하나로 다듬는 과정이 쉽지 않았음을 고백한다. 한국 통계학회 용어집이나 수학학회 용어집을 참고했지만 의미에 맞는 용어를 고르는 것에 무척 어려움을 겪었다. 통일된 용어도 없고 번역된 용어도 다들 제각각이었기 때문이다. 용어 선정에 무척 고민을 많이 했음에도 어색하고 의미에 맞지 않은 용어가 있다면 전적으로 옮긴이의 잘못이다. 그런 용어가 있다면 꼭 알려줬으면 한다.

93년도 논문을 쓰고 나서 일 년 뒤에 수요 예측 결과가 궁금해서 자료를 찾아 본 적이 있다. 지금 생각하면 부끄럽게도 테스트해야 할 데이터조차 학습 데이터에 포함시켰기 때문에 예측한 데이터가 얼마나 정확한지 알 수 없었다. 그런데 놀랍게도 예측치가 실제 수요 데이터와 거의 일치했다. 논문을 쓸 때만 해도 터무니 없는 예측치라 생각했었던 것이 말이다. 그래서 좀 더 제대로 알았다면 더 좋았겠다는 생각을 계속 갖고 살아왔다. 이 책을 읽는 분들은 그런 경험은 겪지 않을 것이라 확신한다.

김종원(엔씨소프트)

옮긴이 소개

김종원

한글과컴퓨터에서 윈도우용 아래아한글을 개발했으며 임베디드 JVM 개발을 시작으로 리눅스 PDA와 스마트폰용 소프트웨어를 개발했다. 엔씨소프트에서 리니지 이터널을 개발했으며 현재는 엔씨소프트에서 모바일 게임 테스트 자동화 연구를 하고 있다. 여러 컴퓨터 잡지에 글을 기고했으며 ZDNet에 <망치와>라는 칼럼을 연재했다. 역서로는 『윈도우 7 프로그래밍』(에이콘출판, 2011)이 있다.

김태영

고등학교 시절 영화 월-E(Wall-E)를 보고 AI를 전공하기로 결심했다. 미국에서 석사를 마친 후 엔씨소프트에서 배운 것들을 사용해볼 기회를 호시탐탐 엿보고 있다.

류성희

산업공학을 전공하고 금융관련 SI 업체에서 프로그래머로 일하다가 생태학과 환경에 관심이 생겨 농업 생태계 모델링을 공부하기 위해 유학을 갔으나 늦깎이로 통계학을 시작해 현재 아이오와 대학 통계학 박사 과정에 있다. 공부는 평생 하는 것이고, 언제든 다시 시작할 수 있다고 생각한다.

이호

대학교 동아리에서 컴퓨터 프로그래밍을 배워 한국에서 여러 소프트웨어 벤처에서 경력을 쌓았다. 이후 미국에 건너가 퀄컴, 엔비디아 등에서 리눅스 커널과 시스템 프로그래밍 관련 일을 했으며, 현재 뉴욕 주에 있는 헤지펀드에서 소프트웨어 엔지니어로 일하고 있다. 역서로는 『리눅스 커널의 이해』(한빛미디어, 2005)가 있다.

목차

목차
  • 1장. 성공을 위한 과정
    • CRISP-DM 모형화 기법
    • 비즈니스 이해
      • 비즈니스의 목적을 확인하는 것
      • 현재의 상황 판단
      • 분석적 목표의 결정
      • 프로젝트의 진행 계획을 만드는 것
    • 데이터 이해
    • 데이터 준비
    • 모형화
    • 평가적용알고리즘 순서도
    • 요약

  • 2장. 선형 회귀-머신 러닝의 기본 기술
    • 단변량 선형 회귀
      • 비즈니스 이해하기
    • 다변량 선형 회귀
      • 비즈니스 이해하기
      • 데이터의 이해와 준비 과정
      • 모형화와 평가
    • 선형 모형에서 다른 고려사항
      • 질적 피처
      • 상호작용 항
    • 요약

  • 3장. 로지스틱 회귀와 판별 분석
    • 분류 방법 및 선형 회귀
    • 로지스틱 회귀
      • 비즈니스 이해하기
      • 데이터의 이해와 준비 과정
      • 모형화와 평가
        • 로지스틱 회귀 모형
        • 교차 검증을 포함한 로지스틱 회귀
    • 판별 분석의 개요
      • 판별 분석의 적용
    • 다변량 적응 회귀 스플라인(MARS)
  • 모 형 선택
    • 요약

  • 4장. 선형 모형에서 고급 피처 선택
    • 규제화(regularization)란?
      • 능형 회귀 분석
      • LASSO
      • 일래스틱넷
    • 비즈니스 사례
      • 비즈니스 이해하기
      • 데이터의 이해와 준비 과정
    • 모형화와 평가..
      • 최량 부분 집합
      • 능형 회귀 분석
      • LASSO
      • 일래스틱넷
      • glmnet을 사용한 교차 검증
    • 모형 선택
    • 규제화와 분류
      • 로지스틱 회귀의 예
    • 요약

  • 5장. 다른 분류 기법들 - K-최근접 이웃법과 서포트 벡터 머신
    • K-최근접 이웃법
    • 서포트 벡터 머신
    • 비즈니스 사례
      • 비즈니스 이해하기
      • 데이터의 이해와 준비 과정
      • 모형화와 평가
        • 최근접 이웃(KNN) 모형화
        • 서포트 벡터 머신 모형화.
      • 모형 선택
    • 서포트 벡터 머신에서의 피처 선택
    • 요약

  • 6장. 분류 트리와 회귀 트리
    • 개괄적인 방법
      • 회귀 트리
      • 분류 트리
      • 랜덤 포레스트(무작위의 숲)
      • 그레이디언트 부스트(경사 부양 기법)
    • 비즈니스 사례
      • 모형화 및 평가
        • 회귀 트리
        • 분류 트리
        • 랜덤 포레스트 회귀 분석(random forest regression)
        • 랜덤 포레스트 분류
        • 익스트림 그레디언트 부스트 기법 - 분류
      • 모형 선정.
      • 랜덤 포레스트를 사용한 피처 선택
    • 요약

  • 7장. 신경망과 딥러닝
    • 신경망 소개
    • 딥러닝, 간단히 살펴보기
      • 딥러닝을 위한 자료와 심화 기법
    • 비즈니스의 이해
    • 데이터의 이해와 준비 과정
    • 모형화와 평가
    • 딥러닝 예제
      • H2O의 배경
      • 데이터를 H2O에 업로드하기
      • 훈련 및 테스트 데이터 세트 생성
      • 모형화
    • 요약

  • 8장. 군집화 분석
    • 계층적 군집화
      • 거리 계산
    • K-평균 군집화
    • 가워와 중간점 구역 분할
      • 가워 비유사성 계수
      • 중간점 구역 분할 군집화(PAM)
    • 랜덤 포레스트
    • 비즈니스 이해하기
    • 데이터 이해와 준비 과정
    • 모형화와 평가
      • 계층적 군집화
    • K-평균 군집화
      • 가워와 중간점 구역 분할
      • 랜덤 포레스트와 중간점 구역 분할
    • 요약

  • 9장. 주성분 분석
    • 주성분의 개요
      • 회전
    • 비즈니스 이해하기
      • 데이터의 이해와 준비 과정
    • 모형화와 평가
      • 성분 추출
      • 직각 회전과 해석
      • 성분으로부터 요인 점수 생성
      • 회귀 분석
    • 요약

  • 10장. 장바구니 분석, 추천 엔진과 순차적 분석
    • 장바구니 분석의 개요
    • 비즈니스 이해하기
    • 데이터의 이해와 준비 과정
    • 모형화와 평가
    • 추천 엔진의 개요
      • 사용자 기반 협업 필터링
      • 아이템 기반 협업 필터링
      • 특이값 분해와 주성분 분석
    • 비즈니스 이해와 추천
    • 데이터의 이해와 준비 과정과 추천
    • 모형화와 평가 그리고 추천하기
    • 순차적 데이터 분석
      • 순차적 데이터 분석의 적용
    • 요약

  • 11장. 앙상블 생성과 다중 클래스 분류
    • 앙상블
    • 비즈니스와 데이터 이해하기
    • 모형화와 평가 그리고 선택
    • 비즈니스와 데이터 이해하기
    • 모형 평가와 선택
      • 랜덤 포레스트
      • 능형 회귀 분석
    • MLR에서의 앙상블
    • 요약

  • 12장. 시계열 자료와 인과관계
    • 단변량 시계열 분석
      • 그랜저 인과관계 이해하기
    • 비지니스 이해하기
      • 데이터의 이해와 준비 과정
    • 모형화와 평가
      • 단변량 시계열 예측
      • 인과관계의 검사
        • 선형 회귀
        • 벡터 자기회귀 모형(Vector autoregression)
    • 요약

  • 13장. 텍스트 마이닝
    • 텍스트 마이닝 프레임워크와 기법
    • 주제(topic) 모형
      • 그 밖의 정량 분석 기법
    • 비즈니스 이해
      • 데이터의 이해와 준비
    • 모형화와 평가
      • 단어 빈도와 주제 모형
      • 또 다른 양적 분석 기법
    • 요약

  • 14장. 클라우드에서 R 사용하기
    • 아마존 웹 서비스 계정 생성하기
      • 가상 머신 실행
      • RStudio 시작하기
    • 요약

  • 부록. A R의 기본
    • R을 실행하기
    • R 사용하기
    • 데이터 프레임과 행렬
    • 요약 통계 내기
    • 패키지를 설치하고 로드하기
    • dplyr 패키지를 이용해 데이터 다루기
    • 요약

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

[p.67 : 아래서 2행]
which.mean()
->
which.min()

[p.68 : 두 번째 문단 1행]
멜로(Mallow)의 Cp,
->
맬로우즈(Mallows)의 Cp,

[p.69 : 두 번째 식]

->
Adjusted R squared = 1 - (1 - R-squared) * (n - 1) / (n - p -1)

또는

Adjusted R squared = 1 - (RSS / (n - p - 1)) / (TSS / (n - 1))
TSS : total sum of squares