Top

프랙티컬 머신 러닝 [실무에 직접 적용할 수 있는 빅데이터 환경을 고려한 첨단 현대 머신 러닝 기술의 구현]

  • 원서명Practical Machine Learning (ISBN 9781784399689)
  • 지은이수닐라 골라푸디(Sunila Gollapudi)
  • 옮긴이남궁영환
  • ISBN : 9788960777170
  • 35,000원
  • 2017년 05월 25일 펴냄
  • 페이퍼백 | 572쪽 | 188*235mm
  • 시리즈 : acorn+PACKT

책 소개

본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.

요약

수많은 데이터에서 공통된 특징과 상호 연관성 파악해 의미 있는 판단과 예측을 이끄는 데 있어 머신 러닝의 중요성은 계속 높아지고 있다. 머신 러닝에 대한 기초적인 내용뿐만 아니라, 머신 러닝을 빅데이터에 어떻게 적용할 것인지도 자세하게 설명한다. 빅데이터 기술의 근간이 된 하둡(Hadoop)에 대한 기초와 다양한 빅데이터 관련 도구를 친절하게 소개해, 이것을 빅데이터 환경에서 사용할 수 있게 도와준다. 머신 러닝 관점에서는 지도형 학습 기법, 비지도형 학습 기법 등 기본적인 내용 외에도 딥러닝, 강화 학습, 앙상블 기법 등에 대한 개념 설명과 함께 이론적 배경을 충실히 다룬다. 특히, 실제 업무에서 활용도를 높일 수 있도록 각 장 마지막에 R, Spark, Python, Julia 등 다양한 언어를 이용한 알고리즘의 구현 방안도 소개한다.

추천의 글

"과연 기계가 생각이란 걸 할 수 있을까?" 이 단순해 보이는 질문은 전 세계의 과학자와 전문가들을 매료시켜왔다. 1950년대에 앨런 튜링(Alan Turing)은 “기계가 생각할 수 있을까?”라는 패러다임을 “인간이 자기 생각대로 할 수 있는 일들을 기계도 할 수 있을까?”로 바꿨다. 이것은 머신 러닝과 인공지능에 대한 엄청난 관심이 생기는 계기를 마련했으며, 현재까지도 수많은 연구를 통해 놀라운 성과들이 계속 소개되고 있다.
수많은 컴퓨팅 기술이 빠르게 발전함에 따라 이제는 컴퓨팅 단말의 홍수 속에 살고 있다. 이로 인해 정보와 데이터는 감당할 수 없을 정도로 넘쳐 나고, 그 결과 주된 관심사는 머신 러닝이라는 비밀스러운 영역에 점점 더 집중되고 있는 양상이다. 오늘날 수많은 기업과 조직들은 데이터에서 지식을 얻는 과정의 핵심에 머신 러닝의 진정한 가치가 있음을 깊이 이해하고 있으며, 이에 대한 투자를 아끼지 않는다.
전 세계의 개발자들도 머신 러닝에 많은 관심과 열정을 갖고 활동하고 있다. ‘학습(머신 러닝)’이라는 것은 어찌 보면 빅데이터, 통계학, 수학, 컴퓨터 과학 같은 다양한 분야의 심도 있는 지식을 필요로 하기 때문에 이제 막 시작했다고 봐도 과언이 아닐 것이다. 이 책을 쓴 수닐라(Sunila)는 불모지였던 이 분야를 위해 많은 일을 해왔다. 그는 머신 러닝을 잘 발전시키는 것 외에도 대규모 계산 작업, 복잡한 데이터셋 처리, 빠른 응답 속도 문제 해결에 관련된 최신 기술 개발에 쉼 없이 노력하고 있다.
이 책의 가장 큰 목표는 데이터 과학자/데이터 분석가 모두에게 꼭 필요한 내용을 알기 쉽게 전달하는 것이다. 여기에 맞춰 독자들이 머신 러닝의 기본 개념을 잘 이해하고, 실제 솔루션 개발에서도 선도적 역할을 해낼 수 있도록 풍부한 내용과 경험을 전달하고자 한다.
저자는 이 책을 크게 3개의 영역으로 나눠 설명한다. 기본 개념 설명에서는 관련 이론들에 대한 상세한 설명도 곁들여 독자의 이해를 돕고자 했다. 이를 바탕으로 실제 문제와 연계시켜 생각해볼 수 있는 내용을 소개하고, 가장 적절한 애플리케이션을 적용하는 방안도 함께 알아볼 수 있게 했다. 끝으로 현재 시장에서 가장 인기가 높고 폭넓게 사용되고 있는 최신 기술을 정리하고, 이를 통해 비즈니스의 가치를 어떻게 창출할 것인지도 함께 생각해볼 수 있게 했다.
/락스미칸쓰(V. Laxmikanth)
/ 브로드리지 파이낸셜 솔루션(Broadridge Financial Solution) 인도 현지 법인 경영 총괄 담당 이사(Managing Director)

이 책에서 다루는 내용

■ 복잡한 데이터를 다루기 위한 여러 가지 알고리즘과 기술의 구현
■ 파이썬, R, Julia과 같은 데이터 사이언스 분야의 가장 인기 있는 프로그래밍 언어
■ 데이터의 효율적인 관리와 처리를 위한 Spark, Mahout, 하둡의 연동 기법
■ 머신 러닝 기술을 실제 문제에 적용하기 위한 최적의 방안
■ 딥러닝에 대한 심화 학습과 머신 러닝의 첨단 기술에 신경망 알고리즘 활용 방법
■ 머신 러닝의 향후 전망과 폴리글롯 일관성, 시맨틱 데이터에 관한 심층 학습

이 책의 대상 독자

머신 러닝을 실제로 다루고 실제 애플리케이션도 개발하는 데이터 과학자를 위한 책이다. 머신 러닝과 예측 분석(predictive analytics)의 기본 개념부터 향후 빅데이터의 혁명을 리드할 최신 기술에 이르기까지 빅데이터 관련 분야의 모든 것을 다룬다. 따라서 빅데이터 관련 업무를 맡고 있는 모든 사람에게 이 책이 꼭 필요할 것임을 확신한다. 아울러 파이썬이나 R과 같은 프로그래밍 지식과 수학에 대한 지식이 있으면 훨씬 유리할 수 있다.

이 책의 구성

1장, '머신 러닝의 소개'에서는 머신 러닝의 기본 개념과 머신 러닝의 의미에 대해 전반적으로 알아본다. 머신 러닝을 알기 쉽게 정의하고, 머신 러닝 분야에서 사용되는 전문 용어를 소개한다.
2장, '머신 러닝과 대규모 데이터셋'에서는 대규모 데이터셋, 공통된 특징, 반복되는 문제,데이터 규모가 폭발적으로 증가하는 이유, 빅데이터에 대한 효과적인 접근 방법 등을 다룬다.
3장 '하둡 아키텍처와 하둡 에코시스템'에서는 핵심 프레임워크부터 하둡 에코시스템의 컴포넌트에 이르기까지 하둡에 대한 전반적인 내용을 다룬다. 3장을 끝까지 학습하고 나면 하둡을 설치하고 맵리듀스 함수를 실행시킬 수 있는 역량을 갖출 수 있다 또한 하둡 환경을 실행시키고 관리하는 기법과 커맨드라인을 기반으로 사용하는 방법도 알 수 있다.
4장, '머신 러닝 관련 툴과 라이브러리, 프레임워크'에서는 머신 러닝을 구현할 때 어떤 종류의 오픈소스를 사용할 수 있는지 설명한다. 아울러 아파치 머하웃(Apache Mahout), 파이썬(Python), R, 줄리아(Julia), 아파치 스파크(Apache Spark의 MLlib) 같은 다양한 라이브러리,툴, 프레임워크를 설치,개발,실행시킬 수 있는 방법도 알아본다. 하둡이라는 빅데이터 플랫폼에서 이런 종류의 프레임워크를 어떻게 통합하는지도 다룬다.
5장, '의사결정 트리 기반 학습'에서는 분류와 회귀 문제를 해결하는 방법으로 의사 결정 트리에 기반을 둔 지도 학습법을 알아본다. 트리를 분할하고, 가지치기 하는 방법, 어트리뷰트를 선정하는 방법을 자세히 살펴본다. 또한 CART, C4.5, 랜덤 포레스트, 최신 의사 결정 트리 기술도 알아본다. 6장, '인스턴스 기반 학습과 커널 기법 기반 학습'에서는 2가지 학습 알고리즘인 인스턴스 기반 기법과 커널 기법에 대해 알아본다. 이들은 분류와 예측 문제를 주로 다루는 데 사용된다. 인스턴스 기반 학습의 대표 알고리즘인 KNN 알고리즘에 대해 자세히 학습한다. 커널 기반 기법에서는 예제를 통해 서포트 벡터 머신 알고리즘을 자세히 알아본다.
7장, '연관 규칙 기반 학습'에서는 연관 규칙(association rule)을 기반으로 한 학습 기법과 대표 알고리즘인 Apriori와 FP-growth에 대해 자세히 알아본다. 많이 알려진 예제를 바탕으로 Apriori와 FP-growth 알고리즘을 어떻게 빈발 패턴 마이닝(Frequent pattern mining)에 적용하는지 알고리즘의 각 단계별로 자세히 알아본다.
8장, '클러스터링 기반 학습'에서는 비지도 학습 관점에서 클러스터링 기반 학습법을 다룬다. K-평균 클러스터링 알고리즘에 대해 자세히 알아보고, 이를 파이썬, R, 줄리아, 스파크, 머하웃 등을 이용해 어떻게 구현하는지 알아본다.
9장, '베이지언 학습'에서는 베이지언 머신 러닝에 대해 다룬다. 또한 통계학에 관한 핵심 개념을 주요 용어들을 바탕으로 자세히 알아본다. 베이즈 정리에 대해 깊이 있게 알아보고, 이를 실제 사례에 어떻게 적용하는지 예제를 통해 알아본다.
10장, '회귀 기반 학습'에서는 회귀 분석에 기반을 둔 머신 러닝에 대해 알아보고, 구체적으로 파이썬, R, 줄리아, 스파크 등을 이용해 선형 회귀와 로지스틱 회귀 모델을 어떻게 구현하는지도 알아본다. 또한 분산, 공분산, ANOVA 같은 통계학 관련 지식도 함께 알아본다. 실제 사례에 적용하는지 예제를 이용해 회귀 모델을 깊이 있게 다룬다.
11장, '딥러닝'에서는 신경 전달 조직인 뉴런에 대해 알아보고, 이를 이용해 어떻게 인공 뉴런을 함수와 연결 지을 수 있는지 설명한다. 신경망의 핵심 개념을 학습하고, 이를 바탕으로 다중 계층화 구조가 어떻게 동작하는지 파악한다. 행렬 곱셈 연산에 사용되는 주요 활성화 함수에 대해서도 알아본다.
12장, '강화 학습'에서는 최신 학습 기술 중 하나인 강화 학습에 대해 알아본다. 전통적인 지도 학습 및 비지도 학습과 강화 학습이 어떻게 다른지 살펴보고, 예제를 이용해 마르코프 결정 프로세스(MDP)가 어떻게 동작하는지 알아본다.
13장, '앙상블 학습'에서는 다양한 머신 러닝 기법을 대상으로 앙상블 학습을 알아본다. 실제 적용 가능한 예제를 이용해 지도 앙상블 학습법에 대해 알아본다. 끝으로 R, 파이썬(scikit-learn), 줄리아, 스파크 머신 러닝 툴을 이용한 기울기 상승 알고리즘(Gradient Boosting algorithm)과 아파치 머하웃 라이브러리를 이용한 추천 엔진에 대해서도 소스코드를 이용해 직접 실습해본다.
14장, '머신 러닝을 위한 차세대 데이터 아키텍처'에서는 머신 러닝의 개발 측면을 중점적으로 다룬다. 전통적인 분석 플랫폼은 무엇이고, 최근에 많이 증가하고 있는 데이터 요구 사항과는 왜 잘 맞지 않는지 등을 자세히 알아본다. 새로운 데이터 아키텍처 패러다임을 이끌고 있는 아키텍처 드라이버인 람다 이키텍처(Lambda architecture), 폴리글롯 일관성(polyglot persistence), 다중 모델 기반 데이터 아키텍처에 대해서도 학습한다. 매끄러운 데이터 통합이 이뤄질 수 있도록 시맨틱 아키텍처를 어떻게 활용하면 되는지도 살펴본다.

저자/역자 소개

지은이의 말

근래 들어 점점 복잡해지고 규모도 커지고 있는 데이터셋에서 의미 있는 무언가를 찾아내려는 시도는 계속 증가하고 있다. 머신 러닝, 예측 기술은 데이터에서 높은 가치를 지닌 정보를 찾아내는 데 있어 가장 중요한 기술이 됐다. 머신 러닝은 복잡한 알고리즘을 활용해 이전까지 축적한 패턴과 데이터셋의 유형을 바탕으로 좀 더 향상된 예측 결과를 만들어낸다. 즉, 머신 러닝 기술은 다양한 통찰력을 데이터 간의 관계, 공통 패턴, 트렌드 형태로 제공하며, 이는 비즈니스를 만들고, 향상시키는 데 있어 대단히 높은 가치를 지니고 있다. 이 책을 통해 머신 러닝의 기본 개념을 자세히 학습할 수 있기를 바란다. 또한 실제 업무에서 경험할 수 있는 문제의 복잡성을 자세히 파악한 후 정형 데이터, 비정형 데이터를 효과적으로 처리하고 관리할 수 있게 하둡이나 기타 에코시스템 등도 적용해보기 바란다.

지은이 소개

수닐라 골라푸디(Sunila Gollapudi)

북미 금융 솔루션 회사인 브로드리지 파이낸셜 솔루션(Broadridge Financial Solutions) 인도 현지 법인에서 기술 이사직을 맡고 있다. 14년간 서비스 IT 업계에서 개발 경험을 쌓아왔다. 현재 인도 법인 아키텍처 센터를 리드하고 있으며, 빅데이터와 데이터 과학 부문에서 핵심 역할을 담당 중이다. 브로드리지에서 근무하기 전에는 글로벌 수준의 조직 관리를 성공적으로 수행했을 뿐만 아니라, 자바(Java), 분산 아키텍처, 빅데이터 기술, 고급 분석 기술(Advanced analytics), 머신 러닝, 시맨틱 기술, 데이터 통합 솔루션 기술 등에서도 탁월한 전문성을 보였다. 현재 브로드리지의 글로벌 기술 리더십과 혁신 포럼을 맡고 있으며, 최근 IEEE에서도 시맨틱 기술과 비즈니스 데이터 레이크(data lake)에 관한 공적을 인정받기도 했다. 빠른 속도로 발전하는 신기술을 글로벌 차원에서 어떤 기술 영역과 관련 있는지 잘 파악하고 연결하는 탁월한 능력이 있으며, 비즈니스 면에서도 사안에 대한 실질적인 아키텍처 솔루션을 제시하는 전문성을 발휘하고 있다. 컴퓨터 과학 대학원 과정에서 빅데이터 웨어하우스 솔루션, 그린플럼(Greenplum)에 관해 『Getting Started with Greenplum for Big Data Analytics』(Packt, 2013)라는 저서를 출간하기도 했다. 한편 인도의 전통춤에도 관심이 많아서 국내 대회, 국제 대회에 참가할 수준의 실력도 갖췄으며, 그림 그리기 같은 취미도 갖고 있다. 물론 가장 중요한 한 가정의 엄마이자 아내 역할도 훌륭하게 해내고 있다.

옮긴이의 말

최근 몇 년간 빅데이터와 머신 러닝에 대한 대중의 관심과 기술 발전은 놀라울 정도입니다. 특히 클라우드 컴퓨팅이 보편화되면서 필요한 만큼의 컴퓨팅 자원을 적절하게 활용하는 방식의 접근법은 기존 데이터 분석 방식을 전면적으로 바꾸고 있다. 또한 대용량의 데이터 처리/분석이나 엄청나게 복잡도가 높은 데이터도 적절한 시간 내에 분석할 수 있게 됐다. 하지만 데이터 분석 분야에서 제한된 환경을 극복하기 위한 끊임없는 노력과 성과는 무엇보다도 중요한 부분이다. (예를 들면 근사화(Approximation) 기법, 샘플링(Sampling) 기법 등을 통해 분석 정확도와 소요 시간에 대한 트레이드오프를 적절하게 활용하는 것이다.) 이론적 배경을 갖추는 것이 중요한 이유는 이론은 컴퓨팅 자원의 활용만으로는 해결하기 어려운 사안을 극복할 수 있도록 단초를 제공하기 때문이다. 그래서 기술이 빠르고 다양하게 발전할수록 기본에 충실해야 하는 것이 더욱 중요하다. 이 책은 머신 러닝과 빅데이터에 대한 풍부한 이론과 다양한 소스코드를 제공하며, 최신 기술도 쉽고 자세하게 설명한다. 많은 분들이 이 책을 통해 실제 업무에서 머신 러닝을 잘 활용하실 수 있기를 기대한다.

옮긴이 소개

남궁영환

고려대학교 컴퓨터학과(학사/석사)와 서던캘리포니아대학교(University of Southern California)(석사)를 졸업하고, 플로리다 대학교(Univ. of Florida)에서 데이터 마이닝을 주제로 컴퓨터공학 박사 학위를 취득했다. 삼성SDS 연구소에서 클라우드 컴퓨팅, 빅데이터 플랫폼,데이터 과학과 관련된 다양한 최신 기술 연구/개발 과제를 수행했으며, 현재 아마존 웹 서비스(Amazon Web Services)에서 프로페셔널 서비스 빅데이터 컨설턴트(Professional Services Big Data Consultant)로 활동 중이다.

목차

목차
  • 1장. 머신 러닝의 소개
    • 머신 러닝
    • 머신 러닝의 정의
      • 머신 러닝 관련 핵심 개념과 주요 용어
      • 학습이란?
        • 데이터
        • 레이블이 있는 데이터와 레이블이 없는 데이터
        • 태스크
        • 알고리즘
        • 모델
      • 머신 러닝에서 데이터와 비일관성
        • 과소적합
        • 과적합
        • 데이터 불안정성
      • 실무 관점의 머신 러닝 주요 사례
        • 예측 불가한 데이터 포맷
        • 분류
      • 학습 알고리즘의 유형
        • 클러스터링
        • 전망, 예측, 회귀
        • 시뮬레이션
        • 최적화
        • 지도 학습
        • 준지도 학습
        • 비지도 학습
        • 강화 학습
        • 딥러닝
      • 성능 측정 함수
        • 분석 결과가 적정한가?
        • 평균제곱 오차(MSE)
        • 평균 절대 오차(MAE)
        • 정규화 MSE와 MAE(NMSE와 NMAE)
        • 에러 처리: 바이어스와 분산
      • 머신 러닝의 주요 분야
        • 데이터 마이닝
        • 인공지능
        • 통계 학습
        • 데이터 과학
      • 머신 러닝 프로세스 라이프 사이클과 솔루션 아키텍처
      • 머신 러닝 알고리즘
        • 의사 결정 트리 기반 알고리즘
        • 베이지언 기법 기반 알고리즘
        • 커널 기법 기반 알고리즘
        • 클러스터링 기법
        • 인공 신경망 기법(ANN)
        • 디멘전 축소화
        • 앙상블 기법
        • 인스턴스 기반 학습 알고리즘
        • 회귀 분석 기반 알고리즘
        • 연관 규칙 기반 학습 알고리즘
      • 머신 러닝 툴과 프레임워크
      • 요약

  • 2장. 머신 러닝과 대규모 데이터셋
    • 빅데이터 및 대규모 분석을 위한 머신 러닝
      • 기능적 관점과 구조적 관점 : 방법론 측면에서의 미스매치
        • 정보의 상품화
        • RDBMS가 갖는 이론적 한계
        • 저장소 스케일업과 스케일아웃
        • 분산형, 병렬형 컴퓨팅 전략
      • 머신 러닝: 확장성 및 성능 관점
        • 매우 많은 데이터 관점이나 인스턴스
        • 매우 많은 어트리뷰트나 피처
        • 응답 시간 윈도우 단축: 실시간 응답을 위해 필요
        • 매우 복잡한 알고리즘
        • 피드 포워드, 반복 예측 사이클
      • 모델 선정 프로세스
      • 대규모 머신 러닝 작업에서 주의할 사항
    • 알고리즘과 동시 실행
      • 동시 실행 알고리즘의 개발
    • 스케일업 머신 러닝을 위한 기술과 구현 방법
      • 맵리듀스 프로그래밍 패러다임
      • 메시지 패싱 인터페이스(MPI)를 지닌 고성능 컴퓨팅(HPC)
      • LINQ 프레임워크
      • LINQ를 이용한 데이터셋 가공 작업
      • GPU
      • FPGA
      • 멀티코어 또는 멀티프로세서 시스템
    • 요약

  • 3장. 하둡 아키텍처와 하둡 에코시스템
    • 아파치 하둡의 소개
      • 하둡의 진화(플랫폼의 선택)
      • 하둡 플랫폼과 하둡의 핵심 요소
    • 빅데이터를 위한 (하둡 기반) 머신 러닝 솔루션 아키텍처
      • 데이터 소스 계층
      • 유입 계층
      • 하둡 스토리지 계층
      • 하둡 (물리) 인프라스트럭처 계층: 어플라이언스 지원
      • 하둡 플랫폼/처리 계층
      • 분석 계층
      • 소비 계층
        • 시각화를 이용한 데이터 설명 및 탐색
        • 보안과 모니터링 계층
        • 하둡 핵심 구성 요소 프레임워크
        • HDFS에서 데이터 읽기/쓰기 작업
        • 장애 처리
        • HDFS 커맨드라인
        • RESTFul HDFS
    • 맵리듀스
      • 맵리듀스 아키텍처
      • 대규모 데이터셋에 맵리듀스가 필요한가?
      • 맵리듀스 전체 실행 흐름과 구성 요소
      • 맵리듀스 구성 요소 개발
    • 하둡 2.x
      • 하둡 에코시스템 구성 요소
      • 하둡 설치와 환경 설정
        • JDK 1.7 설치
        • 하둡을 위한 시스템 유저 생성
        • IPv6 비활성화
        • 하둡 2.6.0 설치 방법
        • 하둡 시작
      • 하둡 배포판 및 주요 업체
    • 요약

  • 4장. 머신 러닝 툴과 라이브러리, 프레임워크
    • 머신 러닝 툴: landscape
    • 아파치 머하웃
      • 머하웃 동작 원리
      • 아파치 머하웃 설치와 설정
        • 메이븐 설정 방법
        • 이클립스 IDE를 이용한 아파치 머하웃 설정
        • 이클립스 없이 아파치 머하웃 설정
      • 머하웃 패키지 구성
      • 머하웃에서 벡터 구현
    • R
      • R 설치와 설정
      • 아파치 하둡과 R 통합
        • 방법 1: R과 하둡의 스트리밍 API를 이용
        • 방법 2: R의 Rhipe 패키지를 이용
        • 방법 3: RHadoop을 이용
        • R/하둡 통합 방법 요약
      • (예제를 이용한) R 프로그래밍
        • R 표현식
        • R 벡터
        • R 행렬
        • R 팩터
        • R 데이터 프레임
        • R 통계 프레임워크
        • 줄리아
        • 줄리아 설치와 설정
        • 줄리아 커맨드라인 버전을 다운로드해 사용
        • 주노 IDE를 이용한 줄리아 실행
        • 웹 브라우저에서 줄리아 실행
      • 커맨드라인에서 줄리아 코드 실행
      • 줄리아 코드 구현(예제)
      • 변수와 할당문 이용
        • 수치 기본 요소
        • 데이터 구조
        • 문자열과 문자열 조작 작업
        • 패키지
        • 연동 기법
        • 그래픽과 플로팅 방법
      • 줄리아의 장점
      • 줄리아와 하둡의 통합
    • 파이썬
      • 파이썬 툴킷 옵션
      • (예제를 이용한) Python 구현
        • 파이썬 설치와 scikit-learn 설정
    • 아파치 스파크
    • 스칼라
      • RDD를 이용한 프로그래밍
    • 스프링 XD
    • 요약

  • 5장. 의사 결정 트리 기반 학습
    • 의사 결정 트리
      • 주요 용어
      • 목적과 용도
      • 의사 결정 트리의 구성
        • 결측치 처리
        • 의사 결정 트리 생성 시의 고려 사항
        • 의사 결정 트리 그래픽 표현
        • 의사 결정 트리의 구축 의사 : 결정 트리 알고리즘
        • 탐욕 의사 결정 트리
        • 의사 결정 트리의 장점
      • 특화된 형태의 의사 결정 트리
        • 사선 트리
        • 랜덤 포레스트
        • 진화 트리
        • 헬링거 트리
    • 의사 결정 트리 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 6장. 인스턴스 기반 학습과 커널 기반 학습
    • 인스턴스 기반 학습(IBL)
      • 최근접 이웃 알고리즘
        • KNN에서 k의 값
        • KNN에서의 거리 측정법
        • 사례 기반 추론(CBR)
        • 국지 가중 회귀
      • KNN 알고리즘의 구현
        • 머하웃 사용
        • R 사용
        • 스파크 사용
        • 파이썬(scikit-learn) 사용
        • 줄리아 사용
    • 커널 기법 기반 학습
      • 커널 함수
      • 서포트 벡터 머신(SVM)
        • 분리할 수 없는 데이터
      • SVM 구현
        • 머하웃 사용
        • R 사용
        • 스파크 사용
        • 줄리아 사용
        • 파이썬(scikit-learn) 사용
    • 요약

  • 7장. 연관 규칙 기반 학습
    • 연관 규칙 기반 학습
      • 연관 규칙 정의
      • Apriori 알고리즘
        • 규칙 생성 전략
      • FP-growth 알고리즘
      • Apriori와 FP-growth
    • Apriori와 FP-growth의 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 8장. 클러스터링 기반 학습
    • 클러스터링 기반 학습
    • 클러스터링의 유형
      • 계층 클러스터링
      • 분할 클러스터링
    • k-평균 클러스터링 알고리즘
      • k-평균 클러스터링을 위한 수렴 또는 중단 기준
        • 디스크상 K-평균 클러스터링
      • k-평균 알고리즘의 장점
      • k-평균 알고리즘의 단점
      • 거리 측정법
      • 복잡도 측정법
    • k-평균 클러스터링 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 9장. 베이지언 학습
    • 베이지언 학습
      • 통계학자의 생각
        • 중요 용어와 정의
        • 확률
        • 사건의 유형
        • 확률의 유형
        • 확률 분포
        • 베르누이 분포
        • 이항 분포
      • 베이즈 정리
      • 나이브 베이즈 분류기
        • 다항 나이브 베이즈 분류기
        • 베르누이 나이브 베이즈 분류기
    • 나이브 베이즈 알고리즘 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 10장. 회귀 기반 학습
    • 회귀 분석
      • 기초 통계량 복습
        • 기대치, 분산, 공분산의 속성
        • ANOVA와 F 통계
      • 교란
      • 효과 변경
    • 회귀 기법
      • 선형 회귀 또는 단순 선형 회귀
      • 다중 회귀
      • 다항(비선형) 회귀
      • 일반화된 선형 모델(GLM)
      • 로지스틱 회귀(로짓 링크)
      • 로지스틱 회귀에서 오즈비
      • 포아송 회귀
    • 선형 회귀와 로지스틱 회귀의 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 11장. 딥러닝
    • 머신 러닝의 기본 사항
      • 인간의 뇌
      • 신경망
        • 뉴런
        • 시냅스
        • 인공 뉴런, 퍼셉트론
        • 신경망의 크기
        • 신경망의 종류
      • 역전파 알고리즘
      • 소프트맥스 회귀
    • 딥러닝의 종류
      • 컨볼루션 신경망(CNN/ConvNets)
        • 컨볼루션 레이어(CONV)
        • 풀링 레이어(POOL)
        • 풀커넥트 레이어(FC)
      • 순환 신경망(RNNs)
      • RBM
      • DBM
      • 오토인코더
    • ANNs과 딥러닝 기법 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 12장. 강화 학습
    • 강화 학습(RL)
      • 강화 학습의 내용
        • 강화 학습 적용 사례
        • 평가 피드백
        • 강화 학습 문제: 그리드 월드 문제
        • 마르코프 결정 프로세스(MDP)
        • 기본 RL 모델: 에이전트-환경 인터페이스
        • 지연 보상
        • 정책
      • 강화 학습: 주요 특징
    • 강화 학습 솔루션 기법
      • 다이내믹 프로그래밍(DP)
        • 일반화된 정책 반복(GPI)
      • 몬테카를로 기법
      • TD(Temporal difference) 학습
        • 살사: 온폴리시 TD
      • Q-러닝: 오프폴리시 TD
      • 액터-평론가 기법(온폴리시)
      • R-러닝(오프폴리시)
    • 강화 학습 알고리즘 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 13장. 앙상블 학습
    • 앙상블 학습법의 개념
      • 대중(또는 집단)의 지혜란?
      • 주요 적용 사례
        • 추천 시스템
        • 이상 탐지
        • 트랜스퍼 학습
        • 스트림 마이닝 또는 분류
      • 앙상블 기법
    • 지도 앙상블 기법
      • 비지도 앙상블 학습법
    • 앙상블 학습 구현
      • 머하웃 사용
      • R 사용
      • 스파크 사용
      • 파이썬(scikit-learn) 사용
      • 줄리아 사용
    • 요약

  • 14장. 머신 러닝을 위한 차세대 데이터 아키텍처
    • 데이터 아키텍처의 진화
    • 차세대 데이터 아키텍처를 위한 새로운 관점
    • 머신 러닝을 위한 최신 데이터 아키텍처
      • 시맨틱 데이터 아키텍처
      • 비즈니스 데이터 레이크
      • 시맨틱 웹 기술
      • 주요 솔루션 및 업체
    • 다중 모델 데이터베이스 아키텍처/폴리곳 지속성
      • 주요 솔루션 및 업체
    • 람다 아키텍처
      • 주요 솔루션 및 업체
    • 요약

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안