Top

데이터 마이닝 4/e [실용적인 머신러닝 기술]

  • 원서명Data Mining 4th Edition: Practical Machine Learning Tools and Techniques (ISBN 9780128042915)
  • 지은이이안 위튼(Ian Witten), 아이베 프랭크(Eibe Frank), 마크 홀(Mark Hall), 크리스토퍼 팔(Christopher Pal)
  • 옮긴이김성준
  • ISBN : 9791161756424
  • 50,000원
  • 2022년 05월 31일 펴냄
  • 페이퍼백 | 808쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

2023년 대한민국학술원 우수학술도서 선정도서
요약

머신러닝의 기초와 실제 데이터 마이닝에 적용하는 방법을 알려준다. 특히 4판에서는 데이터 준비, 분석 결과 해석, 결과 평가, 성공적인 데이터 마이닝 접근 방식의 핵심인 알고리듬에 이르기까지 데이터 마이닝을 진행하기 위해 알아야 할 모든 것을 다룬다.

이 책에서 다루는 내용

◆ 머신러닝 개념의 기본을 살펴보고 데이터 마이닝 프로젝트에 적용할 도구 및 기술에 관한 조언 제공
◆ 성능 개선을 위해 머신러닝의 입력 및 결과의 변형으로 구체적인 팁과 기술 제공
◆ 데이터 마이닝 작업용 머신러닝 알고리듬에 광범위하게 적용할 수 있는 WEKA 소프트웨어 툴킷 제공

이 책의 대상 독자

머신러닝 관행의 기본 원리와 아이디어에 관심이 있고 기술적으로 잘 알고 있는 일반 독자를 대상으로 한다. 또한 이 새로운 기술에 익숙해져야 하는 정보 전문가와 머신러닝이 무엇을 포함하는지 자세히 이해하려는 모든 사람에게 관심을 끌 것이다. 정보 시스템 실무자, 프로그래머, 컨설턴트, 개발자, 데이터 과학자, 정보 기술 관리자, 사양 작성자, 특허 심사관, 호기심 많은 사람, 학생, 교수 등 다양한 사용자를 위해 작성됐다.

이 책의 구성

1장, ‘데이터 마이닝… 이게 다 뭐죠?’에서는 예를 통해 머신러닝이 무엇인지, 어디에서 사용할 수 있는지 설명하고 실제 애플리케이션을 제공한다. 2장, ‘입력 - 콘셉트, 인스턴스, 속성’과 3장, ‘출력 - 지식의 표현’에서는 관련된 다양한 종류의 입력 및 출력 또는 지식 표현을 다룬다. 다양한 종류의 출력은 다양한 스타일의 알고리듬을 지시하며 4장, ‘알고리듬: 기본 방법’은 머신러닝의 기본 방법을 설명하며 이해하기 쉽도록 단순화했다. 여기에서 관련된 원칙은 복잡한 세부 사항이나 까다로운 구현 문제에 관여하지 않고 다양한 알고리듬으로 전달된다. 특정 데이터 마이닝 문제에 머신러닝 기술을 적용하는 데 진전을 이루려면 얼마나 잘하고 있는지 측정할 수 있어야 한다. 5장, ‘신뢰성: 학습에 대한 평가’를 통해 머신러닝에서 얻은 결과를 평가하고 성능 평가와 관련된 복잡한 문제를 해결할 수 있다.
2부에서는 데이터 마이닝을 위한 고급 머신러닝 기술을 소개한다. 가장 낮고 가장 상세한 수준인 6장, ‘트리 및 규칙’ 및 7장, ‘인스턴스 기반 및 선형 모델 확장’은 머신러닝 알고리듬 수행의 핵심적인 이슈를 세부적으로 잘 드러내며, 실무에 적용 시 필요한 복잡성을 내포하고 있다(하지만 몇 가지 알고리듬에 필요한 무거운 수학적 장치는 생략한다). 많은 독자가 이러한 세부 정보를 무시하고 싶어 할 수 있지만, 머신러닝 구조의 대부분 작업은 이 레벨에서 구현된다. 8장, ‘데이터 변환’은 머신러닝에 대한 입력 및 출력 엔지니어링과 관련된 실제 주제(예: 속성 선택 및 이산화)를 설명한다. 9장, ‘확률적 방법’과 10장, ‘딥러닝’에서는 각각 머신러닝 및 딥러닝의 확률적 방법을 설명한다. 11장, ‘지도 및 비지도 학습을 넘어서’는 준지도 및 다중 인스턴스 학습을 살펴보고, 12장, ‘앙상블 학습’에서는 다양한 학습 기술의 결과물을 결합한 ‘앙상블 학습’ 기술을 다룬다. 13장, ‘응용 영역, 그 너머의 세계’는 미래를 내다본다.
부록에서는 9장 및 10장의 자료 이해에 필요한 몇 가지 수학적 배경을 다룬다. 또 다른 부록에서는 1부 및 2부에 설명된 대부분의 아이디어를 구현하는 WEKA 데이터 마이닝 워크벤치(workbench)를 소개한다. 개념적 자료를 사용 방법의 실제적인 측면에서 명확하게 분리하고자 이를 실었다. 1부와 2부의 각 장 끝에는 관련 WEKA 알고리듬을 소개한다.

저자/역자 소개

지은이의 말

컴퓨팅과 커뮤니케이션의 융합으로 사회는 많은 정보를 창출하기 시작했다. 그러나 대부분의 정보는 원시 형태인 데이터이며, 기록된 사실을 기반으로 데이터가 특정 지어지면 정보는 데이터의 기초가 되는 패턴 또는 예상의 집합이 된다. 데이터베이스에는 막대한 양의 정보가 들어 있다. 이 정보는 잠재적으로 중요하지만 아직 밝혀지지 않았거나 설명되지 않은 정보다. 우리의 임무는 그것을 밖으로 이끌어 내는 것이다.
데이터 마이닝(data mining)은 묵시적이면서 사전에 알려지지 않고 잠재적으로 유용할 정보를 데이터로부터 추출하는 작업이다. 이에 대한 아이디어는 자동으로 데이터베이스를 검색해 패턴이나 규칙성을 찾는 컴퓨터 프로그램을 구축하는 것이다. 강력한 패턴이 발견되면 이는 일반화를 거쳐 향후 데이터에 대한 정확한 예측에 사용된다. 물론 문제가 있을지도 모른다. 모든 패턴이 다 쓸모 있지는 않다. 어떤 것들은 사용된 특정 데이터셋에서 우연을 가장한 가짜일 것이다. 그리고 실제 데이터는 불완전하며 일부는 왜곡되고 일부는 누락된다. 발견된 모든 것은 정확하지 않으며 모든 규칙에 예외가 있고 어떤 규칙도 적용되지 않는 경우도 있다. 알고리듬은 불완전한 데이터에 대처하고 정확하지 않지만 유용한 규칙을 추출할 수 있을 만큼 강력해야 한다.
머신러닝은 데이터 마이닝의 기술적 기반을 제공한다. 데이터베이스의 원시 데이터에서 정보를 추출하는 데 사용되며, 다시 말하면 이상적으로는 이해할 수 있는 형식으로 표현되고 다양한 목적으로 사용될 수 있다. 이 과정은 추상화 중 하나이며 데이터 및 나쁜 점까지 모두 취하고 그 기반이 되는 구조를 추론한다. 이 책은 데이터의 구조적 패턴을 찾고 가능한 경우 이를 정리하고자 실제 데이터 마이닝에 사용되는 머신러닝의 도구와 기술에 관한 것이다.
상업적 관심을 받고 있는 급성장하는 신기술이 그렇듯이 머신러닝의 사용은 기술적 (때로는 인기있는) 언론에서 엄청난 과대 광고로 둘러싸여 있다. 데이터의 바다에서 학습 알고리듬을 느슨하게 설정해 밝혀 낼 수 있는 비밀에 대한 과장된 보고서를 쉽게 찾을 수 있다. 그러나 머신러닝에는 마법, 숨겨진 힘, 연금술 따위는 없다. 대신 원시 데이터에서 유용한 정보를 추출할 수 있는 간단하고 실용적인 기술의 식별 가능한 무엇이 있을 뿐이다. 이 책은 그 간단하고 실용적인 기술을 설명하고 작동 방식을 보여 준다.
많은 애플리케이션에서 머신러닝으로 예제로부터 구조적 정보를 얻을 수 있다. 발견된 정보는 예측, 정보, 이해에 사용된다. 일부 데이터 마이닝 애플리케이션은 예측에 중점을 두며, 과거에 일어난 일의 정보를 제공하는 데이터에서 새로운 상황에서 일어날 일을 예측하고, 종종 새로운 사례의 분류를 추측한다. 그러나 우리는 ‘학습’의 결과가 예제를 분류하는 데 사용할 수 있는 구조의 실제 정보가 되는 애플리케이션에도 동일하게(어쩌면 더 많이) 관심이 있다. 이 구조적 정보는 예측뿐 아니라 해당 정보를 쉽게 이해하도록 만든다. 대부분 경험상 사용자가 얻은 인사이트는 실제 데이터 마이닝 애플리케이션에서 중요하며 실제로 이는 고전적인 통계 모델링을 넘어선 머신러닝의 주요 장점 중 하나다.
이 책은 다양한 머신러닝 방법을 설명한다. 기본 아이디어가 어떻게 동작하는지를 간단한 구조로 설명했기 때문에 교육적으로도 동기 부여가 될 것이다.

지은이 소개

이안 위튼(Ian Witten)

뉴질랜드 와이카토 대학교(University of Waikato)의 컴퓨터과학과 교수이며 뉴질랜드의 디지털 도서관 연구 프로젝트를 지휘했다. 관심사는 정보 검색, 머신러닝, 텍스트 압축, 데모 주도 프로그래밍이다. 영국 캠브리지 대학교(Cambridge University)에서 수학으로 석사학위를 받았으며 캐나다 캘거리 대학교(University of Calgary)에서 컴퓨터 과학 석사, 잉글랜드의 에섹스 대학교(Essex University)에서 전기공학 박사학위를 받았다. 지금은 ACM과 뉴질랜드 왕립학회의 회원으로 활동 중이다. 디지털 도서관, 머신러닝, 텍스트 압축, 음성 합성 및 신호 처리, 컴퓨터 타이포그래피 등 다방면에 논문을 발행했다. 가장 최근의 책은 『Managing Gigabytes(기가바이트 단위의 관리)』(1999) 및 『Data Mining(데이터 마이닝)』(2000)이다.

아이베 프랭크(Eibe Frank)

뉴질랜드에서 사모아인 배우자와 두 명의 사랑스런 소년들과 같이 살고 있지만 원래 독일 출신으로 칼스루에 대학교(University of Karlsruhe)에서 컴퓨터과학으로 첫 학위를 받았다. 그 후 이안 위튼의 지도하에 박사 학위를 취득하려고 뉴질랜드로 이주했으며 와이카토 대학교의 컴퓨터과학 강사로 일하면서 학업을 마쳤다. 현재는 와이카토 대학교의 부교수로 재직 중이다. 자바 프로그래밍의 얼리어답터로서 이 책에 설명된 WEKA 소프트웨어의 토대를 마련했다. 머신러닝 및 데이터 마이닝의 논문 및 출판에 많은 기여를 했으며 이 분야에 많은 컨퍼런스와 저널로부터 추천됐다.

마크 홀(Mark Hall)

와이카토 대학교에서 컴퓨팅 및 수리과학으로 학위를 받았고 컴퓨터 과학으로 박사 학위를 취득했다. 와이카토 대학교에서 학생 및 강사를 거쳐 현재는 오픈소스 비즈니스 인텔리전스 소프트웨어 회사인 펜타호(Pentaho)의 소프트웨어 개발자 및 데이터 마이닝 컨설턴트로 일하고 있다. 이 책에서 설명된 WEKA 소프트웨어의 핵심 기여자다. 머신러닝 및 데이터 마이닝에 관한 많은 기사를 발표했으며 이 분야의 컨퍼런스, 저널의 심사위원이기도 하다.

크리스토퍼 팔(Christopher Pal)

캐나다 몬트리올 대학교(Université de Montréal)의 몬트리올 학습 알고리듬 연구소 및 몬트리올 공과대학교(Polytechnique Montréal) 컴퓨터 및 소프트웨어 공학과 부교수로 재직 중이다.

옮긴이의 말

데이터 마이닝이라는 용어는 2000년도 초반에 잠깐 유행했었다. 당시에는 그냥 데이터를 어떻게 잘 모을까에 집중했었는데(지금 생각해 보면 이 개념이 데이터 레이크 등으로 이어진 것 같다) 분석 등에 대해서는 마땅한 도구가 없었던 것 같다.
사실 분석 방법은 옛날부터 나이브 베이즈와 같이 고전적인 방법들이 많이 있었는데 수많은 데이터에 적용시킬 방법이 없었던 것 같다. 그래서 2000년도 초반에 잠깐 데이터 마이닝이라는 분야가 나왔다가 다시 가라앉았던 기억이 있다.
R이나 파이썬과 같은 언어들이 나오면서 다양한 수학적 연산이 쉽게 가능해졌다. 이에 따라 다시 예전에는 적용에 엄두도 못 냈던 과거의 방법들이 라이브러리로 구현되면서 데이터 마이닝 분야도 다시 활기를 띠기 시작했다.
파이썬도 이제 다양한 라이브러리를 제공한다. 하지만 이 라이브러리들을 언제 써야 하는지 그리고 데이터에 유실 등의 문제가 발생하면 어떻게 대처해야 하는지를 모르는 경우가 많다.
이 책은 데이터 분석의 ‘기본’을 토대로 방향을 제시해 주는 책이다. 데이터 분석, 신경망 등에 대한 기본을 알려 주는 책들은 연일 쏟아지지만 문제가 발생할 때의 해결, 좀 더 나은 성능 개선 등을 알려 주는 책은 별로 없기 때문에 이 책이 더 빛이 나는 게 아닐까 싶다.

옮긴이 소개

김성준

삼성SDS 그룹통합추진팀에서 워크플로 제작 업무로 IT를 시작했다. 이후 Fuji Xerox Korea, Naver Japan(현LINE)을 거쳤고, 지금은 삼성 청년 소프트웨어 아카데미(SSAFY)에서 교육생들을 대상으로 프로젝트 컨설턴트로 활동하고 있다.

목차

목차
  • 1부. 데이터 마이닝의 소개
  • 1장. 데이터 마이닝… 이게 다 뭐죠?
  • 2장. 입력 - 콘셉트, 인스턴스, 속성
  • 3장. 출력 - 지식의 표현
  • 4장. 알고리듬 - 기본 방식
  • 5장. 신뢰성 - 학습에 대한 평가

  • 2부. 고급 머신러닝 기술
  • 6장. 트리와 규칙
  • 7장. 인스턴스 기반 및 선형 모델의 확장
  • 8장. 데이터 변환
  • 9장. 확률적 방법
  • 10장. 딥러닝
  • 11장. 지도 및 비지도 학습을 넘어서
  • 12장. 앙상블 학습
  • 13장. 응용 영역, 그 너머의 세계

  • 부록 A. 이론적 기초
  • 부록 B. WEKA 워크벤치

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안