데이터 마이닝 Data Mining [데이터 속 숨은 의미를 찾는 기계 학습의 이론과 응용]
- 원서명Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (ISBN 9780123748560)
- 지은이이안 위튼, 아이베 프랭크, 마크 홀
- 옮긴이이승현
- ISBN : 9788960774476
- 48,000원
- 2013년 06월 28일 펴냄
- 페이퍼백 | 820쪽 | 188*250mm
- 시리즈 : 데이터 과학
판매처
개정판책 소개
기계 학습에 관한 완벽한 설명과 기계 학습 도구를 실질적인 데이터 마이닝 사례에 적용할 수 있는 노하우를 배울 수 있는 책이다. 또한 데이터 마이닝과 기계 학습 분야에서 가장 찬사를 받는 대망의 개정판으로서, 입력 데이터를 준비하는 방법과 처리 결과를 분석하고 평가하는 방법, 성공적인 데이터 마이닝을 위해 필요한 알고리즘적인 기법 등 독자가 알고 싶은 모든 것을 알려준다. 기계 학습에 관한 매우 광범위한 내용들을 난이도와 개념별로 명확하게 구분하여 설명하며, 데이터 마이닝의 기본 개념, 기본적인 알고리즘, 그리고 기계 학습에 관련된 고급 개념을 다룬다. 또한 저자가 공동 개발한 기계 학습 툴로 수많은 데이터 마이닝 툴 중에서도 단연 으뜸으로 널리 사용되는 오픈소스 툴인 웨카(WEKA)에 대한 상세한 기능 설명과 실질적인 사용법을 알려준다.
[ 이 책의 특징 ]
■ 기계 학습 기법에 사용되는 입력 데이터와 출력 결과를 변환해 성능 개선을 이끄는 구체적인 팁과 기법들을 제공한다.
■ 웨카 소프트웨어 툴킷을 다운로드해 실습할 수 있다. 이 툴킷은 데이터 마이닝 작업을 위한 기계 학습 알고리즘을 모아놓은 집합체로, 인터페이스가 더욱 인터랙티브하게 개선됐다.
■ 이 툴킷은 데이터 전처리, 분류, 회귀, 군집화, 연관 규칙, 시각화 등의 알고리즘을 다룬다.
[ 이 책의 대상 독자 ]
이 책은 데이터 마이닝을 현실적으로 다루는 데 필요한 개념과 원리에 관심 있는 일반 기술자를 대상으로 한다. 또한 데이터 마이닝이라는 새로운 기술을 알아야 하는 정보 과학 전공 관련 전문가들과 기계 학습이 포괄하는 기술적인 내용을 상세하게 얻고자 하는 이들도 대상 독자다. 정보 시스템 관련 종사자, 프로그래머, 컨설턴트, 개발자, 정보 과학 매니저, 전문 분야 기고가, 특허 심사원, 그리고 호기심 많은 사람들뿐만 아니라 학생, 교수 등 데이터 마이닝의 어떻게 동작하며, 어떻게 사용하는지, 무엇을 수행하는지, 기계 학습의 주요 기법은 무엇인지에 대해 다양한 그림으로 설명하는 읽기 간편한 책을 찾는 독자들에게도 흥미로운 책이 될 것이다. 실질적으로 이 책은 ‘어떻게?’라는 의문을 갖기를 좋아하는 사람들의 성향에 맞춰져 있으며, 알고리즘과 코드, 구현 내용들을 담고 있다. 이와 같은 모든 실질적인 데이터 마이닝 자료들을 이 책에서 설명한 기술들과 직접적으로 이용할 수 있다. 학술적이거나 뭔가 있어 보이는 것보다는, 부차적인 설명 없이 곧바로 기계 학습의 실질적인 내용을 알고 싶은 독자도 대상에 포함된다. 박스로 둘러 따로 설명한 몇 개 절을 제외하면 이 책에서는 특별한 이론적 내용이나 수학적 내용을 최대한 배제했다. 박스로 감싼 내용들은 수학적이나 이론적으로 좀 더 상세히 알고 싶은 독자를 위해 수록한 것이며, 그냥 넘어가도 무관하다.
[ 이 책의 구성 ]
1부는 데이터 마이닝에 대한 소개 부분에 해당한다. 독자는 세 개의 장에 걸쳐 데이터 마이닝의 기본적인 개념과 가장 중요한 내용을 공부한다. 1장은 예제들을 통해 기계 학습이 무엇인지, 어디에 사용되는지 설명하며, 실질적인 적용 사례를 다룬다. 2, 3장은 서로 다른 종류의 입출력이나 ‘지식 정보 표현(knowledge representation)’을 다룬다. 4장은 이해를 돕기 위해 난이도를 낮춰 간단한 예제를 만들어 기본적인 기계 학습 이론을 설명한다. 다양한 알고리즘에 관련된 원리들을 복잡할 정도로 상세히 소개하거나 어지럽게 구현하는 일은 하지 않았다. 특정 데이터 마이닝 문제에 기계 학습 기술을 적용하는 과정을 진행하기 위해 반드시 독자가 얼마나 내용을 잘 알고 있는지 파악할 수 있어야 한다. 5장은 순서와 상관없이 읽을 수 있으며, 기계 학습을 통해 얻은 결과를 평가할 수 있는 방법을 알려주고, 중간 중간 성능 평가와 관련된 복잡한 문제들도 다룬다.
2부 좀 더 세련된 데이터 마이닝 기술을 다룬다. 가장 하위의, 그리고 가장 상세한 수준에서 6장은 실질적으로 기계 학습 알고리즘이 제대로 동작하기 위해 필요한 복잡한 내용들을 포함해 여러 가지 내용들을 구현하는 핵심 사항들을 빠짐없이 상세하게 소개한다(물론 몇몇 알고리즘을 뒷받침하는 방대한 수학적 수식 전개나 메커니즘은 생략했다). 수많은 독자가 이런 상세 정보를 무시할지라도 동작이 철저히 검증된 기계 학습 스킴(scheme)의 자바 코드는 이 정도 수준을 기반으로 구현했다. 7장은 기계 학습의 입출력을 제작하는 일과 관련된 실질적인 주제를 다룬다(예를 들어 속성을 선택하고 분류하는 작업 등을 설명한다). 8장에서는 서로 다른 기계 학습 기술을 사용해 얻은 출력 값을 조합하는 ‘앙상블 학습(ensemble learning)’ 기술을 다룬다. 9장은 데이터 마이닝의 미래를 전망하는 내용을 다룬다.
이 책은 실질적인 기계 학습에서 사용되는 대부분의 이론들을 서술한다. 하지만 강화 학습법(reinforcement learning)이나 유전 알고리즘(genetic algorithm)적 접근법은 실제 데이터 마이닝에 적용되는 일이 거의 없기도 하거니와 이런 기법은 최적화 기법이나 관계 학습 이론(relative learning)과 귀납적 논리 프로그래밍(ILP, inductive logic programming)에 가깝기 때문에 다루지 않는다(대체로 실제 데이터 마이닝에 잘 적용되지 않는다).
3부는 웨카(WEKA) 데이터 마이닝 툴에 대해 설명하며, 이 툴은 1, 2부에서 설명한 거의 모든 개념을 구현할 수 있게 도와준다. 1, 2부와는 별도로 웨카를 어떻게 사용하는지 실질적으로 알아보는 3부를 따로 구성해 책의 구성을 명확하게 했다. 1, 2부의 각 장 마지막 부분은 3부의 웨카 알고리즘과 연관된 지시 사항들이므로 무시하고 넘어가도 무방하며, 학습하면서 하나씩 짚거나 혹은 독자가 원하는 것이 독자의 데이터를 분석하는 데 필요한 지식이지 관련 알고리즘이 어떻게 동작하는지 상세한 내용을 알 필요가 없다면 곧바로 3부로 넘어가도 좋다.
[ 이 책에 쏟아진 각계의 찬사 ]
이 책의 저자들은 실질적인 응용 사례에 적용할 수 있도록 충분한 이론적 설명을 제공하며, 기계 학습과 데이터 마이닝에 관한 전부는 아니더라도 기존 책들과는 차원이 다른 실질적인 안목을 보여준다.
- 도리언 파일(Dorian Pyle) / 뉴메트릭스(Numetrics) 사의 모델링 책임자이자『Data Preparation for Data Mining』,『Business Modeling for Data Mining』의 저자
이 책이 앞으로 기술적인 데이터 마이닝 교육 과정에서 강력한 도전자가 될지도 모르겠다. 이런 부류의 책들 중 최고의 책이라 칭할 만하다.
- 허브 에들슈타인(Herb Edelstein) / 투 크로우 컨설팅(Two Crows Consulting)의 책임 데이터 마이닝 컨설턴트
이 책은 내 서재에 소장 중인 데이터 마이닝 책들 중에서 가장 즐겨 읽는 책이다.
- 톰 브뢰르(Tom Breur) / 네덜란드 티뷔르흐에 위치한 XLNT 컨설팅 사의 책임 연구원
[ 이 책의 특징 ]
■ 기계 학습 기법에 사용되는 입력 데이터와 출력 결과를 변환해 성능 개선을 이끄는 구체적인 팁과 기법들을 제공한다.
■ 웨카 소프트웨어 툴킷을 다운로드해 실습할 수 있다. 이 툴킷은 데이터 마이닝 작업을 위한 기계 학습 알고리즘을 모아놓은 집합체로, 인터페이스가 더욱 인터랙티브하게 개선됐다.
■ 이 툴킷은 데이터 전처리, 분류, 회귀, 군집화, 연관 규칙, 시각화 등의 알고리즘을 다룬다.
[ 이 책의 대상 독자 ]
이 책은 데이터 마이닝을 현실적으로 다루는 데 필요한 개념과 원리에 관심 있는 일반 기술자를 대상으로 한다. 또한 데이터 마이닝이라는 새로운 기술을 알아야 하는 정보 과학 전공 관련 전문가들과 기계 학습이 포괄하는 기술적인 내용을 상세하게 얻고자 하는 이들도 대상 독자다. 정보 시스템 관련 종사자, 프로그래머, 컨설턴트, 개발자, 정보 과학 매니저, 전문 분야 기고가, 특허 심사원, 그리고 호기심 많은 사람들뿐만 아니라 학생, 교수 등 데이터 마이닝의 어떻게 동작하며, 어떻게 사용하는지, 무엇을 수행하는지, 기계 학습의 주요 기법은 무엇인지에 대해 다양한 그림으로 설명하는 읽기 간편한 책을 찾는 독자들에게도 흥미로운 책이 될 것이다. 실질적으로 이 책은 ‘어떻게?’라는 의문을 갖기를 좋아하는 사람들의 성향에 맞춰져 있으며, 알고리즘과 코드, 구현 내용들을 담고 있다. 이와 같은 모든 실질적인 데이터 마이닝 자료들을 이 책에서 설명한 기술들과 직접적으로 이용할 수 있다. 학술적이거나 뭔가 있어 보이는 것보다는, 부차적인 설명 없이 곧바로 기계 학습의 실질적인 내용을 알고 싶은 독자도 대상에 포함된다. 박스로 둘러 따로 설명한 몇 개 절을 제외하면 이 책에서는 특별한 이론적 내용이나 수학적 내용을 최대한 배제했다. 박스로 감싼 내용들은 수학적이나 이론적으로 좀 더 상세히 알고 싶은 독자를 위해 수록한 것이며, 그냥 넘어가도 무관하다.
[ 이 책의 구성 ]
1부는 데이터 마이닝에 대한 소개 부분에 해당한다. 독자는 세 개의 장에 걸쳐 데이터 마이닝의 기본적인 개념과 가장 중요한 내용을 공부한다. 1장은 예제들을 통해 기계 학습이 무엇인지, 어디에 사용되는지 설명하며, 실질적인 적용 사례를 다룬다. 2, 3장은 서로 다른 종류의 입출력이나 ‘지식 정보 표현(knowledge representation)’을 다룬다. 4장은 이해를 돕기 위해 난이도를 낮춰 간단한 예제를 만들어 기본적인 기계 학습 이론을 설명한다. 다양한 알고리즘에 관련된 원리들을 복잡할 정도로 상세히 소개하거나 어지럽게 구현하는 일은 하지 않았다. 특정 데이터 마이닝 문제에 기계 학습 기술을 적용하는 과정을 진행하기 위해 반드시 독자가 얼마나 내용을 잘 알고 있는지 파악할 수 있어야 한다. 5장은 순서와 상관없이 읽을 수 있으며, 기계 학습을 통해 얻은 결과를 평가할 수 있는 방법을 알려주고, 중간 중간 성능 평가와 관련된 복잡한 문제들도 다룬다.
2부 좀 더 세련된 데이터 마이닝 기술을 다룬다. 가장 하위의, 그리고 가장 상세한 수준에서 6장은 실질적으로 기계 학습 알고리즘이 제대로 동작하기 위해 필요한 복잡한 내용들을 포함해 여러 가지 내용들을 구현하는 핵심 사항들을 빠짐없이 상세하게 소개한다(물론 몇몇 알고리즘을 뒷받침하는 방대한 수학적 수식 전개나 메커니즘은 생략했다). 수많은 독자가 이런 상세 정보를 무시할지라도 동작이 철저히 검증된 기계 학습 스킴(scheme)의 자바 코드는 이 정도 수준을 기반으로 구현했다. 7장은 기계 학습의 입출력을 제작하는 일과 관련된 실질적인 주제를 다룬다(예를 들어 속성을 선택하고 분류하는 작업 등을 설명한다). 8장에서는 서로 다른 기계 학습 기술을 사용해 얻은 출력 값을 조합하는 ‘앙상블 학습(ensemble learning)’ 기술을 다룬다. 9장은 데이터 마이닝의 미래를 전망하는 내용을 다룬다.
이 책은 실질적인 기계 학습에서 사용되는 대부분의 이론들을 서술한다. 하지만 강화 학습법(reinforcement learning)이나 유전 알고리즘(genetic algorithm)적 접근법은 실제 데이터 마이닝에 적용되는 일이 거의 없기도 하거니와 이런 기법은 최적화 기법이나 관계 학습 이론(relative learning)과 귀납적 논리 프로그래밍(ILP, inductive logic programming)에 가깝기 때문에 다루지 않는다(대체로 실제 데이터 마이닝에 잘 적용되지 않는다).
3부는 웨카(WEKA) 데이터 마이닝 툴에 대해 설명하며, 이 툴은 1, 2부에서 설명한 거의 모든 개념을 구현할 수 있게 도와준다. 1, 2부와는 별도로 웨카를 어떻게 사용하는지 실질적으로 알아보는 3부를 따로 구성해 책의 구성을 명확하게 했다. 1, 2부의 각 장 마지막 부분은 3부의 웨카 알고리즘과 연관된 지시 사항들이므로 무시하고 넘어가도 무방하며, 학습하면서 하나씩 짚거나 혹은 독자가 원하는 것이 독자의 데이터를 분석하는 데 필요한 지식이지 관련 알고리즘이 어떻게 동작하는지 상세한 내용을 알 필요가 없다면 곧바로 3부로 넘어가도 좋다.
[ 이 책에 쏟아진 각계의 찬사 ]
이 책의 저자들은 실질적인 응용 사례에 적용할 수 있도록 충분한 이론적 설명을 제공하며, 기계 학습과 데이터 마이닝에 관한 전부는 아니더라도 기존 책들과는 차원이 다른 실질적인 안목을 보여준다.
- 도리언 파일(Dorian Pyle) / 뉴메트릭스(Numetrics) 사의 모델링 책임자이자『Data Preparation for Data Mining』,『Business Modeling for Data Mining』의 저자
이 책이 앞으로 기술적인 데이터 마이닝 교육 과정에서 강력한 도전자가 될지도 모르겠다. 이런 부류의 책들 중 최고의 책이라 칭할 만하다.
- 허브 에들슈타인(Herb Edelstein) / 투 크로우 컨설팅(Two Crows Consulting)의 책임 데이터 마이닝 컨설턴트
이 책은 내 서재에 소장 중인 데이터 마이닝 책들 중에서 가장 즐겨 읽는 책이다.
- 톰 브뢰르(Tom Breur) / 네덜란드 티뷔르흐에 위치한 XLNT 컨설팅 사의 책임 연구원
목차
목차
- I부 데이터 마이닝의 소개
- 1장 데이터 마이닝의 개요
- 1.1 데이터 마이닝과 기계 학습
- 구조적 패턴 서술
- 기계 학습
- 데이터 마이닝
- 1.2 간단한 예제: 기상 예제와 기타 예제
- 기상 문제
- 콘택트렌즈: 이상적인 문제
- 붓꽃: 고전적인 수치 데이터 집합
- CPU 성능: 수치적 예측 방법에 대한 소개
- 노조 협상: 더욱 현실적인 예제
- 콩 분류: 성공적인 기계 학습의 전형을 보여주는 예제
- 1.3 실무 적용
- 웹 마이닝
- 판단을 수반하는 결정
- 이미지 스크리닝
- 전력 부하 예측
- 진단
- 마케팅과 판매 영업
- 기타 적용 사례
- 1.4 기계 학습과 통계학
- 1.5 검색 일반화
- 1.6 데이터 마이닝과 윤리
- 재식별 작업
- 개인 정보의 이용
- 더 광범위한 문제점
- 1.7 참고 문헌
- 1.1 데이터 마이닝과 기계 학습
- 2장 입력 데이터: 개념, 인스턴스 속성
- 2.1 개념이란?
- 2.2 예제란?
- 다른 종류의 예제 타입
- 2.3 속성이란?
- 2.4 입력 데이터 준비
- 데이터 수집
- ARFF 포맷
- 희소 데이터
- 속성 타입
- 누락된 속성 값
- 부정확한 속성 값
- 자신의 데이터를 알라
- 2.5 참고 문헌
- 3장 출력 데이터: 지식 표현
- 3.1 테이블
- 3.2 선형 모델
- 3.3 트리
- 3.4 규칙
- 분류 규칙
- 연관 규칙
- 예외를 갖는 규칙
- 더욱 자세하게 표현되는 규칙
- 3.5 인스턴스 기반의 표현
- 3.6 클러스터
- 3.7 참고 문헌
- 4장 알고리즘: 기본 마이닝 알고리즘
- 4.1 기본 규칙 추론
- 누락된 속성 값과 수치 속성
- 논의 사항
- 4.2 통계 모델링
- 누락된 속성 값과 수치 속성
- 단순 베이지안 이론을 통한 문서 분류
- 논의 사항
- 4.3 분할 정복 기법: 의사 결정 트리 구축
- 정보 계산
- 다양하게 전개되는 속성
- 논의 사항
- 4.4 알고리즘: 규칙 구성
- 규칙과 트리
- 단순 포괄 알고리즘
- 규칙과 의사 결정 리스트
- 4.5 연관 규칙 마이닝
- 아이템 집합
- 연관 규칙
- 효율적인 규칙 생성
- 논의 사항
- 4.6 선형 모델
- 수치 예측: 선형 회귀
- 선형 분류: 로지스틱 회귀
- 퍼셉트론을 사용한 선형 분류
- 필터링을 통한 선형 분류
- 4.7 인스턴스 기반 학습
- 거리 함수
- 효율적인 최근접 이웃 검색
- 논의 사항
- 4.8 군집화
- 반복적인 거리 기반 군집화 알고리즘
- 더욱 빠른 거리 계산
- 논의 사항
- 4.9 다중 인스턴스 학습
- 입력 값 축적
- 출력 데이터 축적
- 논의 사항
- 4.10 참고 문헌
- 4.11 웨카를 이용한 구현
- 4.1 기본 규칙 추론
- 5장 신뢰성: 학습 내용 평가
- 5.1 훈련과 검증
- 5.2 예측 성능
- 5.3 교차 검증
- 5.4 다른 추정자
- 단일 잔류 교차 검증
- 부트스트랩
- 5.5 데이터 마이닝 스킴 비교
- 5.6 확률 예측
- 이차 손실 함수
- 정보 손실 함수
- 논의 사항
- 5.7 비용 고려
- 비용에 민감한 분류 알고리즘
- 비용에 민감한 학습 알고리즘
- 향상도 차트
- ROC 곡선
- 재현-정확도 곡선
- 논의 사항
- 비용 곡선
- 5.8 수치 예측 결과 평가
- 5.9 최소 묘사 길이 원칙
- 5.10 군집화 작업에 MDL 원칙 적용
- 5.11 참고 문헌
- II부 고급 데이터 마이닝 알고리즘
- 6장 구현: 실질적인 기계 학습 스킴
- 6.1 의사 결정 트리
- 수치 속성
- 누락된 속성 값
- 가지치기
- 오차율 추정
- 의사 결정 트리 유도의 복잡성
- 트리부터 규칙까지
- C4.5: 선택과 옵션
- 비용-복잡도 가지치기
- 논의 사항
- 6.2 분류 규칙
- 검증 선택 기준
- 누락된 속성 값과 수치 타입의 속성 값
- 좋은 규칙 생성
- 전반적인 최적화 기법 사용
- 부분 의사 결정 트리로부터 규칙을 얻는 방법
- 예외를 갖는 규칙
- 논의 사항
- 6.3 연관 규칙
- FP-트리 구축
- 큰 아이템 집합 검색
- 논의 사항
- 6.4 확장된 선형 모델
- 최대 마진 초월 평면
- 비선형 클래스 경계
- Support Vector 회귀
- 커널 능형 회귀
- 커널 퍼셉트론
- 다중 퍼셉트론
- 역전파 알고리즘
- 방사 기저 함수 네트워크
- 확률적 기울기 하강
- 논의 사항
- 6.5 인스턴스 기반 학습
- 모범 예제의 수 줄이기
- 잡음 있는 모범 예제 가지치기
- 속성에 가중치 부여
- 모범 예제의 일반화
- 일반화된 모범 예제들의 거리 함수
- 일반 거리 함수
- 논의 사항
- 6.6 지역적 선형 모델을 통한 수치 예측
- 모델 트리
- 트리 구축
- 트리 가지치기
- 명목 속성
- 누락된 속성 값
- 모델 트리를 유도하는 의사코드
- 모델 트리로부터 유도된 규칙
- 국부 가중 선형 회귀 기법
- 논의 사항
- 6.7 베이지언 네트워크
- 예측 유도
- 베이지안 네트워크 학습
- 특화된 알고리즘
- 빠른 학습을 위한 데이터 구조
- 논의 사항
- 6.8 군집화
- 군집 수 선택
- 계층적 군집화
- 계층적 군집의 예제
- 점진적 군집화
- 확률 기반 군집화
- EM 알고리즘
- 확장된 혼합 모델
- 베이지안 군집화
- 논의 사항
- 6.9 반 감독 학습
- 분류를 위한 군집화
- 합동 훈련
- EM과 합동 훈련 알고리즘
- 논의 사항
- 6.10 다중 인스턴스 학습
- 단일 인스턴스 학습 변환
- 학습 알고리즘 개선
- 정교한 다중 인스턴스 기법
- 논의 사항
- 6.11 웨카 구현
- 6.1 의사 결정 트리
- 7장 데이터 변환
- 7.1 속성 선택
- 스킴과 독립적인 선택
- 속성 공간 검색
- 스킴에 특화된 선택
- 7.2 수치 속성 이산화
- 감독되지 않은 이산화 기법
- 엔트로피 기반 이산화 기법
- 기타 이산화 기법
- 엔트로피 기반 이산화 기법과 오류 기반 이산화 기법의 비교
- 이산화 속성을 수치 속성으로 변환
- 7.3 투영화
- 주성분 분석(PCA) 알고리즘
- 랜덤 투영 알고리즘
- 편 최소 제곱 회귀 알고리즘
- 텍스트를 속성 벡터로 변환
- 시계열
- 7.4 표본 추출
- 저장식 표본 추출
- 7.5 정화 알고리즘
- 의사 결정 트리 구조 개선
- 견고한 회귀법
- 비정상 검출
- 단일 클래스 학습
- 7.6 다중 클래스를 이진 클래스로 변환
- 간단한 알고리즘
- 오류 정정 출력 코드
- 중첩 이분법 앙상블 알고리즘
- 7.7 클래스 확률 교정
- 7.8 참고 문헌
- 7.9 웨카 구현
- 7.1 속성 선택
- 8장 앙상블 학습 알로리즘
- 8.1 다중 모델 조합
- 8.2 배깅
- 바이어스-분산 분해
- 비용과 연관된 배깅
- 8.3 무작위 추출
- 무작위 추출과 배깅
- 로테이션 포레스트 앙상블 학습 기법
- 8.4 부스팅 알고리즘
- 아다부스트
- 부스팅의 검증력
- 8.5 가산 회귀 분석
- 수치 예측
- 가산 로지스틱 회귀 분석
- 8.6 해석 가능한 앙상블
- 옵션 트리
- 로지스틱 모델 트리
- 8.7 스태킹
- 8.8 참고 문헌
- 8.9 웨카 구현
- 9장 계속되는 발전: 현재와 미래 적용 범위
- 9.1 데이터 마이닝의 적용
- 9.2 대용량 데이터 집합을 기반으로 한 학습 알고리즘
- 9.3 데이터 스트림 학습
- 9.4 전문 분야 지식의 통합
- 9.5 텍스트 마이닝
- 9.6 웹 마이닝
- 9.7 적대적인 상황
- 9.8 유비쿼터스 데이터 마이닝
- 9.9 참고 문헌
- III부 웨카 데이터 마이닝 워크벤치
- 10장 웨카 입문
- 10.1 웨카에 내장된 기능
- 10.2 웨카의 사용법
- 10.3 웨카의 기타 용도
- 10.4 웨카의 다운로드
- 11장 익스플로러 인터페이스
- 11.1 웨카의 시작
- 데이터 준비
- 익스플로러로 데이터 로딩
- 의사 결정 트리 구성
- 출력 결과 검토
- 다시 해보기
- 모델을 통한 작업
- 오류가 난 경우
- 11.2 익스플로러 탐험
- 파일 로딩과 필터링
- 학습 스킴 훈련과 검증
- 직접 만들어보기: 사용자 분류기
- 메타 학습기 사용
- 군집화와 연관 규칙
- 속성 선택
- 시각화
- 11.3 필터링 알고리즘
- 비감독 속성 필터
- 비감독 인스턴스 필터
- 감독 필터
- 11.4 학습 알고리즘
- 베이지언 분류기
- 트리
- 규칙
- 함수
- 신경망 네트워크
- Lazy 분류기
- 다중 인스턴스 분류기
- 기타 분류기
- 11.5 메타 학습 알고리즘
- 배깅과 랜덤화
- 부스팅
- 분류기 조합
- 비용 민감 학습
- 최적화 성능
- 다양한 작업을 처리하기 위한 분류기 목표 재설정
- 11.6 군집 알고리즘
- 11.7 연관 규칙 학습기
- 11.8 속성 선택
- 속성 종속 집합 평가기
- 단일 속성 평가기
- 검색 기법
- 11.1 웨카의 시작
- 12장 지식 플로우 인터페이스
- 12.1 시작하기
- 12.2 컴포넌트
- 12.3 컴포넌트 설정과 연동
- 12.4 점증적 학습
- 13장 Experimenter
- 13.1 시작하기
- 실험 수행
- 결과 분석
- 13.2 간단 모드 설정
- 13.3 고급 모드 설정
- 13.4 Analyze 패널
- 13.5 다중 머신을 대상으로 하는 분산 처리 기능
- 13.1 시작하기
- 14장 커맨드라인 인터페이스
- 14.1 시작하기
- 14.2 웨카의 구조
- 클래스, 인스턴스, 패키지
- weka.core 패키지
- waka.classifiers 패키지
- 기타 패키지
- Javadoc 인덱스
- 14.3 커맨드라인 옵션
- 일반 옵션
- 특수 옵션
- 15장 내장된 기계 학습 기능
- 15.1 단순 데이터 마이닝 응용 사례
- MessaeClassifer()
- updateData()
- classifyMessage()
- 15.1 단순 데이터 마이닝 응용 사례
- 16장 새로운 학습 스킴 개발
- 16.1 예제 분류기
- buildClassfier()
- makeTree()
- computeInfoGain()
- classifyInstance()
- toSource()
- main()
- 16.2 분류기를 구현할 때 지켜야 할 규약
- 메모리 허용 용량
- 메모리 허용 용량
- 16.1 예제 분류기
- 17장 웨카 익스플로러를 위한 튜토리얼 예제
- 17.1 익스플로러 인터페이스 시작
- 데이터 로딩
- 데이터 집합 편집기
- 필터 적용
- Visualize 패널
- Classify 패널
- 출력 결과 분석
- 검증 기법 설정
- 분류 오차 시각화
- 17.2 최근접 이웃 학습과 의사 결정 트리
- 유리 데이터 집합
- 속성 선택
- 클래스 잡음과 최근접 이웃 학습
- 훈련 데이터의 양 조절
- 반복적 결정 트리 구성
- 17.3 분류 경계
- 1R 시각화
- 최근접 이웃 학습 시각화
- 단순 베이지언 분류 시각화
- 결정 트리와 규칙 집합 시각화
- 데이터 섞기
- 17.4 전처리와 매개변수 튜닝
- 이산화
- 이산화에 대한 추가 사항
- 자동 속성 선택
- 자동 속성 선택에 관한 추가 사항
- 자동 매개변수 튜닝
- 17.5 문서 분류
- 문자열 속성을 갖는 데이터
- 실제 문서의 분류
- StringToWordVector 필터 연구
- 17.6 연관 규칙의 마이닝
- 연관 규칙 마이닝
- 실제 데이터 마이닝
- 장바구니 분석
- 17.1 익스플로러 인터페이스 시작
- 참고 문헌