아파치 Mahout 프로그래밍 [빅데이터 분석을 위한]
- 원서명Apache Mahout Cookbook (ISBN 9781849518024)
- 지은이피에로 지아코멜리
- 옮긴이배경숙
- ISBN : 9788960776111
- 25,000원
- 2014년 09월 30일 펴냄 (절판)
- 페이퍼백 | 284쪽 | 188*235mm
- 시리즈 : acorn+PACKT
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
요약
아파치 머하웃(Apache Mahout)은 대용량 데이터를 처리하는 기계 학습용 라이브러리이다. 이 책은 기계학습이나 머하웃에 대한 사전 지식이 없는 독자라도 쉽게 따라 할 수 있도록 실제 사례와 다양한 예제를 제공한다. 아파치 머하웃을 효율적이고 빠르게 도입하려는 개발자에게 좋은 안내서가 될 것이다.
이 책에서 다루는 내용
■ 머하웃을 위해 넷빈즈(NetBeans)와 메이븐(Maven)으로 처음부터 전체 개발 환경을 구성
■ 더 나은 성능을 위한 시퀀스 파일 형식 처리
■ 스쿱(Sqoop)을 이용한 쿼리와 RDBMS 시스템에 결과 저장
■ 로지스틱 회귀 분석으로 미래 예측
■ 나이브 베이즈(Naïve Bayes) 알고리즘으로 이해해보는 텍스트 마이닝
■ 클러스터의 생성과 이해
■ 여러 가지 클러스터링 알고리즘을 평가하기 위한 머하웃 커스터마이징
■ 실제 데이터 마이닝 문제를 해결하기 위한 맵리듀스(MapReduce) 접근 방법
이 책의 대상 독자
머하웃에 관심이 있고 빠른 입문을 원하는 개발자를 위한 책이다. 마하웃에 대한 사전지식이 필요 없고, 소개된 다양한 예제가 숙련된 개발자나 시스템 관리자에게 많은 도움이 될 것이다.
이 책의 구성
1장, ‘머하웃은 그렇게 어렵지 않다!’: 한 대의 머신에서 바로 사용할 수 있는 개발환경 구성에 대해 설명한다. 1장에서는 하둡이 설치되어 있는지, 포함될 jar 파일들이 준비되어 있는지 등 데이터 마이닝 작업과 관련된 환경에 대한 모든 것을 독자가 아무런 사전지식 없이도 명확히 이해할 수 있게 도울 것이다.
2장, ‘시퀀스 파일 사용하기: 언제 그리고 왜?’: 독자에게 시퀀스 파일을 소개한다. 시퀀스 파일은 하둡과 머하웃을 사용할 때 중요한 개념이다. 대개 머하웃은 일반적으로 사용하는 데이터 세트를 바로 처리할 수 없으므로, 알고리즘을 코딩하기 전에 이러한 특정 파일을 처리하는 방법을 설명한다.
3장, ‘외부 데이터 소스와 머하웃 통합’: 코드뿐만 아니라 커맨드라인 도구를 사용해 RDBMS로부터 데이터를 읽고 쓰는 예제를 자세히 설명한다.
4장, ‘머하웃의 나이브 베이즈 분류기 구현’: 텍스트 문서를 분류하는 데 나이브 베이즈(Naïve Bayes) 분류기를 사용하는 방법을 깊이 있게 설명한다. 문서 내의 단어를 빈도 벡터로 변환하는 방법도 상세히 설명한다. 4장에서는 자바 코드에서 나이브 베이즈 분류기와 보완 나이브 베이즈 분류기의 사용도 함께 다룬다.
5장, ‘머하웃으로 주식 시장 예측하기’: 기본적으로 로지스틱 회귀와 랜덤 포레스트(Random Forest)라는 두 가지 알고리즘을 다룬다. 두 알고리즘은 일반적인 데이터 세트를 분석해 미래 가치를 예측할 수 있는 가능성을 보여준다.
6장, ‘머하웃의 캐노피 클러스터링’: 머하웃 프레임워크 내에서 가장 많이 사용되는 알고리즘인 빅데이터 클러스터 분석 및 분류 작업을 설명하기 시작한다. 6장에서는 실제 사례를 들어 일반적인 중심 주변의 데이터를 집계하기 위한 캐노피 클러스터링의 사용법을 설명한다.
7장, ‘머하웃의 스펙트럼 클러스터링’: 머하웃에서 사용할 수 있는 클러스터링 알고리즘의 분석이 계속된다. 7장에서는 그래프의 형태로 서로 연결되어 정보를 분류하는 매우 효율적인 방법인 스펙트럼 클러스터링의 사용법을 설명한다.
8장, ‘K평균 클러스터링’: 맵리듀스 방법과 순차적 방법의 K평균 클러스터링, 두가지를 설명하고 주제별로 텍스트 문서를 분류한다. 자바 코드뿐만 아니라 커맨드라인에서 이 알고리즘을 실행하는 방법도 설명한다.
9장, ‘머하웃의 소프트 컴퓨팅’: 빈발 패턴 마이닝이라는 옛 문헌 알고리즘을 설명한다. 이 알고리즘은 고객이 이전에 구매한 제품으로부터 함께 판매해야 하는 항목을 예상할 수 있다. 또한 텍스트 분류를 위한 잠재 디리클레 알고리즘(Latent Dirichlet algorithm)도 설명한다.
10장, ‘머하웃의 유전 알고리즘 구현’: 외판원 문제(TSP, Traveling Salesman Problem)를 해결하고 규칙을 추출하기 위해 머하웃의 유전 알고리즘을 설명한다. 이 알고리즘들을 사용하는 다른 버전의 머하웃 사용법도 살펴볼 것이다.
목차
목차
- 1장 머하웃은 그렇게 어렵지 않다!
- 소개
- 자바와 하둡 설치
- 메이븐과 넷빈즈 개발 환경 설정
- 기본 추천 시스템 코딩
- 2장 시퀀스 파일 사용하기: 언제 그리고 왜?
- 소개
- 커맨드라인에서 시퀀스 파일 만들기
- 코드에서 시퀀스 파일 생성하기
- 코드에서 시퀀스 파일 읽기
- 3장 외부 데이터 소스와 머하웃 통합
- 소개
- 외부 데이터 소스를 하둡 분산 파일 시스템(HDFS)으로 임포트하기
- HDFS에서 RDBMS로 데이터 익스포트하기
- RDBMS를 다루는 스쿱 잡 생성하기
- 스쿱 API를 사용해 데이터 임포트하기
- 4장 머하웃의 나이브 베이즈 분류기 구현
- 소개
- 머하웃 문서 분류기를 이용한 간단한 이용 사례
- 코드에서 나이브 베이즈 분류기 사용
- 커맨드라인에서 보완 나이브 베이즈 사용
- 보완 나이브 베이즈 분류기 코딩
- 5장 머하웃으로 주식 시장 예측하기
- 소개
- 로지스틱 회귀를 위한 데이터 준비
- 로지스틱 회귀를 이용한 GOOG 움직임 예측
- 자바 코드에서 적응적 로지스틱 회귀 사용
- 대용량 데이터 세트에 로지스틱 회귀 사용
- 랜덤 포레스트를 사용해 시장의 움직임 예측
- 6장 머하웃의 캐노피 클러스터링
- 소개
- 커맨드라인 기반 캐노피 클러스터링
- 파라미터를 사용한 커맨드라인 기반 캐노피 클러스터링
- 자바 코드에서 캐노피 클러스터링 사용
- 사용자 정의 클러스터링 거리 함수 사용
- 7장 머하웃의 스펙트럼 클러스터링
- 소개
- 커맨드라인에서 EigenCut 사용
- 자바 코드에서 기본 EigenCut 사용
- 데이터에서 유사도 행렬 생성
- 영상 분할에 스펙트럼 클러스터링 응용
- 8장 K평균 클러스터링
- 소개
- 자바 코드에서 K평균 클러스터링 사용
- K평균 클러스터링을 이용한 교통사고 클러스터링
- 맵리듀스를 이용한 K평균 클러스터링
- 커맨드라인에서 K평균 클러스터링 사용
- 9장 머하웃의 소프트 컴퓨팅
- 소개
- 머하웃의 빈발 패턴 마이닝
- 빈발 패턴 마이닝을 위한 지표 생성
- 자바 코드에서 빈발 패턴 마이닝 사용
- 주제 생성을 위한 LDA 사용
- 10장 머하웃의 유전 알고리즘 구현
- 소개
- GA 사용을 위한 머하웃 설정
- 그래프에서 유전 알고리즘 사용
- 자바 코드에서 유전 알고리즘 사용