웹을 위한 머신 러닝 [머신 러닝을 활용한 영화 추천 및 감성 분석 웹 애플리케이션 개발]
- 원서명Machine Learning for the Web (ISBN 9781785886607)
- 지은이안드레아 아이소니(Andrea Isoni)
- 옮긴이윤성진
- ISBN : 9788960779877
- 30,000원
- 2017년 03월 22일 펴냄 (절판)
- 페이퍼백 | 328쪽 | 188*235mm
- 시리즈 : acorn+PACKT
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
요약
머신 러닝과 함께 웹 마이닝, 자연어 처리 기법을 활용해 영화를 추천하고 영화 리뷰에 대한 감성을 분석하는 웹 애플리케이션을 직접 구현해볼 수 있도록 관련 이론과 예시를 실용적으로 제시한다. 실습을 통해 머신 러닝을 학습하고 이를 웹 애플리케이션에 적용하는 데 관심 있는 입문자에게 이 책은 좋은 길라잡이가 될 것이다.
추천의 글
TV나 신문과 같이 추적되지 않는 미디어를 통한 언론 홍보의 시대는 가고 있다. 요즘 마케터들은 누가 어떤 제품을 클릭하고 구매했는지 관련 있는 정보를 모두 파악해 자원 효율을 최대하기 위해 생산, 지출, 예산 배정을 최적화하고자 한다. 이를 통해 전례 없는 수준의 개인화가 이뤄지게 됐고, 이를 적절히 사용한다면 고객들은 사회 인구 통계학적 집단에 소속된 존재가 아닌, 한 개인으로서 존재의 가치를 느낄 수 있을 것이다.
정말 흥미롭기도 하고 도전적이기도 한데, 분명한 것은 다음 10년 동안 비구조화된 데이터(unstructured data)를 이해하고 이를 기반으로 탄력적인 의사 결정을 하는 개인이나 기업이 승자가 되리라는 것이다. 오직 머신 러닝만이 그러한 위업을 달성할 수 있는 방법이라고 본다.
이 책은 머신 러닝의 세계로 들어갈 수 있는 계단이 될 것이다. 머신 러닝 기법을 활용한 몇몇 애플리케이션을 볼 수 있는, 마치 토끼 굴을 살짝 들여다보는 느낌으로 이 책을 읽을 수 있을 것이다. 이 책에서 소개될 내용은 대부분 머신 러닝을 통해 맞춤형 웹사이트를 구축하고 고객 개인에게 최적화된 서비스를 제공하는 웹을 개발하는 데 필요한 기법이다.
미래에 경쟁력 있는 경력을 원하거나, 앞으로 데이터 관련 업무를 성공적으로 수행하기 위해 머신 러닝 기술에 대한 전문성을 키우려고 한다면 이 책을 반드시 읽기 바란다.
- 데이비드 서블린(Davide Cervellin, @ingdave)/ 이베이 유럽 연합, 분석 책임자(ebay EU, Head of Analytics)
이 책에서 다루는 내용
■ 머신 러닝 기본 개념과 전문 용어
■ 가장 유용한 군집화와 분류 기법, 파이썬 구현 예제
■ 웹사이트에서 데이터 마이닝을 하기 위한 툴과 기법
■ 장고 프레임워크의 핵심 개념
■ 장고 웹 애플리케이션 구현을 위한 기반 지식
■ 장고 영화 추천 시스템, 영화 리뷰 감성 분석 애플리케이션의 성공적 구현과 배포
이 책의 대상 독자
머신 러닝에 대해 관심이 있거나 데이터 과학 분야에서 경력을 쌓고자 한다면 약간의 파이썬 프로그래밍 능력과 통계 지식을 갖춘 사람은 누구든지 도움이 될 것이다.
이 책의 구성
1장, ‘파이썬 기반의 실용적 머신 러닝 소개’에서는 머신 러닝의 주요 개념과 데이터 과학 전문가들이 데이터를 다룰 때 사용하는 파이썬 라이브러리에 대해 설명한다.
2장, ‘머신 러닝 기법: 자율 학습’에서는 데이터 집합을 군집화하고 데이터로부터 주요 특징을 추출할 때 사용하는 알고리즘을 설명한다.
3장, ‘머신 러닝 기법: 지도 학습’에서는 데이터 집합의 레이블을 예측하는 데 가장 많이 사용하는 지도 알고리즘을 설명한다.
4장, ‘웹 마이닝 기법’에서는 웹 데이터로부터 정보를 구성, 분석, 추출하는 주요 기법에 대해 설명한다.
5장, ‘추천 시스템’에서는 비즈니스 환경에서 가장 유명한 추천 시스템(recommendation system)에 대해 자세히 설명한다.
6장, ‘장고 시작’에서는 장고의 특징과 웹 애플리케이션 개발을 위한 특성을 소개한다.
7장, ‘영화 추천시스템 웹 애플리케이션’에서는 5장과 6장에서 구현한 머신 러닝 개념을 실습하기 위해 최종 웹 사용자에게 영화를 추천하는 예제를 살펴본다.
8장, ‘영화 리뷰에 대한 감성 분석 애플리케이션’에서는 3장, 4장, 5장에서 설명했던 지식을 활용해 온라인 영화 리뷰에 대한 감성 분석과 중요도 분석을 하는 예제를 살펴본다.
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
목차
목차
- 1장. 파이썬 기반의 실용적 머신 러닝 소개
- 머신 러닝 기본 개념
- 머신 러닝 예제
- 모듈(라이브러리) 설치와 가져오기
- 머신 러닝 예제
- 데이터의 준비, 조작, 시각화: NumPy, pandas, matplotlib 튜토리얼
- NumPy 사용
- 배열 생성
- 배열 조작
- 배열 연산
- 선행 대수 연산
- 통계 및 수학 함수
- pandas 모듈 이해
- 데이터 탐색
- 데이터 조작
- Matplotlib 튜토리얼
- NumPy 사용
- 이 책에서 사용된 과학 라이브러리
- 머신 러닝을 사용할 때
- 요약
- 머신 러닝 기본 개념
- 2장. 머신 러닝 기법: 자율 학습
- 군집화 알고리즘
- 확률 분포 방식
- EM 알고리즘
- 가우시안 혼합
- 중심 방식
- k 평균
- 밀도 방식
- 평균 이동
- 계층 방식
- 군집화 방법의 훈련과 비교
- 확률 분포 방식
- 차원 축소
- 주성분 분석
- PCA 예제
- 주성분 분석
- 특이값 분해
- 요약
- 군집화 알고리즘
- 3장. 머신 러닝 기법: 지도 학습
- 모델 오류 평가
- 일반화 선형 모델
- 선형 회귀
- 리지 회귀
- 라소 회귀
- 로지스틱 회귀
- 일반화 선형 모델에 대한 확률적 해석
- k 근접 이웃법(KNN)
- 나이브 베이즈
- 다항 분포 나이브 베이즈
- 가우시안 나이브 베이즈
- 의사 결정 트리
- 서포트 벡터 머신
- 커널 트릭
- 방법 간의 비교
- 회귀 분석 문제
- 분류 문제
- 히든 마르코프 모델
- 파이썬 예제
- 요약
- 4장. 웹 마이닝 기법
- 웹 구조 마이닝
- 웹 크롤러(스파이더)
- 인덱서
- 랭킹: 페이지 랭크 알고리즘
- 웹 콘텐츠 마이닝
- 파싱
- 자연어 처리
- 정보 검색 모델
- TF-IDF
- 잠재 의미 분석(LSA)
- Doc2Vec(word2vec)
- Word2vec: CBOW와 스킵그램 아키텍처
- CBOW 모델의 수학적 설명
- Doc2Vec 확장
- 영화 리뷰 쿼리 예제
- 정보 검색 모델
- 사후 처리 정보
- 잠재 디리클레 할당
- 모델
- 예제
- 오피니언 마이닝(감성 분석)
- 잠재 디리클레 할당
- 요약
- 웹 구조 마이닝
- 5장. 추천 시스템
- 유틸리티 행렬
- 유사도 척도
- 협업 필터링 방법
- 메모리 기반 협업 필터링
- 사용자 기반 협업 필터링
- 아이템 기반 협업 필터링
- 가장 단순한 아이템 기반 협업 필터링: 슬롭원
- 모델 기반 협업 필터링
- 교대 최소 제곱법
- 확률 내리막 경사법
- 비음수 행렬 분해
- 특이값 분해
- 메모리 기반 협업 필터링
- CBF 방법
- 아이템 특징 평균 방법
- 정규화된 선형 회귀 분석 방법
- 추천 시스템 학습을 위한 연관 규칙
- 로그 우도비 추천 시스템 방법
- 하이브리드 추천 시스템
- 추천 시스템 평가
- 평균 제곱근 오차 평가
- 분류 척도
- 요약
- 6장. 장고 시작
- HTTP: GET, POST 메소드 기초
- 설치와 서버 생성
- 설정
- 앱 작성: 주요 기능
- 모델
- HTML 웹 페이지 URL과 뷰
- HTML 페이지
- URL 선언과 뷰
- 어드민
- 셸 인터페이스
- 명령
- RESTful 애플리케이션 프로그래밍 인터페이스(API)
- 요약
- HTTP: GET, POST 메소드 기초
- 7장. 영화 추천 시스템 웹 애플리케이션
- 애플리케이션 설정
- 모델
- 명령
- 사용자 등록 및 로그인/로그아웃 구현
- 정보 검색 시스템(영화 쿼리)
- 평점 시스템
- 추천 시스템
- 어드민 인터페이스와 API
- 요약
- 8장. 영화 리뷰에 대한 감성 분석 애플리케이션
- 애플리케이션 사용법 개요
- 검색 엔진 선택과 애플리케이션 코드
- Scrapy 설정과 애플리케이션 코드
- Scrapy 설정
- 스크랩퍼
- 파이프라인
- 크롤러
- 장고 모델
- 장고와 Scrapy 통합
- 명령(감성 분석 모델과 쿼리 삭제)
- 감성 분석 모델 로더
- 실행 완료 쿼리 삭제
- 감성 리뷰 분석기: 장고 뷰와 HTML
- 페이지 랭크: 장고 뷰와 알고리즘 코드
- 어드민과 API
- 요약
도서 오류 신고
정오표
정오표
[p.50 : 아래서 8 행]
배열고,
->
배열이고
[p. 52, 아래서 10행]
->