일래스틱서치를 활용한 자연어 처리와 정보검색 세트
- 원서명Elasticsearch in Action, Taming Text: How to Find, Organize, and Manipulate It
- 지은이라두 게오르게, 매튜 리 힌만, 로이 루소, 그랜트 잉거솔, 토마스 모튼, 드류 패리스
- 옮긴이이재익, 최중연, 이승진, 한우람, 임혜연
- ISBN : 9788960779396
- 78,000원
- 2016년 12월 08일 펴냄 (절판)
- 페이퍼백 | 1,148쪽 | 188*235mm
- 시리즈 : 오픈소스 프로그래밍
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
세트 구성: 전2권
1) ElasticSearch in Action
2) 자연어 텍스트 처리를 통한 검색 시스템 구축
『ElasticSearch in Action』 소개
일래스틱서치는 루씬 기반의 실시간 검색을 제공하는 분산 검색엔진이다. 검색 기능뿐만 아니라 강력한 집계 기능을 제공해 실시간 분석엔진으로도 활용 가능하며, 데이터를 저장할 수 있어 NoSQL 저장소로도 활용할 수 있다. 넷플릭스(Netflix), 깃허브(Github), 위키피디아(Wikipedia) 등 잘 알려진 사이트에서도 검색, 로그, 분석 등 다양한 용도로 클러스터를 운영하고 있다.
이 책은 색인, 검색 쿼리, 제안 쿼리, 운영 등 일래스틱서치의 기능을 설치부터 운영까지 예제와 함께 설명하고 있어, 일래스틱서치를 처음 시작하는 개발자, 이미 사용하고 있지만 고급 기능들의 활용법에 대해 궁금한 개발자, 설치와 설정 및 운영 노하우가 필요한 인프라 운영자까지 독자들에게 유용한 정보를 제공하고 있다. 일래스틱서치를 사용하는 개발자, 운영자, 관리자 모두에게 권하고 싶다.
이 책에서 다루는 내용
■ 멋진 검색 애플리케이션이란
■ 확장성 있는 검색 솔루션 개발
■ 어떤 언어로든 사용 가능한 일래스틱서치
■ 설정과 튜닝
이 책의 대상 독자
검색 지향 애플리케이션을 개발하고 관리하는 개발자 및 관리자를 위한 완벽한 책이다.
『자연어 텍스트 처리를 통한 검색 시스템 구축』 소개
현대 웹 서비스에서 검색은 빼놓을 수 없는 기능이다. 사용자는 검색에 익숙하고, 검색 결과의 앞부분에서 곧바로 자신이 원하는 링크를 찾길 바란다. 사용자의 기준을 만족시키기는 어렵지만, 다행히 잘 만들어진 오픈 소스가 이미 존재한다. 이 책은 검색과 자연어 처리에 대한 기초적인 지식을 소개하고, 아파치 솔라, OpenNLP 등의 오픈 소스를 이용해서 실제로 기능을 사용하는 법을 알려준다. 이 책은 검색이나 자연어 처리를 서비스의 기능으로 제공해야 하는 개발자에게 좋은 길잡이가 되어줄 것이다.
이 책에서 다루는 내용
삶에는 정보가 너무나 많고, 우리는 거기에 압도당해 있다. 다행히도 영리한 개발자에게 많이 필요한 구명줄을 던져줄 수 있는 구조화되지 않은 텍스트를 관리하기 위한 실용적인 도구와 기법들이 있다. 이 책에서 그 도구와 방법들을 찾아볼 수 있다. 이 책은 실제 애플리케이션에서 텍스트를 다루는 방법에 대한 실용적인 예제 중심의 안내서다. 전문(full-text) 검색, 고유명사 인식, 클러스터링, 태그 부착, 정보 추출, 요약 같은 유용한 기법을 소개한다. 독자는 실제 사용 사례의 기반 지식을 체계적으로 받아들이면서 다양한 사례를 탐구할 수 있다.
■ 텍스트 길들이기 기법
■ 솔라나 머하웃 등의 라이브러리
■ 텍스트 처리 애플리케이션을 구축하는 방법
이 책은 특수 용어를 피하고, 주제를 분명하고 간결하게 보여줘서 통계나 자연 언어 처리에 대한 배경 지식 없이도 이해할 수 있다. 예제는 자바로 돼 있지만, 개념은 어떤 언어에도 적용할 수 있다.
이 책의 대상 독자
이 책이 당신을 위한 것일까? 어쩌면 그럴지도 모른다. 대상 독자는 검색, 자연언어 처리, 기계학습 배경 지식이 (거의) 없는 소프트웨어 현업 종사자다. 사실 이 책은 많은 회사에서 본 것과 같이 새 애플리케이션이나 기존 애플리케이션에 검색과 기타 기능을 추가하는 과제가 주어진 개발 팀이면서 극히 적은 개발자만 텍스트 작업에 대한 경험이 있거나 아예 없는 작업 환경에 있는 현업 종사자들을 목표로 한다. 그들에게는 불필요한 지식 때문에 꼼짝 못하는 일 없이 개념을 이해하는 데 도움이 될 만한 입문서가 필요하다.
많은 경우 위키피디아나 중대한 학술 논문처럼 쉽게 접근할 수 있는 자료에 대한 참고 문헌도 제공한다. 그렇게 해서 독자가 원한다면 더 상세한 내용을 탐구할 수 있는 도약대를 제공한다. 게다가 대다수 오픈소스 도구와 예제가 자바로 돼 있지만, 개념과 아이디어는 수많은 다른 프로그래밍 언어로도 옮길 수 있기 때문에 루비 사용자(Rubyist), 파이썬 사용자(Pythonista), 기타 언어 사용자들도 이 책을 편하게 느낄 수 있다.
이 책은 학생들이 교실과 더 학술 지향적인 책에서 배운 개념을 구현할 필요가 있을 때 도움이 될 것이지만, 이 시스템에 연관된 수학에 대한 설명이나 주제에 대한 학술적인 엄격함을 구하는 사람을 위한 책은 결코 아니다.
경험자들도 이 책 곳곳에서 책이 설명하는 오픈소스 패키지를 사용하는 데 대한 흥미로운 정보를 찾을 수도 있겠지만, 이 책은 다수의 텍스트 기반 애플리케이션을 구축한 적이 있는 경험 있는 현장 실무자를 대상으로 하지는 않는다. 그렇지만 한 명 이상의 경험 있는 실무자들은 이 책이 이 분야에 신참자인 팀 구성원들에게 텍스트 기반 애플리케이션을 작성하는 데 관련된 아이디어와 코드에 대해 속도를 높이게 해 주는 훌륭한 방식이라고 우리에게 말해줬다. 궁극적으로 이 책이 현대 프로그래머를 위한 최신 안내서이면서, 처음 텍스트 기반 애플리케이션 프로그래밍 경력을 시작했을 때 우리가 바라던 바로 그 안내서이기를 바란다.
목차
목차
- 『Elasticsearch in Action』
- 1부
- 1장. 일래스틱서치 소개
- 2장. 기능 들여다보기
- 3장. 데이터 색인, 변경, 삭제
- 4장. 데이터 검색
- 5장. 데이터 분석
- 6장. 유사도 검색
- 7장. 집계로 데이터 살펴보기
- 2부
- 8장. 도큐먼트 간 관계
- 9장. 스케일 아웃
- 10장. 성능 극대화
- 11장. 클러스터 관리
- 부록 A. 지리 공간 데이터로 작업하기
- 부록 B. 플러그인
- 부록 C. 하이라이팅
- 부록 D. 일래스틱서치 모니터링 플러그인
- 부록 E. 퍼컬레이터로 검색 뒤집기
- 부록 F. 자동완성과 검색어 제안 기능을 위한 제안자 사용하기
- 『자연어 텍스트 처리를 통한 검색 시스템 구축』
- 1장. 텍스트 길들이기 시작
- 2장. 텍스트 길들이기 기초
- 3장. 검색
- 4장. 유사 문자열 일치
- 5장. 인명, 지명. 사물 식별
- 6장. 텍스트 클러스터링
- 7장. 분류, 카테고리 분류, 태깅
- 8장. 질의응답 시스템 예제 구축