Top

일래스틱서치를 활용한 자연어 처리와 정보검색 세트

  • 원서명Elasticsearch in Action, Taming Text: How to Find, Organize, and Manipulate It
  • 지은이라두 게오르게, 매튜 리 힌만, 로이 루소, 그랜트 잉거솔, 토마스 모튼, 드류 패리스
  • 옮긴이이재익, 최중연, 이승진, 한우람, 임혜연
  • ISBN : 9788960779396
  • 78,000원
  • 2016년 12월 08일 펴냄
  • 페이퍼백 | 1,148쪽 | 188*235mm
  • 시리즈 : 오픈소스 프로그래밍

책 소개

세트 구성: 전2권

1) ElasticSearch in Action
2) 자연어 텍스트 처리를 통한 검색 시스템 구축

『ElasticSearch in Action』 소개

일래스틱서치는 루씬 기반의 실시간 검색을 제공하는 분산 검색엔진이다. 검색 기능뿐만 아니라 강력한 집계 기능을 제공해 실시간 분석엔진으로도 활용 가능하며, 데이터를 저장할 수 있어 NoSQL 저장소로도 활용할 수 있다. 넷플릭스(Netflix), 깃허브(Github), 위키피디아(Wikipedia) 등 잘 알려진 사이트에서도 검색, 로그, 분석 등 다양한 용도로 클러스터를 운영하고 있다.
이 책은 색인, 검색 쿼리, 제안 쿼리, 운영 등 일래스틱서치의 기능을 설치부터 운영까지 예제와 함께 설명하고 있어, 일래스틱서치를 처음 시작하는 개발자, 이미 사용하고 있지만 고급 기능들의 활용법에 대해 궁금한 개발자, 설치와 설정 및 운영 노하우가 필요한 인프라 운영자까지 독자들에게 유용한 정보를 제공하고 있다. 일래스틱서치를 사용하는 개발자, 운영자, 관리자 모두에게 권하고 싶다.

이 책에서 다루는 내용

■ 멋진 검색 애플리케이션이란
■ 확장성 있는 검색 솔루션 개발
■ 어떤 언어로든 사용 가능한 일래스틱서치
■ 설정과 튜닝

이 책의 대상 독자

검색 지향 애플리케이션을 개발하고 관리하는 개발자 및 관리자를 위한 완벽한 책이다.

『자연어 텍스트 처리를 통한 검색 시스템 구축』 소개

현대 웹 서비스에서 검색은 빼놓을 수 없는 기능이다. 사용자는 검색에 익숙하고, 검색 결과의 앞부분에서 곧바로 자신이 원하는 링크를 찾길 바란다. 사용자의 기준을 만족시키기는 어렵지만, 다행히 잘 만들어진 오픈 소스가 이미 존재한다. 이 책은 검색과 자연어 처리에 대한 기초적인 지식을 소개하고, 아파치 솔라, OpenNLP 등의 오픈 소스를 이용해서 실제로 기능을 사용하는 법을 알려준다. 이 책은 검색이나 자연어 처리를 서비스의 기능으로 제공해야 하는 개발자에게 좋은 길잡이가 되어줄 것이다.

이 책에서 다루는 내용

삶에는 정보가 너무나 많고, 우리는 거기에 압도당해 있다. 다행히도 영리한 개발자에게 많이 필요한 구명줄을 던져줄 수 있는 구조화되지 않은 텍스트를 관리하기 위한 실용적인 도구와 기법들이 있다. 이 책에서 그 도구와 방법들을 찾아볼 수 있다. 이 책은 실제 애플리케이션에서 텍스트를 다루는 방법에 대한 실용적인 예제 중심의 안내서다. 전문(full-text) 검색, 고유명사 인식, 클러스터링, 태그 부착, 정보 추출, 요약 같은 유용한 기법을 소개한다. 독자는 실제 사용 사례의 기반 지식을 체계적으로 받아들이면서 다양한 사례를 탐구할 수 있다.

■ 텍스트 길들이기 기법
■ 솔라나 머하웃 등의 라이브러리
■ 텍스트 처리 애플리케이션을 구축하는 방법

이 책은 특수 용어를 피하고, 주제를 분명하고 간결하게 보여줘서 통계나 자연 언어 처리에 대한 배경 지식 없이도 이해할 수 있다. 예제는 자바로 돼 있지만, 개념은 어떤 언어에도 적용할 수 있다.

이 책의 대상 독자

이 책이 당신을 위한 것일까? 어쩌면 그럴지도 모른다. 대상 독자는 검색, 자연언어 처리, 기계학습 배경 지식이 (거의) 없는 소프트웨어 현업 종사자다. 사실 이 책은 많은 회사에서 본 것과 같이 새 애플리케이션이나 기존 애플리케이션에 검색과 기타 기능을 추가하는 과제가 주어진 개발 팀이면서 극히 적은 개발자만 텍스트 작업에 대한 경험이 있거나 아예 없는 작업 환경에 있는 현업 종사자들을 목표로 한다. 그들에게는 불필요한 지식 때문에 꼼짝 못하는 일 없이 개념을 이해하는 데 도움이 될 만한 입문서가 필요하다.
많은 경우 위키피디아나 중대한 학술 논문처럼 쉽게 접근할 수 있는 자료에 대한 참고 문헌도 제공한다. 그렇게 해서 독자가 원한다면 더 상세한 내용을 탐구할 수 있는 도약대를 제공한다. 게다가 대다수 오픈소스 도구와 예제가 자바로 돼 있지만, 개념과 아이디어는 수많은 다른 프로그래밍 언어로도 옮길 수 있기 때문에 루비 사용자(Rubyist), 파이썬 사용자(Pythonista), 기타 언어 사용자들도 이 책을 편하게 느낄 수 있다. 이 책은 학생들이 교실과 더 학술 지향적인 책에서 배운 개념을 구현할 필요가 있을 때 도움이 될 것이지만, 이 시스템에 연관된 수학에 대한 설명이나 주제에 대한 학술적인 엄격함을 구하는 사람을 위한 책은 결코 아니다.
경험자들도 이 책 곳곳에서 책이 설명하는 오픈소스 패키지를 사용하는 데 대한 흥미로운 정보를 찾을 수도 있겠지만, 이 책은 다수의 텍스트 기반 애플리케이션을 구축한 적이 있는 경험 있는 현장 실무자를 대상으로 하지는 않는다. 그렇지만 한 명 이상의 경험 있는 실무자들은 이 책이 이 분야에 신참자인 팀 구성원들에게 텍스트 기반 애플리케이션을 작성하는 데 관련된 아이디어와 코드에 대해 속도를 높이게 해 주는 훌륭한 방식이라고 우리에게 말해줬다. 궁극적으로 이 책이 현대 프로그래머를 위한 최신 안내서이면서, 처음 텍스트 기반 애플리케이션 프로그래밍 경력을 시작했을 때 우리가 바라던 바로 그 안내서이기를 바란다.

저자/역자 소개

저자 소개

라두 게오르게(Radu Gheorghe)

풀타임으로 일래스틱 기반 솔루션에 집중하는 검색 컨설턴트이자 소프트웨어 엔지니어다.

매튜 리 힌만(Matthew Lee Hinman)

페타바이트의 데이터를 색인하고 검색하기 위해 일래스틱서치를 사용하는 높은 가용성을 가진 클라우드 기반 시스템을 개발한다.

로이 루소(Roy Russo)

포춘 500대 기업들에 예측 분석 솔루션을 제공하는 프레딕토 애널리틱스(Predicto Analytics)의 기술 담당 부사장이다.

그랜트 잉거솔 (Grant Ingersoll)

검색과 자연언어 처리 도구를 개발하는 루시드 이미지네이션Lucid Imagination의 창업자다. 루시드 이미지네이션을 창업하기 전에는 시라큐즈 대학의 자연언어 처리 센터의 시니어 소프트웨어 엔지니어였다. 자연언어 처리 센터와 그 이전에는 MNIS-텍스트와이즈(TextWise)에서 정보 검색, 질의응답, 클러스터링, 요약, 카테고리 분류를 수반하는 다수의 텍스트 처리 애플리케이션을 개발했다. 아파치 루씬(Lucene) 자바 프로젝트의 커미터이면서 강연자이자 트레이너이고, 아파치 머하웃(Mahout) 기계학습 프로젝트의 공동 창립자다. 시라큐즈 대학에서 컴퓨터과학 석사학위를 받았으며, 암허스트 칼리지에서 수학과 컴퓨터과학 학사학위를 받았다.

토마스 모튼 (Thomas Morton)

텍스트 처리와 기계학습 분야의 소프트웨어를 개발하고 연구를 수행한다. 최근 5년 동안 OpenNLP 텍스트 처리 프로젝트와 최대 엔트로피 기계학습 프로젝트의 주요 개발자이자 관리자였다. 2005년, 펜실베이니아 대학에서 컴퓨터과학 박사학위를 받았고, 업계에서 텍스트 처리와 기계학습을 기업 수준의 개발에 적용하는 일을 수행했다. 현재 필라델피아에 있는 컴캐스트 인터랙티브 미디어(Comcast Interactive Media)에서 소프트웨어 아키텍트로 일하고 있다.

드류 패리스 (Drew Farris)

대규모 분석과 분산 컴퓨팅 및 기계학습을 주로 하는 전문 소프트웨어 개발자이자 기술 컨설턴트다. 전에는 텍스트와이즈(Textwise)에서 일하면서 자연언어 처리와 분류, 시각화 기법을 조합해서 다양한 텍스트 조사와 관리, 검색 애플리케이션을 만들었다. 아파치 머하웃, 루씬, 솔라 등의 여러 가지 오픈소스 프로젝트에 기여했고, 시라큐즈 대학 정보학부의 정보자원관리 석사학위와 컴퓨터그래픽스 학사학위를 보유하고 있다.

옮긴이 소개

이재익

네이버에서 일래스틱서치를 기반으로 로그 관리시스템을 개발 및 운영하고 있으며, 로그 저장, 검색, 분석 관련 기술들과 오픈소스에 관심이 많다. 성장을 위해 새로운 시도를 하는 것을 좋아하고, 여가 시간에는 두 아들과 많은 시간을 보내려고 노력한다.

최중연

네이버에서 시계열 데이터 저장 서비스를 개발하고 있으며, 로그 데이터에 기반한 시계열 데이터 집계 및 저장에 관심이 많다. 이러한 운영 로그를 효과적으로 집계하고 시계열화해서 운영을 고도화하려는 목적으로 일래스틱서치를 접하게 되었고 번역에도 참여하게 됐다.

이승진

네이버에 근무하며 전사 로그 플랫폼 개발 및 운영 업무를 수행하였고, 대용량 분산 컴퓨팅과 그에 연관된 오픈소스 프로젝트들에 많은 관심을 가지고 있다. 현재 캘리포니아 어바인(Irvine)에서 수학 중이다.

한우람

네이버에서 BTS 및 품질관리도구를 운영하였고, 현재 로그관리시스템을 개발하고 있다.

임혜연

소프트웨어가 세상을 더 좋게 바꿀 수 있는지 고민하며 사는 개발자다. 프로그래밍 언어와 사람이 쓰는 언어 모두에 관심이 있다. 옮긴 책으로는 에이콘출판사에서 발간한 『데이터 접근 패턴』(2013)이 있다.

목차

목차
  • 『Elasticsearch in Action』
  • 1부
  • 1장. 일래스틱서치 소개
  • 2장. 기능 들여다보기
  • 3장. 데이터 색인, 변경, 삭제
  • 4장. 데이터 검색
  • 5장. 데이터 분석
  • 6장. 유사도 검색
  • 7장. 집계로 데이터 살펴보기
  • 2부
  • 8장. 도큐먼트 간 관계
  • 9장. 스케일 아웃
  • 10장. 성능 극대화
  • 11장. 클러스터 관리
  • 부록 A. 지리 공간 데이터로 작업하기
  • 부록 B. 플러그인
  • 부록 C. 하이라이팅
  • 부록 D. 일래스틱서치 모니터링 플러그인
  • 부록 E. 퍼컬레이터로 검색 뒤집기
  • 부록 F. 자동완성과 검색어 제안 기능을 위한 제안자 사용하기

  • 『자연어 텍스트 처리를 통한 검색 시스템 구축』
  • 1장. 텍스트 길들이기 시작
  • 2장. 텍스트 길들이기 기초
  • 3장. 검색
  • 4장. 유사 문자열 일치
  • 5장. 인명, 지명. 사물 식별
  • 6장. 텍스트 클러스터링
  • 7장. 분류, 카테고리 분류, 태깅
  • 8장. 질의응답 시스템 예제 구축

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안