Top

추천 시스템의 통계 기법 [실생활 추천 문제에 적용해보는 다양한 통계 기법]

  • 원서명Statistical Methods for Recommender Systems (ISBN 9781107036079)
  • 지은이디팍 아가왈(Deepak K. Agarwal), 비 청 첸(Bee-Chung Chen)
  • 옮긴이최영재
  • ISBN : 9791161756462
  • 33,000원
  • 2022년 05월 31일 펴냄
  • 페이퍼백 | 372쪽 | 152*228mm
  • 시리즈 : 데이터 과학

책 소개

요약

다양한 분야에서 활용되는 추천 시스템을 이해하는 데 필요한 통계 기법을 소개한다. 오래전부터 활용해 오고 있는 전통적인 기법부터 최근 새롭게 주목받고 있는 기법까지 다양한 추천 문제에 적합한 해법을 설계하고 구현하기 위해 필요한 여러 가지 기법을 실제 예제를 통해 살펴본다. 개념을 이해하고 적용해 볼 수 있는 간단한 문제뿐만 아니라 연관 항목 추천, 다목적 최적화 등 고급 주제까지 폭넓게 다룬다. 또한 항목과 사용자 분류, 특성 기반 등 분류 기법과 추천 문제를 생각할 때 필연적으로 따라오는 탐색-이용 딜레마부터 설계한 추천 시스템을 평가하는 방법까지 필요한 추천 시스템을 구현하기 위해 필요한 내용을 구체적으로 설명한다.

이 책의 구성

1부에서는 추천 시스템 문제를 해결하기 어려운 이유와 해결에 사용하는 주요 개념, 필요한 배경지식 등을 소개한다. 2장에서는 과거 추천 시스템을 개발할 때 사용했던 전통적인 방법을 짚어본다. 사용자와 항목에 관한 정보를 특성 벡터로 사용해서 유사도 함수, 표준 지도 학습, 협력 필터링을 통해 사용자-항목 페어 점수를 산정한다. 전통적인 기법에서는 보통 추천 시스템에서 나타나는 탐색-이용 딜레마를 무시한다. 3장에서는 이 문제가 왜 중요한지 살펴보고 이후 장에서 문제를 해결하기 위해 사용하는 주요 개념을 소개한다. 4장에서는 기술적 해결책을 다루기에 앞서 다양한 추천 알고리듬의 성능을 평가할 때 사용할 수 있는 여러 기법을 다룬다.
2부에서는 흔히 발생하는 문제의 해결 방법을 자세히 다룬다. 5장에서는 다양한 문제 상황을 소개하고 시스템 아키텍처 예시를 제공하며, 이어지는 6, 7, 8장에서는 일반적으로 나타날 수 있는 문제 상황 한 가지씩 다룬다. 6장에서는 최고-인기 항목 추천으로 발생할 수 있는 문제의 해결책을 알아보는데 특히 탐색-이용 측면에 집중한다. 7장에서는 특성-기반 회귀를 통한 맞춤형 추천을 다루면서 최신 사용자-항목 상호작용 데이터를 활용해서 좋은 솔루션으로 빠르게 발전할 수 있게 모델을 지속해서 업데이트하는 방법을 집중적으로 다룬다. 8장에서는 7장에서 소개한 기법을 특성-기반 회귀에서 요인 모델(행렬 분해)로 확장하게 되고, 동시에 요인 모델에서 나타나는 콜드-스타트 문제에 대한 자연스러운 해결책을 알아본다.
3부에서는 고급 주제 3가지를 다룬다. 9장에서는 잠재 디리클레 할당, LDA 주제 모델 사용하는 수정 행렬 분해 모델을 가지고 항목과 사용자 집단에서 나타나는 주제를 동시에 식별하는 분해 모델을 다양한 주제로 소개한다. 10장에서는 추천된 항목이 사용자와 밀접하게 관련돼야 할 뿐만 아니라 문맥과도 관련성을 가져야 할 때(예: 사용자가 현재 읽고 있는 뉴스 기사와 관련된 항목을 추천하는 경우) 발생하는 문맥-의존 추천 문제를 살펴본다. 11장에서는 수익과 같이 하나의 목표를 최대로 늘릴 때 다른 목표의 손실이 제한된(예: 클릭 수 감소가 5% 이하) 경우인 제한된 최적화 접근법 기반 다-목적 최적화를 위한 기본적인 프레임워크를 다룬다.

저자/역자 소개

지은이의 말

컴퓨터 과학, 머신러닝, 통계학 등 여러 분야의 추천 시스템에 관한 책이 많지만 주로 특정 부분에만 집중하며, 모든 통계 문제나 그것들이 서로 어떻게 연관되는지 포괄적으로 다루고 있지는 않다. 야후!와 링크드인에서 시스템을 개발하면서 문제를 깨닫게 됐다. 통계학이나 머신러닝에서 관심은 아웃-오브-샘플(out-of-sample) 데이터를 대상으로 한 예측 오차가 가장 낮은 모델을 만드는 것이다. 하지만 이런 접근 방식은 현실적으로 중요한 모든 요소를 다루지 못한다. 통계학적 측면에서 추천 시스템은 다차원 순차 프로세스로 실험 설계 등 문제를 연구하는 것이 훌륭한 통계 모델을 개발하는 것만큼 중요하다. 실제로 두 가지는 서로 밀접한 관계가 있다. 효율적인 디자인은 차원 수의 저주를 잘 다루는 모델을 가지고 있어야 한다. 또한 지금까지 출판된 내용은 대부분 하나의 요소, 가령 영화 평점, 구매 내역, 클릭률(click rate) 등에 반응하는 모델의 구성을 얘기하고 있다. 페이스북, 링크드인, 트위터와 같은 소셜미디어의 등장으로 다양한 반응을 사용할 수 있게 됐다. 예를 들어, 누군가는 뉴스 추천 애플리케이션을 위해 클릭률, 공유 비율, 트윗 비율 등을 동시에 모델링하고 싶을 수도 있다. 이처럼 여러 변수에 반응하는 모델은 구성하기가 쉽지 않다. 다변수 예측을 할 수 있는 기반이 있다고 하더라도 추천에 필요한 유틸리티 함수는 어떻게 구성해야 하는가? 클릭률보다 공유율을 최적화하는 것이 더 중요한가? 문제의 답은 도메인 전문가와의 긴밀한 협업을 통한 유틸리티 매개변수 일부 도출과 다목적 최적화로 얻을 수 있다.
이 책의 목적은 추천 시스템과 관련된 이런 문제를 종합적으로 살펴보는 것이다. 물론 기본적인 목적은 적응형 순차 디자인(멀티 암드 밴딧 기법), 이중선형 랜덤-효과 모델(행렬 분해), 최신 분산형 컴퓨팅 인프라를 활용한 확장형 모델 등 현재 최신 통계 기법에 관해 자세히 알아본다. 업계에서 이런 대형 시스템을 구성했던 오랜 경험을 바탕으로 문제를 통계, 머신러닝, 컴퓨터 과학 커뮤니티와 공유하기 위한 목적으로 썼다. 이 책은 이론과 실무의 차이를 메우는 데 도움이 될 것이다. 문제를 마주친 사람에게는 연관된 통계 문제를 충분히 이해할 수 있게 해주고, 모델을 구성하고 있는 사람에게는 실제로 적용했을 때 발생하는 복잡한 통계 문제를 깊이 이해할 수 있게 해 줄 것이다.

지은이 소개

디팍 아가왈(Dr.Deepak K. Agarwal)

빅데이터 분석가로 웹 애플리케이션의 검색 능력 개선에 기여한 최신 머신러닝과 통계 기법을 다년간 개발 및 배포한 경험을 가지고 있다. 또한 어려운 빅데이터 문제, 특히 추천 시스템과 컴퓨터 광고 분야의 문제를 해결하기 위한 연구를 주도했다. 미국통계협회(American Statistical Association)의 선임 연구원이며 통계 분야 최고권위 학술지의 편집장을 역임하고 있다.

비 청 첸(Dr.Bee-Chung Chen)

최신 추천 시스템 개발에 많은 실무 및 연구 경험을 가진 선구적인 기술자다. 링크드인 홈페이지와 모바일 피드, 야후! 홈페이지, 야후! 뉴스 그 외 여러 사이트의 중심이 되는 추천 알고리듬의 핵심 설계자다. 연구 분야로는 추천 시스템, 데이터 마이닝(data mining), 머신러닝, 빅데이터 분석 등이 있다.

옮긴이의 말

1950년대에 인공지능이라는 용어가 처음 소개됐을 때까지만 해도 소수의 전문가가 복잡한 수식과 많은 연산 자원을 가지고 연구하던 영역이었다. 하지만 최근 관련 하드웨어의 발전과 여러 기업이나 단체에서 제공하는 오픈소스 도구를 활용해 누구라도 필요한 도구를 간단하게 설치하고 딥러닝을 직접 경험해 볼 수 있다. 오늘날 딥러닝 관련 기술은 매우 빠르게 발전하고 있다. 하루만에 새로운 기술이 개발되고 있고, 지금 배우는 기법이나 도구가 1년 뒤에도 여전히 쓰일 것인지 알 수 없다. 하지만 딥러닝이 기본적으로 어떻게 구현되는지, 또 근간을 이루는 수학적인 개념이 실습을 통해 익숙해지면 차후 새로운 기법과 도구를 더욱 쉽게 활용할 수 있다.
머신러닝, 딥러닝 분야의 대부분 용어는 영어로 번역이 필요하지만, 국내에서 활발하게 사용된 지 어느 정도 시간이 지났기 때문에 원문 그대로 사용했다. 또한 원문의 의미를 해치지 않는 선에서 업계에서 사용하는 용어를 쓰고자 노력했다.

옮긴이 소개

최영재

소프트웨어 분야에서 일하면서 좀 더 좋은 품질의 제품을 만들기 위해 노력해 왔다. 현재는 소프트웨어 공학과 관련 강의를 하고 있으며, 어떻게 하면 좀 더 신뢰할 수 있고 사용자가 안심하고 사용할 수 있는 소프트웨어를 만들지 고민하고 있다.
소프트웨어 관련 국내외 표준과 여러 지식 체계에 참여하고 있으며, 최근에는 어떻게 하면 누구나 신뢰하면서 사용할 수 있는 인공지능 시스템을 만들 수 있는지에 관심을 갖고 있다. 예측 모델, 추천 시스템 등 인공지능이 인간의 삶에 줄 수 있는 많은 가치를 실현하기 위해서는 모델이 가진 한계를 이해하고 또한 인공지능이 왜 무언가를 어떤 방식으로 예측했는지 이해할 필요가 있다고 생각한다.

목차

목차
  • 1부. 소개
  • 1장. 소개
  • 2장. 전통적 기법
  • 3장. 추천 문제를 위한 탐색-이용
  • 4장. 평가 방법

  • 2부. 일반적인 문제 상황
  • 5장. 문제 구성과 시스템 설계
  • 6장. 최고 인기 항목 추천
  • 7장. 특성-기반 회귀를 통한 개인화
  • 8장. 요인 모델을 통한 개인화
  • 9장. 잠재 디리클레 할당을 통한 요인 분해
  • 10장. 정황-의존 추천
  • 11장. 다목적 최적화

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안