Steady Seller

컴퓨터 시대의 통계적 추론 [알고리즘과 추론의 관계와 역할]

  • 원서명Computer Age Statistical Inference: Algorithms, Evidence, and Data Science (ISBN 9781107149892)
  • 지은이브래들리 에프론(Bradley Efron), 트레버 해스티(Trevor Hastie)
  • 옮긴이이병욱
  • ISBN : 9791161752860
  • 50,000원
  • 2019년 04월 29일 펴냄
  • 하드커버 | 612쪽 | 150*228mm
  • 시리즈 : acorn ADVANCED, 데이터 과학

책 소개

2020년 대한민국학술원 우수학술도서 선정도서
요약

베이즈 규칙이 발견된 1763년부터 지금까지, 250년이 넘는 시간 동안의 수많은 알고리즘의 개발과 각 알고리즘의 정확도에 관여된 추론의 발전에 관해 설명하는 책이다. '추론'이 '단순히 알고리즘의 정확도를 말하는 것' 이상의 것임을 보여주며, 빅데이터 시대의 여러 경험적 기법을 세세히 알려준다. 또한 전통적 기법의 시대인 베이즈, 빈도주의, 피셔주의 시대와 컴퓨터가 등장한 초기 시대인 1950년에서 1990년, 그리고 그 이후부터 현재까지의 세 가지 연대를 나눠, 각 시대에 있어 알고리즘과 추론의 발전에 대해 설명한다. 각 장은 서로 연관돼 있으면서도 독립적으로 읽을 수 있도록 구성돼 있다.

추천의 글

“이 귀한 책은 통계학 분야가 과거 60년간 컴퓨터 성능의 발달에 적응하며 진화해온 과정을 많은 예제를 통해 그 속성과 함께 설명한다. 저자의 관점은 ‘매우 개략적으로 말하자면, 알고리즘은 통계학자들이 수행하는 작업인 반면 추론은 그들이 왜 그것을 하는지 말해준다.’는 대목에 잘 요약돼 있다. 이 책은 이 ‘왜’를 설명한다. 다시 말해, 이 책은 여러 주요 기법을 자세히 살펴보며 통계적 연구의 목적과 발전을 설명하는데, 그 기법들은 저자들이 발전시키고 연구해온 것들이다. 이 책은 재미있는 동시에 계몽적이다. 특히, 통계적 분석을 정의하는 근본적 수학에 의해 어떻게 아이디어가 실현되는지를 확인하려는 사람들을 위해 저술됐다. 그리고 이 책은 막 대학원 과정을 시작하는 학생들이 전통적인 교과 과정을 보충할 수 있는 내용을 담고 있다.”
― 롭 카스(Rob Kass)/ 카네기 멜론 대학교

“이 책은 대단하다. 컴퓨터 시대 통계를 이끈 이론과 방법론적 발전 사이의 상호작용에 대해 명확하고 쉽고 재미있게 설명한다. 잘 정립된 통계적 이론의 프레임워크 안에서 ‘빅데이터’ 분석의 현대적 알고리즘 기법을 기발하게 밝혀내는 데 성공했다.”
― 알라스테어 영(Alastair Young)/ 임페리얼 칼리지 런던

“이 책은 개념과 계산력의 발달이 강조되는 현대 통계학으로의 가이드 여행과 같다. 두 거장에 의해 저술된 이 책은 수학적 분석과 통찰력 있는 조언의 적절한 조합을 제공한다.”
― 할 바리언(Hal Varian)/ 구글

“에프론과 해스티는 우리가 컴퓨터 진화를 따라가는 혁신적 통계 기법의 미로를 통과할 수 있게 안내해준다. 통계적 기법이 왜 개발됐으며, 그 성질은 무엇이고, 어떻게 사용됐는지 알려준다. 또한 기원을 조명하면서 각 기법이 추론과 예측에서 어떤 역할을 하는지 이해할 수 있도록 도와준다. 이 책에서 유지하고 있는 추론과 예측의 구분은 통계학 책 분야에서 환영받을 만한 중요한 신개념이다.”
― 개릿 쉬무엘리(Galit Shmueli)/ 국립 칭화 대학교

“전통적 통계학의 추론 기반이 21세기 데이터 과학의 원론을 어떤 식으로 규정하는지 보여주는 거장다운 안내서다.”
― 스티븐 스티글러(Stephen Stigler)/ 시카고 대학교, 『통계학을 떠받치는 일곱 기둥 이야기』의 저자

“현대 통계학의 두 거장은 통계학과 컴퓨터가 힘을 합친 세상으로의 통찰력 있는 여행을 제공한다. 일련의 주요 주제에서 예측과 데이터 이해를 위한 현대적 기법이 어떻게 통계와 계산적 사고에 뿌리를 내리고 있는지 밝혀준다. 계산 능력의 발전이 어떻게 전통적 기법과 문제들을 변환시켰는지 보여주고 통계에 대한 새로운 사고방식을 일깨워준다.”
― 데이비드 블레이(David Blei)/ 컬럼비아 대학교

“정말 대단하다. 아름답게 쓰인 이 책은 저자들의 생각을 포함해 거대한 통계적 아이디어를 다수 설명한다. 통계학이나 데이터 과학에 종사하고 있는 모두에게 필독서며, 반복해 읽어야 할 책이다. 에프론과 해스티는 과거, 현재, 미래에 걸쳐 계속 커지고 있는 통계적 추론의 힘을 보여준다.
― 칼 모리스(Carl Morris)/ 하버드 대학교

이 책에서 다루는 내용

21세기는 그 영역과 영향 모두에서 통계적 기법이 숨 막힐 정도로 확장돼 왔다. 통계적 기법이 현대 과학과 상거래의 방대한 데이터 집합을 다루게 되면서, 이제 ‘빅테이터’, ‘데이터 과학’, ‘머신 러닝’이라는 말은 신문 지상에서 흔히 접하는 용어가 됐다. 어떻게 여기까지 오게 됐을까? 그리고 어디로 향하고 있는 것일까?
이 책은 우리를 1950년대 전자식 컴퓨터가 등장한 이래 이어져온 데이터 분석의 혁신을 향한 신나는 여행으로 데려간다. 전통적 추론 이론인 베이즈, 빈도주의, 피셔에서 출발해 각 장은 일련의 영향력 있는 주제를 다룬다. 생존 분석, 로지스틱 회귀, 경험적 베이즈, 잭나이프와 부트스트랩, 랜덤 포레스트, 신경망, 마르코프 체인 몬테 카를로, 모델 선정 후 추론 등 수십 가지 주제가 있으며, 현대적 기법을 통해 방법론과 알고리즘을 통계적 추론과 통합한다. 이 책은 통계학과 데이터 과학의 미래 방향을 예측하는 것으로 결론을 내린다.

상세 이미지

저자/역자 소개

지은이의 말

통계적 추론(Statistical Inference)은 광범위한 학문 분야며 수학, 경험적 과학, 철학이 삼각 지점을 이루며 만나는 곳에 위치하고 있다. 이 분야는 베이즈 규칙이 발표된 1763년부터 비롯됐다고 말할 수도 있다(이는 이 주제의 철학적 부분을 의미하는데, 베이즈 규칙의 초기 신봉자들은 이것이야말로 신이 존재한다는 증거라고 치켜세우기까지 했다). 이 250년의 역사 중 가장 최근 1/4에 해당하는 1950년부터 지금까지는 이 책의 제목처럼 ‘컴퓨터 시대(Computer Age)’며, 이 시대에는 통계적 응용의 전통적인 병목 부분인 연산 능력에서 수백만 배 이상 더 빠르고 간편한 계산이 가능해졌다.
이 책은 과거 60년 동안 통계학이 어떻게 발전해왔는지 개괄적으로 조망해본다. 제트기나 인공위성처럼 까마득히 높은 곳에서 살펴보는 것이 아니라, 경비행기 정도의 높이로 비교적 자세히 조망한다. 개별 장들은 각 핵심 기법의 발달과 그 추론적 정당성에 대해 설명하는 일련의 주요 주제를 다룬다. 여기에는 일반화 선형 모델, 생존율 분석, 잭나이프와 부트스트랩, 오발견율, 경험적 베이즈, MCMC, 신경망 등과 같은 수십 가지 주제가 있다.
두말할 필요도 없이, 전자식 컴퓨터 계산은 이 이야기 전체의 핵심 요소다. 그렇다고 해서 모든 발전이 컴퓨터와 연계돼 있다는 뜻은 아니다. 신대륙을 향해 해상을 가로지르는 다리가 건설됐지만, 모두가 그 다리를 건너고자 하지는 않는 법이다. 경험적 베이즈나 제임스-스타인 추정 등의 주제는 기계적 계산이라는 제약 속에서도 충분히 등장할 수 있었다. 한편 부트스트랩이나 비례적 위험 등은 순전히 전자식 컴퓨터 시대의 산물이다. 21세기 통계학과 관련된 대부분의 주제는 이제 컴퓨터에 의존하고 있지만, 우리의 경비행기가 새로운 시대를 맞이할 때까지는 다소 시간이 걸릴 것이다.
이 책은 크게 세 가지 부분으로 나눠서 관련 역사에 따라 전개된다. 1부에서 이야기할 전통적 추론의 위대한 주제인 베이즈, 빈도주의, 피셔주의는 전자식 컴퓨터 시대가 도래하기 전까지는 제 역할을 했으며, 현대에 와서는 그 기본 윤곽을 변형시키지 않고도 방대한 확장을 하고 있다(전통적 방식과 현대적 방식의 유사점을 살펴볼 수도 있다). 2부에서는 컴퓨터 시대 개발의 초기인 1950년부터 1990년대까지를 알아본다. 이 시기는 전환기로, 이전보다 빨라진 연산이 통계적 기법의 발전에 실제로 기여했는지 없는지를 이론과 실제에서 가장 쉽게 파악해볼 수 있다. 3부에서는 ‘21세기 주제’라는 제목으로 현시대를 다룬다. 현시대는 놀라울 만큼 대단한 알고리즘의 시대다(‘머신 러닝’은 다소 불안감을 조성하는 선전 문구다). 이를 정당화하는 것은 현대의 통계적 추론에서 지속적으로 수행되는 과제이기도 하다.
이 책의 주제들은 연산 기법과 추론 이론 간의 상호작용에 대한 실례를 위해 선정했으며, 목록이나 백과사전식 나열을 추구하지 않았다. 몇몇 주제는 이 책에 담긴 사례만큼이나 중요하지만 생략됐다. 예를 들어 시계열, 일반 추정식, 인과 추론, 그래픽 모델, 경험적 디자인 등이다. 어떤 경우에도 이 책에 나열된 주제만이 연구 가치가 있다고 암시하는 것은 절대 아니라는 점을 밝혀둔다.

지은이 소개

브래들리 에프론(Bradley Efron)

스탠퍼드 대학교의 통계학 및 생물의학 데이터 과학 교수다. 하버드, 버클리, 임페리얼 칼리지 런던의 객원 교수 직책을 맡았다. 또한 통계적 추론에 대해 심도 있는 연구를 수행했으며, 부트스트랩 표본 기법을 발명했다. 2005년 ‘국가 과학(National Medal of Science) 상’을 수상했고, 2014년 왕립통계학회(Royal Statistical Society)의 ‘가이 메달(Guy Medal) 금상’을 수상했다.

트레버 해스티(Trevor Hastie)

통계학 및 생물의학 데이터 과학 교수다. 현대 데이터 분석 분야의 필독서로 꼽히는 『Elements of Statistical Learning, Second Edition』(Springer, 2016)의 공동 저자며, 일반 가첨(additive) 모델과 주요 곡선, R 컴퓨팅 환경에 대한 공로로 잘 알려져 있다. 2014년 통계적 혁신 부문의 ‘엠마누엘(Emmanuel)과 캐롤 파르젠(Carol Parzen) 상’을 수상했다..

옮긴이의 말

이 책은 전통적 추론의 핵심 주제인 베이즈, 빈도주의, 피셔주의로부터 현대적 컴퓨터 시대의 빅데이터에 이르기까지 시대별 흐름과 추론의 발전을 마치 장편 역사책처럼 조명한다. 단순한 이론적 설명에 그치지 않고, 전체의 흐름을 통해 여러 기법의 유기적 관계와 상대성에 관해 깊은 인식을 가질 수 있게 해준다.
특히 이 책의 저자 중 한 명인 브래들리 에프론은 추론에서 표준적 방법으로 자리 잡은 부트스트래핑을 비롯한 수많은 경험적 추론을 발명한 대가로, 각종 추론에 대한 심도 있는 설명을 직접 듣는 짜릿한 경험을 할 수 있다. 이 책 한 권으로 알고리즘과 추론 사이의 관계와 서로의 역할에 대해 명쾌히 정립할 수 있으리라 믿는다.

옮긴이 소개

이병욱

㈜크라스랩 대표이사이자 서울과학종합대학원 디지털금융 MBA 주임교수를 맡고 있다. 한국과학기술원 KAIST 전산학과 계산 이론 연구실에서 학위를 취득했으며 공학을 전공한 금융 전문가로, 세계 최초의 핸드헬드-PC(Handheld-PC) 개발에 참여해 한글 윈도우 CE 1.0과 2.0을 미국 마이크로소프트 본사에서 공동 개발했다. 1999년에는 국내 최초 전 보험사 보험료 실시간 비교 서비스를 제공하는 ㈜보험넷을 창업해 업계에 큰 반향을 불러일으켰다. 이후 삼성생명을 비롯한 생명 보험사 및 손해 보험사에서 CMO(마케팅 총괄 상무), CSMO(영업 및 마케팅 총괄 전무) 등을 역임하면서 혁신적인 상품과 서비스를 개발, 총괄했다. 세계 최초로 파생상품인 ELS를 기초 자산으로 한 변액 보험을 개발해 단일 보험 상품으로 5천억 원 이상 판매되는 돌풍을 일으켰고, 매일 분산 투자하는 일 분산 투자(daily Averaging) 변액 보험을 세계 최초로 개발해 상품 판매 독점권을 획득했다. 최근에는 머신러닝 기반의 금융 분석과 블록체인에 관련된 다양한 활동을 하고 있으며, 과학기술정보통신부 우정사업본부 정보센터의 네트워크 & 블록체인 자문위원을 맡고 있다. 저서로는 『비트코인과 블록체인, 가상자산의 실체 2/e』(에이콘, 2020)과 대한민국학술원이 2019 교육부 우수학술도서로 선정한 『블록체인 해설서』(에이콘, 2019)가 있다.

목차

목차
  • 1부. 전통적인 통계적 추론
  • 01장. 알고리즘과 추론
    • 1.1 회귀 예제
    • 1.2 가설 검정
    • 1.3 주석 및 상세 설명

  • 02장. 빈도주의 추론
    • 2.1 실제에서의 빈도주의
    • 2.2 빈도주의 최적성
    • 2.3 주석 및 상세 설명

  • 03장. 베이즈 추론
    • 3.1 두 가지 예제
    • 3.2 불충분 정보 사전 분포
    • 3.3 빈도주의 추론의 결함
    • 3.4 베이즈/빈도주의 비교 리스트
    • 3.5 주석 및 상세 설명

  • 04장. 피셔 추론과 최대 우도 예측
    • 4.1 우도와 최대 우도
    • 4.2 피셔 정보와 MLE
    • 4.3 조건부 추론
    • 4.4 순열과 랜덤화
    • 4.5 주석 및 상세 설명

  • 05장. 모수적 모델과 지수 패밀리
    • 5.1 일변량 패밀리
    • 5.2 다변량 정규분포
    • 5.3 다모수 패밀리의 피셔 정보 경계
    • 5.4 다항분포
    • 5.5 지수 패밀리
    • 5.6 주석 및 상세 설명

  • 2부. 초기 컴퓨터 시대 기법
  • 06장. 경험적 베이즈
    • 6.1 로빈의 공식
    • 6.2 누락된 종 문제
    • 6.3 의학 예제
    • 6.4 간접 증거 1
    • 6.5 주석 및 상세 설명

  • 07장. 제임스-스타인 추정과 리지 회귀
    • 7.1 제임스-스타인 추정기
    • 7.2 야구 선수들
    • 7.3 리지 회귀
    • 7.4 간접 증거 2
    • 7.5 주석 및 상세 설명

  • 08장. 일반화된 선형 모델과 회귀 트리
    • 8.1 로지스틱 회귀
    • 8.2 일반화 선형 모델
    • 8.3 포아송 회귀
    • 8.4 회귀 트리
    • 8.5 주석 및 상세 설명

  • 09장. 생존 분석과 EM 알고리즘
    • 9.1 생명표와 위험률
    • 9.2 검열된 데이터와 카플란-마이어 추정
    • 9.3 로그 순위 검정
    • 9.4 비례적 위험률 모델
    • 9.5 누락 데이터와 EM 알고리즘
    • 9.6 주석 및 상세 설명

  • 10장. 잭나이프와 부트스트랩
    • 10.1 표준오차에 대한 잭나이프 추정
    • 10.2 비모수적 부트스트랩
    • 10.3 재표본추출 계획
    • 10.4 모수적 부트스트랩
    • 10.5 영향 함수와 안정적 추정
    • 10.6 주석 및 상세 설명

  • 11장. 부트스트랩 신뢰구간
    • 11.1 단일 모수 문제에 대한 네이만의 구성
    • 11.2 퍼센타일 기법
    • 11.3 편향 수정 신뢰구간
    • 11.4 2차 정확성
    • 11.5 부트스트랩-t 구간
    • 11.6 객관적 베이즈 구간과 신뢰분포
    • 11.7 주석 및 상세 설명

  • 12장. 교차 검증과 Cp 예측 오차 추정
    • 12.1 예측 규칙
    • 12.2 교차 검증
    • 12.3 공분산 페널티
    • 12.4 훈련, 검증, 단기 예측 변수
    • 12.5 주석 및 상세 설명

  • 13장. 객관적 베이즈 추론과 마르코프 체인 몬테 카를로
    • 13.1 객관적 사전 분포
    • 13.2 켤레 사전 분포
    • 13.3 모델 선택과 베이즈 정보 기준
    • 13.4 깁스 표본과 MCMC
    • 13.5 예제: 개체군 혼합물 모델링
    • 13.6 주석 및 상세 설명

  • 14장. 전후 시대의 통계적 추론과 기법

  • 3부. 21세기 주제
  • 15장. 대규모 가설 검정과 거짓 발견율
    • 15.1 대규모 검정
    • 15.2 거짓 발견율
    • 15.3 경험적 베이즈 대규모 검정
    • 15.4 지역 거짓 발견율
    • 15.5 귀무분포의 선택
    • 15.6 연관성
    • 15.7 주석 및 상세 설명

  • 16장. 희소 모델링과 라소
    • 16.1 전방 단계별 회귀
    • 16.2 라소
    • 16.3 라소 모델 적합화
    • 16.4 최소각 회귀
    • 16.5 일반화된 라소 모델 적합화
    • 16.6 라소를 위한 선택-후 추론
    • 16.7 연결과 확장
    • 16.8 주석 및 상세 설명

  • 17장. 랜덤 포레스트와 부스팅
    • 17.1 랜덤 포레스트
    • 17.2 제곱 오차 손실 함수를 사용한 부스팅
    • 17.3 그래디언트 부스팅
    • 17.4 에이다부스트: 원래의 부스팅 알고리즘
    • 17.5 연결과 확장
    • 17.6 주석 및 상세 설명

  • 18장. 신경망과 딥러닝
    • 18.1 신경망과 필기체 숫자 문제
    • 18.2 신경망 적합화
    • 18.3 오토인코더
    • 18.4 딥러닝
    • 18.5 딥 네트워크 학습
    • 18.6 주석 및 상세 설명

  • 19장. 서포트 벡터 머신과 커널 기법
    • 19.1 최적 분리 초평면
    • 19.2 소프트 마진 분류기
    • 19.3 손실 플러스 페널티로서의 SVM 기준
    • 19.4 계산과 커널 트릭
    • 19.5 커널을 이용한 함수 적합화
    • 19.6 예제: 단백질 분류에 대한 문자열 커널
    • 19.7 SVM: 결론
    • 19.8 커널 평활화와 지역 회귀
    • 19.9 주석 및 상세 설명

  • 20장. 모델 선택 후의 추론
    • 20.1 동시 신뢰구간
    • 20.2 모델 선택 후 정교함
    • 20.3 선택 편향
    • 20.4 병합된 베이즈-빈도주의 추정
    • 20.5 주석 및 상세 설명

  • 21장. 경험적 베이즈 추정 전략
    • 21.1 베이즈 디컨볼루션
    • 21.2 g-모델링과 추정
    • 21.3 우도, 정규화, 정확도
    • 21.4 두 가지 예제
    • 21.5 일반적 선형 혼합 모델
    • 21.6 디컨볼루션과 f-모델링
    • 21.7 주석 및 상세 설명

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

[p.124 : 15행]
실제 θ{k} 값이 ->
실제 x
{k} 값이