컴퓨터 시대의 통계적 추론 (연습문제 포함) [알고리듬과 추론의 관계와 역할]
- 원서명Computer Age Statistical Inference, Student Edition: Algorithms, Evidence, and Data Science (ISBN 9781108823418)
- 지은이브래들리 에프론(Bradley Efron), 트레버 해이스티(Trevor Hastie)
- 옮긴이이병욱
- ISBN : 9791161757742
- 40,000원
- 2023년 07월 21일 펴냄
- 페이퍼백 | 626쪽 | 150*228mm
- 시리즈 : acorn ADVANCED, 데이터 과학
책 소개
요약
(2019년 4월 출간한 양장본과 동일한 내용의 도서로 각 챕터 마지막에 연습문제가 추가됐습니다. 연습문제 해답은 제공하지 않습니다.)
베이즈 규칙이 발견된 1763년부터 지금까지, 250년이 넘는 시간 동안의 수많은 알고리듬의 개발과 각 알고리듬의 정확도에 관여된 추론의 발전에 관해 설명하는 책이다. '추론'이 '단순히 알고리듬의 정확도를 말하는 것' 이상의 것임을 보여주며, 빅데이터 시대의 여러 경험적 기법을 세세히 알려준다. 또한 전통적 기법의 시대인 베이즈, 빈도주의, 피셔주의 시대와 컴퓨터가 등장한 초기 시대인 1950년에서 1990년, 그리고 그 이후부터 현재까지의 세 가지 연대를 나눠, 각 시대에 있어 알고리듬과 추론의 발전에 대해 설명한다. 각 장은 서로 연관돼 있으면서도 독립적으로 읽을 수 있도록 구성돼 있다.
학생판에는 130개의 연습문제를 추가했다. 연습문제는 문제 해결 및 책에 제시된 아이디어와 방법론의 구현을 통해 자료에 대한 이해를 향상시킬 것이다.
추천의 글
“어떻게 해서 계산 통계학이 세상을 지배하고 있는 것일까? 이 진지하면서 흥미진진한 업적에 대해, 모수적 및 비모수적 통계 아이디어를 통합한 두 개척자인 에프론과 해스티는 명확하고 역사적으로 잘 알려진 예제를 통해 자신들의 견해를 들려준다.”
― 앤드류 젤만(Andrew Gelman), 컬럼비아 대학교
“이 귀한 책은 통계학 분야가 과거 60년간 컴퓨터 성능의 발달에 적응하며 진화해온 과정을 많은 예제를 통해 그 속성과 함께 설명한다. 저자의 관점은 ‘매우 개략적으로 말하자면, 알고리듬은 통계학자들이 수행하는 작업인 반면 추론은 그들이 왜 그것을 하는지 말해준다.’는 대목에 잘 요약돼 있다. 이 책은 이 ‘왜’를 설명한다. 다시 말해, 이 책은 여러 주요 기법을 자세히 살펴보며 통계적 연구의 목적과 발전을 설명하는데, 그 기법들은 저자들이 발전시키고 연구해온 것들이다. 이 책은 재미있는 동시에 계몽적이다. 특히, 통계적 분석을 정의하는 근본적 수학에 의해 어떻게 아이디어가 실현되는지를 확인하려는 사람들을 위해 저술됐다. 그리고 이 책은 막 대학원 과정을 시작하는 학생들이 전통적인 교과 과정을 보충할 수 있는 내용을 담고 있다.”
― 롭 카스(Rob Kass), 카네기멜론대학교
“이 책은 대단하다. 컴퓨터 시대 통계를 이끈 이론과 방법론적 발전 사이의 상호작용에 대해 명확하고 쉽고 재미있게 설명한다. 잘 정립된 통계적 이론의 프레임워크 안에서 ‘빅데이터’ 분석의 현대적 알고리듬 기법을 기발하게 밝혀내는 데 성공했다.”
― 알라스테어 영(Alastair Young), 임페리얼 칼리지 런던
“이 책은 개념과 계산력의 발달이 강조되는 현대 통계학으로의 가이드 여행과 같다. 두 거장에 의해 저술된 이 책은 수학적 분석과 통찰력 있는 조언의 적절한 조합을 제공한다.”
― 할 바리언(Hal Varian), 구글
“에프론과 해스티는 우리가 컴퓨터 진화를 따라가는 혁신적 통계 기법의 미로를 통과할 수 있게 안내해준다. 통계적 기법이 왜 개발됐으며, 그 성질은 무엇이고, 어떻게 사용됐는지 알려준다. 또한 기원을 조명하면서 각 기법이 추론과 예측에서 어떤 역할을 하는지 이해할 수 있도록 도와준다. 이 책에서 유지하고 있는 추론과 예측의 구분은 통계학 책 분야에서 환영받을 만한 중요한 신개념이다.”
― 개릿 쉬무엘리(Galit Shmueli), 국립 칭화 대학교
“전통적 통계학의 추론 기반이 21세기 데이터 과학의 원론을 어떤 식으로 규정하는지 보여주는 거장다운 안내서다.”
― 스티븐 스티글러(Stephen Stigler), 시카고 대학교,
『통계학을 떠받치는 일곱 기둥 이야기』의 저자
“이 책은 현대 통계학의 신선한 시각을 제공한다. 알고리듬은 그 뒤에 있는 직관, 성질, 추상적 주장과 대등한 위치에 놓인다. 설명된 기법은 오늘날의 빅데이터와 대규모 계산 영역에서 없어서는 안 될 것들이다.”
― 로버트 그라머시(Robert Gramacy), 시카고 대학교
“모든 야심찬 데이터 과학자들은 이 책을 자세히 연구해야 하며 참고로 삼을 뿐 아니라 어디든 들고 다녀야 한다. 통계적 추론의 두 세기 반 동안의 설명은 원리의 발달에 대한 통찰을 주고 데이터 과학을 역사적 위치에 놓이게 한다.”
― 마크 지로라미(Mark Girolami), 임페리얼 칼리지 런던
“에프론과 해스티는 대단한 재능과 업적을 성취한 두 학자로서 통계적 추론의 250년 역사를 컴퓨터라는 좀 더 최근의 역사적 기법에 훌륭히 엮어냈다. 이 책은 독자들에게 베이즈, 빈도주의, 피셔로 나뉘어졌다가 컴퓨터의 발달로 인해 다시 통합되고 있는 통계 분야의 뉘앙스를 자세히 알려줌으로써, 지난 60여 년을 아우르는 중급 수준의 개괄을 제공해준다. 이제 남은 과제는 데이터 과학과 통계적 기법의 차이에 다리를 놓아줄 빅데이터 이론의 등장과 역할에 대한 것이다. 결과와 상관없이, 저자들은 전반적이고 사회적인 이슈 모두를 다루는 방법론들에 대한 통계적 추론의 기여에 관해 엄청난 잠재력을 가진 고속 컴퓨팅의 비전을 제시해준다.”
― 레베카 도지(Rebecca Doerge), 카네기멜론대학교
“현대 통계학의 두 거장은 통계학과 컴퓨터가 힘을 합친 세상으로의 통찰력 있는 여행을 제공한다. 일련의 주요 주제에서 예측과 데이터 이해를 위한 현대적 기법이 어떻게 통계와 계산적 사고에 뿌리를 내리고 있는지 밝혀준다. 계산 능력의 발전이 어떻게 전통적 기법과 문제들을 변환시켰는지 보여주고 통계에 대한 새로운 사고방식을 일깨워준다.”
― 데이비드 블레이(David Blei), 컬럼비아 대학교
“정말 대단하다. 아름답게 쓰인 이 책은 저자들의 생각을 포함해 거대한 통계적 아이디어를 다수 설명한다. 통계학이나 데이터 과학에 종사하고 있는 모두에게 필독서며, 반복해 읽어야 할 책이다. 에프론과 해스티는 과거, 현재, 미래에 걸쳐 계속 커지고 있는 통계적 추론의 힘을 보여준다.
― 칼 모리스(Carl Morris), 하버드 대학교
이 책에서 다루는 내용
21세기는 그 영역과 영향 모두에서 통계적 기법이 숨막힐 정도로 확장돼 왔다. 통계적 기법이 현대 과학과 상거래의 방대한 데이터 집합을 다루게 되면서, 이제 ‘빅데이터’, ‘데이터 과학’, ‘머신러닝’이라는 말은 신문 지상에서 흔히 접하는 용어가 됐다. 어떻게 여기까지 오게 됐을까? 그리고 어디로 향하고 있는 것일까? 이 모든 것은 어떻게 통합될 것인가?
이 책은 현대 통계 사상의 집약 과정을 보여준다. 전통적 추론 이론인 베이즈, 빈도주의, 피셔에서 출발해 각 장은 일련의 영향력 있는 주제를 다룬다. 생존 분석, 로지스틱 회귀, 경험적 베이즈, 잭나이프와 부트스트랩, 랜덤 포레스트, 신경망, 마르코프 체인 몬테 카를로, 모델 선정 후 추론 등 수십 가지 주제가 있으며, 현대적 기법을 통해 방법론과 알고리듬을 통계적 추론과 통합한다. 각 장은 수업에서 검증된 연습문제로 끝나며 데이터 과학의 미래 방향을 예측하는 것으로 결론을 내린다.
이 책의 구성
이 책은 크게 세 가지 부분으로 나눠서 관련 역사에 따라 전개된다. 1부에서 이야기할 전통적 추론의 위대한 주제인 베이즈, 빈도주의, 피셔주의는 전자식 컴퓨터 시대가 도래하기 전까지는 제 역할을 했으며, 현대에 와서는 그 기본 윤곽을 변형시키지 않고도 방대한 확장을 하고 있다(전통적 방식과 현대적 방식의 유사점을 살펴볼 수도 있다). 2부에서는 컴퓨터 시대 개발의 초기인 1950년부터 1990년대까지를 알아본다. 이 시기는 전환기로, 이전보다 빨라진 연산이 통계적 기법의 발전에 실제로 기여했는지 없는지를 이론과 실제에서 가장 쉽게 파악해볼 수 있다. 3부에서는 ‘21세기 주제’라는 제목으로 현시대를 다룬다. 현시대는 놀라울 만큼 대단한 알고리듬의 시대다(‘머신러닝’은 다소 불안감을 조성하는 선전 문구다). 이를 정당화하는 것은 현대의 통계적 추론에서 지속적으로 수행되는 과제이기도 하다.
학생판에는 130개의 연습문제를 추가했다. 연습문제는 문제 해결 및 책에 제시된 아이디어와 방법론의 구현을 통해 자료에 대한 이해를 향상시킬 것이다. 연습문제는 대학원 수준에서 직접 강의했던 자료로부터 추출한 것이다.
목차
목차
- 1부. 전통적인 통계적 추론
- 01장. 알고리듬과 추론
- 1.1 회귀 예제
- 1.2 가설 검정
- 1.3 주석 및 상세 설명
- 1.4 연습문제
- 02장. 빈도주의 추론
- 2.1 실제에서의 빈도주의
- 2.2 빈도주의 최적성
- 2.3 주석 및 상세 설명
- 2.4 연습문제
- 03장. 베이즈 추론
- 3.1 두 가지 예제
- 3.2 불충분 정보 사전 분포
- 3.3 빈도주의 추론의 결함
- 3.4 베이즈/빈도주의 비교 리스트
- 3.5 주석 및 상세 설명
- 3.6 연습문제
- 04장. 피셔 추론과 최대 우도 추정
- 4.1 우도와 최대 우도
- 4.2 피셔 정보와 MLE
- 4.3 조건부 추론
- 4.4 순열과 랜덤화
- 4.5 주석 및 상세 설명
- 4.6 연습문제
- 05장. 모수적 모델과 지수 계열
- 5.1 일변량 계열
- 5.2 다변량 정규분포
- 5.3 다모수 계열의 피셔 정보 경계
- 5.4 다항분포
- 5.5 지수 계열
- 5.6 주석 및 상세 설명
- 5.7 연습문제
- 2부. 초기 컴퓨터 시대 기법
- 06장. 경험적 베이즈
- 6.1 로빈의 공식
- 6.2 누락된 종 문제
- 6.3 의학 예제
- 6.4 간접 증거 1
- 6.5 주석 및 상세 설명
- 6.6 연습문제
- 07장. 제임스-스타인 추정과 리지 회귀
- 7.1 제임스-스타인 추정기
- 7.2 야구 선수들
- 7.3 리지 회귀
- 7.4 간접 증거 2
- 7.5 주석 및 상세 설명
- 7.6 연습문제
- 08장. 일반화된 선형 모델과 회귀 트리
- 8.1 로지스틱 회귀
- 8.2 일반화 선형 모델
- 8.3 포아송 회귀
- 8.4 회귀 트리
- 8.5 주석 및 상세 설명
- 8.6 연습문제
- 09장. 생존 분석과 EM 알고리듬
- 9.1 생명표와 위험률
- 9.2 검열된 데이터와 카플란-마이어 추정
- 9.3 로그 순위 검정
- 9.4 비례적 위험 모델
- 9.5 누락 데이터와 EM 알고리듬
- 9.6 주석 및 상세 설명
- 9.7 연습문제
- 10장. 잭나이프와 부트스트랩
- 10.1 표준오차에 대한 잭나이프 추정
- 10.2 비모수적 부트스트랩
- 10.3 재표본추출 계획
- 극소 잭나이프
- 다표본 부트스트랩
- 이동 블록 부트스트랩
- 베이즈 부트스트랩
- 10.4 모수적 부트스트랩
- 10.5 영향 함수와 안정적 추정
- 10.6 주석 및 상세 설명
- 부트스트랩 패키지
- 10.7 연습문제
- 11장. 부트스트랩 신뢰구간
- 11.1 단일 모수 문제에 대한 네이만의 구성
- 변환 불변성
- 11.2 퍼센타일 기법
- 11.3 편향 수정 신뢰구간
- 11.4 2차 정확성
- 11.5 부트스트랩-t 구간
- 11.6 객관적 베이즈 구간과 신뢰분포
- 11.7 주석 및 상세 설명
- 11.8 연습문제
- 11.1 단일 모수 문제에 대한 네이만의 구성
- 12장. 교차 검증과 Cp 예측 오차 추정
- 12.1 예측 규칙
- 12.2 교차 검증
- 12.3 공분산 페널티
- 12.4 훈련, 검증, 단기 예측 변수
- 12.5 주석 및 상세 설명
- 12.6 연습문제
- 13장. 객관적 베이즈 추론과 마르코프 체인 몬테 카를로
- 13.1 객관적 사전 분포
- 범위 매칭 사전 분포
- 13.2 켤레 사전 분포
- 객관적 베이즈 추론에 대한 비평
- 13.3 모델 선택과 베이즈 정보 기준
- 13.4 깁스 표본과 MCMC
- 13.5 예제: 개체군 혼합물 모델링
- 13.6 주석 및 상세 설명
- 13.7 연습문제
- 13.1 객관적 사전 분포
- 14장. 전후 시대의 통계적 추론과 기법
- 3부. 21세기 주제
- 15장. 대규모 가설 검정과 거짓 발견율
- 15.1 대규모 검정
- 15.2 거짓 발견율
- 15.3 경험적 베이즈 대규모 검정
- 15.4 지역 거짓 발견율
- 15.5 귀무분포의 선택
- 경험적 귀무 추정
- 15.6 연관성
- 요약
- 15.7 주석 및 상세 설명
- 15.8 연습문제
- 16장. 희소 모델링과 라소
- 16.1 전방 단계별 회귀
- 16.2 라소
- 16.3 라소 모델 적합화
- 16.4 최소각 회귀
- 라소와 자유도
- 16.5 일반화된 라소 모델 적합화
- 16.6 라소를 위한 선택-후 추론
- 16.7 연결과 확장
- 라소 로지스틱 회귀와 SVM
- 라소와 부스팅
- 라소의 확장
- 16.8 주석 및 상세 설명
- 16.9 연습문제
- 17장. 랜덤 포레스트와 부스팅
- 17.1 랜덤 포레스트
- OOB 오차 추정
- 표준오차
- 변수 중요도 그래프
- 17.2 제곱 오차 손실 함수를 사용한 부스팅
- 트리 깊이와 상호작용 복잡도
- 축소
- 17.3 그래디언트 부스팅
- 17.4 에이다부스트: 원래의 부스팅 알고리즘
- 17.5 연결과 확장
- 일반화 가첨 모델
- 부스팅과 라소
- 17.6 주석 및 상세 설명
- 17.7 연습문제
- 17.1 랜덤 포레스트
- 18장. 신경망과 딥러닝
- 18.1 신경망과 필기체 숫자 문제
- 18.2 신경망 적합화
- 그래디언트 계산: 역전파
- 그래디언트 하강
- 다른 튜닝 모수들
- 18.3 오토인코더
- 18.4 딥러닝
- 18.5 딥 네트워크 학습
- 18.6 주석 및 상세 설명
- 18.7 연습문제
- 19장. 서포트 벡터 머신과 커널 기법
- 19.1 최적 분리 초평면
- 19.2 소프트 마진 분류기
- 19.3 손실 플러스 페널티로서의 SVM 기준
- 19.4 계산과 커널 트릭
- 19.5 커널을 이용한 함수 적합화
- 19.6 예제: 단백질 분류에 대한 문자열 커널
- 19.7 SVM: 결론
- 19.8 커널 평활화와 지역 회귀
- 19.9 주석 및 상세 설명
- 19.10 연습문제
- 20장. 모델 선택 후의 추론
- 20.1 동시 신뢰구간
- 20.2 모델 선택 후 정확도
- 20.3 선택 편향
- 20.4 병합된 베이즈-빈도주의 추정
- 20.5 주석 및 상세 설명
- 20.6 연습문제
- 21장. 경험적 베이즈 추정 전략
- 21.1 베이즈 디컨볼루션
- 21.2 g-모델링과 추정
- 21.3 우도, 정규화, 정확도
- 21.4 두 가지 예제
- 21.5 일반화 선형 혼합 모델
- 21.6 디컨볼루션과 f-모델링
- 21.7 주석 및 상세 설명
- 21.8 연습문제