컴퓨터 시대의 통계적 추론 [알고리즘과 추론의 관계와 역할]
- 원서명Computer Age Statistical Inference: Algorithms, Evidence, and Data Science (ISBN 9781107149892)
- 지은이브래들리 에프론(Bradley Efron), 트레버 해스티(Trevor Hastie)
- 옮긴이이병욱
- ISBN : 9791161752860
- 50,000원
- 2019년 04월 29일 펴냄
- 하드커버 | 612쪽 | 150*228mm
- 시리즈 : acorn ADVANCED, 데이터 과학
책 소개
2020년 대한민국학술원 우수학술도서 선정도서
요약
베이즈 규칙이 발견된 1763년부터 지금까지, 250년이 넘는 시간 동안의 수많은 알고리즘의 개발과 각 알고리즘의 정확도에 관여된 추론의 발전에 관해 설명하는 책이다. '추론'이 '단순히 알고리즘의 정확도를 말하는 것' 이상의 것임을 보여주며, 빅데이터 시대의 여러 경험적 기법을 세세히 알려준다. 또한 전통적 기법의 시대인 베이즈, 빈도주의, 피셔주의 시대와 컴퓨터가 등장한 초기 시대인 1950년에서 1990년, 그리고 그 이후부터 현재까지의 세 가지 연대를 나눠, 각 시대에 있어 알고리즘과 추론의 발전에 대해 설명한다. 각 장은 서로 연관돼 있으면서도 독립적으로 읽을 수 있도록 구성돼 있다.
추천의 글
“이 귀한 책은 통계학 분야가 과거 60년간 컴퓨터 성능의 발달에 적응하며 진화해온 과정을 많은 예제를 통해 그 속성과 함께 설명한다. 저자의 관점은 ‘매우 개략적으로 말하자면, 알고리즘은 통계학자들이 수행하는 작업인 반면 추론은 그들이 왜 그것을 하는지 말해준다.’는 대목에 잘 요약돼 있다. 이 책은 이 ‘왜’를 설명한다. 다시 말해, 이 책은 여러 주요 기법을 자세히 살펴보며 통계적 연구의 목적과 발전을 설명하는데, 그 기법들은 저자들이 발전시키고 연구해온 것들이다. 이 책은 재미있는 동시에 계몽적이다. 특히, 통계적 분석을 정의하는 근본적 수학에 의해 어떻게 아이디어가 실현되는지를 확인하려는 사람들을 위해 저술됐다. 그리고 이 책은 막 대학원 과정을 시작하는 학생들이 전통적인 교과 과정을 보충할 수 있는 내용을 담고 있다.”
― 롭 카스(Rob Kass)/ 카네기 멜론 대학교
“이 책은 대단하다. 컴퓨터 시대 통계를 이끈 이론과 방법론적 발전 사이의 상호작용에 대해 명확하고 쉽고 재미있게 설명한다. 잘 정립된 통계적 이론의 프레임워크 안에서 ‘빅데이터’ 분석의 현대적 알고리즘 기법을 기발하게 밝혀내는 데 성공했다.”
― 알라스테어 영(Alastair Young)/ 임페리얼 칼리지 런던
“이 책은 개념과 계산력의 발달이 강조되는 현대 통계학으로의 가이드 여행과 같다. 두 거장에 의해 저술된 이 책은 수학적 분석과 통찰력 있는 조언의 적절한 조합을 제공한다.”
― 할 바리언(Hal Varian)/ 구글
“에프론과 해스티는 우리가 컴퓨터 진화를 따라가는 혁신적 통계 기법의 미로를 통과할 수 있게 안내해준다. 통계적 기법이 왜 개발됐으며, 그 성질은 무엇이고, 어떻게 사용됐는지 알려준다. 또한 기원을 조명하면서 각 기법이 추론과 예측에서 어떤 역할을 하는지 이해할 수 있도록 도와준다. 이 책에서 유지하고 있는 추론과 예측의 구분은 통계학 책 분야에서 환영받을 만한 중요한 신개념이다.”
― 개릿 쉬무엘리(Galit Shmueli)/ 국립 칭화 대학교
“전통적 통계학의 추론 기반이 21세기 데이터 과학의 원론을 어떤 식으로 규정하는지 보여주는 거장다운 안내서다.”
― 스티븐 스티글러(Stephen Stigler)/ 시카고 대학교, 『통계학을 떠받치는 일곱 기둥 이야기』의 저자
“현대 통계학의 두 거장은 통계학과 컴퓨터가 힘을 합친 세상으로의 통찰력 있는 여행을 제공한다. 일련의 주요 주제에서 예측과 데이터 이해를 위한 현대적 기법이 어떻게 통계와 계산적 사고에 뿌리를 내리고 있는지 밝혀준다. 계산 능력의 발전이 어떻게 전통적 기법과 문제들을 변환시켰는지 보여주고 통계에 대한 새로운 사고방식을 일깨워준다.”
― 데이비드 블레이(David Blei)/ 컬럼비아 대학교
“정말 대단하다. 아름답게 쓰인 이 책은 저자들의 생각을 포함해 거대한 통계적 아이디어를 다수 설명한다. 통계학이나 데이터 과학에 종사하고 있는 모두에게 필독서며, 반복해 읽어야 할 책이다. 에프론과 해스티는 과거, 현재, 미래에 걸쳐 계속 커지고 있는 통계적 추론의 힘을 보여준다.
― 칼 모리스(Carl Morris)/ 하버드 대학교
이 책에서 다루는 내용
21세기는 그 영역과 영향 모두에서 통계적 기법이 숨 막힐 정도로 확장돼 왔다. 통계적 기법이 현대 과학과 상거래의 방대한 데이터 집합을 다루게 되면서, 이제 ‘빅테이터’, ‘데이터 과학’, ‘머신 러닝’이라는 말은 신문 지상에서 흔히 접하는 용어가 됐다. 어떻게 여기까지 오게 됐을까? 그리고 어디로 향하고 있는 것일까?
이 책은 우리를 1950년대 전자식 컴퓨터가 등장한 이래 이어져온 데이터 분석의 혁신을 향한 신나는 여행으로 데려간다. 전통적 추론 이론인 베이즈, 빈도주의, 피셔에서 출발해 각 장은 일련의 영향력 있는 주제를 다룬다. 생존 분석, 로지스틱 회귀, 경험적 베이즈, 잭나이프와 부트스트랩, 랜덤 포레스트, 신경망, 마르코프 체인 몬테 카를로, 모델 선정 후 추론 등 수십 가지 주제가 있으며, 현대적 기법을 통해 방법론과 알고리즘을 통계적 추론과 통합한다. 이 책은 통계학과 데이터 과학의 미래 방향을 예측하는 것으로 결론을 내린다.
상세 이미지
목차
목차
- 1부. 전통적인 통계적 추론
- 01장. 알고리즘과 추론
- 1.1 회귀 예제
- 1.2 가설 검정
- 1.3 주석 및 상세 설명
- 02장. 빈도주의 추론
- 2.1 실제에서의 빈도주의
- 2.2 빈도주의 최적성
- 2.3 주석 및 상세 설명
- 03장. 베이즈 추론
- 3.1 두 가지 예제
- 3.2 불충분 정보 사전 분포
- 3.3 빈도주의 추론의 결함
- 3.4 베이즈/빈도주의 비교 리스트
- 3.5 주석 및 상세 설명
- 04장. 피셔 추론과 최대 우도 예측
- 4.1 우도와 최대 우도
- 4.2 피셔 정보와 MLE
- 4.3 조건부 추론
- 4.4 순열과 랜덤화
- 4.5 주석 및 상세 설명
- 05장. 모수적 모델과 지수 패밀리
- 5.1 일변량 패밀리
- 5.2 다변량 정규분포
- 5.3 다모수 패밀리의 피셔 정보 경계
- 5.4 다항분포
- 5.5 지수 패밀리
- 5.6 주석 및 상세 설명
- 2부. 초기 컴퓨터 시대 기법
- 06장. 경험적 베이즈
- 6.1 로빈의 공식
- 6.2 누락된 종 문제
- 6.3 의학 예제
- 6.4 간접 증거 1
- 6.5 주석 및 상세 설명
- 07장. 제임스-스타인 추정과 리지 회귀
- 7.1 제임스-스타인 추정기
- 7.2 야구 선수들
- 7.3 리지 회귀
- 7.4 간접 증거 2
- 7.5 주석 및 상세 설명
- 08장. 일반화된 선형 모델과 회귀 트리
- 8.1 로지스틱 회귀
- 8.2 일반화 선형 모델
- 8.3 포아송 회귀
- 8.4 회귀 트리
- 8.5 주석 및 상세 설명
- 09장. 생존 분석과 EM 알고리즘
- 9.1 생명표와 위험률
- 9.2 검열된 데이터와 카플란-마이어 추정
- 9.3 로그 순위 검정
- 9.4 비례적 위험률 모델
- 9.5 누락 데이터와 EM 알고리즘
- 9.6 주석 및 상세 설명
- 10장. 잭나이프와 부트스트랩
- 10.1 표준오차에 대한 잭나이프 추정
- 10.2 비모수적 부트스트랩
- 10.3 재표본추출 계획
- 10.4 모수적 부트스트랩
- 10.5 영향 함수와 안정적 추정
- 10.6 주석 및 상세 설명
- 11장. 부트스트랩 신뢰구간
- 11.1 단일 모수 문제에 대한 네이만의 구성
- 11.2 퍼센타일 기법
- 11.3 편향 수정 신뢰구간
- 11.4 2차 정확성
- 11.5 부트스트랩-t 구간
- 11.6 객관적 베이즈 구간과 신뢰분포
- 11.7 주석 및 상세 설명
- 12장. 교차 검증과 Cp 예측 오차 추정
- 12.1 예측 규칙
- 12.2 교차 검증
- 12.3 공분산 페널티
- 12.4 훈련, 검증, 단기 예측 변수
- 12.5 주석 및 상세 설명
- 13장. 객관적 베이즈 추론과 마르코프 체인 몬테 카를로
- 13.1 객관적 사전 분포
- 13.2 켤레 사전 분포
- 13.3 모델 선택과 베이즈 정보 기준
- 13.4 깁스 표본과 MCMC
- 13.5 예제: 개체군 혼합물 모델링
- 13.6 주석 및 상세 설명
- 14장. 전후 시대의 통계적 추론과 기법
- 3부. 21세기 주제
- 15장. 대규모 가설 검정과 거짓 발견율
- 15.1 대규모 검정
- 15.2 거짓 발견율
- 15.3 경험적 베이즈 대규모 검정
- 15.4 지역 거짓 발견율
- 15.5 귀무분포의 선택
- 15.6 연관성
- 15.7 주석 및 상세 설명
- 16장. 희소 모델링과 라소
- 16.1 전방 단계별 회귀
- 16.2 라소
- 16.3 라소 모델 적합화
- 16.4 최소각 회귀
- 16.5 일반화된 라소 모델 적합화
- 16.6 라소를 위한 선택-후 추론
- 16.7 연결과 확장
- 16.8 주석 및 상세 설명
- 17장. 랜덤 포레스트와 부스팅
- 17.1 랜덤 포레스트
- 17.2 제곱 오차 손실 함수를 사용한 부스팅
- 17.3 그래디언트 부스팅
- 17.4 에이다부스트: 원래의 부스팅 알고리즘
- 17.5 연결과 확장
- 17.6 주석 및 상세 설명
- 18장. 신경망과 딥러닝
- 18.1 신경망과 필기체 숫자 문제
- 18.2 신경망 적합화
- 18.3 오토인코더
- 18.4 딥러닝
- 18.5 딥 네트워크 학습
- 18.6 주석 및 상세 설명
- 19장. 서포트 벡터 머신과 커널 기법
- 19.1 최적 분리 초평면
- 19.2 소프트 마진 분류기
- 19.3 손실 플러스 페널티로서의 SVM 기준
- 19.4 계산과 커널 트릭
- 19.5 커널을 이용한 함수 적합화
- 19.6 예제: 단백질 분류에 대한 문자열 커널
- 19.7 SVM: 결론
- 19.8 커널 평활화와 지역 회귀
- 19.9 주석 및 상세 설명
- 20장. 모델 선택 후의 추론
- 20.1 동시 신뢰구간
- 20.2 모델 선택 후 정교함
- 20.3 선택 편향
- 20.4 병합된 베이즈-빈도주의 추정
- 20.5 주석 및 상세 설명
- 21장. 경험적 베이즈 추정 전략
- 21.1 베이즈 디컨볼루션
- 21.2 g-모델링과 추정
- 21.3 우도, 정규화, 정확도
- 21.4 두 가지 예제
- 21.5 일반적 선형 혼합 모델
- 21.6 디컨볼루션과 f-모델링
- 21.7 주석 및 상세 설명
도서 오류 신고
정오표
정오표
[p.124 : 15행]
실제 θ{k} 값이
->
실제 x{k} 값이