Top

흥미로운 베이지안 통계 [스타워즈, 레고, 러버 덕으로 이해하는 통계와 확률]

  • 원서명Bayesian Statistics the Fun Way: Understanding Statistics and Probability with Star Wars, LEGO, and Rubber Ducks(ISBN 9781593279561)
  • 지은이윌 커트(Will Curt)
  • 옮긴이윤정미
  • ISBN : 9791161754864
  • 30,000원
  • 2020년 12월 30일 펴냄
  • 페이퍼백 | 356쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

요약

불확실성을 잘 추론할 수 있도록 베이지안 방법을 어떻게 적용하는지 LEGO 블록, 트와일라잇 존, 스타워즈 등 다양하고 흥미로운 예제를 통해 설명한다. 또한 수많은 문제에 베이지안 통계를 적용해 불확실성을 모델링할 수 있게 하고 제한된 정보로 더 나은 선택을 할 수 있게 한다. 3부로 구성돼 있으며, 1부에서는 확률을 소개하고 2부에서는 베이지안 확률과 사전확률을 다루며 3부에서는 모수 추정, 4부에서는 통계의 핵심인 가설 검정으로 주제를 확장한다.
다양한 분야에 활용할 수 있으며, 머신러닝, 그래픽, 웹 개발 등 여러 업계에서 선호하는 언어로 꾸준히 성장하고 있는 파이썬을 사용한다. 프로그래밍의 기본 문법뿐만 아니라 수학, 과학, 예술 사이의 연관성을 발견하면서 도전적이고도 재미있게 파이썬을 활용할 수 있게 한다. 문제 해결 결과를 조금 더 시각화하기 위해 그래픽과 도형, 동작, 색을 제공하는 프로세싱을 파이썬과 같이 사용한다.

이 책에서 다루는 내용

■ 분포를 계산해 신념의 범위 확인
■ 가설을 비교하고 신뢰할 만한 결론 도출
■ 베이즈 정리를 계산하고 그것이 무엇에 유용한지 이해
■ 결론의 정확성을 확인할 수 있는 사후, 우도, 사전 찾기
■ R 프로그래밍 언어를 사용해 데이터 분석 수행

이 책의 대상 독자

유일한 요구 사항은 고등학교 때 배운 기본 대수학이다. 몇 가지 수학적인 예를 볼 수 있지만 특별히 부담스러운 것은 없다. R 프로그래밍 언어로 작성된 코드를 약간 사용하지만, 이 책에서 제공하고 설명하므로 R을 미리 배울 필요는 없다. 또한 미적분학에 대해서도 다루지만 이 역시 사전 경험을 필요로 하진 않는다. 부록에서 관련 정보를 충분히 제공할 것이다.
즉, 이 책은 중요한 수학적인 배경 없이 문제를 수학적인 방법으로 생각할 수 있도록 돕는 것을 목표로 한다. 책을 모두 읽고 나면 일상생활에서 문제를 설명하기 위해 무심코 방정식을 작성하고 있는 자신을 발견할지도 모른다.
만약 통계(베이지안 통계조차도)에 대해 강력한 배경지식이 있다고 하더라도 여전히 이 책을 읽으며 즐거운 시간을 보낼 것이라고 믿는다. 다른 시각으로 기본을 반복, 재검토하는 것이 한 분야를 이해하는 가장 좋은 방법이라고 생각한다. 저자도 글을 쓰는 과정에서 놀라운 것들을 많이 발견했다.

이 책의 구성

1부: 확률 소개
1장. 베이지안 사고와 일상적 추론
베이지안 사고를 소개하고, 어떤 상황에 대해 비판적으로 생각하는 일상적인 방법과 베이지안 사고가 얼마나 유사한지 보여준다. 세상에 대해 이미 알고 있고 믿는 것을 바탕으로 저녁에 창문 밖으로 보이는 밝은 빛이U FO일 확률을 살펴볼 것이다.

2장. 불확실성 측정
동전 던지기 예제를 이용해 확률의 형태로 불확실성에 실제값을 할당한다. 무엇인가에 대한 확신이 얼마인지 나타내기 위해 0부터 1까지의 숫자를 사용한다.

3장. 불확실성의 논리
논리에서는 참인 것과 거짓인 사실을 결합하기 위해 AND, NOT 및 OR 연산자를 사용한다. 확률도 이러한 연산자와 비슷한 개념을 가지고 있다. 약속을 지키기 위한 최적의 교통수단을 추론하는 방법과 교통위반 통고서를 받을 가능성을 조사할 것이다.

4장. 이항 확률분포 생성
확률 규칙을 논리로 사용해 고유한 확률분포, 이항분포를 만들어 유사한 구조를 갖는 많은 확률 문제에 적용할 수 있게 한다. 당신은 가챠 카드 게임에서 유명한 통계학자 카드를 수집할 확률을 예측할 것이다.

5장. 베타분포
첫 번째 연속 확률분포를 배우고 통계를 확률과 다르게 만드는 요인을 소개한다. 통계의 실행은 주어진 데이터를 기반으로 알지 못하는 확률을 알아내려고 노력하는 것을 포함한다. 5장의 예제에서는 마법 동전 분배 상자를 통해 잃은 돈보다 더 많은 돈을 얻을 가능성 에 관해 조사할 것이다.

2부: 베이지안 확률과 사전확률
6장. 조건부확률
기존 정보를 바탕으로 확률을 조건화한다. 일례로 누군가가 남성인지 혹은 여성인지 아는 것은 그들이 색맹일 가능성이 얼마나 높은지를 알려주는 것과 같은 것이다. 또한 조건부확률을 역으로 하는 베이즈 정리를 소개한다.

7장. LEGO를 사용한 베이즈 정리
LEGO 블록에 대한 추론을 통해 베이즈 정리에 대해 더 나은 직관을 얻을 수 있다. 7장에서는 베이즈 정리가 수학적으로 수행하는 작업에 대한 공간적 감각을 제공할 것이다.

8장. 베이즈 정리의 사전, 우도, 사후
베이즈 정리는 일반적으로 세 부분으로 나뉘며 각각은 베이지안 추론에서 자체의 기능을 수행한다. 실제로 각 부분을 무엇이라고 부르고 어떻게 사용하는지 배울 것이다.

9장. 베이지안 사전확률 및 확률분포
영화 〈스타워즈: 제국의 역습〉의 고전적인 소행성 시나리오의 이해를 돕기 위해 베이즈 정리를 어떻게 사용하는지 살펴보고, 이를 통해 베이지안 통계의 사전확률에 대한 이해를 높일 수 있다. 또한 전체 분포를 사전으로 어떻게 사용할 수 있는지도 알 수 있다.

3부: 모수 추정
10장. 평균화 및 모수 추정 소개
모수 추정은 불확실한 값에 대한 최상의 추측을 공식화하기 위해 사용하는 방법이다. 모수 추정에서 가장 기본적인 도구는 간단하게 관찰값을 평균화하는 것이다. 10장에서는 적설량을 분석해 이것이 작동하는 이유를 살펴볼 것이다.

11장. 데이터의 산포도 측정
평균을 구하는 것은 모수를 추정하는 데 유용한 첫 번째 단계이지만, 관찰값이 얼마나 퍼져 있는지 설명하는 방법도 필요하다. 여기서는 관찰값이 얼마나 퍼져 있는지 측정하기 위한 방법으로 평균절대편차(MAD, Mean Absolute Deviation), 분산, 표준편차를 소개한다.

12장. 정규분포
평균과 표준편차를 결합하면 추정을 위해 매우 유용한 분포인 정규분포를 얻을 수 있다. 12장에서는 정규분포를 사용해 알지 못하는 값을 추정할 수 있을 뿐만 아니라 이러한 추정치에 대해 얼마나 확신하는지 알 수 있는 방법을 배울 것이다. 이러한 새로운 기술을 사용해 은행 강도 사건에서 탈출 시간을 결정할 것이다.

13장. 모수 추정 도구: PDF, CDF, 분위수 함수
PDF, CDF 및 분위수 함수를 배워 모수 추정을 더욱 잘 이해할 수 있게 한다. 이러한 도구들을 사용해 이메일 전환율을 추정할 수 있고 각각의 도구가 제공하는 통찰력을 확인할 수 있다.

14장. 사전확률을 고려한 모수 추정
모수 추정을 개선하기 위한 가장 좋은 방법은 사전확률을 포함하는 것이다. 14장에서는 이메일 클릭율 성공에 관해 사전 정보를 추가하면 새로운 이메일에 대한 실제 전환율을 더 잘 추정하는 데 어떻게 도움이 되는지 살펴볼 것이다.

4부: 가설 검정 : 통계의 핵심
15장. 모수 추정에서 가설 검정까지: 베이지안A /B 테스트 구축
이제 불확실한 값을 추정할 수 있게 됐으니 가설을 검정하기 위해 두 개의 불확실한 값을 비교하는 방법이 필요하다. 새로운 이메일 마케팅 방법에 대해 얼마나 확신이 있는지 알기 위해 A/B 테스트를 생성할 것이다.

16장. 베이즈 요인 및 사후 오즈 소개: 아이디어 경쟁
희귀질환에 걸렸는지 확인하기 위해 늦게까지 자지 않고 웹을 검색한 적이 있는가? 16장에서는 실제로 얼마나 걱정해야 하는지를 결정하는 데 도움이 되는 아이디어를 테스트하기 위한 또 다른 접근법을 소개할 것이다.

17장. <트와일라잇>에서의 베이지안 추론
초능력적인 힘에 대해 얼마나 믿는가? 여기서는 <트와일라잇>의 고전적인 에피소드 상황을 분석해 마음을 읽는 기술을 개발할 것이다.

18장. 데이터가 확신을 주지 못할 때
때로는 데이터가 누군가의 신념을 바꾸거나 논쟁에서 이기는 데 도움을 줄 정도로 충분하지 않을 수 있다. 동의하지 않는 의견에 대해 친구의 마음을 바꾸게 할 수 있는 방법과 호전적인 사람과 논쟁할 가치가 없는 이유를 알아보자.

19장. 가설 검정에서 모수 추정까지
다양한 가설에 대해 비교하는 방법을 살펴봄으로써, 모수 추정으로 다시 돌아간다. 특정 게임의 공정성을 분석하기 위해 간단한 가설 검정에서 다룬 도구를 사용해 첫 번째 통계 예제인 베타분포를 도출할 것이다.

부록 A: R의 간단한 소개
R 프로그래밍 언어의 기본 사항에 대해 간략하게 설명할 것이다.

부록 B: 미적분 개념 소개
이 책에서 사용되는 수학을 편안하게 해줄 수 있을 만큼의 미적분을 다룰 것이다.

저자/역자 소개

지은이의 말

베이지안 통계는 매우 유용하다는 것 외에도 아주 재미있을 것이다.
베이지안 추론을 배우는 데 도움을 주기 위해 LEGO 블록, 〈트와일라잇 존〉, 〈스타워즈〉 등을 살펴볼 것이다. 문제에 대해 일단 확률적으로 생각하기 시작하면 모든 곳에서 베이지안 통계를 사용하기 시작할 것이다. 매우 빠르고 재미있게 읽을 수 있도록 구성됐으므로, 페이지를 넘겨 베이지안 통계로의 모험을 시작해보자.

지은이 소개

윌 커트(Will Curt)

현재 웨이페어(Wayfair)에서 데이터 과학자로 일하고 있으며, 50년 이상 베이지안 통계를 사용해 실제 비즈니스 문제를 해결해왔다. 운영 중인 블로그 countBayesie.com에서 확률에 관해 자주 이야기한다. 『Get Programming with Haskell』(Manning, 2018)의 저자로 미국 매사추세츠주 보스턴에 살고 있다

옮긴이의 말

이 책은 불확실성에 대한 추론을 잘할 수 있도록 베이지안 방법을 어떻게 적용하는지 LEGO 블록, 드라마 <트와일라잇>과 영화 <스타워즈> 등 다양하고 흥미로운 예제를 통해 설명한다. 이미 여러분은 일상생활에서 무의식 중에 베이지안 사고를 하고 있다. 이 책은 그런 수많은 문제에 대해 베이지안 통계를 적용해 불확실성을 모델링할 수 있게 하고 제한된 정보로 더 나은 선택을 할 수 있게 한다. 베이지안 통계는 직면하고 있는 문제를 살펴보고 수학적으로 묘사하는 방법을 찾은 다음 추론을 사용해 문제를 해결토록 한다.
이 책은 3부로 구성돼 있다. 1부에서는 베이지안 사고, 불확실성의 논리 및 기본 확률 분포를 포함하는 확률에 관해 소개한다. 2부에서는 조건부 확률과 베이즈 정리를 포함하는 베이지안 확률과 사전확률을 다룬다. 3부에서는 데이터의 산포도 측정, 정규분포 및 모수 추정 도구를 포함하는 모수 추정을 다루며, 마지막 4부에서는 통계의 핵심인 가설검정으로 확장시킨다.
이 책의 유일한 요구 사항은 고등학교 때 배운 기본 대수학이다. 몇 가지 수학적인 예를 볼 수 있지만 특별히 부담스러운 것은 없다. 중요한 수학적인 배경 없이도 문제를 수학적인 방법으로 생각하는 것을 시작할 수 있도록 도와준다. 미적분학에 대해서도 기본 개념 정도를 다루지만 이 역시 사전 경험을 필요로 하지 않는다. 부록에서 책을 이해하는 데 필요한 미적분의 기본 개념을 충분히 제공할 것이다. 또한 R 프로그래밍 언어로 작성된 약간의 코드를 사용하지만 필요한 내용을 모두 부록에서 제공하고 설명하므로 R을 미리 배울 필요는 없다.

옮긴이 소개

윤정미

가톨릭대학교에서 수학 전공으로 학사를, 이화여자대학교 대학원에서 컴퓨터 전공으로 석사를 마쳤으며 The Graduate Center of the City University of New York에서 컴퓨터 공학 전공으로 박사학위를 받았다. 이후 몇 개 대학교에 출강해 데이터베이스와 시뮬레이션 등을 강의했고, 1990년부터 현재까지 유한대학교 IT소프트웨어공학과 교수로 재직 중이다.
「병렬 컴퓨터상에서 GPSS 구현을 위한 알고리즘」, 「통계 기반 교통시뮬레이션의 애니메이션화」 등 다수의 논문을 썼으며 『예제 따라가며 쉽게 배우는 오라클』(기한재, 2015), 『알기 쉽게 쓴 비주얼 베이직』(생능출판사, 2001) 등의 저서가 있다. 『파이썬과 함께 하는 수학 어드벤처』(에이콘, 2020), 『파이썬으로 풀어보는 회귀분석』(에이콘, 2019) 등을 번역했다.

목차

목차
  • 1부. 확률 소개
  • 1장. 베이지안 사고와 일상적 추론
    • 낯선 경험에 대한 추론
      • 관찰 데이터
      • 사전 신념 보유 및 조건부확률
      • 가설 형성
      • 일상 언어에서의 가설 발견
    • 더 많은 증거 수집과 신념 업데이트
    • 가설 비교
    • 데이터는 신념에 영향을 미치지만 신념은 데이터에 영향을 미치지 않는다
    • 마무리
    • 연습 문제

  • 2장. 불확실성 측정
    • 확률이란 무엇인가?
    • 사건의 결과를 세어 확률 계산
    • 신념의 비율로 확률 계산
      • 오즈를 이용한 확률 결정
      • 확률 해결
      • 동전 던지기에서의 신념 측정
    • 마무리
    • 연습 문제

  • 3장. 불확실성의 논리
    • AND를 사용한 결합 확률
      • 두 가지 확률의 결합 해결
  • 확률에 곱의 규칙 적용
    • 예제: 지각할 확률 계산
    • OR를 사용한 결합 확률
  • 상호 배타적인 사건에 대한 OR 계산
    • 상호 배타적이지 않은 사건에 합의 규칙 사용
    • 예제: 높은 벌금을 받을 확률 계산
  • 마무리
  • 연습 문제

  • 4장. 이항 확률분포 생성
    • 이항분포의 구조
    • 문제의 세부 사항을 이해하고 추출하기
    • 이항계수를 사용해 결과의 수 세기
      • 조합: 이항계수를 사용해 세기
      • 원하는 결과의 확률 계산
    • 예제: 가챠 게임
    • 마무리
    • 연습 문제

  • 5장. 베타분포
    • 마법 상자 시나리오: 데이터 얻기
      • 확률, 통계, 추론의 구분
      • 데이터 수집
      • 확률의 확률 계산
    • 베타분포
      • 확률 밀도함수 분해
      • 문제에 확률 밀도함수 적용
      • 적분을 이용한 연속 분포 정량화
    • 가챠 게임 리버스 엔지니어링
    • 마무리
    • 연습 문제

  • 2부. 베이지안 확률과 사전확률
  • 6장. 조건부확률
    • 조건부확률 소개
      • 조건부확률이 중요한 이유
      • 확률의 종속성과 수정된 규칙
    • 역방향 조건부확률과 베이즈 정리
    • 베이즈 정리 소개
    • 마무리
    • 연습 문제

  • 7장. 레고를 사용한 베이즈 정리
    • 조건부확률 시각화 작업
    • 수학적으로 작업
    • 마무리
    • 연습 문제

  • 8장. 베이즈 정리의 사전, 우도 및 사후
    • 세 부분
    • 범죄 현장 조사
      • 우도 해결
      • 사전확률 계산
      • 데이터 정규화
    • 대립 가설 고려
      • 대립 가설에 대한 우도
      • 대립 가설에 대한 사전확률
      • 대립 가설에 대한 사후확률
    • 정규화하지 않은 사후확률 비교
    • 마무리
    • 연습 문제

  • 9장. 베이지안 사전확률 및 확률분포
    • C-3PO의 소행성 지대 의심
    • C-3PO의 신념 결정
    • 한 솔로의 공격성에 대한 설명
    • 사후확률로 긴장감 조성
    • 마무리
    • 연습 문제

  • 3부. 모수 추정

  • 10장. 평균화 및 모수 추정 소개
    • 적설량 추정
      • 측정 값을 평균화한 오차 최소화
      • 단순화된 버전의 문제 해결
      • 좀 더 극단적인 사례 해결
      • 가중 확률로 실제 값 추정
      • 기댓값, 평균 및 평균화 정의
    • 측정을 위한 평균 대 요약을 위한 평균
    • 마무리
    • 연습 문제

  • 11장. 데이터의 산포도 측정
    • 우물에 동전 떨어뜨리기
    • 평균절대편차 찾기
    • 분산 찾기
    • 표준편차 찾기
    • 마무리
    • 연습 문제

  • 12장. 정규분포
    • 특정한 행동을 위해 퓨즈 측정하기
    • 정규분포
    • 퓨즈 문제 해결
    • 약간의 트릭과 직감
    • “N 시그마” 이벤트
    • 베타분포와 정규분포
    • 마무리
    • 연습 문제

  • 13장. 모수 추정 도구: PDF, CDF, 분위수 함수
    • 이메일 등록에 대한 전환율 추정
    • 확률밀도함수
      • PDF의 시각화 및 해석
      • R에서 PDF 작업
    • 누적분포함수 소개
      • CDF의 시각화 및 해석
      • 중앙값 찾기
      • 적분을 시각적으로 접근
      • 신뢰구간 추정
      • R에서 CDF 사용
    • 분위수 함수
      • 분위수 함수의 시각화 및 이해
      • R에서 분위 계산
    • 마무리
    • 연습 문제

  • 14장. 사전확률을 고려한 모수 추정
    • 이메일 전환율 예측
    • 사전 신념으로 폭넓은 상황 정보 취하기
    • 경험을 수량화하는 수단으로서의 사전
    • 아무것도 모를 때 사용할 공정한 사전이 있나?
    • 마무리
    • 연습 문제

  • 4부. 가설 검정: 통계의 핵심
  • 15장. 모수 추정에서 가설 검정까지: 베이지안 A/B 테스트 구축
    • 베이지안 A/B 테스트 설정
      • 사전확률 찾기
      • 데이터 수집
    • 몬테카를로 시뮬레이션
      • 얼마나 많은 세계에서 B가 더 나은 변형일까?
      • 변형 B가 변형 A보다 얼마나 더 나은가?
    • 마무리
    • 연습 문제

  • 16장. 베이즈 요인 및 사후 오즈 소개: 아이디어 경쟁
    • 베이즈 정리 재논의
    • 사후 비율을 사용해 가설 검정 구축
      • 베이즈 요인
      • 사전 오즈
      • 사후 오즈
    • 마무리
    • 연습 문제

  • 17장. <트와일라잇 존>에서의 베이지안 추론
    • <트와일라잇 존>에서의 베이지안 추론
    • 베이즈 요소를 사용해 미스틱 시어 이해하기
      • 베이즈 요인 측정
      • 사전 신뢰의 처리
    • 자신의 초능력 개발
    • 마무리
    • 연습 문제

  • 18장. 데이터가 확신을 주지 못할 때
    • 주사위 던지기와 초능력적인 친구
      • 우도 비교
      • 사전 오즈 포함
      • 대립 가설 고려
    • 친척 및 음모론자와의 논쟁
    • 마무리
    • 연습 문제

  • 19장. 가설 검정에서 모수 추정까지
    • 카니발 게임은 정말 공정한가?
      • 다중 가설 고려
      • R을 사용해 더 많은 가설 검색
      • 우도 비율에 사전 추가
    • 확률분포 구축
    • 베이즈 요인에서 모수 추정까지
    • 마무리
    • 연습 문제

  • 부록 A. R의 간단한 소개
    • R과 RStudio
    • R 스크립트 생성
    • R의 기본 개념
      • 자료형
      • 결측값
      • 벡터
    • 함수
      • 기본 함수
    • 랜덤 샘플링
      • runif() 함수
      • rnorm() 함수
      • sample() 함수
      • 예측 가능한 랜덤 결과에 set.seed() 사용
    • 사용자 함수 정의
    • 기본 플롯 생성
    • 예제: 주가 시뮬레이션
    • 요약

  • 부록 B. 미적분 개념 소개
    • 함수
      • 얼마나 멀리 달렸는지 추정하기
      • 곡선 아래 면적 측정: 적분
      • 변화율 측정: 미분
    • 미적분의 기본 정리

  • 부록 C. 연습 문제 답안
  • 도서 오류 신고

    도서 오류 신고

    에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

    오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

    (예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

    정오표

    정오표

    [p.52 : 아래에서 4행]
    Yankess
    ->
    Yankees

    [p.128 : 연습문제 1]
    P(창문 깨짐, 현관문 열림, 노트북 없어짐 | 도둑맞음) = 3/10
    ->
    P(창문 깨짐, 현관문 열림, 노트북 없어짐 | 도둑맞음) = 3/100

    [p.237 : 마지막 식]
    1.0003
    ->
    0.0003

    [p.317 : 해답3]
    이것은 B(5; 10, 1/23)이다.
    ->
    이것은 B(5; 10, 1/13)이다.