통계의 함정 [통계의 역설로 본 환상과 거짓]
- 원서명Probably Overthinking It: How to Use Data to Answer Questions, Avoid Statistical Traps, and Make Better Decisions (ISBN 9780226822587)
- 지은이앨런 B. 다우니(Allen B. Downey)
- 옮긴이김상현
- ISBN : 9791161758343
- 28,000원
- 2024년 04월 26일 펴냄
- 페이퍼백 | 328쪽 | 152*228mm
- 시리즈 : 데이터 과학
책 소개
요약
여론 조사, 주식 시장, 지진 예측, 일기예보, 공중보건, 스포츠 등 어디나 존재하는 통계는 우리의 이해를 돕기도 하지만 속이거나 혼란을 부추기기도 한다. 수학의 대표적 역설에 깃든 통계의 오해를 알기 쉽게 파헤치는 가운데 바른 통계 분석과 이해의 지혜를 일러준다.
그릇된 통계 분석과 해석은 단순한 오해를 넘어 부정확한 의료 진단, 대규모 지진 예측 실패, 사회 불평등 악화, 엉터리 정책 결정 등으로 이어질 수 있다. 통계 숫자를 보는 방식에는 맞거나 틀린 것들이 있다. 이 책은 어느 쪽이 맞고 틀린지 독자들이 파악할 수 있도록 명쾌하게 알려준다.
추천의 글
“빈번하게 만나는 통계적 오류와 역설을 대단히 흥미롭게 폭로하고 파헤친다. 그림들로 보여주는 사례와 증거들은 설득력이 매우 높고 문장은 더없이 명징하다. 이 책이 들려주는 통계적 교훈과 통찰이 적용되지 않는 인간 활동의 영역은 거의 없다.”
“통계학에 대한 저자의 애정이 책 전반에서 빛을 발한다. 우리 시대의 심각하고 논쟁적인 사안들의 진실을 규명하는 일에서 통계적 방법론이 얼마나 중요한지에 대한 그의 사회적 양심과 신념 또한 마찬가지다.”
“마크 트웨인은 ‘사실은 완고하지만 통계는 유연하다.’라고 말한 적이 있다. 저자는 어떻게 그런 일이 벌어지는지, 심지어 사실을 모호하게 숨기려 애쓰지 않는 사람들에게도 벌어지는지 잘 이해하고 있다. 1971년 임산부의 흡연이 태아에게 유익할지 모른다는 데이터를 발견한 사람은 양심적인 연구자였지만 데이터를 잘못 해석하는 바람에 정부의 금연 대책을 10년 지연시키는 결과를 낳았다. 저자는 명징하고 설득력 있는 분석으로 왜 데이터가 다른 많은 경우들과 마찬가지로 오해되는지 설명한다. 교육적 가치가 높은 책이다."
“통계가 어디까지 매혹적이고 흥미로울 수 있는지 보여주는 책이다. 독자들은 고등 수학자일 필요도 없다. 그저 세상에 대한 호기심만 있으면 책을 즐기기에 충분하다.”
이 책의 구성
이 책에서 다루는 몇몇 사례들은 기존에 출간된 연구 내용이고, 다른 경우는 데이터에 대한 내 나름의 관찰과 탐구 내용이다. 이전 연구 결과를 그대로 보고하거나 수치를 베끼기보다는 해당 분석을 따라해 보고, 스스로 수치를 만들었다. 어떤 경우는 오리지널 작업이 검증을 통과하지 못했고, 그런 사례는 이 책에서 제외했다. 일부 사례의 경우, 나는 더 최근 데이터를 가지고 같은 분석을 수행할 수 있었다. 이런 업데이트는 미처 예상하지 못한 깨우침도 주었다. 예컨대 ‘출생 시 저체중의 역설’은 1970년대에 처음 관찰됐고 1990년대까지 지속됐지만 최근 데이터에서는 사라졌다.
이 책에 소개된 모든 작업은 재현 가능한 과학 분야의 툴과 방법론에 근거하고 있다. 나는 주피터(Jupyter) 노트북을 사용해 글과 컴퓨터 코드와 결과들을 한 문서로 통합했다. 이 문서들은 버전 관리 시스템으로 정리함으로써 일관성과 정확성을 확보했다. 최종적으로 나는 넘파이(NumPy), 사이파이(SciPy), 판다스(pandas) 등과 같이 신뢰할 수 있는 오픈소스 라이브러리를 이용해 약 6000줄의 파이썬 코드를 작성했다. 물론 내 코드에 버그가 있을 수도 있지만, 결과들에 심각하게 영향을 미치는 오류의 위험을 최소화하기 위해 테스트를 거쳤다. 나의 주피터 노트북은 온라인에 공개돼 있기 때문에 누구라도 내가 실행한 분석을 손쉽게 재현해 볼 수 있다.
목차
목차
- 1장. 당신은 정상인가? 힌트: 아니오
- 존재…팔 길이
- 왜?
- 분포도 비교
- 얼마나 가우스적인가?
- ‘평균 남성’의 신화
- 빅 파이브
- 우리는 모두 똑같이 비정상이다
- 하지만 누군가는 다른 이들보다 더 평등하다
- 출처와 관련 문헌
- 2장. 릴레이 경주와 회전문
- 강좌 크기
- 데이터의 편향성 제거
- 내 기차는 어디에?
- 당신은 인기가 있는가? 힌트: 아니오
- 슈퍼 전파자 찾기
- 도로에서 느끼는 분노
- 그냥 한 번 방문하는 경우
- 재범률
- 검사의 역설은 어디에나 널렸다
- 출처와 관련 문헌
- 3장. 전통을 거부하고 세계를 구하라
- 가족의 규모
- 대공황과 베이비 붐
- 더 최근에는
- 프레스턴의 역설
- 한 자녀를 덜 낳으면
- 장기적으로는
- 현실은
- 현재
- 출처와 관련 문헌
- 4장. 극한치의 사람들, 아웃라이어들 그리고 역대 최고들(GOATs)
- 예외
- 출생 체중은 가우스적이다
- 체중 증량 시뮬레이션
- 달리는 속도
- 체스 순위
- 역대 최고
- 우리는 무엇을 해야 할까?
- 출처와 관련 문헌
- 5장. 새것보다 나은
- 전구
- 지금이라도 곧
- 암 환자의 생존 기간
- 출생 시 기대 수명
- 아동 사망률
- 불멸의 스웨덴인
- 출처와 관련 문헌
- 6장. 속단하기
- 수학과 구술 능력
- 엘리트 대학교
- 덜 우수할수록 더 커지는 상관관계
- 세컨티에이 대학교
- 병원 데이터에 나타난 벅슨의 역설
- 벅슨과 COVID-19
- 벅슨과 심리학
- 벅슨과 우리
- 출처와 관련 문헌
- 7장. 인과, 충돌 그리고 혼란
- 300만 명의 유아 데이터가 틀릴 수 없다
- 다른 그룹들
- 역설의 끝
- 쌍둥이의 역설
- 비만의 역설
- 벅슨의 토스터
- 인과 관계의 다이어그램
- 출처와 관련 문헌
- 8장. 재난의 긴 꼬리
- 재난의 분포
- 지진
- 태양 플레어
- 달 분화구
- 소행성
- 긴 꼬리 분포도의 기원
- 주식 시장의 붕괴
- 블랙 스완과 그레이 스완
- 긴 꼬리 분포도의 세계
- 출처와 관련 문헌
- 9장. 공정과 오류
- 의료 검사
- 더 높은 유병률
- 더 높은 특이도
- 나쁜 의학
- 음주 운전
- 백신의 유효성
- 범죄 예측
- 그룹 비교
- 공정성은 정의하기 어렵다
- 공정성은 성취하기 어렵다
- 기저율의 모든 것
- 출처와 관련 문헌
- 10장. 펭귄, 염세주의자 그리고 역설
- 늙은 낙관주의자, 젊은 비관주의자
- 실질 임금
- 펭귄들
- 심슨의 처방
- 백신은 효과가 있는가? 힌트: 그렇다
- 실체 폭로 재론
- 공개 데이터, 공개 토론
- 출처와 관련 문헌
- 11장. 마음 바꾸기
- 나이든 인종차별주의자들?
- 젊은 페미니스트들
- 동성애 공포증의 괄목할 만한 감소
- 1990년에 무슨 일이 있었나?
- 집단 효과인가, 아니면 시대 효과인가?
- 오버튼 창
- 출처와 관련 문헌
- 12장. 오버튼 창을 좇아서
- 늙은 보수주의자, 젊은 자유주의자?
- ‘보수주의적’이라는 것은 무슨 뜻인가?
- 어떻게 이럴 수 있을까?
- 중심은 정지해 있지 않다
- 모든 것은 상대적이다
- 우리는 더 양극화했는가?
- 오버튼을 좇아서
- 출처와 관련 문헌
- 부록: 15개의 질문
- 에필로그
관련 블로그 글
알아야만 피할 수 있는 숫자의 속임수, <통계의 함정>
여론 조사, 주식 시장, 지진
예측, 일기예보, 공중보건,
스포츠… 통계는 어디에나 존재한다.
하지만 통계는 우리의 이해를 도울 뿐 아니라, 속이거나 혼란을 부추기기도
한다.
2021년 10월, 한 유명 팟캐스트의 출연자가 “영국에서 COVID-19로 인한 사망자의 70% 이상이
백신 접종을 받은 사람들”이라고 주장했다.
그 주장은 영국 공중보건국(Public Health England)이 발표한 보고서에 따른 것으로, 숫자는 틀림없이 정확했다.
하지만
그게 백신이 소용없거나 실제로는 해롭다는 의미와 동일할까?
동일한 보고서의 데이터를 바탕으로 백신의 효율성을 계산하면
몇 명이 목숨을 잃었는지 뿐만 아니라 몇 명이 목숨을
구했는지도 추산할 수 있다.
이 계산에 따르면 백신은 사망을 예방하는 데 80% 넘게 효과적이었고,
4주의 기간 동안 4800만 명의 인구 가운데 7000명 이상의 목숨을 구했다.
만약 한 달에 7000명의 목숨을 구할 기회가 우리에게 주어진다면, 그 기회를 잡아야 할 것이다.
위 사례에서 팟캐스트 출연자는 ‘기저율 오류(base rate fallacy)’라는 흔한 실수를 저질렀다.
우리는 정확한 의사결정을 위해 숫자에 의존한다.
따라서 통계를 잘못 분석하면 단순한 오해를 넘어 심각한 결과를
초래할 수 있다.
『통계의 함정』은 수학의 대표적 역설에 깃든 통계의 오해를 알기 쉽게 파헤치는 가운데
통계를 바르게 분석하고
이해하기 위한 지혜를 일러준다.
저자와 함께 다양한 실제 사례를 통해 역설을 알아가다 보면,
아무리
복잡한 통계라도 명확하고 올바르게 바라보는 시선을 손에 넣을 수 있을 것이다.
*
“빈번하게 만나는 통계적 오류와 역설을 대단히 흥미롭게 폭로하고 파헤친다.
그림들로 보여주는 사례와 증거들은 설득력이 매우 높고 문장은 더없이 명징하다.
이 책이 들려주는 통계적 교훈과 통찰이 적용되지 않는 인간 활동의 영역은 거의 없다.”
─새뮤얼 H. 프레스턴(Samuel
H. Preston),
『Demography: Measuring and Modeling
Population Processes』(Wiley-Blackwell, 2000)의 공저자
“통계학에 대한 저자의 애정이 책 전반에서 빛을 발한다.
우리 시대의 심각하고 논쟁적인 사안들의 진실을 규명하는 일에서 통계적 방법론이 얼마나 중요한지에 대한
그의 사회적 양심과 신념 또한 마찬가지다.”
─오브리 클레이튼(Aubrey Clayton),
『Bernoulli’s Fallacy: Statistical Illogic
and the Crisis of Modern Science』(Columbia University
Press, 2021)의 저자
“통계가 어디까지 매혹적이고 흥미로울 수 있는지 보여주는 책이다.
독자들은 고등 수학자일 필요도 없다.
그저 세상에 대한 호기심만 있으면 책을 즐기기에 충분하다.”
─라빈 쿠마르(Ravin Kumar),
구글(Google)의 데이터 과학자
크리에이티브 커먼즈 라이센스 이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.