데이터 분석과 비판적 사고 [양적 추론과 분석의 길잡이]
- 원서명Thinking Clearly with Data: A Guide to Quantitative Reasoning and Analysis (ISBN 9780691214351)
- 지은이에단 부에노 데 메스키타(Ethan Bueno de Mesquita), 앤서니 파울러(Anthony Fowler)
- 옮긴이임형준
- ISBN : 9791161757650
- 35,000원
- 2023년 07월 28일 펴냄
- 페이퍼백 | 528쪽 | 188*235mm
- 시리즈 : 데이터 과학
책 소개
요약
데이터를 해석하는 과정에서 범하기 쉬운 오류를 소개하고, 이런 오류를 피해 올바르게 사고하는 원칙을 강조한다. 정치, 사회, 의학, 교육 등 다양한 분야의 실제 사례를 소개함으로써 상관관계나 인과관계처럼 많은 사람들이 사용하면서도 쉽게 헷갈리는 핵심 개념을 정확히 이해하도록 돕는다. 더불어 기본적인 통계 분석 기법, 가설을 검증하는 실험 설계 기법, 통계 분석 결과를 의사 결정에 활용할 때 고려할 점도 함께 설명한다.
추천의 글
상관관계와 인과관계는 같으면서도 다르다는 말을 공공연히 듣는다. 하지만 이 둘이 어떻게 같고 또 정확히 어떻게 다른가? 『데이터 분석과 비판적 사고』는 공통의 이론을 명확히 펼쳐보임으로써 이 두 가지 고급 주제를 엮어낸다. 이 책은 고전이 될 만하며, 모든 사회과학자의 책장에 꽂히게 된다면 다행이겠다.
—스콧 커닝햄(Scott Cunningham)
베일러 대학교(Baylor University)
재치 있고, 박식하며, 흥미롭고 기억에 남을 사례로 꽉 찬 『데이터 분석과 비판적 사고』는 통계학의 핵심 개념을 일상생활로 가져다준다. 이 책이 주는 통찰력은 창의적인 연구 전략을 찾는 학자뿐 아니라 매일 육아에서 개인 금융에 이르기까지 합리적인 결정을 내리고 싶은 독자에게도 유용하다.
—도널드 P. 그린(Donald P. Green)
컬럼비아 대학교(Columbia University)
이 책은 데이터 분석 수업에서 사고를 첫머리에 강조함으로써 꼭 필요한 부분을 채운다.
—더스틴 팅글리(Dustin Tingley)
하버드 대학교(Harvard University)
이 책에서 다루는 내용
통계 기법보다 비판적 사고에 초점을 두고 데이터 과학을 흥미롭게 소개한다.
데이터 과학이나 통계 입문서에서 복잡한 수학 정리를 증명하거나 뜻도 잘 모르는 용어와 공식을 외우도록 하는 일은 피해야 하는데, 현재 정량 분석 입문 교재는 대부분 이런 내용만 강조한다. 반면에 이 책은 무엇보다도 비판적 사고와 개념 이해에 집중해서, 학생들로 하여금 살면서 마주칠 정량적 정보와 논증에 있어서 더 나은 소비자이자 분석가가 되도록 가르친다.
특히 데이터에서 관찰한 어떤 관계가 현실에 존재하는 관계를 반영하는지 판단하는 방법, 정말 그렇다면 그 관계가 인과관계인지 파악하는 방법, 그리고 질문에 답하는 데 가장 유용한 비교를 하는 방법을 설명한다. 또한, 정량적 증거를 들어서 주장하는 사람에게 어떤 질문을 해야 하는지, 어떤 통계가 특히 유용하거나 판단을 그르치는지 알려주며, 정량적 증거가 어떻게 의사 결정에 영향을 미쳐야 하거나 미치면 안 되는지, 그리고 데이터뿐만 아니라 윤리적 가치도 함께 고려해서 더 나은 의사 결정을 하는 방법을 가르친다. 다양한 실제 사례를 통해서, 선거, 시민 저항, 범죄, 테러, 금융위기, 건강보험, 스포츠, 음악, 우주 여행과 같이 폭넓은 주제에서 사고 도구를 문제에 응용하는 방법을 보여준다. 뿐만 아니라, 데이터 기반 시대의 여러 이점에도 불구하고, 어째서 데이터가 인간의 사고를 대체하지 못하는지 보여준다.
◆ 데이터 과학, 통계학, 정치학, 경제학, 심리학, 사회학, 공공 정책 등의 분야에 모두 적용가능한 정량 분석법 개론
◆ 표본, 가설 검정, 베이즈 추론, 회귀, 실험, 도구 변수, 이중차분법, 회귀 불연속성을 포함한 데이터 분석의 기본 도구
◆ 다양한 주제에서 얻은 실제 사례와 데이터
◆ 데이터를 다루는 연습 문제
이 책의 구성
1부에서는 용어의 의미를 구축하며, 특히 상관관계와 인과관계를 양적 분석의 초석으로서 강조한다.
이를 바탕으로 2부에서는 데이터와 증거 자료를 사용해서 세상에 존재하는 여러 특성 사이에 상관관계나 인과관계가 존재하는지 여부를 판별하는 방법을 다룰 것이다. 4장은 종속 변수를 고르는 과정에서 흔히 범하는 실수를 소개하고, 변이를 고려하지 않고 상관관계를 구축할 수 없는 이유를 보여주고, 이런 실수가 큰 영향을 미친 무수한 사례를 살펴본다. 5장은 회귀를 시각적으로 나타내기에 집중해, 상관관계를 측정하는 방법을 다룬다. 6장은 통계적 유의성과 가설 검정을 설명하고, 이 책에서 여러 번 나올 공식을 소개한다.
4장을 읽어도 데이터로부터 관계를 수립하는 데 있어서 명확한 사고의 중요성이 충분히 전달되지 않았다면, 7장은 p-해킹 문제, 출판 편향, 그 밖에 관련 있는 주제를 논의함으로써 이를 확실히 한다. 마지막으로, 8장은 평균으로의 회귀라는 생소한 주제를 다루고, 이를 앞서 설명한 출판 편향과 결합해서 재현성 위기와 더불어, 흔히 나타나는 과학적 추정치가 시간이 흐르면서 감소하는 현상을 보여 준다.
3부에서는 인과 추론으로 넘어가서 세상사에 개입하는 의사결정에 있어서 인과관계에 관한지식이 얼마나 중요한지 일깨운다. 9장은 교란 변수와 역인과관계를 논하면서, 상관관계가 반드시 인과관계를 내포하지는 않는 이유를 설명한다. 10장은 통계 분야의 통제를 다루고, 회귀의 관점에서 이를 도식화한다. 11장부터 13장까지는 인과관계를 학습하려는 학자들이 어떻게 연구 방식을 설계하는지 개괄적으로 소개한다. 11장은 무작위 실험과 자연 실험 두 가지를 모두 다루는데, 불응 문제를 다룰 방법인 도구 변수를 소개한다. 12장과 13장은 회귀 불연속과 이중차분법 설계를 차례로 다룬다. 14장에서는 인과관계 기작 학습에 따르는 어려움을 논의하면서 3부를 마친다.
4부에서는 인과관계가 끝이 아님을 지적한다. 인과적 효과에 관한 지식이 충분해도 그것만으로 정량화된 정보를 활용해서 의사결정을 잘 하는 방법을 터득했다고 보기는 어렵다. 15장은 여러분이 어떤 정량화된 정보가 어떤 질문에 대한 답을 주는지를 얼마나 쉽게 헷갈리는지 지적하고, 이런 실수를 피하게끔 정보의 세부 사항으로부터 핵심을 추려내도록 독려한다. 이 과정에서 베이즈 법칙(Bayes’ rule)을 소개한다. 16장은 측정, 외부 타당성, 외삽법(extrapolation)을 다루며, 표본 선택 편향도 함께 논의한다. 마지막으로, 17장에서는 정량 분석을 아무리 명확하게 하더라도 의사결정 과정에서 겪는 근본적인 한계를 마주한다.
목차
목차
- 01장. 데이터 기반 시대에 명확하게 사고하기
- 1장에서 다루는 내용
- 들어가며
- 경고성 일화
- 에이브에게 내린 성급한 진단
- 시민 저항 운동
- 깨진 유리창 정책
- 사고와 데이터는 서로 보완하지, 대체하지 않는다
- 읽을거리
- 1부 ― 공통 언어 구축하기
- 02장. 상관관계: 무엇이며 어디에 쓰는가?
- 2장에서 다루는 내용
- 들어가며
- 상관관계란 무엇인가?
- 단순 사실인가 상관관계인가?
- 상관관계는 어디에 쓰나?
- 관계 서술
- 예측
- 인과 추론
- 상관관계 측정
- 평균, 분산, 표준 편차
- 공분산
- 상관계수
- 회귀선 기울기
- 모집단과 표본
- 선형성에 관한 직설
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 03장. 인과관계: 무엇이며 어디에 쓰는가?
- 3장에서 다루는 내용
- 들어가며
- 인과관계란 무엇인가?
- 잠재적 결과와 반사실성
- 인과관계는 어디에 쓰나?
- 인과 추론의 근본적인 문제
- 개념적 쟁점
- 원인이 무엇인가?
- 인과관계와 반례
- 인과관계와 법률
- 인과관계가 시간을 거슬러 올라갈 수 있나?
- 인과관계는 물리적인 연결 고리가 있어야 하나?
- 인과관계가 반드시 상관관계를 내포하지는 않는다
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 2부 ― 관계가 존재하는가?
- 04장. 상관관계는 변이가 있어야 한다
- 4장에서 다루는 내용
- 들어가며
- 종속 변수의 취사 선택
- 1만 시간 법칙
- 젊은 세대의 타락
- 고등학교 중퇴
- 자살 공격
- 세상은 사람들이 종속 변수를 취사 선택하게끔 이뤄졌다
- 의사 눈에는 환자만 보인다
- 사후 분석
- 인생의 조언
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 05장. 관계 서술과 예측에 쓰는 회귀
- 5장에서 다루는 내용
- 들어가며
- 회귀 기초
- 선형 회귀, 비선형 데이터
- 과적합 문제
- 대통령 선거 예측
- 회귀 결과를 어떻게 보여 줄까
- 회귀의 간략한 학문적 역사
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 06장. 표본, 불확실성, 통계적 추론
- 6장에서 다루는 내용
- 들어가며
- 추정
- 왜 추정치는 추정 대상과 다를까?
- 편향
- 잡음
- 어떤 추정량이 좋은가?
- 정밀도 정량화하기
- 표준 오차
- 작은 표본과 극단적인 관찰값
- 신뢰 구간
- 통계적 추론과 가설 검정
- 가설 검정
- 통계적 유의성
- 관계에 관한 통계적 추론
- 전체 모집단 데이터가 있으면 어떻게 할까?
- 실질적 유의성 대 통계적 유의성
- 소셜미디어와 투표
- 제2차 개혁법
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 07장. 과도한 비교, 부실한 보고
- 7장에서 다루는 내용
- 들어가며
- 문어가 축구 전문가가 되다?
- 출판 편향
- p -해킹
- p -검열
- 대부분의 과학적 ‘사실’이 거짓일까?
- 초감각적 지각
- 투표 독려
- p -해킹 수사대
- 가능성 있는 해법
- 유의성 문턱값을 줄여라
- 복수 검정에서 p -값을 조정하라
- 통계적 유의성에 너무 집착하지 마라
- 사전 등록
- 재현
- 중요하고 타당한 가설을 검증하라
- 학문 너머로
- 슈퍼스타
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 08장. 평균으로의 회귀
- 8장에서 다루는 내용
- 들어가며
- 진실이 흐릿해진다?
- 프랜시스 골턴과 평범함으로의 회귀
- 평균으로의 회귀는 중력이 아니다
- 도움 구하기
- 무릎 수술이 효과가 있나?
- 평균 회귀, 위약 효과, 우주의 습관화
- 위약 효과
- 우주의 습관화 해설
- 우주의 습관화와 유전학
- 믿음은 평균으로 회귀하지 않는다
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 3부 ― 인과관계인가?
- 09장, 어째서 상관관계는 인과관계를 내포하지 않는가
- 9장에서 다루는 내용
- 들어가며
- 대안학교
- 잠재적 결과를 명확하게 이해하기
- 편향의 근원
- 교란 변수
- 역인과관계
- 1만 시간 법칙 다시 보기
- 다이어트 소다
- 교란 변수와 역인과관계는 어떻게 다른가?
- 선거 운동 비용
- 편향의 방향(부호) 정하기
- 피임과 HIV
- 기작 대 교란 변수
- 편향과 잡음에 관해 명확하게 사고하기
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 10장. 교란 변수 통제
- 10장에서 다루는 내용
- 들어가며
- 의회의 투표 관리
- 이종 조치 효과에 관한 단상
- 회귀 파헤치기
- 회귀에서 어떻게 통제하나?
- 통제와 인과관계
- 소셜미디어가 해로운가?
- 회귀 표 읽기
- 교란 변수 통제 대 기작
- 마법은 없다
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 11장. 무작위 실험
- 11장에서 다루는 내용
- 들어가며
- 모유 수유
- 무작위와 인과 추론
- 실험에서의 추정과 추론
- 표준 오차
- 가설 검정
- 실험에서 나타나는 문제점들
- 불응과 도구 변수
- 우연성 불균형
- 검정력 부족
- 이탈
- 간섭
- 자연 실험
- 군 복무와 미래 소득
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 12장. 불연속 회귀 설계
- 12장에서 다루는 내용
- 들어가며
- 불연속 회귀 설계의 구현 방법
- 과격파와 중도파 중 당선 가능성이 높은 쪽은?
- 문턱값 지점의 연속성
- 선거에 관한 불연속 회귀 설계에서도 연속성이 유지될까?
- 불응과 흐릿한 불연속 회귀
- 베트남전의 폭격
- 동기와 성공
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 13장. 이중차분법 설계
- 13장에서 다루는 내용
- 들어가며
- 평행 추세
- 두 대상과 두 시기
- 실업과 최저임금
- N 개의 대상, 두 시기
- 텔레비전 시청이 아이들에게 해로운가?
- N 개의 대상, N 개의 시기
- 피임 그리고 성별에 따른 임금 차이
- 유용한 진단
- 신문의 지지가 투표 결정에 영향을 미치는가?
- 비만은 전염되나?
- 이중차분법으로 결과 검증하기
- 민주적 평화
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 14장. 기작 평가
- 14장에서 다루는 내용
- 들어가며
- 인과매개 분석
- 중간 결과
- 인지적 행동 치료와 위험에 처한 라이베리아의 청년들
- 독립된 이론적 예측
- 유권자들이 여성 후보를 차별하는가?
- 설계로 기작을 시험하기
- 사회적 압박과 투표
- 기작 구분하기
- 물가 폭등과 극심한 갈등
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 4부 ― 정보로부터 의사결정에 이르기까지
- 15장 통계를 실체로
- 15장에서 다루는 내용
- 들어가며
- 올바른 단위는 무엇인가?
- 갤런당 마일과 마일당 갤런
- 퍼센트 대 퍼센트포인트
- 데이터 시각화
- 정책 선호도와 남벌 전략
- 데이터 시각화의 경험 법칙
- 통계에서 믿음으로: 베이즈 법칙
- 베이즈 법칙
- 정보, 믿음, 사전 확률, 사후 확률
- 에이브의 소아 지방변증 돌아보기
- 공항에서 테러리스트 탐지하기
- 베이즈 법칙과 양적 분석
- 비용과 편익 기대치
- 자주 또는 정확하게 검사하기
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 16장. 목적에 맞게 측정하라
- 16장에서 다루는 내용
- 들어가며
- 엉뚱한 결과나 조치를 측정하기
- 일부분만 측정
- 중간 결과
- 부정확한 목적
- 표본은 적절한가?
- 외적 타당성
- 표본 선택
- 전략적 적응과 관계 변화
- 등불세와 창문세
- 야구의 수비 시프트
- 마약과의 전쟁
- 정리
- 핵심 용어
- 연습 문제
- 읽을거리
- 17장. 정량화의 한계
- 17장에서 다루는 내용
- 들어가며
- 증거가 부족할 때의 의사결정
- 비용 편익 분석과 환경 규제
- 치실 사용과 마스크 착용
- 정량화와 가치
- 정량적 도구가 어떻게 가치를 몰래 들이미는가
- 정량화는 어떻게 우리의 가치를 형성하는가
- 명확히 사고하고 다른 사람들도 따르도록 돕자
- 연습 문제
- 읽을거리