책 소개
소스 파일은 여기에서 내려받으실 수 있습니다.
https://github.com/AcornPublishing/qss
요약
이 책은 기존의 데이터 분석 및 통계학 책들과는 다르다. 실제 사회과학 분야에서 쓰이는 데이터를 먼저 접한 후 R을 사용해서 기본적인 데이터 분석과 프로그래밍을 연습하는 순서로 구성돼 있다. 데이터 분석과 통계학을 처음 배우는 모든 사람을 위한 책이며, 독자들은 데이터 분석의 재미를 발견할 수 있을 것이다. 더 나아가 데이터 분석을 활용해 사회과학자들이 사회적 문제 및 인간 행동양식에 대한 결론과 중요한 해답을 어떻게 제시하는지 살펴볼 수 있다. 데이터 과학 분야의 실무종사자, 사회과학 분야의 학부생, 대학원생 및 연구자들에게 도움이 될 것이다.
추천의 글
“사회과학에서 현대적 계량 방법론에 대한 훌륭한 실습 입문서”
— 알베르토 아바디(Alberto Abadie), 매사추세츠 공과대학교(Massachusetts Institute of Technology)
“양질의 학부 사회과학 교과서를 찾는 것은 영원할 수도 있지만, 이 책을 사용하면 그 검색을 끝낼 수 있다.”
— 나다니엘 벡(Nathaniel Beck), 뉴욕 대학교(New York University)
“사회과학 데이터 분석에 필요한 현대적인 방법론을 사용할 수 있는 능력을 갖추게 될 것이다. 이 책을 강력하게 추천한다.”
— 귀도 임벤스(Guido W. Imbens), 스탠퍼드 대학교(Stanford University)
“이 중요한 책은 계량 사회과학의 민주화를 추구한다. 세계 최고의 정치학 방법론자인 저자가 학계, 산업, 정부, 비영리 세계를 크게 변화시켰던 운동에 참여할 수 있는 방법을 보여준다.”
— 개리 킹(Gary King), 하버드 대학교(Harvard University)
“이마이의 교과서는 학부 통계학을 가르치는 방식을 완전히 바꿀 잠재력이 있다. 데이터 분석이 먼저이고 통계학이 그다음으로 두고 설명한다. 이 책에는 학생들이 두려워하지 않고 함께하게 될 대단하며 관련성 높은 실증적 예시로 가득하다.”
— 크리스토퍼 윈십(Christopher Winship), 하버드 대학교(Harvard University)
이 책에서 다루는 내용
◆ 사회과학 및 관련 분야의 학생을 위한 분석과 연습 문제
◆ R 프로그래밍을 사용한 실제 실습 지침
◆ 자신의 스킬을 테스트할 수 있도록 실제 연구에서 얻은 40개 이상의 데이터셋
◆ 인과관계, 측정, 예측, 확률, 통계 도구들과 같은 데이터 분석 개념
◆ 샘플 코드 연습문제, 솔루션을 포함한 추가 자료 온라인 제공
이 책의 대상 독자
데이터 분석과 통계학을 처음 배우는 모든 사람을 위한 내용을 담고 있다. 산업 현장의 실무 종사자와 배움의 열의가 넘치는 고등학생뿐만 아니라 사회과학 및 다른 분야의 연구자, 대학생, 석사 및 박사 과정에 있는 연구원 모두가 대상 독자다. 이 책은 약간의 기초 대수학 외에는 다른 선행 이수 과목을 요구하지 않는다. 특히 미적분이나 통계에 대한 지식은 없어도 된다. 프로그래밍 경험이 있으면 유용하겠지만 필수는 아니다. 또한 이 책은 데이터 분석을 가르치지 않는, 전통적인 ‘종이와 연필’로 진행되는 통계학 입문 과정을 이수한 사람에게도 적합하다. 이 책을 통해 데이터 분석의 재미를 발견하게 될 것이다. 여기서는 계량 사회과학 과제를 해결하고자 R을 어떻게 쓸지에 중점을 두고 있지만, R 프로그래밍을 배우고 싶은 사람 역시 이 책이 유용할 수 있다.
이 책의 구성
1장, 서론
이 책을 어떻게 하면 가장 잘 활용할 수 있는지 설명하며 수요가 높은 오픈소스 통계 프로그래밍 종합 환경인 R에 관해서도 간략하게 소개한다.
2장, 인과효과
인과효과(causal effect)는 사회과학 조사 분야에서 중추적인 역할을 담당하는데 특정 정책이나 프로그램이 종속변수에 영향을 미치는지 여부를 알아내고자 할 때 쓰인다. 처치(treatment)의 무작위 할당이 어떤 방식으로 해당 처치의 평균적인 인과효과를 파악할 수 있게끔 하는지를 설명한다. 또한 관찰연구(observational study)에서 연구자들이 처치 할당에 대한 통제가 없는 상황에서의 인과추론을 배울 것이다. 관찰연구에서는 선택편향(selection bias)를 줄이고자 사용되는 몇 가지 전략을 소개한다.
3장, 측정
측정(measurement)의 기본적인 개념을 소개한다. 정확한 측정은 데이터 주도 발견을 위해 중요하다. 왜냐하면 측정 편향은 잘못된 결론과 잘못된 결정으로 이어질 수 있기 때문이다. 표본조사(sample survey)를 통해서 어떻게 여론을 측정하는지를 살펴본다. 그런 다음 비슷한 관측값 그룹을 찾도록 해주는 기본적인 k-평균 클러스터링 알고리즘(k-means clustering algorithm)을 소개한다. 또한 분위수(quantiles), 표준편차(standard deviation), 지니계수(Gini coefficient)와 같은 다양한 데이터 분산의 측정값들을 소개한다. R 프로그래밍 관점에서 일변량(univariate)과 이변량(bivariate) 데이터를 시각화하는 다양한 방법을 소개한다.
4장, 예측
특정 사건들의 발생을 예측(prediction)하는 것은 정책 및 의사결정 과정에서 중요한 요소다. 그리고 다른 변수를 기반으로 한 변수의 값을 예측하는 데 유용한 선형회귀모형(linear regression model)을 소개한다. 선형회귀와의 상관관계를 설명하고 ‘회귀’라는 용어의 근원인 ‘평균으로의 회귀(regression towards the mean)’에 대한 현상을 살펴본다. 또한 단순한 예측보다는 인과효과를 추정하는 데 회귀모형을 사용할 수 있는지도 논의한다. 그리고 관찰연구에서 인과추론을 위한 회귀단절모형(regression discontinuity design)을 소개한다. 강력하지만 매우 어려운 R 프로그래밍 개념인 루프(loop)와 조건(구)문(conditional statement)을 소개한다. 둘째, 단위(유닛) 간의 관계 설명에 중점을 두고 네트워크 데이터(network data)를 어떻게 분석할지의 방법을 보여 준다. 마지막으로 지리-공간 데이터를 소개한다. 그리고 몇몇 특수 R 패키지들을 사용해 다양한 데이터를 시각화 기술을 적용한다.
5장, 발견
다양한 종류의 데이터에서 패턴을 발견(discovery)하는 것을 살펴본다. ‘빅데이터’를 분석할 때 데이터의 일관된 패턴을 식별하기 위한 자동화된 방법들과 시각화 도구들이 필요하다. 첫째, 텍스트를 데이터로 분석한다. 둘째, 단위(유닛) 간의 관계 설명에 중점을 두고 네트워크 데이터(network data)를 어떻게 분석할지의 방법을 보여 준다. 마지막으로 지리-공간 데이터를 소개한다. 그리고 몇몇 특수 R 패키지들을 사용해 다양한 데이터를 시각화 기술을 적용한다.
6장, 확률
데이터 분석에서 불확실성에 대한 대통일 수학 모델인 확률(probability)로 초점을 옮긴다. 확률은 통계적 추론의 기초가 되기 때문에 중요하며, 그 목적은 추론의 불확실성을 정량화하는 것이다. 확률을 해석하는 두 가지 주요한 관점인 빈도주의자(frequentist)와 베이지안(Bayesian)을 논의하는 것에서부터 시작한다. 그런 다음 확률과 조건부 확률에 대한 수학적 정의를 제공하고, 확률에 대한 몇 가지 기본 규칙들을 소개한다.
7장, 불확실성
추정값과 예측들의 불확실성(uncertainty)을 어떻게 계량화하는지를 논의한다. 이전 장들에서는 데이터에서 패턴을 발견하는 다양한 데이터 분석 방법들을 소개했다. 6장에서 제시된 토대 위에 7장에서는 데이터 패턴들에 대해 얼마나 확신해야 하는지 철저히 설명한다. 표준오차, 신뢰구간, 가설검정 등의 계산을 통해서 신호를 노이즈와 구분하는 방법을 보여 준다.
8장, 그다음으로
이 책을 다 읽을 때쯤 할 수 있는 다음 단계를 간략하게 설명하고 끝맺는다. 계량 사회과학 연구에서 데이터 분석의 역할은 무엇인지도 논의한다.
상세 이미지
목차
목차
- 1장. 시작하며
- 1.1 이 책의 개요
- 1.2 이 책의 활용
- 1.3 R 소개
- 1.3.1 산술 연산
- 1.3.2 객체
- 1.3.3 벡터
- 1.3.4 함수
- 1.3.5 데이터 파일
- 1.3.6 객체 저장
- 1.3.7 R 패키지
- 1.3.8 프로그래밍 및 학습 팁
- 1.4 요약
- 1.5 연습문제
- 1.5.1 자가 보고된 투표율의 편향
- 1.5.2 세계 인구의 동태적 이해
- 2장. 인과효과
- 2.1 노동시장에서 인종차별
- 2.2 R에서 데이터 부분 선택
- 2.2.1 논리값과 연산자
- 2.2.2 관계 연산자
- 2.2.3 부분 선택
- 2.2.4 간단한 조건문
- 2.2.5 요인변수
- 2.3 인과효과와 반사실
- 2.4 무작위 대조시험
- 2.4.1 무작위의 역할
- 2.4.2 사회적 압박과 투표율
- 2.5 관찰연구
- 2.5.1 최저임금과 실업률
- 2.5.2 중첩편향
- 2.5.3 전후비교법 및 이중차분법 설계
- 2.6 단일 변수의 기술통계량
- 2.6.1 분위수
- 2.6.2 표준편차
- 2.7 요약
- 2.8 연습문제
- 2.8.1 초기 교육에서 소규모 학급의 효용
- 2.8.2 게이 결혼에 대한 인식 변화
- 2.8.3 자연 실험으로써 지도자 암살 성공
- 3장. 측정
- 3.1 전쟁기간 중 민간인 희생자 측정
- 3.2 R에서 결측값 다루기
- 3.3 일변량 분포 시각화
- 3.3.1 막대그래프
- 3.3.2 히스토그램
- 3.3.3 박스 플롯
- 3.3.4 그래프 인쇄 및 저장하기
- 3.4 설문조사 샘플링
- 3.4.1 무작위화의 역할
- 3.4.2 무응답과 다른 편향 발생 요인
- 3.5 정치적 양극화 측정하기
- 3.6 이변량 관계 요약하기
- 3.6.1 산점도
- 3.6.2 상관관계
- 3.6.3 Q-Q 플롯
- 3.7 군집화
- 3.7.1 R에서 행렬
- 3.7.2 R에서 리스트
- 3.7.3 k 평균 알고리즘
- 3.8 요약
- 3.9 연습문제
- 3.9.1 동성혼에 대한 인식 변화: 재논의
- 3.9.2 중국과 멕시코에서 정치효능감
- 3.9.3 UN 총회 투표
- 4장. 예측
- 4.1 선거 결과 예측하기
- 4.1.1 R에서 루프
- 4.1.2 R에서 일반적인 조건문
- 4.1.3 여론조사 결과 예측
- 4.2 선형회귀
- 4.2.1 얼굴 생김새와 선거 결과
- 4.2.2 상관관계와 산점도
- 4.2.3 최소제곱
- 4.2.4 평균으로의 회귀
- 4.2.5 R에서 데이터셋 결합하기
- 4.2.6 모형 적합도
- 4.3 회귀분석과 인과효과
- 4.3.1 무작위 실험
- 4.3.2 다중회귀모형
- 4.3.3 이질적 처치효과
- 4.3.4 회귀단절모형
- 4.4 요약
- 4.5 연습문제
- 4.5.1 도박시장에 기반한 예측
- 4.5.2 멕시코 선거와 조건부 현금이전 프로그램
- 4.5.3 브라질에서 정부 간 이전지출과 빈곤감소
- 4.1 선거 결과 예측하기
- 5장. 발견
- 5.1 텍스트 데이터
- 5.1.1 『연방주의자』 저자를 둘러싼 논쟁
- 5.1.2 문서-용어 행렬
- 5.1.3 토픽의 발견
- 5.1.4 저자 예측
- 5.1.5 교차검증
- 5.2 네트워크 데이터
- 5.2.1 르네상스 시대 피렌체의 결혼 네트워크
- 5.2.2 무방향 그래프와 중심성 척도
- 5.2.3 트위터-팔로잉 네트워크
- 5.2.4 유방향 그래프와 중심성
- 5.3 공간 데이터
- 5.3.1 1854년 런던의 콜레라 대유행
- 5.3.2 R에서 공간 데이터
- 5.3.3 R에서 색상
- 5.3.4 미국 대통령 선거
- 5.3.5 월마트의 확장
- 5.3.6 R에서 애니메이션
- 5.4 요약
- 5.5 연습문제
- 5.5.1 헌법 전문의 분석
- 5.5.2 국제 무역 네트워크
- 5.5.3 미국 대선 결과 시계열 매핑
- 5.1 텍스트 데이터
- 6장. 확률
- 6.1 확률
- 6.1.1 빈도론자 vs 베이지안
- 6.1.2 정의와 공리
- 6.1.3 순열
- 6.1.4 복원추출 및 비복원추출
- 6.1.5 조합
- 6.2 조건부 확률
- 6.3.1 조건부 확률, 주변확률, 결합확률
- 6.2.2 독립성
- 6.2.3 베이즈 규칙
- 6.2.4 성과 거주지를 이용한 인종 예측
- 6.3 확률변수와 확률분포
- 6.3.1 확률변수
- 6.3.2 베르누이 분포와 균등분포
- 6.3.3 이항분포
- 6.3.4 정규분포
- 6.3.5 기대값과 분산
- 6.3.6 불확실성을 동반하는 선거결과 예측하기
- 6.4 대표본 이론
- 6.4.1 대수의 법칙
- 6.4.2 중심극한정리
- 6.5 요약
- 6.6 연습문제
- 6.6.1 에니그마의 수학
- 6.6.2 도박시장의 선거 예측을 위한 확률모델
- 6.6.3 러시아의 선거부정
- 6.1 확률
- 7장. 불확실성
- 7.1 추정
- 7.1.1 불편성과 일치성
- 7.1.2 표준오차
- 7.1.3 신뢰구간
- 7.1.4 오차범위와 여론조사에서 표본크기 계산
- 7.1.5 무작위 대조시험 분석
- 7.1.6 스튜던트 t 분포에 기반한 분석
- 7.2 가설검정
- 7.2.1 차-시음 실험
- 7.2.2 가설검정의 일반적 구조
- 7.2.3 일표본검정
- 7.2.4 이표본검정
- 7.2.5 가설검정의 함정
- 7.2.6 검정력 분석
- 7.3 불확실성을 동반하는 선형회귀모형
- 7.3.1 생성 모델로서의 선형회귀
- 7.3.2 불편추정계수
- 7.3.3 추정계수의 표준오차
- 7.3.4 계수에 관한 추론
- 7.3.5 예측에 관한 추론
- 7.4 요약
- 7.5 연습문제
- 7.5.1 중국에서 남녀 성비와 농작물 가격
- 7.5.2 학술 연구에서 파일 서랍과 출판 편향
- 7.5.3 1932년 바이마르 공화정 시기의 독일 선거
- 7.1 추정
- 8장. 그다음으로
도서 오류 신고
정오표
정오표
수정 사항은 여기에서 내려받으세요.
[p.63: 1행]
예를 들면, 이 표는 전형적인 흑인 이름이 있는 2434(= 2278 + 157)개의 이력서 중에서 157개만 콜백을 받았다는 것을 보여 준다.
->
예를 들면, 이 표는 전형적인 흑인 이름이 있는 2435(= 2278 + 157)개의 이력서 중에서 157개만 콜백을 받았다는 것을 보여 준다.
[p.64 : 1행]
이 분석으로 아프리카계 미국인처럼 들리는 이름을 가진 사람의 이력서에 대한 전화 회신율은 0.032 또는 3.2%이며, 백인처럼 들리는 이름들보다 회신율이 낮다는 것을 관찰할 수 있다.
->
이 분석으로 아프리카계 미국인처럼 들리는 이름을 가진 사람의 이력서에 대한 전화 회신율은 백인처럼 들리는 이름들보다 회신율이 0.032 또는 3.2% 낮다는 것을 관찰할 수 있다.
[p. 117: 6행]
[20, 25]
->
[20, 25)
[p.129 : 아래에서 9행]
양수 x의 로그는 지수의 밑 b로 정의된다
->
양수 x의 로그는 밑이 b인 지수로 정의된다
[p.176 : 표 4.2]
middle
->
middate
[p.193 : 6행]
fitting()
->
fitted()
[p.195 : 1행]
따라서 RMSE는 회귀분석에 대한 예측오차의 평균 크기를 나타내며, 이것이 최소제곱법을 최소화하는 것이다.
->
따라서 RMSE는 회귀분석에 대한 예측오차의 평균 크기를 나타내며, 이것이 최소제곱법으로 최소화하는 것 또한 RSME와 같다.
[p.208 : 5행]
fitting()
->
fitted()
[p.209 : 8행]
이처럼 비정상적으로 낮은 적합값을
->
이처럼 비정상적으로 낮은 결정계수를
[p.220: 아래에서 9행]
그룹 평균의 결과
->
그룹의 평균 결과
[p.220: 아래에서 5행]
Civic Duty 그룹과 비교한
->
Control 그룹과 비교한
[p.221 : 4행]
총관측수를
->
총관측수에서
[p.224 : 9행]
X3
->
X1
[p.234 : 11행]
불법 선거
->
부정 선거
[p. 304: 3행]
다른 국가로의 수출액
->
다른 국가로의 수출액이