Top

계량 사회과학 입문 [R을 활용한 데이터 분석]

  • 원서명Quantitative Social Science: An Introduction (ISBN 9780691175461)
  • 지은이이마이 코우스케(Kosuke Imai)
  • 옮긴이윤원주
  • ISBN : 9791161755304
  • 35,000원
  • 2021년 07월 09일 펴냄
  • 페이퍼백 | 518쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

요약

이 책은 기존의 데이터 분석 및 통계학 책들과는 다르다. 실제 사회과학 분야에서 쓰이는 데이터를 먼저 접한 후 R을 사용해서 기본적인 데이터 분석과 프로그래밍을 연습하는 순서로 구성돼 있다. 데이터 분석과 통계학을 처음 배우는 모든 사람을 위한 책이며, 독자들은 데이터 분석의 재미를 발견할 수 있을 것이다. 더 나아가 데이터 분석을 활용해 사회과학자들이 사회적 문제 및 인간 행동양식에 대한 결론과 중요한 해답을 어떻게 제시하는지 살펴볼 수 있다. 데이터 과학 분야의 실무종사자, 사회과학 분야의 학부생, 대학원생 및 연구자들에게 도움이 될 것이다.

추천의 글

“사회과학에서 현대적 계량 방법론에 대한 훌륭한 실습 입문서”
— 알베르토 아바디(Alberto Abadie), 매사추세츠 공과대학교(Massachusetts Institute of Technology)

“양질의 학부 사회과학 교과서를 찾는 것은 영원할 수도 있지만, 이 책을 사용하면 그 검색을 끝낼 수 있다.”
— 나다니엘 벡(Nathaniel Beck), 뉴욕 대학교(New York University)

“사회과학 데이터 분석에 필요한 현대적인 방법론을 사용할 수 있는 능력을 갖추게 될 것이다. 이 책을 강력하게 추천한다.”
— 귀도 임벤스(Guido W. Imbens), 스탠퍼드 대학교(Stanford University)

“이 중요한 책은 계량 사회과학의 민주화를 추구한다. 세계 최고의 정치학 방법론자인 저자가 학계, 산업, 정부, 비영리 세계를 크게 변화시켰던 운동에 참여할 수 있는 방법을 보여준다.”
— 개리 킹(Gary King), 하버드 대학교(Harvard University)

“이마이의 교과서는 학부 통계학을 가르치는 방식을 완전히 바꿀 잠재력이 있다. 데이터 분석이 먼저이고 통계학이 그다음으로 두고 설명한다. 이 책에는 학생들이 두려워하지 않고 함께하게 될 대단하며 관련성 높은 실증적 예시로 가득하다.”
— 크리스토퍼 윈십(Christopher Winship), 하버드 대학교(Harvard University)

이 책에서 다루는 내용

◆ 사회과학 및 관련 분야의 학생을 위한 분석과 연습 문제
◆ R 프로그래밍을 사용한 실제 실습 지침
◆ 자신의 스킬을 테스트할 수 있도록 실제 연구에서 얻은 40개 이상의 데이터셋
◆ 인과관계, 측정, 예측, 확률, 통계 도구들과 같은 데이터 분석 개념
◆ 샘플 코드 연습문제, 솔루션을 포함한 추가 자료 온라인 제공

이 책의 대상 독자

데이터 분석과 통계학을 처음 배우는 모든 사람을 위한 내용을 담고 있다. 산업 현장의 실무 종사자와 배움의 열의가 넘치는 고등학생뿐만 아니라 사회과학 및 다른 분야의 연구자, 대학생, 석사 및 박사 과정에 있는 연구원 모두가 대상 독자다. 이 책은 약간의 기초 대수학 외에는 다른 선행 이수 과목을 요구하지 않는다. 특히 미적분이나 통계에 대한 지식은 없어도 된다. 프로그래밍 경험이 있으면 유용하겠지만 필수는 아니다. 또한 이 책은 데이터 분석을 가르치지 않는, 전통적인 ‘종이와 연필’로 진행되는 통계학 입문 과정을 이수한 사람에게도 적합하다. 이 책을 통해 데이터 분석의 재미를 발견하게 될 것이다. 여기서는 계량 사회과학 과제를 해결하고자 R을 어떻게 쓸지에 중점을 두고 있지만, R 프로그래밍을 배우고 싶은 사람 역시 이 책이 유용할 수 있다.

이 책의 구성

1장, 서론
이 책을 어떻게 하면 가장 잘 활용할 수 있는지 설명하며 수요가 높은 오픈소스 통계 프로그래밍 종합 환경인 R에 관해서도 간략하게 소개한다.

2장, 인과효과
인과효과(causal effect)는 사회과학 조사 분야에서 중추적인 역할을 담당하는데 특정 정책이나 프로그램이 종속변수에 영향을 미치는지 여부를 알아내고자 할 때 쓰인다. 처치(treatment)의 무작위 할당이 어떤 방식으로 해당 처치의 평균적인 인과효과를 파악할 수 있게끔 하는지를 설명한다. 또한 관찰연구(observational study)에서 연구자들이 처치 할당에 대한 통제가 없는 상황에서의 인과추론을 배울 것이다. 관찰연구에서는 선택편향(selection bias)를 줄이고자 사용되는 몇 가지 전략을 소개한다.

3장, 측정
측정(measurement)의 기본적인 개념을 소개한다. 정확한 측정은 데이터 주도 발견을 위해 중요하다. 왜냐하면 측정 편향은 잘못된 결론과 잘못된 결정으로 이어질 수 있기 때문이다. 표본조사(sample survey)를 통해서 어떻게 여론을 측정하는지를 살펴본다. 그런 다음 비슷한 관측값 그룹을 찾도록 해주는 기본적인 k-평균 클러스터링 알고리즘(k-means clustering algorithm)을 소개한다. 또한 분위수(quantiles), 표준편차(standard deviation), 지니계수(Gini coefficient)와 같은 다양한 데이터 분산의 측정값들을 소개한다. R 프로그래밍 관점에서 일변량(univariate)과 이변량(bivariate) 데이터를 시각화하는 다양한 방법을 소개한다.

4장, 예측
특정 사건들의 발생을 예측(prediction)하는 것은 정책 및 의사결정 과정에서 중요한 요소다. 그리고 다른 변수를 기반으로 한 변수의 값을 예측하는 데 유용한 선형회귀모형(linear regression model)을 소개한다. 선형회귀와의 상관관계를 설명하고 ‘회귀’라는 용어의 근원인 ‘평균으로의 회귀(regression towards the mean)’에 대한 현상을 살펴본다. 또한 단순한 예측보다는 인과효과를 추정하는 데 회귀모형을 사용할 수 있는지도 논의한다. 그리고 관찰연구에서 인과추론을 위한 회귀단절모형(regression discontinuity design)을 소개한다. 강력하지만 매우 어려운 R 프로그래밍 개념인 루프(loop)와 조건(구)문(conditional statement)을 소개한다. 둘째, 단위(유닛) 간의 관계 설명에 중점을 두고 네트워크 데이터(network data)를 어떻게 분석할지의 방법을 보여 준다. 마지막으로 지리-공간 데이터를 소개한다. 그리고 몇몇 특수 R 패키지들을 사용해 다양한 데이터를 시각화 기술을 적용한다.

5장, 발견
다양한 종류의 데이터에서 패턴을 발견(discovery)하는 것을 살펴본다. ‘빅데이터’를 분석할 때 데이터의 일관된 패턴을 식별하기 위한 자동화된 방법들과 시각화 도구들이 필요하다. 첫째, 텍스트를 데이터로 분석한다. 둘째, 단위(유닛) 간의 관계 설명에 중점을 두고 네트워크 데이터(network data)를 어떻게 분석할지의 방법을 보여 준다. 마지막으로 지리-공간 데이터를 소개한다. 그리고 몇몇 특수 R 패키지들을 사용해 다양한 데이터를 시각화 기술을 적용한다.

6장, 확률
데이터 분석에서 불확실성에 대한 대통일 수학 모델인 확률(probability)로 초점을 옮긴다. 확률은 통계적 추론의 기초가 되기 때문에 중요하며, 그 목적은 추론의 불확실성을 정량화하는 것이다. 확률을 해석하는 두 가지 주요한 관점인 빈도주의자(frequentist)와 베이지안(Bayesian)을 논의하는 것에서부터 시작한다. 그런 다음 확률과 조건부 확률에 대한 수학적 정의를 제공하고, 확률에 대한 몇 가지 기본 규칙들을 소개한다.

7장, 불확실성
추정값과 예측들의 불확실성(uncertainty)을 어떻게 계량화하는지를 논의한다. 이전 장들에서는 데이터에서 패턴을 발견하는 다양한 데이터 분석 방법들을 소개했다. 6장에서 제시된 토대 위에 7장에서는 데이터 패턴들에 대해 얼마나 확신해야 하는지 철저히 설명한다. 표준오차, 신뢰구간, 가설검정 등의 계산을 통해서 신호를 노이즈와 구분하는 방법을 보여 준다.

8장, 그다음으로
이 책을 다 읽을 때쯤 할 수 있는 다음 단계를 간략하게 설명하고 끝맺는다. 계량 사회과학 연구에서 데이터 분석의 역할은 무엇인지도 논의한다.

상세 이미지

저자/역자 소개

지은이의 말

계량 사회과학은 학문간 상호 교차하는 분야로서 경제학, 정치학, 공공정책, 심리학, 사회학을 비롯한 방대한 학문들을 포괄한다. 계량 사회과학 분야의 학자들은 사회와 인간 행동에 대한 문제를 이해하고 해결하고자 데이터를 분석한다. 예를 들면 연구자들은 노동시장에서의 인종차별을 연구하거나, 새로운 교과과정이 학생들의 학업성취도에 미치는 영향을 평가하거나, 선거 결과를 예측하거나, 사회관계망 이용을 분석한다. 유사한 데이터 분석 기반의 접근법은 인접 분야인 보건, 법률, 언론, 언어학, 문학에까지 쓰이고 있다. 사회과학자들은 현실세계의 광범위한 이슈를 연구하기 때문에 그 연구 결과는 사회구성원 개개인, 정부정책, 상업적 관행에 직접적으로 영향을 미칠 수 있는 잠재력이 크다.
누구나 데이터를 분석할 수 있어야 한다는 믿음에서 이 책을 쓰게 됐다. 이 책은 계량 사회과학 연구에 필요한 데이터 분석의 세 가지 요소를 알려 준다. 연구 맥락, 프로그래밍 기법, 통계 방법론으로, 이 중 하나라도 빠지면 연구 결과가 부실해진다. 연구 맥락 없이는 데이터 연구에 필요한 가정의 신뢰성을 평가할 수 없으며, 실증적 발견이 암시하는 바를 이해할 수 없게 된다. 프로그래밍 기법 없이는 자료를 분석하고 연구 과제의 답을 찾을 수 없을 것이다. 통계학적 원리에 대해 가이드가 없다면 신호(signal)라고 알려진 체계적 양식과 노이즈(noise)라 일컫는 잘못된 추론을 이끌어 낼 수 있는 불규칙한 양식을 구별하기 힘들다(여기서 추론이란 관찰된 자료를 기초로 불특정 수량에 대한 결론을 이끌어 내는 것을 말한다). 이 책은 이 세 가지 요소를 결합시킴으로써 얻게 되는 데이터 분석의 힘을 실증적으로 설명해 준다.
이 책만의 차별점은 이미 출판된 계량 사회과학 학술 연구에서 직접 발췌한 데이터셋 분석을 통해 프로그래밍 기법과 통계적 개념을 동시에 보여 준다는 점이다. 사회과학자들이 데이터 분석을 활용해 사회 문제와 인간 행동양식의 중요한 문제에 해답을 제시하는 것을 목표로 저술했다. 이와 동시에 이 책의 사용자들은 기초적인 통계 개념과 기초 프로그래밍 기술을 배우게 될 것이다. 가장 중요한 것은 40개에 달하는 데이터셋을 공부해 데이터 분석에 관한 경험을 쌓을 수 있게 된다는 점이다.

지은이 소개

이마이 코우스케(Kosuke Imai)

하버드 대학교의 정책학과 및 통계학과 교수다. 그 전에는 프린스턴 대학교의 정치학 교수이자 통계학 및 머신러닝 프로그램의 설립 디렉터로 재직했다.

옮긴이의 말

이 책보다 뛰어나고 상세한 통계학 및 프로그래밍 책들은 많다. 하지만 이 책의 장점은 통계학적 우수성이 아닌 교수법에 있다. 이 책은 통계학이나 데이터 과학을 전공으로 하지 않은 사람들이 실제로 통계를 사용하고자 할 때 가장 고통스러워하는 부분을 긁어 준다. 통계적 추정이나 측정에 앞서 실제로 사용하게 될 데이터를 먼저 살펴보면서 연구 주제에 따라 어떤 방식으로 분석을 해야 하는지를 시작부터 끝까지 친절히 설명한다. 이것이 이 책을 한국어로 옮기기로 결심한 가장 큰 이유다. 이 책을 대학원 과정 중에 볼 수 있었으면 더할 나위 없이 좋았을 것이라 생각할 만큼 통계 전공자가 아닌 사람이 대학원 과정 동안 수없이 부딪치며 고민했던 많은 방법론에 관한 의문을 쉽게 이해할 수 있게 설명한다.

이 책은 다음과 같은 사람들에게 가장 큰 도움이 될 것이다. 1. 통계학과 경제학 전공을 선택한 학부 신입생 2. 사회과학 전공(예: 경영, 정치외교, 행정)을 선택해 계량 분석에 관심은 있지만, 어디서 시작해야 할지 모르는 학부생 3. 사회과학 전공의 대학원생(석사 및 박사) 4. 사회과학 연구를 하는 연구자 5. 사회과학 자료를 분석하는 실무자

이 책은 다음과 같이 읽어 보자. 먼저 각 장에서 중요한 개념의 설명을 숙지한 후, R 코드를 따라 한다. 어느 정도 개념과 R 코드에 익숙해졌다면 실제로 구할 수 있는 2차 자료(secondary data)와 공부한 방법론을 활용해 어떤 분석 및 연구를 할 수 있는지 대략적인 그림을 그려 본다. 원저자는 주로 정치학 혹은 경제학 관련 데이터를 사용했지만 이를 본인의 분야에서 주로 사용되는 관심 변수로 교체하는 즉시 비슷한 분석이 가능하다. 또한 R은 무료로 사용할 수 있는 통계 프로그래밍 소프트웨어이기 때문에 추가 비용 없이 연습할 수 있다. 되도록 모든 장을 공부하는 것이 바람직하지만 시간이 부족한 경우에는 1장에서 4장까지라도 공부해 보자.

옮긴이 소개

윤원주

한국외국어대학교 경영대학 마케팅 전공 교수로 재직 중이다. 텍사스 A&M 대학교 메이즈 경영대학원에서 마케팅 박사 학위를 취득했고, 노스웨스턴 대학교, 한양대학교에서 각각 석사 및 학사 학위를 취득했다. 한국외국어대학교 이전에는 미국 미시간주의 오클랜드 대학교 경영대학원에서 마케팅 교수 생활을 했다. 전문 연구분야는 계량마케팅, 마케팅전략, 신제품개발 및 혁신 등이며 이와 관련된 연구들을 「Journal of Marketing, Marketing Letters」 등 여러 국제학술지에 게재했다.

목차

목차
  • 1장. 시작하며
    • 1.1 이 책의 개요
    • 1.2 이 책의 활용
    • 1.3 R 소개
      • 1.3.1 산술 연산
      • 1.3.2 객체
      • 1.3.3 벡터
      • 1.3.4 함수
      • 1.3.5 데이터 파일
      • 1.3.6 객체 저장
      • 1.3.7 R 패키지
      • 1.3.8 프로그래밍 및 학습 팁
    • 1.4 요약
    • 1.5 연습문제
      • 1.5.1 자가 보고된 투표율의 편향
      • 1.5.2 세계 인구의 동태적 이해

  • 2장. 인과효과
    • 2.1 노동시장에서 인종차별
    • 2.2 R에서 데이터 부분 선택
      • 2.2.1 논리값과 연산자
      • 2.2.2 관계 연산자
      • 2.2.3 부분 선택
      • 2.2.4 간단한 조건문
      • 2.2.5 요인변수
    • 2.3 인과효과와 반사실
    • 2.4 무작위 대조시험
      • 2.4.1 무작위의 역할
      • 2.4.2 사회적 압박과 투표율
    • 2.5 관찰연구
      • 2.5.1 최저임금과 실업률
      • 2.5.2 중첩편향
      • 2.5.3 전후비교법 및 이중차분법 설계
    • 2.6 단일 변수의 기술통계량
      • 2.6.1 분위수
      • 2.6.2 표준편차
    • 2.7 요약
    • 2.8 연습문제
      • 2.8.1 초기 교육에서 소규모 학급의 효용
      • 2.8.2 게이 결혼에 대한 인식 변화
      • 2.8.3 자연 실험으로써 지도자 암살 성공

  • 3장. 측정
    • 3.1 전쟁기간 중 민간인 희생자 측정
    • 3.2 R에서 결측값 다루기
    • 3.3 일변량 분포 시각화
      • 3.3.1 막대그래프
      • 3.3.2 히스토그램
      • 3.3.3 박스 플롯
      • 3.3.4 그래프 인쇄 및 저장하기
    • 3.4 설문조사 샘플링
      • 3.4.1 무작위화의 역할
      • 3.4.2 무응답과 다른 편향 발생 요인
    • 3.5 정치적 양극화 측정하기
    • 3.6 이변량 관계 요약하기
      • 3.6.1 산점도
      • 3.6.2 상관관계
      • 3.6.3 Q-Q 플롯
    • 3.7 군집화
      • 3.7.1 R에서 행렬
      • 3.7.2 R에서 리스트
      • 3.7.3 k 평균 알고리즘
    • 3.8 요약
    • 3.9 연습문제
      • 3.9.1 동성혼에 대한 인식 변화: 재논의
      • 3.9.2 중국과 멕시코에서 정치효능감
      • 3.9.3 UN 총회 투표

  • 4장. 예측
    • 4.1 선거 결과 예측하기
      • 4.1.1 R에서 루프
      • 4.1.2 R에서 일반적인 조건문
      • 4.1.3 여론조사 결과 예측
    • 4.2 선형회귀
      • 4.2.1 얼굴 생김새와 선거 결과
      • 4.2.2 상관관계와 산점도
      • 4.2.3 최소제곱
      • 4.2.4 평균으로의 회귀
      • 4.2.5 R에서 데이터셋 결합하기
      • 4.2.6 모형 적합도
    • 4.3 회귀분석과 인과효과
      • 4.3.1 무작위 실험
      • 4.3.2 다중회귀모형
      • 4.3.3 이질적 처치효과
      • 4.3.4 회귀단절모형
    • 4.4 요약
    • 4.5 연습문제
      • 4.5.1 도박시장에 기반한 예측
      • 4.5.2 멕시코 선거와 조건부 현금이전 프로그램
      • 4.5.3 브라질에서 정부 간 이전지출과 빈곤감소

  • 5장. 발견
    • 5.1 텍스트 데이터
      • 5.1.1 『연방주의자』 저자를 둘러싼 논쟁
      • 5.1.2 문서-용어 행렬
      • 5.1.3 토픽의 발견
      • 5.1.4 저자 예측
      • 5.1.5 교차검증
    • 5.2 네트워크 데이터
      • 5.2.1 르네상스 시대 피렌체의 결혼 네트워크
      • 5.2.2 무방향 그래프와 중심성 척도
      • 5.2.3 트위터-팔로잉 네트워크
      • 5.2.4 유방향 그래프와 중심성
    • 5.3 공간 데이터
      • 5.3.1 1854년 런던의 콜레라 대유행
      • 5.3.2 R에서 공간 데이터
      • 5.3.3 R에서 색상
      • 5.3.4 미국 대통령 선거
      • 5.3.5 월마트의 확장
      • 5.3.6 R에서 애니메이션
    • 5.4 요약
    • 5.5 연습문제
      • 5.5.1 헌법 전문의 분석
      • 5.5.2 국제 무역 네트워크
      • 5.5.3 미국 대선 결과 시계열 매핑

  • 6장. 확률
    • 6.1 확률
      • 6.1.1 빈도론자 vs 베이지안
      • 6.1.2 정의와 공리
      • 6.1.3 순열
      • 6.1.4 복원추출 및 비복원추출
      • 6.1.5 조합
    • 6.2 조건부 확률
      • 6.3.1 조건부 확률, 주변확률, 결합확률
      • 6.2.2 독립성
      • 6.2.3 베이즈 규칙
      • 6.2.4 성과 거주지를 이용한 인종 예측
    • 6.3 확률변수와 확률분포
      • 6.3.1 확률변수
      • 6.3.2 베르누이 분포와 균등분포
      • 6.3.3 이항분포
      • 6.3.4 정규분포
      • 6.3.5 기대값과 분산
      • 6.3.6 불확실성을 동반하는 선거결과 예측하기
    • 6.4 대표본 이론
      • 6.4.1 대수의 법칙
      • 6.4.2 중심극한정리
    • 6.5 요약
    • 6.6 연습문제
      • 6.6.1 에니그마의 수학
      • 6.6.2 도박시장의 선거 예측을 위한 확률모델
      • 6.6.3 러시아의 선거부정

  • 7장. 불확실성
    • 7.1 추정
      • 7.1.1 불편성과 일치성
      • 7.1.2 표준오차
      • 7.1.3 신뢰구간
      • 7.1.4 오차범위와 여론조사에서 표본크기 계산
      • 7.1.5 무작위 대조시험 분석
      • 7.1.6 스튜던트 t 분포에 기반한 분석
    • 7.2 가설검정
      • 7.2.1 차-시음 실험
      • 7.2.2 가설검정의 일반적 구조
      • 7.2.3 일표본검정
      • 7.2.4 이표본검정
      • 7.2.5 가설검정의 함정
      • 7.2.6 검정력 분석
    • 7.3 불확실성을 동반하는 선형회귀모형
      • 7.3.1 생성 모델로서의 선형회귀
      • 7.3.2 불편추정계수
      • 7.3.3 추정계수의 표준오차
      • 7.3.4 계수에 관한 추론
      • 7.3.5 예측에 관한 추론
    • 7.4 요약
    • 7.5 연습문제
      • 7.5.1 중국에서 남녀 성비와 농작물 가격
      • 7.5.2 학술 연구에서 파일 서랍과 출판 편향
      • 7.5.3 1932년 바이마르 공화정 시기의 독일 선거

  • 8장. 그다음으로

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

[p. 304: 3행]
다른 국가로의 수출액
->
다른 국가로의 수출액이