Top

엑셀로 하는 회귀분석 [풍부한 예제를 활용한 회귀분석의 이해]

  • 원서명Regression Analysis Microsoft Excel (ISBN 9780789756558)
  • 지은이콘래드 칼버그(Conrad Carlberg)
  • 옮긴이김찬주
  • ISBN : 9791161751979
  • 30,000원
  • 2018년 08월 27일 펴냄
  • 페이퍼백 | 432쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

소스 코드 파일은 여기에서 내려 받으실 수 있습니다.

요약

단순히 공식을 설명하는 것이 아니라 부동산 가격 예측, 웹 데이터 분석 등과 같은 실무에서 바로 사용될 만한 풍부한 예제를 통해 회귀분석의 원리를 친절하게 설명한다. 복잡한 계산은 엑셀에 맡기고 회귀분석에 필요한 통계 개념의 원리와 실무 데이터를 적용하는 방법에 대해 집중한다. 이 책을 통해 분산, 표준편차, 상관관계와 같은 기초 개념의 의미를 파악할 수 있으며 회귀분석, 다중비교, 공분산분석 등의 고급 개념까지 이해할 수 있다. 전통적인 분산분석 대신 회귀분석을 사용해 분석의 범위를 확장하고, 엑셀을 사용하여 쉽게 데이터분석을 해보자.

이 책에서 다루는 내용

■ 회귀분석으로 할 수 있는 일과 할 수 없는 일의 이해와 그 이유 알아보기
■ 엑셀에서 기본 제공되는 회귀 함수 마스터하기
■ 상관관계와 단순회귀분석 작업하기
■ 엑셀의 향상된 LINEST() 함수를 최대한 활용하기
■ 다중회귀분석 실험 계획과 수행하기
■ 문제가 되는 회귀분석의 가정과 그렇지 않은 가정 구별하기
■ 일반적인 분산분석 대신 회귀분석을 사용해 분석의 옵션 확장하기
■ 공변량을 분석에 추가, 편향을 줄이고 통계적 검증력을 강화하기

저자/역자 소개

지은이의 말

우리는 의료와 제약 연구, 재무 분석과 경제학, 농업 실험에서 운영 연구 분야에 이르기까지 다양한 분야에서 여전히 분산과 공분산분석에 크게 의존한다. 이러한 분야에서 개념을 이해하는 것은 중요하며, 이 문제들을 기존 ANOVA(분산분석)가 아닌 회귀의 프리즘을 통해 바라보면 훨씬 쉽게 이해할 수 있다.
더 중요한 것은 회귀 분석에서 일상적으로 사용하는 개념을 이해하면 로지스틱 회귀분석 및 요인분석과 같은 고급 방법을 훨씬 쉽게 이해할 수 있다는 것이다.
이러한 기법은 한 번에 한 가지 변수를 분석하는 방법 너머로 지평을 확장시켜준다. 그리고 잠재적이고 관찰되지 않은 요인과 다항종속변수를 포함하는 영역으로 분석을 확장하는 데 도움을 준다. 만약 공유분산(shared variance)의 개념을 모르고 있다면, 주요인분석(principal components analysis)을 배우려고 할 때 학습에 필요한 시간은 더욱 늘어난다.
이런 점이 내가 이 책을 쓴 이유이다. 나는 추론 통계에 충분히 많은 경험이 있다. 처음에는 스스로, 그리고 그다음에는 실전 컨설팅을 통해서 추론 통계를 올바르게 사용하면 얼마나 강력한 도구가 될 수 있는지 알았다. 나는 20년 이상 엑셀을 그 목적으로 사용해왔다.

지은이 소개

콘래드 칼버그(Conrad Carlberg)

마이크로소프트 엑셀, SAS, 오라클과 같은 정량 분석, 데이터 분석, 관리 응용프로그램에 대해 국가적으로 인정받는 전문가다. 콜로라도 대학에서 통계학 박사 학위를 받았으며 마이크로소프트 Excel MVP로 여러 번 수상한 바 있다.
남부 캘리포니아 출신으로 대학을 졸업하고 콜로라도로 이주했다. 그곳에서 여러 스타트업에서 일했으며 대학원에 다녔다. 중동에서의 2년 동안 컴퓨터 과학을 가르치고 낙타를 피해 다녔다. 대학원을 졸업한 후, 미국 서부에서 제품 관리 분야(Baby Bell)와 모토로라(Motorola)에서 일했다.
1995년 정량 분석을 통해 비즈니스 의사 결정의 도움을 받기를 원하는 회사들에 실험 디자인과 분석 서비스를 제공하는 작은 컨설팅 사업을 시작한다. 이러한 기술에 대해서 글을 쓰는 것을 즐기며 특히, 세계에서 가장 인기 있는 숫자 분석 응용프로그램인 엑셀을 사용해 이 기술을 전달하기를 즐긴다.

옮긴이의 말

이 책은 엑셀이라는 쉽고 강력한 도구로 회귀분석을 실무에 적용할 수 있게 도와준다. 컴퓨터로 업무를 처리해봤던 사람이라면 대부분 마이크로소프트 엑셀을 접해본 경험이 있을 것이다. 엑셀은 일상생활부터 학교, 연구소, 회사 등에서 가장 많이 사용되는 통계〮데이터 분석 도구 중 하나다. 엑셀은 SAS, R과 같은 고급 통계분석도구와 비교해 절대 뒤지지 않는 도구다. 회귀분석은 고급 통계 개념 중의 하나로 평균 비교와 같은 가설검정을 쉽게 할 수 있도록 돕는다. 그뿐만 아니라 하반기 매출 예측, 부동산 가격 예측 등과 같은 데이터에 기반한 예측 작업 또한 회귀분석을 통해 수행할 수 있다.
이 책의 가장 큰 장점은 저자가 엑셀과 회귀분석을 설명하는 방법에 있다. 우선 실제 있을 법한 풍부한 예제를 통해 회귀분석 과정을 설명한다. 독자가 갖고 있는 데이터로 저자가 설명하는 순서를 따라서 회귀분석을 적용해볼 수 있다. 회귀분석에 필요한 여러 통계량과 개념을 설명할 땐 복잡한 계산은 엑셀에 맡기고 원리와 의미에 집중한다. 저자는 회귀분석에 기초가 되고 나아가 고급 분석에 도움이 되는 중요한 통계 개념에 대해 독자들이 이해할 수 있도록 자세히 설명한다. 예를 들어 모집단 표준편차를 계산할 때는 왜 N으로 나누고, 샘플 데이터로 모집단의 표준편차를 추정할 때는 왜 N-1로 나누는지와 같이 기본적이지만 아무도 가르쳐주지 않는 부분에 대해서 독자가 이해할 수 있게 꼼꼼히 설명한다.
마이크로소프트 엑셀 MVP로 여러 번 지정된 저자 콘래드 칼버그는 실무 경력이 25년이 넘고 관련 서적을 12권이나 저술한 인물이다. 그는 책의 서두에서 학창 시설 처음 통계학을 배울 때의 경험을 회상한다. 왜 그렇게 해야 하는지 이해하지 못한 채, 단순히 공식을 외워 ANOVA 분석을 적용하던 경험을 떠올린다. 그는 학창 시절 우연히 만났던 회귀분석 도서를 통해서 고급 통계 개념을 이해한 경험을 되살려 이 책을 썼다. 회귀분석의 접근법은 쉽고 명확하게 분산분석과 같은 고급 통계 기법을 이해할 수 있게 한다. 저자의 많은 경험에 어울리게 이 책은 풍부한 예제를 활용한다. 또한 엑셀로 데이터 분석을 하면서 꼭 마주치게 되는 사소하지만 중요한 문제들과 그 해결책에 대해서도 알려준다. 실수를 피하는 방법과 다른 사람들이 수행한 분석을 바르게 평가하는 방법에 관해서도 설명한다.
이 책은 통계를 공부하거나 통계적 가설검정이 필요한 모든 사람에게 유용할 것이다. 하지만 특히 다음과 같은 독자들에게 추천하고 싶다. 기본적인 통계 기술을 알고 있고 고급 통계 기술을 배우려는 독자, 엑셀의 고급 통계 기능을 배워 실무에 적용하고자 하는 독자, 평균비교와 같은 통계적 가설 검정이 필요한 독자, 회귀분석을 실무에 적용하면서 실수하지 않고 분석을 마무리하려는 독자, 마지막으로 로지스틱회귀나 주요인분석(PCA)등 머신 러닝을 공부하고 있거나 공부하려는 사람들에게도 도움이 될 것이다.
나는 이 책을 번역하면서 분산, 표준편차, 상관관계, 회귀분석의 개념과 데이터가 갖고 있는 통계적 의미에 대해서도 이전보다 더 잘 이해할 수 있게 됐다. 독자들 역시 통계와 회귀분석에 대해 더 잘 이해하고, 그것들을 실무에 바로 활용할 수 있게 되기를 바란다.

옮긴이 소개

김찬주

숭실대학교 컴퓨터학부를 졸업하고, 동 대학원에서 머신 러닝을 전공했다. 다음커뮤니케이션, 쿠팡, 네이버에서 검색 데이터 분석, 광고 타깃팅, 상품 추천, 음악 추천 등 데이터 분석과 머신 러닝을 통해 데이터에 가치를 부여하는 일을 해왔다. 현재는 라인(LINE)에서 데이터 사이언티스트로 일하고 있다.

목차

목차
  • 1장. 변동 측정: 값들이 얼마나 다른가
    • 어떻게 변동이 측정되는가
      • 편차의합(Sum of Deviations)
      • 편차제곱의합(Summing Squared Deviations)
      • 제곱의합에서 분산으로
      • VAR.P()와 VAR.S() 함수의 사용
    • 표준편차
    • 평균의 표준오차
      • z-점수와 z-값
      • t-값

  • 2장. 상관관계
    • 상관관계 측정
      • 상관관계의 강도 나타내기
      • 상관관계의 방향 결정
    • 상관관계 계산
      • 1단계: 공분산
      • 부호에 주의하라
      • 공분산에서부터 상관계수까지
      • CORREL() 함수의 사용
      • 상관관계에서의 편향 이해하기
      • 상관관계에서 선형성과 특이점 체크
      • 차트를 그릴 때 조심해야 하는 부분
    • 상관관계와 인과관계
      • 원인의 방향
      • 제3의 변수
    • 범위의 제한

  • 3장. 단순회귀분석
    • 상관관계와 표준점수를 이용한 예측
      • 예측 계산하기
      • 본래 단위로 변환
      • 예측 일반화
    • 회귀계수와 절편을 이용한 예측
      • SLOPE() 함수
      • INTERCEPT() 함수
    • 공유분산
      • 표준편차, 리뷰
      • 제곱의합 자세히 보기
      • 제곱의합은 가산적이다
      • 단순회귀분석에서의 R2
      • 잔차제곱의 합과 그룹내제곱의 합
    • TREND() 함수
      • TREND()에 배열 입력하기
      • TREND()의 new x’s 인자
      • TREND()의 const 인자
      • 제로-상수 회귀 계산
    • 부분상관과 준부분상관
      • 부분상관
      • 준부분상관 이해하기

  • 4장. LINEST() 함수
    • 배열을 입력받는 LINEST()
      • 배열 수식의 메커니즘 이해하기
      • 실수 목록
    • LINEST()와 SLOPE(), INTERCEPT()의 비교
    • 회귀계수의 표준오차
      • 회귀계수의 표준오차의 의미
      • 0의 회귀계수
      • 모집단의 회귀계수가 0일 확률 측정하기
      • 주관적인 결정으로서의 통계적인 추론
      • t-비와 F비
      • 간격척도와 명목척도
    • 상관관계의 제곱, R2
    • 추정의 표준오차
      • t분포와 표준오차
      • 잔차의 표준편차로서의 표준오차
      • 등분산성: 균등하게 퍼짐
      • LINEST()의 F비의 이해
    • 분산분석과 F비의 일반적인 사용
      • 분산분석과 회귀에서의 F비
      • 회귀에서 제곱의합의 분할
      • 분산분석에서의 F비
      • 회귀분석에서의 F비
      • F비와 R2의 비교
    • 일반선형모델, ANOVA, 회귀분석
    • LINEST()의 기타 보조 통계량

  • 5장. 다중회귀분석
    • 합성 예측변수
      • 단일 예측변수에서 다중 예측변수로의 일반화
      • 오차제곱의합의 최소화
    • 추세선의 이해
    • LINEST() 결과를 워크시트에 매핑하기
    • 다중회귀분석을 기초부터 만들어 가기
      • 변수를 상수로 고정하기
      • 두 개의 예측변수가 있는 회귀에서의 준부분상관
      • 제곱의합 구하기
      • R2과 추정의 표준오차
      • F비와 잔차자유도
      • 회귀계수의 표준오차 계산
      • 몇 가지 추가 예제
    • 회귀계수의 표준오차 사용
      • 양쪽꼬리검정
      • 한쪽꼬리검정
    • 예측변수를 평가하기 위한 모델 비교 접근법 사용
      • 모델 통계량 얻기
      • R2 대신 제곱의합을 사용
    • R2의 축소 추정

  • 6장. 회귀분석에 관한 가정과 주의 사항
    • 가정에 관하여
      • 강건성: 문제가 되지 않을 수도 있다
      • 가정과 통계적 추론
    • 허수아비
    • 비선형과 기타 분포 다루기
    • 균등퍼짐 가정
      • 더미코딩 사용
      • 회귀 접근법과 t-검정 접근법 비교
      • 같은 목적지를 향하는 두 개의 경로
    • 불균등 분산과 표본 크기
      • 불균등퍼짐: 보수적 검정
      • 불균등퍼짐 : 진보적인 검정
      • 불균등퍼짐과 균등 표본 크기
      • 분석 도구 대신 LINEST() 사용
      • T.DIST() 함수들 간의 차이 이해
      • 웰치의 보정 사용
      • TTEST() 함수

  • 7장. 회귀분석을 이용한 그룹 평균 간 차이 검정
    • 더미코딩
      • 더미코딩의 예
      • 벡터 자동으로 채우기
      • 던네트 다중비교 과정
    • 효과코딩
      • 0 대신 -1로 코딩
      • 일반선형모델과의 관계
      • 효과코딩으로 다중비교
    • 직교코딩
      • 대비 설정하기
      • ANOVA를 통한 계획된 직교대비
      • LINEST()를 사용한 계획된 직교대비
    • 요소분석
      • 직교코딩을 사용한 요소분석
      • 효과코딩으로 요인분석
    • 통계적 검증력, 제1종 오류, 제2종 오류
    • 통계적 검증력 계산하기
      • 통계적 검증력 높이기
    • 불균등한 셀 크기 다루기
      • 회귀 접근법 사용
      • 순차적 분산 할당

  • 8장. 공분산분석
    • 결과 대조
      • ANCOVA 도표화
    • 일반적인 ANCOVA 구조화
      • 공변량 없이 분석
      • 공변량을 포함한 분석
    • 회귀를 사용한 ANCOVA 구조화
    • 공통 회귀선 확인
      • 분석 요약
    • 조정된 평균 검정: ANCOVA에서 계획된 직교코딩
    • 회귀접근법을 사용한 ANCOVA와 다중비교
    • 계획된 비직교대비를 통한 다중비교
    • 사후 비직교대비를 통한 다중비교

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

[p.33 : 7행]
((28-18)/1)
->
((28-18)/10)

[p.35 : 1행]
정규곡선과 그 아래 구역에서의 표준편차들의 관계 덕분에 무작위로 선택된 남성의 키가 5.5인치와 6.5인치 사이에 있게 될 확률이 96%에 가깝다는 것을 알 수 있다.
->
정규곡선과 그 아래 구역에서의 표준편차들의 관계 덕분에 무작위로 선택된 남성의 키가 65인치와 75인치(5.5피트와 6.5피트) 사이에 있게 될 확률이 96%에 가깝다는 것을 알 수 있다.

[p.41 : 10행]
분포의 평균 0.0은 장기간 평균 205와 새로운 드라이버의 실제 평균(모집단의 모수) 사이의 차이가 0.0야드인 현실을 나타낸다.
->
분포에서 평균값 0.0은 장기간의 평균인 205와 새로운 드라이버의 실제 평균(모집단의 모수) 사이의 차이가 0.0야드인 상황을 나타낸다.

[p.53 : 1행]
연속체의 반대편에는 자연적으로는 발생하지 않는 강한 관계가 있다.
->
완전한 임의 관계의 반대편에는 자연적으로는 발생하지 않는 강한 관계가 있다.

[p.56 : 6~7행]
(기억하라. z-점수의 평균은 0.0이고 표준편차의 평균은 1.0이다).
->
(기억하라. z-점수 분포의 평균은 0.0이고 표준편차는 1.0이다.)

[p.77 : 아래에서 3행]
몸무게가 키의 오른쪽으로
->
몸무게가 키의 왼쪽으로

[p.103 : 아래에서 2행]
에측되는
->
예측되는