책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
https://github.com/AcornPublishing/datascience-decision-making
요약
명목 및 서열 변수의 정의에서 출발해 최적화와 선형계획법에 이르기까지 데이터 과학에 관한 거의 모든 부분을 설명한다. 모든 설명은 예제를 제공하고, 예제는 이론을 설명한 다음 SPSS나 Stata, 엑셀 프로그램의 해 찾기 등을 사용해 해결책을 친절히 설명한다. 이론에만 그치지 않고 실제 해법과 연결해준다. 의사결정에 있어 데이터를 활용해 객관성과 정확성을 기하고자 한다면 이 책을 정독하기를 권한다.
추천의 글
“이 책은 의사결정 분석의 기초와 이해를 위한 핵심 주제를 제공한다. 저자들은 주제를 조심스럽게 선정했으며, 명확히 설명하고 다양한 예제를 곁들였다.” – 라훌 색스나(Rahul Saxena)/ 코봇 시스템(Cobot Systems)
“이 책은 통계 기법을 자세히 설명하고, 깊이 있는 수학적 배경지식이 없어도 비즈니스에 보편적으로 사용할 수 있도록 돕는다. 단계별로 전개되는 방대한 예제 덕분에 기초적인 내용부터 이해하기 쉽다. 각 소프트웨어 특징의 설명과 예제는 특히 학생들과 전문가들에게 유용하다.” – 프란체스코 바톨루치(Francesco Bartolucci)/ 페루자 대학교(University of Perugia)
이 책의 구성
이 책은 통계와 OR(Operation Research)을 다루며, 작업에서 정량 기법을 도입하고자 하는 사람에게 비즈니스 분석의 근본 원리를 명확하게 알려준다. 회귀, 최적화, 비즈니스 분석에서 시뮬레이션의 중요성을 강조하고 있으며, 각 장은 교수법적으로 구성되며 예제와 해답으로 이뤄진다. 무료로 제공되는 데이터셋은 학생이나 전문가들이 엑셀, Stata, SPSS를 사용해 작업해볼 수 있다.
목차
목차
- 1부. 비즈니스 데이터 분석 기초
- 1장. 데이터 분석과 의사결정 소개
- 1.1 소개: 데이터, 정보, 지식 간의 계층구조
- 1.2 책의 개요
- 1.3 맺음말
- 1.4 독자 의견
- 2장. 변수 형식과 측정 그리고 정확도 척도
- 2.1 소개
- 2.2 변수의 형식
- 2.2.1 비계량 또는 정성 변수
- 2.2.2 계량 또는 정량 변수
- 2.3 변수 형식 × 측정 척도
- 2.3.1 비계량 변수: 명목 척도
- 2.3.2 비계량 변수: 서열 척도
- 2.3.3 정량 변수: 구간 척도
- 2.3.4 정량 변수: 비율 척도
- 2.4 변수의 형식 × 범주의 개수와 정확성의 척도
- 2.4.1 이분 또는 이진 변수(더미)
- 2.4.2 다진 변수
- 2.4.3 이산 정량 변수
- 2.4.4 연속 정량 변수
- 2.5 맺음말
- 2.6 연습문제
- 2부. 기술 통계량
- 3장. 일변량 기술 통계량
- 3.1 소개
- 3.2 빈도 분포표
- 3.2.1 정성 변수의 빈도 분포표
- 3.2.2 이산 데이터에 대한 빈도 분포표
- 3.2.3 부류로 그룹화된 연속 데이터의 빈도 분포표
- 3.3 결과의 그래프 표현
- 3.3.1 정성 변수의 그래프 표현
- 3.3.2 정량 변수의 그래프 표현
- 3.4 일변량 기술 통계량에서 가장 보편적인 요약 측도
- 3.4.1 위치나 장소의 측도
- 3.4.2 산포나 변동성의 측도
- 3.4.3 형태 측도
- 3.5 실제 엑셀 예제
- 3.6 SPSS를 사용한 실제 사례
- 3.6.1 빈도 옵션
- 3.6.2 기술 통계 옵션
- 3.6.3 데이터 탐색 옵션
- 3.7 Stata를 사용한 실제 사례
- 3.7.1 Stata로 일변량 빈도 분포표 구하기
- 3.7.2 Stata의 일변량 기술 통계량 요약
- 3.7.3 Stata의 백분위 계산
- 3.7.4 Stata의 차트: 히스토그램, 줄기-잎, 상자 도표
- 3.8 맺음말
- 3.9 연습문제
- 4장. 이변량 기술 통계량
- 4.1 소개
- 4.2 두 정성 변수 간의 연계성
- 4.2.1 결합 빈도 분포표
- 4.2.2 연계성 측도
- 4.3 두 정량 변수 간의 상관관계
- 4.3.1 결합 빈도 분포표
- 4.3.2 산포도를 통한 그래픽 표현
- 4.3.3 상관관계 측도
- 4.4 맺음말
- 4.5 연습문제
- 3부 확률 통계
- 5장. 확률 개론
- 5.1 소개
- 5.2 용어와 개념
- 5.2.1 확률 실험
- 5.2.2 표본 공간
- 5.2.3 사건
- 5.2.4 합집합, 교집합, 여집합
- 5.2.5 독립 사건
- 5.2.6 배반 사건
- 5.3 확률의 정의
- 5.4 기초 확률 법칙
- 5.4.1 확률 변동장
- 5.4.2 표본 공간의 확률
- 5.4.3 공집합의 확률
- 5.4.4 확률의 덧셈 법칙
- 5.4.5 여사건의 확률
- 5.4.6 개별 확률에 대한 확률 곱의 법칙
- 5.5 조건부 확률
- 5.5.1 확률 곱셈 법칙
- 5.6 베이즈 정리
- 5.7 조합론
- 5.7.1 배열
- 5.7.2 조합
- 5.7.3 순열
- 5.8 맺음말
- 5.9 연습문제
- 6장. 확률 변수와 확률 분포
- 6.1 소개6.2 확률 변수
- 6.2.1 이산 확률 변수
- 6.2.2 연속 확률 변수
- 6.3 이산 확률 변수의 확률 분포
- 6.3.1 이산 균등 분포
- 6.3.2 베르누이 분포
- 6.3.3 이항 분포
- 6.3.4 기하 분포
- 6.3.5 음이항 분포
- 6.3.6 초기하 분포
- 6.3.7 푸아송 분포
- 6.4 연속 확률 변수의 확률 분포
- 6.4.1 균등 분포
- 6.4.2 정규 분포
- 6.4.3 지수 분포
- 6.4.4 감마 분포
- 6.4.5 카이제곱 분포
- 6.4.6 스튜던트 t 분포
- 6.4.7 스네데커의 F 분포
- 6.5 맺음말
- 6.6 연습문제
- 4부. 통계적 추론
- 7장. 표본추출
- 7.1 소개
- 7.2 확률 또는 무작위 표본추출
- 7.2.1 단순 무작위 표본추출
- 7.2.2 체계적 표본추출
- 7.2.3 층화 표본추출
- 7.2.4 클러스터 표본추출
- 7.3 비확률 또는 비무작위 표본추출
- 7.3.1 편의 표본추출
- 7.3.2 판단 또는 유의 표본추출
- 7.3.3 할당 표본추출
- 7.3.4 기하 전파 또는 스노우볼 표본추출
- 7.4 표본 크기
- 7.4.1 단순 무작위 표본의 크기
- 7.4.2 체계적 표본의 크기
- 7.4.3 층화 표본의 크기
- 7.4.4 클러스터 표본의 크기
- 7.5 맺음말
- 7.6 연습문제
- 8장. 추정
- 8.1 소개
- 8.2 점과 구간 추정
- 8.2.1 점 추정
- 8.2.2 구간 추정
- 8.3 점 추정 기법
- 8.3.1 모멘트 기법
- 8.3.2 최소 자승법
- 8.3.3 최대 우도 추정
- 8.4 구간 추정 또는 신뢰 구간
- 8.4.1 모집단 평균의 신뢰 구간
- 8.4.2 비율의 신뢰 구간
- 8.4.3 모집단 분산의 신뢰 구간
- 8.5 맺음말
- 8.6 연습문제
- 9장. 가설 검정
- 9.1 소개
- 9.2 모수적 검정
- 9.3 정규성의 일변량 검정
- 9.3.1 콜모고로프-스미노프 검정
- 9.3.2 사피로-윌크 검정
- 9.3.3 사피로-프란시아 검정
- 9.3.4 SPSS를 사용한 정규성 검정 해법
- 9.3.5 Stata를 사용한 정규성 검정 해법
- 9.4 분산의 동질성 검정
- 9.4.1 바틀렛의 2 검정
- 9.4.2 코크란의 C 검정
- 9.4.3 하틀리의 F max 검정
- 9.4.4 레빈의 F 검정
- 9.4.5 SPSS를 사용한 레빈의 검정 해법
- 9.4.6 Stata를 사용한 레빈의 검정 해법
- 9.5 단일 확률 표본으로부터의 모집단 평균(μ )에 관한 가설 검정
- 9.5.1 모집단 표준 편차(σ )를 알고 분포가 정규임을 알 경우의 Z 검정9.5.2 모집단의 표준 편차(σ)를 모를 경우의 스튜던트 t 검정
- 9.5.3 SPSS를 사용한 단일 표본의 스튜던트 t 검정 해법
- 9.5.4 Stata 소프트웨어를 사용한 단일 표본의 스튜던트 t 검정 해법
- 9.6 두 독립 확률 표본의 두 모집단 평균을 비교하는 스튜던트 t 검정
- 9.6.1 SPSS를 사용한 두 독립 표본의 스튜던트 t 검정 해법
- 9.6.2 Stata를 사용한 두 독립 표본의 스튜던트 t 검정 해법
- 9.7 두 대응 확률 표본의 두 모집단 평균을 비교하기 위한 스튜던트 t 검정
- 9.7.1 SPSS를 사용한 대응 표본의 스튜던트 t 검정 해법
- 9.7.2 Stata를 사용한 두 대응 표본의 스튜던트 t 검정 해법
- 9.8 셋 이상의 모집단 평균 비교를 위한 ANOVA
- 9.8.1 일원배치 ANOVA
- 9.8.2 요인 ANOVA
- 9.9 맺음말
- 9.10 연습문제
- 10장. 비모수적 검정
- 10.1 소개
- 10.2 단일 표본 검정
- 10.2.1 이항 검정
- 10.2.2 단일 표본의 카이제곱 검정(χ 2)
- 10.2.3 단일 표본의 부호 검정
- 10.3 두 대응 표본의 검정
- 10.3.1 맥네마르 검정
- 10.3.2 두 대응 표본의 부호 검정
- 10.3.3 윌콕슨 검정378
- 10.4 두 독립 표본의 검정
- 10.4.1 두 독립 표본의 카이제곱(χ 2) 검정
- 10.4.2 만-휘트니 U 검정
- 10.5 k 대응 표본 검정
- 10.5.1 코크란 Q 검정
- 10.5.2 프리드먼 검정
- 10.6 k 독립 표본 검정
- 10.6.1 k 독립 표본의 χ 2 검정
- 10.6.2 크루스칼-월리스 검정
- 10.7 맺음말
- 10.8 연습문제
- 5부. 다변량 탐색적 데이터 분석
- 11장. 클러스터 분석
- 11.1 소개
- 11.2 클러스터 분석
- 11.2.1 클러스터 분석에서 거리와 유사성 측도의 정의
- 11.2.2 클러스터 분석의 응집 계획
- 11.3 SPSS를 사용한 계층적, 비계층적 클러스터 분석
- 11.3.1 SPSS를 사용한 계층적 응집 계획 수행
- 11.3.2 SPSS를 이용해 비계층 k 평균 응집 계획 수행
- 11.4 Stata를 사용한 계층적, 비계층적 응집 계획 클러스터 분석
- 11.4.1 Stata를 사용한 계층적 응집 계획 수행
- 11.4.2 Stata를 사용한 비계층적 k 평균 응집 계획 수행
- 11.5 맺음말
- 11.6 연습문제
- 12장. 주성분 요인 분석
- 12.1 소개
- 12.2 주성분 요인 분석
- 12.2.1 피어슨의 선형 상관관계와 요인의 개념
- 12.2.2 요인 분석의 전반적 적절성: 카이저-마이어-올킨 통계량과 바렛의 구형성 검정
- 12.2.3 주성분 요인의 정의: 상관 행렬 r의 고윳값과 고유벡터의 결정 그리고 요인 점수 계산
- 12.2.4 요인 적재 및 공통성
- 12.2.5 요인 회전
- 12.2.6 주성분 요인 분석의 실제 예제
- 12.3 SPSS를 사용한 주성분 요인 분석
- 12.4 Stata를 사용한 주성분 요인 분석
- 12.5 맺음말
- 12.6 연습문제
- 6부. 일반화 선형 모델
- 13장. 단순 및 다중 회귀 모델
- 13.1 소개
- 13.2 선형 회귀 모델
- 13.2.1 최소 자승에 의한 선형 회귀 모델 추정
- 13.2.2 회귀 모델의 해석력: 결정 계수 R 2
- 13.2.3 회귀 모델과 각 모수의 일반 통계적 유의성
- 13.2.4 모델 모수의 신뢰 구간 구축과 예측
- 13.2.5 다중 선형 회귀 모델의 추정
- 13.2.6 회귀 모델에서의 더미 변수
- 13.3 OLS로 추정된 회귀 모델의 예측
- 13.3.1 잔차의 정규성
- 13.3.2 다중공선성 문제
- 13.3.3 이분산성 문제
- 13.3.4 잔차의 자기상관 문제
- 13.3.5 명세 문제의 탐지: Linktest와 RESET 검정
- 13.4 비선형 회귀 모델
- 13.4.1 박스-콕스 변환: 일반 회귀 모델
- 13.5 Stata를 사용한 회귀 모델의 추정
- 13.6 SPSS를 사용한 회귀 모델의 추정
- 13.7 맺음말
- 13.8 연습문제
- 14장. 이진 및 다항 로지스틱 회귀 모델
- 14.1 소개
- 14.2 이진 로지스틱 회귀 모델
- 14.2.1 최대 우도에 의한 이진 로지스틱 회귀 모델의 추정
- 14.2.2 이진 로지스틱 회귀 모델의 일반 통계적 유의성과 각 모수
- 14.2.3 이진 로지스틱 회귀 모델의 모수에 대한 신뢰 구간 구성
- 14.2.4 컷오프, 민감도 분석, 전체 모델 효율, 민감도, 특이성
- 14.3 다항 로지스틱 회귀 모델
- 14.3.1 최대 우도에 의한 다항 로지스틱 회귀 모델 추정
- 14.3.2 다항 로지스틱 회귀 모델과 그 각 모수에 대한 일반 통계적 유의성
- 14.3.3 다항 로지스틱 회귀 모델에 대한 모수의 신뢰 구간 구성
- 14.4 Stata를 사용한 이진 및 다항 로지스틱 회귀 모델 추정
- 14.4.1 Stata를 사용한 이진 로지스틱 회귀
- 14.4.2 Stata를 사용한 다항 로지스틱 회귀
- 14.5 SPSS를 사용한 이진 및 다항 로지스틱 회귀 모델 추정
- 14.5.1 SPSS를 사용한 이진 로지스틱 회귀
- 14.5.2 SPSS를 사용한 다항 로지스틱 회귀
- 14.6 맺음말
- 14.7 연습문제
- 부록: 프로빗 회귀 모델
- A.1 개요
- A.2 예제: Stata를 사용한 프로빗 회귀 모델 추정
- 15장. 개수 데이터를 위한 회귀 모델: 푸아송과 음이항
- 15.1 소개
- 15.2 푸아송 회귀 모델
- 15.2.1 최대 우도에 의한 푸아송 회귀 모델의 추정
- 15.2.2 푸아송 회귀 모델과 각 모수의 일반 통계적 유의성
- 15.2.3 푸아송 회귀 모델에서 신뢰 구간의 구성
- 15.2.4 푸아송 회귀 모델에서의 과산포성 확인을 위한 검정
- 15.3 음이항 회귀 모델
- 15.3.1 최대 우도에 의한 음이항 회귀 모델 추정
- 15.3.2 음이항 회귀 모델과 각 모수의 일반 통계적 유의성
- 15.3.3 음이항 회귀 모델의 모수에 대한 신뢰 구간 구축
- 15.4 Stata를 사용한 개수 데이터의 회귀 모델 추정
- 15.4.1 Stata를 사용한 푸아송 회귀 모델
- 15.4.2 Stata를 사용한 음이항 모델
- 15.5 SPSS로 개수 데이터에 대한 회귀 모델 추정
- 15.5.1 SPSS를 사용한 푸아송 회귀 모델
- 15.5.2 SPSS를 사용한 음이항 회귀 모델
- 15.6 맺음말
- 15.7 연습문제
- 부록: 제로 인플레이티드 회귀 모델
- A.1 개요
- A.2 예제: Stata를 사용한 제로 인플레이티드 푸아송 회귀 모델
- A.3 예제: Stata를 사용한 제로 인플레이티드 음이항 회귀 모델
- 7부. 최적화 모델과 시뮬레이션
- 16장. 최적화 모델 소개: 일반 유형과 비즈니스 모델링
- 16.1 최적화 모델 소개
- 16.2 선형 계획 모델 소개
- 16.3 일반 선형 계획 문제의 수학 공식
- 16.4 표준 또는 캐노니컬 형식의 선형 계획 모델
- 16.4.1 표준 형식의 선형 계획 모델
- 16.4.2 캐노니컬 형식의 선형 계획 모델
- 16.4.3 표준 또는 캐노니컬 형식으로의 변환
- 16.5 선형 계획의 가정
- 16.5.1 비례성
- 16.5.2 가산성
- 16.5.3 가분성과 비음성
- 16.5.4 확실성
- 16.6 선형 계획을 통한 비즈니스 문제 모델링
- 16.6.1 상품 믹스 문제
- 16.6.2 블렌딩 또는 믹싱 문제
- 16.6.3 다이어트 문제
- 16.6.4 자본 예산 문제
- 16.6.5 포트폴리오 선택 문제
- 16.6.6 생산과 재고 문제
- 16.6.7 집계 계획 문제
- 16.7 맺음말
- 16.8 연습문제
- 17장. 선형 계획 문제의 해법
- 17.1 소개
- 17.2 선형 계획 문제의 그래프 해법
- 17.2.1 단일 최적해를 가진 최대화 선형 계획
- 17.2.2 단일 최적해를 가진 선형 계획 최소화 문제
- 17.2.3 특수한 경우
- 17.3 m, n 인 선형 계획 문제의 해석적 해
- 17.4 심플렉스 기법
- 17.4.1 심플렉스 기법의 논리
- 17.4.2 최대화 문제에서 심플렉스 기법의 해석적 해
- 17.4.3 최대화 문제에서 심플렉스 기법의 표 방법
- 17.4.4 최소화 문제에서 심플렉스 기법
- 17.4.5 심플렉스의 특수한 경우
- 17.5 컴퓨터를 이용한 해법
- 17.5.1 엑셀의 해 찾기
- 17.5.2 16.6절의 예제를 엑셀의 해 찾기로 해결
- 17.5.3 무제한과 불가능해에 대한 해 찾기 오류 메시지
- 17.5.4 해 찾기의 해답과 한곗값 보고서를 사용한 결과 분석
- 17.6 민감도 분석
- 17.6.1 목적 함수 계수 중 하나의 변경(그래프 해법)
- 17.6.2 제약의 우변 상수 중 하나의 변경과 그림자 가격의 개념(그래프 해법)
- 17.6.3 축소 비용
- 17.6.4 엑셀의 해 찾기로 민감도 분석
- 17.7 연습문제
- 18. 네트워크 계획
- 18.1 소개
- 18.2 그래프와 네트워크의 용어
- 18.3 고전적인 운송 문제
- 18.3.1 고전적인 운송 문제의 수학 공식
- 18.3.2 전체 공급 용량이 전체 수요와 맞지 않을 때 운송 문제 균형 맞추기
- 18.3.3 고전적인 운송 문제 해결
- 18.4 환적 문제
- 18.4.1 환적 문제의 수학 공식
- 18.4.2 엑셀의 해 찾기를 사용한 환적 문제 해결
- 18.5 작업 할당 문제
- 18.5.1 작업 할당 문제의 수학 공식
- 18.5.2 엑셀의 해 찾기를 사용한 작업 할당 문제 해결
- 18.6 최단 경로 문제
- 18.6.1 최단 경로 문제의 수학 공식
- 18.6.2 엑셀의 해 찾기를 사용한 최단 경로 문제 해결
- 18.7 최대 흐름 문제
- 18.7.1 최대 흐름 문제의 수학 공식
- 18.7.2 엑셀의 해 찾기를 사용한 최대 흐름 문제 해결
- 18.8 연습문제
- 19장. 정수 계획
- 19.1 개요
- 19.2 정수 계획, 이진 및 선형 완화를 위한 일반 모델의 수학 공식
- 19.3 배낭 문제
- 19.3.1 배낭 문제 모델링
- 19.3.2 엑셀의 해 찾기를 사용한 배낭 문제 해결
- 19.4 이진 계획 모델로서의 자본 예산 문제
- 19.4.1 엑셀의 해 찾기를 사용한 이진 계획 모델로서의 자본 예산 문제 해결
- 19.5 이동 판매원 문제
- 19.5.1 이동 판매원 문제 모델링
- 19.5.2 엑셀의 해 찾기를 사용한 이동 판매원 문제 해결
- 19.6 시설 입지 문제
- 19.6.1 시설 입지 문제 모델링
- 19.6.2 엑셀의 해 찾기를 사용한 설비 입지 문제 해결
- 19.7 직원 일정 문제
- 19.7.1 엑셀의 해 찾기를 사용한 직원 일정 문제 해결
- 19.8 연습문제
- 20장. 시뮬레이션과 리스크 분석
- 20.1 시뮬레이션 소개
- 20.2 몬테카를로 방법
- 20.3 엑셀에서의 몬테카를로 시뮬레이션
- 20.3.1 엑셀에서의 난수 생성 및 확률 분포
- 20.3.2 실제 사례
- 20.4 맺음말
- 20.5 연습문제
- 8부. 그 밖의 주제
- 21장. 실험 설계와 분석
- 21.1 소개
- 21.2 실험 설계 단계
- 21.3 실험 설계의 네 가지 원칙
- 21.4 실험 설계의 유형
- 21.4.1 완전 랜덤 설계
- 21.4.2 랜덤 블록 설계
- 21.4.3 요인 설계
- 21.5 일원배치 ANOVA
- 21.6 요인 ANOVA
- 21.7 맺음말
- 21.8 연습문제
- 22장. 통계적 공정 관리
- 22.1 소개
- 22.2 공정 평균 및 변동성 추정
- 22.3 변수의 관리도
- 22.3.1 X 및 R 관리도
- 22.3.2 X 및 S 관리도
- 22.4 속성의 관리도
- 22.4.1 p 관리도(결함비)
- 22.4.2 np 관리도(불량품 수)
- 22.4.3 C 관리도(단위당 총 결함 수)
- 22.4.4 U 관리도(단위당 평균 결함 수)
- 22.5 공정 능력
- 22.5.1 Cp 지수
- 22.5.2 Cpk 지수
- 22.5.3 Cpm 및 Cpmk 지수
- 22.6 맺음말
- 22.7 연습문제
- 23장. 데이터 마이닝과 다중 모델링
- 23.1 데이터 마이닝 소개
- 23.2 다중 모델링
- 23.3 중첩 데이터 구조
- 23.4 계층 선형 모델
- 23.4.1 클러스터링 데이터가 포함된 2레벨 계층 선형 모델(HLM2)
- 23.4.2 반복 측정이 포함된 3레벨 계층 선형 모델(HLM3)
- 23.5 Stata로 계층 선형 모델 추정
- 23.5.1 Stata로 클러스터링 데이터가 포함된 2레벨 계층 선형 모델의 추정
- 23.5.2 Stata에서 반복 측정이 포함된 3레벨 계층 선형 모델의 추정
- 23.6 SPSS를 사용한 계층 선형 모델의 추정
- 23.6.1 SPSS로 클러스터링 데이터가 포함된 2레벨 계층 선형 모델의 추정
- 23.6.2 SPSS에서 반복 측정이 포함된 3레벨 계층 선형 모델의 추정
- 23.7 맺음말
- 23.8 연습문제
- 연습문제 해답
- 부록