R 통계 프로그래밍 입문 [기초 통계부터 데이터 분석 실용 예제까지]
- 원서명R Statistical Application Development by Example Beginner's Guide (ISBN 9781849519441)
- 지은이프라반잔 나라야나차르 타따르
- 옮긴이허석진
- ISBN : 9788960776272
- 30,000원
- 2014년 10월 31일 펴냄 (절판)
- 페이퍼백 | 356쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 데이터 과학
판매처
- 현재 이 도서는 구매할 수 없습니다.
책 소개
요약
이 책은 R을 설치하는 방법부터 알려 주고, 처음 접하는 사용자도 쉽게 따라올 수 있도록 R 사용에 필요한 기초적인 사항을 소개하고, 이어서 데이터 가져오기/내보내기, 데이터 시각화, 직관적 데이터 분석, 통계적 가설 검정, 회귀분석, CART 등의 주제에 대해 관련 패키지를 설명하면서 예제를 중심으로 다룬다. 책과 함께 제공되는 R 코드는 다양한 분야에서 통계 분석 작업에 적용할 수 있다.
이 책에서 다루는 내용
변수의 특성을 감안한 효율적인 데이터 시각화
효율적인 추론으로 이어지는 탐색적 데이터 분석
고전적인 추론과 현대적인 계산에 의한 시뮬레이션을 바탕으로 한 통계 추론
현대 통계학의 바탕이 되는 선형 회귀모형과 로지스틱 회귀모형 탐구
비선형적인 데이터에 유용한 기계학습 도구 CART
이 책의 대상 독자
이 책은 자신의 전문 분야에서 통계 프로그램을 사용해야 하는 재능 있는 독자를 대상으로 한다. 또 처음 7개 장은 통계학과 석사 과정 학생에게 유용하고, 관심이 있다면 이 책의 나머지 부분에서 CART를 쉽게 배울 수 있을 것이다.
이 책의 구성
1장부터 5장에서는 R 소프트웨어와 통계학의 기초를 다룬다. 6장에서 10장에 걸쳐 실용적이고 현대적인 회귀모형을 자세히 설명한다. 부록인 참고문헌에서는 이 책에서 참조하는 책의 이름을 나열한다.
1장, ‘데이터 형식’에서는 설문조사와 데이터 세트를 이용해 여러 데이터 형식을 소개한다. 재미있는 상황을 가정하고 통계 모형의 필요성을 제시한다. 그 다음 R과 관련 패키지의 설치를 간단히 설명한다. R 프로그램을 바탕으로 이산/연속 확률변수를 다룬다.
2장, ‘데이터 가져오기와 내보내기’에서는 R을 이용한 간단한 기초 개발 수준에서 시작한다. 간단한 예제를 바탕으로 데이터 프레임, 벡터, 행렬, 리스트를 다룬다. 다음으로 csv나 xls와 같은 외부 파일 읽어오기와 그 밖의 소프트웨어로 데이터와 객체를 내보내는 방법을 배우고 나서 R 세션 관리로 마무리한다.
3장,’ ‘데이터 시각화’에서는 범주형과 수치형 데이터 세트를 위한 효율적인 그래프 그리기를 다룬다. 여기에 해당되는 것은 막대 차트, 점 차트, 스파인 그래프와 모자이크 그래프, 범주형 데이터를 위한 4겹 그래프, 연속/수치형 데이터를 위한 히스토그램, 상자 그래프, 산점도다. ggplot2도 간단히 소개한다.
4장, ‘탐색적 분석’에는 사전 분석을 위한 직관적인 기술이 들어 있다. 줄기/잎 그래프, 문자 값 등의 EDA 시각화 기술과 저항성 직선, 데이터 스무딩, 중위수 분해의 모형화는 사전 분석 단계에서 통찰력을 준다.
5장, 통계적 가설검증을 우도함수와 최우도 추정으로 시작한다. 문제를 구체적으로 해결하려고 정의한 함수를 사용해서 모수의 신뢰구간을 설명한다. 이 장에서는 평균값 비교를 위한 Z-테스트, t-테스트와 분산 비교를 위한 카이제곱 테스트, F-테스트 같은 중요한 통계적 검정도 다룬다.
6장, ‘선형 회귀 분석’에서는 설명 변수와 결과 변수 사이의 선형 관계를 수립한다. 선형 회귀 모형은 많은 가정을 하고 있는데, 검증 기술로 그런 세부 사항을 확인한다. 하나의 관측, 결과 값, 또는 설명변수가 모형이 영향을 끼친다. 통계적 척도가 깊이 있게 논의되는데 이것이 몇 가지 변칙성을 제거할 수 있게 한다. 다수의 설명변수가 주어지면, 모형 선택 기법으로 효율적인 모형을 개발할 수 있다.
7장, ‘로지스틱 회귀모형’은 결과 값이 이진형일 때 유용한 모형이다. 잔차에 의한 진단과 모형 검증은 모형 개선으로 이어진다. 더 좋은 분류 모형을 찾는 데 도움이 되는 ROC 곡선을 알아본다.
8장, ‘회귀모형의 정규화’에서는 앞의 두 장에서 발전시킨 모형의 과적합 문제를 다룬다. 능형 회귀는 과적합의 가능성을 상당히 줄여주고 스플라인 모형은 다음 장에 나오는 모형의 기초가 된다.
9장, ‘분류나무와 회귀나무’에서는 나무에 기반한 회귀모형을 다룬다. 나무는 일단 R 함수를 사용해서 만들고 그 다음 CART를 잘 이해할 수 있게 직접 최종적인 나무를 생성한다.
10장, ‘CART의 확장’에서는 bagging과 랜덤 포레스트를 이용한 CART의 두 가지 개선을 다룬다. 6장부터 10장까지의 모든 모형을 데이터 세트에 적용하며 종합 정리한다.
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
목차
목차
- 1장. 데이터 형식
- 설문조사의 구성요소
- R 환경에서의 데이터 특성
- 컴퓨터 과학의 불확실성 체험
- R 설치
- R 패키지
- RSADBE - 이 책에서 사용하는 R 패키지
- 이산분포
- 이산 일항 분포
- 이항 분포
- 초기하 분포
- 음이항 분포
- 포아송 분포
- 연속분포
- 일항분포
- 지수분포
- 정규분포
- 요약
- 설문조사의 구성요소
- 2장. 데이터 가져오기와 내보내기
- 데이터 프레임과 기타 형식
- 상수, 벡터, 행렬
- 리스트 객체
- 데이터 프레임
- 테이블 객체
- read.csv, read.xls, 외부 패키지
- MySQL로부터 데이터 가져오기
- 데이터와 그래프 내보내기
- R 객체 내보내기
- 그래프 내보내기
- R 세션 관리
- 요약
- 데이터 프레임과 기타 형식
- 3장. 데이터 시각화
- 범주형 데이터의 시각화 기술
- 막대 차트
- R에 내장된 예시 살펴보기
- 점 차트
- 스파인과 모자이크 그래프
- 파이 차트와 4겹 그래프
- 막대 차트
- 연속형 데이터를 위한 시각화 기법
- 상자 그래프
- 히스토그램
- 산점도
- 파레토 차트
- ggplot2 소개
- 요약
- 범주형 데이터의 시각화 기술
- 4장. 탐색적 분석
- 기본적인 통계량
- 백분위수, 변위수, 중위수
- 경첩
- 사분위수 범위
- 줄기/잎 그래프
- 문자 값
- 데이터 조정
- Bagplot - 상자 그래프의 이변수 버전
- 저항성 직선
- 데이터 스무딩
- 중위수 분해
- 요약
- 기본적인 통계량
- 5장. 통계적 추론
- 최우추정치
- 우도 함수 시각화
- 최우추정
- fitdistr 함수
- 신뢰구간
- 가설검정
- 이항 검정
- 모비율 검정과 카이제곱 검정
- 정규분포 검정 - 표본이 하나인 경우
- 정규분포 검정 - 표본이 둘인 경우
- 요약
- 최우추정치
- 6장. 선형 회귀 분석
- 단순회귀모형
- 모수를 임의로 선택하면 어떻게 될까?
- 단순회귀모형의 수립
- 분산분석과 신뢰구간
- 모형의 정당성
- 중회귀모형
- k개의 단순회귀모형 평균과 중회귀모형
- 중회귀모형의 수립
- 중회귀모형의 분산분석과 신뢰구간
- 잔차 그래프
- 회귀 진단
- 지렛점
- 영향점
- DFFITS와 DFBETAS
- 다중공선성 문제
- 모형의 선택
- 단계적 절차
- 후진제거법
- 전진선택법
- 기준을 사용하는 방법
- 단계적 절차
- 요약
- 단순회귀모형
- 7장. 로지스틱 회귀모형
- 이진회귀 문제
- 프로빗 회귀모형
- 로지스틱 회귀모형
- Hosmer-Lemeshow 적합도 검정 통계량
- 모형 검증과 진단
- GLM을 위한 잔차 그래프
- GLM의 영향점과 지렛점
- 수신자 조작 곡선
- 독일 신용 심사 데이터 세트의 로지스틱 회귀
- 요약
- 과적합 문제
- 스플라인 회귀
- 기저 함수
- 구간별 선형회귀모형
- 3차 스플라인과 일반적인 B-스플라인
- 능형 선형회귀모형
- 로지스틱 회귀모형을 위한 능형 회귀
- 모형 평가
- 요약
- 재귀분할
- 데이터 분리
- 첫 번째 나무
- 회귀나무 만들기
- 분류나무 만들기
- 독일 신용 데이터를 위한 분류나무
- 가지치기와 기타 세부 사항
- 요약
- CART의 개선
- 배깅
- 부트스트랩
- 배깅 알고리즘
- 랜덤 포레스트
- 종합 정리
- 요약