책 소개
요약
아마존닷컴에서 평균 별점 5개로 독자들의 큰 호평을 받은 데이터 과학 입문서다. 누구나 사용하는 엑셀(Excel) 프로그램을 이용해 데이터 과학과 비즈니스 분석의 복잡한 알고리즘을 한눈에 보이듯 알려준다. "빅데이터가 중요하고 우리 회사도 도입한다고 하던데... 그게 뭐지?"라고 막연해 하는 실무 담당자들이나 "데이터 과학이 무엇이며, 왜 중요한 걸까?"라며 새로이 공부를 시작해 보려는 사람들에게 큰 도움이 되는 책이다. 아울러, 이미 웬만한 빅데이터 책은 여러 권 보았지만 단순한 기술 활용에서 별다른 영감을 얻지 못하는 이들에게 “어떻게 하면 빅데이터에서 통찰을 이끌어낼 수 있는지?”에 대한 새로운 출발점을 제공한다. 어렵지 않은 엑셀 예제들로 시작해 R로 마무리하며, 데이터 과학을 유쾌하고 쉬우며 재미있게 이해할 수 있게 해주는 흔치 않은 책이다.
이 책에 쏟아진 찬사
이 책은 현대적인 데이터 분석과 알고리즘을 손쉽게 구현하도록 잘 설명해주는 책이다. 이제 딱딱한 교재나 학술적인 문서를 읽는 데 더는 시간을 허비하지 마라!
-패트릭 크로스비(Patrick Crosby), 스탯햇(StatHat)의 설립자이자 오케이큐피드(OkCupid)의 첫 CTO
포먼이 우리 회사에 입사 면접을 왔을 때, 그는 켄터키 주의 명예 장교처럼 정장을 차려입고 도착해서 바베큐, 레이저, 오렌지 과즙 등에 대한 잡담을 늘어 놓았다. 한참 떠들고 나서는, 간단한 스프레드시트를 가지고 회사의 복잡한 빅데이터 문제들을 이해하기 쉽게 설명하고 해결책을 찾는 방법을 설명했다. 서버 클러스터나 메인프레임 컴퓨터, 하둡 같은 것들을 전혀 사용하지 않았다. 그저 엑셀만 가지고 설명할 뿐이었다. 나는 그 자리에서 그를 채용하기로 결정했다. 이 책을 읽고 나면, 간단한 수학과 기초 스프레드시트 수식을 사용해 비즈니스를 개선하는 방법을 배울 수 있다. 뿐만 아니라, 기업의 경영진이 여러분을 데이터 과학자로 채용하게 만드는 기법도 익힐 수 있을 것이다."
-벤 체스넛(Ben Chestnut), 메일침프(MailChimp)의 설립자이자 CEO
"기업 분석팀이라면 반드시 존 포먼의 도움이 필요하다. 만약 그와 일할 수 없다면, 이 책을 읽는 것이 차선책일 것이다."
-패트릭 레논(Paktrick Lennon), 코카콜라 데이터 분석 이사
이 책에서 다루는 내용
■ 일반 선형 모델, 앙상블 모델, 나이브 베이즈 등을 사용한 인공지능
■ k-평균, 구상 k-평균, 그래프 모듈성 등을 사용한 군집화
■ 비선형 프로그래밍과 유전 알고리즘 등을 비롯한 최적화
■ 시계열 데이터 작업과, 지수 평활법을 사용한 예측 방법
■ 리스크를 정량화하기 위한 몬테카를로 시뮬레이션
■ 단일 차원, 다차원에서 이상점 탐지
■ 데이터 과학에 적합한 R 언어 탐구
이 책의 대상 독자
나는 이 책에 대한 전형적인 독자상(마케팅하는 사람들은 그것을 페르소나라고 부른다)을 다음과 같이 설정하고 글을 썼다.
■ 마케팅부의 부팀장으로 고객들의 거래 데이터를 전략적으로 사용해 가격과 고객 세그먼트를 결정하고자 한다. 그런데 소프트웨어 개발자들이나 비싼 컨설턴트들이 사용해 보도록 권하는 접근법을 제대로 이해하고 있지 않다.
■ 수요 예측 분석가로 회사의 과거 판매 데이터가 단순한 다음 분기 계획보다 더 가치가 있다는 사실을 잘 알고 있다. 그런데 그 가치를 뽑아내는 방법을 모른다.
■ 온라인 소매 스타트업의 사장으로 과거 고객들이 구매 데이터에 기반하여 언제 구매를 위해 그들이 지갑을 여는지 예측하고자 한다.
■ 경영정보 분석가로 회사의 기반 시설과 공급망 관리에 효율적으로 돈이 쓰이지 못하고 있다는 사실을 안다. 그럼에도 시스템적으로 어떻게 비용 절감 의사결정을 할지 모르겠다.
■ 온라인 마케터로 이메일, 페이스북, 트위터 등을 통해서 텍스트로 소통하는 고객들과 함께 더 많은 일을 하고 싶은데, 여러분은 그저 그것들을 읽고 저장하는 수준에 그치고 있다.
나는 여러분이 독자로서 데이터 과학에 대한 지식을 통해서 직접 이득을 취할 수 있기를 바라는데, 아직 모든 기술에 대한 기초는 갖추지 못했다고 가정할 것이다. 이 책의 목표는 데이터 과학과 관련된 여러 귀찮은 부분들(코드, 도구, 과장된 말들)을 걷어내고, 대학에서 한 학기 정도 선형 대수나 미적분학을 배운 사람이라면 충분히 이해할 수 있는 실용적인 예를 가지고 실질적인 테크닉을 가르치는 데 있다. 만약 대학에서 해당 과목을 F 학점 맞았다 하더라도 실망할 필요가 없다. 책을 천천히 읽거나 위키백과 등을 찾아보면 충분히 해결할 수 있다.
이 책의 구성
1장에서는 잘 모를 수도 있는 엑셀의 이런 저런 기능들을 설명할 것이다. 이후 그 기능들을 활용하는 사례들로 넘어간다. 이 책이 끝날 쯤이면, 다음과 같은 기술들을 이해하고, 문제를 풀기 위해서 무엇을 해야 할지 알게 될 것이다.
■ 선형, 정수형 프로그래밍을 사용한 최적화
■ 시계열 데이터를 다루고, 트렌드와 계절적 패턴을 감지하고, 지수 평활법을 사용하여 예측하는 방법
■ 리스트를 계량화하여 시나리오를 예측하는 데 몬테카를로 시뮬레이션 사용하기
■ 일반 선형 모델, 로지스틱 링크 함수, 앙상블(ensemble) 모델, 나이브 베이즈(naïve bayes)에 기초한 인공지능
■ 코사인 유사도를 사용하여 거리 구하기, kNN 그래프 만들기, 모듈성 계산하기, 고객 군집화하기
■ 튜키 울타리를 사용하여 1차원에서 이상값 알아내기, 지역 이상값 인자를 사용하여 다차원에서 이상값 알아내기
■ 거인의 어깨에 올라서는 것처럼 다른 분석가들이 개발한 R 패키지를 이용하는 방법
상세페이지
목차
목차
- 1 스프레드시트에서 꼭 알아야 하지만, 감히 물어보지 못했던 것들
- 몇 개의 샘플 데이터
- 컨트롤 버튼으로 빠르게 이동
- 수식과 데이터를 빠르게 복사
- 셀 서식 선택
- 선택하여 붙여넣기
- 차트 삽입
- 찾기 및 바꾸기
- 값의 위치, 어떤 위치의 값을 다루는 수식
- VLOOKUP을 사용하여 데이터 합치기
- 필터와 정렬
- 피벗 테이블 사용
- 배열 수식 사용
- 해 찾기로 문제 풀기
- 오픈솔버: 필요 없기를 바랬는데, 필요한 것
- 정리
- 2 군집분석 1: K-평균을 사용하여 고객 기반 세분화
- 여자 아이들은 여자 아이들과 춤을 추고, 남자 아이들은 발꿈치를 긁는다
- 실제 적용: K-평균 군집화로 이메일 마케팅에서의 고객 분류
- 제이 뱅 오도넛 와인 도매 상사
- 최초의 데이터 셋
- 측정할 대상 결정
- 4개의 군집으로 시작
- 유클리드 거리: 직선 거리 구하기
- 모든 고객에 대한 거리와 군집 할당
- 군집 중심점 계산
- 결과 이해
- 군집별 가장 많았던 거래 정보 얻기
- 실루엣: 서로 다른 K 값이 치고받을 수 있도록 하는 좋은 방법
- 5개의 군집은 어떤가?
- 다섯 개의 군집에서 해 찾기
- 5개 군집의 최고 거래 내용 보기
- 5-평균 군집화에서 실루엣 계산
- k-중앙 군집화와 비대칭적인 거리 측정
- k-중앙 군집화의 사용
- 더 적합한 거리 매트릭스 구하기
- 이 모든 것을 엑셀에 집어 넣기
- 5-중앙 군집법에서의 최고 거래 보기
- 정리
- 3 나이브 베이즈: 바보이기에는 너무나 민첩한
- 제품 이름을 맨드릴로 지으면 신호와 잡음을 동시에 얻는다
- 세상에서 가장 간단한 확률 이론 소개
- 조건부 확률 모두 합하기
- 결합 확률, 체인 규칙, 독립
- 종속적인 상황에서는 어떤 일이 벌어지는가?
- 베이즈의 정리
- 베이즈 규칙을 사용하여 인공지능 모델 만들기
- 높은 수준의 분류 확률은 종종 같다고 가정된다
- 추가로 고려할 잡다한 것들
- 엑셀 시작
- 불필요한 문장 부호 제거
- 빈칸을 사용하여 나누기
- 토큰의 개수와 확률 계산
- 모델을 가졌으므로 사용해 보자
- 정리
- 4 모델 최적화: 신선한 과즙이 자기 스스로 혼합되는 것은 아니기 때문에
- 데이터 과학자가 최적화를 알아야 하는 이유
- 간단한 균형점 잡기 문제로 시작
- 문제를 하나의 포트폴리오로 표현
- 레벨셋을 이동하여 문제 풀기
- 심플렉스 메소드: 코너에서 찾기
- 엑셀로 작업해 보기
- 이 장의 뒤쪽에 괴물이 있다
- 혼합 모델을 이용해 과수원에서 유리잔까지 유지되는 신선함
- 혼합 모델의 사용
- 몇 가지 스펙으로 시작하자
- 일관성으로 돌아와서
- 데이터를 엑셀에 넣기
- 해 찾기에 문제 설정
- 기준 낮추기
- 죽은 다람쥐 치우기: 미니맥스 공식
- IF-Then과 Big M 제한 조건
- 변수들을 곱하기: 볼륨을 11로 키우기
- 리스크 모델링
- 정규분포하는 데이터
- 정리
- 5 군집분석 2: 네트워크 그래프와 커뮤니티 탐지
- 네트워크 그래프의 의미
- 간단한 그래프로 시각화
- 게피에 대한 간단한 소개
- 게피의 설치와 파일 준비
- 그래프 레이아웃 잡기
- 노드 등급
- 보기 좋게 인쇄
- 그래프 데이터 만지기
- 와인 도매 데이터로 그래프 만들기
- 코사인 유사도 행렬 만들기
- r-네이버후드 그래프 만들기
- 에지의 가치는 얼마인가? 그래프 모듈성에서의 포인트와 벌점
- 무엇이 포인트이고 무엇이 벌점인가?
- 스코어 시트 설정
- 군집 나누기
- 분할 번호 1
- Split 2: 일렉트릭 부갈루
- 그리고 Split3: 더 극단적으로 나누기
- 커뮤니티 인코딩과 분석
- 게피로 다시 돌아가기
- 정리
- 6 회귀: 인공지능 지도 학습법의 원조
- 잠깐만요, 뭐라고요? 임신이라고요?
- 웃기지 마라!
- 선형회귀를 사용하여 리테일마트에서 임신 고객 예측
- 특성들의 집합
- 훈련용 데이터 만들기
- 가변수 만들기
- 선형 회귀 모델을 만들어 보기
- 선형 회귀 통계: R-Squared, F 검정, t 검정
- 새로운 데이터에 대한 예측과 성능 측정
- 로지스틱 회귀를 사용하여 임신 고객 예측
- 먼저 링크 함수가 필요하다
- 로지스틱 함수와 다시 최적화
- 실제로 해 보는 로직스틱 회귀
- 모델 선택: 선형 회귀와 로지스틱 회귀의 비교
- 더 많은 정보
- 정리
- 7 앙상블 모델: 푸짐하게 준비된 맛없는 피자
- 6장의 데이터를 사용한다
- 배깅: 무작위, 훈련, 반복
- 결정 스텀프는 바보같은 예측인자에 대한 섹시하지 않은 용어다
- 내겐 그렇게 바보같아 보이지 않아요!
- 더 많은 힘이 필요하다!
- 훈련시키기
- 배깅 모델 평가
- 부스팅: 잘 안 되면 기운을 북돋고 다시 해 봐라!
- 모델 훈련: Every Feature Gets a Shot
- 부스팅 모델 평가
- 정리
- 8 예측: 안심해라, 뭘 해도 틀릴 수 있다
- 장검 장사가 잘 되고 있다
- 시계열 데이터에 익숙해지기
- 단순 지수 평활법으로 천천히 시작한다
- 단순 평활 예측법을 위한 설정
- 데이터에 경향성이 있다
- 홀트의 트렌드 반영 지수 평활법
- 홀트 트렌드 반영 지수 평활법을 스프레드시트에서 설정
- 다 되었는가? 자기 상관을 보자.
- 배수적 홀트 윈터스 지수 평활법
- 초기 레벨, 트렌드, 계절성 요인 값의 설정
- 예측
- 최적화
- 지금 우리가 한 것에 대해 이야기해 주세요!
- 예측 구간 삽입
- 팬 차트 만들기
- 정리
- 9 이상점 탐지: 이상해 보인다고 해서 진짜 이상한 것은 아니다
- 이상점은 (나쁜) 사람이 될 수도 있다
- 해들럼씨와 해들럼 부인의 논쟁
- 튜키 울타리
- 스프레드시트에서 튜키 울타리 적용
- 간단한 접근법의 한계
- 어떤 것에도 끔찍하지 않거나 모든 것에 나쁘다
- 그래프를 위한 데이터 준비
- 그래프 생성
- k 최근접 이웃 구하기
- 그래프 이상점 탐지 방법 1: 내향등급 사용
- 그래프 이상점 탐지 방법 2: Getting Nuanced with k-Distance
- 그래프 이상점 탐색 방법 3: 지역 이상점 인자
- 정리
- 10 스트레드시트에서 R로 옮겨가기
- R에 올라타기
- 손으로 주물러 보기
- R로 데이터 읽기
- R로 실제 데이터 과학하기
- 단지 몇 줄로 와인 데이터에 대한 구상 K-평균 구하기
- 임신 데이터에서 인공지능 모델 구축
- R에서의 예측
- 이상점 탐지
- 정리
- R에 올라타기
- 결론
- 나는 누구인가? 어떤 일이 있었는가?
- 더 나아가기 전에
- 문제의 본질에 다가서라
- 더 많은 중개자가 필요하다
- 머리 셋 달리 괴물을 직시해라: 도구, 성능, 수학적인 완성도
- 여러분은 여러분의 조직에서 가장 중요한 일을 하는 사람이 아니다
- 창의적으로 일하고 연결을 유지하자
도서 오류 신고
정오표
정오표
p40 '노트' 3행: 그것들 → 그것들은
p54 아래에서 7행: TRANSPOSE를 →TRANSPOSE가
p58 '노트' 2행: 요소들에서는 → 요소들에 대해서는
p58 3행: 요소들을 → 요소들은
p66 아래에서 7행: 수만은 → 수많은
p67 2행: 주어서 → 주어져
p68 아래에서 5행: 그룹을 → 그룹으로
p71 9행: "최적"이 → "최적"인
p73 1행: k-평균은 모집단인 → k-평균 군집화는 모집단인
p73 아래에서 8행: 나의 군대에 있는 친구 → 군대에 있는 나의 친구
p73 마지막행: 모든 → 모두
p74 10행: 놀라와서 → 놀라워서
p78 1행: 때문에서 → 때문에
p81 6행: 잇는 → 있는
p81 아래에서 3행: 사의 → 사이의
p81 아래에서 3행: 제급한 → 제곱한
p83 3행: (1, 1, 1)되고 → (1, 1, 1,)이며
p84 4행: 모든 계산한다 → 모두 계산된다
p91 2행: 시작하다. → 시작하자.
p114 '노트' 2행: 불리다 → 불린다
[p87: 4행]
[p96: 그림 2.26]
실루에 계산에
->
실루엣 계산에
[p. 98 : 1행]
Matrix!$H$H2:$H$33
->
Matrix!$H$2:$H$33
[p.110: 아래에서 4행]
그림2.41에서
->
그림2.13에서
[p.118 : 그림 2.45]
스파클 와인
->
스파클링 와인
[p.126: 마지막 행, p.127: 6행]
존 포어맨
->
존 포먼
[p.127: 6행]
여러분의 그에게 10억 원을 준다
->
여러분이 그에게 10억 원을 준다
[p.130 : 아래에서 9행]
크래프워크(Kraftwerk)
->
크라프트베르크(Kraftwerk)
[p. 131: 8행]
들기로
->
듣기로
[p.131 : 마지막 행, p.134 : 12행]
트잇
->
트윗
[p.140 : 아래에서 6행]
문자라고는 것을
->
문자라는 것을
[p.142 : 아래에서 6행]
다음 공배의 위치
->
다음 공백의 위치
[p.142 : 아래에서 2행]
경우은 그 토큰은
->
경우 그 토큰은
[p.147 : 7행]
TestTweeks
->
TestTweets
[p.148 : 9행]
트잇
->
트윗
[p.155 : 1행]
콜라콜라
->
코카콜라
[p.157 : 10행]
포천 500 회사들의
->
포춘 500 회사들의
[p.160 : 5행]
이러 삼각형을
->
이런 삼각형을
[p172: 4행]
가져도 주면
->
가져다 주면
[p172: 7행]
=SUMPRODUCT(B9:C(,B4:C4) + IF(B4>=5,500,0)
->
=SUMPRODUCT(B9:C9,B4:C4) + IF(B4>=5,500,0)
[p.177 : 박스 12행]
언제가 엑셀이
->
언젠가 엑셀이
[p.178 : 마지막 행, p.187 : 아래에서 3행]
랭딩슬리
->
랜딩슬리
[p.191 : 1행]
랜딩슬링에게
->
랜딩슬리에게
[p.191 : 3행]
20만 달러씩
→
2만 달러씩
[p.205 : 8행]
하지 않는다는 말고 같다
->
하지 않는다는 말과 같다
[p.206 : 아래에서 6행]
Tatal Reduced
->
Total Reduced
[p.208 : 1행]
한정 분기법
->
분기 한정법
[p.209 : 아래에서 4행]
전호번호
->
전화번호
[p.209 : 아래에서 4행]
숫자를 모드 더해보자
->
숫자를 모두 더해보자
[p.211 : 5행]
얼마만큼 퍼저 있는지
->
얼마만큼 퍼져 있는지
[p.223 : 2행]
네크워크 그래프
->
네트워크 그래프
[p.223 : 7행]
페이스 유저들
->
페이스북 유저들
[p.224 : 13행]
그래프의 노느
->
그래프의 노드
[p.224 : 아래 8행]
결혼에 이르다
->
결혼에 이른다
[p.225 : 3행]
정말 네트워크 그래프는 정말로
->
네트워크 그래프는 정말로
[p.225 : 박스 마지막행]
http://www.smrfoundation.org/nodex1/
->
http://www.smrfoundation.org/nodexl/
[p.228 : 아래에서 5행]
윈도우의 경우 노트 패드
->
윈도우의 경우 노트패드
[p.230 : 1행]
데이터 임포프 리포트
->
데이터 임포트 리포트
[p.233 : 박스 3행]
트윗터에서
->
트위터에서
[p.233 : 박스 4행, 6행]
팔로어
->
팔로워
[p.233 : 박스 7행]
사인을 해 준
->
가입한
[p.238 : 7행]
WineNetwokr.xlsx
->
WineNetwork.xlsx
[p.238 : 아래에서 3행]
33개의 와인 상품 목록
->
32개의 와인 상품 목록
[p.239 : 아래에서 7행]
거리 측정이 더 상황이 제대로 반영한 것
->
거리 측정이 더 상황을 제대로 반영한 것
[p.240 : 그림 5.15]
행렬을 구한 빈 그리드
->
행렬을 구할 빈 그리드
[p.242 : 2행]
CX3까기
->
CX3까지
[p.248 : 12행]
상점이 높이 벌점이 낮은지
->
상점이 높고 벌점이 낮은지
[p.249 : 9행]
더 가차가 있다
->
더 가치가 있다
[p.255 : 5행]
그들 사의 기대되는
->
그들 사이에 기대되는
[p.255 : 아래에서 3행, 아래에서 2행]
최적을 방법
->
최적의 방법
[p.256 : 5행]
Coummnity
->
Community
[p.257 : 9행]
아담스가 커뮤니티가 0으로 할당되면 어떻게 할까?
->
아담스가 커뮤니티를 0으로 할당하면 어떻게 할까?
[p.257 : 10행]
앞에서 1로 할당된 된 경우는
->
앞에서 1로 할당된 경우는
[p.259 : 아래에서 2행]
절대 주소를 사용하여 있어서
->
절대 주소를 사용하고 있어서
[p.260 : 아래에서 6행]
이제 추적화를 위한
->
이제 최적화를 위한
[p.262 : 상자 아래에서 4행 각주]
안 될 수도 있다.8
->
안 될 수도 있다.4
[p.264 : 4행]
서로 다은 커뮤니티에
->
서로 다른 커뮤니티에
[p.266 : 아래에서 3행]
커뮤니티를 세분하는 것이 개선이 가치가 없었다.
->
커뮤니티를 세분해도 더 이상 개선되지 않았다.
[p.267 : 4행]
Commnunity
->
Community
[p.271 : 9행]
똑 같은 과정
->
똑같은 과정
[p.278 : 2행]
"존의 치눅들의 좋아하는 영화를 찾아라"
->
"존의 친구들이 좋아하는 영화를 찾아라"
[p.279 : 아래에서 5행]
Kagggle.com
->
Kaggle.com
[p.284 : 2행]
리테일마크
->
리테일마트
[p.292 : 12행]
레테일마트
->
리테일마트
[p.298 : 박스 마지막 행]
로직스틱 회귀
->
로지스틱 회귀
[p.299 : 박스 6행]
정삼점
->
정상점
[p.299 : 8행]
더 끌어 안으려는 경향을
->
더 끌어안으려는 경향을
[p.302 : 3행]
U 자 모양의
->
U자 모양의
[p.302 : 3행]
비선형 관계를 형성를 하는 경우
->
비선형 관계를 형성하는 경우
[p.302 : 아래에서 2행]
완전이 우연에 의한 효과
->
완전히 우연에 의한 효과
[p.318 : 9행]
임신을 하지 않았음에 임신이라고
->
임신을 하지 않았음에도 임신이라고
[p.320 : 본문 3행]
축을 0에서서 1끼지로
->
축을 0에서 1까지로
[p.327 : 소제목]
실제로 해 보는 로직스틱 회귀
->
실제로 해보는 로지스틱 회귀
[p.335 : 5행]
정말 좋은 피자 조금 먹는 것이 좋은가 아니면 맛없는 피자 많은 먹는것이 좋은가?
->
정말 맛있는 피자를 조금 먹는 것이 좋은가 아니면 맛없는 피자를 많이 먹는 것이 좋은가?
[p.335 : 아래에서 3행]
기술 사용해 볼 것인데
->
기술을 사용해 볼 것인데
[p.336 : 5행]
측면에 그렇다
->
측면이 그렇다
[p.337 : 2행]
그렇게 하다면
->
그렇게 한다면
[p.337 : 박스 1행]
리테일마크
->
리테일마트
[p.337 : 박스 3행]
심포니 헤미 메탈 에버네센스
->
심포니 헤비 메탈 에반에센스
[p.337 : 박스 7행]
이 문제데 대해
->
이 문제에 대해
[p.338 : 박스 3행]
에버네슨스 질문의 경우에는
->
에반에센스 질문의 경우에는
[p.338 : 박스 4행]
빈칸을 아니오 채우면
->
빈칸을 아니요로 채우면
[p.338 : 박스 7행]
결츠값을 채워서
->
결측값을 채워서
[p.338 : 1행]
이것들은 서로
->
이것들을 서로
[p.338 : 마지막 행]
임신 기구들에서
->
임신 가구들에서
[p.339 : 4행]
약한 학습자들 구성할 수 있다.
->
약한 학습자를 구성할 수 있다.
[p.340 : 5행]
어떤 고객이 무작위로 임신, 비임신 중 하나로 표시할 때
->
어떤 고객을 무작위로 임신, 비임신 중 하나로 표시할 때
[p.340 : 아래에서 3행]
비구입 894 군에는 임신이 396 가구로
->
비구입군 894가구에는 임신이 396가구로
[p.340 : 아래에서 2행]
불순도는 100%-44%2-56%2 = 49%
->
불순도는 100%-44%^2?56%^2 = 49%
[p.343 : 7행]
투표를 하게 단다.
->
투표를 하게 한다.
[p.343 : 아래에서 1행]
V열의 RANDOM이라고 레이블링했다.
->
V열은 RANDOM이라고 레이블링했다.
[p.348 : 2행]
특성 변수의 값이 0과 1중에 어떤 값이
->
특성 변수의 값 0과 1중에 어떤 값이
[p.350 : 5행]
Winnder
->
Winner
[p.351 : 아래에서 2행]
와인 구매 중단이 1 값은 가지는 것이
->
와인 구매 중단이 1값을 가지는 것이
[p.353 : 하단 항목 중 2번]
A열에서 B열까지를
->
A열에서 S열까지를
[p.355 : 3행]
있는 열을 값을 알아야 하고
->
있는 열의 값을 알아야 하고
[p.358 : 11행]
단수한 결정 스텀프들보다는
->
단순한 결정 스텀프들보다는
[p.360 : 그림 7.22]
BootStumps
->
BoostStumps
[p.366 : 2행]
컷어프 값
->
컷오프 값
[p.369 : 아래에서 4행]
비임심 예측은
->
비임신 예측은
[p.373 : 아래에서 5행]
우연한 일들의 존재하는
->
우연한 일들이 존재하는
[p.374 : 11행]
원하는지는 않을 것이다.
->
원하지는 않을 것이다.
[p.374 : 아래에서 5행]
여러분 호빗 발을 신고
->
여러분은 호빗 발을 신고
[p.375 : 9행]
그들은
->
이 방법들은
[p.375 : 10행]
포천 500대 기업
->
포춘500대 기업
[p.376 : 5행]
데이터들을 3년 전 140개였고,
->
데이터들은 3년 전 140개였고,
[p.377 : 1행]
최근 관찰값이 오래된 관찰값보다
->
최근 관찰값에 오래된 관찰값보다
[p.377 : 2행]
가중치를 많이 두는 방법
->
가중치를 많이 주는 방법
[p.378 : 11행]
예측이라 게
->
예측이란 게
[p.387 : 8행]
데이터가 경향성(trend를 가지고 있다고 자신할 수 있다. 이 말이 ... 권한다.
->
데이터가 경향성(trend)을 가지고 있다고 자신할 수 있다. (이 말이 ... 권한다.)
[p.378 : 아래에서 3행, p.381 : 4행]
level0
->
level0(0을 아래첨자로 수정)
[p.391 : 7행]
트렌드를 대한 것이다.
->
트렌드에 대한 것이다.
[p.391 : 아래에서 3행]
레벨 업데이트서 발생하는
->
레벨 업데이트시 발생하는
[p.398: 2~3행]
단순히 구한 트렌드라인보다 2 배가 되는 것은 트렌드 보정 지수 평활법에는 최근의 데이터레 대한 가중을 두기 때문에 최근 증간되는 경향을 반영하게 된다.
->
단순히 구한 트렌드라인보다 2배가 되는 것은 트렌드 보정 지수 평활법이 최근의 데이터에 대한 가중을 두기 때문에 최근 증간되는 경향을 반영하기 때문이다.
[p.398 : 3행]
최근 증간되는 경향
->
최근 증가한 경향
[p.398 : 아래에서 2행]
워크시트에서 복사에서
->
워크시트에서 복사해서
[p.399 : 3행]
튀어 나오 보인다.
->
튀어 나와 보인다.
[p.400 : 아래에서 2행]
상당히 큰 양 수가
->
상당히 큰 양수가
[p.401 : 1행]
이렇게 곱해진 갑을
->
이렇게 곱해진 값을
[p.404 : 5행]
꺽은 선형으로
->
꺾은 선형으로
[p.404 : 아래에서 6행]
민들어진다
->
만들어진다
[p.406 : 1행]
판매가 들어났을 때
->
판매가 늘어났을 때
[p.406 : 1행]
단순이 20개의
->
단순히 20개의
[p.407 : 3번째, 4번째 수식]
alpha×(demand cp - (level pp + trend pp) × seasonality
->
alpha×(demand cp - (level pp + trend pp) × seasonality)
[p.408 : 2행]
오류의 양을 곱합 것을
->
오류의 양을 곱한 것을
[p.408 : 4행]
레벨과 트렌트
->
레벨과 트렌드
[p.409 : 1행]
이동 평균moving average)
->
이동 평균(moving average)
[p.409 : 1행]
데이트를 평활화하기
->
데이터를 평활화하기
[p.409 : 10행]
12개월 이동 평균을 무엇을 말하는가?
->
12개월 이동 평균은 무엇을 말하는가?
[p.411 : 5행]
봄 철에는
->
봄철에는
[p.411 : 9행]
1월에 대핸 값이 들어갈 것엔데
->
1월에 대한 값이 들어갈 것인데
[p.413 : 4행]
Seasoanl Adjustment
->
Seasonal Adjustment
[p.414 : 아래에서 2행]
C3:E2
->
C2:E2
[p.415 : 그림 8.34]
첫 단계 진행항 상태에서의
->
첫 단계를 진행한 상태에서의
[p.415 : 아래에서 4행]
들어 간다.
->
들어간다.
[p.415 : 아래에서 2행]
계절성 요인이 제건된 오류에
->
계절성 요인이 제거된 오류에
[p.420 : 마지막 행]
데이터의 구조르 제대로
->
데이터의 구조를 제대로
[p.421 : 6행]
시물레이션할 것인가
->
시뮬레이션할 것인가
[p.424 : 12행]
매크로르 사용하는
->
매크로를 사용하는
[p.425 : 3행]
예를 덜어
->
예를 들어
[p.426 : 4행]
예측은 팬 차트라고 차트로 시각화된다
->
예측은 팬 차트라는 차트로 시각화된다
[p.426 : 아래에서 3행]
PredictionIntervals 위크시트의
->
PredictionIntervals 워크시트의
[p.426 : 아래에서 2행]
그러만
->
그러면
[p.428 : 6행]
비슷하게 주문량의 많은
->
비슷하게 주문량이 많은
[p.429 : 1행]
훌륭한 이미 책들이 나와 있다.
->
이미 훌륭한 책들이 나와 있다.
[p.429 : 아래에서 7행]
제품이나 관리해야 할 제고가 엄청 많은
->
제품이나 관리해야 할 재고가 엄청 많은
[p.432 : 8행]
신용카드 결재를
->
신용카드 결제를
[p.433 : 아래에서 5행]
해드럼씨는
->
해들럼씨는
[p.435 : 아래에서 3행]
평균으
->
평균은
[p.435 : 아래에서 2행]
C1 셀의 Median이라고 레이블링하고, 다음과 수식으로 계산한다.
->
C1 셀을 Median이라고 레이블링하고, 다음과 같은 수식으로 계산한다.
[p.436 : 그림 9.1]
튜기 울타리
->
튜키 울타리
[p.438 : 4행]
이상점이 정의는
->
이상점의 정의는
[p.438 : 아래에서 6행]
그들 주간에
->
그들 중간에
[p.438 : 아래에서 6행]
김리는 성인보다 몇 개의 머리보다 작지만
->
김리는 성인보다 머리 몇 개 만큼 작지만
[p.450 : 5행]
파자 파티
->
피자 파티
[p.454 : 아래에서 3줄]
좀 더 비전형적이고 되고,
->
좀 더 비전형적이 되고,
[p.456 : 아래에서 3행]
실체 거리
->
실제 거리
[p.459 : 2행]
직원 5번째 가까운
->
직원에 5번째로 가까운
[p.459 : 아래에서 6행]
이 수식을 아래도 보내고
->
이 수식을 아래로 보내고
[p.460 : 4행]
군집화를 다른 장들에서는
->
군집화를 다룬 장들에서는
[p.461 : 1행]
이런 기술들이
->
이런 기술들은