파이썬으로 하는 마케팅 연구와 분석 [데이터 처리부터 시각화까지]
- 원서명Python for Marketing Research and Analytics (ISBN 9783030497194)
- 지은이크리스 채프먼(Chris Chapman), 에리 맥도넬 파이트(Elea McDonnell Feit), 제이슨 슈바르츠(Jason Schwarz)
- 옮긴이(주)크라스랩
- ISBN : 9791161756967
- 40,000원
- 2022년 12월 29일 펴냄
- 페이퍼백 | 360쪽 | 210*280mm
- 시리즈 : 데이터 과학
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다. https://github.com/AcornPublishing/python-for-marketing
요약
파이썬으로 통계적 기법에 기반해 마케팅 데이터를 분석하는 방법을 설명한다. 그러나 파이썬과 통계를 몰라도 책을 읽는 데 문제는 없다. 1, 2장에 걸쳐 파이썬이 왜 좋은 언어인지 파이썬의 기본 구문은 어떻게 돼 있는지에 대해 친절하게 설명하고 있으며, 이를 통해 파이썬이 처음인 독자들도 책을 읽기 위한 기본 지식을 얻을 수 있게 된다. 이어지는 장에서는 데이터를 다루기 위해 범용적으로 사용되는 파이썬 라이브러리인 Pandas의 데이터프레임을 사용한 데이터 처리 방법을 설명해 준다.
데이터 분석에서 가장 중요한 절차이자, 가장 기초적인 절차는 단연코 시각화이다. 책은 파이썬에 내장된 다양한 시각화 라이브러리를 사용해 데이터를 도식화하는 여러 기법을 설명해 준다. 이를 통해 마케팅이 아니더라도 데이터의 기본 시각화 방법에 대해 잘 알 수 있게 될 것이다. 통계적 검정 방법과 여러 선형 모델을 설명하지만 별도의 통계적 지식이 요구되지는 않는다는 점이 이 책의 큰 장점 중 하나다. 선형 모델 중 다변인 선형회귀도 살펴보며 계층적 모델까지 친절히 설명하고, 데이터 후반부는 차원축소에 연계돼 데이터 분석의 단순화 및 클러스터링을 집중적으로 살펴본다.
이 책의 대상 독자
파이썬을 배우고 싶어 하는 마케팅 연구원 분석가나 파이썬을 사용해 선택한 마케팅 주제를 검토하려는 다른 분야의 학생이나 연구원이 읽기에 적합한 책이다.
이 책의 구성
순차적으로 7개 장에 걸쳐 개념을 점진적으로 가르치고, 작업하면서 예제를 직접 실습해본다. 1부에서 파이썬 언어의 기초에 대해 약간의 시간을 보낸 다음, 2부에서는 실제 마케팅 분석 문제에 적용한다. 3부에서는 몇 가지 고급 마케팅 주제를 살펴본다. 전체 장에서 파이썬의 위력을 보여주고 있다.
상세 이미지
목차
목차
- 1부. 파이썬 기초
- 1장. 파이썬 시작
- 1.1 파이썬이란?
- 1.2 왜 파이썬인가?
- 1.2.1 파이썬 대 R, 줄리아 및 기타 언어
- 1.3 파이썬이 아닌 이유
- 1.4 파이썬을 사용하는 경우
- 1.5 이 책의 사용
- 1.5.1 텍스트 정보
- 1.5.2 데이터 정보
- 1.5.3 온라인 자료
- 1.5.4 잘 안될 때
- 1.6 요점
- 2장. 파이썬 개요
- 2.1 시작하기
- 2.1.1 노트북
- 2.1.2 로컬에 파이썬 설치
- 2.1.3 로컬에서 파이썬 실행
- 2.2 파이썬 데이터 분석 기능 둘러보기
- 2.3 파이썬 명령 작업의 기초
- 2.3.1 파이썬 스타일
- 2.4 기본 유형
- 2.4.1 객체 및 유형
- 2.4.2 부울
- 2.4.3 숫자 유형
- 2.4.4 시퀀스 유형
- 2.4.5 텍스트 유형: 문자열
- 2.4.6 집합 유형
- 2.4.7 매핑 형식
- 2.4.8 함수, 클래스, 메서드
- 2.4.9 모듈과 패키지
- 2.4.10 제어 흐름 문
- 2.4.11 도움말! 쉬어가기
- 2.5 데이터 과학 패키지
- 2.5.1 NumPy
- 2.5.2 수학적 계산에 파이썬 사용
- 2.5.3 pandas
- 2.5.4 결측값
- 2.6 데이터 로드 및 저장
- 2.6.1 파이썬 객체 저장: 피클
- 2.6.2 데이터 가져오기 및 내보내기
- 2.6.3 코랩 사용: 데이터 가져오기 및 내보내기
- 2.7 정리!
- 2.8 더 알아보기*
- 2.9 요점
- 2부. 데이터 분석의 기초
- 3장. 데이터 설명
- 3.1 데이터 시뮬레이션
- 3.1.1 데이터 저장: 구조 설정
- 3.1.2 데이터 저장: 데이터 포인트 시뮬레이션
- 3.2 변수를 요약하는 함수
- 3.2.1 언어 요약: groupby()
- 3.2.2 이산 변수
- 3.2.3 연속 변수
- 3.3 데이터프레임 요약
- 3.3.1 describe()
- 3.3.2 데이터 검사에 대한 권장 접근법
- 3.3.3 apply()
- 3.4 단일 변수 시각화
- 3.4.1 히스토그램
- 3.4.2 상자 그림
- 3.4.3 정규성 확인을 위한 QQ 도면
- 3.4.4 누적 분포
- 3.4.5 지도
- 3.5 더 알아보기*
- 3.6 요점
- 4장. 연속 변수 간의 관계
- 4.1 소매 데이터
- 4.1.1 데이터 시뮬레이션
- 4.1.2 온라인 및 내점 판매 데이터 시뮬레이션
- 4.1.3 만족도 조사 응답 시뮬레이션
- 4.1.4 무응답 데이터 시뮬레이션
- 4.2 산점도가 있는 변수 간의 연관성 탐색
- 4.2.1 plot()을 사용해 기본 산점도 만들기
- 4.2.2 산점도의 포인트 색상
- 4.2.3 로그 스케일로 도식화
- 4.3 단일 그래픽 객체에서 도면 결합
- 4.4 산점도 행렬
- 4.4.1 scatter_matrix()
- 4.4.2 PairGrid()
- 4.5 상관 계수
- 4.5.1 상관관계 검정
- 4.5.2 상관 행렬
- 4.5.3 상관관계를 계산하기 전에 변수 변환
- 4.5.4 일반적인 마케팅 데이터 변환
- 4.5.5 박스-콕스 변환
- 4.6 설문 응답에서 연관성 탐색*
- 4.6.1 지터: 서수 도면을 더 유익하게 만들기
- 4.7 더 알아보기
- 4.8 요점
- 5장. 그룹 비교: 테이블 및 시각화
- 5.1 소비자 세그먼트 데이터 시뮬레이션
- 5.1.1 세그먼트 데이터 정의
- 5.1.2 최종 세그먼트 데이터 생성
- 5.2 그룹별 설명 찾기
- 5.2.1 양방향 그룹에 대한 설명
- 5.2.2 그룹별 시각화: 빈도와 비율
- 5.2.3 그룹별 시각화: 연속 데이터
- 5.2.4 통합하기
- 5.3 더 알아보기*
- 5.4 요점
- 6장. 그룹 비교: 통계 검정
- 6.1 그룹 비교를 위한 데이터
- 6.2 그룹 빈도 검정: scipystats.chisquare()
- 6.3 관찰된 비율 검정: binom_test()
- 6.3.1 신뢰 구간 정보
- 6.3.2 binom_test()와 이항 분포에 대한 추가 정보
- 6.4 그룹 평균 검정: t-검정
- 6.5 다중 그룹 평균 검정: 분산 분석(ANOVA)
- 6.5.1 수식 구문에 대한 간략한 소개
- 6.5.2 분산 분석
- 6.5.3 ANOVA에서 모델 비교
- 6.5.4 그룹 신뢰 구간 시각화
- 6.6 더 알아보기*
- 6.7 요점
- 7장. 결과의 동인 식별: 선형 모델
- 7.1 놀이공원 데이터
- 7.1.1 놀이공원 데이터 시뮬레이션
- 7.2 ols()로 선형 모델 적합화하기
- 7.2.1 예비 데이터 검사
- 7.2.2 요약: 이변량 연관성
- 7.2.3 단일 예측자가 있는 선형 모델
- 7.2.4 ols 객체
- 7.2.5 모델 적합 확인
- 7.3 다중 예측자가 있는 선형 모델 적합화
- 7.3.1 모델 비교
- 7.3.2 모델을 사용해 예측하기
- 7.3.3 예측자 표준화
- 7.4 요인을 예측자로 사용
- 7.5 상호 작용 항
- 7.5.1 언어 요약: 고급 수식 구문
- 7.5.2 주의! 과적합
- 7.5.3 선형 모델 적합화를 위한 권장 절차
- 7.6 더 알아보기*
- 7.7 요점
- 8장. 추가 선형 모델링 주제
- 8.1 고도로 상관된 변수 처리
- 8.1.1 온라인 지출의 초기 선형 모델
- 8.1.2 공선성 수정
- 8.2 이진 결과에 대한 선형 모델: 로지스틱 회귀
- 8.2.1 로지스틱 회귀 모델의 기초
- 8.2.2 시즌 패스의 로지스틱 회귀 데이터
- 8.2.3 판매 표 데이터
- 8.2.4 로지스틱 회귀 모델 적합화
- 8.2.5 모델 재고
- 8.2.6 추가 논의
- 8.3 계층적 모델 소개
- 8.3.1 일부 HLM 개념
- 8.3.2 놀이공원에 대한 등급 기반 공동 분석
- 8.3.3 평점 기반 결합 데이터 시뮬레이션
- 8.3.4 초기 선형 모델
- 8.3.5 mixedlm을 사용한 계층적 선형 모델
- 8.3.6 완전한 계층적 선형 모델
- 8.3.7 HLM 해석
- 8.3.8 HLM에 대한 결론
- 8.4 더 알아보기
- 8.5 요점
- 3부. 고급 데이터 분석
- 9장. 데이터 복잡도 줄이기
- 9.1 소비자 브랜드 평가 데이터
- 9.1.1 데이터 크기 조정
- 9.1.2 속성 간의 상관관계
- 9.1.3 브랜드별 종합 평균 등급
- 9.2 주성분 분석과 지각도
- 9.2.1 PCA 예
- 9.2.2 PCA 시각화
- 9.2.3 브랜드 평가를 위한 PCA
- 9.2.4 브랜드의 지각도
- 9.2.5 지각도에 대한 주의
- 9.3 탐색적 요인 분석
- 9.3.1 기본 EFA 개념
- 9.3.2 EFA 솔루션 찾기
- 9.3.3 EFA 로테이션
- 9.3.4 브랜드에 요인 점수 사용
- 9.4 다차원 척도법
- 9.4.1 비계량 MDS
- 9.4.2 저차원 임베딩을 사용한 시각화
- 9.5 더 알아보기
- 9.6 요점
- 10장. 세그멘테이션: 부분 모집단 탐색을 위한 비지도 클러스터링 방법
- 10.1 세그멘테이션 철학
- 10.1.1 세그멘테이션의 어려움
- 10.1.2 클러스터링으로서의 세그멘테이션과 분류
- 10.2 세그멘테이션 데이터
- 10.3 클러스터링
- 10.3.1 클러스터링 단계
- 10.3.2 계층적 클러스터링
- 10.3.3 계층적 클러스터링 계속: fcluster의 그룹
- 10.3.4 평균 기반 클러스터링: k_means()
- 10.3.5 모델 기반 클러스터링: GaussianMixture()
- 10.3.6 클러스터링 요약
- 10.4 더 알아보기
- 10.5 요점
- 11장. 분류: 알려진 범주에 관측치 할당
- 11.1 분류
- 11.1.1 나이브 베이즈 분류: GaussianNB()
- 11.1.2 랜덤 포레스트 분류: RandomForestClassifier()
- 11.1.3 랜덤 포레스트 변수 중요도
- 11.2 예측: 잠재 고객 식별
- 11.3 더 알아보기
- 11.4 요점
- 12장. 결론