데이터 과학 효율을 높이는 데이터 클리닝 [불량 데이터의 문제를 발견하고 해결하는 방법]
- 원서명Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools (ISBN 9781801071291)
- 지은이데이비드 메르츠(David Mertz)
- 옮긴이유동하
- ISBN : 9791161757094
- 40,000원 (eBook 32,000원)
- 2023년 01월 31일 펴냄
- 페이퍼백 | 636쪽 | 188*235mm
- 시리즈 : 데이터 과학
책 소개
요약
데이터 과학자라면 피할 수 없는 데이터 클리닝 작업은 수집과 분석, 정제에 이르기까지 데이터 과학의 효율을 높이는 일반적인 절차다. 기존 책들이 주로 첫 장에서만 다루던 데이터 준비 과정에 대한 필수 내용을 구체화했고, 실제 데이터 과학에서 응용할 수 있는 기술을 전달한다. 데이터 클리닝 작업을 수행하기 위한 도구와 기술을 설명하고, 새로 습득한 기술을 테스트하고 개선해볼 수 있도록 각 장의 끝 부분에 자세한 실습이 수록돼 있다.
이 책에서 다루는 내용
◆ 데이터를 신중하게 생각하고 올바른 질문을 하는 방법
◆ 개별 데이터 포인트와 관련된 문제 데이터 식별
◆ 데이터의 체계적인 형태에서 문제 데이터 감지
◆ 데이터 무결성 및 청결 문제 해결
◆ 분석 및 머신 러닝 작업을 위한 데이터 준비
◆ 누락되거나 신뢰할 수 없는 데이터에 값 보정
◆ 데이터 과학, 데이터 분석 또는 시각화 목표에 더 적합한 통합 특징 생성
이 책의 대상 독자
자기 주도적인 독자나 좀 더 체계적인 학술, 훈련 또는 인증 과정에서 사용하기 적합하다. 각 장의 하단에는 독자나 학생들에게 이전 자료에서 방금 배운 것과 관련된 작업을 완성하게 요구하는 연습이 있다.
목차
목차
- 1부. 데이터 수집
- 1장. 테이블 형식
- 정리
- CSV
- 온전성 검사
- 좋은 데이터, 나쁜 데이터, 텍스트 데이터
- 나쁜 데이터
- 좋은 데이터
- 유해하다고 간주되는 스프레드시트
- SQL RDBMS
- 데이터 타입 다듬기
- R에서 반복
- SQL이 잘못되는 위치(및 이것을 확인하는 방법)
- 기타 형식
- HDF5와 NetCDF-4
- 도구와 라이브러리
- SQLite
- 아파치 파켓
- HDF5와 NetCDF-4
- 데이터 프레임
- 스파크/스칼라
- 판다스와 파생된 래퍼
- Vaex
- R의 데이터 프레임(Tidyverse)
- R의 데이터 프레임(data.table)
- 흥미로운 Bash
- 연습
- 엑셀 데이터 정리
- SQL 데이터 정리
- 대단원
- 2장. 계층적 형식
- JSON
- JSON의 모습
- NaN 처리와 데이터 타입
- JSON Lines
- GeoJSON
- 깔끔한 지리
- JSON 스키마
- XML
- 사용자 레코드
- 키홀 마크업 언어
- 구성 파일
- INI와 플랫 사용자 정의 형식
- TOML
- YAML
- NoSQL 데이터베이스
- 문서 지향 데이터베이스
- 누락된 필드
- 비정규화와 비정규화의 불만
- 키/값 저장소
- 문서 지향 데이터베이스
- 연습
- 채워진 영역 탐색
- 관계형 모델 생성
- 대단원
- JSON
- 3장. 데이터 소스의 목적 변경
- 웹 스크래핑
- HTML 테이블
- 테이블 형식이 아닌 데이터
- 커맨드라인 스크래핑
- 이미지 형식
- 픽셀 통계
- 채널 조작
- 메타데이터
- 바이너리 직렬화된 데이터 구조
- 사용자 정의 텍스트 형식
- 구조화된 로그
- 문자 인코딩
- 연습
- NPY 파서 향상
- 웹 트래픽 스크래핑
- 대단원
- 웹 스크래핑
- 2부. 오류의 변천
- 4장 이상 징후 감지
- 결측 데이터
- SQL
- 계층적 형식
- 센티넬
- 잘못 코딩된 데이터
- 고정된 한도
- 아웃라이어
- z-스코어
- 사분위수 범위
- 다변량 아웃라이어
- 연습
- 유명한 실험
- 철자가 틀린 단어
- 대단원
- 결측 데이터
- 5장. 데이터 품질
- 결측 데이터
- 편향적인 트렌드
- 편향 이해
- 편향 감지
- 기준선과 비교
- 벤포드의 법칙
- 클래스 불균형
- 정규화과 스케일링
- 머신러닝 모델 적용
- 스케일링 기술
- 요인 및 샘플 가중치
- 주기성과 자기 상관관계
- 도메인 지식 트렌드
- 발견된 주기
- 비스포크 검증
- 콜레이션 검증
- 트랜스크립션 검증
- 연습
- 데이터 특성화
- 오버샘플링된 여론 조사
- 대단원
- 3부. 수정과 참조
- 6장. 값 보정
- 전형적인 값 보정
- 전형적인 테이블 형식 데이터
- 지역성 보정
- 트렌드 보정
- 트렌드 타입
- 더 크게 얽힌 시계열
- 데이터 이해
- 사용할 수 없는 데이터 제거
- 일관성 보정
- 보간법
- 비시간적 트렌드
- 샘플링
- 언더샘플링
- 오버샘플링
- 연습
- 대체 트렌드 보정
- 다중 특징 밸런싱
- 대단원
- 전형적인 값 보정
- 7장. 피처 엔지니어링
- 날짜/시간 필드
- 날짜 시간 만들기
- 규칙성 부여
- 중복된 타임스탬프
- 타임스탬프 추가
- 문자열 필드
- 퍼지 매칭
- 명시적 범주
- 문자열 벡터
- 분해
- 로테이션과 화이트닝
- 차원 축소
- 시각화
- 양자화와 이진화
- 원핫 인코딩
- 다항식 특징
- 합성 특징 생성
- 특징 선택
- 연습
- 간헐적 발생
- 레벨 특성화
- 대단원
- 날짜/시간 필드
- 4부. 부록
- A. 마치며
- 여러분이 아는 것
- 여러분이 아직 모르는 것
- B. 용어 사전