Top

헬스케어 빅데이터 분석의 정석 [한 권으로 끝내는 실사례에 기초한 헬스케어 빅데이터 분석 기술]

  • 지은이김선일
  • ISBN : 9791161757711
  • 35,000원
  • 2023년 07월 31일 펴냄
  • 페이퍼백 | 408쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
https://github.com/suninno/healthcarebigdataplaybook_kr.git

요약

보건 의료 및 보험사, 카드사, 헬스케어 IT기업 등 종사자를 위한 책으로, 헬스케어 데이터로부터 유의미한 정보를 찾아내는 데 도움을 줄 실용적인 안내서이다. 원시 데이터 수집 및 정제부터, 빅데이터 분석 및 시각화 과정의 반복과 고도화까지 상세히 소개한다. 분석 작업에 익숙하지 않아도 쉽게 따라할 수 있도록 저자가 운영하는 회사의 실제 사용자 헬스케어 빅데이터에 기초해 분석 기술을 소개하고, 이를 실습함으로써 독자들이 능숙하게 습득할 수 있도록 했다. 이 책은 누구나 빅데이터 분석을 손쉽게 수행할 수 있도록 자신감을 심어주며, 분석 역량을 한 단계 끌어올릴 것이다.

추천의 글

대부분의 헬스케어 및 빅데이터 분석 관련 도서들은 동향과 사례를 중심으로 작성됐습니다만, 『헬스케어 빅데이터 분석의 정석』은 기초 프로그래밍부터 응용 예제까지 실제 서비스 개발에 필요한 모든 내용을 담은 개발 안내서로 활용될 것입니다. 헬스케어 관련 개발자뿐 아니라, 실전 서비스 구성에 관심 있는 모든 분들이 꼭 한 번 읽어야 할 책입니다.
─ 홍기현 이사(공학박사), 인텔리콘 AI법률연구소

빅헤브솔루션㈜의 김선일 대표가 최근 출간한 책은 '헬스케어와 빅데이터'가 주제로, 저자가 낙상 솔루션 기반의 헬스케어 사업을 진행하며 겪은 다양한 경험을 바탕으로 IT 기술 활용 방법을 소개하고 있습니다. 이 책은 헬스케어 분야의 IT 기술 활용에 어려움을 겪고 있는 종사자들에게 큰 도움이 될 것으로 예상됩니다. 저자인 김선일 대표와는 한때 LG전자 소프트웨어 센터에서 함께 일한 적이 있습니다. 센터 연구원으로서 단순히 주어진 업무를 수행하는 것에 만족하지 않고 끊임없이 새로운 것을 추구하는, 진정한 기술자다운 김 대표의 모습이 저에게 인상 깊게 남아 있습니다. 최근 헬스케어 분야에서 빅데이터가 중요한 주제로 주목받고 있습니다. 이 기술서가 헬스케어 분야의 빅데이터 활용이 더욱 활성화되는 데 중요한 역할을 할 것으로 기대합니다.
─ 민경오 前부사장(공학박사), (前) LG전자 CTO부문 소프트웨어센터장

이 책은 컴퓨터 비전공자와 보건 의료 종사자를 대상으로, 파이썬 기본 문법부터 헬스케어 산업에서 활용 가능한 데이터 분석 및 시각화 기법에 이르기까지 다양한 내용을 실용적으로 다루고 있습니다. 초보자도 쉽게 이해할 수 있도록 다양한 사례와 실습이 포함돼 있으며, 헬스케어 산업의 미래를 탐험하려는 독자들에게 소중한 안내서가 될 것입니다.
─ 정우성 교수(공학박사), 서울교육대학교 교육전문대학원

이 책에서 다루는 내용

◆ 헬스케어와 빅데이터, AI(인공지능) 개론
◆ IPython, 주피터 노트북, VSCode 사용법
◆ 파이썬의 기본 문법
◆ NumPy 라이브러리 사용법
◆ 데이터 분석의 핵심 pandas 라이브러리 사용법
◆ 사례에 기초한 데이터 수집과 전처리
◆ DBMS로부터 분석 대상 데이터를 파일로 추출
◆ 사례에 기초한 시계열 데이터 정제 및 분석, 그룹화, 시각화
◆ 사용자 정의 함수로 데이터 분석 고도화
◆ 자동화를 위한 배치 프로그램 작성 및 크론탭, scheduler 라이브러리 사용법
◆ 간단한 웹 대시보드 제작

이 책의 대상 독자

컴퓨터공학 전공자 및 보건 의료 종사자, 카드사, 보험사 직원 등으로, 파이썬을 활용한 빅데이터 분석 경험이 풍부하지 않은 사람을 대상으로 한다. 파이썬 지식이 부족한 독자들도 쉽게 따라올 수 있도록 구성했다.

◆ 파이썬으로 빅데이터를 분석하고 싶은 입문자
◆ 시계열 데이터를 다양한 기법으로 분석, 그룹화, 시각화하기를 원하는 독자
◆ 실제 IT기업에서 빅데이터 분석 및 시각화를 어떻게 구현하는지 궁금한 독자
◆ 상업용 빅데이터 분석과 자동화 시스템 구축, 웹 대시보드를 만들고 싶은 독자
◆ 파이썬의 기초부터 pandas 라이브러리 사용법 레퍼런스가 필요한 독자

이 책의 구성

처음 책을 기획할 때에는 사례 중심으로 책을 구성하고, 파이썬 문법 및 pandas에 대해서는 간략하게 다룰 계획이었다. 그러나 책을 집필하는 과정에서 다른 서적의 pandas 내용에 대한 불만족감이 생겨, 이 책이 분석 업무를 수행할 수 있는 완결된 가이드가 되도록 NumPy와 pandas를 상세하게 다루게 됐다. 다만, matplotlib은 이번에는 포함하지 않았다. matplotlib의 사용 방법은 어렵지 않아, 다른 서적이나 인터넷 자료를 참조하면 충분할 것이다.

저자/역자 소개

지은이의 말

저자는 2021년에 헬스케어 IT 벤처기업 빅헤브솔루션㈜을 창업해 기술 개발을 총괄하고 있다.
업무를 수행하면서 빅데이터 분석 및 시각화 관련 컨설팅 및 구축 의뢰를 종종 받게 되며, 고객들의 주요 고충은 다음과 같다.

◆ 파이썬이 어렵다.
◆ numpy와 pandas에 대한 이해가 부족하다.
◆ 데이터 정제 방법이 막연하다.
◆ 데이터 시각화 방법을 잘 모르겠다.
◆ 보고서 및 논문 작성 시, 데이터 정제 및 분석에 많은 시간이 소요된다.
◆ 사이렌케어(저자가 근무하는 회사의 헬스케어 솔루션 상표, 호메로스가 지은 오디세이아 책 속 세이렌 자매에 영감을 받아, 솔루션 이름을 사이렌케어로 지었다) 데이터 가운데 의미 있는 정보만 요약 추출하고 싶다.

저자 역시 헬스케어 빅데이터 분석 및 시각화 개발 과정에서 파이썬에 기초한 빅데이터 분석 및 머신러닝 책을 다수 읽었다. 하지만 헬스케어 분야에 특화된 유용한 책을 찾기는 어려웠다. 특히 헬스케어 빅데이터 관련 서적의 저자 대부분은 컴퓨터공학 전공자가 아닌 의료 종사자였고, 이들 저서는 데이터 처리 알고리즘 및 시각화에 관해 상세하게 다루지 않았고, 대부분 의료 관련 내용으로 채워져 있었다. 특히 예제 코드를 주목해 살펴볼 때, 인터넷에 공개된 데이터를 예시로 사용해 데이터 정제 및 조작, 그리고 일부 시각화에 그치는 경우가 많았으며, 실제 업무에 큰 도움이 되지 않았다.

저자의 아내는 국내 유명 경제연구소에서 연구원으로 근무하는 경제학 박사인데, 때때로 빅데이터 분석 및 딥러닝 구현 방법에 관해 저자에게 조언을 구한다. 이럴 때마다 저자는 참고할 만한 서적 또는 웹사이트를 소개해준다. 아내는 바쁜 경제학자들도 쉽게 이해하고 따라갈 수 있는, 표보다는 차트가 많고 일목요연하게 정리된 책이 필요하다고 강조했다. 또한, 저자의 고객 중 보험사 및 병원 의료진, 카드사 직원들로부터도 파이썬을 이용한 분석 방법에 관한 많은 질문을 받았다. 이에 저자는 컴퓨터 전문가가 아닌 분들도 현업에서 파이썬을 이용해 쉽게 빅데이터 분석과 시각화를 할 수 있는 책을 출판하기로 결심했다.
최근 헬스케어 분야는 IoT(Internet of Things, 사물인터넷)에서 IoB(Internet of Bodies, 신체인터넷) 영역까지 확대되는 중이다. 따라서 피보호자의 움직임 및 활동 정보에 기초한 분석 내용을 다루는 이 책이 관련 분야 종사자들에게 도움이 될 것이라 생각한다. 이와 더불어, 주변 사람들의 의견을 충분히 참고해 여러 책을 참조하지 않아도 헬스케어 빅데이터 분석이 가능하도록 책을 구성했다. 또한, 이 책 하나만으로 입문자와 중간 수준의 파이썬 데이터 분석가들이 분석 업무를 수행할 수 있게 작성했다. 이 책이 독자들의 본업에 도움이 되기를 바란다.

지은이 소개

김선일

경남 마산 출생, 일본 문부성 및 NTT 도코모(NTT Docomo)의 장학금 지원을 받아 일본 국립 야마가타(山形)대학 공학부 정보과학과와 동경(東京)대학 대학원 전자정보학 석사 과정을 수료했다. 두 학과 모두 컴퓨터공학에 해당하며, 일본에서는 '컴퓨터'보다 '정보'라는 표현이 더 일반적이다. 졸업 이후 삼성테크윈(現 한화에어로스페이스)과 NHN, LG전자 CTO부문 소프트웨어센터에서 연구원 및 소프트웨어 개발자로 경력을 쌓았다.
2021년 상반기에는 헬스케어 IT 벤처기업 빅헤브솔루션㈜을 창업했으며, 한국과 일본에서 IoT기반의 헬스케어 사업을 성공적으로 진행하고 있다. 또한, 한국과 일본의 기업들을 대상으로 데이터 분석 관련 컨설팅과 강연도 전문적으로 진행하고 있다. 저자의 회사 웹사이트에서 더 많은 정보를 확인할 수 있다.

목차

목차
  • 1장. 헬스케어 개론
  • 1.1 헬스케어란 무엇인가?
  • 1.1.1 헬스케어 비용
  • 1.1.2 헬스케어 기술의 진보와 질병
  • 1.1.3 인간의 수명 연장과 기대
  • 1.1.4 현대인의 고질병인 걱정과 두려움, 스트레스
  • 1.1.5 환자 정보와 프라이버시 보호
  • 1.2 헬스케어의 종류와 최신 기술 트렌드
  • 1.2.1 디지털 헬스케어의 종류
  • 1.2.2 최신 기술 트렌드 및 사례
  • 1.3 헬스케어 기업들의 특징
  • 1.4 헬스케어 빅데이터란 무엇인가?
  • 1.4.1 헬스케어 빅데이터 분석의 위치
  • 1.5 향후 전망
  • 마치며

  • 2장. 빅데이터 분석, 알고리듬, 머신러닝, 인공지능 개론
  • 2.1 빅데이터 분석
  • 2.1.1 빅데이터와 정보의 중요성
  • 2.1.2 빅데이터 분석
  • 2.1.3 빅데이터 분석가와 데이터 과학자
  • 2.1.4 빅데이터 처리 과정
  • 2.2 알고리듬
  • 2.3 인공지능, 머신러닝, 딥러닝
  • 2.3.1 머신러닝의 3가지 학습 방법
  • 2.3.2 ChatGPT
  • 향후 전망
  • 마치며

  • 3장. 파이썬 설치 및 환경 구축하기
  • 3.1 파이썬 설치하기
  • 3.2 IPython 알아보기
  • 3.3 주피터 랩 알아보기
  • 3.3.1 주피터 랩 설치
  • 3.3.2 주피터 노트북의 명령 모드
  • 3.4 VSCode를 주피터처럼 사용하기
  • 3.5 데이터 분석용 필수 라이브러리 설치하기
  • 3.5.1 NumPy
  • 3.5.2 pandas
  • 3.5.3 matplotlib
  • 3.5.4 scikit-learn
  • 3.5.5 statsmodels
  • 3.6 권장 시스템
  • 마치며

  • 4장. 파이썬 기본 문법과 빌트인 자료형 알아보기
  • 4.1 파이썬 문법
  • 4.1.1 주석
  • 4.1.2 함수
  • 4.1.3 익명 함수: 람다 함수
  • 4.1.4 흐름 제어문
  • 4.2 자료형
  • 4.2.1 리스트
  • 4.2.2 튜플
  • 4.2.3 딕셔너리
  • 4.2.4 집합
  • 마치며

  • 5장. NumPy 알아보기
  • 5.1 파이썬 리스트와 배열
  • 5.2 NumPy 알아보기
  • 5.3 ndarray(다차원 배열 객체) 다루기
  • 5.3.1 생성하기
  • 5.3.2 표준 데이터 타입
  • 5.3.3 속성: 차원 수와 모양새, 데이터 타입
  • 5.3.4 전치
  • 5.3.5 인덱싱과 슬라이싱
  • 5.3.6 배열 모양새 바꾸기
  • 5.3.7 팬시 인덱싱
  • 5.3.8 배열의 산술 연산
  • 5.3.9 배열 합치기 및 나누기
  • 5.3.10 조건문으로 배열 추출하기(데이터 마스킹)
  • 5.4 유니버설 함수
  • 5.4.1 대표적인 단항 유니버설 함수
  • 5.4.2 대표적인 이항 유니버설 함수
  • 5.4.3 합, 평균, 표준편차, 분산, 누적값 구하기
  • 5.4.4 난수 생성하기
  • 5.4.5 그 외 유니버설 함수
  • 5.5 배열 정렬하기
  • 5.6 배열 집합 메서드
  • 5.7 저장하기 및 불러오기
  • 5.8 1차원 배열로 변형하기
  • 5.9 브로드캐스팅
  • 5.10 구조화된 배열
  • 5.11 그 외 유용한 함수
  • 마치며

  • 6장. pandas 알아보기
  • 6.1 데이터 타입
  • 6.2 시리즈
  • 6.2.1 딕셔너리로부터 시리즈 생성하기
  • 6.2.2 명시적 인덱싱과 암묵적 인덱싱
  • 6.2.3 조건문으로 배열 추출: 마스킹
  • 6.2.4 벡터 연산
  • 6.2.5 그 외
  • 6.3 데이터프레임
  • 6.3.1 전치
  • 6.3.2 슬라이싱
  • 6.3.3 슬라이싱으로 역순 정렬하기
  • 6.3.4 마스킹
  • 6.3.5 데이터 연산하기
  • 6.4 누락된 데이터 다루기
  • 6.4.1 결측치 관련 메서드
  • 6.4.2 결측치 데이터 조사하기
  • 6.4.3 결측치 데이터 추출하기
  • 6.4.4 결측치 집계 구하기
  • 6.4.5 결측치를 특정값으로 채워넣기
  • 6.4.6 결측치 데이터 처리하기
  • 6.4.7 결측치 제거하기
  • 6.5 Index
  • 6.5.1 멀티(계층적)인덱스
  • 6.5.2 인덱스로 데이터 접근하기
  • 6.5.3 인덱스 설정 및 해제하기
  • 6.5.4 간단한 집계 및 통계
  • 6.6 데이터 합치기
  • 6.6.1 concat 함수
  • 6.6.2 append 메서드
  • 6.6.3 insert 메서드
  • 6.6.4 merge 함수와 메서드
  • 6.6.5 join 메서드
  • 6.6.6 combine 메서드
  • 6.6.7 combine_first 메서드
  • 6.6.8 update 메서드
  • 6.7 집계 및 통계 구하기
  • 6.7.1 rolling 및 expanding 메서드
  • 6.8 groupby 메서드
  • 6.8.1 aggregate/agg 메서드
  • 6.8.2 filter 메서드
  • 6.8.3 apply 메서드
  • 6.8.4 map 메서드
  • 6.8.5 applymap 메서드
  • 6.8.6 transform 메서드
  • 6.9 상관관계 및 공분산 구하기
  • 6.9.1 corr 메서드
  • 6.9.2 corrwith 메서드
  • 6.9.3 cov 메서드
  • 6.10 중복, 유일 요소 다루기
  • 6.11 데이터 피벗과 피벗테이블 구하기
  • 6.11.1 pivot 메서드
  • 6.11.2 pivot_table 함수와 메서드
  • 6.11.3 melt 메서드
  • 6.12 문자열 다루기
  • 6.12.1 정규표현식
  • 6.13 query 및 eval 메서드
  • 6.13.1 query 메서드
  • 6.13.2 eval 메서드
  • 6.14 시계열 데이터 다루기
  • 6.14.1 date_range 함수
  • 6.14.2 DatetimeIndex 만들기
  • 6.14.3 PeriodIndex 만들기
  • 6.14.4 TimedeltaIndex 만들기
  • 6.14.5 리샘플링하기
  • 6.14.6 shift 및 tshift 메서드
  • 6.15 카테고리(범주형) 데이터 다루기
  • 6.16 파일로부터 읽어오기 및 저장하기
  • 6.16.1 파일로부터 읽어오기
  • 6.16.2 파일로 저장하기
  • 6.17 그 외 메서드와 속성
  • 마치며

  • 7장. 데이터 수집과 전처리하기
  • 7.1 데이터 전처리에 앞서
  • 7.2 데이터 수집하기
  • 7.2.1 웹 크롤링
  • 7.2.2 DBMS로부터 CSV 파일 만들기
  • 7.3 데이터 전처리
  • 7.3.1 정제하기
  • 7.3.2 정규표현식으로 치환하기
  • 7.3.3 열 선택해서 수정하기
  • 마치며

  • 8장. 사례#1-데이터를 시각화해 보기
  • 8.1 MySQL 테이블에서 CSV 파일 추출하기
  • 8.1.1 MySQL shell 접속하기
  • 8.1.2 MySQL 사용자 권한 부여하기
  • 8.1.3 쿼리 결과를 CSV 파일로 저장하기
  • 8.2 히트맵 그래프로 시각화해 보기
  • 8.2.1 CSV 파일 내용 살펴보기
  • 8.2.2 시각화해 보기
  • 8.2.3 여러 그래프를 만들어 보기
  • 8.2.4 일부 데이터 제외한 그래프 만들어 보기
  • 마치며

  • 9장. 사례#2-시계열 데이터 다루기
  • 9.1 쿼리 결과를 CSV 파일로 저장하기
  • 9.2 시계열 데이터 시각화
  • 9.2.1 데이터의 정제
  • 9.2.2 활동지수 평가 함수 만들기
  • 9.2.3 10분 단위로 그룹화하기
  • 9.2.4 1시간 단위로 그룹화하기
  • 9.2.5 1일 단위로 그룹화하기
  • 9.3 1일 데이터 시각화
  • 9.3.1 데이터 정제 및 시각화
  • 9.3.2 그래프를 4개로 나열하기
  • 마치며

  • 10장. 사례#3-누적 막대그래프와 회귀 분석해 보기
  • 10.1 CSV 파일 살펴보기
  • 10.2 센서 29개의 한 달간 상태별 집계 데이터 시각화
  • 10.3 특정 센서의 활동 누적 데이터 비교
  • 10.4 주의와 낙상의 상관관계
  • 10.5 주의와 낙상 회귀 분석해 보기
  • 마치며

  • 11장. 자동화 및 웹 대시보드 만들어 보기
  • 11.1 배치 프로그램이란?
  • 11.2 구글 파이어베이스 다루기
  • 11.2.1 파이어베이스 실시간 DB 프로젝트 설정하기
  • 11.2.2 분석한 데이터를 파이어베이스 실시간 DB에 업로드하기
  • 11.3 웹 대시보드 만들기
  • 11.3.1 자바스크립트에서 파이어베이스 연동하기
  • 11.3.2 라인 차트 그래프 만들기
  • 11.3.3 누적 막대그래프 만들기
  • 11.4 자동화 시스템 구축하기
  • 11.4.1 크론탭으로 자동화하기
  • 11.4.2 파이썬 scheduler 라이브러리로 자동화하기
  • 11.4.3 윈도우 작업 스케줄러로 자동화하기
  • 마치며

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

[p. 231 : 1행]

pivot() 메서드와 동일한 기능으로 pandas에는 pivottable() 함수가 있다.
->
pivot
table() 메서드와 동일한 기능의 pandas의 pivot_table() 함수가 있다.