지능 기반 의료를 위한 헬스케어 애널리틱스
- 원서명Healthcare Analytics Made Simple: Techniques in healthcare computing using machine learning and Python (ISBN 9781787286702)
- 지은이비카스 쿠마르(Vikas (Vik) Kumar)
- 옮긴이고석범
- ISBN : 9791161755885
- 30,000원
- 2021년 11월 29일 펴냄
- 페이퍼백 | 320쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 데이터 과학
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
https://github.com/AcornPublishing/healthcare-analytics
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약
헬스케어에서 말하는 (1)건강 결과에 대한 개선 (2)비용 절감 (3)강화된 환자 경험이라는 헬스케어 3대 목표(Healthcare Triple Aim)가 있다. 여기에 한발 더 나아가 (4)헬스케어 제공자의 업무 환경 개선이라는 헬스케어 4대 목표(Quadraple Aim)를 달성할 수 있도록 이 책에서는 파이썬을 사용한 간단한 사례를 들어 인공지능(머신러닝) 활용법을 알려준다.
추천의 글
이제 애널리틱스(analytics)는 헬스케어(healthcare)의 핵심 요소로 자리매김했다. 헬스케어 애널리틱스는 치료를 최적화하고 결과를 개선하고 케어(care)의 비용을 줄이는 데 도움이 된다. 생의학적 데이터, 헬스케어, 운영 등에 대한 빅데이터가 준비돼 병원과 헬스케어 관련 기관은 과거 데이터를 이용해 환자의 미래와 클리니컬 패스웨이(clinical pathway)를 예측할 수 있게 됐다. 또한 예측 모델링과 헬스케어 데이터 과학을 통해 헬스케어 서비스 전달의 여러 측면을 효율적으로 구성할 수 있게 케어 패스웨이(care pathway)와 운영 전략을 디자인하는 데에도 도움을 줄 수 있다. 이렇게 헬스케어 애널리틱스는 흥미로운 분야이지만, 이를 수행하려면 의학과 데이터 과학에 관한 지식 외에도 데이터베이스, 프로그래밍, 데이터 시각화, 통계, 머신러닝과 같은 기술이 필요하다. 헬스케어 영역과 애널리틱스의 도구 및 방법을 아주 깊이 설명한 여러 책이 있지만 이런 것들을 하나로 통합해 쉽게 읽을 수 있도록 한 책은 많지 않다.
비카스 쿠마르 박사가 쓴 새롭고 흥미로운 이 책은 헬스케어, 컴퓨터 과학, 수학, 머신러닝의 핵심적인 학습 포인트를 융합해 설명하고 있다. 의사이자 데이터 과학자인 저자는 복잡한 의료 데이터를 보는 방법을 설명하고, SQL과 파이썬 언어로 헬스케어 애널리틱스의 여러 응용 사례를 소개한다.
이 책이 헬스케어 데이터의 핵심 개념에 관심 있는 데이터 과학자의 서재에 꼭 있어야 할 책이 될 것이라고 확신한다. 임상 정보학이나 헬스케어 정보학 전문가들이 머신러닝 모델을 설계, 개발, 검증하기 위한 핵심 기술을 얻는 데도 꼭 필요한 책이라고 생각한다. 또한 헬스케어 애널리틱스가 어떤 것인지 이해하고 싶은 의사나 바이오 전공자들에게도 유용하다. 나는 이 책을 재미있게 읽었고 여러 사례도 흥미롭게 따라 해봤다. 결론적으로, 이 책은 완전하고 포괄적인 안내를 제공해 헬스케어 애널리틱스 분야의 빈 틈을 채워주고 있어 컴퓨터 과학자, 소프트웨어 엔지니어, 데이터 과학자, 헬스케어 전문가 모두가 쉽게 읽을 수 있는 다학제적인 책이 될 것이다.
헬스케어 데이터 과학 및 생물정보학 디렉터, 노스웰 헬스(뉴욕시)
이 책에서 다루는 내용
◆ 헬스케어 인사이트, 재정, 입법
◆ 머신러닝과 헬스케어 프로세스간의 연관성
◆ SQL과 파이썬을 사용한 데이터 분석
◆ 헬스케어 질과 서비스 제공자의 수행 능력 측정
◆ 훌륭한 헬스케어 모델을 만드는 데 필요한 특징과 속성에 대한 파악
◆ 실제 헬스케어 데이터를 사용한 예측 모델
◆ 정형화된 임상 데이터를 사용한 예측 모델
◆ 헬스케어 애널리틱스의 미래
이 책의 대상 독자
파이썬이나 그와 비슷한 언어를 어느 정도 알고 있으면서 헬스케어 분야나 헬스케어 데이터를 사용한 예측 모델링에 관심이 있는 독자를 위한 책이다. 애널리틱스나 헬스케어에 관련한 컴퓨팅에 관심이 있다면 도움이 될 것이다. 또한 헬스케어에 사용될 수 있는 머신러닝을 공부하려는 학생들에게도 유용할 것이다.
이 책의 구성
1장. ‘헬스케어 애널리틱스 개론’에서는 헬스케어 애널리틱스에 대한 개론으로 그 정의와 몇 가지 기초 주제, 역사, 실제 사례를 소개하고, 이 책에서 사용될 소프트웨어를 다운로드해 설치하는 방법과 기본 사용법을 설명한다.
2장. ‘헬스케어의 기초’에서는 헬스케어의 기초를 알아본다. 미국에서 헬스케어가 어떻게 구조화되고 전달되는지 개략적으로 살펴본다. 그런 다음 헬스케어 애널리틱스에 관련된 법률들을 소개한다. 그리고 임상에서 사용되는 환자 데이터, 코딩 시스템을 설명하고 헬스케어 애널리틱스를 분류해본다.
3장. ‘머신러닝의 기초’에서는 머신러닝의 기초를 다룬다. 의학적 의사 결정에 사용되는 모델 프레임워크들과 머신러닝 파이프라인을 설명하고, 모델 평가를 위한 데이터 임포트(data import)를 다룬다.
4장. ‘컴퓨팅의 기초, 데이터베이스’에서는 컴퓨팅의 기초로 데이터베이스에 대한 개론을 설명한다. SQL 언어를 소개하고 헬스케어 예측적 애널리틱스를 실행할 때 SQL을 사용한 예를 소개한다.
5장. ‘컴퓨팅의 기초, 파이썬 언어’에서는 컴퓨팅의 기초로 파이썬 언어를 설명한다. 파이썬 언어를 개략적으로 살펴보고, 애널리틱스를 수행할 때 중요한 라이브러리들을 소개한다. 파이썬에서의 변수 타입, 데이터 구조, 함수, 모듈을 설명하고 판다스 패키지, 사이킷런의 기초적인 사용법을 다룬다.
6장. ‘헬스케어 질 측정’에서는 헬스케어 질 측정을 설명한다. 헬스케어 수행 평가에 사용되는 지표들과 미국에서 사용되는 가치 기반 접근법의 개요를 소개한다. 그리고 파이썬 언어로 서비스 제공자에 기초한 데이터를 다운로드하고 분석하는 예를 보여줄 것이다.
7장. ‘헬스케어 예측 모델 만들기’에서는 헬스케어에서의 예측 모델 만들기를 설명한다. 공개된 임상 데이터셋에 포함돼 있는 정보를 소개하고 다운로드 방법을 기술한다. 그런 다음 파이썬, 판다스, 사이킷런을 사용해 예측 모델을 만드는 방법을 살펴본다.
8장. ‘헬스케어 예측 모델 리뷰’에서는 헬스케어 예측 모델을 설명한다. 일부 선택된 질환들을 대상으로 한 헬스케어 예측적 애널리틱스 분야에서 현재 진행되고 있는 부분을 리뷰하고, 전통적인 방식을 사용한 방법들과 머신러닝 결과들을 비교해본다.
9장. ‘미래 - 헬스케어와 떠오르는 기술들’에서는 인터넷 사용을 통해 헬스케어 애널리틱스 분야에서 이뤄지고 있는 몇 가지 발전을 설명한다. 그리고 딥러닝 기술을 헬스케어 애널리틱스에 사용하는 것과 헬스케어 애널리틱스 분야의 도전적인 문제 및 한계점을 언급한다.
목차
목차
- 1장. 헬스케어 애널리틱스 개론
- 헬스케어 애널리틱스란?
- 헬스케어는 고급 컴퓨팅 기술을 사용한다
- 헬스케어 애널리틱스는 헬스케어 산업을 다룬다(너무나 당연하게도!)
- 헬스케어 애널리틱스는 의료의 질을 개선한다
- 건강 결과에 대한 개선
- 비용 절감
- 의료의 질 보장
- 헬스케어 애널리틱스의 기초
- 헬스케어
- 수학
- 컴퓨터 과학
- 헬스케어 애널리틱스의 역사
- 헬스케어 애널리틱스의 응용 사례
- 환자 케어를 위한 데이터 시각화
- 진단과 치료에 대한 예측
- 헬스케어 제공자의 질과 실적에 대한 측정
- 실제 환자 치료에 응용
- 소프트웨어 둘러보기
- 아나콘다
- 아나콘다 내비게이터
- 주피터 노트북
- 스파이더 통합 개발 환경
- SQLite
- 커맨드라인 툴
- 텍스트 에디터 설치
- 아나콘다
- 요약
- 참고 자료
- 헬스케어 애널리틱스란?
- 2장. 헬스케어의 기초
- 미국에서 헬스케어 서비스가 전달되는 방법
- 헬스케어 산업의 기초
- 보건 재정
- 행위별 수가제
- 가치 기반 케어
- 헬스케어 정책
- 환자 권리와 프라이버시 보호
- 전자 의무 기록 채용 정도
- 가치 기반 케어를 발전시키려는 노력
- 헬스케어 애널리틱스의 진보
- 환자 데이터: 환자에서 컴퓨터까지의 여정
- 초진 기록지
- 메타데이터와 주소
- 현병력
- 과거력
- 약물력
- 가족력
- 사회력
- 알러지
- 계통 문진(시스템 리뷰)
- 신체검사
- 객관적 데이터(검사실 검사, 이미징, 기타 검사)
- 평가와 계획
- 경과 기록지
- 초진 기록지
- 표준화된 임상 코드셋
- ICD
- CPT
- LOINC
- NDC
- SNOMED-CT
- 헬스케어 애널리틱스 쪼개 보기
- 인구 집단
- 의학적 과제
- 질병 선별
- 진단
- 질병 결과와 예후
- 치료에 대한 반응
- 데이터 포맷
- 정형 데이터
- 비정형 데이터
- 영상 기록
- 기타 데이터 포맷
- 질병
- 급성 대 만성 질환
- 암
- 다른 질환들
- 종합해보기 - 머신러닝의 목적을 명시적으로 표현하기
- 요약
- 참고 자료와 더 읽을거리
- 미국에서 헬스케어 서비스가 전달되는 방법
- 3장. 머신러닝의 기초
- 의학적 의사 결정을 위한 모델 프레임워크
- 나무와 비슷한 추론
- 알고리즘과 나무를 사용한 카테고리 분류 추론
- 대응하는 머신러닝 알고리즘 - 의사 결정 나무와 랜덤 프레스트
- 확률적 추론과 베이즈 정리
- 베이즈 정리를 사용해 임상적 확률 계산하기
- 대응하는 머신러닝 알고리즘 - 나이브 베이즈 분류자
- 기준표와 가중 합계 접근법
- 기준표
- 대응하는 머신러닝 알고리즘 - 선형 회귀와 로지스틱 회귀
- 패턴 연관과 신경망
- 복잡한 임상적 추론
- 해당되는 머신러닝 알고리즘 - 신경망과 딥러닝
- 나무와 비슷한 추론
- 머신러닝 파이프라인
- 데이터 로딩
- 데이터 정제와 사전 프로세싱
- 데이터 집계
- 데이터 파싱
- 데이터 타입 변환
- 결측값 다루기
- 데이터 탐색과 시각화
- 특징 선택
- 모델 파라미터 훈련
- 모델 성능 평가
- 민감도
- 특이도
- 양성 예측도
- 음성 예측도
- 거짓 양성률
- 정확도
- ROC 커브
- 정밀도-회상 커브
- 연속 타깃 변수
- 정리
- 참고 자료와 더 읽을거리
- 의학적 의사 결정을 위한 모델 프레임워크
- 4장. 컴퓨팅의 기초, 데이터베이스
- 데이터베이스의 개요
- SQL을 사용한 데이터 엔지니어링의 사례
- 이용 사례에 대한 설명 - 심장 전문 병원을 위한 사망률 예측
- 병원 데이터베이스
- PATIENT 테이블
- VISIT 테이블
- MEDICATIONS 테이블
- LABS 테이블
- VITALS 테이블
- MORT 테이블
- 병원 데이터베이스
- SQLite 세션 시작
- 데이터 엔지니어링, SQL을 사용해 한 번에 하나의 테이블 다루기
- 쿼리 셋 #0: 여섯 개의 테이블 생성
- 쿼리 셋 #0a: PATIENT 테이블 만들기
- 쿼리 셋 #0b: VISIT 테이블 만들기
- 쿼리 셋 #0c: MEDICATIONS 테이블 만들기
- 쿼리 셋 #0d: LABS 테이블 만들기
- 쿼리 셋 #0e: VITALS 테이블 만들기
- 쿼리 셋 #0f: MORT 테이블 만들기
- 쿼리 셋 #0g: 테이블 보기
- 쿼리 셋 #1: MORT_FINAL 테이블 만들기
- 쿼리 셋 #2: MORT_FINAL 테이블에 열 추가하기
- 쿼리 셋 #2a: ALTER TABLE을 사용해 열 추가하기
- 쿼리 셋 #2b: JOIN을 사용해 열 추가
- 쿼리 셋 #3: 데이터 조작 - 나이 계산
- 쿼리 셋 #4: 진단명에 대한 비닝과 집계
- 쿼리 셋 #4a: 울혈성심부전 진단에 대한 비닝
- 쿼리 셋 #4b: 다른 진단명에 대한 비닝
- 쿼리 셋 #4c: 합을 이용해 심장병을 하나로 모으기
- 쿼리 셋 #4d: 카운트를 사용한 심장 진단의 집계
- 쿼리 셋 #5 - 약물 개수 구하기
- 쿼리 셋 #6: 비정상 혈액 검사 결과 비닝
- 쿼리 셋 #7: 결측값 대치
- 쿼리 셋 #7a: 체온 결측값을 정상 범위로 대치하기
- 쿼리 셋 #7b: 체온 결측값을 평균값으로 대치하기
- 쿼리 셋 #7c: 결측 BNP 값을 균일 분포를 갖는 값으로 대치하기
- 쿼리 셋 #8: 타깃 변수 추가하기
- 쿼리 셋 #9: 최종 MORTFINAL2 테이블 보기
- 쿼리 셋 #0: 여섯 개의 테이블 생성
- 요약
- 참고 자료와 더 읽을거리
- 5장. 컴퓨팅의 기초, 파이썬 언어
- 변수와 데이터 타입
- 문자열
- 숫자형 데이터 타입
- 데이터 구조와 데이터 저장소
- 리스트
- 튜플
- 딕셔너리
- 셋
- 파이썬 언어를 사용한 프로그래밍 - 예시
- 판다스 소개
- 판다스 데이터프레임
- 데이터 불러오기
- 파이썬 데이터 구조에서 판다스로 데이터 불러오기
- 플랫 파일에서 판다스로 데이터 불러오기
- 데이터베이스에서 판다스로 데이터 불러오기
- 흔히 사용되는 데이터프레임 연산
- 열 추가
- 열 제거
- 함수를 여러 개의 열에 적용
- 데이터프레임 결합시키기
- 데이터프레임 열들을 리스트로 변환하기
- 데이터프레임의 값을 지정하거나 접근하기
- 행 필터링과 정렬
- SQL 유사 연산
- 사이킷런 소개
- 샘플 데이터
- 데이터 전처리
- 카테고리형 변수에 대한 원핫 인코딩
- 스케일링과 센터링
- 이진화
- 결측값 대체
- 특징 선택
- 머신러닝 알고리즘
- 일반화 선형 모델
- 앙상블 방법
- 추가 머신러닝 알고리즘
- 성능 측정
- 추가 애널리틱스 라이브러리
- 넘파이와 사이파이
- 맷플롯립
- 요약
- 변수와 데이터 타입
- 6장. 헬스케어 질 측정
- 헬스케어 평가법에 대한 소개
- 미국 메디케어의 가치 기반 프로그램
- 병원 성과 기반 수가지급(HVBP) 프로그램
- 도메인과 평가지표
- 임상 케어 도메인
- 환자 및 보호자 케어 경험 도메인
- 안전 도메인
- 효율성과 비용 절감 도메인
- 도메인과 평가지표
- 병원 재입원 경감 프로그램(HRR)
- 원내 발생 합병증 경감(HAC) 프로그램
- 원내 감염 도메인
- 환자 안전 도메인(PSI)
- 말기 신질환 환자 질 인센티브 프로그램
- 전문 요양 시설 가치 기반 프로그램
- 가정 건강 가치 기반 프로그램
- MIPS
- 질
- 더 나은 케어 정보
- 개선 활동
- 비용
- 기타 가치 기반 프로그램
- HEDIS
- 주 정부 평가지표
- 파이썬을 사용해 투석 기관 비교하기
- 데이터 다운로드
- 주피터 노트북 세션으로 데이터 불러오기
- 데이터 행과 열 탐색
- 지리적인 탐색
- 총점에 기반해 투석 기관 살펴보기
- 투석 기관에 대한 다른 내용 분석
- 파이썬을 사용한 병원 비교
- 데이터 다운로드
- 주피터 노트북 세션으로 데이터 읽기
- 테이블 탐색
- HVBP 테이블 머징
- 요약
- 참고 자료
- 7장. 헬스케어 예측 모델 만들기
- 헬스케어 분야에서 예측적 애널리틱스에 대한 소개
- 모델링 과제 - 응급실 내원 환자의 퇴원 형태 예측
- 데이터셋 얻기
- NHAMCS 데이터셋이란?
- NHAMCS 데이터 다운로드
- ED2013 파일 다운로드
- body_namcsopd.pdf라는 설문 항목 리스트에 대한 설명서 다운로드
- 데이터 관련 문서 doc13_ed.pdf 다운로드
- 주피터 노트북 세션 시작하기
- 데이터셋 임포트
- 메타데이터 로딩
- ED2013 데이터 로딩
- 반응 변수 만들기
- 훈련셋과 테스트셋으로 데이터 나누기
- 예측 변수에 대한 전처리
- 방문 정보
- 인구학적 정보
- 응급실 중증도 분류에 대한 변수들
- 재정적인 변수
- 활력 징후
- 방문 이유에 대한 코드
- 손상에 대한 코드
- 진단 코드
- 약물 과거력
- 검사 결과
- 시술
- 약물 코드
- 의료 서비스 제공자 정보
- 퇴실 배치 정보
- 대치된 열들
- 아이디 역할을 하는 변수들
- 전자 의무 기록 상태에 대한 열들
- 자세한 약물 정보
- 기타 정보
- 마지막 전처리 작업
- 원핫 인코딩
- 숫자형 변환
- 넘파이 배열 변환
- 모델 만들기
- 로지스틱 회귀
- 랜덤 포레스트
- 신경망
- 모델을 사용한 예측
- 모델의 개선
- 요약
- 참고 자료와 더 읽을거리
- 8장. 헬스케어 예측 모델 리뷰
- 예측 헬스케어 애널리틱스 최신 지견
- 전체 심혈관 질환 위험도
- 프레이밍햄 위험도
- 심혈관 질환 위험도와 머신러닝
- 울혈성심부전
- 울혈성심부전의 진단
- 머신러닝으로 울혈성 심부전 진단
- 울혈성심부전에서 머신러닝의 다른 응용 사례들
- 암
- 암이란?
- 암에 대한 머신러닝 응용
- 암의 중요한 특징
- 일반적인 임상 데이터
- 암 특이 임상 데이터
- 영상 데이터
- 유전체 데이터
- 프로테옴 데이터
- 유방암 예측 사례
- 전통적 유방암 선별
- 유방암 선별과 머신러닝
- 재입원 예측
- LACE 위험도와 HOSPITAL 위험도
- 재입원 모델링
- 기타 질환들
- 요약
- 참고 자료와 더 읽을거리
- 9장. 미래 - 헬스케어와 떠오르는 기술들
- 헬스케어 애널리틱스와 인터넷
- 헬스케어와 사물 인터넷
- 헬스케어 애널리틱스와 소셜 미디어
- 독감 감시와 예측
- 머신러닝을 사용한 자살 예측
- 헬스케어와 딥러닝
- 딥러닝에 대한 간단한 소개
- 헬스케어에서의 딥러닝
- 딥 피드 포워드 네트워크
- 이미지에 대한 컨볼루션 신경망
- 순서를 가진 데이터에 대한 순환 신경망
- 장애물, 윤리적 문제, 한계
- 장애물
- 윤리적 문제들
- 한계점
- 헬스케어 애널리틱스와 인터넷