헬스케어 분석을 위한 머신러닝 [파이썬, 주피터 노트북, 텐서플로, 케라스를 이용한 적용 사례]
- 원서명Machine Learning for Healthcare Analytics Projects : Build smart AI applications using neural network methodologies across the healthcare vertical market (ISBN 9781789536591)
- 지은이에듀오닉스 러닝 솔루션스(Eduonix Learning Solutions)
- 옮긴이고석범
- ISBN : 9791161756233
- 25,000원
- 2022년 03월 31일 펴냄
- 페이퍼백 | 216쪽 | 188*235mm
- 시리즈 : 데이터 과학
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
https://github.com/koseokbum/ml4hap2
요약
의료의 미래를 생각하는 의과 대학생과 의료인들의 의료 인공지능에 대한 관심이 나날이 높아지면서 관련 주제에 대한 논의도 뜨겁다. 이 책은 실질적인 사례로 헬스케어 관련 머신러닝을 구현하는 방법을 소개한다. 각 사례는 간단하면서도 머신러닝 프로젝트를 수행하는 단계와 방법이 녹아 있다. 이 책에서 소개하는 구체적인 사례를 통해 깊이 관련 내용을 탐구할 수 있는 생각의 틈새를 마련할 수 있다. 한국어판에서는 머신러닝을 실행시키는 주요 도구인 주피터 노트북에 대한 설명도 덧붙였다.
이 책에서 다루는 내용
◆ 판다스 데이터프레임(Pandas DataFrame) 구성 방법 설명
◆ 환자의 데이터셋으로 발병 예측하기
◆ 텍스트 데이터를 숫자형 데이터로 바꾸기
◆ 히스토그램을 훈련용 데이터셋과 테스트용 데이터셋으로 나누기
◆ 드롭아웃 정규화로 과적합 줄이는 방법 소개
이 책의 대상 독자
머신러닝 알고리듬을 적용해 스마트 인공지능 애플리케이션을 만들어보려는 데이터 과학자, 머신러닝 기술자, 헬스케어 전문가를 위한 책이다. 파이썬이나 다른 프로그래밍 언어의 기초 지식을 갖춘 독자를 대상으로 한다.
이 책의 구성
1장, ‘유방암 진단’에서는 유방암 진단 프로젝트를 다룬다. 데이터를 전처리하고 데이터에 대한 이해를 높이기 위한 탐색 과정을 설명한다. 또한 히스토그램과 산점도를 만들어보면서 분포와 변수들 간의 선형 관계도 살펴본다. 테스트 매개변수를 구현하고 KNN 분류자와 SVC 모델을 만들고, 분류 보고서를 사용해 결과들을 비교해볼 것이다.
2장, ‘당뇨병 발병 예측’에서는 케라스(Keras)로 딥 신경망을 구성해볼 것이다. 사이킷런(Scikit-learn)의 그리드 탐색(Grid search)을 사용해 최적 초매개변수(hyperparameter)를 탐색하고 초매개변수를 조절해 모델을 최적화하는 방법도 배운다.
3장, ‘DNA 분류하기’에서는 대장균 염기서열이 프로모터(promotor)인지 여부를 분류해주는 머신러닝 모델을 만들어볼 것이다. 분류 알고리듬으로 모델을 만들고 학습시킨 후 분류 보고서를 사용해 모델들의 성능을 서로 비교해본다.
4장, ‘관상 동맥 질환 진단’에서는 사이킷런과 케라스를 사용한다. 판다스(Pandas)의 read_csv() 함수를 사용해 UCI 데이터 저장소에서 데이터를 임포트하고, 이것을 프로세싱한다. 데이터를 정리해 기술하는 방법을 배우고 우리가 다루는 것이 무엇인지 알아내기 위해 히스토그램을 출력해볼 것이다.
5장, ‘머신러닝을 이용한 자폐증 스크리닝’에서는 약 90%의 정확도로 자폐증을 예측하는 머신러닝을 만들어볼 것이다. 카테고리형 데이터를 처리하는 방법인 원-핫 인코딩을 설명한다. 드롭아웃 정규화로 과적합을 줄이는 방법도 소개한다. 부록에서는 역자가 추가로 작성한 내용으로, 파이썬 데이터 과학 가이드를 제공한다. 파이썬 언어 환경을 구성하는 방법과 데이터 과학에 필수적인 주피터 노트북을 중심으로 다룬다.
목차
목차
- 01장. 유방암 세포 진단
- SVM, KNN 모델을 사용한 유방암 진단
- 데이터 전처리와 데이터 탐색
- 데이터셋 분리
- 모델 학습
- 머신러닝을 사용한 예측
- 요약
- 02장. 당뇨병 발병 예측
- 딥러닝과 그리드 탐색을 사용한 당뇨병 진단
- 데이터셋 소개
- 데이터 전처리
- 데이터 정규화
- 케라스 모델 정의
- 사이킷런을 사용한 그리드 탐색법 수행
- 드롭아웃 정규화를 사용해 과적합 줄이기
- 최적 초매개변수 찾기
- 뉴런의 개수 최적화
- 최적의 초매개변수를 사용해 예측하기
- 보너스
- 요약
- 03장. DNA 분류하기
- DNA 염기서열 분류
- 데이터 전처리
- DNA 염기서열 생성
- 머신러닝을 이용한 염기 서열 분류
- 요약
- DNA 염기서열 분류
- 04장. 관상 동맥 질환 진단
- 데이터셋
- 결측값 처리
- 데이터셋 분리
- 신경망 훈련
- 다중 분류와 이진 분류의 비교
- 요약
- 05장. 머신러닝을 이용한 자폐증 스크리닝
- 머신러닝을 이용한 ADS 스크리닝
- 데이터셋 소개
- 필요한 라이브러와 데이터 임포트
- 데이터셋 탐색
- 데이터 전처리
- 데이터셋을 훈련 데이터와 테스트 데이터로 나누기
- 신경망 구현
- 신경망 테스트
- 드롭아웃 정규화를 사용해 과적합 해결하기
- 요약
- 부록 A. 파이썬 데이터 과학을 시작하는 보건 의료인을 위한 안내서
- 컴퓨터에 파이썬 설치
- 파이썬 버전에 대해
- 아나콘다 파이썬 배포판 설치
- 파이썬 가상 환경 만들기
- 콘다 가상 환경 만들기
- 파이썬 패키지는 가상 환경에 설치
- 파이썬 패키지를 설치
- 데이터 과학을 위한 최고의 실행 환경: 주피터 노트북
- 가상 환경에 jupyter 패키지 설치와 실행
- 주피터 노트북 실행시키기
- 주피터 노트북 파일
- 프로젝트 폴더에서 주피터 노트북 실행하기
- 주피터 노트북의 발전된 형태: 주피터랩
- 플레인 파이썬 인터프리터, 파이썬 스크립트 실행, ipython 인터프리터
- ipython 인터프리터 좀 더 들여다보기
- 주피터 노트북 커널(Kernel)에 대해
- 구글 콜래보터리
- 주피터 노트북의 활용
- 요약
- 컴퓨터에 파이썬 설치
- 부록 B. 주피터 노트북, 주피터랩, VS Code
- 주피터 노트북 설치와 실행
- 주피터 노트북 셀에 내용을 입력하는 방법
- 셀의 종류
- 파이썬 코드의 입력과 실행
- 셀 모드와 단축키 사용
- ipython 커널에서 유래한 기능
- 리치 아웃풋: ipython 디스플레이 시스템
- 노트북 대시보드, 주피터 노트북 파일 관리
- 주피터 노트북 파일과 활용
- 주피터 노트북의 기능 확장(nbextensions)
- R 커널 추가하기
- 주피터 노트북에 R 언어에 대한 커널을 추가하기
- 주피터랩
- 주피터랩의 설치와 실행
- 노트북 작업
- 다양한 콘텐츠 뷰어
- 사용자 커스터마이징
- 광대한 주피터 에코시스템
- Visual Studio Code 텍스트 편집기와 주피터 노트북
- Visual Studo Code 설치와 간단한 사용
- VS Code에서 파이썬 사용하기
- 컴퓨테이셔널 노트북